Ticket #42654

UTF-8 without BOM「日本語①」の自動判定

Open Date: 2021-07-21 20:37 Last Update: 2021-07-21 20:40

Reporter:
Owner:
(None)
Type:
Status:
Closed
Component:
(None)
MileStone:
(None)
Priority:
5 - Medium
Severity:
5 - Medium
Resolution:
None
File:
None

Details

こんにちは,日本語 TeX の開発関係者です。既に報告があるのかもしれませんが,過去チケットを検索しても見つけられませんでしたので報告します。

現在,Windows 版の pTeX(日本語 TeX)では nkf をライブラリとして組み込んで文字コード推定に使わせて頂いております。その中で,nkf が文字コード推定を誤る例が(ずいぶん前から)指摘されていることに今更気づきました。

確かに nkf 単体で「日本語①」を test.txt として UTF-8 without BOM で保存しても,nkf --guess test.txt で Shift_JIS と返ってきます。ところが

  • 「日」だけ → UTF-8
  • 「日本」まで → UTF-8
  • 「日本語」まで → UTF-8
  • 「日本語①」まで → Shift_JIS
  • 「日本語①あ」まで → UTF-8

となり「日本語①」の時だけ判定を誤るのを不思議に思っています。100%判定が当たるとは思っていませんが,不思議なので理由だけでも分かるとありがたいです。よろしくお願いします。

Ticket History (2/2 Histories)

2021-07-21 20:37 Updated by: aminophen
  • New Ticket "UTF-8 without BOM「日本語①」の自動判定" created
2021-07-21 20:40 Updated by: aminophen
  • Status Update from Open to Closed
Comment

申し訳ありません,なぜか2個オープンしてしまいました。 https://osdn.net/projects/nkf/ticket/42653 に統一します。

Attachment File List

No attachments

Edit

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Login