Ticket #37604

IBM拡張文字からEUC-JISX0213への変換バグ

Open Date: 2017-10-26 18:45 Last Update: 2017-11-13 04:18

Reporter:
Owner:
(None)
Type:
Status:
Closed
Component:
(None)
MileStone:
(None)
Priority:
5 - Medium
Severity:
5 - Medium
Resolution:
Fixed
File:
None

Details

https://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932
wikiに掲載されているIBM拡張文字について
UTF-8→EUC-JISX0213/EUC-JIS-2004の変換において、
誤った文字へ変換されてしまう文字があります。

ざっと数えた感じでは
「JIS X 0212-1990に登録されているIBM拡張文字」 280字のうち50字が誤変換
「JIS X 0213:2004に登録されているIBM拡張文字」 304字のうち1字が誤変換
「CP932に定義されているが、JIS X 0212・JIS X 0213にない文字」 35字のうち34字が誤変換
程度と思われます。

例です。
「JIS X 0212-1990に登録されているIBM拡張文字」 280字のうち50字が誤変換

Unicode文字UTF-8EUC-JISX0213(正常)EUC-JISX0213(nkf出力)
U4F39E4BCB9無し8FF9CE(蹢)


「JIS X 0213:2004に登録されているIBM拡張文字」 304字のうち1字が誤変換

Unicode文字UTF-8EUC-JISX0213(正常)EUC-JISX0213(nkf出力)
UFFE2EFBFA2無しA2CC(¬) Windows: U+FFE2なのでOK
UFFE4EFBFA4無し8FF9B6(趄)


「CP932に定義されているが、JIS X 0212・JIS X 0213にない文字」 35字のうち34字が誤変換

Unicode文字UTF-8EUC-JISX0213(正常)EUC-JISX0213(nkf出力)
U2211E28891無しADF4 (reserved)Windows: U+2211なのでOK
U4EFCE4BBBC無し8FF4AF(𥿔)


# printf '\xe4\xbc\xb9' | nkf --ic=UTF-8 --oc=EUC-JISX0213 | od -tx1
0000000 8f f9 ce             ←本来は出力無し
0000003

# nkf --version
Network Kanji Filter Version 2.1.4 (2015-12-12)



また、
EUC-JP-MS→EUC-JISX0213/EUC-JIS-2004の変換においては、
ほぼ全てのIBM拡張文字が誤変換されます。

Ticket History (2/2 Histories)

2017-10-26 18:45 Updated by: a-nakajima
  • New Ticket "IBM拡張文字からEUC-JISX0213への変換バグ" created
2017-11-13 04:18 Updated by: naruse
  • Resolution Update from None to Fixed
  • Status Update from Open to Closed
  • Ticket Close date is changed to 2017-11-13 04:18
Comment

おぉ、確かに。 f2d8fa52dbf660812eec5e9694126b09e607019d で修正しました。 報告ありがとうございました。

Attachment File List

No attachments

Edit

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Login