From naruse @ airemix.com Sat Nov 26 14:08:43 2005 From: naruse @ airemix.com (NARUSE, Yui) Date: Sat, 26 Nov 2005 14:08:43 +0900 Subject: [Nkf-dev 1] =?iso-2022-jp?b?bmtmIDIuMC41IBskQiQrJGkkTkpROTkbKEI=?= =?iso-2022-jp?b?GyRCJE4kXiRIJGEbKEI=?= Message-ID: <4387EDDB.10104@airemix.com> メーリングリストを作っては見たものの全く使っていないので、 たまには流してみる事にします。 さて、nkf2.0.5がリリースされてから半年経ち、いくつか変更が入っているため、 その変更についてまとめます。 == ひらがなカタカナ変換のドキュメント ひらがなカタカナ変換のドキュメントが逆になっていたのを修正しました。 正しいドキュメントは以下の通りです。 \-h1 \--hiragana カタカナ->ひらがな \-h2 \--katakana ひらがな->カタカナ \-h3 \--katakana-hiragana カタカナ<->ひらがな == UTF8-MAC の入力への対応 UTF8-MACの入力に対応しました。(出力は非対応) == --internal-unicode オプションの追加(実験的) 実験的なオプション --internal-unicode オプションを追加しました。 指定する事で内部処理をUnicodeのまま行います。 このオプションを使用すると --hiragana のような、 内部処理がEUC-JPである事を前提とした処理が動かない制限があります。 == fallback オプションの追加 --fb-{skip, html, xml, perl, java, subchar} オプションを追加しました。 UnicodeからShift_JIS/EUC-JP/ISO-2022-JPに変換する際に、 変換できなかった文字をどう扱うかを指定できます。 == --ic --oc オプションの追加 --ic= --oc= オプションを追加しました。 Shift_JIS, CP932, EUC-JP, CP51932, eucJP-ms, ISO-2022-JP, UTF-8N (UTF-8), UTF-8-BOM, UTF-16BE, UTF-16BE-BOM(UTF-16), UTF-16LE, UTF-16LE-BOM 入力には UTF8-MACも指定することができます。 == マッピングの追加、変更 JIS系の文字コードとUnicodeとの対応を定義することにしました。 これらからUnicodeへのdecodeは、定義されている範囲での変換が正しく行われ る事を保障します。 定義されていない範囲での変換は保障しません。 Unicodeからのencodeは、定義されている範囲での変換が正しく行われる事を保 障し、 定義されていない範囲での変換はエラーとなり(fallback可能)、 Unicodeとして不正な文字はスキップされる事を保障します。 === eucJP-ascii TOG/JVC CDE/Motif 技術検討 WG の定めた、eucJP-open と Unicode 間のコード 変換規則で、 「JIS X 0221 式の変換 (ASCII と併用する場合)」のこと。 http://www.opengroup.or.jp/jvc/cde/sjis-euc.html http://www.opengroup.or.jp/jvc/cde/ucs-conv.html http://nkf.sourceforge.jp/ucm/eucJP-ascii.ucm === eucJP-ms TOG/JVC CDE/Motif 技術検討 WG の定めた、eucJP-open と Unicode 間のコード 変換規則で、 「Windows NT 3.51 で採用されている変換規則」のこと。 http://www.opengroup.or.jp/jvc/cde/sjis-euc.html http://www.opengroup.or.jp/jvc/cde/ucs-conv.html http://nkf.sourceforge.jp/ucm/eucJP-ms.ucm === CP932 IANA では Windows-31J として登録されているコードセット。 Microsoft Windows における Shift_JIS。 http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/Windows-31J-charset.html http://www.microsoft.com/globaldev/reference/dbcs/932.htm http://nkf.sourceforge.jp/ucm/cp932.ucm === CP51932 Microsoft Windows における EUC-JP。 IBM拡張文字の範囲をJISX0208、NEC特殊文字、NEC選定IBM拡張文字によせている http://www.microsoft.com/globaldev/reference/dbcs/932.htm http://nkf.sourceforge.jp/ucm/cp51932.ucm === eucJP-nkf nkf デフォルトの EUC-JP。 基本的には eucJP-ascii であるが、3bytes になってしまう範囲は CP51932 を 用いる。 http://nkf.sourceforge.jp/ucm/eucJP-nkf.ucm -- NARUSE, Yui DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA