= ZIPCODE-Romaji の配布ファイルについて =
* ZIPCODE-Romaji の成果物 (データファイル) は zip 形式で提供します。
* データファイルのエンコードは シフトJIS です。
* 郵便番号情報に含まれる文字セットは多種多様なため、CSV形式の場合はパーサーで処理しきれない場合があります。[[BR]]このため、データファイルは TSV (tab separated values) での配布となります。
== 主な配布ファイル ==
ZIPCODE-Romaji のアーカイブには以下のファイルが含まれます。
||ZIPCODE-Romaji-README.txt||テキスト||配布ファイルのREADME||
||ZIPCODE-Romaji-FORMAT.txt||テキスト||配布ファイルの書式情報||
||[#zipcode-romaji-tsv ZIPCODE-Romaji.tsv]||TSV||ローマ字版 郵便番号辞書 (TSV)||
||[#common_names_txt common_names.txt]||テキスト||カタカナ語辞書||
||[#hankaku_zenkaku hankaku.txt]||テキスト||ローマ字変換テーブル (半角)||
||[#hankaku_zenkaku zenkaku.txt]||テキスト||ローマ字変換テーブル (全角)||
||[#seikei_txt seikei.txt]||テキスト||整形用 正規表現一覧||
||[#wakachi_tsv wakachi.tsv]||TSV||分かち書き辞書||
== ZIPCODE-Romaji.tsv #zipcode-romaji-tsv
* ローマ字変換の生成物です。
* 形式は TSV (Tab Separated Values) です。
* データ例:
{{{
0600000 北海道 札幌市中央区 以下に掲載がない場合 ホッカイドウ サッポロシチュウオウク イカニケイサイガナイバアイ 北海道 札幌市 中央区 ホッカイドウ サッポロシチュウオウク Chu-o-ku, Sapporo-shi, Hokkaido 1
0640941 北海道 札幌市中央区 旭ケ丘 ホッカイドウ サッポロシチュウオウク アサヒガオカ 北海道 札幌市 中央区 旭ケ丘 ホッカイドウ サッポロシチュウオウク アサヒガオカ Asahigaoka, Chu-o-ku, Sapporo-shi, Hokkaido 0
}}}
||'''フィールド名'''||'''桁数'''||'''用途'''||'''出自'''||
||郵便番号||7||郵便番号の7桁表示||日本郵便の郵便番号辞書||
||都道府県||自由||都道府県の漢字表記||日本郵便の郵便番号辞書||
||郡市区||自由||郡市区の漢字表記||日本郵便の郵便番号辞書||
||町村以下||自由||町村以下の漢字表記||日本郵便の郵便番号辞書||
||都道府県(カナ))||自由||同上の半角カナ表記||日本郵便の郵便番号辞書||
||郡市区(カナ))||自由||同上の半角カナ表記||日本郵便の郵便番号辞書||
||町村以下(カナ))||自由||同上の半角カナ表記||日本郵便の郵便番号辞書||
||分かち書き結果(漢字)||自由||都道府県郡市区町村の漢字表記||生成物||
||分かち書き結果(半角カナ)||自由||都道府県郡市区町村の半角カナ表記||生成物||
||分かち書き結果(ローマ字)||自由||都道府県郡市区町村のローマ字表記||生成物||
||ワイルドカードフラグ||1||0 - 完全一致用 / 1 - 前方一致可能||生成物||
* ワイルドカードフラグについて
* ワイルドカードフラグが設定されている項目は郵便番号が完全一致する項目が無い場合に使用します。
* 郵便番号を末尾から一字ずつけずり、ワイルドカードフラグが設定されている項目に対して前方一致すると部分的な照合が可能です。
== common_names.txt #common_names_txt
* カタカナ語辞書です。
* 郵便番号辞書にはローマ字に直訳すると表記が長かったり、元が外国語だったため不自然になってしまう言葉が多く存在します。[[BR]]カタカナ語辞書ではそれらのカタカナ語を元の英字に戻すための対応表が記載されています。
* 例:
{{{
メイジヤスダセイメイ=Meiji Yasuda Seimei,明治安田生命
スミトモフドウサン=Sumitomo Fudosan,住友不動産
セカイボウエキ=World Trade,世界貿易
ビルディング=Bldg
ミッドランド=Midland
パシフィック=Pacific
ミッドタウン=Midtown
}}}
形式:
''変換元カタカナ表記''=''変換先英字表記 ''![,確認用漢字表記]
== hankaku.txt & zenkaku.txt #hankaku_zenkaku
* カタカナからローマ字に変換する際のヘボン式変換表(ただし一部変更)です。
* 照合時に使い易いように文字長順にソートしてあります。
* [#seikei_txt 整形用正規表現] と組み合わせて使用します。
== seikei.txt #seikei_txt
* カタカナからヘボン式ローマ字に変換した後に可読性を上げるために適用する正規表現の一覧です。
* マッチ結果を置換する場合は最初のマッチ項目が '''\1''' となります。
||'''検索'''||'''置換'''||'''用途'''||
||tt(![a-z])||\1x\1x||小書きの「ッ」は次の音の二連続にする||
||tt||||単語末の「ッ」を削除する||
||x||||小書きの母音を昇格する||
||a{2,}||a-||母音が連続する場合は長音にする(ア)||
||i{2,}||i-||母音が連続する場合は長音にする(イ)||
||u{2,}||u-||母音が連続する場合は長音にする(ウ)||
||e{2,}||e-||母音が連続する場合は長音にする(エ)||
||o{2,}||o-||母音が連続する場合は長音にする(オ)||
||ou||o-||ouはo-にする||
||n(![pbm])||m\1||pbmの直前のnをmにする||
||!^(.*)-$||\1||単語末の長音を削除する||
== TODO ==
* 残りはTODO