• Showing Page History #59013

ZIPCODE-Romaji の配布ファイルについて

  • ZIPCODE-Romaji の成果物 (データファイル) は zip 形式で提供します。
  • データファイルのエンコードは シフトJIS です。
  • 郵便番号情報に含まれる文字セットは多種多様なため、CSV形式の場合はパーサーで処理しきれない場合があります。
    このため、データファイルは TSV (tab separated values) での配布となります。

主な配布ファイル

ZIPCODE-Romaji のアーカイブには以下のファイルが含まれます。

ZIPCODE-Romaji-README.txtテキスト配布ファイルのREADME
ZIPCODE-Romaji-FORMAT.txtテキスト配布ファイルの書式情報
ZIPCODE-Romaji.tsvTSVローマ字版 郵便番号辞書 (TSV)
common_names.txtテキストカタカナ語辞書
hankaku.txtテキストローマ字変換テーブル (半角)
zenkaku.txtテキストローマ字変換テーブル (全角)
seikei.txtテキスト整形用 正規表現一覧
wakachi.tsvTSV分かち書き辞書

ZIPCODE-Romaji.tsv

  • ローマ字変換の生成物です。
  • 形式は TSV (Tab Separated Values) です。
  • データ例:
    0600000	北海道	札幌市中央区	以下に掲載がない場合	ホッカイドウ	サッポロシチュウオウク	イカニケイサイガナイバアイ	北海道 札幌市 中央区	ホッカイドウ サッポロシチュウオウク	Chu-o-ku, Sapporo-shi, Hokkaido	1
    0640941	北海道	札幌市中央区	旭ケ丘	ホッカイドウ	サッポロシチュウオウク	アサヒガオカ	北海道 札幌市 中央区 旭ケ丘	ホッカイドウ サッポロシチュウオウク アサヒガオカ	Asahigaoka, Chu-o-ku, Sapporo-shi, Hokkaido	0
    
フィールド名桁数用途出自
郵便番号7郵便番号の7桁表示日本郵便の郵便番号辞書
都道府県自由都道府県の漢字表記日本郵便の郵便番号辞書
郡市区自由郡市区の漢字表記日本郵便の郵便番号辞書
町村以下自由町村以下の漢字表記日本郵便の郵便番号辞書
都道府県(カナ))自由同上の半角カナ表記日本郵便の郵便番号辞書
郡市区(カナ))自由同上の半角カナ表記日本郵便の郵便番号辞書
町村以下(カナ))自由同上の半角カナ表記日本郵便の郵便番号辞書
分かち書き結果(漢字)自由都道府県郡市区町村の漢字表記生成物
分かち書き結果(半角カナ)自由都道府県郡市区町村の半角カナ表記生成物
分かち書き結果(ローマ字)自由都道府県郡市区町村のローマ字表記生成物
ワイルドカードフラグ10 - 完全一致用 / 1 - 前方一致可能生成物
  • ワイルドカードフラグについて
    • ワイルドカードフラグが設定されている項目は郵便番号が完全一致する項目が無い場合に使用します。
    • 郵便番号を末尾から一字ずつけずり、ワイルドカードフラグが設定されている項目に対して前方一致すると部分的な照合が可能です。

common_names.txt

  • カタカナ語辞書です。
  • 郵便番号辞書にはローマ字に直訳すると表記が長かったり、元が外国語だったため不自然になってしまう言葉が多く存在します。
    カタカナ語辞書ではそれらのカタカナ語を元の英字に戻すための対応表が記載されています。
  • 例:
メイジヤスダセイメイ=Meiji Yasuda Seimei,明治安田生命
スミトモフドウサン=Sumitomo Fudosan,住友不動産
セカイボウエキ=World Trade,世界貿易
ビルディング=Bldg
ミッドランド=Midland
パシフィック=Pacific
ミッドタウン=Midtown

形式: 変換元カタカナ表記=変換先英字表記 [,確認用漢字表記]

hankaku.txt & zenkaku.txt

  • カタカナからローマ字に変換する際のヘボン式変換表(ただし一部変更)です。
  • 照合時に使い易いように文字長順にソートしてあります。
  • 整形用正規表現 と組み合わせて使用します。

seikei.txt

  • カタカナからヘボン式ローマ字に変換した後に可読性を上げるために適用する正規表現の一覧です。
  • マッチ結果を置換する場合は最初のマッチ項目が \1 となります。
    検索置換用途
    tt([a-z])\1x\1x小書きの「ッ」は次の音の二連続にする
    tt単語末の「ッ」を削除する
    x小書きの母音を昇格する
    a{2,}a-母音が連続する場合は長音にする(ア)
    i{2,}i-母音が連続する場合は長音にする(イ)
    u{2,}u-母音が連続する場合は長音にする(ウ)
    e{2,}e-母音が連続する場合は長音にする(エ)
    o{2,}o-母音が連続する場合は長音にする(オ)
    ouo-ouはo-にする
    n([pbm])m\1pbmの直前のnをmにする
    ^(.*)-$\1単語末の長音を削除する

TODO

  • 残りはTODO