アルファベットを含む複合語の日本語点訳
miscDepsJp の更新
To git@github.com:nvdajp/nvdajpmiscdep.git aa35755..7d268f3 master -> master
簡単なツールを使って naist-jdic.csv から問題になりそうな単語を検索したところ、 大半が固有名詞だとわかったので、 原則として以下の手順で「アルファベットと日本語文字の混在語」を辞書から削除して、 「N響」「iモード」などに限って個別に対応することにした。
アルファベットと日本語文字の混在語の判定 RE_ALPHA = re.compile('^[A-Za-z]+$') RE_NUM_SYMBOL = re.compile('^[0-9・.&_+ /―′-]+$') 形態素の表記のすべての文字について RE_ALPHA にマッチする文字を1文字以上含み、 さらに RE_ALPHA とも RE_NUM_SYMBOL ともマッチしない文字を1文字以上含む場合、 アルファベットと日本語文字の混在語であると判定する。
報告遅くなりましたが jpbeta にマージしました。
https://github.com/nvdajp/nvdajp/commit/74382cd6812c129a3207085f24ce56723140d5d0
アルファベットを含む複合語のいくつかは Mecab 辞書でひとまとめの形態素として登録されてしまっており、 含まれているアルファベットを外字符で表現できていません。
どうやら辞書の先頭の1200項目ぐらい(見出し語の先頭文字が漢字カナでないもの)を チェックすればよさそうなので、手作業で辞書のチューニングをやればできなくはないですが、 辞書の一括加工ツールを作ったほうがよい気もします。