Ticket #35065

アルファベットを含む複合語の日本語点訳

Open Date: 2015-04-14 14:35 Last Update: 2015-06-03 21:50

Reporter: nishimoto Owner: nishimoto
Type: Bugs Status: Closed
Component: 点訳エンジン MileStone: 2015.2jp (closed)
Priority: 5 - Medium Severity: 5 - Medium
Resolution: Fixed

Details

アルファベットを含む複合語のいくつかは Mecab 辞書でひとまとめの形態素として登録されてしまっており、 含まれているアルファベットを外字符で表現できていません。

どうやら辞書の先頭の1200項目ぐらい(見出し語の先頭文字が漢字カナでないもの)を チェックすればよさそうなので、手作業で辞書のチューニングをやればできなくはないですが、 辞書の一括加工ツールを作ったほうがよい気もします。

text   : JR北海道
correct: JRホッカイドー
result : ジェイアールホッカイドー

0 JR北海道,名詞,固有名詞,組織,*,*,*,JR北海道,ジェイアールホッカイドウ,ジェイアールホッカイドー,3/5,C1

JR北海道,JR北海道,名詞,固有名詞,組織,*,*,*,JR北海道,ジェイアールホッカイドウ,ジェイアールホッカイドー,3/5,ジェイアールホッカイドー,0


text   : iモード
correct: iモード
result : アイモード

0 iモード,名詞,一般,*,*,*,*,iモード,アイモード,アイモード,3/5,C1

iモード,iモード,名詞,一般,*,*,*,*,iモード,アイモード,アイモード,3/5,アイモード,0


text   : N響
correct: Nキョー
result : エヌキョー

0 N響,名詞,固有名詞,組織,*,*,*,N響,エヌキョウ,エヌキョー,0/4,C1

N響,N響,名詞,固有名詞,組織,*,*,*,N響,エヌキョウ,エヌキョー,0/4,エヌキョー,0


text   : Tシャツ
correct: Tシャツ
result : ティーシャツ

0 Tシャツ,名詞,一般,*,*,*,*,Tシャツ,ティーシャツ,ティーシャツ,0/4,C2

Tシャツ,Tシャツ,名詞,一般,*,*,*,*,Tシャツ,ティーシャツ,ティーシャツ,0/4,ティーシャツ,0


text   : JISマーク
correct: JISマーク
result : ジスマーク

0 JISマーク,名詞,一般,*,*,*,*,JISマーク,ジスマーク,ジスマーク,3/5,C1

JISマーク,JISマーク,名詞,一般,*,*,*,*,JISマーク,ジスマーク,ジスマーク,3/5,ジスマーク,0


Attachment File List

No attachments

Ticket History (3/5 Histories)

2015-04-14 14:35 Updated by: nishimoto
  • New Ticket "アルファベットを含む複合語の日本語点訳" created
2015-04-14 14:36 Updated by: nishimoto
  • Details Updated
2015-04-15 23:13 Updated by: nishimoto
Comment

miscDepsJp の更新

To git@github.com:nvdajp/nvdajpmiscdep.git
   aa35755..7d268f3  master -> master

簡単なツールを使って naist-jdic.csv から問題になりそうな単語を検索したところ、 大半が固有名詞だとわかったので、 原則として以下の手順で「アルファベットと日本語文字の混在語」を辞書から削除して、 「N響」「iモード」などに限って個別に対応することにした。

アルファベットと日本語文字の混在語の判定

RE_ALPHA = re.compile('^[A-Za-z]+$')
RE_NUM_SYMBOL = re.compile('^[0-9・.&_+ /―′-]+$')

形態素の表記のすべての文字について RE_ALPHA にマッチする文字を1文字以上含み、
さらに RE_ALPHA とも RE_NUM_SYMBOL ともマッチしない文字を1文字以上含む場合、
アルファベットと日本語文字の混在語であると判定する。
2015-04-21 17:08 Updated by: nishimoto
  • Milestone Update from (None) to 2015.2jp (closed)
  • Resolution Update from None to Fixed
Comment

報告遅くなりましたが jpbeta にマージしました。

https://github.com/nvdajp/nvdajp/commit/74382cd6812c129a3207085f24ce56723140d5d0

2015-06-03 21:50 Updated by: nishimoto
  • Ticket Close date is changed to 2015-06-03 21:50
  • Status Update from Open to Closed

Edit

Please login to add comment to this ticket » Login