Ticket #35065

Open Date: 2015-04-14 14:35

Last Update: 2015-06-03 21:50

アルファベットを含む複合語の日本語点訳

Reporter:nishimotoOwner:nishimoto
Priority:5 - MediumMileStone:2015.2jp (closed)
Type:BugsSeverity:5 - Medium
Component:点訳エンジンStatus:Closed
ResolutionFixed

Details

アルファベットを含む複合語のいくつかは Mecab 辞書でひとまとめの形態素として登録されてしまっており、 含まれているアルファベットを外字符で表現できていません。

どうやら辞書の先頭の1200項目ぐらい(見出し語の先頭文字が漢字カナでないもの)を チェックすればよさそうなので、手作業で辞書のチューニングをやればできなくはないですが、 辞書の一括加工ツールを作ったほうがよい気もします。

text   : JR北海道
correct: JRホッカイドー
result : ジェイアールホッカイドー

0 JR北海道,名詞,固有名詞,組織,*,*,*,JR北海道,ジェイアールホッカイドウ,ジェイアールホッカイドー,3/5,C1

JR北海道,JR北海道,名詞,固有名詞,組織,*,*,*,JR北海道,ジェイアールホッカイドウ,ジェイアールホッカイドー,3/5,ジェイアールホッカイドー,0


text   : iモード
correct: iモード
result : アイモード

0 iモード,名詞,一般,*,*,*,*,iモード,アイモード,アイモード,3/5,C1

iモード,iモード,名詞,一般,*,*,*,*,iモード,アイモード,アイモード,3/5,アイモード,0


text   : N響
correct: Nキョー
result : エヌキョー

0 N響,名詞,固有名詞,組織,*,*,*,N響,エヌキョウ,エヌキョー,0/4,C1

N響,N響,名詞,固有名詞,組織,*,*,*,N響,エヌキョウ,エヌキョー,0/4,エヌキョー,0


text   : Tシャツ
correct: Tシャツ
result : ティーシャツ

0 Tシャツ,名詞,一般,*,*,*,*,Tシャツ,ティーシャツ,ティーシャツ,0/4,C2

Tシャツ,Tシャツ,名詞,一般,*,*,*,*,Tシャツ,ティーシャツ,ティーシャツ,0/4,ティーシャツ,0


text   : JISマーク
correct: JISマーク
result : ジスマーク

0 JISマーク,名詞,一般,*,*,*,*,JISマーク,ジスマーク,ジスマーク,3/5,C1

JISマーク,JISマーク,名詞,一般,*,*,*,*,JISマーク,ジスマーク,ジスマーク,3/5,ジスマーク,0


Attachment File

Attachment File ListNo attachments
Add New attachment
Add attachment filesPlease login to add new attachment

Ticket History - 3/5 Histories [Show all old Histories]

2015-04-14 14:35 Updated by: nishimoto

  • New Ticket "アルファベットを含む複合語の日本語点訳" created

2015-04-14 14:36 Updated by: nishimoto

  • Details Updated

2015-04-15 23:13 Updated by: nishimoto

Comment

miscDepsJp の更新

To git@github.com:nvdajp/nvdajpmiscdep.git
   aa35755..7d268f3  master -> master

簡単なツールを使って naist-jdic.csv から問題になりそうな単語を検索したところ、 大半が固有名詞だとわかったので、 原則として以下の手順で「アルファベットと日本語文字の混在語」を辞書から削除して、 「N響」「iモード」などに限って個別に対応することにした。

アルファベットと日本語文字の混在語の判定

RE_ALPHA = re.compile('^[A-Za-z]+$')
RE_NUM_SYMBOL = re.compile('^[0-9・.&_+ /―′-]+$')

形態素の表記のすべての文字について RE_ALPHA にマッチする文字を1文字以上含み、
さらに RE_ALPHA とも RE_NUM_SYMBOL ともマッチしない文字を1文字以上含む場合、
アルファベットと日本語文字の混在語であると判定する。

2015-04-21 17:08 Updated by: nishimoto

  • Milestone Update from (None) to 2015.2jp (closed)
  • Resolution Update from None to Fixed

Comment

報告遅くなりましたが jpbeta にマージしました。

https://github.com/nvdajp/nvdajp/commit/74382cd6812c129a3207085f24ce56723140d5d0

2015-06-03 21:50 Updated by: nishimoto

  • Ticket Close date is changed to 2015-06-03 21:50
  • Status Update from Open to Closed

Add Comment/Update #35065 (アルファベットを含む複合語の日本語点訳)

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Login