2014.2jp にむけたテキスト解析辞書の更新
いくつかテストケースを追加してみたところ、下記のような状況です。
正しく解析できないもの: #{'text':'これらは正しくありません', 'speech':'コレラワタダシクアリマセン'}, #{'text':'正しく書け', 'speech':'タダシクカケ'}, #{'text':'設定情報を初期値に戻しました', 'speech':'セッテイジョーホーヲショキチニモドシマシタ'}, 正しく解析できるもの: {'text':'正しくない', 'speech':'タダシクナイ'}, {'text':'正しく生きよう', 'speech':'タダシクイキヨウ'}, {'text':'正しく奇跡だ', 'speech':'マサシクキセキダ'}, {'text':'正しく神業だ', 'speech':'マサシクカミワザダ'},
点訳の分かち書きは未検証です。
固有名詞の接尾語のマスアケについてご報告いただいた内容を検証しました。
解析できる:
{ 'text':'宗谷岬', 'input':'ソーヤ ミサキ'},
解析できない(嬢はマスアケ不要、峠・半島はマスアケ必要):
{ 'text':'秋子嬢', 'input':'アキコジョー'}, { 'text':'比治山峠', 'input':'ヒジヤマ トーゲ'}, { 'text':'丹後半島', 'input':'タンゴ ハントー'},
text : 秋子嬢 correct: アキコジョー result : アキコ ジョー res_in2: 0,0,1,1,2,2,2 res_in1: 0,1,2,3,4,5,6 res_in : 0,0,1,1,2,2,2 res_out: 0,2,4 0 秋子,名詞,固有名詞,人名,名,*,*,秋子,アキコ,アキコ,1/3,C1 1 嬢,名詞,一般,*,*,*,*,嬢,ジョウ,ジョー,1/2,C3 秋子,秋子,名詞,固有名詞,人名,名,*,*,秋子,アキコ,アキコ,1/3,アキコ,1 嬢,嬢,名詞,一般,*,*,*,*,嬢,ジョウ,ジョー,1/2,ジョー,0 text : 比治山峠 correct: ヒジヤマ トーゲ result : ヒジヤマトーゲ res_in2: 0,0,1,2,3,3,3 res_in1: 0,1,1,2,3,4,5,6,6 res_in : 0,0,0,1,2,3,3,3,3 res_out: 0,3,4,5 0 比治山,名詞,固有名詞,地域,一般,*,*,比治山,ヒジヤマ,ヒジヤマ,2/4,C2 1 峠,名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ,3/3,C2 比治山,比治山,名詞,固有名詞,地域,一般,*,*,比治山,ヒジヤマ,ヒジヤマ,2/4,ヒジヤマ,0 峠,峠,名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ,3/3,トーゲ,0 text : 丹後半島 correct: タンゴ ハントー result : タンゴハントー res_in2: 0,0,1,1,2,2,3 res_in1: 0,1,2,2,3,4,5,6 res_in : 0,0,1,1,1,2,2,3 res_out: 0,2,5,7 0 丹後半島,名詞,固有名詞,一般,*,*,*,丹後半島,タンゴハントウ,タンゴハントー,4/7,C1 丹後半島,丹後半島,名詞,固有名詞,一般,*,*,*,丹後半島,タンゴハントウ,タンゴハントー,4/7,タンゴハントー,0
未対応の事例について、さらに情報を提供していただきました:
# 「宗谷岬」に後続文字列があるとマスアケされない { 'text':'宗谷岬周辺の丘陵地帯', 'input':'ソーヤ ミサキ シューヘンノ キューリョー チタイ'}, # 人名に造語要素が続く場合で、2拍以下の場合は # 続けるのが原則ですが、自立性が強く、意味の理解を助ける # 場合は、前を区切って書く { 'text':'上田訳', 'input':'ウエダ ヤク'}, { 'text':'村岡花子訳', 'input':'ムラオカ ハナコ ヤク'}, { 'text':'西本訳', 'input':'ニシモト ヤク'}, { 'text':'鈴木作', 'input':'スズキ サク'}, { 'text':'運慶作', 'input':'ウンケイ サク'}, { 'text':'快慶作', 'input':'カイケイ サク'}, { 'text':'ゴッホ作', 'input':'ゴッホ サク'}, { 'text':'リンカーン談', 'input':'リンカーン ダン'}, { 'text':'細川談', 'input':'ホソカワ ダン'}, { 'text':'西本談', 'input':'ニシモト ダン'},
nvdajpmiscdep master fe16e01 までの更新でカバーされたテストケース:
{ 'text':'秋子嬢', 'input':'アキコジョー'}, { 'text':'宗谷岬', 'input':'ソーヤ ミサキ'}, { 'text':'宗谷岬周辺の丘陵地帯', 'input':'ソーヤ ミサキ シューヘンノ キューリョー チタイ'}, { 'text':'比治山峠', 'input':'ヒジヤマ トーゲ'}, { 'text':'丹後半島', 'input':'タンゴ ハントー'}, { 'text':'上田訳', 'input':'ウエダ ヤク'}, { 'text':'村岡花子訳', 'input':'ムラオカ ハナコ ヤク'}, { 'text':'西本訳', 'input':'ニシモト ヤク'}, { 'text':'鈴木作', 'input':'スズキ サク'}, { 'text':'運慶作', 'input':'ウンケイ サク'}, { 'text':'快慶作', 'input':'カイケイ サク'}, { 'text':'ゴッホ作', 'input':'ゴッホ サク'}, { 'text':'リンカーン談', 'input':'リンカーン ダン'}, { 'text':'細川談', 'input':'ホソカワ ダン'}, { 'text':'西本談', 'input':'ニシモト ダン'}, { 'text':'田中著', 'input':'タナカ チョ'}, { 'text':'山田耕筰曲', 'input':'ヤマダ コーサク キョク'}, { 'text':'正岡子規記', 'input':'マサオカ シキ キ'}, { 'text':'ゴッホ絵', 'input':'ゴッホ エ'}, { 'text':'鈴木アナ', 'input':'スズキ アナ'}, { 'text':'岡本プロ', 'input':'オカモト プロ'},
丹後半島, 宗谷岬, 正岡子規 などは naist-jdic にひとまとまりの単語として登録されているので、個別に辞書に分かち書き情報を追加してやる必要があります。 こうした用例への対応として、点字表記辞典をベースに作業をするよりも naist-jdic のデータを直接見ながら作業をするほうがよいのかも知れません。 語彙サイズが非常に大きいため、いずれにせよ大変な作業になると思われます。
関連チケット #31543 日本語点訳の表記と分かち書き(更なる点訳テストケースの整備)
踊り字(繰り返し符号)についてご指摘があったので、テストケースを作ってみました。
http://ja.wikipedia.org/wiki/%E8%B8%8A%E3%82%8A%E5%AD%97
などを参考にしています。
繰り返し符号を含む「代々木」のような固有名詞は単語として辞書に登録されています。
一部の文字は文字説明辞書での読み上げも未対応なので、これについては別途チケットを作る方が良いかも知れません。
{ 'note': '+ 踊り字 +' }, # 同の字点 # 々 3005 [クリカエシキゴー] オドリジ { 'text':'呉々', 'input':'クレグレ'}, { 'text':'呉々も', 'input':'クレグレモ'}, { 'text':'時々', 'input':'トキドキ'}, { 'text':'代々木', 'input':'ヨヨギ'}, { 'text':'複々々線', 'input':'フクフクフクセン'}, { 'text':'小々々支川', 'input':'ショーショーショーシセン'}, { 'text':'結婚式々場', 'input':'ケッコンシキ シキジョー'}, # 平仮名繰り返し記号 # ゝ 309d [ヒラガナクリカエシ] クリカエシ # ゞ 309e [ヒラガナダクテンクリカエシ] クリカエシ ダクテン { 'text':'すゝめ', 'input':'ススメ'}, { 'text':'いすゞ', 'input':'イスズ'}, { 'text':'づゝ', 'input':'ヅツ'}, { 'text':'ぶゞ', 'input':'ブブ'}, # 片仮名繰り返し記号 # ヽ 30fd [カタカナクリカエシ] クリカエシ # ヾ 30fe [カタカナダクテンクリカエシ] クリカエシ ダクテン { 'text':'スヽメ', 'input':'ススメ'}, { 'text':'イスヾ', 'input':'イスズ'}, { 'text':'ズヽ', 'input':'ヅツ'}, { 'text':'ブヾ', 'input':'ブブ'}, # 同上記号 # 仝 4edd [ドージョー] ドージョー { 'text':'仝', 'input':'ドージョー'}, # ノノ字点(ののじてん)・同じく記号 # 〃 3003 [オナジク] オナジク { 'text':'〃', 'input':'オナジク'}, # 二の字点(にのじてん) # 文字説明に未登録 # 〻 303b { 'text':'〻', 'input':'ニノジテン'}, { 'text':'各〻', 'input':'オノオノ'}, { 'text':'屡〻', 'input':'シバシバ'}, # くの字点(くのじてん) # 文字説明に未登録 # 〱 3031 くの字点 # 〲 3032 くの字点(濁点) # 〳 3033 くの字点上 # 〴 3034 くの字点上(濁点) # 〵 3035 くの字点下 { 'text':'〱', 'input':'クノジテン'}, { 'text':'〲', 'input':'クノジテン ダクテン'}, { 'text':'〳', 'input':'クノジテン ウエ'}, { 'text':'〴', 'input':'クノジテン ウエ ダクテン'}, { 'text':'〵', 'input':'クノジテン シタ'},
ご報告いただいた事例:
text : びっくら放いた correct: ビックラ コイタ result : ビツ クラ コイタ res_in2: 0,1,1,2,3,3,4,5,6 res_in1: 0,0,1,2,3,4,5,6,7,8 res_in : 0,0,1,1,2,3,3,4,5,6 res_out: 0,2,4,5,7,8,9 0 び,名詞,サ変接続,*,*,*,*,び,ビ,ビ,0/1,C0 1 っ,動詞,非自立,*,*,五段・カ行促音便,連用タ接続,く,ッ,ッ,1/1,C4 2 くら,名詞,一般,*,*,*,*,くら,クラ,クラ,2/2,C4 3 放い,動詞,自立,*,*,五段・カ行イ音便,連用タ接続,放く,コイ,コイ,1/2,C1 4 た,助動詞,*,*,*,特殊・タ,基本形,た,タ,タ,0/1,動詞%F2@1/形容詞%F4@-2 び,び,名詞,サ変接続,*,*,*,*,び,ビ,ビ,0/1,ビ,0 っ,っ,動詞,非自立,*,*,五段・カ行促音便,連用タ接続,く,ッ,ッ,1/1,ツ,1 くら,くら,名詞,一般,*,*,*,*,くら,クラ,クラ,2/2,クラ,1 放い,放い,動詞,自立,*,*,五段・カ行イ音便,連用タ接続,放く,コイ,コイ,1/2,コイ,0 た,た,助動詞,*,*,*,特殊・タ,基本形,た,タ,タ,0/1,タ,0
ご報告いただいた事例:
杮おとし (こけらおとし) 第1文字は u+676e
NVDA 2014.1jp では「こけら」の部分の文字説明が抜けてしまい、 また行全体の読み上げも「おとし」となってしまう。
ご指摘いただいた事例:
text : 五倍子 correct: result : フシ pat : ゴバイシ res_in2: 0,1 res_in1: 0,1 res_in : 0,1 res_out: 0,1,1 0 五倍子,名詞,一般,*,*,*,*,五倍子,フシ,フシ,1/2,C3 五倍子,五倍子,名詞,一般,*,*,*,*,五倍子,フシ,フシ,1/2,フシ,0
「五倍子」には「ふし」という読み方は実際にあるようですが、 デフォルトの解析結果としては不適切ではないかというご指摘です。
2014.2jp にむけたテキスト解析辞書の更新について本チケットで検討します。
2014.1jp リリース候補1において、気づいている点と指摘があった事項は以下の通りです。