点訳で動詞の語尾「う」が長音になる
日本点字表記法2001年版の14ページより:
9.ウ列の長音は、ウ列の仮名に長音符を添えて書き表し。。。 クーキ(空気) ウレシュー(うれしゅう)
【注意】動詞の語尾など、長音ではない音節には長音符を用いない。 クウ(食う) オモウ(思う) オオクリ(お送り) オオシイ(雄々しい) ミゾウ(未曾有) ウルウドシ(うるう年)
「動詞の語尾」という品詞情報に基づく処理ではなく、 単語ごとに個別に「音節が長音化するかしないか」という情報を持たせる (実装としては長音化しない音節の単語だけ辞書で特別扱いする) ほうがよいか。。
下記の3件に特別に対応するために辞書をいじっていたが、 そのせいで「思う」「吸う」「繕う」がおかしくなっていた、ということを確認。
下記の3件は、形態素が複数になる場合の特別処理として対応をやり直す:
text : 思うて correct: オモーテ result : オモウテ cor_in1: 0,1,2,3 res_in2: 0,0,1,2 res_in1: 0,1,2,3 res_in : 0,0,1,2 res_out: 0,2,3 comment: 点訳のてびき第3版 第2章 その1 1 5 No.51 0 思う,動詞,自立,*,*,五段・ワ行ウ音便,連用タ接続,思う,オモウ,オモウ,2/3,C1 1 て,助詞,接続助詞,*,*,*,*,て,テ,テ,0/1,動詞%F2@0/形容詞%F1/名詞%F5 思う,思う,動詞,自立,*,*,五段・ワ行ウ音便,連用タ接続,思う,オモウ,オモウ,2/3,オモウ,0 て,て,助詞,接続助詞,*,*,*,*,て,テ,テ,0/1,テ,0 text : 吸うたり correct: スータリ result : スウタリ cor_in2: 0,1,2,3 cor_in1: 0,1,2,3 cor_in : 0,1,2,3 res_in2: 0,1,2,3 res_in1: 0,1,2,3 res_in : 0,1,2,3 res_out: 0,1,2,3 comment: 点訳のてびき第3版 第2章 その1 1 5 No.52 0 吸う,動詞,自立,*,*,五段・ワ行促音便,基本形,吸う,スウ,スウ,0/2,C4 1 たり,助詞,並立助詞,*,*,*,*,たり,タリ,タリ,1/2,名詞%F2@1/動詞%F4@1 吸う,吸う,動詞,自立,*,*,五段・ワ行促音便,基本形,吸う,スウ,スウ,0/2,スウ,0 たり,たり,助詞,並立助詞,*,*,*,*,たり,タリ,タリ,1/2,タリ,0 text : 繕うたり correct: ツクロータリ result : ツクロウタリ cor_in1: 0,1,2,3,4,5 res_in2: 0,0,1,1,2,3 res_in1: 0,1,2,3,4,5 res_in : 0,0,1,1,2,3 res_out: 0,2,4,5 comment: 点訳のてびき第3版 第2章 その1 1 5 No.53 0 繕う,動詞,自立,*,*,五段・ワ行促音便,基本形,繕う,ツクロウ,ツクロウ,3/4,C1 1 たり,助詞,並立助詞,*,*,*,*,たり,タリ,タリ,1/2,名詞%F2@1/動詞%F4@1 繕う,繕う,動詞,自立,*,*,五段・ワ行促音便,基本形,繕う,ツクロウ,ツクロウ,3/4,ツクロウ,0 たり,たり,助詞,並立助詞,*,*,*,*,たり,タリ,タリ,1/2,タリ,0
とりあえずテストケースだけちゃんと通る実装:
To git@github.com:nvdajp/nvdajpmiscdep.git 84f9b70..2b8166e master -> master
すこし一般化して nvdajp branch jpbeta にマージしました:
https://github.com/nvdajp/nvdajpmiscdep/commit/fe045f2762bcad803e3d6aebe8ce6efbf6baa099
日本語点訳で動詞の語尾「う」が長音になるというご指摘があり、 下記のテストケースを追加してみたところ 「アマイ シルヲ スー」 「オモー トキ」 の2件が不適切であることを確認しました。
「点訳のてびき第3版」13ページから14ページにかけて「5.長音の書き表し方」の テストケースが不十分だったのですが、単純に「動詞の語尾はウにする」ルールを追加すると、
【備考2】ウ音便はウ列・オ列の長音の表記との関連で、長音符を用いて書く。
の事例で失敗します。 (「見まごうばかり」が「ミマゴーバカリ」にならないなど)
この備考2がどういう意味なのか、正直よくわからないので、もうすこし考えてみます。