Ticket #19691

ひらがなの づ・ぁ・ぃ・ぅ・ぇ・ぉ を読まないことがある

Open Date: 2009-11-26 09:14 Last Update: 2009-11-27 11:27

Reporter:
Owner:
(None)
Type:
Status:
Open
Component:
(None)
MileStone:
(None)
Priority:
5 - Medium
Severity:
5 - Medium
Resolution:
None
File:
None

Details

galatea-users より:

マーチンです。

重箱の隅をつつくような報告ばかりで申し訳ありません。

ひらがなの づ・ぁ・ぃ・ぅ・ぇ・ぉ を読まないことがあります。
どれも、使用頻度の少ない文字ばかりで、平仮名で使うことも
ほとんどないので、実用上問題となる場面は少ないでしょうけど。。。

じぇっとき
きゃびてぃ
づぼらや
ちぇっく

を

じっとき
きびて
ぼらや
ちぇく

と読み上げます。
「yomi is NOT katakana ... ぃ」
のようなメッセージが表示されています。

でも、これらをカタカナにすると、読んでくれます。

unidic-139 では、
ろけっと
も読まなかったけど、unidic-1312 ではOKでした。

galatea4win-istc-2009-02.zip
+ chaone-win-1.3.2-091118.zip
+ DATE: NO  TIME: NO
+ unidic-chasen1312_sjis
で確認しています。


Ticket History (2/2 Histories)

2009-11-26 09:14 Updated by: nishimoto
  • New Ticket "ひらがなの づ・ぁ・ぃ・ぅ・ぇ・ぉ を読まないことがある" created
2009-11-27 11:27 Updated by: nishimoto
Comment

山田さんより(galatea-users ML):

ひらがな表記にすると,辞書にないため,未知語
になることが多いのですよね。
そして,unidicでは
 じぇっとき -> じ/ぇ*/っ/とき
 きゃびてぃ -> き/ゃ*/び/て/ぃ*
 づぼらや -> づ*/ぼら/や
 ちぇっく -> ちぇ/っ/く
のような解析結果 (*の部分が未知語) になり (な
かなかむちゃくちゃですが,*のついていない部分
は無理矢理何らかの語を割り当てています),未知
語の発音が原形のままひらがなになっているので,

> 「yomi is NOT katakana ... ぃ」
> のようなメッセージが表示されています。

となって,gtalkに受け付けてもらえないようです
ね。では,単純に未知語の発音をカタカナにすれ
ばよいかというと,それである程度は救えるかな
とは思いますが,それでもだめな例が出てきそう
です。
後,「っ」に関しては未知語ではないのですが,
発音無しの補助記号という扱いなので,読み上げ
られていません (「じぇっとき」の「っ」も読み
上げられないように思うのですが,log.chasenの
解析結果はどうなっていますか?)。

> でも、これらをカタカナにすると、読んでくれます。

これはカタカナ表記の未知語は全体で一語にする
というchasenの仕様のおかげです。

> unidic-139 では、
> ろけっと
> も読まなかったけど、unidic-1312 ではOKでした。

たまたま,「ろけっと」は辞書に登録されていま
した。

とりあえず,時間ができたら,上に述べた「未知
語の発音でひらがなのものは強制的にカタカナに
変換する」という後処理を入れてみようと思いま
すが,これはあくまでも小手先の対応ですね。
ちなみにgtalkでは使えませんが,mecab版unidic
だとまた違った結果になります。
いずれにしても形態素解析をすると,ひらがなが
読めなくなるという妙な現象が起きるわけです。
ひらがな表記をきちんと解析できる辞書を作ると
いうのが一つの方法ではありますが,未知語問題
というのは決してなくならないので,あまり嬉し
くはありませんね。
というわけで,小手先ではない解決は今後の課題
ということにしておいてください。

Attachment File List

No attachments

Edit

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Login