Unicode文字の読み上げ(東洋医学系の難読漢字など)
「経穴・東洋医学用語辞書 ver 1.3」で JTalk の読み上げのチェックを行いました。
文字そのものが読み上げできなかった28文字を詳細読み辞書、1文字読み辞書、JTalk の読み付与に追加しました。 詳細読みは元の辞書を参考にせず、新たに作りました。
lp:nvdajp 4375
なお、読めない熟語への対応は MeCab 辞書で行なうべきですが、現在の MeCab 辞書が Shift-JIS で内部処理を行なっているため、今後の課題です。
噯 クチヘンニ アイジョーノ アイ 呃 クチヘンニ ヤクバライノヤクノ アク 瘂 ヤマイダレニ アネッタイノ ア 蹻 アシヘンニ タカイノ キョー 脘 ニクヅキニ カンセイスルノ カン 譆 ゴンベンニ ヨロコブノ キ 蟜 ムシヘンニ タカイノ キョー 郄 フゲキケツノ ゲキ 噦 クチヘンニ サイゲツノサイノ エツ 瘀 ヤマイダレニ ナニナニニオイテノ オ 痹 マヒノ ヒ 瘈 ヤマイダレニ チギリノ ケイ 髃 カタノホネノ グー 焠 ヒヘンニ ソツギョーシキノソツノ サイ 鑱 スルドイノ イミノ ザン 饞 ムサボルノ イミノ ザン 瀆 ケガスノ イミノ トク 濼 サンズイニ タノシイノキュウジノ レキ 濇 トドコオルノ イミノ ショク 鞕 カワヘンニ サラニノ コウ 涿 サンズイノ タク 璇 オーヘンニ センカイスルノ セン 璣 オーヘンニ キカガクノ キ 髎 コシボネノ イミノ リョー 囊 フクロノ キュージ ノー 膻 キモノ ダン 鍉 カネヘンニ ゼヒノゼノ テイ 癃 ヤマイダレニ リューキスルノ リュー
本作業に関連して、参考になる情報を何人かのかたから提供していただきました。
大変ありがたいのですが、この方針で文字を追加していくのはいったん保留して、文字データーの重複チェックツールを開発したり、NVDA側の実装を改良することを優先したいと考えています。
今後どんなデーターが必要かを整理しておきます。
既存の辞書を参考にする場合が多いのですが、もし元のデーターが改変再利用、再配布が許可されていない場合は、丸写しをしないように配慮する必要があります。
以下のコミットで JTalk の辞書を Shift-JIS (cp932) から UTF-8 に変更しました。
lp:nvdajp main 4390
lp:nvdajp miscdep 108
Open JTalk の UTF-8 バージョンを Microsoft コンパイラでコンパイルできないという技術的な問題を回避するために、mecab 解析は UTF-8 で実行して、形態素解析の結果を cp932 に変換して(表記は正しく変換できない文字がありますが) Open JTalk の処理に送っています。
Mecab 辞書には10月12日のコメントで書いた28文字を単漢字として登録しています。
これで技術的な見通しが立ったので、辞書の整備に取り掛かります。
関連チケット #29872 文字説明データの再構成
ブランチ jp2012.3 rev 5640 および miscdep 119 (開発スナップショット jpdev121127a) までの作業で、経穴名の読み上げが網羅されたと判断しました。
今後も改良を続けますが、このチケットはいったんクローズします。
改めてチケットを作成していただければ幸いです。
[nvda-japanese-users:426]
盲学校などで鍼灸を学ぶ学生のために、難読漢字の読みを正しく登録した辞書をいずれ作りたいと考えています
市販のスクリーンリーダーではPC-TalkerがUnicode文字のうち、ツボの名前などに使われる難読文字の読みに一部対応しています
NVDAではUnicode文字を読み上げさせることは可能でしょうか?
たとえばこのソフト(変換辞書) http://www.office21c.co.jp/pack/stoyo.html では東洋医学系の難読漢字をUnicodeで表示させています
このようなソフトを使用してUnicode文字で変換した場合の読みが行われるように辞書を作成したいということです
(以下nishimotoからコメント)
アプリケーションがUnicodeに対応していて、 音声エンジンに文字列を渡す前に、Unicode 文字を「読み」に変換する 辞書を用意すれば、実現できる可能性があります。
「まほろば」さんが「MS Haruka」を前提に情報提供をしておられます: NVDAのインストール3(読み上げ辞書) http://mahoro-ba.net/e1462.html
NVDA が使用する音声エンジンが Unicode 文字を読み上げることができればいいのですが、 JTalk 以外のことは私にはよく分かりません。
NVDA 日本語版 2011.1.1j には(音声エンジンではなくNVDA本体に) 「単漢字の読み」と「詳細読み」の変換テーブルが入っています。 JIS第二水準に含まれない文字をこのテーブルに追加することは可能です。 ただし、特に詳細読みに関しては「自由な再配布を許可していない辞書の複製」は 避ける必要があります。
なお現時点で JTalk のテキスト解析辞書は文字コードとして Shift-JIS を使っているので、 Unicode 文字を含む単語を扱えません。これも検討課題の一つです。