Ticket #25509

Unicode文字の読み上げ(東洋医学系の難読漢字など)

Open Date: 2011-06-27 16:33 Last Update: 2012-11-27 18:49

Reporter:
Owner:
Status:
Closed
Component:
(None)
MileStone:
Priority:
5 - Medium
Severity:
5 - Medium
Resolution:
None
File:
None

Details

[nvda-japanese-users:426]

盲学校などで鍼灸を学ぶ学生のために、難読漢字の読みを正しく登録した辞書をいずれ作りたいと考えています

市販のスクリーンリーダーではPC-TalkerがUnicode文字のうち、ツボの名前などに使われる難読文字の読みに一部対応しています

NVDAではUnicode文字を読み上げさせることは可能でしょうか?

たとえばこのソフト(変換辞書) http://www.office21c.co.jp/pack/stoyo.html では東洋医学系の難読漢字をUnicodeで表示させています

このようなソフトを使用してUnicode文字で変換した場合の読みが行われるように辞書を作成したいということです

(以下nishimotoからコメント)

アプリケーションがUnicodeに対応していて、 音声エンジンに文字列を渡す前に、Unicode 文字を「読み」に変換する 辞書を用意すれば、実現できる可能性があります。

「まほろば」さんが「MS Haruka」を前提に情報提供をしておられます: NVDAのインストール3(読み上げ辞書) http://mahoro-ba.net/e1462.html

NVDA が使用する音声エンジンが Unicode 文字を読み上げることができればいいのですが、 JTalk 以外のことは私にはよく分かりません。

NVDA 日本語版 2011.1.1j には(音声エンジンではなくNVDA本体に) 「単漢字の読み」と「詳細読み」の変換テーブルが入っています。 JIS第二水準に含まれない文字をこのテーブルに追加することは可能です。 ただし、特に詳細読みに関しては「自由な再配布を許可していない辞書の複製」は 避ける必要があります。

なお現時点で JTalk のテキスト解析辞書は文字コードとして Shift-JIS を使っているので、 Unicode 文字を含む単語を扱えません。これも検討課題の一つです。

Ticket History (3/7 Histories)

2011-06-27 16:33 Updated by: nishimoto
  • New Ticket "Unicode文字の読み上げ(東洋医学系の難読漢字など)" created
2011-12-08 22:32 Updated by: nishimoto
  • Component Update from (None) to 音声合成
  • Owner Update from (None) to nishimoto
2012-10-12 17:42 Updated by: nishimoto
Comment

「経穴・東洋医学用語辞書 ver 1.3」で JTalk の読み上げのチェックを行いました。

文字そのものが読み上げできなかった28文字を詳細読み辞書、1文字読み辞書、JTalk の読み付与に追加しました。 詳細読みは元の辞書を参考にせず、新たに作りました。

lp:nvdajp 4375

なお、読めない熟語への対応は MeCab 辞書で行なうべきですが、現在の MeCab 辞書が Shift-JIS で内部処理を行なっているため、今後の課題です。

噯	クチヘンニ アイジョーノ アイ
呃	クチヘンニ ヤクバライノヤクノ アク
瘂	ヤマイダレニ アネッタイノ ア
蹻	アシヘンニ タカイノ キョー
脘	ニクヅキニ カンセイスルノ カン
譆	ゴンベンニ ヨロコブノ キ
蟜	ムシヘンニ タカイノ キョー
郄	フゲキケツノ ゲキ
噦	クチヘンニ サイゲツノサイノ エツ
瘀	ヤマイダレニ ナニナニニオイテノ オ
痹	マヒノ ヒ
瘈	ヤマイダレニ チギリノ ケイ
髃	カタノホネノ グー
焠	ヒヘンニ ソツギョーシキノソツノ サイ
鑱	スルドイノ イミノ ザン
饞	ムサボルノ イミノ ザン
瀆	ケガスノ イミノ トク
濼	サンズイニ タノシイノキュウジノ レキ
濇	トドコオルノ イミノ ショク
鞕	カワヘンニ サラニノ コウ
涿	サンズイノ タク
璇	オーヘンニ センカイスルノ セン
璣	オーヘンニ キカガクノ キ
髎	コシボネノ イミノ リョー
囊	フクロノ キュージ ノー
膻	キモノ ダン
鍉	カネヘンニ ゼヒノゼノ テイ
癃	ヤマイダレニ リューキスルノ リュー
2012-10-13 08:39 Updated by: nishimoto
Comment

本作業に関連して、参考になる情報を何人かのかたから提供していただきました。

大変ありがたいのですが、この方針で文字を追加していくのはいったん保留して、文字データーの重複チェックツールを開発したり、NVDA側の実装を改良することを優先したいと考えています。

今後どんなデーターが必要かを整理しておきます。

  • 単語:発音(カナ表記)、読み上げるときのアクセント位置(モーラ位置)、点訳(カナづかいやマスあけの位置)情報
  • 文字:スペル読み(短い読み、代表的な発音)、詳細説明(他の文字の説明と重複しないこと)

既存の辞書を参考にする場合が多いのですが、もし元のデーターが改変再利用、再配布が許可されていない場合は、丸写しをしないように配慮する必要があります。

2012-10-14 23:18 Updated by: nishimoto
Comment

以下のコミットで JTalk の辞書を Shift-JIS (cp932) から UTF-8 に変更しました。

lp:nvdajp main 4390

lp:nvdajp miscdep 108

Open JTalk の UTF-8 バージョンを Microsoft コンパイラでコンパイルできないという技術的な問題を回避するために、mecab 解析は UTF-8 で実行して、形態素解析の結果を cp932 に変換して(表記は正しく変換できない文字がありますが) Open JTalk の処理に送っています。

Mecab 辞書には10月12日のコメントで書いた28文字を単漢字として登録しています。

これで技術的な見通しが立ったので、辞書の整備に取り掛かります。

2012-10-22 18:30 Updated by: nishimoto
  • Component Update from 音声合成 to (None)
  • Milestone Update from (None) to 2012.3jp (closed)
Comment

関連チケット #29872 文字説明データの再構成

2012-11-27 18:49 Updated by: nishimoto
  • Status Update from Open to Closed
  • Ticket Close date is changed to 2012-11-27 18:49
Comment

ブランチ jp2012.3 rev 5640 および miscdep 119 (開発スナップショット jpdev121127a) までの作業で、経穴名の読み上げが網羅されたと判断しました。

今後も改良を続けますが、このチケットはいったんクローズします。

改めてチケットを作成していただければ幸いです。

Attachment File List

No attachments

Edit

Please login to add comment to this ticket » Login