Ticket #31543

2016.2jp に向けた日本語点訳の改善

Open Date: 2013-06-10 10:34 Last Update: 2016-06-02 17:13

Reporter: nishimoto Owner: (None)
Type: Bugs Status: Closed
Component: テキスト解析 MileStone: 2016.2jp (closed)
Priority: 6 Severity: 6
Resolution: Accepted

Details

2013.1jp の点訳エンジンで、点訳のてびき第3版「固有名詞」の規則は最低限の実装しかできていません。

現状では、テキスト解析の結果で人名(姓、名)と判断された形態素については規則を適用しています。

以下の方針で検討します。

  • 人名、地名、自然名、組織・団体名、会社名、商品名、建造物名などを適切に判定できるように形態素解析辞書を整備する。
  • 形態素内の「3泊以上の意味のまとまり」での分割方法は、辞書エントリの拡張属性を利用する(例:源朝臣頼政, ミナモトノ アソン ヨリマサ)
  • 品詞情報に基づく分かち書き規則を synthDrivers/jtalk/translator2.py で実装する。
  • jptools/harness.py にテストケースを整備する。

Attachment File List

No attachments

Ticket History (3/16 Histories)

2013-06-10 10:34 Updated by: nishimoto
  • New Ticket "固有名詞の日本語点訳の分かち書き" created
2013-06-16 21:23 Updated by: nishimoto
Comment

下記のコミットで「トーキョート チヨダク ナガタチョー」のような住所表記の規則を実装しました。

release-2013.1 71640c2

2013-06-19 09:46 Updated by: nishimoto
Comment

下記のコミットで「綾部市保健福祉センター(アヤベシ ホケン フクシ センター)」など地域の接尾語のあとの分かち書きを修正しました。

release-2013.1jp 7fabe11

2013-09-18 10:18 Updated by: nishimoto
Comment

固有名詞の点訳分かち書きだけの話ではありませんが、nvdajp-team 2932 で下記のご提案がありました。

  • 点訳規則にそって点字表示を良くしていくためには、NVDAに直接組み込んでいくと、重くなるので、アドオンを開発して大勢の協力者によって点訳辞書を完成させていってはどうか?

これについて、以下のことの因果関係をもう少し詳しく考察、説明する必要があるので、時間をください。

  • 点訳性能を改善すること
  • 処理が重くなる原因
  • アドオン対応
  • 大勢の協力者が辞書開発に参加しやすくなる
2013-10-03 11:17 Updated by: nishimoto
  • Summary Updated
Comment

本件について9月18日のコメントのフォローが遅れてすみません。

引き続き、下記のご意見をいただいています。

  • プログラムは分からないけれど点訳の間違いなどの分かる人たちが、直接(議論をしながら)辞書作りに関与できる基本的なプログラムが欲しい

点訳エンジンの 2013.1jp に向けた改良は、辞書作りの前にテストケースづくりが重要であるという立場で行いました。

「点訳エンジンのテストケースを作る」 #23483

http://sourceforge.jp/ticket/browse.php?group_id=4221&tid=28483

辞書整備の共同作業は成果をまとめることが簡単ではありませんが、テストケースの整備は共同作業が可能ではないかと考えています。

2014-02-26 08:55 Updated by: nishimoto
  • Severity Update from 5 - Medium to 6
  • Priority Update from 5 - Medium to 6
Comment

nvdajp-team 3913 より:

  • 人の名前には、大山、大石、大林、大藪など、大という字の付いた名前が多く、(地名にもおおい)これらの点字表示が、今はまだほとんど「オーヤマ」「オーイシ」「オーバヤシ」「オーヤブ」などと「オー」と表示されています。点訳ルールでは、「オオヤマ」「オオイシ」・・・などと「オオ」と表記する決まりになっています。

チケット #29508 で実装したユーザー辞書機能では「大」の付く単語全部を一つ一つ登録していくことになります。

現在「大きい」「大まか」はどこで長音化の例外処理をしているかというと、システム辞書をビルドする前処理 miscdep/include/jtalk/make_jdic.py でこの2単語だけを特別扱いしています。

例えばルール処理で以下のような実装をすれば、このケースについてはカバーできそうな気がします。

  • 固有名詞で表記の1文字目が「大」で発音の先頭2文字が「オー」のエントリーは「オオ」と点訳する

ところで、この件は「点訳のてびき 第3版」18ページには「漢字で書かれた固有名詞は「基本的な仮名遣い」に準じて書く」としか説明されていないので、テストケースを整備できていません。他の文献をあたってみます。

2014-02-26 09:00 Updated by: nishimoto
  • Resolution Update from None to Accepted
  • Component Update from (None) to テキスト解析
  • Summary Updated
2014-02-26 10:43 Updated by: nishimoto
Comment

以前整備していただいた「点字表記辞典-あ行-「お」.xlsx」 の下記をカバーする方向で検討します。

	{   'text': '大慌て', 'input': 'オオアワテ'},
	{   'text': '大いなる', 'input': 'オオイナル'},
	{   'text': '大男', 'input': 'オオオトコ'},
	{   'text': '大川', 'input': 'オオカワ'},
	{   'text': '大君', 'input': 'オオキミ'},
	{   'text': '大阪', 'input': 'オオサカ'},
	{   'text': '大旦那', 'input': 'オオダンナ'},
	{   'text': '大づかみ', 'input': 'オオヅカミ'},
	{   'text': '大人数', 'input': 'オオニンズー'},
	{   'text': '大田', 'input': 'オオタ'},
2014-02-26 12:01 Updated by: nishimoto
Comment

NVDA 日本語テスト版 jpbeta140226 https://dl.dropboxusercontent.com/u/62564469/nvda_jpbeta140226.exe

本家 2014.1rc2 相当の修正がマージされています。

本家 t3800 (VoicePopper のクラッシュ対策)はマージしていません。

余談ですが、日本語拡張部分のビルドには VC 2013 を使っています。

> cat miscDepsjp\jptools\setup-vc2013.cmd
call "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\vcvars32.bat"

ひきつづき Windows XP での十分な動作検証が必要と思います。

2014-03-03 09:24 Updated by: nishimoto
  • Summary Updated
Comment

miscdep にルールでカバーできる処理を追加。

[master e5d420e] updated braille test cases and rules
 2 files changed, 87 insertions(+), 2 deletions(-)

追加したテストケース。コメントアウトした項目は未対応。

	{ 'note': '複合語(接頭語・接尾語・造語要素)【備考1】接頭語・接尾語・造語要素であっても、意味の理解を助ける場合には、発音上の切れ目を考慮して区切って書いてよい。' },
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '各党', 
		'input': 'カク トー'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '各方面', 
		'input': 'カク ホーメン'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '貴商店',
		'input': 'キ ショーテン'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '旧陸軍', 
		'input': 'キュー リクグン'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '故池上先生',
		'input': 'コ イケガミ センセイ'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '前校長',
		'input': 'ゼン コーチョー'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '全5巻',
		'input': 'ゼン 5カン'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '超現実的',
		'input': 'チョー ゲンジツテキ'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '当施設',
		'input': 'トー シセツ'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '反社会的',
		'input': 'ハン シャカイテキ'
		},
	#{
	#	'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
	#	'text': '富栄養化',
	#	'input': 'フ エイヨーカ'
	#   'comment': 'not トミ エイヨーカ',
	#	},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '非人道的',
		'input': 'ヒ ジンドーテキ'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '満3年',
		'input': 'マン 3ネン'
		},
	#{
	#	'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
	#	'text': '丸1日',
	#	'input': 'マル 1ニチ'
	#   'comment': '「マルツイタチ」にしないために辞書登録が必要',
	#	},
	#{
	#	'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
	#	'text': '元副総理',
	#	'input': 'モト フクソーリ'
	#   'comment': 'not モト フク ソーリ',
	#	},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': '新時刻表',
		'input': 'シン ジコクヒョー'
		},
	{
		'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
		'text': 'ご挨拶かたがた',
		'input': 'ゴアイサツ カタガタ'
		},
	#{
	#	'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
	#	'text': '1回こっきり',
	#	'input': '1カイ コッキリ'
	#   'comment': '「こっきり」が解析失敗',
	#	},
2014-03-03 15:52 Updated by: nishimoto
Comment

人名の後ろの「さん」のマスアケ規則を整備しました。

+       {   'text':'久代さん', 'input':'ヒサヨ サン'},
+       {   'text':'新家さん', 'input':'シンケ サン'},

人名の前後に全角スペースがあると地名になってしまい、読みが変わるケースが見つかっています。

これは mecab のパラメーター学習のさじ加減と思われるので、現状では気になるケースだけ(競合する地名をエントリーから抜くなど)個別対応しています。

nvdajpmiscdep:
[master 64c1f3f] work regarding ti31543
 7 files changed, 35 insertions(+), 9 deletions(-)
2014-12-11 11:27 Updated by: nishimoto
Comment

2013年4月ごろに検討したテストケース:

1日 ツイタチ
2日 フツカ
3日 ミッカ
4日 ヨッカ
5日 イツカ
6日 ムイカ
7日 ナノカ
8日 ヨーカ
9日 ココノカ
10日 トーカ
11日 11ニチ
12日 12ニチ
13日 13ニチ
14日 14カ
15日 15ニチ
16日 16ニチ
17日 17ニチ
18日 18ニチ
19日 19ニチ
20日 ハツカ
21日 21ニチ
22日 22ニチ
23日 23ニチ
24日 24カ
25日 25ニチ
26日 26ニチ
27日 27ニチ
28日 28ニチ
29日 29ニチ
30日 30ニチ
31日 31ニチ

このチケットで過去に指摘した問題:

# 'comment': '点訳のてびき第3版 第3章 その2 2 備考1',
# 'text': '丸1日',
# 'input': 'マル 1ニチ'
# 'comment': '「マルツイタチ」にしないために辞書登録が必要',

2014年12月に新たに出た議論:

2、3日

現状
音声「に てん みっか」
点字「(数符)2(数符)みっか」

希望する表示
音声「にさんにち」
点字「(数符)2(数符)3ニチ」
2015-02-24 18:18 Updated by: nishimoto
Comment

本チケットの作業内容の説明のためのコメントです。

例えば 2014-02-26 10:43 のコメントに関する作業は以下のコミット:

https://bitbucket.org/nvdajp/nvdajpmiscdep/commits/e4263acc8632a4b13150e12c3324a68283ee198d

このうち jptools/harness.py の変更は以下:

 	{   'text': '鬘合わせ', 'input': 'カツラ アワセ'},
 	{   'text': '暗順応', 'input': 'アンジュンノー'},
+
+	{   'text': '大慌て', 'input': 'オオアワテ'},
+	{   'text': '大いなる', 'input': 'オオイナル'},
+	{   'text': '大男', 'input': 'オオオトコ'},
+	{   'text': '大川', 'input': 'オオカワ'},
+	{   'text': '大君', 'input': 'オオキミ'},
+	{   'text': '大阪', 'input': 'オオサカ'},
+	{   'text': '大旦那', 'input': 'オオダンナ'},
+	{   'text': '大づかみ', 'input': 'オオヅカミ'},
+	{   'text': '大人数', 'input': 'オオニンズー'},
+	{   'text': '大田', 'input': 'オオタ'},
+
 	{   'text':'↓最新号はこちらからお楽しみください↓', 'input':'↓サイシンゴーワ コチラカラ オタノシミクダサイ↓'},
 	{   'text':'http://www.mag2.com/o/tabi/2013/1121.html', 'input':'⠠⠦http://www.mag2.com/o/tabi/2013/1121.html⠠⠴'},
 	{   'text':'このメルマガはHTML形式です。HTMLメール表示をオフにしている', 'input':'コノ メルマガワ HTML ケイシキデス。HTML メール ヒョージヲ オフニシテ イル'},

この作業の元になっているのは Dropbox nvdajpTeam / braille / 点字表記辞典-あ行-「お」.xlsx 「点字の正誤」と「読みの正誤」が両方とも間違っているものを優先しています。

まず harness.py に追加をして、テストを実行して、エラーの数が 0 にならないことをまず確認する。

それからエラーが 0 になるように辞書やルールを修正します。 harness 以外の修正作業は、あまり他の人にお任せできる状況になっていないので、 説明は省略しますが、

チケット #29508 日本語テキスト解析の辞書登録機能

https://sourceforge.jp/ticket/browse.php?tid=29508&group_id=4221

と同じ方法で解決できる場合もあります。

どうしても修正できない場合はテストをコメントアウト(将来の課題として保留)する場合もあります。

2016-04-12 22:39 Updated by: nishimoto
Comment

次のテスト版で点字表記辞典 あ行「い」関連の改善をいくつか反映させる予定です。

https://github.com/nvdajp/nvdajpmiscdep/issues/23

リリースノートの都合上このチケットは 2016.2jp における改善点に限定したいと思います。

2016-04-20 20:48 Updated by: nishimoto
Comment

もうすこし作業を進めることにしたのでタイトルを変更:

https://github.com/nvdajp/nvdajpmiscdep/issues/23

点字表記辞典 あ行「い」「う」「え」「お」関連

2016-06-02 17:13 Updated by: nishimoto
  • Ticket Close date is changed to 2016-06-02 17:13
  • Status Update from Open to Closed

Edit

Please login to add comment to this ticket » Login