Ticket #34545

点訳で数字とアルファベットのあいだに外字符が入らない場合がある

Open Date: 2014-10-27 23:55 Last Update: 2014-11-20 23:05

Reporter: nishimoto Owner: nishimoto
Type: Bugs Status: Closed
Component: 点字ディスプレイ MileStone: 2014.4jp (closed)
Priority: 5 - Medium Severity: 5 - Medium
Resolution: Accepted

Details

以下のような入力の点字出力で、数字とアルファベットの間の外字符が抜ける、という指摘がありました。

2014h26a_ip_qs.pdf

状況: テキスト解析(前処理)の失敗で 2014 と h26a_ip_qs.pdf が分かれてしまう。 後半だけが外国語引用符に囲まれた文字列として変換される。 外国語引用符の内側の 数26a で a の前に外字符がついていない。 アンダーラインは情報処理用点字の規則と同じ 5 36 として点訳されている。

結果(h26a_ip_qs.pdf の部分):

236 125 3456 12 124 1 5 36 24 1234 5 36 12345 234 256 1234 145 124 356

修正案(1): 外国語引用符の中でも数字とアルファベットのあいだには外字符を入れる。

修正案(2): こういう文字列を外国語引用符で囲むのではなく、 情報処理用点字で全体を点訳するようにテキスト解析を改善する。 具体的には、情報処理用点字の判定処理に、 アンダースコアを含む、末尾がファイル名の拡張子のようなパターン、 といったヒューリスティックな規則を追加する。

Attachment File List

No attachments

Ticket History (3/4 Histories)

2014-10-27 23:55 Updated by: nishimoto
  • New Ticket "点訳で数字とアルファベットのあいだに外字符が入らない場合がある" created
2014-10-28 00:06 Updated by: nishimoto
Comment

情報処理用点字の場合も「数字とアルファベットの間の小文字フラグ」が抜けている。

例:

http://0x1b

現状で http:// を含む文字は情報処理用点字として判定しているが、 最後の 1b が「数 1 12」と変換されていて、 12 と区別がつかない状況。

2014-10-29 11:08 Updated by: nishimoto
  • Milestone Update from (None) to 2014.4jp (closed)
  • Resolution Update from None to Accepted
Comment

本件に関するコミット記録:

}}} To git@bitbucket.org:nvdajp/nvdajpmiscdep.git

05c6473..26b077b master -> master

To git@bitbucket.org:nvdajp/nvdajp.git

1fc9854..6571601 jpbeta -> jpbeta

}}}

外国語引用符の中、情報処理用点字の中で、数字の直後にアルファベットが来るときは外字符を入れる修正を行いました。

2014-11-20 23:05 Updated by: nishimoto
  • Ticket Close date is changed to 2014-11-20 23:05
  • Status Update from Open to Closed

Edit

Please login to add comment to this ticket » Login