[Anthy-dev 2477] gcanna.ctd の頻度について

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2005年 10月 1日 (土) 02:18:40 JST


内海です。

--- Yusuke TABATA <yusuk****@w5*****> wrote:
> Anthyの場合(多分、Cannaも)、頻度の数字が同じであれば
> 辞書ファイル中の順序を使いますが、頻度の数字があれば
> それを優先します。

少なくとも同一品詞においては、
単純に並び順を優先するほうが良い変換結果を得られると思います。
候補の優先順位を編集するときは次のようなミスを
犯しがちだからです。
---
(例) "お得意様" を "お得意さま" より優先させる
[編集前] #T35*137 お得意さま #T35*130 お得意様 #T35*120 御得意様
[編集後] #T35*130 お得意様 #T35*137 お得意さま #T35*120 御得意様
---
このときに #T35*137 -> #T35*130 -> #T35*120 のように
内部で解釈されると、(編集者のミスとはいえ)期待した効果が表れません。

編集者が 第二候補 -> 第一候補 -> 第三候補 の順に候補を書くことは
まずないと思います。
従って頻度の並びがそのようになっている場合は、
このように解釈していただけるとうれしいです。
#T35*130 お得意様 #T35*[130-2] お得意さま #T35*120 御得意様

次のような場合は、
#T35*137 お得意さま #T35*138 お得意様 #T35*130 御得意様 #T35*136 おとくいさま
このようになります:
#T35*137 お得意さま #T35*[137-2] お得意様 #T35*130 御得意様 #T35*[130-2] おとくいさま

あるいは次のようなスクリプトを書いてくださると安全かもしれません:
見出語ごとに頻度数字の並びをチェックして、A > B > C の並びに
なっていないものに対してエラーメッセージを出す。


別件ですが、辞書の形式について。
今後どのような形をとられるか分からないのですが、
一語に対して複数行を必要とする形式だと
gcanna.ctd が数十万行になって編集が難しくなってしまいます。
(現在 92,000 行。私は kwrite で編集しています)
その辺りも考慮に入れて新形式をお考えいただけましたら幸いです。


--------------------------------------
Know more about Breast Cancer
http://pr.mail.yahoo.co.jp/pinkribbon/




Anthy-dev メーリングリストの案内
Back to archive index