Kiyoka Nishiyama
kiyok****@netfo*****
2005年 10月 25日 (火) 23:14:48 JST
kiyokaと申します。はじめまして。 現在私はSumibiというオープンソースの日本語入力メソッドを開発しています。 http://www.sumibi.org/sumibi/sumibi.html 今回、Sumibiの辞書作成作業にご協力頂けないかと思いましてこのメーリング リストに投稿させて頂きました。 ・SumibiはInternet上のドキュメントを読み込んでひとりでに賢くなる新感覚 の漢字変換エンジンを持っています。 ・Sumibi辞書ではWikipedia日本語版から単語の共起頻度を集計すると同時に 知らないカタカナ語とひらがな語を全て取りこむという事をしています。 ・私の所有マシンの処理性能からすると Sumibi の中規模辞書は2006年3月か ら6月くらいの完成予定です。 高性能のマシンをお持ちの方に手伝っていただけると、完成がもっと早まる 可能性があります。もし、Athron64 +3000 メインメモリ2GByteのマシンを 使えば今の約 1/10の時間で完了することがわかっています。 ・必要なのは、マシンパワーのみで(特にメモリです)、辞書構築ツールをイン ストールしてしまえば、ずっと走らせて放っておくだけです。 ・辞書作成の詳細に付きましてはこちらをご覧ください。 http://www.sumibi.org/sumibi/sumi.html http://www.sumibi.org/sumibi/sumiyaki.html また、私のマシンで構築している状況はWebからいつでも見れています。たぶ ん性能の良いマシンならすぐに追い抜けます。 http://www.sumibi.org/sumibi/mrtg/ 下のグラフの6月から7月までの急峻なカーブは Athron64 +3000 メインメモリ 2GByteのマシンを使って学習させたものです。それ以外のなだらかなカーブは、 Celeron1GHz メインメモリ 512MByteのマシンで学習させたものです。 http://www.sumibi.org/sumibi/mrtg/file_sumi.html Athron64 +3000 メインメモリ2GByteのマシンはSumibi.orgで世界中からの変 換リクエストを処理しているので負荷をかけるわけにはいかないのが現状です。 ご協力いただけるかたがいらっしゃいましたらぜひご連絡ください。できあがっ た辞書は、SKKJISYOとWikipedia日本語版を使うので再配布自由なものになり ますので御安心下さい。 Anthyのほうもこれから、Wikipedia日本語版を読み込んで学習させるという作 業をされるかもしれませんので、その邪魔にならない範囲でおねがいします。 以上、宜しくおねがいします。 +--- Kiyoka Nishiyama <kiyok****@netfo*****> http://www.netfort.gr.jp/~kiyoka/ 世界の果てから漢字変換 http://www.sumibi.org/