[Anthy-dev 2582] Sumibi用辞書作成作業のご協力のお願い

Back to archive index

Kiyoka Nishiyama kiyok****@netfo*****
2005年 10月 25日 (火) 23:14:48 JST


kiyokaと申します。はじめまして。

現在私はSumibiというオープンソースの日本語入力メソッドを開発しています。
  http://www.sumibi.org/sumibi/sumibi.html


今回、Sumibiの辞書作成作業にご協力頂けないかと思いましてこのメーリング
リストに投稿させて頂きました。

・SumibiはInternet上のドキュメントを読み込んでひとりでに賢くなる新感覚
  の漢字変換エンジンを持っています。

・Sumibi辞書ではWikipedia日本語版から単語の共起頻度を集計すると同時に
  知らないカタカナ語とひらがな語を全て取りこむという事をしています。

・私の所有マシンの処理性能からすると Sumibi の中規模辞書は2006年3月か
  ら6月くらいの完成予定です。
  高性能のマシンをお持ちの方に手伝っていただけると、完成がもっと早まる
  可能性があります。もし、Athron64 +3000 メインメモリ2GByteのマシンを
  使えば今の約 1/10の時間で完了することがわかっています。

・必要なのは、マシンパワーのみで(特にメモリです)、辞書構築ツールをイン
  ストールしてしまえば、ずっと走らせて放っておくだけです。

 ・辞書作成の詳細に付きましてはこちらをご覧ください。
   http://www.sumibi.org/sumibi/sumi.html
   http://www.sumibi.org/sumibi/sumiyaki.html


また、私のマシンで構築している状況はWebからいつでも見れています。たぶ
ん性能の良いマシンならすぐに追い抜けます。
  http://www.sumibi.org/sumibi/mrtg/

下のグラフの6月から7月までの急峻なカーブは Athron64 +3000 メインメモリ
2GByteのマシンを使って学習させたものです。それ以外のなだらかなカーブは、
Celeron1GHz メインメモリ 512MByteのマシンで学習させたものです。
  http://www.sumibi.org/sumibi/mrtg/file_sumi.html

Athron64 +3000 メインメモリ2GByteのマシンはSumibi.orgで世界中からの変
換リクエストを処理しているので負荷をかけるわけにはいかないのが現状です。

ご協力いただけるかたがいらっしゃいましたらぜひご連絡ください。できあがっ
た辞書は、SKKJISYOとWikipedia日本語版を使うので再配布自由なものになり
ますので御安心下さい。

Anthyのほうもこれから、Wikipedia日本語版を読み込んで学習させるという作
業をされるかもしれませんので、その邪魔にならない範囲でおねがいします。

以上、宜しくおねがいします。
+---
 Kiyoka Nishiyama <kiyok****@netfo*****>
 http://www.netfort.gr.jp/~kiyoka/
 世界の果てから漢字変換 http://www.sumibi.org/



Anthy-dev メーリングリストの案内
Back to archive index