[mecab-users 137] mecab-0.92

Back to archive index

Taku Kudo taku****@chase*****
2006年 7月 10日 (月) 00:43:05 JST


くどうです

mecab 0.92 を公開しました。http://mecab.sourceforege.jp/

新しい辞書, mecab-ipadic-2.7.0-20060707 も同時公開しています。

バイナリ辞書とテキスト辞書のフォーマットを変更しています。
新しい辞書をダウンロードして辞書をリコンパイルしてください。

大きな変更点は Perl との決別です。0.91 までは辞書のコンパイルなど
一部のコードが Perl で実装されていましたが、今回すべて C++ で再実装し
てだいぶすっきりしました。 辞書のコンパイルなんかは数秒で終わります。
十分テストしていませんが、windows の素の環境でも CRF を使った学習ができます。

さらに、ライセンスがGPL/LGPL/BSDのトリプルライセンスに変更になりました。

    *  ライセンスを LGPL から GPL, LGPL, BSDスタイルライセンスの
   トリプルライセンスに変更
    * 辞書コンパイラ等, 一部Perlで実装されていたコードをC++で再実装.
   Perlへの依存性の排除
    * 辞書コンパイラ (mecab-dict-index) の高速化
    * rewrite.def のシンタックスの変更
    * -x "未知語品詞" オプションの追加: 未知語推定を行わず,
   ユーザが指定した "未知語品詞" を出力
    * 品詞 id のサポート
    * 文字種情報が一部学習できていなかったバグの修正
    * 学習の際, 頻度による足切りができていなかったバグの修正
    * その他細いバグの修正

mecab 0.93 では HMM を使った未知データからの学習を実装したいと思います。
これができれば、wikipedia から自動辞書作成ができるかもしれません。

-- taku



mecab-users メーリングリストの案内
Back to archive index