naist-jdic (for ChaSen) (NAIST-jdic-0.4.3) | 2008-07-07 14:48 |
naist-jdic (for MeCab) (mecab-naist-jdic-0.6.3b-20111013) | 2011-10-13 17:31 |
naist-jdic with "ChaSen for Windows" (ChaSen-2.4.2-1-NAIST-jdic-sjis-0.3.0) | 2008-03-09 10:52 |
NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、 表記ゆれ情報を付与し、複合語の構造を付与する作業を行っています。 固有名詞については不要な語、新規追加などの整理を随時行っていきます。 この作業により IPAdic のライセンスで問題となっていた ICOT 条項を削除し、 広告条項無しの BSD ライセンスに変更致しました。
NAIST-jdic は IPAdic における「可能性に基づく品詞の整理」を行ったものを公開しています。Seed 辞書に対するエントリの整理を行いましたが、これに伴うコーパスの修正が追いついていないため、IPAdic 時代の辞書より見かけの精度は悪くなっています。尚、「可能性に基づく品詞の整理」は以下の作業を意味します。
以下に示す数値は手元のコーパスを訓練 4 : テスト 1 に分割して評価したものです。配布している辞書はコーパス全体で訓練したものです。
LEVEL (ALL) RECALL 0.971013019258657 PREC 0.971985644651561 LEVEL 3 (Word/POS/Ctype/Cform/Base) RECALL 0.973972184913071 PREC 0.974947774385345 LEVEL 2 (Word/POS) RECALL 0.974555456262675 PREC 0.975531629974825 LEVEL 1 (Word/C-POS) RECALL 0.986145967668573 PREC 0.987133751138251 LEVEL 0 (SEG) RECALL 0.991411463154909 PREC 0.992404520863464
LEVEL (ALL) RECALL 0.971232414903921 PREC 0.972174015511848 LEVEL 3 (Word/POS/Ctype/Cform/Base) RECALL 0.974154122765241 PREC 0.975098555941209 LEVEL 2 (Word/POS) RECALL 0.974737394114846 PREC 0.975682392766851 LEVEL 1 (Word/C-POS) RECALL 0.98610850987548 PREC 0.987064532716287 LEVEL 0 (SEG) RECALL 0.991363303135217 PREC 0.992324420448215
LEVEL (ALL) RECALL 0.927251614698438 PREC 0.928419112525584 LEVEL 3 (Word/POS/Ctype/Cform/Base) RECALL 0.970344130096267 PREC 0.971565885492011 LEVEL 2 (Word/POS) RECALL 0.970670548007513 PREC 0.971892714394402 LEVEL 1 (Word/C-POS) RECALL 0.983475762132312 PREC 0.984714051499662 LEVEL 0 (SEG) RECALL 0.988966004377211 PREC 0.990211206480856