Masaharu YOSHIOKA
yoshi****@ist*****
2012年 2月 24日 (金) 15:52:09 JST
須藤様 北大の吉岡です。 >>>>> On Fri, 24 Feb 2012 15:32:02 +0900 (JST) >>>>> kou****@clear*****(Kouhei Sutou) said: > In <20120****@ist*****> > "Re: [groonga-dev,00704] Re: MeCabとの組合わせについて" on Fri, 24 Feb 2012 14:49:23 +0900 (JST), > Masaharu YOSHIOKA <yoshi****@ist*****> wrote: > > > MeCabでのトークナイズは問題ありません。対象となっているデータは、主に日 > > 本語の1845文字のデータで、途中にエラーを起こすような文字があるのか確認 > > するために、部分文字列を作成して、登録をしてみました。 > > > > その結果、特定の文字を使いするとエラーが起きるという状況ではなく、1380 > > 文字程度より長くなると、エラーが起きるという状況でした。エラーを起こす > > 文字数が一貫しないのは、UTF-8で、ASCII文字を含むデータであるためではな > > いか(ある一定のバイト数以上で問題が起きる)とも考えられます。 > > > > 確認のため、適当な文字列の繰り返しで作成した長い文字列でも問題が起こる > > ことも確認しています。 > > 確認ありがとうございます。 > > こちらでもMeCabの挙動を確認してみました。 > どうやらmecab-0.993に問題があるようです。 長い文字列でうまくいかないのは、MeCab0.98の場合で、MeCab0.993がうまく 動かないのは、短いアルファベット文字列です。 ただ、MeCab0.98との組み合わせは、他のマシンではちゃんと動いているので、 他のライブラリなどとの組合わせの問題かもしれません。 ひとまず、次の29の日を待つことにしたいと思います。有難うございました。 > groongaではmecab_sparse_tostr3()というAPIを使っているのです > が、この関数がうまく動かないケースがあるようです。 > (これについてはMeCabの開発者に報告しています。) > > そのため、groongaのリポジトリの方のコードは↑の関数を使わな > いように修正しました。これで、次のリリースからはmecab-0.993 > でも動くようになります。(あるいは、↑の問題が修正された > MeCabがリリースされたら動くようになります。) > > なので、とりあえず、mecab-0.98を使ってもらえますか? 北海道大学大学院情報科学研究科コンピュータサイエンス専攻 准教授 〒060-0814 北海道札幌市北区北14条西9丁目 吉岡 真治 e-mail: yoshi****@ist***** URL: http://www-kb.ist.hokudai.ac.jp/~yoshioka/