[groonga-dev,00707] Re: MeCabとの組合わせについて

Back to archive index

Masaharu YOSHIOKA yoshi****@ist*****
2012年 2月 24日 (金) 15:52:09 JST


須藤様

北大の吉岡です。

>>>>> On Fri, 24 Feb 2012 15:32:02 +0900 (JST)
>>>>> kou****@clear*****(Kouhei Sutou)  said:

> In <20120****@ist*****>
>   "Re: [groonga-dev,00704] Re: MeCabとの組合わせについて" on Fri, 24 Feb 2012 14:49:23 +0900 (JST),
>   Masaharu YOSHIOKA <yoshi****@ist*****> wrote:
> 
> > MeCabでのトークナイズは問題ありません。対象となっているデータは、主に日
> > 本語の1845文字のデータで、途中にエラーを起こすような文字があるのか確認
> > するために、部分文字列を作成して、登録をしてみました。
> > 
> > その結果、特定の文字を使いするとエラーが起きるという状況ではなく、1380
> > 文字程度より長くなると、エラーが起きるという状況でした。エラーを起こす
> > 文字数が一貫しないのは、UTF-8で、ASCII文字を含むデータであるためではな
> > いか(ある一定のバイト数以上で問題が起きる)とも考えられます。
> > 
> > 確認のため、適当な文字列の繰り返しで作成した長い文字列でも問題が起こる
> > ことも確認しています。
> 
> 確認ありがとうございます。
> 
> こちらでもMeCabの挙動を確認してみました。
> どうやらmecab-0.993に問題があるようです。

長い文字列でうまくいかないのは、MeCab0.98の場合で、MeCab0.993がうまく
動かないのは、短いアルファベット文字列です。

ただ、MeCab0.98との組み合わせは、他のマシンではちゃんと動いているので、
他のライブラリなどとの組合わせの問題かもしれません。

ひとまず、次の29の日を待つことにしたいと思います。有難うございました。

> groongaではmecab_sparse_tostr3()というAPIを使っているのです
> が、この関数がうまく動かないケースがあるようです。
> (これについてはMeCabの開発者に報告しています。)
> 
> そのため、groongaのリポジトリの方のコードは↑の関数を使わな
> いように修正しました。これで、次のリリースからはmecab-0.993
> でも動くようになります。(あるいは、↑の問題が修正された
> MeCabがリリースされたら動くようになります。)
> 
> なので、とりあえず、mecab-0.98を使ってもらえますか?

北海道大学大学院情報科学研究科コンピュータサイエンス専攻 准教授
〒060-0814 北海道札幌市北区北14条西9丁目
吉岡 真治		e-mail: yoshi****@ist*****
           URL: http://www-kb.ist.hokudai.ac.jp/~yoshioka/




groonga-dev メーリングリストの案内
Back to archive index