[groonga-dev,01816] Re: mecabトークナイザでのtoo long sentenceの回避方法について

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 9月 24日 (火) 14:33:28 JST


須藤です。

In <CANM+HhdZMHOKztyLGfcSYzsEsRY5OmAttY=eCVLv****@mail*****>
  "[groonga-dev,01814] Re: mecabトークナイザでのtoo long sentenceの回避方法について" on Tue, 24 Sep 2013 06:58:49 +0900,
  Naoya Murakami <visio****@gmail*****> wrote:

> mecabトークナイザーのtoo long sentenceを回避するために、所定バイト数で分割し、
> 且つ、文章の区切りとなる文字まで戻して、mecab_sparse_to_str2に渡すように
> トークナイザをいじりました。
> 
> https://github.com/naoa/groonga-tokenizer-customized/blob/master/tokenizers/mecabfilter.c
> 
> しかしながら、以下のような、corrupted double-linked listのメッセージがでて、
> mysqldがクラッシュして、インデックス構築ができませんでした。。。
> 
> ソースをちょこちょこいじりましたが、3回まったく同じタイミングで再現しました。
> 
> また、インデックスに失敗したカラムを10分割にしてやってみると、
> 以下のメッセージはでず、インデックス構築に成功しました。

手元でも試してみたいので、以下の情報を教えてもらえませんか?

  1. mroongaでのテーブル定義
     (どのトークナイザーを使っているかを知りたい)
  2. エラーが発生したINSERT文
     (どのデータで問題なのかを知りたい)

https://github.com/naoa/groonga-saigen と同じようにGitHubに
置いてもらか、groon****@groon*****にメールで教えてもらえれば
大丈夫です。

もし余裕があれば、以下も試してもらえると助かります。

  3. 1., 2.のgrnntestバージョンの作成
     https://github.com/naoa/groonga-tokenizer-customized/blob/master/test/suite/mecabfilter_TokenMecabPartOfSpeechLength.test
     のようなやつ。
     テストデータは2.のものを使う。
  4. 3.で問題が再現するかどうかの確認
     (groongaの問題かmroongaも関係あるかを切り分けたい)


>>おぉ!独自ノーマライザー!
>>11/29のgroonga勉強会でなにか話してみませんか!?
>> http://atnd.org/events/43461
>>groonga/mroongaを使い込んでいる系の話もあるといいなぁと思っ
>>ていたのです!
> 
> いろいろお世話になっておりますし、お手伝いできればいいなとは思っていますが、
> 以下の理由からちょっと厳しそうです。
> 11月29日までに何とか目処がついて、そのときにまだ空きがあれば、
> またご相談ということでいいですかね?

はい、それで結構です!
(むちゃぶりしてしまってすみません。。。)

> 1.関西在住

あぁ、これはたしかに厳しいですね。。。

> 2.groongaは本職では使っておらず、そもそも本職はシステムにまったく関係ない職業

これは大丈夫ですよ!
いろんな人がいろんな用に使っていてよいと思います。

> 3.インデックス構築に失敗していて、そもそも使い込めておらず、まだ紹介できるような状態にない

なかなか使えるようにならなくて申し訳なく思います。。。


-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html




groonga-dev メーリングリストの案内
Back to archive index