Kouhei Sutou
kou****@clear*****
2013年 9月 24日 (火) 14:33:28 JST
須藤です。 In <CANM+HhdZMHOKztyLGfcSYzsEsRY5OmAttY=eCVLv****@mail*****> "[groonga-dev,01814] Re: mecabトークナイザでのtoo long sentenceの回避方法について" on Tue, 24 Sep 2013 06:58:49 +0900, Naoya Murakami <visio****@gmail*****> wrote: > mecabトークナイザーのtoo long sentenceを回避するために、所定バイト数で分割し、 > 且つ、文章の区切りとなる文字まで戻して、mecab_sparse_to_str2に渡すように > トークナイザをいじりました。 > > https://github.com/naoa/groonga-tokenizer-customized/blob/master/tokenizers/mecabfilter.c > > しかしながら、以下のような、corrupted double-linked listのメッセージがでて、 > mysqldがクラッシュして、インデックス構築ができませんでした。。。 > > ソースをちょこちょこいじりましたが、3回まったく同じタイミングで再現しました。 > > また、インデックスに失敗したカラムを10分割にしてやってみると、 > 以下のメッセージはでず、インデックス構築に成功しました。 手元でも試してみたいので、以下の情報を教えてもらえませんか? 1. mroongaでのテーブル定義 (どのトークナイザーを使っているかを知りたい) 2. エラーが発生したINSERT文 (どのデータで問題なのかを知りたい) https://github.com/naoa/groonga-saigen と同じようにGitHubに 置いてもらか、groon****@groon*****にメールで教えてもらえれば 大丈夫です。 もし余裕があれば、以下も試してもらえると助かります。 3. 1., 2.のgrnntestバージョンの作成 https://github.com/naoa/groonga-tokenizer-customized/blob/master/test/suite/mecabfilter_TokenMecabPartOfSpeechLength.test のようなやつ。 テストデータは2.のものを使う。 4. 3.で問題が再現するかどうかの確認 (groongaの問題かmroongaも関係あるかを切り分けたい) >>おぉ!独自ノーマライザー! >>11/29のgroonga勉強会でなにか話してみませんか!? >> http://atnd.org/events/43461 >>groonga/mroongaを使い込んでいる系の話もあるといいなぁと思っ >>ていたのです! > > いろいろお世話になっておりますし、お手伝いできればいいなとは思っていますが、 > 以下の理由からちょっと厳しそうです。 > 11月29日までに何とか目処がついて、そのときにまだ空きがあれば、 > またご相談ということでいいですかね? はい、それで結構です! (むちゃぶりしてしまってすみません。。。) > 1.関西在住 あぁ、これはたしかに厳しいですね。。。 > 2.groongaは本職では使っておらず、そもそも本職はシステムにまったく関係ない職業 これは大丈夫ですよ! いろんな人がいろんな用に使っていてよいと思います。 > 3.インデックス構築に失敗していて、そもそも使い込めておらず、まだ紹介できるような状態にない なかなか使えるようにならなくて申し訳なく思います。。。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270) groongaサポート: http://groonga.org/ja/support/ パッチ採用はじめました: http://www.clear-code.com/recruitment/ コミットへのコメントサービスはじめました: http://www.clear-code.com/services/commit-comment.html