内山敏郎
toshio_uchiy****@mirro*****
2018年 8月 10日 (金) 20:48:23 JST
須藤さま お世話になります。内山です。 ご教示ありがとうございます。 bigram で PGRoonga のインデックスを作ってみたところ mecab で作っていた時とインデックスの大きさに変化が なかったので、bigram のインデックスで様子を見てみます。 ありがとうございました。 -----Original Message----- From: groon****@lists***** [mailto:groon****@lists*****] On Behalf Of Kouhei Sutou Sent: Thursday, August 9, 2018 5:55 PM To: groon****@lists***** Subject: [groonga-dev, 04655] Re: [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence. 須藤です。 In <008b01d42c70$0a90d450$1fb27cf0$@mirror.ocn.ne.jp> "[groonga-dev, 04654] [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence." on Sun, 5 Aug 2018 12:54:42 +0900, 内山敏郎 <toshio_uchiy****@mirro*****> wrote: > [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence. > > 上述のエラーは、text[] の中の配列の要素のどれかが長いので > > その文章を短くして対応した方が良いでしょうか。 > > Mecab の制限をなくすことはできないでしょうか。 GRN_MECAB_CHUNKED_TOKENIZE_ENABLED=yesという環境変数を設定し てPostgreSQLを起動すると、長すぎるテキストを分割しながら MeCabで処理するようにできます。 ただ、このエラーがでるようなテキストは解析してもあまり意味が ないデータであることが多い(ランダムなアルファベットの連続と か)ので単に無視できるようにするだけでもいいかなぁという気も しています。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> Groongaベースの全文検索システムを総合サポート: http://groonga.org/ja/support/ データ処理ツールの開発: http://www.clear-code.com/blog/2018/7/11.html _______________________________________________ groonga-dev mailing list groon****@lists***** https://lists.osdn.me/mailman/listinfo/groonga-dev