Kouhei Sutou
kou****@clear*****
2018年 8月 9日 (木) 17:54:33 JST
須藤です。 In <008b01d42c70$0a90d450$1fb27cf0$@mirror.ocn.ne.jp> "[groonga-dev, 04654] [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence." on Sun, 5 Aug 2018 12:54:42 +0900, 内山敏郎 <toshio_uchiy****@mirro*****> wrote: > [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence. > > 上述のエラーは、text[] の中の配列の要素のどれかが長いので > > その文章を短くして対応した方が良いでしょうか。 > > Mecab の制限をなくすことはできないでしょうか。 GRN_MECAB_CHUNKED_TOKENIZE_ENABLED=yesという環境変数を設定し てPostgreSQLを起動すると、長すぎるテキストを分割しながら MeCabで処理するようにできます。 ただ、このエラーがでるようなテキストは解析してもあまり意味が ないデータであることが多い(ランダムなアルファベットの連続と か)ので単に無視できるようにするだけでもいいかなぁという気も しています。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> Groongaベースの全文検索システムを総合サポート: http://groonga.org/ja/support/ データ処理ツールの開発: http://www.clear-code.com/blog/2018/7/11.html