[groonga-dev, 04655] Re: [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence.

Back to archive index

Kouhei Sutou kou****@clear*****
2018年 8月 9日 (木) 17:54:33 JST


須藤です。

In <008b01d42c70$0a90d450$1fb27cf0$@mirror.ocn.ne.jp>
  "[groonga-dev, 04654] [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence." on Sun, 5 Aug 2018 12:54:42 +0900,
  内山敏郎 <toshio_uchiy****@mirro*****> wrote:

> [tokenizer][mecab] mecab_sparse_tostr() failed len=601521 err=too long sentence.
> 
>  上述のエラーは、text[] の中の配列の要素のどれかが長いので
> 
> その文章を短くして対応した方が良いでしょうか。
> 
>  Mecab の制限をなくすことはできないでしょうか。

GRN_MECAB_CHUNKED_TOKENIZE_ENABLED=yesという環境変数を設定し
てPostgreSQLを起動すると、長すぎるテキストを分割しながら
MeCabで処理するようにできます。

ただ、このエラーがでるようなテキストは解析してもあまり意味が
ないデータであることが多い(ランダムなアルファベットの連続と
か)ので単に無視できるようにするだけでもいいかなぁという気も
しています。

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/>

Groongaベースの全文検索システムを総合サポート:
  http://groonga.org/ja/support/
データ処理ツールの開発:
  http://www.clear-code.com/blog/2018/7/11.html




groonga-dev メーリングリストの案内
Back to archive index