[groonga-dev,04364] Re: pgroongaのログ出力内容について

Back to archive index

Kouhei Sutou kou****@clear*****
2017年 5月 14日 (日) 22:23:59 JST


須藤です。

In <40206****@web10*****>
  "[groonga-dev,04363] Re: pgroongaのログ出力内容について" on Thu, 11 May 2017 19:44:05 +0900 (JST),
  tak_kaz24****@yahoo***** wrote:

>>■事象2:too many postingsが発生する
> 
>>これの再現方法を提供してもらうことってできますか?
>>これも実データでなくても構いません。
> 
> 上記事象についてはこちらで調査してみましたが再現条件が不明な状態です。
> too many postingsについてどのような条件で発生するかご存知でしたら教えていただけないでしょうか?

特定のトークン(今回の場合は「-」)が大量に含まれていると発
生するはずです。どこに大量に含まれていれば発生するか、ですが、
1つの文書内にでも、複数の文書にまたがってでも発生するはずで
す。今回の場合は複数の文書にまたがっているが、特定の文書です
ごく多い、というデータなのではないかと思います。

極端ですが、たとえば、"- - - - (これが15万回続く)"というテ
キストでも再現すると思います。

が、このケースのときにどうしたらよいか、という話をしても、お
そらく、高橋さんのケースでは役に立たないのではないかと思うの
で、高橋さんのケースの再現方法を提供してもらいたいなぁと思っ
ています。

> 以下のWebページの内容からpostingが1つのトークンに関連した情報で1つの文書あたり0x1ffff個(= 131071個)が上限であることはわかりますが、
> ログの内容からはどの文書で発生しているのか不明なので、再現方法やデータの提供が困難な状態です。

あ、常に再現するというわけではなかったのですか。てっきり、常
に再現するのかと思っていました。再現するときもあれば再現しな
いときもあるという感じですか?

とりあえず、ログにそのとき登録しようとしていた文書のIDを出力
するようにはしました。

たぶん、ログにでるのは「-」が大量に(373665個以上)含まれて
いる文書だと思います。


-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/>

Groongaベースの全文検索システムを総合サポート:
  http://groonga.org/ja/support/
パッチ採用 - プログラミングが楽しい人向けの採用プロセス:
  http://www.clear-code.com/recruitment/
OSS開発支援サービス:
  http://www.clear-code.com/blog/2016/6/27.html




groonga-dev メーリングリストの案内
Back to archive index