[groonga-dev,02653] Re: [mroonga] mroonga_snippet

Back to archive index

Kouhei Sutou kou****@clear*****
2014年 8月 16日 (土) 14:19:26 JST


須藤です。

In <CA+e43RM=rF3G4HRF6ZrZ15homVbjOVJkwY-JabEhGS3_KLO-r****@mail*****>
  "[groonga-dev,02647] [mroonga] mroonga_snippet" on Fri, 15 Aug 2014 14:59:30 +0900,
  warp kawada <warp.****@gmail*****> wrote:

> というテーブル内容で max_length=12
> <hit>ン<1>あ</1>いう</hit><hit>お<2>カ</2>キク</hit><hit>ケ<3>コ</3>さし</hit>

> max_length=15
> <hit>ワン<1>あ</1>いう</hit><hit><2>カ</2>キクケ<3>コ</3></hit>           |

> となります。ここで「ン-いう」、「ワン-いう」とハミ出る?部分はヒットした文字列を真ん中に寄せるという仕様なんでしょうか?

はい、そうです。

> 常に「-いうえ」「-キクケ」となってくれた方が扱い易いなと思ったのですけど。
> どうなんでしょうか?

どうなんでしょうねぇ。
私は「以降」の文字列だけでなく、「前後」の文字列もあったほう
が文脈がわかりやすくて便利ですけど。。。


> また、max_length はバイト数よりは文字数であると嬉しいですね。

あぁ、たしかにそうですね。
ただ、実装がバイト数で処理しているので、簡単には変更できない
んですよねぇ。実装も文字を意識した処理にしないといけないです。
今は、文字の境界は意識しているのでバイト数での指定ですが、文
字が壊れることはありません。そこをもう少し推し進める感じです
ね。


-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/>

Groongaベースの全文検索システムを総合サポート:
  http://groonga.org/ja/support/
パッチ採用 - プログラミングが楽しい人向けの採用プロセス:
  http://www.clear-code.com/recruitment/
コードリーダー育成支援 - 自然とリーダブルコードを書くチームへ:
  http://www.clear-code.com/services/code-reader/




groonga-dev メーリングリストの案内
Back to archive index