[Senna-dev 741] Re: 分かち書きされたINDEX情報を取得したい

Back to archive index

Masaharu YOSHIOKA yoshi****@ist*****
2007年 12月 28日 (金) 00:50:10 JST


はじめまして

吉岡と申します。

下記の件に関連した、質問なのですが、分かち書きしたインデックスに用いら
れている語の一覧をtritonnから獲得することはできますでしょうか。

具体的には、文書群から特徴語群を計算したいような場合に、候補となる語の
一覧(文書群に含まれている語のリスト)を得てから、出現回数の情報を得たい
と思っています。

SennaのAPIから調べる方法はあるのですが、パーミッションの問題などを考え
ると、できれば、mysqlから調べることができるとありがたいと思っています。

よろしくお願いします。

>>>>> On Sat, 22 Dec 2007 00:45:39 +0900
>>>>> a****@razil*****(Tasuku SUENAGA)  said:
> 
> 末永です。
> こんばんは。
> 
> 2回MeCabの処理が走るのはもったいない感じがしますね。
> 
> 事前にmecabで分かち書きをしたものをMySQLに格納し、
> USING DELIMITEDのオプションを指定して
> インデックスを作成すれば、
> 2回MeCabを呼ぶ必要はなくなります。
> http://qwik.jp/tritonn/reference.html
> 
> しかし、
> DELIMITEDオプションでは、
> 後方一致検索ができなくなっちゃいます。
> 
> いかがでしょうか。
> 
> Ryousuke Wayama さんは書きました:
> > はじめまして。
> > 和山と申します。
> > 
> > 今SNS上ではてなの「おとなり日記」の
> > ようなものを作っています。
> > そのときに特長語を取りたいため、自前でmecabで
> > 分かち書きしたものから特長語を作って、それを
> > Trittonに投げて類似文章を検索してきております。
> > 
> > しかし、せっかくTritton投入時にmecabで分かち
> > 書きされているので、それを使用できないかと調べて
> > みました。
> > 
> > sennaのAPIから直接インデックスファイルを覗いて
> > くる方法はあったのですが、select時に取得する方法は
> > ないものでしょうか?
> > 
> > よい知恵をお貸しいただければ幸いです。

吉岡真治




Senna-dev メーリングリストの案内
Back to archive index