Masaharu YOSHIOKA
yoshi****@ist*****
2007年 12月 28日 (金) 00:50:10 JST
はじめまして 吉岡と申します。 下記の件に関連した、質問なのですが、分かち書きしたインデックスに用いら れている語の一覧をtritonnから獲得することはできますでしょうか。 具体的には、文書群から特徴語群を計算したいような場合に、候補となる語の 一覧(文書群に含まれている語のリスト)を得てから、出現回数の情報を得たい と思っています。 SennaのAPIから調べる方法はあるのですが、パーミッションの問題などを考え ると、できれば、mysqlから調べることができるとありがたいと思っています。 よろしくお願いします。 >>>>> On Sat, 22 Dec 2007 00:45:39 +0900 >>>>> a****@razil*****(Tasuku SUENAGA) said: > > 末永です。 > こんばんは。 > > 2回MeCabの処理が走るのはもったいない感じがしますね。 > > 事前にmecabで分かち書きをしたものをMySQLに格納し、 > USING DELIMITEDのオプションを指定して > インデックスを作成すれば、 > 2回MeCabを呼ぶ必要はなくなります。 > http://qwik.jp/tritonn/reference.html > > しかし、 > DELIMITEDオプションでは、 > 後方一致検索ができなくなっちゃいます。 > > いかがでしょうか。 > > Ryousuke Wayama さんは書きました: > > はじめまして。 > > 和山と申します。 > > > > 今SNS上ではてなの「おとなり日記」の > > ようなものを作っています。 > > そのときに特長語を取りたいため、自前でmecabで > > 分かち書きしたものから特長語を作って、それを > > Trittonに投げて類似文章を検索してきております。 > > > > しかし、せっかくTritton投入時にmecabで分かち > > 書きされているので、それを使用できないかと調べて > > みました。 > > > > sennaのAPIから直接インデックスファイルを覗いて > > くる方法はあったのですが、select時に取得する方法は > > ないものでしょうか? > > > > よい知恵をお貸しいただければ幸いです。 吉岡真治