Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Internet
>
WWW/HTTP
>
Indexing/Search
>
Ludia
>
Ticket List/Search
>
Ticket #11202
Ludia
Description
Project Summary
Developer Dashboard
Web Page
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
Wiki
FrontPage
Title index
Recent changes
Doc Mgr
List Docs
Communication
Forums
List of Forums
Help (2)
Open Discussion (1)
Mailing Lists
list of ML
ludia-users
News
Ticket #11202
Ticket List
Submit New Ticket
RSS
類似分書検索の特徴語抽出の条件について
Open Date:
2007-10-26 19:29
Last Update:
2007-11-16 10:08
monitor
ON
OFF
Reporter:
ssn
Owner:
(None)
Type:
Bugs
Status:
Open
Component:
(None)
MileStone:
(None)
Priority:
5 - Medium
Severity:
5 - Medium
Resolution:
None
File:
None
Details
Reply
類似分書検索の特徴語抽出の条件について
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。
Ticket History (3/6 Histories)
Show older Histories
2007-10-31 09:01
Updated by:
co-saka
Comment
Reply
Logged In: YES
user_id=23292
ご報告ありがとうございます!!!
非常に助かります。
上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html
Subversionでの取得方法
http://qwik.jp/senna/Download.html
今後もバグなど見つかりましたら、
ご報告よろしくお願いします。
2007-11-09 11:57
Updated by:
ssn
Comment
Reply
Logged In: YES
user_id=31583
rev 610にて確認しました。
上記の異常ケース
>2.ヒットしないケース
については対応確認出来ました。
ありがとうございます。
しかし新たに問題が…
3.ヒットするケース
whre DATA @@ '*S1 "トラ トラ ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。
仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね?
また同じ出現頻度の物があった場合
例
検索文字列(トラ トラ ライオン ライオン)
抽出後 (トラ ライオン)
で *S1 とした場合はどちらで検索しに行くのでしょうか?
追加質問で申し訳ありませんが
よろしくお願いします。
2007-11-13 08:42
Updated by:
co-saka
Comment
Reply
Logged In: YES
user_id=23292
> で認識あってますよね?
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い(0は除く)形態素が特徴語
になります。
> 3.ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。
検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。
> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。
2007-11-13 11:44
Updated by:
ssn
Comment
Reply
Logged In: YES
user_id=31583
問題解決しました。ありがとうございます。
類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか?
2007-11-16 08:57
Updated by:
co-saka
Comment
Reply
Logged In: YES
user_id=23292
類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。
2007-11-16 10:08
Updated by:
ssn
Comment
Reply
Logged In: YES
user_id=31583
回答ありがとうございます。
sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。
たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。
Attachment File List (
0
)
Attachment File List
No attachments
Edit
Add Comment
You are not logged in.
I you are not logged in, your comment will be treated as an anonymous post. »
Login
Add Comment
Preview
Submit
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。