Shinsuke Sugaya
shins****@yahoo*****
2009年 12月 21日 (月) 18:10:53 JST
菅谷です。 ややこしくなって申し訳ありません。その機能を 追加した動機は、クロールしていくけど、その中の 一部は検索対象にしたくないようなことから来てます。 たとえば、一覧と詳細ページがあったとして、一覧 ページをクロールの開始地点にして、検索結果には 詳細ページだけにしたいような場合です(一覧ページは 結果に表示しない)。このような場合は、「検索対象から 除外するURL」に一覧ページを指定します。 簡単ではありますが、 http://fess.sourceforge.jp/ja/1.2/admin/webCrawlingConfig-guide.html にまとめてみました。 > クロール対象 URL とは... クロールする対象 URL になります。検索対象 URLで何も 指定しなければ、今まで通り、検索対象としてSolr に投入 されます。 > 検索対象 URL とは... 検索対象として Solr に投入される URL になります。 クロール対象となった URL を Solr に投入するかどうか (検索結果に入れるか) を制御します。 > ・クロール対象 URL に指定してあれば、検索するとヒットするように > 思いますが、それで正解でしょうか? 検索対象 URL (除外も)で何も指定しなければ、Solr に投入 され、検索にヒットします。検索対象 URL が指定されていれば それにマッチするかどうかで、検索にヒットするか決まります。 > ・クロール対象 URL 内のドキュメントにクロール対象外へのリンクが > ある場合、リンク先のドキュメントは検索対象になるでしょうか? クロール対象外であれば、検索にはヒットしません。 > ・上記の場合、検索対象をクロール対象内に閉じ込めたいときは、検 > 索対象 URL にクロール対象 URL と同じ正規文字列検索式を入れて > おく必要がありますか? 検索対象はクロール対象に含まれます。 検索対象の URL はクロール対象の中での条件をしてすれば OK です。同じものを指定する必要はありません。 たとえば、従来通り、クロール対象で指定して、ある部分の ドキュメントだけ検索結果に表示したくない場合に、「検索対象から 除外するURL」にそれを指定するような使い方があると思います。 よろしくお願いいたします。 # ドキュメントに例を書いた方がよさそうですね…(反省) shinsuke 2009年12月21日15:48 Masayuki Shibata <mshib****@shima*****>: > 柴田@亀岡市です。 > > 非常に基本的な質問で恐縮なのですが... > > クロール対象 URL とは... > 対象 URL のドキュメント中にリンクがないか探しに行く。 > > 検索対象 URL とは... > 対象 URL のドキュメント中に検索文字がないか探しに行く。 > > ...と思っているのですが、 > > ・クロール対象 URL に指定してあれば、検索するとヒットするように > 思いますが、それで正解でしょうか? > > ・クロール対象 URL 内のドキュメントにクロール対象外へのリンクが > ある場合、リンク先のドキュメントは検索対象になるでしょうか? > > ・上記の場合、検索対象をクロール対象内に閉じ込めたいときは、検 > 索対象 URL にクロール対象 URL と同じ正規文字列検索式を入れて > おく必要がありますか? > > ちょっと一番上の質問の部分で混乱しておりますので、とんちんかん > な質問をしてしまっているのかも知れませんが、ご教示いただけると > 助かります。 > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >