limol****@nifty*****
limol****@nifty*****
2011年 4月 8日 (金) 20:06:23 JST
クニカタです。お世話になっております。 Fess4.0で差分クロールのテスト中、標記状況に遭遇しました。 前回クロール時からファイル内容は更新されていないのですが、 必ず毎回インデックスが登録されているファイルがいくつかあり ました。 共通している点は、長い日本語のファイル名ということでした。 調査したところ、該当の長いファイル名のものについては、 更新の有無を確認するためのSolrへの問い合わせ結果 件数が0(hits=0)で返るため、毎回登録されていました。 以下、ざっと確認した状況をまとめます。 ---- ●環境とクロール設定 OS : Windows(XPと2003) 差分クロール : 有効 インデックスの有効期限 : なし ファイルシステムクロール-ブラウザ : PC ●OKケースだった対象ファイル 内容の更新がない場合、再クロール対象とならない(Solrから「hits=1」が返る) 【ファイルパス】 E:\DocumentFiles\FileNameLen\ 022_■いうえおあいうえお■いうえおあいうえお■い.txt 【id】 file:/E:/DocumentFiles/FileNameLen/022_%E2%96%A0%E3%81%84%E3%81%86%E3%81 %88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81%8A%E2%96%A0%E3%81 %84%E3%81%86%E3%81%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81 %8A%E2%96%A0%E3%81%84.txt;type=pc ●NGケースの対象ファイル 内容の更新がない場合でも、再クロール対象となってしまった(Solrから 「hits=0」が返る) 【ファイルパス】 E:\DocumentFiles\FileNameLen\ 023_■いうえおあいうえお■いうえおあいうえお■いう.txt 【id】 file:/E:/DocumentFiles/FileNameLen/023_%E2%96%A0%E3%81%84%E3%81%86%E3%81 %88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81%8A%E2%96%A0%E3%81 %84%E3%81%86%E3%81%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81 %8A%E2%96%A0%E3%81%84%E3%81%86.txt;type=pc ---- ・上記OKケースより短い日本語ファイル名は、OK 上記NGケースより長い日本語ファイル名は、やはりNG となっていましたので、ここらへんが境界なのではないか と思ってます。 ・solr管理画面から、「id:"〜該当の長いid〜"」 で検索した場合も、結果0件となっていました。 ので、Solr側の問題なんだと思ってます。 Solr側の設定などで、回避できる方法をご存知で あればご教授いただきたく、よろしくお願いいたします〜