[fess-user 968] クロール修理後のコミット/最適化を無効化する方法を教えてください。

Back to archive index

Park Kun k-par****@genda*****
2015年 3月 4日 (水) 10:28:41 JST


菅谷様、

いつも大変お世話になっております。朴です。

現在SSDにインデックスを格納していますが、予算制約から1TBしか用意できず、
そこに、600Gほどのインデックスを無理やり入れております。
そうすると、コミットまたは最適化の際、Javaがディスク容量不足を警告しシステム
がパンクします。
(場合によっては、インデックスデータが破損)

解決策として、HDDにデータを書き出し、クロール→最適化が終わったらSSDに戻す作
業を繰り返して
対応していますが、この方法だとサービス停止時間が気になります。

そこで、クロール後の自動コミット/最適化を無効にできないか伺うところでござい
ます。
SSDなので、最適化までしなくても検索がそこそこ速いし、コミットは以下の構成で
やらしております。

     <autoCommit>
       <maxTime>15000</maxTime>
       <openSearcher>true</openSearcher>
     </autoCommit>

     <autoSoftCommit>
       <maxTime>1000</maxTime>
     </autoSoftCommit>

クロール後のコミット/最適化さえ発動されなければ、HDDとSSD間の往復は1ヶ月一
度ほどに抑えられるかと思いますが〜
どのツボを押せばよろしいでしょうか?

以上、よろしくお願いします。




-----Original Message-----
From: fess-****@lists*****
[mailto:fess-****@lists*****] On Behalf Of
fess-****@lists*****
Sent: Thursday, February 26, 2015 12:01 PM
To: fess-****@lists*****
Subject: Fess-user まとめ読み, 59 巻, 5 号

Fess-user メーリングリストへの投稿は以下のアドレスに送ってください.
	fess-****@lists*****

Webブラウザを使って入退会するには以下のURLにどうぞ.
	http://lists.sourceforge.jp/mailman/listinfo/fess-user
メールを使う場合,件名(Subject:)または本文に help と書いて以下の
アドレスに送信してください.
	fess-****@lists*****

メーリングリストの管理者への連絡は,以下のアドレスにお願いします.
	fess-****@lists*****

返信する場合,件名を書き直して内容がわかるようにしてください.
そのままだと,以下のようになってしまいます. "Re: Fess-user
まとめ読み, XX 巻 XX 号"


本日の話題:

   1. [fess-user 966] Re: クロール対象とするパスの取り扱いについて
      (Shinsuke Sugaya)
   2. [fess-user 967] Re:
      登録サイトからクロールされたドキュメントの数を表示できないでしょうか?
      (Shinsuke Sugaya)


----------------------------------------------------------------------

Message: 1
Date: Thu, 26 Feb 2015 11:06:22 +0900
From: Shinsuke Sugaya <shins****@yahoo*****>
Subject: [fess-user 966] Re: クロール対象とするパスの取り扱いについて
To: fess-****@lists*****
Message-ID:
	<CA+0W****@mail*****>
Content-Type: text/plain; charset=UTF-8

菅谷です。

クロール対象とするパスに設定すると、それ以外が
*クロール*の対象外になります。ですので、txt以外は
クロールしないため、URLに明示的に指定しなければ
取得することはありません。おそらく実施されたいことは
検索の対象とするパスに記述することかと思います。
これにより、URLに記述したポイントからクロールして
txtだけをインデックスすることになります。

shinsuke



2015年2月21日 17:32 斎藤 <nsait****@msk-w*****>:
> 斎藤です。
>
>  お世話になります。
>
>  「クロール対象とするパス」の指定で、正規表現のパスパターンを指定している
のですが、
> クロール対象と認識してくれません。
>  逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象外
と認識してく れます。
>  「クロール対象とするパス」の動作が思うように動作していない様に感じるので
すが、
> なにか間違いがあるのでしょうか?
>
> 1)パターン1
>  「クロール対象とするパス」に以下の設定を行いました。
>  .*\.txt$
>
>  この時のログは以下の通りです。
>
> 2015-02-21 17:02:40,431 [WebFsCrawler] INFO  Included Path: .*\.txt$
> 2015-02-21 17:03:40,544 [IndexUpdater] INFO  Processing 0/0 docs (DB:
19ms)
> 2015-02-21 17:04:40,528 [IndexUpdater] INFO  Processing 0/0 docs (DB: 3ms)
> 2015-02-21 17:05:40,528 [IndexUpdater] INFO  Processing 0/0 docs (DB: 2ms)
>
> 2)パターン2
>  逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。
>  .*\.txt$
>
> 2015-02-21 17:11:40,867 [WebFsCrawler] INFO  Excluded Path: .*\.txt$
> 2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO  Crawling URL:
> smb://hogehoge/share/P14/f/P_HDD/test/
> 2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO  Crawling URL:
> smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg
>
>
>  その他気が付いたこととして、パターン1でクロール対象を指定した際に認識さ
れなかった
> 訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間ク
ロールを
> 行っていました。
>  対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。
>  対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本(jpg
とtxt)だけです。
>
>  正規表現が間違っているとしたら、パターン2が正しく動作している意味が解ら
ず、
> 悩んでいます。
>
> 以上
>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>

------------------------------

Message: 2
Date: Thu, 26 Feb 2015 11:11:48 +0900
From: Shinsuke Sugaya <shins****@yahoo*****>
Subject: [fess-user 967] Re:
	登録サイトからクロールされたドキュメントの数を表示できないでしょう
か?
To: fess-****@lists*****
Message-ID:
	<CA+0WS34Mm=cgsBSe83+AR+w+q_XQf1-****@mail*****>
Content-Type: text/plain; charset=UTF-8

菅谷です。

ありがとうございます。
Solrから取り出せば取れると思うのですが、
現状、インデックスに対する統計情報的なものを
出していないので、Fess 10 あたりで、その辺の
改善を検討させていただきます。

shinsuke


2015年2月23日 12:37 Park Kun <k-par****@genda*****>:
> 久しぶりです朴です。
>
> 最近9.3が非常に安定して動くので問い合わせが少なくなっております。
> そこで、「こんな機能がほしい」的なスレを書かせていただきます。
>
> Fessに登録したウェブサイトのリストを出すページ
> (admin/webCrawlingConfig/index)に、
> それぞれのサイトからクロールされたドキュメントの数を表示させる方法はありま
せ
> んか?
> 上記のことができれば、サイト別にクロールの深さ・数に関する調整、
> またはなかなかクロールされないサイトに関して対策立てるなどいろいろ使えそう
で
> すが?
>
> こちらの運用規模は、650サイト&ファイルサーバに対するインデックスで、
> Solrのデータが500G超えております。だった32Gのメモリで回していますが
> 遅くはなるもののパンクはしません。(^_^;)
>
> 以上、よろしくお願いします。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user

------------------------------

_______________________________________________
Fess-user mailing list
Fess-****@lists*****
http://lists.sourceforge.jp/mailman/listinfo/fess-user


以上: Fess-user まとめ読み, 59 巻, 5 号
***************************************




Fess-user メーリングリストの案内
Back to archive index