[fess-user 1010] Re: サイトマップ sitemap.xmlをクロール対象とする設定

Back to archive index

松宮 あすか matsu****@idaj*****
2017年 4月 24日 (月) 10:43:08 JST


shinsuke様

返信をありがとうございます。
fess-crawler.logを見ると以下の記載がありました。
クロールするターゲットのURLがない(sitemap.xmlがない)ので、
自動的に「クロール対象とするURL: http://ドメイン/.*」で指定した
HTMLファイルからリンクを辿って検索結果を出しているという認識でよろしいで
しょうか。

sitemap.xmlの書き方についてですが<lastmod>を記載していません。
また、<loc><priority><changefreq>の順に記載している事が問題なのでしょうか。

--------------
2017-04-24 00:00:34,824 [DataStoreCrawler] INFO  No crawling target urls.
2017-04-24 00:00:35,017 [WebFsCrawler] INFO  [Tattletale] modules [],
plugins [], sites []
2017-04-24 00:00:35,218 [WebFsCrawler] INFO  Connected to localhost:0001
2017-04-24 00:00:35,516 [WebFsCrawler] INFO  Target URL:
http://testwww2.ドメイン名/sitemap.xml
2017-04-24 00:00:35,767 [Crawler-20170424000000-1-2] INFO  Crawling URL:
http://testwww2.ドメイン名/sitemap.xml
2017-04-24 00:00:36,042 [Crawler-20170424000000-1-2] INFO  Checking URL:
http://testwww2.ドメイン名/robots.txt
2017-04-24 00:00:38,286 [Crawler-20170424000000-1-1] INFO  Crawling URL:
http://testwww2.ドメイン名/calendar/
・
・
・
2017-04-24 00:53:54,282 [IndexUpdater] INFO  Processing no docs
(Doc:{access 3ms, cleanup 194ms}, Mem:{used 24MB, heap 46MB, max 505MB})
2017-04-24 00:53:54,282 [IndexUpdater] INFO  [EXEC TIME] index update
time: 49847ms
2017-04-24 00:53:54,416 [main] INFO  Finished Crawler
2017-04-24 00:53:54,625 [main] INFO  [CRAWL INFO]
DataCrawlEndTime=2017-04-24T00:00:34.842+0900,CrawlerEndTime=2017-04-24T00:53:54.417+0900,WebFsCrawlExecTime=3189904,CrawlerStatus=true,CrawlerStartTime=2017-04-24T00:00:34.612+0900,WebFsCrawlEndTime=2017-04-24T00:53:54.416+0900,WebFsIndexExecTime=49847,WebFsIndexSize=26,CrawlerExecTime=3199805,DataCrawlStartTime=2017-04-24T00:00:34.741+0900,WebFsCrawlStartTime=2017-04-24T00:00:34.733+0900
2017-04-24 00:53:54,879 [main] INFO  Disconnected to
elasticsearch:localhost:0001
2017-04-24 00:54:02,961 [main] INFO  Destroyed LaContainer.
--------------

よろしくお願いいたします。



------------------- Replied Message -------------------
Date: 2017/04/23 20:58:30
From: Shinsuke Sugaya <shins****@gmail*****>
To: fess-user <fess-****@lists*****>
Cc:
Subject: [fess-user 1009] Re:サイトマップ sitemap.xmlをクロール対象とす
る設定

https://www.sitemaps.org/ の形式を
サポートしています。クロールしている内容は
fess-crawler.logで確認することができます。
問題の再現方法をいただければ確認してみます。

shinsuke


2017年4月17日 14:18 松宮 あすか <matsu****@idaj*****>:
> はじめましてkoronaです。
> 
> ウェブクロールの設定で最初はWebサイトの階層を指定して検索結果に出してい
> たのですが、
> sitemap.xmlの方がページの除外や検索順序に都合良いと思い、sitemap.xmlを指
> 定したのですが
> 検索結果に望むページが表示されません。
> 
> 「ウェブを対象としたクロールに関する設定」の箇所で、以下のように入力すれば
> sitemap.xmlで指定したリンクを検索対象になるという認識なのですが間違って
> いるでしょうか。
> 
> URL欄: http://ドメイン/sitemap.xml
> クロール対象とするURL: http://ドメイン/.*
> 
> よろしくお願いします。
> 
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.osdn.me/mailman/listinfo/fess-user
_______________________________________________
Fess-user mailing list
Fess-****@lists*****
http://lists.osdn.me/mailman/listinfo/fess-user



 
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: sitemap.xml
型:         text/xml
サイズ:     1614 バイト
説明:       無し
Download 



Fess-user メーリングリストの案内
Back to archive index