[Tep-j-general] google 検索ロボットの挙動

Back to archive index

hamada bungu****@leo*****
2007年 10月 11日 (木) 08:25:52 JST


こんにちわ。

On Wed, 10 Oct 2007 16:27:53 +0900
高橋 <ttaka****@ybb*****> wrote:

> 立っているのですが、この一年程 google の検索ロボット、
>     http://www.google.com/bot.html
> がかなりの頻度で検索をしています。

robots.txt

> User-agent: *
> Sitemap: http://mydomain.com/sitemap.xml
> Disallow: /catalog/redirect.php
> Disallow: /catalog/login.php
> Disallow: /catalog/password_forgotten.php
> Disallow: /catalog/shipping.php
> Disallow: /catalog/privacy.php
> Disallow: /catalog/jptax.php
> Disallow: /catalog/advanced_search.php
> Disallow: /catalog/advanced_search_result.php
> Disallow: /catalog/product_info.php/cPath/
> Disallow: /catalog/product_info.php/manufacturers_id/

とか?

http://www.google.com/support/webmasters/bin/answer.py?answer=35769

> robots.txt を使用して、検索結果ページや、検索エンジンからアクセスしたユー
> ザーにとってあまり価値のない他の自動生成ページがクロールされないようにす
> る。 

Spiderkillerは当然。加えて、要らんトコロをクロールされないように制限しと
く事も重要かと。

> また、検索頻度が凄く高くなることも良くあります。30秒間隔く
> らいで2時間くらい連続ということもあります。いくらなんでも
> google 様を拒否するわけにもいかないので、どうしたものかと。

個人的には、せめてGooglebotのディープクロール程度には耐えられるようにサ
イトを設計しとくべきだと思います。

まぁ、最近のGooglebotは、確かに我がもの顔で傍若無人ですが(^_^;)

robots.txtに

> Crawl-delay: 60

とか書いてても

> 行 16 :  Crawl-delay: 60  Googlebot によりルールが無視されました 

とか返して来やがりますし。何様なんだオマエは(^^;;

一方、かつて悪名高かったBaiduは随分素直になりました。

Baidu Spiderに関する御詫びと対処法について
http://www.baidu.jp/search/s308.html

とrobots.txtを読むみたいなので、

> User-agent: Baiduspider
> Crawl-delay: 300

としてみたら、以後は言われた通りずーっと5分間隔で来てます。


はまだ




Tep-j-general メーリングリストの案内
Back to archive index