[Tep-j-general] Re: Yahoo 検索について (ページのインデックス化)

Back to archive index

TAMURA Toshihiko tamur****@bitsc*****
2004年 7月 20日 (火) 09:43:31 JST


はまださん、こんにちは。
田村です。

> mklist/mklist2は/product_info.php/cPath/**/products_id/**(カテゴリ付商
> 品詳細)というリンクを生成するのですが、残念ながらY!Slurpはあまりこのリ
> ンクを追ってくれてないようで…。がっくし。
> 
> むしろAllProducts等が生成する/catalog/product_info.php/products_id/**
> (カテゴリ無商品詳細)のほうがインデックス率が高いという結果でした。
> 
> URIが長くなるのが敗因なのか、それとも他に要因があるのか…。

これは興味深いですね。
トップページからのホップ数は同じなんでしょうか?

リンク元ページのURLとリンク先ページのURLの
パスの差(ディレクトリの深さの段数)を、
インデックス化の制限に利用することもあるのかもしれません。

現状のYST Japanはリソース不足などの事情があって
意図的にインデックス化を制限しているという前提での推測ですが。


> >    $ cat y?.html | ./getystlinks.pl | sort > list.txt
> 
> 念のため>>list.txtとしてy1〜y6の出力を積み重ねたのち
> 
> $ sort list.txt | uniq > list2.txt
> 
> としたんですけど、このような場合uniq処理は不要なんでしょうか?

えーと、検索結果にまったく同じURLがダブって掲載されることが
ありましたか?
そうだとしても、uniqで重複を削除する前の結果も見たいですね。

-- 
田村敏彦 / 株式会社ビットスコープ
E-mail:tamur****@bitsc*****
http://www.bitscope.co.jp/





Tep-j-general メーリングリストの案内
Back to archive index