本网站http://jijian91.com是7月2日正式架起来的。一周以来,陆续有各搜索引擎的蜘蛛到访。下面对目前为止的情况作一总结:

最早到达的是Technorati,7月2日当天就来了。访问的频度很高,一天要来数次。每次都是先访问/、/feed、/feed/rss、/feed/atom。一旦发现更新,立即抓走。

几乎同时来的是Google。也是每天来数次,但每次只抓走很少的几页,没看出抓取的标准是什么。Google还经常性地来取/sitemap.xml和/feed,但似乎很健忘,并不按最新的sitemap抓取。我在最初的几天曾经几次调整过永久链接的格式,最后一次是在7月6日左右。但Google至今(7月10日)仍大量访问那些已失效的链接。而且新旧链接间隔着抓取。在Google网站上site:jijian91看到的也大多是过时链接。今天,首次出现了抓取图片的Mediapartners-Google蜘蛛。

最奇怪的是Yahoo. Yahoo蜘蛛在2-3天后就来了,但只是访问/一下就走。以后,每天来几次,或访问/,或访问某一页。但至今,在Yahoo网站上仍然查不到。

baidu的蜘蛛是大约一周后来的。之后,每天来访问一下/,并不抓取内容。 直到今天,突然开始抓取,一次就抓了300页。从抓取的顺序来看,似乎和以前的访问没有关系,是顺着百度空间的一个链接过来的。现在在百度网站,用site:jijian91.com已经查到抓取的网页。

搜狗蜘蛛前几天曾经来过一两次,也是只访问/就走了。今天突然以几秒钟一页的速度,抓走了几乎全部网页。但在搜狗的网站,用site:jijian91.com查不到任何内容。

此外,经常来的蜘蛛,还有feedstarmoreover等。几乎和Technorati一样勤劳。

7月13日更新:
今天,网易有道的蜘蛛来了。但它不读/feed和/sitemap.xml,而是直接从/顺着链接抓取。每次抓取10-20页,间隔一段时间再来。今天已经来了3次。有道blog搜索中已经可以看到抓取的网页了,20页左右。

另,前面提到的Yahoo蜘蛛,其实分yahoo.com和yahoo.cn两种,行为很相似。多数情况下,每次只抓取1页,但每天要几十次。奇怪的是,在yahoo.com和yahoo.cn都查不到本站

至今,没见到微软的蜘蛛。

7月18日更新:
昨天见到了微软的msn蜘蛛。

上文提到的2种Yahoo蜘蛛分别是:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

Yahoo蜘蛛用了非常多的IP。

转载请注明来自:jijian91与小z - google

永久链接:http://jijian91.com/blog20070710/search-spider.html