各搜索引擎的蜘蛛爬抓特点分析(7月18日更新)
2007/7/10 23:04本网站http://jijian91.com是7月2日正式架起来的。一周以来,陆续有各搜索引擎的蜘蛛到访。下面对目前为止的情况作一总结:
最早到达的是Technorati,7月2日当天就来了。访问的频度很高,一天要来数次。每次都是先访问/、/feed、/feed/rss、/feed/atom。一旦发现更新,立即抓走。
几乎同时来的是Google。也是每天来数次,但每次只抓走很少的几页,没看出抓取的标准是什么。Google还经常性地来取/sitemap.xml和/feed,但似乎很健忘,并不按最新的sitemap抓取。我在最初的几天曾经几次调整过永久链接的格式,最后一次是在7月6日左右。但Google至今(7月10日)仍大量访问那些已失效的链接。而且新旧链接间隔着抓取。在Google网站上site:jijian91看到的也大多是过时链接。今天,首次出现了抓取图片的Mediapartners-Google蜘蛛。
最奇怪的是Yahoo. Yahoo蜘蛛在2-3天后就来了,但只是访问/一下就走。以后,每天来几次,或访问/,或访问某一页。但至今,在Yahoo网站上仍然查不到。
baidu的蜘蛛是大约一周后来的。之后,每天来访问一下/,并不抓取内容。 直到今天,突然开始抓取,一次就抓了300页。从抓取的顺序来看,似乎和以前的访问没有关系,是顺着百度空间的一个链接过来的。现在在百度网站,用site:jijian91.com已经查到抓取的网页。
搜狗蜘蛛前几天曾经来过一两次,也是只访问/就走了。今天突然以几秒钟一页的速度,抓走了几乎全部网页。但在搜狗的网站,用site:jijian91.com查不到任何内容。
此外,经常来的蜘蛛,还有feedstar、 moreover等。几乎和Technorati一样勤劳。
7月13日更新:
今天,网易有道的蜘蛛来了。但它不读/feed和/sitemap.xml,而是直接从/顺着链接抓取。每次抓取10-20页,间隔一段时间再来。今天已经来了3次。有道blog搜索中已经可以看到抓取的网页了,20页左右。
另,前面提到的Yahoo蜘蛛,其实分yahoo.com和yahoo.cn两种,行为很相似。多数情况下,每次只抓取1页,但每天要几十次。奇怪的是,在yahoo.com和yahoo.cn都查不到本站。
至今,没见到微软的蜘蛛。
7月18日更新:
昨天见到了微软的msn蜘蛛。
上文提到的2种Yahoo蜘蛛分别是:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Yahoo蜘蛛用了非常多的IP。
转载请注明来自:jijian91与小z - google