2007年7月10日

本网站http://jijian91.com是7月2日正式架起来的。一周以来,陆续有各搜索引擎的蜘蛛到访。下面对目前为止的情况作一总结:

最早到达的是Technorati,7月2日当天就来了。访问的频度很高,一天要来数次。每次都是先访问/、/feed、/feed/rss、/feed/atom。一旦发现更新,立即抓走。

几乎同时来的是Google。也是每天来数次,但每次只抓走很少的几页,没看出抓取的标准是什么。Google还经常性地来取/sitemap.xml和/feed,但似乎很健忘,并不按最新的sitemap抓取。我在最初的几天曾经几次调整过永久链接的格式,最后一次是在7月6日左右。但Google至今(7月10日)仍大量访问那些已失效的链接。而且新旧链接间隔着抓取。在Google网站上site:jijian91看到的也大多是过时链接。今天,首次出现了抓取图片的Mediapartners-Google蜘蛛。

最奇怪的是Yahoo. Yahoo蜘蛛在2-3天后就来了,但只是访问/一下就走。以后,每天来几次,或访问/,或访问某一页。但至今,在Yahoo网站上仍然查不到。

baidu的蜘蛛是大约一周后来的。之后,每天来访问一下/,并不抓取内容。 直到今天,突然开始抓取,一次就抓了300页。从抓取的顺序来看,似乎和以前的访问没有关系,是顺着百度空间的一个链接过来的。现在在百度网站,用site:jijian91.com已经查到抓取的网页。
继续…

原文永久链接:https://jijian91.com/blog20070710/search-spider.html

今天发现,使用wordpress自带控件从blogger导入的若干篇文章不完整。都是发生在表格部分,只留下了表头,表格的其余部分全部丢失。

手工copy文章源代码,修正完成。

原文永久链接:https://jijian91.com/blog20070710/wordpress-blogger-import-error.html