刚刚查到,我的新网站已被Google收录。用site命令已能查到。在Google Webmasters中,也显示:
Googlebot 最终在 2008-4-12 成功访问了您的主页。
您网站的网页包含在 Google 索引中。
通过这次试验,说明几个问题:
- 试验的域名是jijian91在4月8日新注册的,没有在任何地方留过。网站是4月10日上传的,只有一页静态页,上面也只有一行内容。可以排除有其他网站主动链接过来的可能性。目前没有Google以外的搜索引擎蜘蛛来访,也能从侧面证明这点。另外,该域名没有向搜索引擎提交过,也没有ping过。说明Google收录网站不完全是根据外链的引导。
- 4月12日,我把新网站添加到Google Webmasters中。同一天,就被Google收录。证明我的猜想是正确的:使用Google Webmasters有利于Google收录。或者换句话说,Google的收录,就是因为我在Google Webmasters中登记了这个域名。
- 我添加robots.txt是4月13日。说明是否存在robots.txt对Google蜘蛛没有影响,也不会阻碍Google收录。
下一步试验内容是考察Google收录的页数。
原文永久链接:https://jijian91.com/blog20080417/google-include.html
西藏地名英文翻译非常混乱。有从藏语音译的,也有使用汉语拼音的,而且藏语音译的还有多种拼法。
究其原因,1979年以前西藏地名的外语翻译没有明确的规则,曾经用过汉语拼音。从1979年1月1日起,明确了藏语地名应按照藏语读音译为英语。但藏语与英语的音译规则又不统一。加上历史上留下的旧译名,译法繁多,标准化的推行仍然很艰难。现在,连西藏第2大城市日喀则的英文译名都没有完全统一。
另一方面,近年来,有相当数量的外国人不习惯难读难拼的藏语译名,而喜欢使用汉语拼音译法。比如Xizang的使用量就在逐渐上升,也得到了一定程度的认同,大有与西藏的传统译法Tibet分庭抗礼之势。连西藏自治区政府官方网站域名都是http://www.xizang.gov.cn。不用说,这更加重了西藏译名的混乱。有多少外国人能明白Tibet与Xizang这两个单词是等价的,Tibet is Xizang。
以下英文译名,官方译法列前,其他译法列在后面供参考。注意,省略了专有名词前的the。
2009.7更新:更权威西藏地名英译见《西藏地名中英文对照表》。
继续…
原文永久链接:https://jijian91.com/blog20080416/tibet-english-name.html
继Google bot之后,又一个蜘蛛来到新网站。这就是SurveyBot/2.3 (Whois Source),来自域名信息Whois网站http://www.whois.sc/。SurveyBot/2.3从哪里得到的新域名信息呢?有点奇怪。但肯定与Google Webmasters没有关系。
访问log如下:
/robots.txt
Http Code: 200 Date: Apr 14 21:45:44 Http Version: HTTP/1.0 Size in Bytes: 11
Referer: http://www.whois.sc/
Agent: SurveyBot/2.3 (Whois Source)
/
Http Code: 206 Date: Apr 14 21:45:44 Http Version: HTTP/1.1 Size in Bytes: 524
Referer: http://www.whois.sc/新域名
Agent: SurveyBot/2.3 (Whois Source)
后一条log中,referer的最后原本是我的新域名。为防止在网上留下链接,影响试验,我把它改了。
原文永久链接:https://jijian91.com/blog20080415/surveybot.html
上次提到新网址提交Google Webmasters后,立即引来了Google蜘蛛。现在又有了新进展。
连续几天,Google蜘蛛每天到访,但只放问/robots.txt。因为/robots.txt并不存在,所以返回500错。
13日,我增加了/robots.txt文件。当天,Google蜘蛛在访问到/robots.txt后,又访问了网站的根目录:
/robots.txt
Http Code: 200 Date: Apr 13 21:10:33 Http Version: HTTP/1.1 Size in Bytes: 11
Referer: –
Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
/
Http Code: 200 Date: Apr 13 21:10:34 Http Version: HTTP/1.1 Size in Bytes: 0
Referer: –
Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
原文永久链接:https://jijian91.com/blog20080414/googlebot-log.html
域名中的www已经成为一种过时的习惯,正在走向消亡。因为:
1.没有任何意义。仅仅在域名前加上www,就指向不同的内容,这是可以实现的。但没有哪个网站会这么做。因为除了增加混乱,不能带来任何好处。
2.形成浪费。一个典型的域名在10-20个字符左右,凭空增加4个不必要的字符(www.),浪费的比例不低。而且浪费是存在于互联网上每一个指向该域名的链接,总数量相当可观,造成大量不必要的存储、传输。当然,也浪费了用户的记忆和输入时间。
3.造成损失。越来越多的网站已经注意到这个问题,通过设置网站参数,力图保证用户不管是否输入www都能访问到需要内容。但仍有很多网站因为忽略了这个技术细节,导致用户因未输入无用的www而不能访问网站,造成访问量和其他潜在利益的损失。这些失误者中不乏著名的网站。
4.SEO困扰。设置不当,还容易引起SEO中著名的内容重复(duplicate content)问题。即搜索引擎误将带与不带www的域名作为2个不同的网页处理,从而判定两者内容重复,导致收录错误或降权。关于内容重复(或称复制网页、重复内容)及其解决,参见Google的说明和Zac的文章。
总之,www是在互联网早期不成熟时出现的习惯,事实证明没有必要,而且后患无穷,应该摒弃。在实践中,通过逐渐减少www的曝光度来促使www推出互联网舞台。
在网站建设中,应当以不带www的域名作为主域名,将带www的域名以301永久跳转或302暂时跳转到对应网页。例如,以http://jijian91.com为主域名,访问http://www.jijian91.com则通过301或302跳转到http://jijian91.com。同时,坚持在任何场合都只发布和使用不带www的域名。
垂死www,安息吧。
原文永久链接:https://jijian91.com/blog20080411/www-to-die.html