jijian91与小z archive - 极简91和小z的随笔

2008年4月17日

新网站已被Google收录

刚刚查到，我的新网站已被Google收录。用site命令已能查到。在Google Webmasters中，也显示：

Googlebot 最终在 2008-4-12 成功访问了您的主页。

您网站的网页包含在 Google 索引中。

通过这次试验，说明几个问题：

试验的域名是jijian91在4月8日新注册的，没有在任何地方留过。网站是4月10日上传的，只有一页静态页，上面也只有一行内容。可以排除有其他网站主动链接过来的可能性。目前没有Google以外的搜索引擎蜘蛛来访，也能从侧面证明这点。另外，该域名没有向搜索引擎提交过，也没有ping过。说明Google收录网站不完全是根据外链的引导。
4月12日，我把新网站添加到Google Webmasters中。同一天，就被Google收录。证明我的猜想是正确的:使用Google Webmasters有利于Google收录。或者换句话说，Google的收录，就是因为我在Google Webmasters中登记了这个域名。
我添加robots.txt是4月13日。说明是否存在robots.txt对Google蜘蛛没有影响，也不会阻碍Google收录。

下一步试验内容是考察Google收录的页数。

原文永久链接：https://jijian91.com/blog20080417/google-include.html

分类: google — jijian91

2008年4月16日

西藏地名英译

西藏地名英文翻译非常混乱。有从藏语音译的，也有使用汉语拼音的，而且藏语音译的还有多种拼法。

究其原因，1979年以前西藏地名的外语翻译没有明确的规则，曾经用过汉语拼音。从1979年1月1日起，明确了藏语地名应按照藏语读音译为英语。但藏语与英语的音译规则又不统一。加上历史上留下的旧译名，译法繁多，标准化的推行仍然很艰难。现在，连西藏第2大城市日喀则的英文译名都没有完全统一。

另一方面，近年来，有相当数量的外国人不习惯难读难拼的藏语译名，而喜欢使用汉语拼音译法。比如Xizang的使用量就在逐渐上升，也得到了一定程度的认同，大有与西藏的传统译法Tibet分庭抗礼之势。连西藏自治区政府官方网站域名都是http://www.xizang.gov.cn。不用说，这更加重了西藏译名的混乱。有多少外国人能明白Tibet与Xizang这两个单词是等价的，Tibet is Xizang。

以下英文译名，官方译法列前，其他译法列在后面供参考。注意，省略了专有名词前的the。

2009.7更新：更权威西藏地名英译见《西藏地名中英文对照表》。

继续…

原文永久链接：https://jijian91.com/blog20080416/tibet-english-name.html

分类: 记录 — jijian91

2008年4月15日

SurveyBot/2.3 (Whois Source)

继Google bot之后，又一个蜘蛛来到新网站。这就是SurveyBot/2.3 (Whois Source)，来自域名信息Whois网站http://www.whois.sc/。SurveyBot/2.3从哪里得到的新域名信息呢？有点奇怪。但肯定与Google Webmasters没有关系。

访问log如下：
/robots.txt
Http Code: 200 Date: Apr 14 21:45:44 Http Version: HTTP/1.0 Size in Bytes: 11
Referer: http://www.whois.sc/
Agent: SurveyBot/2.3 (Whois Source)

/
Http Code: 206 Date: Apr 14 21:45:44 Http Version: HTTP/1.1 Size in Bytes: 524
Referer: http://www.whois.sc/新域名
Agent: SurveyBot/2.3 (Whois Source)

后一条log中，referer的最后原本是我的新域名。为防止在网上留下链接，影响试验，我把它改了。

原文永久链接：https://jijian91.com/blog20080415/surveybot.html

分类: 编程 — jijian91

2008年4月14日

Google蜘蛛的访问

上次提到新网址提交Google Webmasters后，立即引来了Google蜘蛛。现在又有了新进展。

连续几天，Google蜘蛛每天到访，但只放问/robots.txt。因为/robots.txt并不存在，所以返回500错。

13日，我增加了/robots.txt文件。当天，Google蜘蛛在访问到/robots.txt后，又访问了网站的根目录：
/robots.txt
Http Code: 200 Date: Apr 13 21:10:33 Http Version: HTTP/1.1 Size in Bytes: 11
Referer: –
Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

/
Http Code: 200 Date: Apr 13 21:10:34 Http Version: HTTP/1.1 Size in Bytes: 0
Referer: –
Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

原文永久链接：https://jijian91.com/blog20080414/googlebot-log.html

分类: google — jijian91

2008年4月11日

www将死

域名中的www已经成为一种过时的习惯，正在走向消亡。因为：

1.没有任何意义。仅仅在域名前加上www，就指向不同的内容，这是可以实现的。但没有哪个网站会这么做。因为除了增加混乱，不能带来任何好处。

2.形成浪费。一个典型的域名在10-20个字符左右，凭空增加4个不必要的字符(www.)，浪费的比例不低。而且浪费是存在于互联网上每一个指向该域名的链接，总数量相当可观，造成大量不必要的存储、传输。当然，也浪费了用户的记忆和输入时间。

3.造成损失。越来越多的网站已经注意到这个问题，通过设置网站参数，力图保证用户不管是否输入www都能访问到需要内容。但仍有很多网站因为忽略了这个技术细节，导致用户因未输入无用的www而不能访问网站，造成访问量和其他潜在利益的损失。这些失误者中不乏著名的网站。

4.SEO困扰。设置不当，还容易引起SEO中著名的内容重复(duplicate content)问题。即搜索引擎误将带与不带www的域名作为2个不同的网页处理，从而判定两者内容重复，导致收录错误或降权。关于内容重复(或称复制网页、重复内容)及其解决，参见Google的说明和Zac的文章。

总之，www是在互联网早期不成熟时出现的习惯，事实证明没有必要，而且后患无穷，应该摒弃。在实践中，通过逐渐减少www的曝光度来促使www推出互联网舞台。

在网站建设中，应当以不带www的域名作为主域名，将带www的域名以301永久跳转或302暂时跳转到对应网页。例如，以http://jijian91.com为主域名，访问http://www.jijian91.com则通过301或302跳转到http://jijian91.com。同时，坚持在任何场合都只发布和使用不带www的域名。

垂死www，安息吧。

原文永久链接：https://jijian91.com/blog20080411/www-to-die.html

分类: 互联网 — jijian91

Pages: < 1 2 ... 49 50 51 52 53 ... 114 115 >

2024 年 9 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30