2007年3月13日

浏览器是互联网时代的操作系统。浏览器分布是基于web的交互设计中必须要考虑的重要因素。但在全球和中国国内,浏览器分布和变化趋势不尽相同。

全球浏览器分布
根据w3schools的统计数据,截至2007年2月,浏览器仍以微软IE(Internet Explorer)家族和Firefox为主,分别占58.7%31.2%。其他浏览器(包括Mozilla、Opera、Netscape、Safari、Konqueror、Gecko等)份额均在2%以下。

在IE家族中,以IE6占39.8%最多,其次是IE7占16.4%,IE5系列仅占2.5%

继续…

原文永久链接:https://jijian91.com/blog20070313/browser-statistics.html

2007年3月6日

  这是我第1次做中文搜索引擎评测。内容太长,分成了11篇。目录如下:
方案
结果概述
搜索结果分析: 搜狗
搜索结果分析: google.com
搜索结果分析: google.cn
搜索结果分析: 百度
搜索结果分析: yahoo
搜索结果分析: 阿里巴巴雅虎中国
搜索结果分析: 网易有道
搜索结果分析: 微软live.com
综合分析

原文永久链接:https://jijian91.com/blog20070306/search-engine-evaluation.html

2007年2月28日

在刚刚公布的网易2006年第四季度及年度财务报告中,网易正式宣布:

公司自主研发的搜索引擎在2006年12月进入了内部测试,预期于2007年第二季度进行公开测试。

这与有道搜索引擎12月14日开始测试是吻合的,更说明有道就是网易的搜索引擎。有道的“创意我有道”搜索引擎界面设计大赛已经公布结果,显然是为了配合2季度开始的公测。这与我的猜测基本相符。

网易有道开始走上舞台。期待有道能在下次中文搜索引擎评测中取得好结果。

原文永久链接:https://jijian91.com/blog20070228/yodaobeta-test.html

2007年2月8日

第1次搜索引擎评测前,我设了一个粗略的关键词选取原则。现在加以完善和细化:

搜索关键词选择原则

  • 关键词易分辨:关键词必须是易分辨的、公认的词或词组,避免选择特殊缩写、过于个性化的用法、新词、专业术语。
  • 关键词含义单一:避免选取含义单一的关键词,便于比较结果质量
  • 关键词易导致错误:对关键词的分词错误能导致明显和一定数量的错误结果,便于评测分词能力。
  • 搜索结果数量较少:不重复的正确结果最好在15-20个,不能超过30个。因为评测只取前30个结果,正确结果过多可能导致错误结果被略过。
  • 搜索结果分布广泛:结果要存在于多个网站,以便考验搜索引擎对重复内容的分辨能力。同时,避免搜索引擎屏蔽个别网站导致搜索结果的重大不同。
  • 搜索结果易体现时间因素:例如,近期有重大相关事件,但避免用新词
  • 搜索结果时间跨度较长:搜索结果时间跨度越长越好

做这些设定是为了充分考验搜索引擎的分词、重复内容和时间因素分辨的能力。同时减少因各搜索引擎收录网站不同对得分的过度影响,创造一个公正的评测环境。

先想到这些,以后慢慢补充。

原文永久链接:https://jijian91.com/blog20070208/search-keyword-choice.html

2007年2月5日

中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:

1.中文分词正确性

分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术

本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。

分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的
继续…

原文永久链接:https://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html

Pages:  < 1 2 ... 12 13 14 15 16 ... 20 21 >