2007年2月5日

google.cn搜索评测分析

google.cn是在google.com基础上,针对中国情况对搜索结果进行过滤筛选而来。一般认为,结果质量应该和google.com相近,或更好。但实际情况却是差很多

google.cn分词错误导致的鱼油结果多达14条,占全部结果的将近一半,比google.com多了10%。从位置上看,搜索结果的第1条就是鱼油。

google.cn搜索结果中,涉及香港油鱼事件的只有区区4条,只有google.com的一半,排名最高的也在14。

上面这2个”一半”,导致google.cn的得分比google.com低了将近1/3。

google.cn搜索其他结果数量基本与google.com相当。

到目前为止,google.cn就是在google.com不能访问时候的备用鸡肋。尚不清楚,李开复所说的”与Google全球同期相比,Google中文搜索质量提升是全球平均水平的四倍“是指google.cn还是google.com。

google.cn搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google-cn.html

Google搜索评测分析

作为世界最大搜索引擎,google本次评测成绩并不理想,原因是出现了重大分词错误。其搜索结果中出现了大量的”鱼油”结果(11条,超过总数1/3),导致得分低。在评测的各搜索引擎中,除了微软live,均没有类似的错误。一向以技术见长的google为何会出现如此低级错误,令人不可理解。

Google搜索结果中菜名4条,属于轻度分词问题,与搜狗数量相同。以上两者相加,刚好占总结果的一半。如此之高的错误率,着实出乎意料。看来,google迫切需要针对中文搜索的特点投入更大的技术力量

Google搜索结果涉及香港油鱼事件的有8条,比搜狗少了一半。而且排列比较靠后,最高的才第9。云南油鱼的5条,而且占据了前4位。说明时间因素作用体现不足,这与前不久google中国工程研究院技术总监刘骏演讲中强调”时间维”有一定的差距。另外,在香港油鱼事件新闻搜索结果中,有5条只列出网址,不能显示内容,虽然不影响得分,但属于技术问题。

Google搜索结果中,排名第5的结果不能打开,得分减少了600多分。

Google搜索结果重复的仅2条,是各搜索引擎中最低的。google在对内容重复的识别方面非常出色

近来,google抓取内容的频度明显加快。但相比中国本土的搜狗百度,仍然有差距。这也是google中文搜索不能笑傲中国市场的一个重要原因。

Google搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google.html

2007年2月3日

搜狗搜索评测分析


搜狗的搜索结果分成几类:

  1. 香港油鱼事件报道,评分10
  2. 云南特产油鱼。与香港油鱼是两种不同的鱼。旅游景点”油鱼井”是因为其中有油鱼而得名,所以归为一类。考虑时间因素,评分9
  3. 菜名。均系分词错误,评分4
  4. 重复,评分0

总体而言,搜狗的分词效果较好

搜狗搜索的不重复结果中,香港油鱼事件的不重复报道共16条,占搜索结果的一半以上,且顺序靠前,得分较多。

搜狗搜索结果中,云南油鱼4条,说明历史数据有限。

搜狗搜索结果中属于轻度分词错误的菜名4条,出现在2、7、9位,损失一定分数。没有其他分词错误结果。
重复率偏高,达20%。搜狗在这方面与google有明显差距,还需改进。

全部搜索结果均可以访问

搜狗在时间因素方面表现得最出色

搜狗搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070203/search-evaluation-sogou.html

参加评测的中文搜索引擎

共8家:

搜索评测结果 继续…

原文永久链接:https://jijian91.com/blog20070203/search-evaluation-result.html

中文搜索引擎评测方案

用特定关键词,分别在各被测搜索引擎上进行搜索操作。

各取前30条搜索结果,根据评分准备进行打分。每条搜索结果的分数*顺序权重=搜索结果分数。每个搜索引擎的30条搜索结果的分数和即为该搜索的最终得分。得分高即搜索效果好。

搜索结果评分标准

继续…

原文永久链接:https://jijian91.com/blog20070203/search-evaluation-plan.html

Pages:  < 1 2 ... 14 15 16 17 18 19 20 21 >