google.cn搜索评测分析
google.cn是在google.com基础上,针对中国情况对搜索结果进行过滤筛选而来。一般认为,结果质量应该和google.com相近,或更好。但实际情况却是差很多。
google.cn分词错误导致的鱼油结果多达14条,占全部结果的将近一半,比google.com多了10%。从位置上看,搜索结果的第1条就是鱼油。
google.cn搜索结果中,涉及香港油鱼事件的只有区区4条,只有google.com的一半,排名最高的也在14。
上面这2个”一半”,导致google.cn的得分比google.com低了将近1/3。
google.cn搜索其他结果数量基本与google.com相当。
到目前为止,google.cn就是在google.com不能访问时候的备用鸡肋。尚不清楚,李开复所说的”与Google全球同期相比,Google中文搜索质量提升是全球平均水平的四倍“是指google.cn还是google.com。
google.cn搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google-cn.html
Google搜索评测分析
作为世界最大搜索引擎,google本次评测成绩并不理想,原因是出现了重大分词错误。其搜索结果中出现了大量的”鱼油”结果(11条,超过总数1/3),导致得分低。在评测的各搜索引擎中,除了微软live,均没有类似的错误。一向以技术见长的google为何会出现如此低级错误,令人不可理解。
Google搜索结果中菜名4条,属于轻度分词问题,与搜狗数量相同。以上两者相加,刚好占总结果的一半。如此之高的错误率,着实出乎意料。看来,google迫切需要针对中文搜索的特点投入更大的技术力量。
Google搜索结果涉及香港油鱼事件的有8条,比搜狗少了一半。而且排列比较靠后,最高的才第9。云南油鱼的5条,而且占据了前4位。说明时间因素作用体现不足,这与前不久google中国工程研究院技术总监刘骏演讲中强调”时间维”有一定的差距。另外,在香港油鱼事件新闻搜索结果中,有5条只列出网址,不能显示内容,虽然不影响得分,但属于技术问题。
Google搜索结果中,排名第5的结果不能打开,得分减少了600多分。
Google搜索结果重复的仅2条,是各搜索引擎中最低的。google在对内容重复的识别方面非常出色。
近来,google抓取内容的频度明显加快。但相比中国本土的搜狗、百度,仍然有差距。这也是google中文搜索不能笑傲中国市场的一个重要原因。
Google搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google.html
搜狗搜索评测分析
:
搜狗的搜索结果分成几类:
- 香港油鱼事件报道,评分10
- 云南特产油鱼。与香港油鱼是两种不同的鱼。旅游景点”油鱼井”是因为其中有油鱼而得名,所以归为一类。考虑时间因素,评分9
- 菜名。均系分词错误,评分4
- 重复,评分0
总体而言,搜狗的分词效果较好。
搜狗搜索的不重复结果中,香港油鱼事件的不重复报道共16条,占搜索结果的一半以上,且顺序靠前,得分较多。
搜狗搜索结果中,云南油鱼4条,说明历史数据有限。
搜狗搜索结果中属于轻度分词错误的菜名4条,出现在2、7、9位,损失一定分数。没有其他分词错误结果。
重复率偏高,达20%。搜狗在这方面与google有明显差距,还需改进。
全部搜索结果均可以访问。
搜狗在时间因素方面表现得最出色。
搜狗搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070203/search-evaluation-sogou.html
中文搜索引擎评测方案
用特定关键词,分别在各被测搜索引擎上进行搜索操作。
各取前30条搜索结果,根据评分准备进行打分。每条搜索结果的分数*顺序权重=搜索结果分数。每个搜索引擎的30条搜索结果的分数和即为该搜索的最终得分。得分高即搜索效果好。
搜索结果评分标准
继续…
原文永久链接:https://jijian91.com/blog20070203/search-evaluation-plan.html