雅虎中国搜索评测分析
Yahoo在中国失败后,将雅虎中国卖给了马云。雅虎中国(yahoo.cn)现在属于阿里巴巴旗下企业,与Yahoo(yahoo.com)已经没有任何关系。雅虎中国的搜索也是另起炉灶做的。作为后来者,答卷算是合格。
搜索结果中,涉及香港油鱼事件的13条,仅次于搜狗。云南油鱼1条,是前面各家中最少的。
搜索结果中,菜名6条,属于平均水平。
搜索结果的重复率1/3,是前面各家中最高的。这是雅虎中国的最大问题。
搜索结果排列顺序上,菜名排到了第1,大量的重复结果分布的靠前的位置,说明结果排列尚不成熟。这对搜索效果影响很大。
雅虎中国搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-alibaba.html
yahoo搜索评测分析
yahoo退出中国后,搜索引擎仍然支持中文,而且效果不错。
yahoo搜索的特点是时效性非常强。涉及香港油鱼事件的不重复结果有10条,还有不能打开的3条,重复的6条。合计19条,占总数的近2/3。由于yahoo的内容相当多来自于香港和海外网站,不能打开的3条很可能在国外是能访问的。
菜名6条,与前几个搜索引擎相当。云南油鱼只有2条,这与yahoo抓取大陆网页较少有关。但其中一个是目录页而不是实际内容,是yahoo搜索引擎的缺陷。
yahoo搜索结果的重复率偏高,达到27%。高于google和搜狗,与百度相同。
yahoo搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-yahoo.html
百度搜索评测分析
百度搜索结果的特点是,各类结果数量平衡、混合相当规律。比如,每6-7条搜索结果出现1条香港油鱼事件新闻。结果排列缺乏相关性和时间因素。
百度的不重复搜索结果中,涉及香港油鱼事件的6条,数量处于google.com与google.cn之间。云南油鱼、含油鱼的用户名等基本符合的内容有6条,相对较多。
百度搜索结果中重复内容多达8条,占总数的27%,明显偏高。不能打开的结果3条。菜名6条,平均水平。分词方面没有出现google的”鱼油”错误。
在各方面,百度的表现都属一般。没有体现出中国市场占有率第一应有的优势,特别是技术方面改进的余地很大。
百度搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-baidu.html
google.cn搜索评测分析
google.cn是在google.com基础上,针对中国情况对搜索结果进行过滤筛选而来。一般认为,结果质量应该和google.com相近,或更好。但实际情况却是差很多。
google.cn分词错误导致的鱼油结果多达14条,占全部结果的将近一半,比google.com多了10%。从位置上看,搜索结果的第1条就是鱼油。
google.cn搜索结果中,涉及香港油鱼事件的只有区区4条,只有google.com的一半,排名最高的也在14。
上面这2个”一半”,导致google.cn的得分比google.com低了将近1/3。
google.cn搜索其他结果数量基本与google.com相当。
到目前为止,google.cn就是在google.com不能访问时候的备用鸡肋。尚不清楚,李开复所说的”与Google全球同期相比,Google中文搜索质量提升是全球平均水平的四倍“是指google.cn还是google.com。
google.cn搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google-cn.html
Google搜索评测分析
作为世界最大搜索引擎,google本次评测成绩并不理想,原因是出现了重大分词错误。其搜索结果中出现了大量的”鱼油”结果(11条,超过总数1/3),导致得分低。在评测的各搜索引擎中,除了微软live,均没有类似的错误。一向以技术见长的google为何会出现如此低级错误,令人不可理解。
Google搜索结果中菜名4条,属于轻度分词问题,与搜狗数量相同。以上两者相加,刚好占总结果的一半。如此之高的错误率,着实出乎意料。看来,google迫切需要针对中文搜索的特点投入更大的技术力量。
Google搜索结果涉及香港油鱼事件的有8条,比搜狗少了一半。而且排列比较靠后,最高的才第9。云南油鱼的5条,而且占据了前4位。说明时间因素作用体现不足,这与前不久google中国工程研究院技术总监刘骏演讲中强调”时间维”有一定的差距。另外,在香港油鱼事件新闻搜索结果中,有5条只列出网址,不能显示内容,虽然不影响得分,但属于技术问题。
Google搜索结果中,排名第5的结果不能打开,得分减少了600多分。
Google搜索结果重复的仅2条,是各搜索引擎中最低的。google在对内容重复的识别方面非常出色。
近来,google抓取内容的频度明显加快。但相比中国本土的搜狗、百度,仍然有差距。这也是google中文搜索不能笑傲中国市场的一个重要原因。
Google搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google.html