这是我第1次做中文搜索引擎评测。内容太长,分成了11篇。目录如下:
方案
结果概述
搜索结果分析: 搜狗
搜索结果分析: google.com
搜索结果分析: google.cn
搜索结果分析: 百度
搜索结果分析: yahoo
搜索结果分析: 阿里巴巴雅虎中国
搜索结果分析: 网易有道
搜索结果分析: 微软live.com
综合分析
原文http://jijian91.com/blog20070306/search-engine-evaluation.html
这是我第1次做中文搜索引擎评测。内容太长,分成了11篇。目录如下:
方案
结果概述
搜索结果分析: 搜狗
搜索结果分析: google.com
搜索结果分析: google.cn
搜索结果分析: 百度
搜索结果分析: yahoo
搜索结果分析: 阿里巴巴雅虎中国
搜索结果分析: 网易有道
搜索结果分析: 微软live.com
综合分析
原文http://jijian91.com/blog20070306/search-engine-evaluation.html
第1次搜索引擎评测前,我设了一个粗略的关键词选取原则。现在加以完善和细化:
做这些设定是为了充分考验搜索引擎的分词、重复内容和时间因素分辨的能力。同时减少因各搜索引擎收录网站不同对得分的过度影响,创造一个公正的评测环境。
先想到这些,以后慢慢补充。
原文http://jijian91.com/blog20070208/search-keyword-choice.html
中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:
分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术。
本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。
分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的。
继续…
原文http://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html
我从来没用过微软live.com的搜索引擎。只是考虑作为世界范围内的三巨头之一,应该列入评测。
真让我开了眼界,如果说网易有道是差强人意和不够成熟的话,那微软live就是完全不能使用的玩具。
在微软live的30条搜索结果中,有80%是无关或重复结果。只有6条有用。其中4条是菜名。2条是云南油鱼,但2个都是目录,而不是内容页。由此看来,微软的搜索之路还很漫长。好在微软从来不缺耐心和金钱。
原文http://jijian91.com/blog20070205/search-evaluation-microsoft.html
刚刚闯入中文搜索市场的网易有道的答卷差强人意。搜索内容更新太慢,搜索结果中没有任何涉及香港油鱼事件的内容。
其他不重复结果中,云南油鱼和其他有关油鱼的内容8条,菜名5条,都属于中等水平。说明有道的。
但重复率57%实在太过分了,比前面最高的雅虎中国还高70%。重复内容的判断是国内各搜索引擎的弱项,但有道几乎就是没有。这样的搜索引擎是很难让用户实际使用的。
原文http://jijian91.com/blog20070205/search-evaluation-yodao.html