中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:

1.中文分词正确性

分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术

本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。

分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的

微软live的分词基本是一塌糊涂,返回的结果大部分是包含”油”和”鱼”2个单字的无关内容。

2. 搜索结果重复率

重复率是判断搜索引擎对内容分析能力的重要指标,也是搜索引擎成熟度的重要标志。

各搜索引擎中,google效果最好。有道重复率高达57%,最差。其他搜索引擎在20%-33%,基本处在同一水平。微软live因为返回结果太差,不参加统计.重复率结果详见下图:
搜索重复率

3.搜索结果的时间因素

统计不重复的香港油鱼新闻,主要体现各搜索引擎更新速度和排名规则中时间因素的作用。

表现最好的是搜狗,新消息占一半以上。其次是yahoo马云的雅虎中国google.com百度相近,google.cn更差一些。最差的是有道,完全没有新消息。有道目前还是测试版,爬抓间隔较大也属正常。时间因素结果详见下图:
搜索时间因素

各中文搜索引擎综合评述
各搜索引擎中,google的极低的重复率说明其技术最成熟。但不知为何,在google分词上犯了低级错误。如果没有这个错误,google.com的得分很可能最高。

搜狗是本次评测的最大黑马。成功的原因是在内容抓取和结果排名方面对时间因素的重视。弱点是内容抓取的广度不够、重复率尚需改进。当然,搜狗已经是google以外重复率最低的了。

作为中国市场占有率最高的搜索引擎,百度的表现只能说是一般,在各方面都不突出。百度似乎没有表现出”更懂中文”。结果重复率偏高。结果排列上,似乎没有考虑时间因素和相关性,只是把各方面的结果按比例机械混合。

yahoo阿里巴巴旗下的雅虎中国虽然搜索引擎不同,搜索结果也不同,但总体水平却相当,基本与百度接近。只是yahoo更偏重抓取海外的中文内容。

网易有道的确只是个测试版,虽然象模象样,但真正使用起来,无论是时效性还是重复率都不能满足要求。给它改进的时间,有道还有希望赶上第二梯队的。

微软live的中文搜索引擎非常不成熟,完全不能实用。与其他搜索引擎不在一个水平上。下次搜索引擎评测,将不再测试live。

返回目录

转载请注明来自:jijian91与小z - 互联网

永久链接:http://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html