中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:
1.中文分词正确性
分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术。
本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。
分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的。
微软live的分词基本是一塌糊涂,返回的结果大部分是包含”油”和”鱼”2个单字的无关内容。
2. 搜索结果重复率
重复率是判断搜索引擎对内容分析能力的重要指标,也是搜索引擎成熟度的重要标志。
各搜索引擎中,google效果最好。有道重复率高达57%,最差。其他搜索引擎在20%-33%,基本处在同一水平。微软live因为返回结果太差,不参加统计.重复率结果详见下图:

3.搜索结果的时间因素
统计不重复的香港油鱼新闻,主要体现各搜索引擎更新速度和排名规则中时间因素的作用。
表现最好的是搜狗,新消息占一半以上。其次是yahoo和马云的雅虎中国。google.com和百度相近,google.cn更差一些。最差的是有道,完全没有新消息。有道目前还是测试版,爬抓间隔较大也属正常。时间因素结果详见下图:

各中文搜索引擎综合评述
各搜索引擎中,google的极低的重复率说明其技术最成熟。但不知为何,在google分词上犯了低级错误。如果没有这个错误,google.com的得分很可能最高。
搜狗是本次评测的最大黑马。成功的原因是在内容抓取和结果排名方面对时间因素的重视。弱点是内容抓取的广度不够、重复率尚需改进。当然,搜狗已经是google以外重复率最低的了。
作为中国市场占有率最高的搜索引擎,百度的表现只能说是一般,在各方面都不突出。百度似乎没有表现出”更懂中文”。结果重复率偏高。结果排列上,似乎没有考虑时间因素和相关性,只是把各方面的结果按比例机械混合。
yahoo和阿里巴巴旗下的雅虎中国虽然搜索引擎不同,搜索结果也不同,但总体水平却相当,基本与百度接近。只是yahoo更偏重抓取海外的中文内容。
网易有道的确只是个测试版,虽然象模象样,但真正使用起来,无论是时效性还是重复率都不能满足要求。给它改进的时间,有道还有希望赶上第二梯队的。
微软live的中文搜索引擎非常不成熟,完全不能实用。与其他搜索引擎不在一个水平上。下次搜索引擎评测,将不再测试live。
本文来自http://jijian91.com 原文http://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html
4条评论
Post comment
Fields in bold are required. Email addresses are never published or distributed.
Some HTML code is allowed:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>
URIs must be fully qualified (eg: http://www.domainname.com) and all tags must be properly closed.
Line breaks and paragraphs are automatically converted.
Please keep comments relevant. Off-topic, offensive or inappropriate comments may be edited or removed.
Google 好像对于不认识的词直接拆开做查询,我以前也发现类似的现象。
You XU —— @2007-02-07 15:16 +08:00
但google又不象live那些把包含2个字的网页都当作结果。也许是认为2字相连的相关性强,排在前面了?但也应该”油鱼”比”鱼油”相关性啊。不明白为什么混在一起了
下次找个3字词试试
jijian91 —— @2007-02-07 15:29 +08:00
不懂不要吓评论!
google评估的原则是最优匹配,你的“油鱼”属于根本就不是大家习惯使用的词语,所以google自动给你匹配到鱼油上面,这才正是google强大的地方之一。
Anonymous —— @2007-03-19 1:22 +08:00
首先,从使用者的角度,查询”油鱼”返回”鱼油”就是无意义和错误的结果。不管搜索引擎用了什么技术.
其次,8家中文搜索引擎中有6家没有出现”油鱼”和”鱼油”混淆现象
第三,如果搜索引擎认为”油鱼”是误写,应该提示,由用户纠正。而不是自作主张,更改关键词或将不同结果混合。
实际上,google确实曾经提示”是否是鱿鱼”,但没提示”是否是鱼油”。
jijian91 —— @2007-03-19 2:26 +08:00