2007年2月5日

中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:

1.中文分词正确性

分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术

本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。

分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的
继续…

原文永久链接:https://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html

微软live搜索评测分析

我从来没用过微软live.com的搜索引擎。只是考虑作为世界范围内的三巨头之一,应该列入评测。

真让我开了眼界,如果说网易有道是差强人意和不够成熟的话,那微软live就是完全不能使用的玩具

在微软live的30条搜索结果中,有80%是无关或重复结果。只有6条有用。其中4条是菜名。2条是云南油鱼,但2个都是目录,而不是内容页。由此看来,微软的搜索之路还很漫长。好在微软从来不缺耐心和金钱。

微软live搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-microsoft.html

网易有道搜索评测分析

刚刚闯入中文搜索市场的网易有道的答卷差强人意。搜索内容更新太慢,搜索结果中没有任何涉及香港油鱼事件的内容。

其他不重复结果中,云南油鱼和其他有关油鱼的内容8条,菜名5条,都属于中等水平。说明有道的。

重复率57%实在太过分了,比前面最高的雅虎中国还高70%。重复内容的判断是国内各搜索引擎的弱项,但有道几乎就是没有。这样的搜索引擎是很难让用户实际使用的。

网易有道搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-yodao.html

雅虎中国搜索评测分析

Yahoo在中国失败后,将雅虎中国卖给了马云。雅虎中国(yahoo.cn)现在属于阿里巴巴旗下企业,与Yahoo(yahoo.com)已经没有任何关系。雅虎中国的搜索也是另起炉灶做的。作为后来者,答卷算是合格

搜索结果中,涉及香港油鱼事件的13条,仅次于搜狗。云南油鱼1条,是前面各家中最少的。

搜索结果中,菜名6条,属于平均水平。

搜索结果的重复率1/3,是前面各家中最高的。这是雅虎中国的最大问题

搜索结果排列顺序上,菜名排到了第1,大量的重复结果分布的靠前的位置,说明结果排列尚不成熟。这对搜索效果影响很大。

雅虎中国搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-alibaba.html

yahoo搜索评测分析

yahoo退出中国后,搜索引擎仍然支持中文,而且效果不错。

yahoo搜索的特点是时效性非常强。涉及香港油鱼事件的不重复结果有10条,还有不能打开的3条,重复的6条。合计19条,占总数的近2/3。由于yahoo的内容相当多来自于香港和海外网站,不能打开的3条很可能在国外是能访问的。

菜名6条,与前几个搜索引擎相当。云南油鱼只有2条,这与yahoo抓取大陆网页较少有关。但其中一个是目录页而不是实际内容,是yahoo搜索引擎的缺陷。

yahoo搜索结果的重复率偏高,达到27%。高于google搜狗,与百度相同。

yahoo搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-yahoo.html

Pages:  1 2 >