第1次搜索引擎评测前,我设了一个粗略的关键词选取原则。现在加以完善和细化:
搜索关键词选择原则
- 关键词易分辨:关键词必须是易分辨的、公认的词或词组,避免选择特殊缩写、过于个性化的用法、新词、专业术语。
- 关键词含义单一:避免选取含义单一的关键词,便于比较结果质量
- 关键词易导致错误:对关键词的分词错误能导致明显和一定数量的错误结果,便于评测分词能力。
- 搜索结果数量较少:不重复的正确结果最好在15-20个,不能超过30个。因为评测只取前30个结果,正确结果过多可能导致错误结果被略过。
- 搜索结果分布广泛:结果要存在于多个网站,以便考验搜索引擎对重复内容的分辨能力。同时,避免搜索引擎屏蔽个别网站导致搜索结果的重大不同。
- 搜索结果易体现时间因素:例如,近期有重大相关事件,但避免用新词
- 搜索结果时间跨度较长:搜索结果时间跨度越长越好
做这些设定是为了充分考验搜索引擎的分词、重复内容和时间因素分辨的能力。同时减少因各搜索引擎收录网站不同对得分的过度影响,创造一个公正的评测环境。
先想到这些,以后慢慢补充。
原文永久链接:https://jijian91.com/blog20070208/search-keyword-choice.html
Ionut Alex. Chitu今天看到了gmail开放注册的界面:
注意”Sign up for Gmail”链接,这应该是注册入口。如果此图是真实的,就意味着一直实行邀请制的gmail开放注册了。
继续…
原文永久链接:https://jijian91.com/blog20070207/gmail-will-open-registeration.html
中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:
1.中文分词正确性
分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术。
本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。
分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的。
继续…
原文永久链接:https://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html
微软live搜索评测分析
我从来没用过微软live.com的搜索引擎。只是考虑作为世界范围内的三巨头之一,应该列入评测。
真让我开了眼界,如果说网易有道是差强人意和不够成熟的话,那微软live就是完全不能使用的玩具。
在微软live的30条搜索结果中,有80%是无关或重复结果。只有6条有用。其中4条是菜名。2条是云南油鱼,但2个都是目录,而不是内容页。由此看来,微软的搜索之路还很漫长。好在微软从来不缺耐心和金钱。
微软live搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-microsoft.html
网易有道搜索评测分析
刚刚闯入中文搜索市场的网易有道的答卷差强人意。搜索内容更新太慢,搜索结果中没有任何涉及香港油鱼事件的内容。
其他不重复结果中,云南油鱼和其他有关油鱼的内容8条,菜名5条,都属于中等水平。说明有道的。
但重复率57%实在太过分了,比前面最高的雅虎中国还高70%。重复内容的判断是国内各搜索引擎的弱项,但有道几乎就是没有。这样的搜索引擎是很难让用户实际使用的。
网易有道搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-yodao.html