Google搜索评测分析
作为世界最大搜索引擎,google本次评测成绩并不理想,原因是出现了重大分词错误。其搜索结果中出现了大量的”鱼油”结果(11条,超过总数1/3),导致得分低。在评测的各搜索引擎中,除了微软live,均没有类似的错误。一向以技术见长的google为何会出现如此低级错误,令人不可理解。
Google搜索结果中菜名4条,属于轻度分词问题,与搜狗数量相同。以上两者相加,刚好占总结果的一半。如此之高的错误率,着实出乎意料。看来,google迫切需要针对中文搜索的特点投入更大的技术力量。
Google搜索结果涉及香港油鱼事件的有8条,比搜狗少了一半。而且排列比较靠后,最高的才第9。云南油鱼的5条,而且占据了前4位。说明时间因素作用体现不足,这与前不久google中国工程研究院技术总监刘骏演讲中强调”时间维”有一定的差距。另外,在香港油鱼事件新闻搜索结果中,有5条只列出网址,不能显示内容,虽然不影响得分,但属于技术问题。
Google搜索结果中,排名第5的结果不能打开,得分减少了600多分。
Google搜索结果重复的仅2条,是各搜索引擎中最低的。google在对内容重复的识别方面非常出色。
近来,google抓取内容的频度明显加快。但相比中国本土的搜狗、百度,仍然有差距。这也是google中文搜索不能笑傲中国市场的一个重要原因。
Google搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google.html
从google泄露的一份文档中,Ionut Alex发现了google的一个新产品——Presently。根据他的分析,这很可能就是”google office”的最后一环——google powerpoint。
在此之前,google已经推出了 Google Docs&Spreadsheets,分别对应word和excel,加上Presently,就可以组成完整的在线办公套件了。对微软来说,这绝不是什么好消息。
有趣的是,国内的老牌office软件厂家金山去年9月推出的日文版wps中,3个产品分别叫做Writer、Spreadsheets、Presentation。与google相比,1个产品名称完全相同,1个非常相似。从网页上看,双方好像都还没对名称注册商标。两套产品功能相同(都是office套件)、定位类似(都是面向互联网)、市场重叠(google面向国际市场,wps刚进日本,还希望能进入欧美),是不是会引起商标纠纷呢?金山wps也真是命苦,刚刚和微软office苦战,又迎头和google撞上了。
原文永久链接:https://jijian91.com/blog20070205/presently-google-powerpoint.html
搜狗搜索评测分析
:
搜狗的搜索结果分成几类:
- 香港油鱼事件报道,评分10
- 云南特产油鱼。与香港油鱼是两种不同的鱼。旅游景点”油鱼井”是因为其中有油鱼而得名,所以归为一类。考虑时间因素,评分9
- 菜名。均系分词错误,评分4
- 重复,评分0
总体而言,搜狗的分词效果较好。
搜狗搜索的不重复结果中,香港油鱼事件的不重复报道共16条,占搜索结果的一半以上,且顺序靠前,得分较多。
搜狗搜索结果中,云南油鱼4条,说明历史数据有限。
搜狗搜索结果中属于轻度分词错误的菜名4条,出现在2、7、9位,损失一定分数。没有其他分词错误结果。
重复率偏高,达20%。搜狗在这方面与google有明显差距,还需改进。
全部搜索结果均可以访问。
搜狗在时间因素方面表现得最出色。
搜狗搜索评测数据
继续…
原文永久链接:https://jijian91.com/blog20070203/search-evaluation-sogou.html
中文搜索引擎评测方案
用特定关键词,分别在各被测搜索引擎上进行搜索操作。
各取前30条搜索结果,根据评分准备进行打分。每条搜索结果的分数*顺序权重=搜索结果分数。每个搜索引擎的30条搜索结果的分数和即为该搜索的最终得分。得分高即搜索效果好。
搜索结果评分标准
继续…
原文永久链接:https://jijian91.com/blog20070203/search-evaluation-plan.html