2007年2月5日

Google搜索评测分析

作为世界最大搜索引擎,google本次评测成绩并不理想,原因是出现了重大分词错误。其搜索结果中出现了大量的”鱼油”结果(11条,超过总数1/3),导致得分低。在评测的各搜索引擎中,除了微软live,均没有类似的错误。一向以技术见长的google为何会出现如此低级错误,令人不可理解。

Google搜索结果中菜名4条,属于轻度分词问题,与搜狗数量相同。以上两者相加,刚好占总结果的一半。如此之高的错误率,着实出乎意料。看来,google迫切需要针对中文搜索的特点投入更大的技术力量

Google搜索结果涉及香港油鱼事件的有8条,比搜狗少了一半。而且排列比较靠后,最高的才第9。云南油鱼的5条,而且占据了前4位。说明时间因素作用体现不足,这与前不久google中国工程研究院技术总监刘骏演讲中强调”时间维”有一定的差距。另外,在香港油鱼事件新闻搜索结果中,有5条只列出网址,不能显示内容,虽然不影响得分,但属于技术问题。

Google搜索结果中,排名第5的结果不能打开,得分减少了600多分。

Google搜索结果重复的仅2条,是各搜索引擎中最低的。google在对内容重复的识别方面非常出色

近来,google抓取内容的频度明显加快。但相比中国本土的搜狗百度,仍然有差距。这也是google中文搜索不能笑傲中国市场的一个重要原因。

Google搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-google.html

从google泄露的一份文档中,Ionut Alex发现了google的一个新产品——Presently。根据他的分析,这很可能就是”google office”的最后一环——google powerpoint。

在此之前,google已经推出了 Google Docs&Spreadsheets,分别对应word和excel,加上Presently,就可以组成完整的在线办公套件了。对微软来说,这绝不是什么好消息。

有趣的是,国内的老牌office软件厂家金山去年9月推出的日文版wps中,3个产品分别叫做Writer、Spreadsheets、Presentation。与google相比,1个产品名称完全相同,1个非常相似。从网页上看,双方好像都还没对名称注册商标。两套产品功能相同(都是office套件)、定位类似(都是面向互联网)、市场重叠(google面向国际市场,wps刚进日本,还希望能进入欧美),是不是会引起商标纠纷呢?金山wps也真是命苦,刚刚和微软office苦战,又迎头和google撞上了。

原文永久链接:https://jijian91.com/blog20070205/presently-google-powerpoint.html

2007年2月3日

搜狗搜索评测分析


搜狗的搜索结果分成几类:

  1. 香港油鱼事件报道,评分10
  2. 云南特产油鱼。与香港油鱼是两种不同的鱼。旅游景点”油鱼井”是因为其中有油鱼而得名,所以归为一类。考虑时间因素,评分9
  3. 菜名。均系分词错误,评分4
  4. 重复,评分0

总体而言,搜狗的分词效果较好

搜狗搜索的不重复结果中,香港油鱼事件的不重复报道共16条,占搜索结果的一半以上,且顺序靠前,得分较多。

搜狗搜索结果中,云南油鱼4条,说明历史数据有限。

搜狗搜索结果中属于轻度分词错误的菜名4条,出现在2、7、9位,损失一定分数。没有其他分词错误结果。
重复率偏高,达20%。搜狗在这方面与google有明显差距,还需改进。

全部搜索结果均可以访问

搜狗在时间因素方面表现得最出色

搜狗搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070203/search-evaluation-sogou.html

参加评测的中文搜索引擎

共8家:

搜索评测结果 继续…

原文永久链接:https://jijian91.com/blog20070203/search-evaluation-result.html

中文搜索引擎评测方案

用特定关键词,分别在各被测搜索引擎上进行搜索操作。

各取前30条搜索结果,根据评分准备进行打分。每条搜索结果的分数*顺序权重=搜索结果分数。每个搜索引擎的30条搜索结果的分数和即为该搜索的最终得分。得分高即搜索效果好。

搜索结果评分标准

继续…

原文永久链接:https://jijian91.com/blog20070203/search-evaluation-plan.html

Pages:  < 1 2 ... 92 93 94 95 96 ... 114 115 >