2007年2月8日

已知的哈利波特7情节中,明确提到了哈利波特的姨妈:

将透露关于佩妮.德斯礼(哈里波特姨妈)的事情,她并不是个哑炮

还有一条,我们一直不知道在说什么:

JK罗琳曾经说过“有一个人物会在老年不顾一切地成功使用了魔法,不过这种情况很少见…”

个人感觉,这还是在说佩妮姨妈。她很可能在最后的情节中,”不顾一切地成功使用了魔法”,从而保护或者帮助哈利波特战胜伏地魔。究竟是不是,7月就知道了。

8月更新:
预测有答案了。《哈利波特7》 英文版正式发布了。网上也有了网友翻译的中文版

原文永久链接:https://jijian91.com/blog20070208/harry-potter7-forecast-aunt-petunia.html

第1次搜索引擎评测前,我设了一个粗略的关键词选取原则。现在加以完善和细化:

搜索关键词选择原则

  • 关键词易分辨:关键词必须是易分辨的、公认的词或词组,避免选择特殊缩写、过于个性化的用法、新词、专业术语。
  • 关键词含义单一:避免选取含义单一的关键词,便于比较结果质量
  • 关键词易导致错误:对关键词的分词错误能导致明显和一定数量的错误结果,便于评测分词能力。
  • 搜索结果数量较少:不重复的正确结果最好在15-20个,不能超过30个。因为评测只取前30个结果,正确结果过多可能导致错误结果被略过。
  • 搜索结果分布广泛:结果要存在于多个网站,以便考验搜索引擎对重复内容的分辨能力。同时,避免搜索引擎屏蔽个别网站导致搜索结果的重大不同。
  • 搜索结果易体现时间因素:例如,近期有重大相关事件,但避免用新词
  • 搜索结果时间跨度较长:搜索结果时间跨度越长越好

做这些设定是为了充分考验搜索引擎的分词、重复内容和时间因素分辨的能力。同时减少因各搜索引擎收录网站不同对得分的过度影响,创造一个公正的评测环境。

先想到这些,以后慢慢补充。

原文永久链接:https://jijian91.com/blog20070208/search-keyword-choice.html

2007年2月7日

Ionut Alex. Chitu今天看到了gmail开放注册的界面:
gmail开放注册
注意”Sign up for Gmail”链接,这应该是注册入口。如果此图是真实的,就意味着一直实行邀请制的gmail开放注册了。
继续…

原文永久链接:https://jijian91.com/blog20070207/gmail-will-open-registeration.html

2007年2月5日

中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:

1.中文分词正确性

分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术

本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。

分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的
继续…

原文永久链接:https://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html

微软live搜索评测分析

我从来没用过微软live.com的搜索引擎。只是考虑作为世界范围内的三巨头之一,应该列入评测。

真让我开了眼界,如果说网易有道是差强人意和不够成熟的话,那微软live就是完全不能使用的玩具

在微软live的30条搜索结果中,有80%是无关或重复结果。只有6条有用。其中4条是菜名。2条是云南油鱼,但2个都是目录,而不是内容页。由此看来,微软的搜索之路还很漫长。好在微软从来不缺耐心和金钱。

微软live搜索评测数据

继续…

原文永久链接:https://jijian91.com/blog20070205/search-evaluation-microsoft.html

Pages:  < 1 2 ... 90 91 92 93 94 ... 114 115 >