中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:

1.中文分词正确性

分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术

本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。

分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的
继续…

原文http://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html

百度搜索评测分析

百度搜索结果的特点是,各类结果数量平衡、混合相当规律。比如,每6-7条搜索结果出现1条香港油鱼事件新闻。结果排列缺乏相关性和时间因素

百度的不重复搜索结果中,涉及香港油鱼事件的6条,数量处于google.com与google.cn之间。云南油鱼、含油鱼的用户名等基本符合的内容有6条,相对较多。

百度搜索结果中重复内容多达8条,占总数的27%,明显偏高。不能打开的结果3条。菜名6条,平均水平。分词方面没有出现google的”鱼油”错误。

在各方面,百度的表现都属一般。没有体现出中国市场占有率第一应有的优势,特别是技术方面改进的余地很大。

百度搜索评测数据

继续…

原文http://jijian91.com/blog20070205/search-evaluation-baidu.html

参加评测的中文搜索引擎

共8家:

搜索评测结果 继续…

原文http://jijian91.com/blog20070203/search-evaluation-result.html

最近很热闹。

百度刚刚拿到了新闻牌照,又高调宣布与百代唱片合作招聘内容编辑的工作也在如火如荼地进行中。按百度CFO王湛生的说“百度对于是否做门户和内容这类问题,态度是开放的。百度的战略和产品定位始终以用户需求为核心。新上任的CTO威廉.张则坦率地搜索引擎一定要做门户.搜索引擎想要做大,一定要在合适的时候改做门户。“看来,百度已经认准内容是下一个增长点了。

另一边,老牌的门户网易和搜狐都认准了搜索。网易悄悄地推出有道搜索引擎,并不惜砍掉无线内容频道。搜狐高调炒作搜狗,什么搜狗技术已经超过百度,什么后悔搜狐上市给了百度机会云云。两大门户的做法不同,但战略基本一致,那就是——进军搜索。

这种看似矛盾的情况,仔细分析一下,其实并不奇怪。

百度的做法,很大程度上是为了制造流量,充分挖掘主要用户群——学生的潜力。而搜索引擎本质上就是靠贩卖流量赚钱,百度现在已经拥有大部分低端用户,改进技术和吸引高端用户的难度已经很大。与百代的合作是将流量主要来源——MP3搜索的合法化转型。百度新闻和google新闻类似,都是利用搜索收集新闻。只不过百度并不能信赖自己的技术,加上了人工编辑。百度很可能最终会走向Yahoo的人工编辑和搜索结合的道路。

长期以来,Yahoo的人工编辑派在与google的机器编辑派一直在进行竞争。google一 直是占据上风,并且优势越来越大。如果事实证明,Yahoo走的是错误的道路,百度很可能会步其后尘受重伤。另外,百度还必须要面对用户对人工编辑的公正 性的质疑,拿本已不多的用户信任作赌注。与google中国的屡败屡战相比,百度的路看似平坦,实则布满陷阱。

网易和搜狐的转型源于传统门户的衰落。除了新浪动向不明,其他门户也已纷纷转型。象Tom就转向电子商务,接手了ebay。网易和搜狐认准搜索,可能是希望摆脱流量受制于人的状况和复制google和百度的影响,同时树立技术型公司的形象。网易的低调,则可能是为避免股民对转型的忧虑。按现在的形势发展,下一步被放弃的很可能是摇钱树——网游。另外,搜索是高度技术密集的领域,网易和搜狐的技术实力将遇到前所未有的考验。

但网易与搜狐的情况还有不同。网易是同类公司中比较注重技术的,但一直以来,主要业务对技术的依赖度并不高。网易此次痛下决心,就是要利用搜索的技术门槛与其它公司拉开距离,避免近距离群战。搜狐一向是靠另类宣传吸引眼球,技术能力和专注度都不高。此次,明显是想趁乱获取免费广告资源,未必是大投入全面转向搜索。

原文http://jijian91.com/blog20070116/baidu-news-yodao-search.html

google 2007年新年logo
google的2007新年纪念logo,在近年作品中应属上乘。google blogoscoped也这样认为。放出时间早于往常的美国时间2007年1月1日0点。

对比一下,百度的,有点小气:
百度2007年新年logo

国内其他搜索引擎,包括学google的网易有道,全部缺席logo盛会。

原文http://jijian91.com/blog20070101/google-welcome-year2007.html

Google