中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:
1.中文分词正确性
分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术。
本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。
分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的。
继续…
原文http://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html
微软live搜索评测分析
我从来没用过微软live.com的搜索引擎。只是考虑作为世界范围内的三巨头之一,应该列入评测。
真让我开了眼界,如果说网易有道是差强人意和不够成熟的话,那微软live就是完全不能使用的玩具。
在微软live的30条搜索结果中,有80%是无关或重复结果。只有6条有用。其中4条是菜名。2条是云南油鱼,但2个都是目录,而不是内容页。由此看来,微软的搜索之路还很漫长。好在微软从来不缺耐心和金钱。
微软live搜索评测数据
继续…
原文http://jijian91.com/blog20070205/search-evaluation-microsoft.html
据《中国日报》报道,詹姆斯·格雷(James Grey)1月28日出海失踪。以下是原文:
1月28日早晨,格雷独自驾驶一条游艇,驶往位于旧金山金门大桥以西40公里的费拉隆岛,为去年过世的老母亲撒骨灰,并打算当晚返回。早上10点左右,妻子接到他的电话,他赞叹天气很好,有海豚在船周围游来游去。然后,格雷再也没有任何音讯了。到1月31日为止,美国海岸警卫队沿着太平洋海岸,搜索了格雷失踪地点周围4万平方公里的海域,都没有发现他。
查了一下,James Grey生于1944年。在IBM公司期间,解决了关系型数据库的事务处理问题,并因此获得1998年图灵奖。后供职于微软公司,进行SQL Server研究。请参看他在微软公司的介绍主页。
图灵奖是计算机界的最高奖,每年只授予一人。获奖者都是各领域的泰斗,很多人都有XXX之父的称号。
但原报道中还提到他是google earth的奠基人。google了一翻,也没找到他转投google的消息。如果仅仅因为google earth用了数据库,就把他封成奠基人,那真太匪夷所思了。况且,google earth未必使用关系型数据库。
2.3更新:
看到电视上也报道了。同样错误地称其为”google earth的奠基人”。也不进行起码的核对,真是让人啼笑皆非。
原文http://jijian91.com/blog20070202/james-grey-missing.html
Oreilly数据来源: State of the Computer Book Market, Q306, Part 2

数据库市场是SQL Server、mysql和access三分天下。按微软的战略,access存在的目的就是把用户领进数据库领域,本身在功能上没什么优势,下降11%属正常。未来,access应该也是这样不死不活,为微软制造新用户,同时抵御其他低端数据库的引诱。
SQL Server的114%的涨幅得益于SQL Server2005的上市,是微软实力的真实体现。Oracle和DB2的份额下降均与此有关。
mysql以20%稳步上升,在低端web市场占据了领导地位.曾经与其一争高下的PostgreSQL已经萎缩到可以忽略不计.
值得一提的是filemaker.这个国内比较陌生的数据库已经达到了Oracle份额的2/5,并且增长率达到了25%.查了一下,filemaker已经有中文版,主要用于OA领域。不必编程,它就能够完成保存和管理Excel、PDF、图片、图像等文件以及与其他数据库、软件相联结进行格式转换的任务。
原文http://jijian91.com/blog20061108/oreilly-database-trend.html