浏览器是互联网时代的操作系统。浏览器分布是基于web的交互设计中必须要考虑的重要因素。但在全球和中国国内,浏览器分布和变化趋势不尽相同。
全球浏览器分布
根据w3schools的统计数据,截至2007年2月,浏览器仍以微软IE(Internet Explorer)家族和Firefox为主,分别占58.7%和31.2%。其他浏览器(包括Mozilla、Opera、Netscape、Safari、Konqueror、Gecko等)份额均在2%以下。
在IE家族中,以IE6占39.8%最多,其次是IE7占16.4%,IE5系列仅占2.5%。
继续…
原文永久链接:https://jijian91.com/blog20070313/browser-statistics.html
在刚刚公布的网易2006年第四季度及年度财务报告中,网易正式宣布:
公司自主研发的搜索引擎在2006年12月进入了内部测试,预期于2007年第二季度进行公开测试。
这与有道搜索引擎12月14日开始测试是吻合的,更说明有道就是网易的搜索引擎。有道的“创意我有道”搜索引擎界面设计大赛已经公布结果,显然是为了配合2季度开始的公测。这与我的猜测基本相符。
网易有道开始走上舞台。期待有道能在下次中文搜索引擎评测中取得好结果。
原文永久链接:https://jijian91.com/blog20070228/yodaobeta-test.html
第1次搜索引擎评测前,我设了一个粗略的关键词选取原则。现在加以完善和细化:
搜索关键词选择原则
- 关键词易分辨:关键词必须是易分辨的、公认的词或词组,避免选择特殊缩写、过于个性化的用法、新词、专业术语。
- 关键词含义单一:避免选取含义单一的关键词,便于比较结果质量
- 关键词易导致错误:对关键词的分词错误能导致明显和一定数量的错误结果,便于评测分词能力。
- 搜索结果数量较少:不重复的正确结果最好在15-20个,不能超过30个。因为评测只取前30个结果,正确结果过多可能导致错误结果被略过。
- 搜索结果分布广泛:结果要存在于多个网站,以便考验搜索引擎对重复内容的分辨能力。同时,避免搜索引擎屏蔽个别网站导致搜索结果的重大不同。
- 搜索结果易体现时间因素:例如,近期有重大相关事件,但避免用新词
- 搜索结果时间跨度较长:搜索结果时间跨度越长越好
做这些设定是为了充分考验搜索引擎的分词、重复内容和时间因素分辨的能力。同时减少因各搜索引擎收录网站不同对得分的过度影响,创造一个公正的评测环境。
先想到这些,以后慢慢补充。
原文永久链接:https://jijian91.com/blog20070208/search-keyword-choice.html
中文搜索引擎现存问题
综前,目前中文搜索引擎主要存在3个问题:
1.中文分词正确性
分词技术是搜索引擎准确性的关键,也是中文搜索引擎的最核心技术。
本次评测使用的关键词是”油鱼”。严格的说,涉及菜名的搜索结果,例如网油鱼包、蒜油鱼、葱油鱼等等,都是分词错误的产物。但考虑分词的不确定性和多重性,这些结果现阶段尚可接受,评为4分。各搜索引擎不重复菜名结果多在4-6条之间,相差不多。
分词方面,最不可思议的是google。搜索”油鱼”,居然返回大量”鱼油”结果。从结果中分析,google并不是把”油鱼”拆成了”油”和”鱼”2个单字,因为它并没有像微软live那样返回包含这2个单字的结果。而且,”鱼油”结果的数量和位置与”油鱼”结果类似,所以很可能google按照什么原理,把这两个词等同起来的。这种低级分词错误,对于google搜索引擎来说,是非常不应该的。
继续…
原文永久链接:https://jijian91.com/blog20070205/search-engine-evaluation-result-analysis.html