中文搜索引擎评测(1):——方案
2007/2/3 16:41中文搜索引擎评测方案
用特定关键词,分别在各被测搜索引擎上进行搜索操作。
各取前30条搜索结果,根据评分准备进行打分。每条搜索结果的分数*顺序权重=搜索结果分数。每个搜索引擎的30条搜索结果的分数和即为该搜索的最终得分。得分高即搜索效果好。
搜索结果评分标准
10分制,最低0分,最高10分。
分数 | 标准 |
---|---|
10 | 以关键词为中心、专题或名词解释 |
8 | 内容涉及此关键词 |
6 | 文字涉及到此关键词,内容基本无关 |
4 | 分词错误 |
2 | 以上各种情况中网页不能打开的 |
0 | 完全无关 |
特别规定:
- 重复:内容相同的搜索结果,只计第1次出现的分数,以后重复的结果均算0分
- 时间因素:鼓励新消息,对时间较早的结果酌情扣1-2
搜索结果排序权重
100分制,最低0,最高100。
总体原则是:
- 越靠前的结果权重越高,按顺序依次降低
- 各搜索引擎均是默认每页10条结果,所以每页结果间权重相差较多。
- 各搜索引擎首屏基本都是显示4条结果,前4条之间、前4条与后面结果之间的权重差距都较大。
顺序 | 权重 | 顺序 | 权重 | 顺序 | 权重 |
---|---|---|---|---|---|
1 | 100 | 11 | 55 | 21 | 20 |
2 | 95 | 12 | 52 | 22 | 18 |
3 | 90 | 13 | 49 | 23 | 16 |
4 | 85 | 14 | 46 | 24 | 14 |
5 | 80 | 15 | 43 | 25 | 12 |
6 | 77 | 16 | 40 | 26 | 10 |
7 | 74 | 17 | 37 | 27 | 8 |
8 | 71 | 18 | 34 | 28 | 6 |
9 | 68 | 19 | 31 | 29 | 4 |
10 | 65 | 20 | 28 | 30 | 2 |
关键词选择
很早就想做一个搜索效果的评测,制定评测框架不难,参数也可以在实践中慢慢调整,惟有评测用的关键词一直没有找到理想的,所以迟迟没有进行。
关键词选择原则:
- 搜索结果的分词准确性容易判断
- 搜索结果数量较少
- 能体现时间因素,近期有重大相关事件,但避免用新词
一月下旬香港因食用”油鱼”导致的腹泻事件,为我提供了一个很好的关键词——油鱼。”油鱼”这个词不是新词,但比较生僻。构词简单,词本身没有分词歧义。作为近期新闻热点,完全有资格作为一个单词出现。特别是,香港”油鱼”事件持续时间短,热度高,既能够体现时间因素,又不会造成大量搜索结果。所以,选择”油鱼“作为本次评测使用的关键词。
转载请注明来自:jijian91与小z - 互联网
永久链接:https://jijian91.com/blog20070203/search-evaluation-plan.html