【白皮书解读搜索引擎的工作原理】如何排序
导读:搜索引擎是如何对网站进行排序的呢?今天解读的是索引。
本文解读的是:《百度官方课程检索排序》
1、检索排序原理
2、影响搜索结果排序的几个因素
一、检索排序原理
搜索引擎工作过程包括:抓取——存储——页面分析——索引——检索。我们时常听到这样一个观点,先有收录,后有索引,或者先有索引,后有收录,根据我的研究经过反复数据演算,先有收录,后有索引是有一定依据的,比如一篇文章,site有索引结果,但输入url又没有搜索结果,那么这个是典型的有收录没有索引,没有索引意味着没有参与排名。
检索系统主要分为5个部分,我们这里就拿个例子,比如“10号线地铁故障”,那么百度分词的结果如下:
10 0x1
号 0x2
线 0x3
地铁 0x4
故障 0x5
那么每个term文档合集如下:
0x1 文章1、文章2、文章3
0x2 文章1、文章3、文章4
0x3 文章2、文章4...
求交过滤后,能满足用户需求结果排序的就是文章1、文章2、文章4,也就是说,用户查找10号线地铁故障一词,展现出来的就是文章1、2、4。
那么最终排序取决于网站评级、主体内容质量、相关度、时效性等。
那么我们在做搜索引擎优化的时候,就知道怎么去撰写文章标题和文章内容了。也就是说,我们的内容尽可能都包含标题分词后的关键词。
二、影响搜索结果排序的几个因素
影响排序的几个因素:
1、相关性(主关键词数量以及相关词和外链指向锚文本)
2、网站权威性(包括各种认证、备案等)
3、时效性(按照标准时间新出现的网页)
4、重要性(点击、停留时长、跳出率等、外链投票)
5、丰富度(文字、图文、视频搭配或满足90%用户需求)
6、受欢迎程度(转发、评论)
这里只提2方面,一个是相关性占据排序70%。另外一个满足90%用户需求,这里我举个例子,
比如搜索“感冒了怎么办”,那么搜索结果是感冒出现的症状、感冒出现每个症状应该怎么做和后续注意事项等等,这些结果覆盖越多,越能满足用户需求。
另外排序是搜索引擎引用机器学习,让程序自动计算公式,非人工参与。