当前位置:首页 > SEO知识 > 正文内容

搜索引擎爬虫的五大抓取策略

admin4年前 (2022-07-24)SEO知识925

搜索引擎爬虫抓取我们的网页,是实现SEO优化工作的第一步。如果没有抓取,网站就不会被搜索引擎收录,那也不会有排名了。所以针对每一个为SEO从业者,抓取是第一步!

实际上,大多数SEO从业者知道的搜索引擎抓取算法只有深度优先和宽度优先抓取两个策略。但实际不然,爬虫抓取的网页的策略有6个。再分享这6个策略之前,你务必,一定需要先看一下搜索引擎爬虫的工作流程,否则下面你可能会不太明白。

爬虫的宽度优先抓取策略

宽度优先抓取策略,一个历史悠久且一直被关注的抓取策略,从搜索引擎爬虫诞生至今一直被使用的抓取策略,甚至很多新的策略也是通过这个作为基准的。

宽度优先抓取策略是通过待抓取URL列表为基准进行抓取,发现的新链接,且判断为未抓取过的基本就直接存放到待抓取URL列表的末尾,等待抓取。

宽度优先抓取策略是通过待抓取URL列表为基准进行抓取.jpg

如上图,我们假设爬虫的待抓取URL列表中,只有A,爬虫从A网页开始抓取,从A中提取了B、C、D网页,于是将B、C、D放入到抓取队列,再依次获得E、F、G、H、I网页并插入到待抓取的URL列表中,以此类推,周而复始。

爬虫的深度优先抓取策略

深度优先抓取的策略是爬虫会从待抓取列表中抓取第一个URL,然后沿着这个URL持续抓取这个页面的其他URL,直到处理完这个线路后,再从待抓取的列表中,抓取第二个,以此类推。下面给了一个图解。

深度优先抓取的策略是爬虫会从待抓取列表中抓取第一个URL.jpg

A作为第一个从待抓取列表的URL,爬虫开始抓取,然后抓取到B、C、D、E、F,但B、C、D中都没有后续的链接了(这里也是会去掉已经抓取过的页面),从E中发现了H,顺着H,发现了I,然后就没有更多了。在F中发现了G,然后针对这个链接的抓取就结束了。从待抓取列表中,拿到下一个链接继续上述操作。

爬虫的非完全PageRank抓取策略

相信PageRank算法很多人都知道,我们SEO的大白话理解就是链接传递权重的算法。而如果应用在爬虫抓取上,是怎样的逻辑呢?首先爬虫的目的是去下载网页,与此同时爬虫不能看到所有的网页指向某一网页的链接,所以在抓取的过程中,爬虫是无法计算全部网页的pagerank的,就导致了在抓取过程中计算的pagerank不是太靠谱。

那非完全pagerank抓取策略,就是基于在爬虫不能看到所有网页指向某一网页的链接,而只能看到部分的情况,还要进行pagerank的计算结果。

它的具体策略就是对已经下载了的网页,加上待抓取的URL列表里的网页一起,形成一个汇总。在这个汇总内进行pagerank的计算。在计算完成后,待抓取的url列表里的每一个url都会得到一个pagerank值,然后按照这个值进行倒序排列。先抓取pagerank分值最高的,然后逐个抓取。

那问题来了?待抓取URL列表中,在末尾新增一个URL,就要重新计算一次吗?

实际不是这样的。搜索引擎会等到在待抓取URL列表的新增URL达到一定数量时,再进行重新抓取。这样效率会提升很多。毕竟爬虫抓取到新增的那第一个,也需要时间的。

爬虫的OPIC抓取策略

OPIC是online page importance computation的缩写,意思是“在线页面重要性计算”,这个是pagerank的升级版本。

它具体的策略逻辑是这样,爬虫把互联网上所有的URL都赋予一个初始的分值,且每个URL都是同等的分值。每当下载一个网页就把这个网页的分值平均分摊给这个页面内的所有链接。自然这个页面的分值就要被清空了。而对于待抓取的URL列表里(当然,刚才那个网页被清空了分值,也是因为它已经被抓取了),则根据谁的分值最高就优先抓取谁。

区别于pagerank,opic是实时计算的。这里提醒我们,如果单纯只考虑opic这个抓取策略来说。无论是这个策略还是pagerank策略都证实了一个逻辑。我们新产生的网页,被链接的次数越多,被抓取的概率就越大。

是不是值得你思考一下你的网页布局了?

爬虫抓取的大站优先策略

大站优先抓取,是不是就顾名思义了呢?大型网站就会有先抓取?不过这里是有两种解释的。我个人认为这两种解释爬虫都在使用。

大站优先抓取的解释1:比较贴合字面意思,爬虫会根据待抓取列表中的URL进行归类,然后判断域名对应的网站级别。例如权重越高的网站所属域名越应该优先抓取。

大站优先抓取解释2:爬虫将待抓取列表里的URL按照域名进行归类,然后计算数量。其所属域名在待抓取列表里数量最多的优先抓取。

这两个解释一个是针对网站权重高的,一个是针对每天文章发布数量高且发布很集中的。不过我们试想一下,发布那么集中且那么多篇的站点,一般也都是大站了吧?

这里让我们思考的是什么呢?

写文章的同时,应该集中一个时间点推送给搜索引擎。不能一个小时一篇,太分散。不过这个有待考证,有经历的同学可以进行一下测试。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=2088

分享给朋友:

“搜索引擎爬虫的五大抓取策略” 的相关文章

SEO和SEM有什么区别?该怎么选?

SEO和SEM有什么区别?该怎么选?

以往给大家分享的多是SEO方面的知识,相信接触SEO的人自然也会想到SEM,因为SEM和SEO都是我们在做搜索引擎营销时常用的方式,而且两者的目标都是一致的,都是通过搜索引擎获取精准的搜索流量,从而实现更多转化。但是一些咨询过我们的小伙伴,由于无法直观比对SEM和SEO的效果和价格,所以有时候也非常...

网站关键词布局(下)

网站关键词布局(下)

每个页面目标关键词不要超过2-3个很多站长喜欢把很多关键词放在首页上,认为首页权重高,把关键词放在首页,得到排名的机会高一点。如果你能找到的主要和次级关键词不太多,一共四五个,那么这样还可以接受。但如果最重要和比较重要的相关关键词有10多20个,那就不要勉强都挤在首页上。每一个页面的目标关键词限制在...

SEO黑帽技术有哪些(一分钟了解八种常见的黑帽手法)

SEO黑帽技术有哪些(一分钟了解八种常见的黑帽手法)

小编是不建议使用黑帽手法的,一旦被搜索引擎发现后惩罚是比较严重的,不过关于黑帽手法我们还是要有所了解的,可以使我们避开这些雷区。1.关键词堆积常见的关键词堆积手法有:标题、描述、网站首页头部和底部、文章内容中、关键词标签中、链接锚文本中、图片alt属性中堆积关键词等等。这是最常见的一种黑帽手法,在网...

做SEO有前途吗(2025年做SEO还有没有前景)

做SEO有前途吗(2025年做SEO还有没有前景)

SEO有前途吗?最近有很多人、又开始叨叨上了。记得2025年我刚做SEO那会、就有个好大哥告诉我:兄弟,不要干SEO了,SEO这个行业没有前途了,换行吧。一、SEO已死几年了、各位还不是在做SEO?本来想听好大哥的话来着、尝试了几个行业、发现完全干不了,又开始搞上了SEO,这一搞,就是8年。去年有人...

如何培养SEO赚钱思维,揭秘SEO赚钱的几种境界

如何培养SEO赚钱思维,揭秘SEO赚钱的几种境界

一个从06年开始做SEO的人,SEO实战派,喜欢研究流量变现及被动收入。当大家知道我曾是一名资深的SEO的时候,最近很多人加我来咨询关于SEO的事情,有的人表示自己想学习SEO,有的人呢只是想学习通过SEO如何赚钱。事实上目前的SEO和以往PC时代已今非昔比,现在的SEO技术和知识已经渗透到互联网的...

SEO网站优化的常规策略你知道几个

SEO网站优化的常规策略你知道几个

在对站点执行SEO优化之初,拟定一个详细完整、科学合理的优化策略,是一种不可或缺的工作。在执行操作过程中,优化策略可以当做开展工作的参考和根据。如此一来,可以为实现引擎搜索优化工作奠定较好的根本。归纳网站seo的对策,首要有以下几个方面。1.关键词策略让引擎搜索可以爬取的网站域名、标题标签、meta...