当前位置:首页 > SEO网站 > 正文内容

如何应对解决搜索引擎蜘蛛抓取页面异常的问题

admin3年前 (2023-03-09)SEO网站334

搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。

比如我们常见的,有时候打开一个页面,页面一片空白, 上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。

有时候,会返回503,503 返回码代表网站临时无法访问,可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URL处理,如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除,这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。返回码403是禁止访问状态,一般来说,如同503一样, 如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。

在返回码中,有一类需要格外注意,就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新的URL,就必须使用返回码301进行处理,这样能把权重等一 并带过去,避免网站的流量损失。

返回码301的优化写法如下。

(1)创建一个htaccess.txt文件。

(2)在htaccess.txt里写好返回码301的跳转信息。

假设旧的URL为***.com,需要重定向到www.***.com,需在文件里写如下信息。

RewriteEngine on

RewriteCond %{http_ host} ^***.com [NC]

RewriteRule ^(.*)$ http://www.***.com/$1 [L, R=301]

(3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。

需要提醒的是目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此,在考虑.htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。

实际上,在重定向的处理上存在多种方式,简单来说,重定向可以分为http30x重定向、meta refresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都确认支持Canonical标签,可以通过制定一个权威页面的方式,引导蜘蛛只索引一个权威页面,从实际效果上来说,也是一种间接的重定向。在实际抓取过程中,蜘蛛会对各种重定向效果进行识别。

重定向的方法有多种,但是从SEO角度来说,如果是永久跳转的页面,尽量采用返回码301的跳转方式。另外,从时间结果来看,百度对Canonical的支持并不如谷歌好,采用Canonical 未必能得到如期效果。有些网站通过不同的路径进入同一页面,可能会出现多个URL的情况,当面对这种情况时,可能需要一些处理技巧。

外链等因素对搜索的排名是有影响的,那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明,即执行包括“深度优先遍历策略、宽度优先遍历策略、PR 优先策略、反链策略、社会化分享指导策略等”。同时,这也说明每个策略各有优劣,在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼,我们可以认为,百度在实际抓取的时候,其实都考虑了这些因素,只是权重可能有所不同,因此,尽量提高网页PR,增加更高质量的外链,进行高质量的社会化分享,对网站的SEO工作是有积极意义的。

另外,针对互联网存在的大量“奋版”“采集”的网页情况,在抓取的过程中,蜘蛛会通过技术判断页面是否已经被抓取过,并对URL不同但是实际内容相同的页面的URL进行归一化处理,即视作-一个URL。也就是告诉SEO人员,不要通过大量创建页面的方式来获得更多的搜索资源,如果页面很多,但是每个页面的内容重复性很高,或者仅是URL中包含无效参数来实现多个页面,搜索引擎仍然把这些URL当作-一个URL处理,即网站页面不是越多越好,通过功利的方式拼凑网页,大量部署长尾,但是页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响到整站的SEO效果。

蜘蛛在抓取的过程实际是依据链接不断往下探索的过程,如果链接之间出现短路,蜘蛛就无法往前爬了。在真实的网站运营中,我们可以看到很多网页实际潜藏在网站后端,蜘蛛是无法抓取到的,比如没有预留入口链接,或者入口链接已经失效等,这些无法抓取到的内容和信息,对于蜘蛛来说就是一个个的孤岛,对SEO人员来说就是没有完全发挥内容的引流作用。同时,因为网络环境或者网站规范等原因也可能导致蜘蛛无法爬行。

如何解决信息无法被抓取到的问题?几个可行的办法如下。

●采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。

●采用Sitemap提交方式。 大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。

蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots 协议等。

HTTP协议规范了客户端和服务器端请求和应答的标准。客户端般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HT请求。发送HTTP请求会返回对应的HTTP Heder信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。

HTTPS协议是-种加密协议,一般用户安全数据的传输。 HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候,尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。

以上就是《如何应对解决搜索引擎蜘蛛抓取页面异常的问题》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=21608

分享给朋友:

“如何应对解决搜索引擎蜘蛛抓取页面异常的问题” 的相关文章

网站SEO优化的六大步骤

网站SEO优化的六大步骤

第一步:关键词选择关键词选择错了,后面做的工作等于零,所以进行网站优化前,先要锁定自己网站的关键词。如题操作步骤如下:1、列出基础词2、使用关键词分析工具找出更多的关键词和热门关键词。百度相关搜索,百度指数,英文关键词工具,将目标关键词做成一个文档,对于大型网站,主要要做到就是对网站的关键词进行分类...

网站在seo优化过程中,如何分析影响排名的因素?

网站在seo优化过程中,如何分析影响排名的因素?

自网站正式上线以来,标志着该网站已逐步进入搜索引擎的视野。如果你想在搜索引擎中站稳脚跟,你需要一些真正的技能。搜索引擎最关注的是企业网站带来用户体验,让用户在自然检索期内找到企业网站的搜索结果并进行访问,从而给企业网站带来无形流量,将其转化为有形订单。但有些企业网站在优化过程中效果并不理想,排名也很...

seo之网站优化中好的内链系统是怎样的?

seo之网站优化中好的内链系统是怎样的?

相信做了网站的企业朋友们都了解到网站内链是非常重要的,但一个什么是好的内链系统以及如何建立好的内链系统你是否清楚了解呢?今天让我们来为大家介绍一下。一、内链是做什么的?提升权重,提高排名!大多数人都会这么回答,这也正是大多数人的内链做的差的原因。那么这个内链到底如何去做?道生一,一生二,二生三,三生...

再谈为网站选择关键词的技巧与操作手法

再谈为网站选择关键词的技巧与操作手法

随着百度,谷歌等搜索引擎的日益强大,搜索优化的日趋成熟,网站的搜索推广也变得越来越难。为网站选择合适的关键词就成了我们做好网站推广的重中之重,今天笔者就跟大家分享一下为网站选择关键词的技巧与操作手法,希望对大家有所帮助。第一、选择的关键字要和网站相关就是网站关键词的相关性,在选择关键词时要根据网站自...

如何写出一篇好的网站标题呢?

如何写出一篇好的网站标题呢?

网站标题的重要性毋庸置疑,好的网站标题不仅能够吸引用户的眼球,还能让用户对网站产生兴趣,从而提高网站的点击率。那么如何写出一篇好的网站标题呢?接下来就让我来为您详细分析。网站标题的作用首先,我们需要明确一个问题:网站标题的作用是什么?网站标题是网站的“名片”,是网站最先展现给用户的内容。用户在打开网...

做网站推广时我们必须要掌握的技能有哪些

做网站推广时我们必须要掌握的技能有哪些

现在做网站推广越来越受人们的关注,不过很多人认为做网站推广不需要太多的技能,只要一个会上网、会打字、会逛论坛的外加有点SEO概念的人,都能毫不费力的找到一份SEO的基础工作。但是笔者认为网络推广的门槛不是很高,但是要做好网站推广,要想成为这个行业让人顶礼膜拜的顶尖高手,需要具备一个合格的网络推广人才...