当前位置:首页 > SEO知识 > 正文内容

怎么屏蔽百度蜘蛛(Baiduspider)抓取网站

admin3年前 (2023-03-09)SEO知识438

百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量。当然我们并不是希望搜索引擎什么都抓取。

所以,这时我们只希望我们希望在搜索引擎被搜索到的内容进行抓取。像用户隐私、后台信息等都不希望搜索引擎被抓取和收录。解决这样的问题最好的方式有两种,如下:

robots协议文件屏蔽百度蜘蛛抓取

robots协议是一个放在网站根目录下协议文件,可以通过URL地址:http://你的域名/robots.txt进行访问。当百度蜘蛛抓取我们网站时,会先访问这个文件。因为里面告诉了蜘蛛哪些可以抓取,哪些不可以抓取。

robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。

●User-Agent:对不同搜索引擎的声明;

●Disallow:不允许抓取的目录或页面;

●Allow:允许抓取的目录或页面,一般可以省略不写,因为你不写什么是不可以抓的那就都是可以抓的;

下面我们来看一个示例,场景是我不希望百度抓取我网站所有的css文件,data目录、seo-tag.html页面

User-Agent: Baidusppider

Disallow: /*.css

Disallow: /data/

Disallow: /seo/seo-tag.html

如上,user-agent声明的蜘蛛名称,这个意思也就是说,针对百度蜘蛛。下面不能抓取”/*.css”,首先前面的/指的是根目录,也就是你的域名。*是通配符,代表任意内容。其意思就是所有文件,以.css结尾的都不能抓取。下面两个你自己体会吧。逻辑是一样的。

如果你想检测自己最后设置的robots文件对不对,可以访问这篇文章《检查robots是否正确的工具介绍》,有详细的工具能够检测你的设置。

通过403状态码,限制内容输出,屏蔽蜘蛛抓取。

403状态码,是http协议中一个网页返回状态码。当搜索引擎碰到403状态码时,就知道这类页面是又权限限制的。我是不能访问的。例如需要登录才能查看的内容,搜索引擎本身是不会登录的,那么你返回403的同时,他也知道了这都是权限设置页面,无法读取内容。自然也就不会收录。

返回403状态码的同时,应该有一个类似404页面的页面。提示用户或者蜘蛛这类页面想要做什么才能访问。两者缺一不可。你只有提示页面,状态码返回200,那对于百度蜘蛛就是大量的重复页面了。有403状态码但返回不同的内容。这也不是很友好。

最后针对robot协议,还想再补充一点:“现在搜索引擎会通过你网页的排版、布局来识别你网页的体验友好度,如果屏蔽了css文件、布局相关的js文件的抓取,那么搜索引擎就不知道你的网页布局是好是坏了。所以不建议屏蔽这些内容不让蜘蛛抓取”。

好了,今天的分享就到这里,希望能够对你有所帮助,当然如上的两个设置除了针对百度蜘蛛外,对所有的蜘蛛都有效果的。设置时请谨慎。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=21009

分享给朋友:

“怎么屏蔽百度蜘蛛(Baiduspider)抓取网站” 的相关文章

SEO网页内容优化,站内SEO4个细节

SEO网页内容优化,站内SEO4个细节

我们知道搜索引擎算法每天都在更新,因此,有的时候,我们在制定内容优化策略的时候,可能也需要多加思考,用于不断变化的算法调整。这样我们才能够在初期预估排名的时候,提高页面的关键词排名。那么,页面内容展现,最新SEO注意事项有哪些?根据以往SEO站内优化的经验,蝙蝠侠IT,将通过如下内容:1、内容折叠如...

SEO和SEM有什么区别?该怎么选?

SEO和SEM有什么区别?该怎么选?

以往给大家分享的多是SEO方面的知识,相信接触SEO的人自然也会想到SEM,因为SEM和SEO都是我们在做搜索引擎营销时常用的方式,而且两者的目标都是一致的,都是通过搜索引擎获取精准的搜索流量,从而实现更多转化。但是一些咨询过我们的小伙伴,由于无法直观比对SEM和SEO的效果和价格,所以有时候也非常...

SEO入门指南

SEO入门指南

获得更多流量是所有独立站卖家的共同追求,你是否也想掌握电商搜索引擎优化的方法,为你的独立站带来更多自然流量?但是面对搜索引擎运算法则的不断更新和复杂的行业术语,通常很难完全掌握搜索引擎优化的方方面面。这篇新手指南包含关键词研究,网站结构和组织,以及页面搜索引擎优化,能快速带你从新手入门。一、电子商务...

几个常见的SEO误区

几个常见的SEO误区

在网络营销领域,很多企业或个人网站对SEO的认知或多或少都存在一些误区,往往就会遇到一定的瓶颈困境从而陷入一种迷茫的状态。下面和大家讨论一下最常见也是最致命的几个SEO误区,只想希望大家在操作SEO时能够少走弯路。每个人都有自己的见解,请自行汲取,欢迎吐槽。1、网站SEO优化得好,就能带来销售转化为...

seo关键词排名优化如何避免走入误区

seo关键词排名优化如何避免走入误区

如果你SEO优化的是网站权重较低新站,哪种网站叫新站呢?建成6个月内的网站都属于新站。新站在拥有一定的初生期,如果你稍微用心进行了SEO,可能在短期网站排名能上来,但是网站的收录并不见得会有多好。同时,新站还要避免网站内容被权重高的网站抄袭,如果你的网站内容被抄袭了,就算你是原创,你的排名仍然没有人...

传统企业seo站内优化的方法总结

传统企业seo站内优化的方法总结

传统企业seo站内优化的方法: 1、网站整体结构 当我们拿到一个网站首先看网站整体结构是否符合seo优化,界面是否能够满足用户需求,是否需要做改版。一般来说DIV+CSS是比较适合做seo网站优化的。 2、网站TDK...