当前位置:首页 > SEO网站 > 正文内容

网站禁止垃圾蜘蛛访问抓取教程说明

admin3年前 (2023-02-21)SEO网站299

很多国外商业蜘蛛实际对网站没有什么价值,尤其国内网站的SEO优化运营更是用不上,但是如果不屏蔽就会对网站造成很大的性能宽带消耗,引起SEO优化负面影响,所以可以根据自己的需要去处理。

nginx服务端禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

nginx服务端禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

nginx服务端禁止指定蜘蛛抓取

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )

{

return 444;

}

IIS服务端

ignoreCase="true" />

IIS6请在isapi重写组件中添加规则

#Block spider

RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]

RewriteRule !(^/robots.txt$) - [F]

apache服务端

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]

RewriteRule !(^robots\.txt$) - [F]

通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: BLEXBot

Disallow: /

常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SEO结束语:以上来源收集汇总,请根据自己实际需要进行准确设置。

警惕垃圾蜘蛛影响网站SEO收录排名

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=7339

分享给朋友:

“网站禁止垃圾蜘蛛访问抓取教程说明” 的相关文章

如何设置书写网站title才更有利于网站运营?

如何设置书写网站title才更有利于网站运营?

网站标题是对一个网站的高度概括,通过阅读标题,用户可以了解到网站的主体内容,对网站有初步感知。并且网站标题是用户浏览搜索结果时最先看到的、最醒目的内容。所以,一个好的网站标题可以很好地引导网民对网站的点击,给网站带来更多的流量;一个标题如果设计的不得当,很可能导致整个网站的浏览量下降。今天笔者就跟大...

稳定网站排名需要从哪些方面入手

稳定网站排名需要从哪些方面入手

大家都知道,随着百度算法的不断升级,基本上网站关键词排名每一天词都有不同程度的变化。我们做完网站后谁也不敢保证我们的网站会一直在首页,有可能今天是首页第一,到了明天就可能掉到第二页了。对于站长朋友来说我们所能做的就是尽量稳定网站关键词排名,减少网站关键词排名的波动,今天笔者就跟大家分享一下稳定网站排...

网站标签是什么?网站标签怎么设置SEO效果更好?

网站标签是什么?网站标签怎么设置SEO效果更好?

这段时间,有些小伙伴跟我们反映过,在做SEO优化的过程中,把一些小细节给优化好,会带来意想不到的效果。看来很多人也发现了做SEO优化,也是有很多小技巧的。其实,网站优化也不仅是优化网站内容和标题,网站的标签也非常重要。网站标签是参与网站收录和排名的基础,在一定程度上也会影响SEO优化的周期和效果。正...

SEO是什么意思

SEO是什么意思

SEO是什么意思?SEO的标准定义:Search Engine Optimization,汉译为搜索引擎优化。是指遵循搜索引擎的规则对网站内容进行优化,提升网站在搜索引擎内关键词搜索结果的自然排名,将自己品牌和产品的排名前移。一、一图速览SEO的工作流程了解SEO的定义很简单,大家更关注的其实是如何...

做网站怎样抓住搜索引擎规则

做网站怎样抓住搜索引擎规则

搜索引擎是一张巨大的蜘蛛网,里面包含了各种各样的关键词和网站。搜索引擎会使用一种叫百度蜘蛛的程序存储每个关键词相应的网站。当百度蜘蛛抓取到相应关键词的网站之后,就会开始工作。依据搜索引擎特定的算法,将一些优秀的网站排在前面,而怎么获取好的排名,这就需要了解搜索引擎的排名规则了。通过这些规则,百度搜索...

网站seo优化多少钱?西安网站seo怎么样?

网站seo优化多少钱?西安网站seo怎么样?

seo搜索引擎优化也可以称作seo关键词排名优化,有些人根据他的针对性称为百度seo优化(百度seo优化排名),相对于更多的网络推广方式来说,seo推广尤其重要而且更得人心,seo网站推广(seo网站优化)因为其面向对象是直接的有需求搜索客户,所以广受大众企业主所喜爱,随着移动互联网的普及seo关键...