当前位置:首页 > SEO网站 > 正文内容

网站禁止垃圾蜘蛛访问抓取教程说明

admin3年前 (2023-02-21)SEO网站204

很多国外商业蜘蛛实际对网站没有什么价值,尤其国内网站的SEO优化运营更是用不上,但是如果不屏蔽就会对网站造成很大的性能宽带消耗,引起SEO优化负面影响,所以可以根据自己的需要去处理。

nginx服务端禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

nginx服务端禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

nginx服务端禁止指定蜘蛛抓取

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )

{

return 444;

}

IIS服务端

ignoreCase="true" />

IIS6请在isapi重写组件中添加规则

#Block spider

RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]

RewriteRule !(^/robots.txt$) - [F]

apache服务端

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]

RewriteRule !(^robots\.txt$) - [F]

通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: BLEXBot

Disallow: /

常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SEO结束语:以上来源收集汇总,请根据自己实际需要进行准确设置。

警惕垃圾蜘蛛影响网站SEO收录排名

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=7339

分享给朋友:

“网站禁止垃圾蜘蛛访问抓取教程说明” 的相关文章

做SEO必须知道的9个HTML标签

做SEO必须知道的9个HTML标签

HTML是构成大多数网页基础的标记语言。它可以说是SEO技术的最基本部分之一。使用HTML元素,SEO专业人员可以将有关页面的信息传达给用户和搜索机器人。这可以帮助阐明页面上内容的重要性,性质和顺序,以及与其他网页的关系。标签和属性之间的区别要了解标签和属性之间的区别,我们需要确保我们使用正确的术语...

品牌站seo标签优化:H标签的布局优化

品牌站seo标签优化:H标签的布局优化

许多刚刚入行的seoer接触到的都是品牌站的优化,许多网上的seo策略都倾向于进行大站的优化,做长期内容优化的路线,但是对于公司而言,seo的目标是实现长期优化内容的路线,但对于公司来说,这是非常重要的,也是体现seo价值的重要指标。所以品牌站的seo优化更多的是拼的细节,今天来说说H标签的应用与优...

seo优化中meta标签如何优化?

seo优化中meta标签如何优化?

meta标签,是每个网站seo的人员都需要掌握的一个标签,该标签优化的好的话,对你网站的排名是很有帮助  的,有关meta标签的一些用法知识,下面跟大家一起来分享一下。 一、实用的meta标签 这里的meta标签都很实用,确保你的每个页面代码...

为网站选择和布局关键词需要注意的技巧

为网站选择和布局关键词需要注意的技巧

我们在运营网站时,就不得不提到网站的关键词选择和布局了。我们看到的是许多网站运营成功,但我们看不到的是他们为之付出努力,现在虽然网站推广效果有很多因素影响,比如网站结构、链接结构、网站程序、服务器、网站内容质量等,但关键词选择和布局却是影响最大的一环。今天就跟大家分享一些为网站选择和布局关键词需要注...

为网站更新高质量文章内容的方法和技巧

为网站更新高质量文章内容的方法和技巧

网站内容建站是网站运营的重要内容之一,网站内容无论是建站的初期还是是成熟期都相当重要,并且网站文章内容更新越来越成为企业网站推广的首要的重中之重。网站内容就相当于人体的肌肤,网站的架构和程序,就像人体的骨架,只有两者有着很好的搭配,才能够让人体变得丰满起来,可爱起来,要不然光光秃秃的骨架示人,一定会...

哪些原因导致用户想尽快离开你的网站

哪些原因导致用户想尽快离开你的网站

如果想让我们的网站获得成功,获得用户的认可,让用户在你的网站有个愉快的体验必不可少。并且现在随着搜索引擎算法的调整,用户体验越来越受到重视。一个网站已经不仅仅靠发外链就可以得到排名,我们更要重视的是用户体验度,用户是否真的对网站感兴趣才是我们应当追求的。今天笔者就跟大家分析一下哪些原因导致用户想尽快...