当前位置:首页 > SEO网站 > 正文内容

网站禁止垃圾蜘蛛访问抓取教程说明

admin3年前 (2023-02-21)SEO网站378

很多国外商业蜘蛛实际对网站没有什么价值,尤其国内网站的SEO优化运营更是用不上,但是如果不屏蔽就会对网站造成很大的性能宽带消耗,引起SEO优化负面影响,所以可以根据自己的需要去处理。

nginx服务端禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

nginx服务端禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

nginx服务端禁止指定蜘蛛抓取

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )

{

return 444;

}

IIS服务端

ignoreCase="true" />

IIS6请在isapi重写组件中添加规则

#Block spider

RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]

RewriteRule !(^/robots.txt$) - [F]

apache服务端

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]

RewriteRule !(^robots\.txt$) - [F]

通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: BLEXBot

Disallow: /

常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SEO结束语:以上来源收集汇总,请根据自己实际需要进行准确设置。

警惕垃圾蜘蛛影响网站SEO收录排名

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=7339

分享给朋友:

“网站禁止垃圾蜘蛛访问抓取教程说明” 的相关文章

根据百度石榴算法,我们应该深入思考

根据百度石榴算法,我们应该深入思考

石榴算法是针对低质量页面的一种打击算法,至今石榴算法公布的结果也只是在针对严重影响用户体验的网页质量进行打击,但这不得不提醒我们一个值得深入思考的问题。 自2013年石榴算法的公布,到今天。 各家搜索引擎都在陆续的围绕用户体验这件事情本身来进行算法的调...

SEO标签是什么意思?SEO标签优化方法有哪些?

SEO标签是什么意思?SEO标签优化方法有哪些?

随着移动互联网的竞争愈发激烈,通过网络运营的企业都会使用有效的方法来使得自己的网站排名靠前,从而增加网站流量,实现可持续发展。然而,SEO优化推广是企业之间竞争的有力武器,它是目前运营成本低性价比较高的推广方式,一次投入可以维持排名的持久稳定,红利期非常长。因此,接下来一起看下SEO标签是什么意思?...

有大量未收录的文章会不会对关键词排名有影响

有大量未收录的文章会不会对关键词排名有影响

问题:有大量未收录的文章会不会对关键词排名有影响?回答:可以肯定,网站有大量未收录的文章对SEO有不好的影响!因为如果页面收录的比例很低,就意味着网站大部分内容是不合格的,这就直接影响到搜索引擎对于网站的评价,进而降低网站权重,减少展现等。大家要多去看看搜索引擎工作原理,了解搜索引擎的工作机制,这样...

SEO描述怎么写样本

SEO描述怎么写样本

用户在搜索关键词的时候,首先呈现给用户的是标题和描述部分,想要进一步吸引用户点击,得到用户的青睐,醒目的描述发挥着至关重要的作用,毕竟标题的长度有限,并不能完全显示,而描述是概括一个网页内容的简洁话语。网页描述写在<head> </head>之间的 meta 标签中,表述方式...

目前网站的主要盈利模式有哪些

目前网站的主要盈利模式有哪些

现在在互联网高度发达的背景下,网站如今运营的门槛已经越来越低了,不少个人站长也开始涉足这个行业。但是一个网站最终目的是盈利,一个网站做的好不好,是否盈利是关键。今天笔者就跟大家分享一下目前网站的主要盈利模式有哪些,希望对大家有所帮助。第一:广告联盟这是比较常规的盈利模式,几乎是大部分网站尤其是中小型...

SEO关键词运营小技巧

SEO关键词运营小技巧

1、SEO关键字? SEO采用了分析搜索引擎的排名模式,通过关键词搜索的手段,来确保目标关键词有人搜索、有效引流、发现新关键词等目的,针对性的优化网站来提高在搜索引擎中的自然排名和访问数据,有效提升网站的品牌效应。 为此,运营人员的关键词优化会直接与发...