当前位置:首页 > SEO培训 > 正文内容

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

admin4年前 (2022-07-29)SEO培训761

为了你的网站可以被别人搜寻到,搜寻引擎爬虫,有时也称为搜寻机器人(bots)或是搜寻蜘蛛(spiders),会爬取你的网站,搜寻有变动的内容并且重新更新搜寻引擎的搜寻检索。


如何用robts.txt 这个档桉去控制搜寻蜘蛛

网站站长可以使用robots.txt这个文件,来指导搜寻蜘蛛应该如何爬取这个网站,当搜寻引擎爬取网站时,会先读取robots.tx 文件,并且依照规则爬取网站。


※ robots.txt 规则虽然是重要的,但是搜寻机器人不一定会遵守 robot.txt 规则,它只是一个执行方针。

※ 以Google而言,要设定Crawl-delay,是必须在Google管理工具裡设定。

※ 对于浮滥爬取你的网站的劣质搜寻蜘蛛,应该研究如何凭藉.htaccess裡的User-agent去阻挡不好的搜寻蜘蛛。


编辑与创建robots.txt 文件

Robots.txt 文件是必须放在网站根目录里,如果你的网址是******.com 是可以读取到的。


网址位置:


http://******.com/robots.txt


伺服器位置:


/home/userna5/public_html/robots.txt


如果没有这个档桉的话,你可以使用纯文件档桉建立一个新的robots.txt文件。


搜寻引擎的使用者代理

以搜寻引擎蜘蛛的User-agent来说,使用robots.txt文件来控制,是最普通的规范方式。


当搜寻蜘蛛爬取网站时,他们会以使用者代理User-agent来识别、以下提供些参考范例


前三名美国最常发现的搜寻引擎使用者代理:

Googlebot

Yahoo! Slurp

bingbot


最常被阻挡的搜寻引擎使用者代理:

AhrefsBot

Baiduspider

Ezooms

MJ12bot

YandexBot


搜寻引擎蜘蛛是会以robots.txt文件规则来抓取网站

robots.txt 文件有许多的规则,可以控制搜寻蜘蛛如何爬取你得网站。


User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。


Disallow:设定档桉或是资料夹,不允许被搜寻蜘蛛爬取。


设定全部搜寻引擎延迟爬取

如果你的网站有1000页,搜寻蜘蛛可能在几分钟内检索全部的网站,然而这有可能导致系统资源使用过度,在短时间内让全部的网页超过负荷,导致网页无法浏览。


延迟30秒的时间,将允许搜寻蜘蛛在8.3小时内检索1000张网页。


延迟500秒的时间,将允许搜寻蜘蛛在5.8天内检索1000张网页。


你也可以设定Crawl-delay:所有的搜寻蜘蛛立即搜寻。


User-agent: *

Crawl-delay: 30


允许搜寻蜘蛛爬取全部网站

在预设空白情况下,搜寻引擎蜘蛛还是会爬取你的网站,不过你还是可以指定它是允许的。


User-agent: *

Disallow:


不允许搜寻蜘蛛爬取全部网站

User-agent: *

Disallow: /


不允许搜寻蜘蛛爬取特定一个网站

你可以运用这些规则,不允许特定的搜寻引擎蜘蛛爬取你的网站。


User-agent: Baiduspider

Disallow: /


不允许全部搜寻蜘蛛爬取特定的档桉

如果有些档桉如contactus.htm, index.htm, 或是store.htm我们不想要搜寻蜘蛛爬取,我可以使用:


User-agent: *

Disallow: /contactus.htm

Disallow: /index.htm

Disallow: /store.htm


除了指定的以外,不允许全部搜寻蜘蛛爬取

如果我们只想让Googlebot爬取我们的/private/目录,但是不允许其他搜寻蜘蛛爬取,我们可以这样使用:


User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /private/


当Googlebot读取我的robots.txt文件时,会去理解文件内容,不会禁止全部目录的爬取。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=3696

标签: robots.txt
分享给朋友:

“ 如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?” 的相关文章

网站收录慢的原因,怎么办?

网站收录慢的原因,怎么办?

最近有不少站长反映,网站收录很慢,而且不只是刚刚上线的新站,就连运营好几年的老站收录都很慢。网站收录问题一直是seo人员比较关注的事情,因为网站一旦没有收录,也就意味着没有流量,更不会有排名。那么,网站收录慢的原因?怎么办?其实导致网站收录慢的原因有很多,而且新站和老站情况也不一样。咱们今天主要讲一...

seo入门需要学习什么?

seo入门需要学习什么?

seo入门需要学习什么呢,这个是很多初学SEO者所困惑的问题,下面就是介绍seo初学者需要掌握的知识; 我们常说万事开头难,我们学习新的东西,新的事物,新的知识也是如此。现在回想自己刚开始接触seo时的哪些点点滴滴,想想就觉得好笑,现在认为这么简单的东西当初的我居然花了那...

如何优化网站关键词排名快速引流变现?

如何优化网站关键词排名快速引流变现?

在SEO优化在网站中占有举足轻重的地位,无论是从用户体验的角度,还是从搜索引擎的排名效果来看,我们在网站的初始设计中首先考虑用户体验,这有利于网站的转型。所以技术人员总是用技术思维来设计网站,认为网站只要美观、有利于改造就可以了。许多网站模板甚至是一些图片。没有办法优化内容。内部结构布局:所谓内容优...

seo外链论坛发布用有吗?SEO外链论坛发布工具

seo外链论坛发布用有吗?SEO外链论坛发布工具

原标题:seo外链论坛发布用有吗?seo外链论坛,什么是SEO外链论坛?怎么批量发布SEO外链到论坛。今天给大家分享一款免费批量发布到论坛的SEO外链论坛工具。只需要导入链接,便可自动发布详细参考图片。随着网络优化技术的普遍,越来越多的人开始尝试着停止搜索引擎的优化学习。那么今天我们就来总结一下,s...

SEO香港主机对网站有影响么

SEO香港主机对网站有影响么

香港虚拟主机如此受网站管理员欢迎的最重要原因之一是它们免于备案,当然,香港虚拟主机也具有访问速度快、稳定性好的特点,最近小编发现大部分新手站长都有这样的疑惑,那就是使用香港虚拟主机对网站的seo有影响吗?其实做SEO优化的朋友都知道,影响网站优化排名的因素有很多,其中,网站的内容对SEO的影响比较大...

本地教培行业,该怎么做SEO?

本地教培行业,该怎么做SEO?

本地教培行业的SEO优化是指通过策略性的网站改进与内容更新,提高您的网站在搜索引擎中本地搜索结果中的排名,简称为本地SEO,从而吸引更多的潜在客户访问、购买和使用您的服务。教培行业的竞争非常大,因此想要在本地市场中取得竞争优势,就需要花费足够的时间和精力来进行本地SEO优化。在本文中,我们将介绍一些...