当前位置:首页 > SEO培训 > 正文内容

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

admin2年前 (2022-07-29)SEO培训342

为了你的网站可以被别人搜寻到,搜寻引擎爬虫,有时也称为搜寻机器人(bots)或是搜寻蜘蛛(spiders),会爬取你的网站,搜寻有变动的内容并且重新更新搜寻引擎的搜寻检索。


如何用robts.txt 这个档桉去控制搜寻蜘蛛

网站站长可以使用robots.txt这个文件,来指导搜寻蜘蛛应该如何爬取这个网站,当搜寻引擎爬取网站时,会先读取robots.tx 文件,并且依照规则爬取网站。


※ robots.txt 规则虽然是重要的,但是搜寻机器人不一定会遵守 robot.txt 规则,它只是一个执行方针。

※ 以Google而言,要设定Crawl-delay,是必须在Google管理工具裡设定。

※ 对于浮滥爬取你的网站的劣质搜寻蜘蛛,应该研究如何凭藉.htaccess裡的User-agent去阻挡不好的搜寻蜘蛛。


编辑与创建robots.txt 文件

Robots.txt 文件是必须放在网站根目录里,如果你的网址是******.com 是可以读取到的。


网址位置:


http://******.com/robots.txt


伺服器位置:


/home/userna5/public_html/robots.txt


如果没有这个档桉的话,你可以使用纯文件档桉建立一个新的robots.txt文件。


搜寻引擎的使用者代理

以搜寻引擎蜘蛛的User-agent来说,使用robots.txt文件来控制,是最普通的规范方式。


当搜寻蜘蛛爬取网站时,他们会以使用者代理User-agent来识别、以下提供些参考范例


前三名美国最常发现的搜寻引擎使用者代理:

Googlebot

Yahoo! Slurp

bingbot


最常被阻挡的搜寻引擎使用者代理:

AhrefsBot

Baiduspider

Ezooms

MJ12bot

YandexBot


搜寻引擎蜘蛛是会以robots.txt文件规则来抓取网站

robots.txt 文件有许多的规则,可以控制搜寻蜘蛛如何爬取你得网站。


User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。


Disallow:设定档桉或是资料夹,不允许被搜寻蜘蛛爬取。


设定全部搜寻引擎延迟爬取

如果你的网站有1000页,搜寻蜘蛛可能在几分钟内检索全部的网站,然而这有可能导致系统资源使用过度,在短时间内让全部的网页超过负荷,导致网页无法浏览。


延迟30秒的时间,将允许搜寻蜘蛛在8.3小时内检索1000张网页。


延迟500秒的时间,将允许搜寻蜘蛛在5.8天内检索1000张网页。


你也可以设定Crawl-delay:所有的搜寻蜘蛛立即搜寻。


User-agent: *

Crawl-delay: 30


允许搜寻蜘蛛爬取全部网站

在预设空白情况下,搜寻引擎蜘蛛还是会爬取你的网站,不过你还是可以指定它是允许的。


User-agent: *

Disallow:


不允许搜寻蜘蛛爬取全部网站

User-agent: *

Disallow: /


不允许搜寻蜘蛛爬取特定一个网站

你可以运用这些规则,不允许特定的搜寻引擎蜘蛛爬取你的网站。


User-agent: Baiduspider

Disallow: /


不允许全部搜寻蜘蛛爬取特定的档桉

如果有些档桉如contactus.htm, index.htm, 或是store.htm我们不想要搜寻蜘蛛爬取,我可以使用:


User-agent: *

Disallow: /contactus.htm

Disallow: /index.htm

Disallow: /store.htm


除了指定的以外,不允许全部搜寻蜘蛛爬取

如果我们只想让Googlebot爬取我们的/private/目录,但是不允许其他搜寻蜘蛛爬取,我们可以这样使用:


User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /private/


当Googlebot读取我的robots.txt文件时,会去理解文件内容,不会禁止全部目录的爬取。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://laosuseo.com/?id=3696

标签: robots.txt
分享给朋友:

“ 如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?” 的相关文章

赶紧收藏!SEO培训班老师分享让SEO事半功倍的优化工具

赶紧收藏!SEO培训班老师分享让SEO事半功倍的优化工具

SEO优化培训老师提醒同学们想要做好SEO优化,除了从网站结构、内容建设、友情链接等多方面进行合理规划外,必须要借助一些有效辅助工具来提高SEO优化排名的效果。今天SEO优化培训老师整理了一些常用的SEO优化工具可以让同学们事半功倍,有效提升网站网页排名,使SEO优化更有成效。SEO事半功倍的优化工...

seo关键词优化推广方式有哪些?

seo关键词优化推广方式有哪些?

关键词seo优化一直是企业网站中一个非常重要的内容,今天就给大家列举一下seo关键字优化推广的方法:首先,对关键字进行分析,并选择目标关键词,长尾词。关键词出现较多的是一些主要产品的名字或者叫法不同的产品,如果把一些关键词作为企业网站的目标关键词来实施,那是绝对不行的,很费时费力,所以一定要做好企业...

SEO优化推广,5种依然是不过时的排名策略—优企客

SEO优化推广,5种依然是不过时的排名策略—优企客

对于任何搜索引擎来说,在基本算法上可能都会有一些调整,以优化在线搜索结果,从而提供更好的搜索体验。 这样使许多SEO人员,总是捉摸不透,前一段时间,我刚用过的SEO策略,近期可能效...

教育培训领域SEO站外推广要注意内容方面的问题

教育培训领域SEO站外推广要注意内容方面的问题

作为教育培训领域的SEO外推更要注意的是,帖子内容方面的问题无非就是和教育培训相关的一些问题,比如学员关心的课程内容呀,费用呀,能不能学会呀,学会的保障呀以及费用相关的一些细节性的问题,在相关性的软文中都要有所展现。当然软文的话,你后期如果是在自媒体平台发布的话,更要注意...

持续性被动收入,SEO赚钱术可以做到

持续性被动收入,SEO赚钱术可以做到

知乎上看到一个问题,我在杭州,月入3万,为什么还是焦虑?突然一看,月入3万还焦虑,让那些搬砖月入几千的群众怎么活?但是仔细想一想,生处一线城市,房贷,车贷,再加上小孩,生活成本极高,尤其是人到中年,就更焦虑了?深入思考后我发现,你焦虑的原因是因为月入3万的姿势不对,如果你月入3万的组成大部分是被动收...

解析网站内部链接建设应注意的事项

解析网站内部链接建设应注意的事项

做网站的朋友都知道,现在无论是什么样的网站,其内部链接都是必不可缺的,网站内链对于搜索引擎的作用是越来越大了,网站内链建设是网站优化非常重要的一个环节。今天笔者就跟大家分享一下网站内部链接建设应注意的事项,仅供大家参考。一、网站内部链接的作用有哪些?首先笔者在这里打个比喻,在这里我拿网站比喻成人、内...