在网站运营时哪些因素影响着网页的抓取收录
我们在运营网站时都希望自己的网站内容能被快速抓取收录,但是搜索引擎对网站内容和网页抓取收录是一个复杂的过程,简单来说,收录过程可以分为:抓取、过滤、建立索引和输出结果。
尤其是现在随着搜索引擎的不断升级,比如说百度搜索引擎细雨算法横空出世,对网站收录抓取一定会有影响。
那么,搜索引擎进行网站内容的抓取时,究竟有什么技巧呢?
今天就跟大家分享一下在网站运营时哪些因素影响着网页的抓取收录?希望对大家有所帮助。
第一:网站速度影响网站抓取收录
网站是否可以正常访问对搜索引擎来说就是连通度。连通度要求网站不能经常访问不了,或者访问速度特别慢。机房问题、dns问题、cdn加速问题、服务器带宽、服务器硬件、操作系统、服务器软件以及服务器所安装的程序,这些都有可能影响我们网站的打开的速度和网站能否正常访问。
从蜘蛛角度来看,希望能提供给检索客户的网页都是可以正常访问的页面,对于服务器反应速度慢或者经常死机的服务器,相关网站肯定会有负面的印象,严重的就是逐渐减少爬行,甚至剔除已经收录的页面。
第二:网站要有逻辑清晰的链接层次结构
比较好的站点结构还是树状结构,以首页为节点的树状连通,可以通过首页的链接访问到网站的任意页面。在建立站点树状结构的时候要注意避免过于扁平化的结构,所有的内容页面全部放在根目录也不利于网站的目录权重传递。在建站的时候还需要注意的是要避免孤岛链接,所谓孤岛链接就是一个页面通过站内的正常访问是不能找到页面的,只有通过直接输入网址或地图提交才能找到的页面。这样的页面搜索引擎不容易抓取也不利于用户对内容的浏览和访问影响用户体验。
第三:网站内容的质量
现在,搜索引擎对低质量的网站打击力度不断加大,因此,创建高质量的内容,对于吸引蜘蛛是非常关键的,从这个角度来说,“内容制胜”是完全正确的。无论是网站首页的文章,还是内页的文章,把握好高质量原创这个准则才能做好SEO 优化的第一步。所谓的原创就是网站自主编写的,其内容可以是已经发生或正在发生的事件、人物,或是新知识、新经验等,但在写作的时侯,必须原创,就是网站是此文章的源头。现在搜索引擎对原创文章所赋予的权重比较高。
第四:网站更新好内容后主动提交
目前百度在站长工具中有主动推送、自动推送、sitemap三种方式供站长对新产出资源,更新资源及时提交,这有利于网站内容被及时抓取收录。在对内容提交的时候站长要注意避免死链和低质内容被搜索引擎抓取。在出现死链接的时候可以通过死链接提交工具进行死链和失效资源及时提交。
第五:做好内外链接
网站首页的权重比较高,越往内页搜索引擎所给予的权重就越低,那怎么办呢?这时就引出了外链与内链两种操作方式。外链就是增加友情链接的网站,通过友情网站的引流,带动本网站的流量。内链就是通过设置,让内页文章的关键词与主关键词建立内在的联系,让搜索引擎会因内页关键词链接次数较多而被优先抓取。
第六:注意网站内容更新频率
一般来说,网站更新很快,蜘蛛就会更快地抓取网站的内容。如果网站的内容很长时间都没有任何的更新,蜘蛛也会相应调整对网站的爬行频率。更新频率对新闻等网站来说很关键。因此,保持每天一定的更新数量,对吸引蜘蛛是非常重要的。
总之,影响网站内容和网页收录的因素有很多,今天笔者就从以上几点跟大家分享一下自己的过往经验,希望对大家有所帮助。