一、网站内部优化
Robot.txt使用方法详细说明及robot.txt问题汇总
(1)为什么设置Robots.txt?
在做好seo使用的过程中,我们应该告知百度搜索引擎什么网页页面关键什么网页页面不重要,关键的网页页面让蜘蛛开展抓取,不重要的网页开展屏蔽掉能够降低网络服务器的压力。
(2)一些普遍的难题和知识要点
蜘蛛在发觉一个网站的情况下,是抓取网址的Robots.txt文件(自然官方网上是这样讲的,有时还会发生不遵守的状况);
提议每一个网址都需要设定Robots.txt文件,假如你觉得网站上全部内容全是关键的,你能创建一个空的robots.txt文件;
(3)在robots.txt文件中设定sitmap
你能在robots.txt中加上网址的地形图,告知蜘蛛sitmap所属的详细地址。
(4)Robots.txt的次序
在蜘蛛协议书中,Disallow与Allow是有次序的,这是一个非常重要的难题,假如设定不正确可能会致使抓取不正确。
模块蜘蛛程序流程会依据个配对完成的Allow或Disallow行明确是不是浏览某一URL,一个事例能让你更清晰搞清楚:
User-agent:*2.Allow:/seojc/bbs3.Disallow:/seojc/这个情况下,蜘蛛/seojc/bbs目录能够正常的抓取,但/seojc/目录的文件没法抓取。根据这类方法能够容许蜘蛛浏览特殊目录里的一部分url。
大家互换下部位观察一下。
User-agent:*2.Disallow:/根目录下的文件夹/3.Allow:/seojc/bbs/seojc/目录发生内行,严禁抓取目录下的全部文件,那样第二行的Allow就失效,由于行中早已严禁抓取seojc目录下的全部文件,而bbs目录恰好坐落于seowhy目录下。因而配对失败。
(5)Robots.txt路径问题
在蜘蛛协议书中,Allow和Disallow后边可以跟二种途径方式,即连接、相对性连接。连接便是详细的URL方式,而相对性连接只对于根目录。这也是记牢。
(6)斜线难题
Disallow:/seojc表示严禁抓取seoic这一目录下的全部文件,如:seojc.1.html、seojc/rmjc.php都不允许抓取;
Disallow:/seojc/表明严禁抓取seojc这一目录下的文件,即容许抓取seojc.1.html,可是不允许抓取seojc/rmjc.php。