Robots.txt文件要如何正确设置

Robot.txt文件要如何正确设置,作为搜索引擎最先访问的目录,过长的robots文件也会影响蜘蛛的爬取速度,所以对于禁止搜索引擎的网页,可以适度的去使用noffollow标记,使其不对该网站传递权重.

想要正确写好网站的robots文件,首先则必须robots文件的进行基本的了解:
例如:robots文件中User-agent后面加上*号,则表示允许所有搜索引擎抓取收录网站,如果User-agent后面加的是Baiduspider,则表示的是只允许百度搜索引擎抓取网站,其它的搜索引擎蜘蛛不允许抓取。

Robot.txt文件
Robot.txt文件

一、robots.txt文件基础知识讲解

Disallow:这个函数后面加某个目录url地址则表示的意思是禁止搜索引擎抓取收录的页面,如果禁止全站抓取索引,则Disallow:后面不加任何东西,
Allow:这个函数后面加的数值表示的意思是允许搜索引擎访问索引的URL地址,这个数值可以是一条完整的URL路径地址,也可以是某些url目录地址的前缀,例如“Allow:/zhishi”,表示的是允许搜索引擎访问/zhish.html、/seozhishi.html,也可以是/zhish/123.html,网站其它的url地址既没有加Allow也没有加Disallow,那么这些url地址就是默认允许被访问的,所以Allow和Disallow一般都是搭配使用的,如果要实现允许搜索引擎访问一部分网页同时又要禁止访问其它所有URL的功能,那么我们可以使用通配符”*”and”$”:Baiduspider,”*”和”$”是用来来模糊匹配url地址的。
“*” 可以匹配0或多个任意字符;
“$” 则表示匹配行结束符。

第二:设置Robots.txt文件时应注意哪些事项?

1、robots.txt是搜索引擎进入网站第一个要检索的文件,所以过长过多的robots文件是会影响搜索蜘蛛检索的,因此建议对于要禁止搜索引擎抓取的页面,可以使用noffollow标签屏蔽抓取。
2、也许你有看到有的网站在robots.txt文件设置中,Disallow后面有的加的是一斜杠,而有的加的是两斜杠,例如Disallow; /a 与Disallow: /a/,他们之间有什么区别呢?下面大兵来给大家讲讲,Disallow; /a表示的是以a字母开头的所有网站目录和页面,而Disallow: /a/表示的是屏蔽/a/目录下所有的页面抓取收录, 一般我们我都是选择Disallow: /a/,因为Disallow: /a误杀的机率大,会造成屏蔽了一些不该屏蔽的页面。
3、Disallow和Allow是先后顺序之分的,搜索引擎会根据第一个匹配成功Allow与Disallow来确定首先访问哪个url页面。
4、已经是404删除的目录页面,大兵不建议用Robots.txt文件屏蔽搜索引擎,有的些站长删除了网站某些目录页面后,由于怕网站出现过多的404页面,因此使用Robots.txt文件进行屏蔽,告诉搜索引擎不要抓取这些目录页面,这样做真的合理吗?即使你屏蔽了这些目录页面,如果之前搜索引擎已经收录了这些目录页面,并没有从搜索引擎数据库中删除,那么其实这样做反而会影响网站的排名。
大兵建议网站404页面还是要整理出来作为死链接在站长后台提交给百度,正确的面对解决这些问题,而不是避开这些问题。
5、robots.txt文件中“*”和“$”,”$”表示的意思为匹配行结束符,”*”表示的意思为匹配多个任意字符。

原创文章,作者:大兵,如若转载,请注明出处:https://www.zhuzhouren.cn/seojishu/677.html

发表评论

登录后才能评论

评论列表(1条)

联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
分享本页
返回顶部