wordpress网站如何建立robots.txt文件

wordpress网站如何建立robots.txt文件,robots.txt文件中的“Disallow”命令与页面头部的元描述noindex 的作用不相同,使用robots.txt禁止规则阻止您的网站页面进行搜索索引,理想的robots.txt不应该禁止任何东西.

WordPress博客程序robots.txt文件中的“Disallow”命令与“noindex”作用是完全不相同的,robots.txt文件可以阻止搜索引擎抓取网站页面,但不一定可以阻止网站页面索引,但将图片和文档素材排除在外。

如何编写和优化网站Robots.txt

所以很多程序不再使用robots.txt文件规则禁止网站页面进行搜索索引,而是使用noindex标记,有助于搜索引擎可以正确分发你的网站内容。

建议保持robots.txt干净 ,不要阻止包括以下任何内容:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Disallow: /wp-includes/

WordPress官方也表示说robots.txt文件不应该禁止网站被搜索索引,/wp-content/plugins/和/wp-includes/目录中包含网站主题和插件所需要显示的图像、js文件及css文件,阻止这些目录被搜索索引意味着主题和插件图片、JS文件、CSS文件将被阻止,导致不能正常显示,使得搜索引擎将难以分析和理解你网站的内容,所以,如果你的网站程序为WordPress,大兵建议不要阻止/wp-content/themes/和/wp-includes/程序目录。
简单地讲,虽然禁止WordPress上传和插件目录,可以提高网站的安全性,防止网站被黑客攻击,但实际的作用却是弊大于利的,特别是在网站优化方面。
以上就是大兵建议删除robots.txt文件中禁止搜索索引规则的原因,同时大兵也建议大家卸载WordPress程序的不安全插件。

建议包含Sitemap文件

大兵强烈建议大家手动将XML站点地图文件提交给搜索引擎站长平台,同时也建议大家将网站XML地图文件添加到robots.txt文件中,可以帮助搜索引擎快速抓取网站页面。

Sitemap: https://www.zhuzhouren.cn/sitemap.xml
Sitemap: https://www.zhuzhouren.cn/sitemap.html

Robots.txt的其他规则

为了WordPress网站安全,大兵建议大家阻止WordPress程序的readme.html、licence.txt和wp-config-sample.php目录文件的抓取,避免未授权人员查看你WordPress网站程序版本。

User-agent: *
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php

还可使用robots.txt文件针对不同搜索引擎设置出不同robots规则,如下所示:

# block Googlebot from crawling the entire website
User-agent: Googlebot
Disallow: /
# block Bingbot from crawling refer directory
User-agent: Bingbot
Disallow: /refer/

禁止搜索蜘蛛抓取WordPress网站页面,大兵建议大家可以加入以下robots规则。

User-agent: *
Disallow: /?s=
Disallow: /search/

host&Crawl-delay是您考虑使用其它的robots.txt文件指令,虽然这个用的比较少,第一指令的意思是允许你指定网站首选域名(www或非www域名)。

User-agent: *
#we prefer non-www domain
host: yourdomain.com

以下robots.txt文件规则是用于告诉搜索蜘蛛在每次抓取网站页面之前需待几秒钟。

User-agent: *
#please wait for 8 seconds before the next crawl
crawl-delay: 8

完整的WordPress网站robots.txt文件,可参考:

根据以上的讲解,我们可将网站robots.txt文件内容编写如下:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /refer/
Disallow: /?s=
Disallow: /search/
#we prefer non-www domain(填入你的网站域名首选域名,一般带www,请根据实际情况填写,部分搜索引擎不支持此规则,慎重添加)
host: yourdomain.com
#please wait for 8 seconds before the next crawl(填入你希望爬虫爬取页面的延迟秒数)
crawl-delay: 8
Sitemap: https://www.zhuzhouren.cn/sitemap.xml

注意:以上WordPress网站完整的robots.txt文件规则仅供参考,大家可以根据自己网站实际情况再完善编写,User-agent: *规则可适用于所有搜索引擎,Allow: 规则代表的意思是允许搜索蜘蛛抓取,Disallow:则代表不允许搜索蜘蛛抓取,host:规则用于指定网站首选域名,crawl-delay:规则则是用于规定搜索蜘蛛抓取的时间间隔,Sitemap:用于指定网站地图文件。

本文发布于大兵SEO博客文章,作者:大兵,如若转载,请注明出处:https://www.zhuzhouren.cn/jianzhanjiaocheng/wordpress/4596.html,否则,禁止转载,谢谢配合!

发表评论

登录后才能评论
联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
分享本页
返回顶部