wordpress网站如何建立robots.txt文件-大兵SEO博客

WordPress博客程序robots.txt文件中的“Disallow”命令与“noindex”作用是完全不相同的，robots.txt文件可以阻止搜索引擎抓取网站页面，但不一定可以阻止网站页面索引，但将图片和文档素材排除在外。

所以很多程序不再使用robots.txt文件规则禁止网站页面进行搜索索引，而是使用noindex标记，有助于搜索引擎可以正确分发你的网站内容。

建议保持robots.txt干净，不要阻止包括以下任何内容：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Disallow: /wp-includes/

WordPress官方也表示说robots.txt文件不应该禁止网站被搜索索引，/wp-content/plugins/和/wp-includes/目录中包含网站主题和插件所需要显示的图像、js文件及css文件，阻止这些目录被搜索索引意味着主题和插件图片、JS文件、CSS文件将被阻止，导致不能正常显示，使得搜索引擎将难以分析和理解你网站的内容，所以，如果你的网站程序为WordPress，大兵建议不要阻止/wp-content/themes/和/wp-includes/程序目录。
简单地讲，虽然禁止WordPress上传和插件目录，可以提高网站的安全性，防止网站被黑客攻击，但实际的作用却是弊大于利的，特别是在网站优化方面。
以上就是大兵建议删除robots.txt文件中禁止搜索索引规则的原因，同时大兵也建议大家卸载WordPress程序的不安全插件。

建议包含Sitemap文件

大兵强烈建议大家手动将XML站点地图文件提交给搜索引擎站长平台，同时也建议大家将网站XML地图文件添加到robots.txt文件中，可以帮助搜索引擎快速抓取网站页面。

Sitemap: https://www.zhuzhouren.cn/sitemap.xml
Sitemap: https://www.zhuzhouren.cn/sitemap.html

Robots.txt的其他规则

为了WordPress网站安全，大兵建议大家阻止WordPress程序的readme.html、licence.txt和wp-config-sample.php目录文件的抓取，避免未授权人员查看你WordPress网站程序版本。

User-agent: *
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php

还可使用robots.txt文件针对不同搜索引擎设置出不同robots规则，如下所示：

# block Googlebot from crawling the entire website
User-agent: Googlebot
Disallow: /
# block Bingbot from crawling refer directory
User-agent: Bingbot
Disallow: /refer/

禁止搜索蜘蛛抓取WordPress网站页面，大兵建议大家可以加入以下robots规则。

User-agent: *
Disallow: /?s=
Disallow: /search/

host＆Crawl-delay是您考虑使用其它的robots.txt文件指令，虽然这个用的比较少，第一指令的意思是允许你指定网站首选域名（www或非www域名）。

User-agent: *
#we prefer non-www domain
host: yourdomain.com

以下robots.txt文件规则是用于告诉搜索蜘蛛在每次抓取网站页面之前需待几秒钟。

User-agent: *
#please wait for 8 seconds before the next crawl
crawl-delay: 8

完整的WordPress网站robots.txt文件，可参考：

根据以上的讲解，我们可将网站robots.txt文件内容编写如下：

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /refer/
Disallow: /?s=
Disallow: /search/
#we prefer non-www domain（填入你的网站域名首选域名，一般带www，请根据实际情况填写，部分搜索引擎不支持此规则，慎重添加）
host: yourdomain.com
#please wait for 8 seconds before the next crawl（填入你希望爬虫爬取页面的延迟秒数）
crawl-delay: 8
Sitemap: https://www.zhuzhouren.cn/sitemap.xml

注意：以上WordPress网站完整的robots.txt文件规则仅供参考，大家可以根据自己网站实际情况再完善编写，User-agent: *规则可适用于所有搜索引擎，Allow: 规则代表的意思是允许搜索蜘蛛抓取，Disallow:则代表不允许搜索蜘蛛抓取，host:规则用于指定网站首选域名，crawl-delay:规则则是用于规定搜索蜘蛛抓取的时间间隔，Sitemap:用于指定网站地图文件。

免责声明：本文所有图片、视频、音频等资料均来自互联网，不代表本站赞同其观点，内容仅提供用户参考，若因此产生任何纠纷，本站概不负责，如有侵权联系本站删除！邮箱:452315957@qq.com