热门关键词

robots.txt是什么-制作Robots.txt的注意事项

robots.txt是什么

robots.txt是搜索引擎收录网站页面的一个许可文件,搜索引擎的爬虫来到网站,先查看robots.txt文件,查看哪些应该抓取哪些内容是不抓取的

robots.txt是一个纯文本文件,位于网站的根目录下。它的主要功能是告诉搜索引擎爬虫哪些页面或文件可以抓取,哪些不可以。具体来说:

  1. 目的:
    • 规范搜索引擎爬虫的抓取行为
    • 防止网站中的敏感内容被索引
    • 控制爬虫的访问频率
  2. 工作原理:
    当爬虫访问一个网站时,它会首先查看该站点的robots.txt文件,然后根据文件中的规则决定如何爬取网站内容。
  3. 重要性:
    • 优化网站资源使用
    • 保护隐私和敏感信息
    • 提高搜索引擎抓取效率
  4. 局限性:
    robots.txt只是一种建议性协议,并不是所有爬虫都会遵守这些规则。

制作Robots.txt的注意事项

创建和维护robots.txt文件时,需要注意以下几点:

  1. robots.txt文件位置和命名:
    • 必须放在网站的根目录下
    • 文件名必须是”robots.txt”(全小写)
  2. robots.txt使用正确的语法:
    • User-agent: 指定规则适用的爬虫
    • Disallow: 指定不允许访问的目录或文件
    • Allow: 指定允许访问的目录或文件(在某些情况下使用)
  3. 考虑所有搜索引擎:
    不同的搜索引擎可能需要不同的规则。确保涵盖主要的搜索引擎爬虫。
    所有的搜索引擎用星号表示
  4. 不要在robots.txt过度限制爬虫:
    过度限制可能会影响网站的SEO表现。只阻止真正不想被抓取的内容即可
  5. robots文件定期更新:
    随着网站结构的变化,及时更新robots.txt文件。
  6. robots文件使用绝对路径:
    在指定Disallow和Allow规则时,使用绝对路径以避免歧义。
  7. 小心使用通配符:
    “*”和”$”等通配符可以使规则更灵活,但也可能导致意外的发生。
  8. robots文件不要包含敏感信息在其中:
    robots.txt是公开可访问的,不要在其中包含密码或其他敏感信息。
  9. 测试你的robots文件
    使用搜索引擎提供的工具(如百度站长的robots.txt测试工具)来验证你的规则是否正确。
  10. robots文件中指定Sitemap网站地图的位置:
    在robots.txt中指定Sitemap的位置,有助于搜索引擎更好地理解你的网站结构。
  11. 至少在robots文件中屏蔽一个
    可以屏蔽搜索结果页面或404页面
  12. robots文件生效时间
    robots文件生效时间大约是1个月内生效
  13. 什么类型的网址应该在robots文件中被阻止掉
    例如:网站后台地址、图片地址、下载文件地址、发生错误的链接地址

robots.txt文件示例

第一行表示该规则对所有爬虫程序生效,所以user-agent的值是*

第二行Disallow: /wp-admin/,表示不允许抓取wp-amdin这个路径,即使是wp-admin的下一层级也不行

第三行:Allow: /wp-admin/admin-ajax.php,允许抓取这个文件,是因为admin-ajax.php是用来处理来自前端和后端的 AJAX 请求,是 WordPress 开发中实现动态交互的关键组件

第四行:放入网站的站点地图-sitemap的URL信息,可以引导搜索引擎爬虫去我们的网站地图

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.qingheseo.com/wp-sitemap.xml

总结

robots文件是一个简单且强大的工具,它可以帮助网站站长控制搜索引擎爬虫的抓取规则。正确使用robots.txt可以优化网站的抓取和索引过程,提高搜索引擎SEO优化的效果。

然而,创建和维护一个有效的robots.txt文件需要仔细考虑和定期更新。

通过遵循上述注意事项,你可以确保你的robots文件能保护不想被索引的内容,又能让搜索引擎有效地爬取和索引网站上的重要页面。

评论
收藏
微海报
分享

评论留言