什么是可抓取性
想要在搜索引擎中获得排名就需要对网站进行SEO优化,对于大多数人而言,听起来很困难
其实SEO整体优化过程中非常容易,只需一个SEO 插件就能解决网站技术SEO的相关问题
如果你想让你的网站发挥作用,了解一些基本的SEO知识还是必不可少的
在SEO优化的过程中,最重要的是:网站的可抓取性
爬虫
在<搜索引擎是如何工作的>这篇文章中,我们了解了搜索引擎由爬虫、索引、算法组成
爬虫也叫:蜘蛛、机器人、robot、spider、crawler等,主要作用是跟踪链接
当爬虫发现你的网站时,它会读取你网站的文章和页面,并将内容添加到一个巨大的数据库中,这个数据库被成为索引
当爬虫发现你网站上的内容进行更新时,例如(新文章版本或修订版本),索引也会跟随更新
可抓取性
什么是可抓取性呢?可抓取性与Google抓取网站的可能性有关
可抓取性可以通过一些方式对抓取进行限制
您可以组织爬虫抓取和索引你网站上或网站上的某些页面,相当于告诉爬虫:不要来这里
当你这样设置后,你网站及相关页面都不会出现在搜索结果中
为什么要阻止爬虫抓取某些页面
作为网站而言,网站上的内容或页面被抓取和索引应该是每个人都希望的
但,有些页面是具有特殊性和目的性的,该页面并不是为了去获得排名,也不是带来流量
你希望你后台的管理页面和登录页面被谷歌收录吗?答案是:不希望
人们也不希望访问一些特殊页面,例如:感谢订阅,除了感谢客户外,别无他用
是什么原因导致 Google 无法抓取网站及内容
让我们讨论一下防止Google 抓取或索引网站的3种方法
1. robots.txt文件
使用WordPress构建的网站上会有一个名为robots.txt的文件,txt结尾意味着这是一个文本文件
robots.txt的作用是告诉Google 不要抓取网站的某个页面或内容
在搜索引擎爬虫抓取网站时,它会优先访问网站的robots文件,robots文件中的内容告诉爬虫允许访问网站上的哪些URL
因此,如果我们网站上有些页面不想让爬虫抓取,可以在robots中告诉爬虫哪些地方不允许访问
大多数robots.txt文件所在的URL都是相同的:域名/robots.txt
硕贤科技的robots.txt也是如此:https://www.qingheseo.com/robots.txt
我们也可以在windows系统中打开记事本软件,创建我们的robots文件,然后上传到我们的网站根目录中,这样,就完成了!
robots 不能禁止搜索引擎在搜索结果页面中显示URL,也就是说,在某个页面上阻止爬虫抓取并不意味着该页面URL不会出现在搜索结果页面中
如果搜索引擎爬虫发现了有很多站外链接指向该URL,即便你在robots中禁止抓取该页面,由于站外链接的影响力,搜索引擎依旧会收录它,只是不知道页面上有什么内容而已
2. HTTP 标头
我们也可以使用HTTP标头阻止搜索引擎抓取和索引页面
HTTP 标头包含一个状态码,用来表示服务器可以或不可以允许浏览器访问请求时发送的信息
如果状态码显示页面不存在,搜索引擎就不会抓取到该页面
有几种状态码,含义各不同
例如:状态码200,表示页面已经存在,google可以访问页面并进行抓取
而状态码为307时,则表示该页面已经重定向到另外一个URL上,Google不会抓取当前URL,而是抓取重定向后的URL
3. robots 元标记
在网页上使用 robots 元标记,我们可以使用 robots 元标记来阻止Google 索引页面
谷歌实际上还是会抓取页面,不过,我们可以禁止谷歌索引该页面
robots 元标记是一段简短的呢代码,它告诉Google 什么可以抓什么不可以抓
robots 元标记的值很多,但本文只讨论最基本的
想要阻止谷歌把某个页面添加到索引中,我们可以在该页面上使用noindex的值
这样,谷歌就会抓取该页面,但不会将其添加到索引中,与noindex值相反的值是index
另一个有用的 robots meta标签是 nofollow标签,当爬虫跟踪该页面时,这时nofollow标签会告诉爬虫不要跟踪该页面上的任何链接
与Nofollow 值相反的是floow值,我们无需手动设置index和follow值,因为这些是默认值
如果我们想要禁止爬虫索引和跟踪页面,则需要在该页面的<head>头部标签中输入以下代码:
<meta name=”robots” content=”noindex, nofollow”>
这个意思是,插入了一个robots标签,该标签的值为noindex 不索引 或nofollow 不追踪相关链接
Yoast SEO 插件提供的可抓取性功能
如果您没有技术,那么对于网页的可抓取性控制就会稍弱,并且设置相关步骤时会比较困难
Yoast SEO插件提供了该页面的可抓取性开关
为不同类型的内容添加 noindex 标签功能
Yoast 插件允许我们决定是否要在搜索结果中显示网站的每种不同类型
该设置在 搜索外观设置下的内容类型选项卡中
对于每种类型的内容,Yoast 提供了一个开关,表示是否希望该类型内容出现在搜索结果页面中
如果选择否,Yoast 就会在这些页面上添加Noindex robots 的元标记
在搜索外观设置中,我们可以对帖子、页面、类别、标签、存档以及任何自定义帖子和自定义分类类型设置可抓取性
为特定的文章和页面添加 noindex标签
假如我们已经通过搜索外观设置让搜索引擎在搜索结果页面中显示所有的帖子
但有一个帖子,我们不想让它出现在 Google 中
假如:这是一篇旧文章,Yoast 允许你对指定文章不进行索引
在yoast 提供的选项中,我们决定是否让该文章出现在搜索结果中
选择否,yoast则添加阻止爬虫的标签
编辑robots.txt文件
如果我们想自定义google的抓取内容限制,我们还能在yoast seo插件中修改网站的robots.txt 文件
编辑robots.txt可以阻止Google 不抓取该页面,但不能保证该页面被索引
Google Search Console 谷歌搜索控制台
可抓取方面,Yoast SEO插件的一个功能是与Google Serach Console连接起来
在GSC页面,我们可以连接到Google search console,检查谷歌在抓取网站时遇到的抓取错误
该方法适用于检查个别页面无法被抓取或抓取失败的原因。通常有2种基本类型的错误:
1. 影响到整个网站的网站错误
例如:网站服务器与爬虫的连接问题,以及获取robots.txt文件的问题
2.URL错误
URL错误有很多,默认情况下是Google抓取了错误的URL,并且没有成功抓取到该URL上的页面内容
或是连接到了服务器,发出请求访问的数据包时,返回错误的状态码或正确的URL,可访问出先了各种错误
解决以上错误能让Google更好的抓取您的网站,从而对排名产生积极的影响
总结
可抓取性是指搜索引擎如何抓取您的网站以及您如何限制它们
我们可以通过robots文件、Http状态码以及robots 元标记阻止爬虫
robots:通过文本文件,爬虫程序会被告知网站上的哪些页面可以访问,哪些页面不可以访问。
HTTP标头:它包含一个状态代码,这是服务器在浏览器发出的请求能够或无法完成时发送的消息。如果此状态代码表示页面不存在,搜索引擎将不会抓取该页面。
robots 元标记:一小段代码告诉搜索引擎它能做什么和不能做什么。你可以告诉搜索引擎索引或不索引某个页面,以及跟踪或不跟踪特定页面上的链接。
评论留言