SEO基础知识(五):屏蔽搜索引擎爬虫与限制搜索结果展示

SEO基础知识(五):屏蔽搜索引擎爬虫与限制搜索结果展示

目录

在进行谷歌SEO优化的时,SEO不仅需要让有效页面能够被快速抓取与收录,很多时候也需要限制搜索引擎对某些页面的抓取或收录,或者需要移除搜索结果中的某个展示项。
这些情况一般包括:
1)一些企业私有数据,不想在搜索引擎中能被公开搜索
2)因URL参数或业务需求而产生的内容重复网页,不想要被搜索引擎抓取收录
3)正确建设中的网页,暂时不想被爬虫抓取
4)一些与SEO无关的垃圾页面,但抓取量很大的情况
5)某些搜索引擎或爬虫过度抓取网站内容,访问频率过高,导致服务器带宽压力过大的情况
6)搜索结果中有侵权、违法或其它不符合谷歌信息展示要求的相关内容的情况

下面分别对不同程度的搜索引擎爬虫及展示限制进行说明。

采用”君子协议”来进行屏蔽

对于谷歌、bing这样的正规主流搜索引擎,要屏蔽网站页面在结果中展示或移除收录,可以采用以下几种常规方式。

配置robots.txt文件

robots.txt是一个包含有规则说明的纯文本文件,文件中内容使用特定语法规则写明哪些搜索引擎不应访问网站的哪些页面或可以访问网站的哪些页面,它主要用于限制搜索引擎爬虫在网站中的抓取范围。
这个文件一般默认是没有的,当你需要对爬虫访问进行限制时,可以自行创建该文件,并将文件放置于网站根目录下,使其通过URL (www.example.com/robots.txt)能访问到。
即便在robots.txt中禁止了搜索引擎访问的网页,这些被禁止访问的网页仍然可能会被搜索引擎收录并呈现在搜索结果中。因为一个被robots.txt文件中规则禁止访问的网页,该网页链接如果在其它网站上有露出,这样搜索引擎在不访问该网页的情况下,仍然可能会收录该条链接并搜索引擎中展示锚文相关信息。
目前,robots.txt文件协议是被大多主流搜索引擎(谷歌,Bing,百度等)所遵循的,但并不是所有的爬虫都会遵循robots.txt文件内容中的规则,所以robots.txt文件只能用来“防君子”。如果想要避免非主流引擎的爬虫或是恶意抓取,还需要使用其它方法。
一个最简单的robots.txt版本示例:

Copy to Clipboard

说明:
User-agent: * 表示适用于所有搜索引擎。
Disallow: 为空,表示允许抓取网站的所有内容,没有任何限制。

上面是一个最基础的版本,适用于不想对搜索引擎访问进行任何限制的情况。如果你希望稍后添加特定规则,也可以在此基础上进行扩展。下面是一个略复杂的robots.txt文件内容示例:

Copy to Clipboard

说明:
User-agent: *:适用于所有搜索引擎。
Disallow: 后面跟随路径表示禁止抓取该路径。
Allow: 允许特定搜索引擎抓取指定的路径或文件类型。
Sitemap: 提供你的网站地图位置,帮助搜索引擎更好地索引网站内容。

配置robots.txt文件时,一些值得注意的点:
1、不同的爬虫可能会以不同方式解析robots.txt文件中的内容。想要了解robots.txt内容撰写规则及语法详情,可查阅谷歌官方文档:https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt
2、robots.txt文件中的内容是区别大小写的。
3、robots.txt文件一定要以”robots.txt”来命名,并且将其放置于网站访问根目录下,即使其通过URL (www.example.com/robots.txt)能访问到,才能生效。
4、robots.txt文件是以子域名为单位进行限制的,即同一主域名下的不同子域名可以配置不同的robots内容。
5、robots.txt文件一定要使用UTF-8编码的纯文本文件,不然可能会导致搜索引擎爬虫无法正常识别文件内容而导致内容失效。

临时移除网站页面在搜索结果中的展示

针对已经被搜索引擎收录,在搜索结果有展示的页面,可以通过以下两种方式暂时移动在搜索结果中的展示。
1、站长后台提交移除请求
谷歌、Bing这两个最大的搜索引擎站长后台都是支持移出特定网页在搜索结果中的展示。
功能入口如下图所示,登录谷歌/bing站长工具,绑定网站后,可在后台对想要移除收录的页面进行提交:
谷歌站长工具-移除URL功能示意图
谷歌站长后台,移除URL功能
Bing站长后台——URL移除功能
Bing站长后台,移除URL功能

另外,对于谷歌搜索引擎而言,该移除功能还可以用来更新搜索结果中网页的展示信息,即如果更新网页信息后,如果想要更快的将更新信息显示到已有的搜索结果中,可以使用这功能。如下图示:

谷歌站长后台-申请清除展示卡片
谷歌站长后台,提交更新展示卡片信息申请

使用站长后台URL移除需要注意:
事项1:该功能并不是删除该页面中搜索引擎名的收录数据,仅是移除该页面在搜索结果中的展示。 对于Bing, 移除申请提交后仅保留90天,即90天后如果页面仍然能被正常访问,依然会重新收录并展示(当然你也可以继续提交移除申请)。而对于谷歌搜索引擎的该移除功能,移除有效期将保持6个月,如果6个月后该页面依然能正常访问,也可能被重新收录并展示。
事项2:谷歌、Bing的该移除功能均支持批量移除(谷歌使用URL前缀为标识,Bing使用URl目录为标识),在提交前请一定要认真确认是否要进行批量移除,以免误操作造成大面积页面的排名消失。

使用noindex

使用noindex,可以禁止搜索引擎收录该页面。页面meta配置了“noindex”后,搜索引擎爬虫抓取到该页面,会在之后的更新中将该页面的收录数据移除。

为页面配置noindex有两种方式:
1)在页面meta标签中添加“noindex”标签。

Copy to Clipboard
Copy to Clipboard
2)在页面http响应header头中添加”noindex”标头
该方法需要技术人在网站服务器中进行配置,配置的响应标头格式为:
Copy to Clipboard
要使noindex标签生效,需要注意:
配置noindex的页面不能在robots.txt禁止访问范围内,因为如果禁止了搜索引擎爬虫访问,爬虫就无法解析出该标签,也就无法生效。

更严格的屏蔽操作

要屏蔽并不遵循robots.txt文件的爬虫,就需要采取一些更严格的访问限制。主要通过以下两种方式实现:
1、对页面设置访问密码或要求登录后才能访问
对于设置访问密码或登录后才可访问的页面内容,无论是搜索引擎还是恶意爬虫都是无法抓取到的。
这样做,虽然爬虫无法获取到页面内容,但并不能限制爬虫的抓取,所以最好将这些需要密码或登录后才能访问的页面加入到robots.txt文件禁止访问中,以减少搜索引擎对这类无效页面的抓取量,节省服务器带宽资源。
2、服务器配置限制爬虫访问
设置密码只能限制爬虫抓取内容,但不能限制爬虫抓取量,针对大量涌入的爬虫,为减少服务器负荷,有时候就需要通过服务配置来限制爬虫的抓取频率。
这种频率限制通常是通常Useragent识别或IP来标记爬虫,对每一次被识别出的爬虫访问作出针对性的响应(返回50X、403等状态码,或返回提示性空短页面)。
配置服务器限制爬虫访问的注意事项:
这种操作最好只针对不影响SEO的爬虫,千万不要用于谷歌、bing这类主流搜索引擎爬虫。如果确定主流搜索引擎爬虫抓取量过大造成了服务器带宽压力,可通过增加服务器带宽解决,另外像Bing站长后台也提供了抓取时段设置,一定程度上缓解因爬虫抓取产生的压力。

移除搜索引擎结果中问题页面的展现

上面所有提及的限制操作都是针对自己网站页面。那么有没有办法从一定程度上限制别人网站在搜索引擎搜索结果中的展示呢?
对于谷歌搜索引擎,针对以下情况是有移除搜索展示的反馈机制的:

1)图片或内容侵权
2)涉及个人信息隐私
3)未成年或法律禁止内容
4)其它涉及谷歌禁止展示的内容

方法1:

可以在谷歌搜索结果列表中,直接对某项搜索结果进行反馈

方法2
可以通过谷歌专门的内容反馈入口进行提交(https://support.google.com/legal/troubleshooter/1114905
注意事项:
该方法只有在网页确实含有不合规或违反谷歌信息展示要求内容时才有效,如果想滥用此方法进行恶意反馈或举报,是没有效果的哦。

以上是关于如何屏蔽爬虫及限制搜索结果展示的全部内容。希望能对你有帮助!

这篇文章对您有帮助吗?

平均评分 5 / 5. 投票数: 1

本文由二项树SEO原创,转载请注明出处

SEO Expert

你好,我是Andy,Binomialtree站长

超12年SEO实战经验,曾在多家国内中大型网站负责SEO自然流量渠道增涨。2020年开始专注谷歌搜索引擎优化,为多家B端企业一年内实现自然流量增涨目标。如果您需要专业SEO优化,欢迎联系我们