
SEO基础知识(五):屏蔽搜索引擎爬虫与限制搜索结果展示
目录
下面分别对不同程度的搜索引擎爬虫及展示限制进行说明。
采用”君子协议”来进行屏蔽
配置robots.txt文件
robots.txt是一个包含有规则说明的纯文本文件,文件中内容使用特定语法规则写明哪些搜索引擎不应访问网站的哪些页面或可以访问网站的哪些页面,它主要用于限制搜索引擎爬虫在网站中的抓取范围。
这个文件一般默认是没有的,当你需要对爬虫访问进行限制时,可以自行创建该文件,并将文件放置于网站根目录下,使其通过URL (www.example.com/robots.txt)能访问到。
即便在robots.txt中禁止了搜索引擎访问的网页,这些被禁止访问的网页仍然可能会被搜索引擎收录并呈现在搜索结果中。因为一个被robots.txt文件中规则禁止访问的网页,该网页链接如果在其它网站上有露出,这样搜索引擎在不访问该网页的情况下,仍然可能会收录该条链接并搜索引擎中展示锚文相关信息。
目前,robots.txt文件协议是被大多主流搜索引擎(谷歌,Bing,百度等)所遵循的,但并不是所有的爬虫都会遵循robots.txt文件内容中的规则,所以robots.txt文件只能用来“防君子”。如果想要避免非主流引擎的爬虫或是恶意抓取,还需要使用其它方法。
一个最简单的robots.txt版本示例:
说明:
User-agent: * 表示适用于所有搜索引擎。
Disallow: 为空,表示允许抓取网站的所有内容,没有任何限制。
上面是一个最基础的版本,适用于不想对搜索引擎访问进行任何限制的情况。如果你希望稍后添加特定规则,也可以在此基础上进行扩展。下面是一个略复杂的robots.txt文件内容示例:
说明:
User-agent: *:适用于所有搜索引擎。
Disallow: 后面跟随路径表示禁止抓取该路径。
Allow: 允许特定搜索引擎抓取指定的路径或文件类型。
Sitemap: 提供你的网站地图位置,帮助搜索引擎更好地索引网站内容。
临时移除网站页面在搜索结果中的展示


另外,对于谷歌搜索引擎而言,该移除功能还可以用来更新搜索结果中网页的展示信息,即如果更新网页信息后,如果想要更快的将更新信息显示到已有的搜索结果中,可以使用这功能。如下图示:

使用站长后台URL移除需要注意:
事项1:该功能并不是删除该页面中搜索引擎名的收录数据,仅是移除该页面在搜索结果中的展示。 对于Bing, 移除申请提交后仅保留90天,即90天后如果页面仍然能被正常访问,依然会重新收录并展示(当然你也可以继续提交移除申请)。而对于谷歌搜索引擎的该移除功能,移除有效期将保持6个月,如果6个月后该页面依然能正常访问,也可能被重新收录并展示。
事项2:谷歌、Bing的该移除功能均支持批量移除(谷歌使用URL前缀为标识,Bing使用URl目录为标识),在提交前请一定要认真确认是否要进行批量移除,以免误操作造成大面积页面的排名消失。
使用noindex
使用noindex,可以禁止搜索引擎收录该页面。页面meta配置了“noindex”后,搜索引擎爬虫抓取到该页面,会在之后的更新中将该页面的收录数据移除。
为页面配置noindex有两种方式:
1)在页面meta标签中添加“noindex”标签。
更严格的屏蔽操作
移除搜索引擎结果中问题页面的展现
1)图片或内容侵权
2)涉及个人信息隐私
3)未成年或法律禁止内容
4)其它涉及谷歌禁止展示的内容
方法1:
可以在谷歌搜索结果列表中,直接对某项搜索结果进行反馈

以上是关于如何屏蔽爬虫及限制搜索结果展示的全部内容。希望能对你有帮助!
本文由二项树SEO原创,转载请注明出处

你好,我是Andy,Binomialtree站长
超12年SEO实战经验,曾在多家国内中大型网站负责SEO自然流量渠道增涨。2020年开始专注谷歌搜索引擎优化,为多家B端企业一年内实现自然流量增涨目标。如果您需要专业SEO优化,欢迎联系我们。










