SEO基石知识(四):了解搜索引擎爬虫及User agent

SEO基石知识(四):了解搜索引擎爬虫及User agent

什么是搜索引擎爬虫?

搜索引擎爬虫就是搜索引擎用来从互联网上下载内容的程序。这个程序会自动化全天候运行,用于抓取整个互联网上的信息。如果将互联网比作是一张网的话,那每一个网页即是这张网上的一个节点,而连接这每一个节点的路径即是网页之间的超链接。搜索引擎爬虫通过网页之间的超链接不断地去下载这些网页内容。

搜索引擎爬虫能下载网络上的哪些内容?

搜索引擎及主流AI工具的爬虫原则上只能抓取互联网上公开的内容且Robots协议所允许的内容。
如果网页上的内容需要登录后才能访问或者被robots禁止访问,搜索引擎爬虫可能依然会抓取,但一般情况是不支收录的,就算收录也会在一段时间后删除掉。

什么是搜索引擎爬虫的User agent?

搜索引擎爬虫的User Agent 是指搜索引擎的爬虫在访问网站时,所携带的一个标识信息。这个信息包含了爬虫的名称、版本、操作系统等信息,用来告诉网站服务器它是一个搜索引擎的爬虫,而不是普通的用户浏览器。
简单来说,User Agent 就是爬虫“自我介绍”的方式,我们可以通过User Agent特征过滤出对网页的访问请求是来自搜索引擎还是来自普通用户。根据这个信息,网站可以决定是否允许爬虫访问某些页面,或者采取一些针对性的优化措施。
例如,Googlebot是Google的爬虫,User Agent可能会像这样:
Googlebot/2.1 (+http://www.google.com/bot.html)

这段信息的含义是:Googlebot是Google的爬虫,版本号是2.1,后面还有一个链接,指向了Google爬虫的说明页面。通过User Agent,网站可以识别爬虫,决定是否允许它抓取网站内容。

了解爬虫User Agent有什么用?

User Agent作为爬虫访问网站的身份信息标识,它主要有以下几方面用途。
1、根据User Agent,可以从服务器访问日志中过滤出对应爬虫的抓取记录,用于SEO或技术人员对爬虫抓取行为进行分析,包括抓取数量,抓取频率,抓取页面分布,抓取状态等信息,然后根据抓取统计信息进行页面调整或实施相应优化措施。
2、用于Robots协议,可针对相应爬虫的User Agent添加robots规则,用于指定哪些页面是允许爬虫抓取,哪些页面禁止爬虫抓取收录。
3、同样也是用于控制爬虫在网站上的抓取行为(允许或禁止),但这种方式是在服务器端进行配置,例如用来限制爬虫抓取频率,控制针对搜索引擎爬虫的页面渲染方式等。

搜索引擎爬虫的类型

搜索引擎为了更高效地抓取互联网上的内容,爬虫可能按平台、功能分为不同的类型。
对于搜索引擎的爬虫,按终端分类为PC端爬虫、移动端爬虫,按抓取文件的类型可分为主爬虫、图片爬虫、视频爬虫、新闻爬虫等。

主流搜索引擎爬虫User Agent

搜索引擎市场份额一文中,我们介绍了全球主流搜索引擎( Google,Bing,YANDEX,Yahoo!,DuckDuckGo,Naver,CocCoc,Ecosia,seznam,Qwant ),下面是这搜索引擎爬虫对应User Agent信息.

Google

爬虫类型User Agent适用范围
Web CrawlingGooglebot/2.1 (+http://www.google.com/bot.html)Desktop通用网页抓取
Mobile CrawlingGooglebot-Mobile/2.1 (+http://www.google.com/bot.html)Mobile移动端网页抓取
Image CrawlingGooglebot-Image/1.0Desktop图像抓取
Video CrawlingGooglebot-Video/1.0Desktop视频抓取
News CrawlingGooglebot-News/1.0Desktop新闻内容抓取

Bing

爬虫类型User Agent适用范围
Web CrawlingBingbot/2.0 (+http://www.bing.com/bingbot.htm)Desktop通用网页抓取
Image CrawlingBingbot-Image/2.0Desktop图像抓取
News CrawlingBingbot-News/2.0Desktop新闻内容抓取

Yandex

爬虫类型User Agent适用范围
Web CrawlingYandexBot/3.0 (https://yandex.com/bots)Desktop通用网页抓取
Image CrawlingYandexImages/3.0Desktop图像抓取

Yahoo!

爬虫类型User Agent适用范围
Web CrawlingMozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)Desktop通用网页抓取

DuckDuckCo

爬虫类型User Agent适用范围
Web Crawling
DuckDuckBot/1.0; (+http://duckduckgo.com)
Desktop通用网页抓取

Naver

爬虫类型User Agent适用范围
Web Crawling
NaverBot/1.0 (+http://help.naver.com/robots)
Desktop通用网页抓取

CocCoc

爬虫类型User Agent适用范围
Web Crawling
Mozilla/5.0 (compatible; CocCocBot/2.0; +http://www.coccoc.com/bot)
Desktop通用网页抓取

Ecosia

爬虫类型User Agent适用范围
Web Crawling
EcosiaBot/1.0 (+http://www.ecosia.org)
Desktop通用网页抓取

Seznam

爬虫类型User Agent适用范围
Web Crawling
SeznamBot/3.0 (+http://help.seznam.cz/cz/robot/)
Desktop通用网页抓取

Qwant

爬虫类型User Agent适用范围
Web Crawling
QwantBot/2.0 (+https://www.qwant.com/robots/)
Desktop通用网页抓取

主流AI工具User Agent

不是传统的搜索引擎有自己强大的爬虫,为了更好的响应用户需求,目前主流生成式AI工具也有自己的爬虫,AI爬虫可以抓取互联网上公开数据用作问题答案的数据来源。与搜索引擎爬虫类似,它们也有自己独有的User Agent,如下所示:

生成式AI爬虫标识
ChatGPTChatGPT-User/1.0
GeminiGemini-Deep-Research
PerplexityPerplexity-User/1.0
Claude AIClaude-User/1.0
DeepseekDeepseek/1.0

搜索引擎爬虫相关问题

如何让网站能被搜索引擎爬虫更快抓取到?

因为搜索引擎爬虫是根据链接不断搜集要抓取的新网页,想要网页能被更快地抓取到可采取两种方法:一是在爬虫较活跃的网站添加你想要被抓取的网页链接,这样的链接越多,被搜索引擎爬虫搜集到你的网页URL的概率就会越大,也会越早发现你的网页,然后添加到后续抓取队列中,这通常也是网站优化初期发布外链的一个主要目的; 二是在谷歌站长管理工具(GSC)后台直接通过“URL Inspection”功能提交网页索引请求,可以加快网页的抓取与收录,但这种方式一般仅用于少量网页,对于网页量较大情况不太适用。

在哪里可以查看搜索引擎爬虫的抓取记录?

主要有两种方式可以了解到相应搜索引擎的抓取信息。

第一种是直接下载服务器访问日志,日志文件中包含了全部用户的访问记录(也包括搜索引擎爬虫),然后使用工具或命令(如Cygwin64)过滤出搜索引擎爬虫的记录。每条记录包含爬虫IP、访问时间、请求方法、访问页面、爬虫User Agent、抓取状态、下载网页字节数量等信息,如下图示。

搜索引擎爬虫访问日志截图

第二种是分别在不同的搜索引擎后台查看爬虫的抓取情况,比如在谷歌站长后台(GSC)就能很清晰地看到谷歌搜索引擎爬虫在网站上的抓取趋势、抓取数量、抓取状态及抓取页面分布等信息,如下图示。

这篇文章对您有帮助吗?

平均评分 4.7 / 5. 投票数: 3

本文由二项树SEO原创,转载请注明出处

SEO Expert

你好,我是Andy,Binomialtree站长

超12年SEO实战经验,曾在多家国内中大型网站负责SEO自然流量渠道增涨。2020年开始专注谷歌搜索引擎优化,为多家B端企业一年内实现自然流量增涨目标。如果您需要专业SEO优化,欢迎联系我们