
SEO基石知识(四):了解搜索引擎爬虫及User agent
目录
什么是搜索引擎爬虫?
搜索引擎爬虫就是搜索引擎用来从互联网上下载内容的程序。这个程序会自动化全天候运行,用于抓取整个互联网上的信息。如果将互联网比作是一张网的话,那每一个网页即是这张网上的一个节点,而连接这每一个节点的路径即是网页之间的超链接。搜索引擎爬虫通过网页之间的超链接不断地去下载这些网页内容。
搜索引擎爬虫能下载网络上的哪些内容?
搜索引擎及主流AI工具的爬虫原则上只能抓取互联网上公开的内容且Robots协议所允许的内容。
如果网页上的内容需要登录后才能访问或者被robots禁止访问,搜索引擎爬虫可能依然会抓取,但一般情况是不支收录的,就算收录也会在一段时间后删除掉。
什么是搜索引擎爬虫的User agent?
这段信息的含义是:Googlebot是Google的爬虫,版本号是2.1,后面还有一个链接,指向了Google爬虫的说明页面。通过User Agent,网站可以识别爬虫,决定是否允许它抓取网站内容。
了解爬虫User Agent有什么用?
搜索引擎爬虫的类型
搜索引擎为了更高效地抓取互联网上的内容,爬虫可能按平台、功能分为不同的类型。
对于搜索引擎的爬虫,按终端分类为PC端爬虫、移动端爬虫,按抓取文件的类型可分为主爬虫、图片爬虫、视频爬虫、新闻爬虫等。
主流搜索引擎爬虫User Agent
在搜索引擎市场份额一文中,我们介绍了全球主流搜索引擎( Google,Bing,YANDEX,Yahoo!,DuckDuckGo,Naver,CocCoc,Ecosia,seznam,Qwant ),下面是这搜索引擎爬虫对应User Agent信息.
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | Googlebot/2.1 (+http://www.google.com/bot.html) | Desktop | 通用网页抓取 |
| Mobile Crawling | Googlebot-Mobile/2.1 (+http://www.google.com/bot.html) | Mobile | 移动端网页抓取 |
| Image Crawling | Googlebot-Image/1.0 | Desktop | 图像抓取 |
| Video Crawling | Googlebot-Video/1.0 | Desktop | 视频抓取 |
| News Crawling | Googlebot-News/1.0 | Desktop | 新闻内容抓取 |
Bing
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | Bingbot/2.0 (+http://www.bing.com/bingbot.htm) | Desktop | 通用网页抓取 |
| Image Crawling | Bingbot-Image/2.0 | Desktop | 图像抓取 |
| News Crawling | Bingbot-News/2.0 | Desktop | 新闻内容抓取 |
Yandex
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | YandexBot/3.0 (https://yandex.com/bots) | Desktop | 通用网页抓取 |
| Image Crawling | YandexImages/3.0 | Desktop | 图像抓取 |
Yahoo!
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) | Desktop | 通用网页抓取 |
DuckDuckCo
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | DuckDuckBot/1.0; (+http://duckduckgo.com) | Desktop | 通用网页抓取 |
Naver
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | NaverBot/1.0 (+http://help.naver.com/robots) | Desktop | 通用网页抓取 |
CocCoc
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | Mozilla/5.0 (compatible; CocCocBot/2.0; +http://www.coccoc.com/bot) | Desktop | 通用网页抓取 |
Ecosia
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | EcosiaBot/1.0 (+http://www.ecosia.org) | Desktop | 通用网页抓取 |
Seznam
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | SeznamBot/3.0 (+http://help.seznam.cz/cz/robot/) | Desktop | 通用网页抓取 |
Qwant
| 爬虫类型 | User Agent | 端 | 适用范围 |
|---|---|---|---|
| Web Crawling | QwantBot/2.0 (+https://www.qwant.com/robots/) | Desktop | 通用网页抓取 |
主流AI工具User Agent
不是传统的搜索引擎有自己强大的爬虫,为了更好的响应用户需求,目前主流生成式AI工具也有自己的爬虫,AI爬虫可以抓取互联网上公开数据用作问题答案的数据来源。与搜索引擎爬虫类似,它们也有自己独有的User Agent,如下所示:
| 生成式AI | 爬虫标识 |
|---|---|
| ChatGPT | ChatGPT-User/1.0 |
| Gemini | Gemini-Deep-Research |
| Perplexity | Perplexity-User/1.0 |
| Claude AI | Claude-User/1.0 |
| Deepseek | Deepseek/1.0 |
搜索引擎爬虫相关问题
如何让网站能被搜索引擎爬虫更快抓取到?
因为搜索引擎爬虫是根据链接不断搜集要抓取的新网页,想要网页能被更快地抓取到可采取两种方法:一是在爬虫较活跃的网站添加你想要被抓取的网页链接,这样的链接越多,被搜索引擎爬虫搜集到你的网页URL的概率就会越大,也会越早发现你的网页,然后添加到后续抓取队列中,这通常也是网站优化初期发布外链的一个主要目的; 二是在谷歌站长管理工具(GSC)后台直接通过“URL Inspection”功能提交网页索引请求,可以加快网页的抓取与收录,但这种方式一般仅用于少量网页,对于网页量较大情况不太适用。
在哪里可以查看搜索引擎爬虫的抓取记录?
主要有两种方式可以了解到相应搜索引擎的抓取信息。
第一种是直接下载服务器访问日志,日志文件中包含了全部用户的访问记录(也包括搜索引擎爬虫),然后使用工具或命令(如Cygwin64)过滤出搜索引擎爬虫的记录。每条记录包含爬虫IP、访问时间、请求方法、访问页面、爬虫User Agent、抓取状态、下载网页字节数量等信息,如下图示。

第二种是分别在不同的搜索引擎后台查看爬虫的抓取情况,比如在谷歌站长后台(GSC)就能很清晰地看到谷歌搜索引擎爬虫在网站上的抓取趋势、抓取数量、抓取状态及抓取页面分布等信息,如下图示。

本文由二项树SEO原创,转载请注明出处

你好,我是Andy,Binomialtree站长
超12年SEO实战经验,曾在多家国内中大型网站负责SEO自然流量渠道增涨。2020年开始专注谷歌搜索引擎优化,为多家B端企业一年内实现自然流量增涨目标。如果您需要专业SEO优化,欢迎联系我们。










