电脑信息分享

首页系统综合问题如何正确识别百度蜘蛛Baiduspider，以及真伪检测？

如何正确识别百度蜘蛛Baiduspider，以及真伪检测？

时间2023-02-05 14:02:15发布分享专员分类系统综合问题浏览308

今天小编给各位分享蜘蛛搜索引擎的知识，文中也会对其通过如何正确识别百度蜘蛛Baiduspider，以及真伪检测？和如何识别搜索引擎爬虫的真伪等多篇文章进行知识讲解，如果文章内容对您有帮助，别忘了关注本站，现在进入正文！

内容导航：

如何正确识别百度蜘蛛Baiduspider，以及真伪检测？

如何识别搜索引擎爬虫的真伪

seo如何正确识别百度蜘蛛

怎么分辨百度蜘蛛,用工具查假的蜘蛛分辨出不来

一、如何正确识别百度蜘蛛Baiduspider，以及真伪检测？

我们经常在网站日志中看到各种爬虫抓取记录，最常见的就是百度蜘蛛等搜索引擎，以百度为例，通常我们判断是否是百度蜘蛛抓取看用户代理字符串也就是User-Agent，但是User-Agent是可以模拟的，所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取，这时候我们就需要学会分辨真伪。

首先是百度User-Agent代理字符串，百度官方公布的有如下User-Agent：

移动UA：Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http:///search/spider.html)

PC UA：Mozilla/5.0 (compatible; Baiduspider/2.0;+http:///search/spider.html）

新增渲染UA:

移动UA：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http:///search/spider.html)

PC UA：Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http:///search/spider.html)

需要注意的是百度新增了一个移动的User-Agent，和一个PC的User-Agent。我们知道了百度蜘蛛的User-Agent，如何正确识别和判断某条抓取是否是真实的百度蜘蛛。

如何识别百度蜘蛛

1、首选我们需要通过关键词找User-Agent中是否包含Baiduspider；

2、如果想区分移动和PC的蜘蛛的话，我们还需要在结果中再进行关键词过滤，移动端的User-Agent包含：Android 、iPhone、Mobile等三个中至少一个。

3、通过上述操作我们可以分辨出哪些抓取是百度蜘蛛抓取，但并不能分辨真伪。

判断百度蜘蛛真伪

1、验证百度蜘蛛真伪我们一般使用的是DNS反查IP的方式来进行判断，首选我们需要找到上述抓取记录中蜘蛛的IP。

2、以windows操作系统为例，开始运行中输入cmd 弹出窗口中输入 nslookup (上述IP地址)，判断百度蜘蛛的真伪，真是百度蜘蛛结果中会返回以*.baidu.com 或*.baidu.jp 的格式命名hostname，如不包含则为假百度蜘蛛。

3、也有在线百度蜘蛛真伪查询工具可直接查询。

原创文章，如果对您有帮助请点关注。

一、如何识别搜索引擎爬虫的真伪

度官方说明：并不存在有降权蜘蛛一说
只要是搜索引擎的蜘蛛ip就是正常的，只要注意蜘蛛返回的状态是否是正常
有些ip会冒充搜索引擎蜘蛛ip，可以通过ip反查，确认其是不是真实蜘蛛。

1、百度蜘蛛：Baiduspider
常见百度旗下同类型蜘蛛还有下面这些：
Baiduspider-mobile抓取wap）、Baiduspider-image（抓取图片）、Baiduspider-video（抓取视频）、Baiduspider-news（抓取新闻）。
注：以上百度蜘蛛目前常见的是
Baiduspider和Baiduspider-image两种。
2、谷歌蜘蛛：
Googlebot 谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;” “Googlebot-Mobile”
，看名字是抓取wap内容的。
3、360蜘蛛：360Spider
4、SOSO蜘蛛：Sosospider
5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!
6、有道蜘蛛：YoudaoBot，YodaoBot
7、搜狗蜘蛛：Sogou News Spider 搜狗蜘蛛还包括如下这些：
Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blogSogou News Spider、Sogou Orion spider，Sogou web spider、Sogou inst spider、Sogou web spider/4.0、Sogou News Spider/4.0、Sogou inst spider/4.0spider2、Sogou blog、Sogou News Spider、Sogou Orion spider
8、MSN蜘蛛：msnbot，msnbot-media
9、必应蜘蛛：bingbot

二、seo如何正确识别百度蜘蛛

一、如何正确识别Baiduspider移动ua
新版移动ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +)
之前通过“+”进行识别的网站请注意!您需要修改识别方式，新的正确的识别Baiduspider移动ua的方法如下：
1. 通过关键词“Android”或者“Mobile”来进行识别，判断为移动访问或者抓取。
2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。
另外需要强调的是，对于robots封禁，如果封禁的agent是Baiduspider，会对PC和移动同时生效。即，无论是PC还是移动Baiduspider，都不会对封禁对象进行抓取。之所以要强调这一点，是发现有些代码适配站点(同一个url，PC ua打开的时候是PC页，移动ua打开的时候是移动页)，想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的，但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。
二、如何识别百度蜘蛛
百度蜘蛛对于站长来说可谓上宾，可是我们曾经遇到站长这样提问：我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同，如linux/windows/os三种平台下的验证方法分别如下：
1、在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。
2、在windows平台或者IBM OS/2平台下，您可以使用nslookup ip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。
3、在mac os平台下，您可以使用dig 命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。
三、Baiduspider IP是多少
即便很多站长知道了如何判断百度蜘蛛，仍然会不断地问“百度蜘蛛IP是多少”。我们理解站长的意思，是想将百度蜘蛛所在IP加入白名单，只准白名单下IP对网站进行抓取，避免被采集等行为。
但我们不建议站长这样做。虽然百度蜘蛛的确有一个IP池，真实IP在这个IP池内切换，但是我们无法保证这个IP池整体不会发生变化。所以，我们建议站长勤看日志，发现恶意蜘蛛后放入黑名单，以保证百度的正常抓取。
同时，我们再次强调，通过IP来分辨百度蜘蛛的属性是非常可笑的事情，所谓的“沙盒蜘蛛”“降权蜘蛛”等等是从来都不存在的。

三、怎么分辨百度蜘蛛,用工具查假的蜘蛛分辨出不来

百度蜘蛛一般分析要根据你的实际情况在来分辨，如果你是一个企业站，那么你的日志就很少，这样可以直接手工分析
手工分析的方法:
1.打开日志，按ctrl+f，搜索Baiduspider
2.在运行中输入CMD
3.输入 nslookup空格你搜索出来的baiduspider中这条的ip，回车
4.如果出现
名称:baiduspider-xxx.xxx.xxx.xxx.crawl.baidu.com
address:xxx.xxx.xxx.xxx
这样就是真实的百度蜘蛛

工具分析
使用我们常用的日志分析工具，比如说光年，金花之类的。但是这样的工具不能分辨出蜘蛛的真假(假蜘蛛往往是站长工具，爱站这样的工具，查询的时候留下来的)。如果我们的日志比较大，那么就要用工具查询了，查询出来的结果，在使用第一步的方法，分析出百度的蜘蛛

其实百度的蜘蛛大多数就几个网段，如123.125.71.1xx，这样的ip一般都是百度的蜘蛛，看多了也就知道了

关于蜘蛛搜索引擎的问题，通过《seo如何正确识别百度蜘蛛》、《怎么分辨百度蜘蛛,用工具查假的蜘蛛分辨出不来》等文章的解答希望已经帮助到您了！如您想了解更多关于蜘蛛搜索引擎的相关信息，请到本站进行查找！

爱资源吧版权声明：以上文中内容来自网络，如有侵权请联系删除，谢谢。

蜘蛛搜索引擎

Win10新版无广告压缩软件盘点（建议收藏）李云迪被拘，为什么立功的又是“朝阳群众”？

↑