当前位置:首页 > 计算机相关 > 建站之路 > 正文内容

判断真假百度蜘蛛的方法,如何识别模拟的百度蜘蛛[附PHP代码]

piikee4年前 (2020-04-27)建站之路2724

经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但百度蜘蛛IP不固定,无法对外公布。

那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛:

1.查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

但是,通过UA识别并不准确,存在很多工具可以模拟百度蜘蛛来爬行抓取,所以,可以再通过下面方法识别这些模拟的假百度蜘蛛。

2.反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3). 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

以下是PHP的IP反查代码:

$dnsadd=gethostbyaddr($_SERVER["REMOTE_ADDR"]);
if((substr($dnsadd, -strlen("baidu.com")) ==="baidu.com")||(substr($dnsadd, -strlen("baidu.jp")) ==="baidu.jp"))
//是真的百度蜘蛛
else
//是模拟的百度蜘蛛,假蜘蛛

扫描二维码推送至手机访问。

版权声明:本文由萍客小居[www.piikee.net]发布,如需转载请注明出处。

本文链接:https://www.piikee.net/1391.html

分享给朋友:

相关文章

再爆腾讯QQ表情栏目采集规则

站点URL: http://im.qq.com采集列表URL: http://im.qq.com/cgi-bin/face/face_sort?type=1获取列表开始代码:<table width="100%" border="0"...

使用godaddy的免费DNS进行域名管理解析(Off-Site DNS)

使用godaddy的免费DNS进行域名管理解析(Off-Site DNS)

GoDaddy 是全世界相当知名的网域名称?册商,同时也提供虚拟主机(Hosting)、电子邮件(Email)、SSL Certificates 等等服务。不管你的网域名称是不是在 GoDaddy ?册,都可以使用 GoDaddy 提供的免...

DEDECMS淘宝客合作版无法采集商品的原因

DEDECMS的淘宝客合作版,看起来很不错,结果弄了几天,一直无法采集。本地调试还可以的,上传到空间就无法采集了,每次点击展开,选择分类商品之后,页面就空白没反应了。最后才发现,原来是服务器的PHP版本太旧了!!!登录DEDECMS的后台,...

DEDECMS首页加入滚动公告栏的方法

近期新上线网站,使用了DEDECMS的系统。由于首页需要加入滚动站内新闻,于是搜了一下,都找不到好的代码。想起自己前期开发的一个JS广告滚动代码,决定自己开发一个功能来。经过一个下午的努力,总算给弄了出来。不多说,直接上代码。总共有三部分代...

如何开通GoDaddy的免费空间

如何开通GoDaddy的免费空间

只要在 GoDaddy 注册了域名,就可以得到一个10G的免费空间。很多朋友在注册域名后,不知道如何开通GoDaddy的10G免费空间,下面就一步一步地介绍 GoDaddy的免费空间的开通方法。(1). 点击 My Account,登录帐号...

网站SEO排名的一些因素

站长们每天都希望网站有好的流量,获得好的排名,那么大家有没有注意影响网站排名的因素有哪些呢?首先,看看网站的内部有利因素1. URL中出现关键词2. 网页Title中出现关键词3. 常规内容中出现关键词4. 在页面的第一段中出现关键词5....

兵富商大贾
3年前 (2021-09-27)

感谢分享,有一些 IP 并没有遵守此规定,你可以看看这里,收集了很多百度的 IP 段,有一些并没有 hostname,地址:https://www.pdflibr.com/crawler/baidu-bot

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。