当前位置:首页 > 计算机相关 > 建站之路 > 正文内容

判断真假百度蜘蛛的方法,如何识别模拟的百度蜘蛛[附PHP代码]

piikee4年前 (2020-04-27)建站之路2418

经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但百度蜘蛛IP不固定,无法对外公布。

那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛:

1.查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

但是,通过UA识别并不准确,存在很多工具可以模拟百度蜘蛛来爬行抓取,所以,可以再通过下面方法识别这些模拟的假百度蜘蛛。

2.反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3). 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

以下是PHP的IP反查代码:

$dnsadd=gethostbyaddr($_SERVER["REMOTE_ADDR"]);
if((substr($dnsadd, -strlen("baidu.com")) ==="baidu.com")||(substr($dnsadd, -strlen("baidu.jp")) ==="baidu.jp"))
//是真的百度蜘蛛
else
//是模拟的百度蜘蛛,假蜘蛛

扫描二维码推送至手机访问。

版权声明:本文由萍客小居发布,如需转载请注明出处。

本文链接:https://www.piikee.net/1391.html

分享给朋友:

相关文章

PHP168 B2B系统 自定义 MYSQL万能标签

PHP168很强悍,但是标签还不是很完善。最近弄首页标签,有些标签模块都没出效果,只好自己研究MYSQL万能标签了。弄个日志来记记这些标签吧。招聘标签:最新10个企业招聘信息(获得id,企业名,发布时间)MYSQLSELECT jobs_i...

DEDECMS首页加入滚动公告栏的方法

近期新上线网站,使用了DEDECMS的系统。由于首页需要加入滚动站内新闻,于是搜了一下,都找不到好的代码。想起自己前期开发的一个JS广告滚动代码,决定自己开发一个功能来。经过一个下午的努力,总算给弄了出来。不多说,直接上代码。总共有三部分代...

网站SEO排名的一些因素

站长们每天都希望网站有好的流量,获得好的排名,那么大家有没有注意影响网站排名的因素有哪些呢?首先,看看网站的内部有利因素1. URL中出现关键词2. 网页Title中出现关键词3. 常规内容中出现关键词4. 在页面的第一段中出现关键词5....

一段邪恶的MYSQL数据库修复命令。。。

好吧,MYSQL坏了就用他。。。虽然哥的MYSQL还没坏过。。首先,服务器开始菜单->运行>输入cmd->出现了个东东。。。在这个东东里面呢,不断输入“cd..”直到出现C:\>,然后邪恶的事情开始了。输入你的MYS...

解决PHP被DDOS问题

在C盘的 PHP目录下面有个 php.ini 文件,打开它用查找   allow_url_fopen   找到相对应的, 然后把 On 改成 Off找到extension=php_sockets.dll改成;extension=php_so...

asp和PHP读取远程txt文件

PHP远程读取TXT文本的代码:< ?PHP$file_name="http://www.piikee.net/url/1.txt";$i=1;$fp=fopen($file_name,'r');while(!feof($fp)){$...

兵富商大贾
3年前 (2021-09-27)

感谢分享,有一些 IP 并没有遵守此规定,你可以看看这里,收集了很多百度的 IP 段,有一些并没有 hostname,地址:https://www.pdflibr.com/crawler/baidu-bot

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。