三叔提供了工具:
https://www.devtools.cn/zhanzhang/spider/
具体原理如下:
实现原理
部分官方已明确给出了确定真实蜘蛛的方法,比如百度官网所说,可以使用dns反向解析,可以确认正确的蜘蛛,比如:
E:\bugscansplit>nslookup 220.181.108.80
服务器: public1.114dns.com
Address: 114.114.114.114
名称: baiduspider-220-181-108-80.crawl.baidu.com
Address: 220.181.108.80
那么后缀为.baidu.com的就是真实的蜘蛛,其他同理,都有相应的反向域名后缀标志,通过收集这些后缀,就形成了这个工具!
以下是收集一部分的搜索引擎的特征
搜索引擎 user-agent 备注
百度 Baiduspider/2.0
Baiduspider-image
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)
百度蜘蛛IP:
220.181.108.76 ~ 220.181.108.187
123.125.71.92 ~ 123.125.71.113
Bing bingbot/2.0
Bing蜘蛛IP:
157.55.39.97 ~ 157.55.39.98
40.77.167.36 ~ 40.77.167.87
207.46.13.1 ~ 207.46.13.255
Google Googlebot/2.1
Google蜘蛛IP:
66.249.74.78 ~ 66.249.74.80
66.249.71.53 ~ 66.249.71.124
66.249.65.93 ~ 66.249.65.99
搜狗sogou Sogou+web+spider/4.0
搜狗蜘蛛IP:
61.135.189.97 ~ 61.135.189.98
123.126.113.189
神马搜索 Yisouspider
原属一搜蜘蛛。
神马搜索IP:
42.156.137.103
360搜索 360Spider
360搜索蜘蛛IP:
180.153.232.*
180.153.234.*
180.153.236.*
180.163.220.*
42.236.101.*
今日头条 Bytespider
今日头条蜘蛛IP:
111.225.149.2 ~ 111.225.149.249
110.249.202.2 ~ 110.249.202.249
Yahoo Yahoo!
Yahoo蜘蛛IP:
68.180.230.46、68.180.228.253
以下是收集一部分的未知的爬虫特征
爬虫名称 user-agent 特征 备注
The Knowledge AI The+Knowledge+AI
爬虫IP:
66.160.140.174 ~ 64.62.252.179
66.160.140.184 ~ 66.160.140.188
AhrefsBot AhrefsBot/6.1
AhrefsBot是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)
爬虫IP:
54.36.148.1 ~ 54.36.148.254
54.36.149.1 ~ 54.36.149.254
54.36.150.1 ~ 54.36.150.254
SemrushBot SemrushBot/6~bl
SemrushBot也是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)
爬虫IP:
46.229.168.136 ~ 46.229.168.162