爬虫蜘蛛User Agent
爬虫蜘蛛UA,常见的搜索引擎蜘蛛和网络爬虫的User Agent标识大全
搜索引擎蜘蛛和网络爬虫的UA标识大全
User Agent:是代表访客身份的字符串标识符,简称:UA,中文译名:用户代理。
网络爬虫蜘蛛User Agent大全,收集整理了当今互联网上常见的搜索引擎蜘蛛UA标识和非恶意的或有恶意意图的网络爬虫UA标识。一般情况下,参考这些User Agent标识符,可以判断访客身份,然后可以根据实际需求屏蔽无用的、甚至是有害的爬虫蜘蛛。这样能保证SEO优化不受影响的同时,还能确保服务器的性能、安全等不受干扰。
通过UserAgent就能准确判断访客身份吗?
不一定准确,User Agent是可以被伪造的。但是,对于正常的网络爬虫、蜘蛛,它们一般都会使用自己特有的UA标识,不会刻意去伪造另一个,搜索引擎蜘蛛和网络爬虫的User Agent标识信息一般只可能被别有用心的黑客、攻击者用来做伪装,所以User-Agent不应作为唯一的判定依据。
如何屏蔽网络爬虫、网络蜘蛛?
我们一般都应该将那些有“流氓”行为的采集爬虫或蜘蛛拒之门外,屏蔽拦截网络爬虫的方法很多,建议使用以下两种方法:
1、使用使用robots.txt文件阻止不友好的网络爬虫
robots.txt是爬虫协议文件,可以“拒绝”或“允许”网络爬虫进来,但前提是爬虫必须遵守robots协议。事实上不是所有爬虫的遵守协议的,表面上都声称自己的爬虫遵守协议,实则有可能并非如此。所以这个方法,只适合应对遵守约定的“真君子”。
2、根据User Agent来阻止不友好的网络爬虫
可以在Linux或者Apache下配置拦截规则,例如阻拦User Agent为空的以及DotBot、Spawning-AI:
#根据user-Agent反爬虫 if ($http_user_agent ~* "^$|Spawning-AI|DotBot") { rewrite "^/(.*)$" /error/403.php last; }
也可以使用动态语言脚本实现反爬虫的功能,例如使用PHP:
$UA = $_SERVER['HTTP_USER_AGENT']; if(preg_match('[MJ12bot|Scrapy]i', $UA)){ die('403'); }
常见爬虫蜘蛛User Agent | ||
---|---|---|
UA关键词 | User Agent | 相关说明 |
Googlebot | Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/122.0.6261.94MobileSafari/537.36(compatible;Googlebot/2.1) | Googlebot,搜索引擎蜘蛛的UA标识,属于全球知名的Google公司。 |
Baiduspider | Mozilla/5.0(compatible;Baiduspider/2.0) | 百度搜索引擎蜘蛛在爬行页面抓取内容的时候,会使用这个代理标识。 |
bingbot | Mozilla/5.0AppleWebKit/537.36(KHTML,likeGecko;compatible;bingbot/2.0)Chrome/116.0.1938.76Safari/537.36 | 这是Bing搜素引擎的User Agent标识,必应搜索在国内的知名度逐年迅速增加,现在用户量也仅次于百度。 |
Sogouwebspider | Sogouwebspider/4.0 | 这是搜狗搜索引擎蜘蛛使用的代理标识。在爬行的时候,似乎常现Bug,经常抽风。 |
YisouSpider | Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.81YisouSpider/5.0Safari/537.36 | 神马搜索引擎蜘蛛,这个搜索引擎在国内也有10%左右的市场占有率。一般情况不建议屏蔽。 |
PetalBot | Mozilla/5.0(Linux;Android7.0;)AppleWebKit/537.36(KHTML,likeGecko)MobileSafari/537.36(compatible;PetalBot) | 搜索引擎蜘蛛,由华为公司自主研发。现在只为海外用户提供服务,虽然暂时未在国内上线,但是会抓取国内的网站内容,迟早也会在国内开放给网民使用。 |
360Spider | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/…… (KHTML, like Gecko) Chrome/…… Safari/……; 360Spider | 360搜索引擎蜘蛛的签名UA信息。 |
Amazonbot | Mozilla/5.0(Macintosh;IntelMacOSX10_10_1)AppleWebKit/600.2.5(KHTML,likeGecko)Version/8.0.2Safari/600.2.5(Amazonbot/0.1) | 亚马逊公司的网络爬虫,如果你网站只做国内推广不做外贸贸易,这个爬虫对你网站来说也没什么用处。 |
claudebot | claudebot | 尚且不能确定是谁的网络爬虫,但通过其lookup反查,发现绑定的是亚马逊公司的域名!它不遵循robots.txt协议,扫描频率很高,多半是不怀好意的。 |
Yandex | Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0) | 搜索引擎的蜘蛛。Yandex是俄罗斯的知名搜索引擎。 |
DotBot | Mozilla/5.0(compatible;DotBot/1.2;help@moz.com) | 是一个网络爬虫,人称“垃圾爬虫”。因为它不会为你带来流量,更不会为你创造价值,它只会疯狂抓取网站数据用作分析外链等用途,耗费你的服务器资源。 |
MJ12bot | Mozilla/5.0(compatible;MJ12bot/v1.4.8) | 这是来自英国的Majestic网络营销公司的爬虫所使用的用户代理标识,它主要任务是收集互联网数据服务于它的客户。而且这个爬虫不怎么更新,隔三岔五访问早就不存在的链接,抓取频率也高,不但不会给你网站带来好处,还会影响你站点性能。 |
BLEXBot | Mozilla/5.0(compatible;BLEXBot/1.0) | webmeup的网络爬虫,还是比较守规矩,不会狂抓数据,所以也只会偶尔发现它的身影。虽然它获取数据,只为它自己产品服务的,没发现对站长有什么好处,但是也不见得会带来什么负面影响。 |
ImagesiftBot | Mozilla/5.0(compatible;ImagesiftBot) | 网络图片爬虫,是图片反查引擎的蜘蛛。如果你不希望自己的图片被其收录,可以考虑屏蔽这个蜘蛛。 |
AhrefsBot | Mozilla/5.0(compatible;AhrefsBot/7.0) | 这是Ahrefs公司的网络爬虫程序使用的用户代理User Agent标识。该公司获取网页数据用于搜索引擎SEO优化分析。如果你不使用该公司的服务,屏蔽这个爬虫蜘蛛也无影响。 |
DataForSeoBot | Mozilla/5.0(compatible; DataForSeoBot/1.0) | 这是SEO优化公司的爬虫,如果它爬行你网站,只为获取数据给它客户做SEO分析,对你网站来说没有价值。 |
python | python/1.0 …… | python爬虫,通常都是有不良企图的用户用来扫描、采集你网站数据的。 |
Scrapy | Scrapy/1.0 …… | Scrapy是爬虫框架应用程序,包含这类关键词的User Agent访客,基本都是基本动机不纯。 |
msray-plus | msray-plus/ …… | 一款采集工具的默认UA包含msray-plus字符串。这是一款“小偷软件”。 |
Go-http-client | …… go-http-client/1.1 …… | HTTP客户端,一般用来做接口调试。如果不是你自己在做测试,说明有人在给你“帮忙”。 |
WellKnownBot | …… WellKnownBot …… | 看它自我介绍,说是公益、无害的,但它可能会高频率地访问.well-known目录。小编觉得,它对我们站长来说是有害无利。 |
Spawning-AI | …… Spawning-AI …… | 还不清楚具体是做什么的,看名字,应该是人工智能公司的爬虫。 |
SemrushBot | Mozilla/5.0(compatible;SemrushBot/7~bl) | 这是一个国外网络营销公司的网络蜘蛛。如果你没有使用他们公司的产品和服务,可以考虑屏蔽它。 |