1. 关于user_agent
User_agent是一种Web客户端的身份识别字符串,是一种特定的HTTP请求头,用来标识客户端的软件类型,版本号,操作系统等信息。它可以帮助服务器端识别客户端的软件类型和版本,从而选择合适的资源返回给客户端,以提高网络服务的效率。
2. Apache禁止指定user_agent
Apache禁止指定user_agent是指,在Apache配置文件中,使用SetEnvIf指令来检查HTTP头中的User-Agent字段,如果检查到User-Agent字段的内容与预先设定的某个字符串相同,就可以禁止该请求。
3. 用途
Apache禁止指定user_agent主要是用来防止爬虫扒取网站内容,爬虫通常会携带特定的user_agent,因此可以通过检查user_agent来判断是否为爬虫,从而拒绝爬虫的访问,从而保护网站内容的安全。
4. 配置示例
SetEnvIfNoCase User-Agent \"^Baiduspider\" bad_bot
SetEnvIfNoCase User-Agent \"^360Spider\" bad_bot
SetEnvIfNoCase User-Agent \"^Sogou\" bad_bot
SetEnvIfNoCase User-Agent \"^Googlebot\" bad_bot
SetEnvIfNoCase User-Agent \"^bingbot\" bad_bot
SetEnvIfNoCase User-Agent \"^Yahoo! Slurp\" bad_bot
Order Deny,Allow
Deny from
env=bad_bot