没有所谓的捷径
一切都是时间最平凡的累积

利用rewrite屏蔽蜘蛛抓取某个网站

本文最后更新:2019年3月28日,已超过1828天未更新,如果文章内容失效,请留言反馈本站。

我们都知道可以通过robots.txt来引导蜘蛛抓取内容,多个域名的时候可以301重定向转移权重,但有时候我们可能要特定某个域名不允许抓取,这个时候就需要rewrite来控制。

如果要直接屏蔽蜘蛛抓取,可以参考我的另外一篇文章https://blog.mydns.vip/1569.html

注:HTTP_USER_AGENT 里面是要屏蔽的蜘蛛,根据直接需要添加就可以了。

iis、apache的规则如下:

RewriteEngine on 
RewriteCond %{HTTP:Host} xxx.xxx.com
RewriteCond %{HTTP_USER_AGENT} (baiduspider|googlebot) [NC]
RewriteRule ^(.*)$ - [F]

xxx.xxx.com域名不允许百度和谷歌蜘蛛访问。

iis7规则如下:

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <system.webServer>
        <rewrite>
            <rules>
               <rule name="Block spider" stopProcessing="true">
                  <match url="(.*)" ignoreCase="false" negate="false" />
             <conditions>
                 <add input="{HTTP_HOST}" pattern="^xxx.xxx.com$" />
                 <add input="{HTTP_USER_AGENT}" pattern="baiduspider|googlebot" />
            </conditions>
        <action type="AbortRequest" />
</rule> 
            </rules>
        </rewrite>
    </system.webServer>
</configuration>

附录:
常见蜘蛛名字:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
bing蜘蛛:bingbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
有道蜘蛛:YodaoBot和OutfoxBot
热土蜘蛛:Adminrtspider
搜狗蜘蛛:sogou spider
SOSO蜘蛛:sosospider
360搜蜘蛛:360spider

» 站长码字辛苦,有用点个赞吧,也可以打个
» 若转载请保留本文转自:豫章小站 » 《利用rewrite屏蔽蜘蛛抓取某个网站》
» 本文链接地址:https://blog.mydns.vip/1568.html
» 如果喜欢可以: 点此订阅本站 有需要帮助,可以联系小站
赞(0) 打赏
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,若涉及侵权请及时告知,将会在第一时间删除,联系邮箱:contact@mydns.vip。文章观点不代表本站立场。本站原创内容未经允许不得转载,或转载时需注明出处:豫章小站 » 利用rewrite屏蔽蜘蛛抓取某个网站
分享到: 更多 (0)

评论 抢沙发


  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

智慧源于勤奋,伟大出自平凡

没有所谓的捷径,一切都是时间最平凡的累积,今天所做的努力都是在为明天积蓄力量

联系我们赞助我们

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏