• 纸蜗牛博主

    记录关于互联网的点点滴滴,分享关于在IT行业学习和工作过程中的经验以及技巧。

  • 需求联系

    精确把握产品和品牌网站的设计特点,100%创意设计,保护网站设计图文版权,为网络创生。

【盾与剑】小谈采集与防采集

2018-05-20 11:26 0 评论 1166 浏览

自古正邪不两立,采集与防采集一直是相互对立的,一方面我们想采集到别人站点的好的内容,另一方面我们又不想让自己站点的好内容被别人采集。

手段一、判断来路,如果来路是自己站点的,那么显示,否则显示其他内容

这是防采集最简单的办法,实现起来也是最简单的.htaccess文件中,或者php代码中,都很容易去实现

破解:既然实现简单,那么破解起来也是相当的简单,只要在发送请求的时候伪造一下referer信息即可

手段二、登录信息判断 Cookie

这种常见于论坛的附件下载

破解:要采集这种内容就要模拟登录,这点使用curl无疑要简单的多

手段三、请求次数判断。如一段时间内请求多少,非常规操作则封IP

比如采集搜搜问问,如果你在一段时间内访问频繁的话会要你输入验证码

破解:1、轮询其cdn站点  2、查看记录访问次数原理,绕过检测

手段四、发送方式判断 POST GET 使用JS,Ajax等请求内容

这个需要具体问题具体分析了,比如AspNetPager的翻页空间,就需要模拟post数据才能获取到下一页内容

特别是在firebug出现之后,ajax请求的页面完全就是赤裸裸的展现出来了。

当然还有其他很多的手段,比如网盘上常用的随机文件名,动态地址这些,在比如一些下载站要填写验证码等等。下面是一个小实战练习

实战:微盾(VirtualWall)防盗链专家

原理:在cookie中写入特定信息,然后与服务器中存储的进行检验

破解:先获取在cookie中存储的信息,然后采集的时候将cookie发送过去

最后:如果你真想把采集这块搞好,那么http协议,curl,socket这些你是必须要掌握甚至精通的

  • 评论内容:

    还可以输入200个字
  • 验证码:

  •