您的位置:首页 > 新闻资讯 >文章内容
一个免费的异步爬虫代理池
来源:互联网 作者:admin 时间:2019-03-22 18:05:00

  由于网络流量不断增加,而且恶意爬虫遍地,许多网站为了保护自己都设置了大量的反爬虫。对面日益增加的反爬虫技术,网络爬虫要想突破,必须要借用各种的工具,比如代理IP。对于爬虫来说,可能需要大量的代理IP,这需要找到代理IP池使用,那么如何一个免费的异步爬虫代理池呢?


  采用最新最快的Python技术——异步(Async),编写了一个免费的异步爬虫代理池,以Pythonasyncio为基础,充分利用Python的异步性能,异步处理比同步处理能提升成百上千倍的效率,速度堪比GO语言。


  通过爬虫抓取互联网上免费代理网站的IP,并且进行异步检测是否可用,如果可用就放入数据库。定时对数据库中的代理进行维护,然后通过webapi的形式供外部使用。


  可以使用了sanic,一个异步网络框架。所以建议运行Python环境为Python3.5+,并且sanic不支持Windows系统,Windows用户可以考虑使用UbuntuonWindows。


  项目主要几大模块分别是爬取模块,存储模块,校验模块,调度模块,接口模块。


  安装Redis:数据库使用了Redis,Redis是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了Redis。安装方法请参照官网指南。


  安装依赖:$pipinstall-rrequirements.txt


  使用API获取代理:运行代码后,访问http://127.0.0.1:5000/进入主页,如果显示'Welcome',证明成功启动。


一个免费的异步爬虫代理池


  访问http://127.0.0.1:5000/get可以获取一个可用代理。

一个免费的异步爬虫代理池

  也可以在程序代码中用相应的语言获取,例如:

一个免费的异步爬虫代理池

  Sanic性能测试


  使用wrk进行服务器压力测试。基准测试30秒,使用12个线程,并发400个http连接。测试http://127.0.0.1:3289/


一个免费的异步爬虫代理池


  我们看到了什么?平均每秒钟11387.89个请求,就问你们怕不怕。机器性能更好一下,就是一波DOS攻击了。


  以上介绍了关于一个免费的异步爬虫代理池的搭建思路,如果觉得免费的不好使用,可以付费购买使用的,毕竟还是代理精灵的使用效果好很多,IP质量高,IP有效率在95%以上。


相关文章内容简介
推荐阅读
  • 26 2019-11
    用代理IP 还能追踪到地址?

    使用了代理IP,我们的IP地址还会不会被追踪到呢?这个问题是很多用户非常关心的,因为多数用户使用代理IP的原因就是因为换IP来保护自己的IP地址。

  • 01 2019-04
    高匿名代理ip不管用,还是被封了?

    高匿名代理ip不管用,还是被封了?很多时候我们在使用代理IP的过程中,或许都是会出现这个问题的。当然了,大家第一个想法都是被骗了,这家的产品质量不行。其实有时候并不是商家的原

  • 23 2019-02
    【Python入门】一些学习Python的技巧

    学习Python相对于其他语言来说是简单许多,而且Python使用非常灵活,适用的范围比较广,很多程序都会选择去学下Python。今天小编为大家整理了一些学习Python的技巧,可以帮助新手快速的了解。

  • 24 2019-06
    动态代理IP爬虫采集数据的首选

    动态代理IP爬虫采集数据的首选,由于爬虫经常被限制的,如果使用了动态代理IP,这样可以快速切换IP,帮助爬虫继续访问,提高抓取网站信息的效率,这是非常有好处的。

  • 10 2019-05
    用IP代理工具能多注册账号吗?

    用IP代理工具能多注册账号吗?我们在注册账号的时候,首先要满足条件,才能正常的注册,如果我们想多注册些,是否能绕开一些条件限制呢?比如IP限制,能否使用IP代理工具切换IP继续注册

  • 28 2019-10
    平时可以怎么利用代理IP?

    代理IP在我们的日常生活中也能够用到吗?当然可以了,如果你不知道我们平时可以怎么利用代理IP,可以看看下面的推荐。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部