您的位置:首页 > 新闻资讯 >文章内容
一个免费的异步爬虫代理池
来源:互联网 作者:admin 时间:2019-03-22 18:05:00

  由于网络流量不断增加,而且恶意爬虫遍地,许多网站为了保护自己都设置了大量的反爬虫。对面日益增加的反爬虫技术,网络爬虫要想突破,必须要借用各种的工具,比如代理IP。对于爬虫来说,可能需要大量的代理IP,这需要找到代理IP池使用,那么如何一个免费的异步爬虫代理池呢?


  采用最新最快的Python技术——异步(Async),编写了一个免费的异步爬虫代理池,以Pythonasyncio为基础,充分利用Python的异步性能,异步处理比同步处理能提升成百上千倍的效率,速度堪比GO语言。


  通过爬虫抓取互联网上免费代理网站的IP,并且进行异步检测是否可用,如果可用就放入数据库。定时对数据库中的代理进行维护,然后通过webapi的形式供外部使用。


  可以使用了sanic,一个异步网络框架。所以建议运行Python环境为Python3.5+,并且sanic不支持Windows系统,Windows用户可以考虑使用UbuntuonWindows。


  项目主要几大模块分别是爬取模块,存储模块,校验模块,调度模块,接口模块。


  安装Redis:数据库使用了Redis,Redis是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了Redis。安装方法请参照官网指南。


  安装依赖:$pipinstall-rrequirements.txt


  使用API获取代理:运行代码后,访问http://127.0.0.1:5000/进入主页,如果显示'Welcome',证明成功启动。


一个免费的异步爬虫代理池


  访问http://127.0.0.1:5000/get可以获取一个可用代理。

一个免费的异步爬虫代理池

  也可以在程序代码中用相应的语言获取,例如:

一个免费的异步爬虫代理池

  Sanic性能测试


  使用wrk进行服务器压力测试。基准测试30秒,使用12个线程,并发400个http连接。测试http://127.0.0.1:3289/


一个免费的异步爬虫代理池


  我们看到了什么?平均每秒钟11387.89个请求,就问你们怕不怕。机器性能更好一下,就是一波DOS攻击了。


  以上介绍了关于一个免费的异步爬虫代理池的搭建思路,如果觉得免费的不好使用,可以付费购买使用的,毕竟还是代理精灵的使用效果好很多,IP质量高,IP有效率在95%以上。


相关文章内容简介
推荐阅读
  • 22 2019-08
    切换IP 除了代理IP还有什么方法?

    在上网的时候,如果我们有切换IP的需要,可以通过什么途径去操作呢?以下为大家推荐4种比较常见的切换IP方式,除了有大家都比较熟悉的用代理IP之外,还有这些操作你可以参考。

  • 21 2019-03
    爬虫用Requests设置代理IP的方法

    使用python中的包请求网站时,需要设置代理IP使用,否则无法正常获取到信息,那么爬虫用Requests设置代理IP的方法是怎样的?

  • 04 2019-07
    代理IP用什么地区的好?

    代理IP用什么地区的好?代理有地区之分的,像机灵代理拥有全国200多城市的IP线路,也就是说有些地区有代理也有地区没有,这是为什么呢?代理IP用什么地区的好?

  • 13 2019-03
    游戏根据什么来反外挂和封号

    不管是什么游戏,如果使用玩家使用外挂以及多开账号获利,这些都是影响游戏的平衡性,因此游戏会通过各种的方法来侦察,找到用外挂和多开账号的玩家,并进行封号处理。如果玩家需要了

  • 28 2019-06
    HTTP代理IP应用于大数据

    HTTP代理IP应用于大数据,可能很多人并不知道,其实我们常常能在电视剧或者电影中可以看见,很多电脑高手,通过某一个或者几个特征信息,输入到电脑软件中,就能找到该目标任务的信息。

  • 25 2019-06
    高效实用的代理ip推荐

    高效实用的代理ip推荐,大家可以试试,非常值得入手一款。常用网络的用户肯定是遇到过访问网址受限制的情况,这也许并不是你使用的原因,而是因为大部分的网站都限定了每个IP用户的注

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961