您的位置:首页 > 新闻资讯 >文章内容
一个免费的异步爬虫代理池
来源:互联网 作者:admin 时间:2019-03-22 18:05:00

  由于网络流量不断增加,而且恶意爬虫遍地,许多网站为了保护自己都设置了大量的反爬虫。对面日益增加的反爬虫技术,网络爬虫要想突破,必须要借用各种的工具,比如代理IP。对于爬虫来说,可能需要大量的代理IP,这需要找到代理IP池使用,那么如何一个免费的异步爬虫代理池呢?


  采用最新最快的Python技术——异步(Async),编写了一个免费的异步爬虫代理池,以Pythonasyncio为基础,充分利用Python的异步性能,异步处理比同步处理能提升成百上千倍的效率,速度堪比GO语言。


  通过爬虫抓取互联网上免费代理网站的IP,并且进行异步检测是否可用,如果可用就放入数据库。定时对数据库中的代理进行维护,然后通过webapi的形式供外部使用。


  可以使用了sanic,一个异步网络框架。所以建议运行Python环境为Python3.5+,并且sanic不支持Windows系统,Windows用户可以考虑使用UbuntuonWindows。


  项目主要几大模块分别是爬取模块,存储模块,校验模块,调度模块,接口模块。


  安装Redis:数据库使用了Redis,Redis是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了Redis。安装方法请参照官网指南。


  安装依赖:$pipinstall-rrequirements.txt


  使用API获取代理:运行代码后,访问http://127.0.0.1:5000/进入主页,如果显示'Welcome',证明成功启动。


一个免费的异步爬虫代理池


  访问http://127.0.0.1:5000/get可以获取一个可用代理。

一个免费的异步爬虫代理池

  也可以在程序代码中用相应的语言获取,例如:

一个免费的异步爬虫代理池

  Sanic性能测试


  使用wrk进行服务器压力测试。基准测试30秒,使用12个线程,并发400个http连接。测试http://127.0.0.1:3289/


一个免费的异步爬虫代理池


  我们看到了什么?平均每秒钟11387.89个请求,就问你们怕不怕。机器性能更好一下,就是一波DOS攻击了。


  以上介绍了关于一个免费的异步爬虫代理池的搭建思路,如果觉得免费的不好使用,可以付费购买使用的,毕竟还是代理精灵的使用效果好很多,IP质量高,IP有效率在95%以上。


相关文章内容简介
推荐阅读
  • 16 2019-10
    手机要怎么更换IP?

    现在手机的功能非常强大了,很多的工作都可以借助手机就可以完成,从pc端到移动端,我们的工作生活正在进行改变。那么,对于从事网络营销的人员,手机IP地址的切换就变得非常必要了。

  • 29 2019-11
    Scrapy框架中间件代理IP设置教程

    Scrapy框架中间件如何设置user agent以及配置代理IP进行伪装?下面我们一起来看看机灵代理带来的教程介绍,看看这两个步骤分别是如何实现的。

  • 07 2020-05
    代理IP池对爬虫有多重要

    在大数据时代,我们做一切事情感觉都离不了数据,利用数据采集进行数据分析,那这种数据采集是要去不同的网站上采集数据,但是如果特别多的网页,单单靠个人去爬取是不可能的,因为这

  • 09 2019-09
    反向代理如何获取真实IP?

    代理IP除了能够用于营销活动、爬虫工作之外,其实还有很多用途,不少大神开发了很多用途。如果你想知道在反向代理或者CDN情况下,想要获得真实的IP地址,要怎么进行操作,那就可不能错

  • 19 2019-07
    专业爬虫代理的优势有几点

    专业爬虫代理的优势有几点,如果是爬虫程序需要使用代理,建议找专业爬虫代理的!

  • 26 2019-06
    代理IP池多大比较合适?

    代理IP池多大比较合适?代理IP池的大小影响价格,有些人觉得自己使用的代理IP数量比较少,不需要使用多大的代理IP池,那么租用多大的代理IP池比较合适呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部