您的位置:首页 > 新闻资讯 >文章内容
一个免费的异步爬虫代理池
来源:互联网 作者:admin 时间:2019-03-22 18:05:00

  由于网络流量不断增加,而且恶意爬虫遍地,许多网站为了保护自己都设置了大量的反爬虫。对面日益增加的反爬虫技术,网络爬虫要想突破,必须要借用各种的工具,比如代理IP。对于爬虫来说,可能需要大量的代理IP,这需要找到代理IP池使用,那么如何一个免费的异步爬虫代理池呢?


  采用最新最快的Python技术——异步(Async),编写了一个免费的异步爬虫代理池,以Pythonasyncio为基础,充分利用Python的异步性能,异步处理比同步处理能提升成百上千倍的效率,速度堪比GO语言。


  通过爬虫抓取互联网上免费代理网站的IP,并且进行异步检测是否可用,如果可用就放入数据库。定时对数据库中的代理进行维护,然后通过webapi的形式供外部使用。


  可以使用了sanic,一个异步网络框架。所以建议运行Python环境为Python3.5+,并且sanic不支持Windows系统,Windows用户可以考虑使用UbuntuonWindows。


  项目主要几大模块分别是爬取模块,存储模块,校验模块,调度模块,接口模块。


  安装Redis:数据库使用了Redis,Redis是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了Redis。安装方法请参照官网指南。


  安装依赖:$pipinstall-rrequirements.txt


  使用API获取代理:运行代码后,访问http://127.0.0.1:5000/进入主页,如果显示'Welcome',证明成功启动。


一个免费的异步爬虫代理池


  访问http://127.0.0.1:5000/get可以获取一个可用代理。

一个免费的异步爬虫代理池

  也可以在程序代码中用相应的语言获取,例如:

一个免费的异步爬虫代理池

  Sanic性能测试


  使用wrk进行服务器压力测试。基准测试30秒,使用12个线程,并发400个http连接。测试http://127.0.0.1:3289/


一个免费的异步爬虫代理池


  我们看到了什么?平均每秒钟11387.89个请求,就问你们怕不怕。机器性能更好一下,就是一波DOS攻击了。


  以上介绍了关于一个免费的异步爬虫代理池的搭建思路,如果觉得免费的不好使用,可以付费购买使用的,毕竟还是代理精灵的使用效果好很多,IP质量高,IP有效率在95%以上。


相关文章内容简介
推荐阅读
  • 18 2019-04
    国内最好用的代理IP池推荐

    国内最好用的代理IP池推荐:不管是出于什么原因需要更换IP地址的,既然是想到要使用代理IP池了,这数量估计也没有少了,那么找哪家好呢?

  • 29 2019-10
    分布式爬虫如何提取代理IP?

    分布式爬虫提取代理IP用哪一种方式比较好?我们要怎么提取才能够按照自己的需求来合理使用代理IP呢?机灵代理来为大家带来讲解。

  • 05 2019-12
    廉价代理IP能够用吗?

    我们在选择一样商品的时候,价格往往会是影响我们购买的主要因素,在代理IP的选择上,自然也是受到价格因素的影响。所以,一些比较便宜的代理IP也非常多人选择,用户被价格吸引过去,

  • 18 2019-04
    偶像信息怎么利用代理IP进行采集?

    大部分代理IP,其实都是拿来进行信息的采集,那么偶像信息怎么利用代理IP进行采集?你会因为一首歌,一部电影,一个角色而喜欢一个偶像。因为喜欢他,所以想了解他很多东西。作为爬虫

  • 14 2019-06
    爬虫用代理IP能自动切换吗?

    爬虫用代理IP能自动切换吗?所有写搜索的朋友估计都有过和我一样的烦恼,那就是如果不断的对某一个网站进行爬行,很容易被封IP。这样的话,爬虫用代理IP能自动切换吗?

  • 05 2019-06
    换IP地址还能上网吗?

    换IP地址还能上网吗?通常换IP有两种情况,一种是更改了不能上网了,一种是更改了可以上网。一般来说是没什么影响的,如果所更换的IP地址是正确的

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部