您的位置:首页 > 新闻资讯 >文章内容
使用代理IP池怎么维护?
来源:互联网 作者:admin 时间:2019-09-04 10:48:39

  使用免费代理IP的时候,在爬取数据的时候,遇到了IP被封杀的情况。为了顺利开展工作,选用付费的代理IP,像机灵代理,以下分享爬虫工作经验,对代理IP池的维护提供一些见解。


使用代理IP池怎么维护


  在使用代理ip之前,首先要了解几样东西:


  一:对返回ip格式的操作


  json格式的数据可以直接请求后返回json数据进行操作包过提取,删除,增加。当然,在实际使用ip代理的时候最好先在浏览器中请求一次,复制下来新建一个py文件练习对其操作。


  二:ip的有效期


  现在大部分的ip代理都是有有效期的,我买的就是1-5分钟的有效期(蘑菇的有效期其实还是挺长的),当ip失效后你需要将此ip从ip池中删除。当ip不够的时候又要引入新的ip添加到当前的ip池中。要动态维护ip池。


  三:python3使用代理ip的方式


  以前我的python3使用代理ip也有格式,你爬取的是http用http,是https用https就行。


  四:异常处理


  再写爬虫的时候一定要对所有可能产生异常的操作进行try except的异常处理。异常又要注意是否为超时异常,还是ip不可用,过期的异常,还是操作dom树的时候产生的异常。不同的异常要采用不同的策略。(可用状态码,全局变量判断)。


  五:分析目标网站对ip的需求


  你需要设置ip池的最小和请求ip的个数不至于太大或太小,可以预先测试。打个比方你爬的网站同一个时段10个ip更换就不够了。你不至于开100个ip去爬吧,ip过期而没咋么用就是对资源的浪费。


  解决方向:


  先写个小程序操作返回的json数据测试。


  设置全局的列表ipdate[],全局的一个msg{}字典(其实字典就是列表中随机选的一个ip和端口,只不过通过记录标记可以很好的进行删除操作)。


  将请求ip的操作添加到全局列表(数组)中写成一个loadip()函数,以便判断ip不够时候即使添加(列表extend方法了解下,不是append哦)。


  写一个随机选ip的函数getproxies(),更换proxies{}里面的内容。同时msg也要更换。注意python函数改变全局变量需要在函数里先global msg声明。每次进行http(s)请求前执行一次更新操作。


  所有的操作都在try excpet操作,对不同的异常采用不同处理。比如(有的因为ip异常没爬到需要从爬,而有的因为dom结构异常就需要跳过)。


  当然实际处理可能会遇到各种问题,比如页面跳转重定向,ssl证书,有的网站也会卡浏览器名称,或者cookie。这里不做过多介绍了。


相关文章内容简介
推荐阅读
  • 03 2020-09
    爬虫代理ip​的特点

    爬虫采集在当今世界有着十分重要的地位,特别是对于一些数据分析行业来说,爬虫采集更是不可缺少的一步,爬虫要想顺利运行就必须拥有足够的代理ip,那么什么样的代理ip可以用来作爬虫

  • 12 2019-11
    使用代理IP能否指定host?

    代理IP的使用过程中,我们会遇到很多的疑问,因为代理IP能够应用在很多方面,不仅仅是可以搭配爬虫程序来使用。今天机灵代理就来为大家解答一个经常被提到的问题:

  • 18 2019-04
    使用爬虫代理的常见问题有哪些?

    使用爬虫代理的常见问题有哪些?大家对爬虫代理的了解有多少呢?在使用爬虫代理的过程中都会遇到哪些问题呢?我们一起来了解下。

  • 06 2020-03
    更换IP地址的重要性

    IP地址是一个人上网的根本,我们在上网的时候都是通过IP地址实现的,一台电脑只能够有一个IP地址,这个地址是被固定下来的,平常我们都会使用它来上网。其实长时间使用一个IP地址是非常

  • 14 2019-06
    国内普通匿名代理ip能用吗?

    国内普通匿名代理ip能用吗?代理ip的使用确实可以解决很多的问题,对一些工作起到很大的作用,不过这并不是代表着,使用了代理ip就可以无视反爬虫策略了。很多朋友认为,使用代理ip就可

  • 24 2020-04
    获取代理ip的渠道

    使用ip代理软件进行换ip操作是如今许多的网络工作者必备技能,很多人都喜欢利用ip代理来更换ip地址从而保证自身的网络安全,或者用于各种各样的网络推广业务,更换ip地址可以更好的防止

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部