您的位置:首页 > 新闻资讯 >文章内容
代理IP定期爬取并检测是否可用
来源:互联网 作者:admin 时间:2019-08-06 15:49:05

    代理IP定期爬取并检测是否可用,这样代理IP池的使用性就会好很多,努力避免因为IP的失效影响工作。但也不能老盯着,最好可以弄个自动的程序,就是一个任务每隔一定时间去到目标代理IP提供网站去爬取可用数据存到mysql数据库,并且检测数据库已有数据是否可用,不可用就删除。


    1.编写提取代理ip到数据库的爬虫


    准备mysql表


代理IP定期爬取并检测是否可用


    创建爬虫工程,编写items.py(对应数据库的字段)


代理IP定期爬取并检测是否可用


    编写settings.py,编写spider,这里用到了bs4,需要自行安装。


    编写pipline,这里需要安装:pip install mysqlclient


    这里插入数据库之前做两个校验:数据是否存在、数据是否可用。


    测试爬虫scrapy crwal爬虫名


    3.到此我们的 提取代理ip到数据库的 爬虫就写好了,接下来就是我们的任务定时器的编写。


代理IP定期爬取并检测是否可用


    4.如果你是windows平台,cmd执行运行 python start.py , 任务就会一直执行,除非关掉cmd 。


    5.如果你是linux平台,最好编写一个.sh文件来执行,还可以把这个.sh搞成开机启动等等。


相关文章内容简介
推荐阅读
  • 07 2019-09
    使用代理IP与User Agent实现隐藏

    要想爬虫工作顺利开展,我们需要使用大量的IP,并且要对IP地址进行一定的隐藏,这样才能够减少网站封杀我们IP的几率。所以我们需要利用User Agent和代理IP来进行身份隐藏。

  • 10 2019-07
    http代理能有效切换IP

    http代理能有效切换IP,如果需要切换ip,可以考虑使用http代理的,http代理的使用场景有:

  • 14 2019-10
    解析短效代理IP的使用优点

    代理IP有这么多不同的选择,短效的代理IP是什么类型?选择它对我们的业务有什么好处呢?今天,机灵代理给大家分享下这个话题,为大家日后选择提供帮助。

  • 13 2019-08
    新手对代理IP比较疑惑的问题

    新手对代理IP比较疑惑的问题,这里列举了几个,新手可以来了解下,加深对代理IP的认识。

  • 13 2019-09
    代理IP知识:爬虫如何进行数据采集?

    爬虫这个词我们经常听说,可以对于没有进行过爬虫工作的人来说,可能还是没有什么概念。在过去代理IP还没用于爬虫的时候,爬虫工作非常复杂麻烦,现在有了这类工具协助,爬虫的门槛变

  • 17 2019-05
    代理IP要合理使用避免网站排名出问题

    代理IP要合理使用避免网站排名出问题,如果滥用代理IP,导致网站被发现,后果是很严重的。每一个经营网站的人员应该都有这样的体会,这几年的白帽SEO越来越难做了,伴随搜索引擎技术的

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部