您的位置:首页 > 新闻资讯 >文章内容
代理IP定期爬取并检测是否可用
来源:互联网 作者:admin 时间:2019-08-06 15:49:05

    代理IP定期爬取并检测是否可用,这样代理IP池的使用性就会好很多,努力避免因为IP的失效影响工作。但也不能老盯着,最好可以弄个自动的程序,就是一个任务每隔一定时间去到目标代理IP提供网站去爬取可用数据存到mysql数据库,并且检测数据库已有数据是否可用,不可用就删除。


    1.编写提取代理ip到数据库的爬虫


    准备mysql表


代理IP定期爬取并检测是否可用


    创建爬虫工程,编写items.py(对应数据库的字段)


代理IP定期爬取并检测是否可用


    编写settings.py,编写spider,这里用到了bs4,需要自行安装。


    编写pipline,这里需要安装:pip install mysqlclient


    这里插入数据库之前做两个校验:数据是否存在、数据是否可用。


    测试爬虫scrapy crwal爬虫名


    3.到此我们的 提取代理ip到数据库的 爬虫就写好了,接下来就是我们的任务定时器的编写。


代理IP定期爬取并检测是否可用


    4.如果你是windows平台,cmd执行运行 python start.py , 任务就会一直执行,除非关掉cmd 。


    5.如果你是linux平台,最好编写一个.sh文件来执行,还可以把这个.sh搞成开机启动等等。


相关文章内容简介
推荐阅读
  • 21 2019-10
    代理IP怎么帮助实现挂机?

    游戏挂机能够让玩家即便不用操作,也能够在游戏里继续升级。如果只是短时间的挂机离开,那么普通的一些外挂就足够了,但是如果你是要挂机升级赚资源等等的话,那么就需要一些工具来协

  • 11 2019-04
    HTTP代理ip伪装用户爬取数据

    网络爬虫通过是采用HTTP代理ip伪装用户爬取数据,因为现在爬数据越来越难了,网站设了各种反爬,太难搞了,还是简单的网站基本没有什么反爬,一般弄些HTTP代理ip就能搞定了。

  • 23 2019-04
    机灵代理动态转发秒换IP,远离低效工作

    举个手数数,到现在谁还在手动换IP的,重启路由,或者是重新拨号换IP的。还是用机灵代理动态转发秒换IP,远离低效工作,效率杠杠的!

  • 21 2020-09
    ip代理服务器具备的特点

    按照现在的互联网趋势,很多网民都开始不只是停留在上网浏览信息,看看视频等休闲娱乐了,我们的工作也与网络进行了连接。这么一来,网络与我们的连接变得更深入,需要构建一个安全的

  • 09 2019-08
    http代理配合多台主机同时运行,爬取效率成倍增长

    http代理配合多台主机同时运行,爬取效率成倍增长!新手可能不知道,在规模采集数据时,如果同一台主机运行的,爬取效率有限;但是多台主机协同爬取,爬取效率必然成倍增长。

  • 03 2019-12
    免费IP可以怎么得到?

    经常在网上看到免费代理,这些免费代理IP可以从什么渠道找到呢?免费IP代理又适合用在什么地方呢?下面我们跟着机灵代理来认识一下。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部