您的位置:首页 > 新闻资讯 >文章内容
代理IP定期爬取并检测是否可用
来源:互联网 作者:admin 时间:2019-08-06 15:49:05

    代理IP定期爬取并检测是否可用,这样代理IP池的使用性就会好很多,努力避免因为IP的失效影响工作。但也不能老盯着,最好可以弄个自动的程序,就是一个任务每隔一定时间去到目标代理IP提供网站去爬取可用数据存到mysql数据库,并且检测数据库已有数据是否可用,不可用就删除。


    1.编写提取代理ip到数据库的爬虫


    准备mysql表


代理IP定期爬取并检测是否可用


    创建爬虫工程,编写items.py(对应数据库的字段)


代理IP定期爬取并检测是否可用


    编写settings.py,编写spider,这里用到了bs4,需要自行安装。


    编写pipline,这里需要安装:pip install mysqlclient


    这里插入数据库之前做两个校验:数据是否存在、数据是否可用。


    测试爬虫scrapy crwal爬虫名


    3.到此我们的 提取代理ip到数据库的 爬虫就写好了,接下来就是我们的任务定时器的编写。


代理IP定期爬取并检测是否可用


    4.如果你是windows平台,cmd执行运行 python start.py , 任务就会一直执行,除非关掉cmd 。


    5.如果你是linux平台,最好编写一个.sh文件来执行,还可以把这个.sh搞成开机启动等等。


相关文章内容简介
推荐阅读
  • 13 2020-08
    使用代理ip访问受限制的网站

    不知道大家有没有遇到这样的情况,访问网站的时候IP被限制,我们访问一些受地区限制的网站经常这样,因为有IP限制,所以我们没有办法继续浏览,其实是有代理IP就可以解决这个问题了,如

  • 21 2020-07
    丰富的节点资源有哪些优势

    随着代理ip的广泛使用,市场需求也是逐渐增加,如何选择一家ip资源丰富的代理服务平台,大家知道在百度搜索引擎输入“代理ip”将会出现很多,丰富的ip资源是选择代理ip的一个重要因素,

  • 21 2019-11
    了解代理IP的强大作用

    发现很多人就算用上了代理IP,甚至是花了钱购买了代理IP服务,但是对于代理IP能够帮助到大家做些什么还是非常不清晰。只是单纯用在换IP上面,似乎有些浪费了代理IP的作用了。

  • 10 2020-12
    什么IP代理软件最好用

    说实话,大部分人都很清楚iP的基本概念。当人们上网时,他们都使用自己的iP。一个ip地址可以登录许多不同的网站地址。每个人的ip地址都是唯一的,不能重复。这样的ip地址很特殊。在日常

  • 09 2019-08
    爬虫如何解决ip封锁问题?最佳方法用代理IP

    爬虫如何解决ip封锁问题?最佳方法用代理IP!在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝,

  • 14 2019-05
    依靠代理IP能做哪些事?

    依靠代理IP能做哪些事?网络自从普及之后,商机滚滚,就看你有没有抓住机会,就像网络销售,还是需要投广告的,或者使用一些工具来辅助的,比如代理IP。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部