您的位置:首页 > 新闻资讯 >文章内容
爬取的代理ip不能用,要先进行检验
来源:互联网 作者:admin 时间:2019-08-13 10:40:28

    爬取的代理ip不能用,要先进行检验,这检验的过程是怎样的?如何免费构建自己的代理IP池?网上有很多公开的免费代理IP,下面我们用爬虫爬取这些IP并进行验证。


    爬来的IP不能保证都能用,所以爬取下来后需要检验,用爬取的代理ip访问网站,看状态码,是200就证明能用,保存到MongoDB非关系型数据库保存,mysql也行。


爬取的代理ip不能用,要先进行检验


    步骤:


    安装Mysql数据库,过程略


    python 引用 json threading BeautifulSoup


    建立多线程,在线程中爬取,检查ip是否可以使用(因为采集到的ip不一定是都能用的,只有当状态码是200的时候表明有响应,可以用),保存进数据库


    提供大量的User-Agent,为什么要这么多头的user agent呢,因为如果头都一样的话,人家很容易知道你这个是一个爬虫,所以你用很多头模仿很多用户在不同客客户端都访问就可以蒙混过关了。


    既然爬取的代理ip不能用,要先进行检验,不然用着就不能使用了,这非常麻烦。也可以向商家直接购买使用的,机灵代理质量不错,也可以试试的。


相关文章内容简介
推荐阅读
  • 05 2019-08
    代理IP能破ip限制也有安全隐患

    代理IP能破ip限制也有安全隐患,如果代理IP用得不对,这样很容易出问题的,尤其是免费的代理IP,那么有哪些安全隐患呢?

  • 20 2020-10
    如何正确的选择代理IP软件

    首先我们要清楚IP切换工具是分了免费和收费的两种版本。接下来就为大家详细介绍他们的优点和缺点。

  • 15 2020-01
    HTTP代理协议是什么?

    HTTP 协议极其庞杂,它影响着浏览器、爬虫、代理服务器、防火墙、CDN、Web 容器、微服务等诸多方面,自身的规范却并不统一,所要面对的各类软件的新旧版本也同时存在于网络上。在这种情况

  • 30 2020-04
    IP代理的作用

    网络现在已经是我们生活和工作中不能缺少的一部分,除了日常的娱乐灌水,很多的工作也是需要网络才可以完成,像问答推广、网络营销、数据采集等等,但是频繁的操作会让目标网站对你的

  • 24 2019-09
    使用代理IP完成自动投票

    代理IP的功能其实是非常强大的,除了我们常常听说的爬虫之外,还有其他渠道也能够派上用场,而其中有一些说不动你也接触过。像是互联网营销这一块,现在线上营销的比重是越来越大,大

  • 29 2020-04
    IP代理都有什么用处

    代理服务器英文全称是(Proxy Server),也叫做代理IP,其功能就是代理网络用户去取得网络信息。形象的说:它是网络信息的中转站。代理服务器就好象一个大的Cache,这样就能显著提高浏览速

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部