您的位置:首页 > 新闻资讯 >文章内容
scylla可作爬虫的代理IP池吗?搭建代理IP池方法
来源:互联网 作者:admin 时间:2019-03-25 14:49:15

  网站平台出于各方面的考虑,都会有自己的一些保护措施,为了避免禁止恶意爬虫的大量采集给网站造成不好的影响,网站的反爬虫机制越加完善。这对于网络爬虫来说,这并不是一件好事,越是严格,代表着要花更多的精力去解决这个反爬问题。


  有时候还要花成本去购买代理IP使用,如果不想花成本,那就需要我们找到免费的代理IP池,那么如何搭建免费代理IP池呢?scylla可作爬虫的代理IP池吗?下面小编介绍下关于搭建代理IP池方法:


  一、免费开源代理ip池--Scylla


  Scylla是一款高质量的免费代理IP池工具,仅支持Python3.6。特性如下:


  1.无头浏览器(headlessbrowsercrawling)爬虫;


  2.易用的JSONAPI;


  3.简单但美观的web用户界面,基于TypeScript和React(例如,代理的地理分布);


  4.最少仅用一条命令即可启动;


  5.自动化的代理IP爬取与验证;


  6.最少仅用一行代码即可与Scrapy和requests进行集成。


  二、抓取免费IP搭建代理ip池


  1.先导入相关的模块


  import requests


  from lxml import etree


  import re


  import time


  2.定义函数,爬取网页信息


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  得到响应后,就是要提取页面的信息了,先用xpath表达式得到信息,包括IP地址、是否匿名、类型、连接时间、存活时间等,提取之后的内容用字典来盛装,然后返回该字典。


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  接下来就将上面得到的字典信息存入文件,存入之前要先进行第一次的检验,就是筛选出存活时间>100天,还有速度等限制条件的,这样至少可以保证得到的IP生命力是比一般的那些顽强。


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  然后就是主函数,在这个函数中实现调用其他函数,实现整个程序的功能,因为只是用来检验能否用该方法得到有效的IP,所以我的循环range(1, 2)只爬取了一页的内容。


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  到这儿整个程序执行之后就可以得到有效的IP了,部分结果如下图:


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  以上就是关于免费的代理IP池的搭建,当然搭建起来之后,如果需要进行使用,还是需要先进行检测的,否则这IP可能率会相对低上许多。


  若是想要继续了解关键IP检测的方法,可以关注代理精灵的,代理精灵每天都提供一些免费的IP,可供使用,先到先得。


相关文章内容简介
推荐阅读
  • 28 2019-05
    HTTP代理的两种版本选择

    HTTP代理的两种版本选择,即免费版和付费版两种,大家喜欢哪种呢?从成本上来说,大家自然是更加喜欢免费的,不过这也有缺点。HTTP代理的付费版也有与优缺点的,我们一起来瞧一瞧:

  • 21 2019-10
    小红书用代理IP刷量

    小红书经过修整后,又重新上线了。作为一个流量比较多的种草平台,小红书是品牌打动年轻一代的一个重要渠道。那么,我们能够如何让账号快速涨粉呢?

  • 23 2019-05
    爬虫要了解代理IP等反反爬虫技术

    爬虫要了解代理IP等反反爬虫技术,学习爬虫,是需要了解关于代理IP的一些知识,当然了,仅仅是了解代理IP也是不够了,还有各种反爬虫,不然写的爬虫无法找到突破口进行抓取信息的。另外

  • 11 2019-09
    代理IP教你获取静态IP

    随着国内网民数量的增长,IP地址资源是越来越紧张了。IP现在分为2种形式,动态IP跟静态IP,这2种类型也是代理IP在提供服务的可选方案。为什么有些时候我们会需要用到静态IP呢?

  • 20 2020-02
    搭建修改ip地址的代理ip池

    为什么有些爬虫采集的技术人员购买了代理ip还会自己搭建一个ip池,自己搭建ip池有哪些好处?

  • 16 2019-04
    分布式爬虫缺陷,爬得越快封得也越快,http代理能解决吗?

    分布式爬虫缺陷,爬得越快封得也越快,http代理能解决吗?确实,在网站来说,爬得越快就证明你越有问题,对于这类的爬虫,网站是毫不手软的。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部