您的位置:首页 > 新闻资讯 >文章内容
scylla可作爬虫的代理IP池吗?搭建代理IP池方法
来源:互联网 作者:admin 时间:2019-03-25 14:49:15

  网站平台出于各方面的考虑,都会有自己的一些保护措施,为了避免禁止恶意爬虫的大量采集给网站造成不好的影响,网站的反爬虫机制越加完善。这对于网络爬虫来说,这并不是一件好事,越是严格,代表着要花更多的精力去解决这个反爬问题。


  有时候还要花成本去购买代理IP使用,如果不想花成本,那就需要我们找到免费的代理IP池,那么如何搭建免费代理IP池呢?scylla可作爬虫的代理IP池吗?下面小编介绍下关于搭建代理IP池方法:


  一、免费开源代理ip池--Scylla


  Scylla是一款高质量的免费代理IP池工具,仅支持Python3.6。特性如下:


  1.无头浏览器(headlessbrowsercrawling)爬虫;


  2.易用的JSONAPI;


  3.简单但美观的web用户界面,基于TypeScript和React(例如,代理的地理分布);


  4.最少仅用一条命令即可启动;


  5.自动化的代理IP爬取与验证;


  6.最少仅用一行代码即可与Scrapy和requests进行集成。


  二、抓取免费IP搭建代理ip池


  1.先导入相关的模块


  import requests


  from lxml import etree


  import re


  import time


  2.定义函数,爬取网页信息


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  得到响应后,就是要提取页面的信息了,先用xpath表达式得到信息,包括IP地址、是否匿名、类型、连接时间、存活时间等,提取之后的内容用字典来盛装,然后返回该字典。


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  接下来就将上面得到的字典信息存入文件,存入之前要先进行第一次的检验,就是筛选出存活时间>100天,还有速度等限制条件的,这样至少可以保证得到的IP生命力是比一般的那些顽强。


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  然后就是主函数,在这个函数中实现调用其他函数,实现整个程序的功能,因为只是用来检验能否用该方法得到有效的IP,所以我的循环range(1, 2)只爬取了一页的内容。


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  到这儿整个程序执行之后就可以得到有效的IP了,部分结果如下图:


scylla可作爬虫的代理IP池吗?搭建代理IP池方法


  以上就是关于免费的代理IP池的搭建,当然搭建起来之后,如果需要进行使用,还是需要先进行检测的,否则这IP可能率会相对低上许多。


  若是想要继续了解关键IP检测的方法,可以关注代理精灵的,代理精灵每天都提供一些免费的IP,可供使用,先到先得。


相关文章内容简介
推荐阅读
  • 18 2019-06
    哪些网络用户喜欢使用代理服务器

    哪些网络用户喜欢使用代理服务器?代理服务器与服务器是不一样的,很多人使用了代理服务器,但其本身可能不知道,也有些人主动去使用代理服务器的,因为代理服务器可以突破IP网络的限

  • 15 2019-07
    http代理和动态vps换IP哪个好?

    http代理和动态vps换IP哪个好?如果需要更换ip,可以通过多种方式进行ip更换的,怎么换呢?可以使用http代理和动态vps换IP!二者有什么区别呢?实际上,http代理和动态vps换IP都是可以换ip的,区

  • 25 2019-06
    QQ设置http代理上网

    QQ设置http代理上网,这是可以实现的,目前QQ支持http代理以及Socks5代理的。

  • 03 2019-06
    用了ip代理服务器软件打不开网页

    用了ip代理服务器软件打不开网页,这是怎么回事呢?到底是ip代理服务器软件有问题,是什么原因呢?

  • 05 2019-07
    IP被封后三种换IP的方法

    被封IP,这是很常见的事情了,关键是被封后如何解决问题呢?下面小编给大家介绍IP被封后三种换IP的方法。

  • 03 2019-06
    使用ip代理进行多账号操作

    偶尔需要使用ip代理进行多账号操作,对于ip代理的使用,如何选择呢?ip代理池其实就是一堆可以用来做代理访问的Pool,作为ServiceProvider它对外提供可用的ip代理及端口。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961