您的位置:首页 > 新闻资讯 >文章内容
搭建一个爬虫代理IP池
来源:互联网 作者:admin 时间:2019-05-24 12:04:00

    代理对于爬虫行业来讲,是很熟悉的,因为基本上没有爬虫代理大部分的数据都拿不到手,毕竟都不是自家开的平台,想要拿数据肯定是不可能的,总有各种的陷阱等着爬虫。而爬虫代理就是一种解决陷阱的工具之一,使用的范围还是比较广的。


    如果手边没有趁手的爬虫代理IP池,自己搭建一个爬虫代理IP池也是很正常的,并不是很有难度。搭建过程如下:


    安装squid


    使用yum直接安装即可yum install squid -y,安装完成后配置文件在/etc/squid/目录下。


    配置basic认证


    不得不说现在网络上扫描器实在太多了。笔者在一台机器上使用默认端口3128开启了squid服务,没有配置访问认证,测试结束后忘记关闭squid服务,过了几个小时就发现服务器负载太高,查看日志(/var/log/squid/)发现是已经被人扫到并用上了。


搭建一个爬虫代理IP池


    看来必需要配置访问认证了


    1.生成passwords文件 在本机上执行


    # 安装htpasswd工具 yum install httpd-tools -y # 生成passwords文件 htpasswd -c passwords authorized_user


    2.输入两次密码后生成passwords文件


    配置squid认证 将passwords文件上传到爬虫服务器/etc/squid/目录下,编辑/etc/squid/squid.conf文件,添加


搭建一个爬虫代理IP池


    高匿配置


    squid默认配置为透明代理,通过squid发送请求时squid会添加x-forwarded-for与via请求头,对方会发现你在使用代理,并根据这个得知你的真实ip,对于爬取数据必需要使用高匿代理,在配置文件中添加如下内容


搭建一个爬虫代理IP池


    批量安装


    上面已经介绍了搭建与配置squid的步骤,下面介绍如何通过python批量安装。首先需要通过ssh连接到服务器,使用paramiko库可以通过ssh连接到远程服务器,建立连接后执行上面的命令就可以了,没什么可说的就直接贴代码了。


搭建一个爬虫代理IP池


    搭建一个爬虫代理IP池的过程就到此告一段落了,大家可以参考下这个搭建的过程。关于IP的来源,小编想说在网上找的免费代理可用性又太低,建议代理商家拿比较快,例如机灵代理这类的,有数量,有质量,搭建起来会比较快。


相关文章内容简介
推荐阅读
  • 12 2019-09
    用代理IP爬虫前 你必须懂的33个知识点(一)

    利用网络爬虫来进行大数据挖掘已经发展到一个比较成熟的地步了,而且现在互联网具有海量的信息,我们可以通过网络来进行学习。如果你想要了解爬虫以及大数据的相关知识,那么机灵代理

  • 28 2020-10
    简单实用的换IP方法

    在日常生活和工作过程中经常会遇到需要换IP的情况,因为一个IP频繁的操作就会导致IP被封掉,比如说需要投票,薅羊毛,网络推广等等。更换IP的方式有很多,今天就来给大家介绍一下IP是什

  • 14 2019-06
    QQ不想暴露IP可以用代理上网

    QQ不想暴露IP可以用代理上网,其实QQ软件本身是支持代理的设置,可以设置http代理和Socks5代理的。这方便了大家,假如不想被别人知道你的IP地址,也不想被被人知道你的所在地,那么就可以设

  • 14 2019-03
    为了保证安全,推荐使用HTTPS协议的代理

    很多因素都会影响网络爬虫的爬取,若是数据没有伪装好,这是必然会导致系统检测到问题,为了安全起见,网络爬虫应该怎么做?

  • 17 2019-04
    python爬虫策略:验证码、前端逆向、JS Hook

    python爬虫策略有哪些?说到应对反爬虫的技术,一般都是从行为模式模拟用户,代理IP切换IP突防,或者是模拟浏览器等等,这些都是一些必会的应对方法了,另外呢,还有一些网站会设有其他

  • 05 2019-08
    什么样的代理IP才具备高性价比

    什么样的代理IP才具备高性价比?随着互联网+的到来,网络用户越来越多,发展到现在即使是非常传统的行业都开始使用互联网,通过互联网吸引客户。如今无论是不是互联网企业都开始了大数

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部