您的位置:首页 > 新闻资讯 >文章内容
代理IP设置使用的五个不同方法
来源:互联网 作者:admin 时间:2019-08-05 17:13:30

    由于同一个IP反复爬取同一个网页,就很可能被封,所以如果需要爬虫出面进行爬取,这需要使用代理IP的,但是怎么使用代理IP呢?这里介绍代理IP设置使用的五个不同方法,大家可以参考下的。


    一、requests设置代理:


    import requests


    proxies = { "http": "http://192.10.1.10:8080", "https": "http://193.121.1.10:9080", }


    requests.get("http://targetwebsite.com", proxies=proxies)


    二、Selenium+Chrome设置代理:


    from selenium import webdriver


    PROXY = "192.206.133.227:8080"


    chrome_options = webdriver.ChromeOptions()


    chrome_options.add_argument('--proxy-server={0}'.format(PROXY))


    browser = webdriver.Chrome(chrome_options=chrome_options)


    browser.get('www.targetwebsize.com')


    print(browser.page_source)


    brsowser.close()


代理IP设置使用的五个不同方法


    三、Selenium+Phantomjs设置代理:


    # 利用DesiredCapabilities(代理设置)参数值,重新打开一个sessionId.


    proxy=webdriver.Proxy()


    proxy.proxy_type=ProxyType.MANUAL


    proxy.http_proxy='192.25.171.51:8080'


    # 将代理设置添加到webdriver.DesiredCapabilities.PHANTOMJS中


    proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)


    browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)


    browser.get('http://www.targetwebsize.com')


    print(browser.page_source)


    # 还原为系统代理只需将proxy_type重新设置一次


    proxy.proxy_type=ProxyType.DIRECT


    proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)


    browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)


代理IP设置使用的五个不同方法


    四、爬虫框架scrapy设置代理:


    在setting.py中添加代理IP


    PROXIES = ['http://173.207.95.27:8080',


    'http://111.8.100.99:8080',


    'http://126.75.99.113:8080',


    'http://68.146.165.226:3128']


    而后,在middlewares.py文件中,添加下面的代码。


    import scrapy from scrapy


    import signals


    import random


    classProxyMiddleware(object):


    ''' 设置Proxy '''


    def__init__(self, ip):


    self.ip = ip


    @classmethod


    deffrom_crawler(cls, crawler):


    return cls(ip=crawler.settings.get('PROXIES'))


    defprocess_request(self, request, spider):


    ip = random.choice(self.ip)


    request.meta['proxy'] = ip


    最后将我们自定义的类添加到下载器中间件设置中,如下。


    DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.ProxyMiddleware': 543,}


    五、Python异步Aiohttp设置代理:


    proxy="http://192.121.1.10:9080"


    asyncwithaiohttp.ClientSession()assession:


    asyncwithsession.get("http://python.org",proxy=proxy)asresp:


    print(resp.status)


    根据以上设置代理的方法,就可以爬取你想要的内容了。代理IP设置使用的五个不同方法,你都学会了么?有问题可以讨论下。


相关文章内容简介
推荐阅读
  • 02 2019-07
    怎么找http或者socks代理

    有些项目需要的代理ip比较多,IP量不足,怎么办呢?想要建个代理ip池,难的是怎么找http或者socks代理,你用什么数据库都行,mysql,mongodb或者redis,就是简单存一个ip和port的地址,然后需要写

  • 23 2019-04
    IP代理的动态转发速度比较慢,有没有办法解决?

    IP代理的动态转发速度比较慢,有没有办法解决?一些经常使用动态转发的用户可能也有发现的,虽然动态转发优点不少,但缺点也有的。

  • 20 2019-03
    动态ip代理解决不了抓取问题,哪里出问题了?

    网络爬虫配上动态IP代理,基本上都能顺利的抓取到信息,因为使用了动态IP代理就可以解决频率限制的问题,可以一直进行数据的抓取工作。但有时候,即使使用了动态IP代理,还是出问题了,

  • 25 2019-02
    Java爬虫之匿名代理IP的获取

    爬虫,AI一直是近年来为之关注的焦点,Java以自己独有的严格的语言约束和庞大且成熟的各种框架,成为企业一度的选择,也成为当今码农必知必会的编程语言。

  • 21 2019-03
    使用代理IP池伪装爬虫IP地址可以继续爬

    爬虫的IP地址如果没有伪装好,这是非常容易被封的,影响效率不说,还拿不到数据。因此,对于爬虫而言,代理IP池是非常重要的。如果爬虫使用了高质量的代理IP池,可以很好的伪装自己的IP

  • 26 2020-04
    ip代理软件有哪几种类型

    ip代理就是通过代理服务器进行ip地址跳转的技术,一般而言需要使用代理ip技术的地方有很多,特别是爬虫或者游戏多开都离不开代理ip的帮助,在使用代理ip的过程当中,我们发现了代理ip有几

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部