您的位置:首页 > 新闻资讯 >文章内容
代理IP设置使用的五个不同方法
来源:互联网 作者:admin 时间:2019-08-05 17:13:30

    由于同一个IP反复爬取同一个网页,就很可能被封,所以如果需要爬虫出面进行爬取,这需要使用代理IP的,但是怎么使用代理IP呢?这里介绍代理IP设置使用的五个不同方法,大家可以参考下的。


    一、requests设置代理:


    import requests


    proxies = { "http": "http://192.10.1.10:8080", "https": "http://193.121.1.10:9080", }


    requests.get("http://targetwebsite.com", proxies=proxies)


    二、Selenium+Chrome设置代理:


    from selenium import webdriver


    PROXY = "192.206.133.227:8080"


    chrome_options = webdriver.ChromeOptions()


    chrome_options.add_argument('--proxy-server={0}'.format(PROXY))


    browser = webdriver.Chrome(chrome_options=chrome_options)


    browser.get('www.targetwebsize.com')


    print(browser.page_source)


    brsowser.close()


代理IP设置使用的五个不同方法


    三、Selenium+Phantomjs设置代理:


    # 利用DesiredCapabilities(代理设置)参数值,重新打开一个sessionId.


    proxy=webdriver.Proxy()


    proxy.proxy_type=ProxyType.MANUAL


    proxy.http_proxy='192.25.171.51:8080'


    # 将代理设置添加到webdriver.DesiredCapabilities.PHANTOMJS中


    proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)


    browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)


    browser.get('http://www.targetwebsize.com')


    print(browser.page_source)


    # 还原为系统代理只需将proxy_type重新设置一次


    proxy.proxy_type=ProxyType.DIRECT


    proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)


    browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)


代理IP设置使用的五个不同方法


    四、爬虫框架scrapy设置代理:


    在setting.py中添加代理IP


    PROXIES = ['http://173.207.95.27:8080',


    'http://111.8.100.99:8080',


    'http://126.75.99.113:8080',


    'http://68.146.165.226:3128']


    而后,在middlewares.py文件中,添加下面的代码。


    import scrapy from scrapy


    import signals


    import random


    classProxyMiddleware(object):


    ''' 设置Proxy '''


    def__init__(self, ip):


    self.ip = ip


    @classmethod


    deffrom_crawler(cls, crawler):


    return cls(ip=crawler.settings.get('PROXIES'))


    defprocess_request(self, request, spider):


    ip = random.choice(self.ip)


    request.meta['proxy'] = ip


    最后将我们自定义的类添加到下载器中间件设置中,如下。


    DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.ProxyMiddleware': 543,}


    五、Python异步Aiohttp设置代理:


    proxy="http://192.121.1.10:9080"


    asyncwithaiohttp.ClientSession()assession:


    asyncwithsession.get("http://python.org",proxy=proxy)asresp:


    print(resp.status)


    根据以上设置代理的方法,就可以爬取你想要的内容了。代理IP设置使用的五个不同方法,你都学会了么?有问题可以讨论下。


相关文章内容简介
推荐阅读
  • 18 2019-05
    普通匿名代理和高匿名代理风险不一样

    普通匿名代理和高匿名代理风险不一样,虽然二者同为匿名代理,但是从“普通”和“高”这形容词就可以看出来,二者是有区别的,区别在哪里呢?

  • 03 2019-10
    代理IP分享PHP获得IP地址的方式

    IP是我们在网络上的身份认证,代理IP的出现,让IP获取不再复杂,我们现在可以通过购买代理服务商的业务,来开展各项工作。机灵代理以下分享PHP获取IP地址的方法:

  • 06 2019-12
    HTTP代理服务器工作原理图解

    HTTP协议之前机灵代理​也做了不少相应的介绍,代理服务器也是要根据不同的网络协议来进行运作的。下面我们一同来看看HTTP代理服务器的工作原理:

  • 01 2019-06
    代理服务器可以进行IP加速

    代理服务器可以进行IP加速,一般游戏需要加速,或者看视频也可以IP加速的,这IP加速原理是怎样的呢?

  • 24 2019-05
    动态代理IP刷阅读量能刷出爆文吗

    动态代理IP刷阅读量能刷出爆文吗?大家有时候看到百万爆文,其实这真实的阅读量也能没有那么多,那么这是怎么来的呢?这与网络爬虫有关于,互联网上过半的流量来自于爬虫,还有些都是

  • 24 2019-06
    网络爬虫采集需要代理IP的帮助

    网络爬虫采集需要代理IP的帮助,日常生活中,大数据帮助电商平台打造更极致的用户体验,尤其是网购狂欢节,电商由于提前对消费者需求做了充分调研,因此更能抓住消费者的心理,通过大

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部