您的位置:首页 > 新闻资讯 >文章内容
如何使用代理IP爬取搜狗微信文章?
来源:互联网 作者:admin 时间:2019-10-09 11:03:15

  如何使用代理IP进行搜狗微信文章爬取?网上看到有不少相关的文章,这类爬取自然是少不了使用代理IP跟反爬机制的破解,机灵代理总结了以下教程,方便大家能够在使用的时候进行参考。


如何使用代理IP爬取搜狗微信文章


  一、反爬虫机制处理思路:


  浏览器伪装、用户代理池;


  IP限制--------IP代理池;


  ajax、js异步-------抓包;


  验证码-------打码平台。


  二、散点知识:


  def process_request(): #处理请求


  request.meta["proxy"]=.... #添加代理ip


  scrapy中如果请求2次就会放弃,说明该代理ip不行。


  项目实现:关于python文章的抓取,抓取标题、标题链接、描述


  1、middlewares.py主要代码


  # -*- coding: utf-8 -*-

  import random

  from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware #代理ip,这是固定的导入

  from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware #代理UA,固定导入

  class IPPOOLS(HttpProxyMiddleware):

  def __init__(self,ip=''):

  '''初始化'''

  self.ip=ip

  def process_request(self, request, spider):

  '''使用代理ip,随机选用'''

  ip=random.choice(self.ip_pools) #随机选择一个ip

  print '当前使用的IP是'+ip['ip']

  try:

  request.meta["proxy"]="http://"+ip['ip']

  except Exception,e:

  print e

  pass

  ip_pools=[

  {'ip': '124.65.238.166:80'},

  # {'ip':''},

  ]

  class UAPOOLS(UserAgentMiddleware):

  def __init__(self,user_agent=''):

  self.user_agent=user_agent

  def process_request(self, request, spider):

  '''使用代理UA,随机选用'''

  ua=random.choice(self.user_agent_pools)

  print '当前使用的user-agent是'+ua

  try:

  request.headers.setdefault('User-Agent',ua)

  except Exception,e:

  print e

  pass

  user_agent_pools=[

  'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36',

  ]


  2、setting.py主要代码


  1 DOWNLOADER_MIDDLEWARES = {

  2 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

  3 'weixin.middlewares.IPPOOLS':124,

  4 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : 125,

  5 'weixin.middlewares.UAPOOLS':126

  6 }


  以上代码部分贴出了主要部分,具体步骤相信有爬取经验的已经非常熟悉,就不再一一详解了。


相关文章内容简介
推荐阅读
  • 07 2019-09
    推荐代理IP池的维护方法

    对于程序员而言,没有代理IP爬虫寸步难行,而且网络爬虫所需要用到的IP量又非常的大。要去跟网站的反爬虫策略去做对抗,我们需要搭建一个专门用于爬虫的代理IP池才行。如果对这个IP池去

  • 29 2019-08
    用独享IP好在哪里?

    代理IP根据类型的不同,也有不同的分类,之前一直抱怨免费代理IP不稳定的网友,自从换用了独享IP代理之后,就再也没吐槽过了。这独享IP的魔力就这么巨大吗?我们一起来看看它有什么好处。

  • 01 2019-10
    Python代码性能优化 代理IP用7点技巧帮助你

    现如今,用户体验的影响因素越来越重要,一个程序只有能够给用户带来好的体验,这样用户才会乐意使用,才能够留住用户。而性能就是影响用户使用的关键因素,所以用Python写代码的时候,

  • 18 2019-03
    爬虫使用的大量IP代理从哪里来的

    对IP需要量最大的项目之一,无疑是使用网络爬虫进行信息收集的企业或者项目,需要爬取的网页越多需求的IP量也越多,那么这些爬虫使用的大量IP从哪里来的?

  • 28 2019-06
    最新ip代理有什么用?

    最新ip代理有什么用?如果用到最新ip代理,IP资源的质量上会更好,使用效果也是出乎意料之外的,这对于工作都有什么好处呢?

  • 23 2019-11
    用代理IP爬虫要遵守规则

    用代理IP网络爬虫很多人已经见怪不怪了,甚至自己通过网络找到代理服务商购买代理IP服务,个人也能够简单开启爬虫项目,也能够用它来换IP。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部