您的位置:首页 > 新闻资讯 >文章内容
如何使用代理IP爬取搜狗微信文章?
来源:互联网 作者:admin 时间:2019-10-09 11:03:15

  如何使用代理IP进行搜狗微信文章爬取?网上看到有不少相关的文章,这类爬取自然是少不了使用代理IP跟反爬机制的破解,机灵代理总结了以下教程,方便大家能够在使用的时候进行参考。


如何使用代理IP爬取搜狗微信文章


  一、反爬虫机制处理思路:


  浏览器伪装、用户代理池;


  IP限制--------IP代理池;


  ajax、js异步-------抓包;


  验证码-------打码平台。


  二、散点知识:


  def process_request(): #处理请求


  request.meta["proxy"]=.... #添加代理ip


  scrapy中如果请求2次就会放弃,说明该代理ip不行。


  项目实现:关于python文章的抓取,抓取标题、标题链接、描述


  1、middlewares.py主要代码


  # -*- coding: utf-8 -*-

  import random

  from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware #代理ip,这是固定的导入

  from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware #代理UA,固定导入

  class IPPOOLS(HttpProxyMiddleware):

  def __init__(self,ip=''):

  '''初始化'''

  self.ip=ip

  def process_request(self, request, spider):

  '''使用代理ip,随机选用'''

  ip=random.choice(self.ip_pools) #随机选择一个ip

  print '当前使用的IP是'+ip['ip']

  try:

  request.meta["proxy"]="http://"+ip['ip']

  except Exception,e:

  print e

  pass

  ip_pools=[

  {'ip': '124.65.238.166:80'},

  # {'ip':''},

  ]

  class UAPOOLS(UserAgentMiddleware):

  def __init__(self,user_agent=''):

  self.user_agent=user_agent

  def process_request(self, request, spider):

  '''使用代理UA,随机选用'''

  ua=random.choice(self.user_agent_pools)

  print '当前使用的user-agent是'+ua

  try:

  request.headers.setdefault('User-Agent',ua)

  except Exception,e:

  print e

  pass

  user_agent_pools=[

  'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36',

  ]


  2、setting.py主要代码


  1 DOWNLOADER_MIDDLEWARES = {

  2 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

  3 'weixin.middlewares.IPPOOLS':124,

  4 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : 125,

  5 'weixin.middlewares.UAPOOLS':126

  6 }


  以上代码部分贴出了主要部分,具体步骤相信有爬取经验的已经非常熟悉,就不再一一详解了。


相关文章内容简介
推荐阅读
  • 31 2019-05
    IP代理能提高业务效率

    IP代理能提高业务效率,因为IP代理能够快速的切换IP地址,让我们继续工作。

  • 28 2019-04
    机灵代理解决爬取频率过高问题

    如果大家想要快速的爬取信息,可以使用机灵代理解决爬取频率过高问题,这也是大部分爬虫所采取的应对措施。不然IP被封,怎么处理呢?

  • 20 2019-03
    JavaScript渲染的网页,为什么使用IP代理也获取不了

    JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那

  • 10 2019-01
    爬虫用代理IP突破限制就能高枕无忧了吗

    代理IP可以说是爬虫的好帮手,不管是什么的项目,都需要用到代理IP进行访问的突破,否则爬虫无法进行大量的采集工作。爬虫用代理IP突破限制就能高枕无忧了吗?

  • 19 2019-07
    专业爬虫代理的优势有几点

    专业爬虫代理的优势有几点,如果是爬虫程序需要使用代理,建议找专业爬虫代理的!

  • 30 2019-06
    租用ip代理池几点注意事项

    租用ip代理池几点注意事项,现在大数据还是非常的受欢迎的,大部分的互联网企业都使用了大数据,可以利用爬虫抓取大量的信息来挖掘有价值的数据,能及时知道竞争对手的信息,能第一时

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961