您的位置:首页 > 新闻资讯 >文章内容
如何使用代理IP爬取搜狗微信文章?
来源:互联网 作者:admin 时间:2019-10-09 11:03:15

  如何使用代理IP进行搜狗微信文章爬取?网上看到有不少相关的文章,这类爬取自然是少不了使用代理IP跟反爬机制的破解,机灵代理总结了以下教程,方便大家能够在使用的时候进行参考。


如何使用代理IP爬取搜狗微信文章


  一、反爬虫机制处理思路:


  浏览器伪装、用户代理池;


  IP限制--------IP代理池;


  ajax、js异步-------抓包;


  验证码-------打码平台。


  二、散点知识:


  def process_request(): #处理请求


  request.meta["proxy"]=.... #添加代理ip


  scrapy中如果请求2次就会放弃,说明该代理ip不行。


  项目实现:关于python文章的抓取,抓取标题、标题链接、描述


  1、middlewares.py主要代码


  # -*- coding: utf-8 -*-

  import random

  from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware #代理ip,这是固定的导入

  from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware #代理UA,固定导入

  class IPPOOLS(HttpProxyMiddleware):

  def __init__(self,ip=''):

  '''初始化'''

  self.ip=ip

  def process_request(self, request, spider):

  '''使用代理ip,随机选用'''

  ip=random.choice(self.ip_pools) #随机选择一个ip

  print '当前使用的IP是'+ip['ip']

  try:

  request.meta["proxy"]="http://"+ip['ip']

  except Exception,e:

  print e

  pass

  ip_pools=[

  {'ip': '124.65.238.166:80'},

  # {'ip':''},

  ]

  class UAPOOLS(UserAgentMiddleware):

  def __init__(self,user_agent=''):

  self.user_agent=user_agent

  def process_request(self, request, spider):

  '''使用代理UA,随机选用'''

  ua=random.choice(self.user_agent_pools)

  print '当前使用的user-agent是'+ua

  try:

  request.headers.setdefault('User-Agent',ua)

  except Exception,e:

  print e

  pass

  user_agent_pools=[

  'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36',

  ]


  2、setting.py主要代码


  1 DOWNLOADER_MIDDLEWARES = {

  2 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

  3 'weixin.middlewares.IPPOOLS':124,

  4 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : 125,

  5 'weixin.middlewares.UAPOOLS':126

  6 }


  以上代码部分贴出了主要部分,具体步骤相信有爬取经验的已经非常熟悉,就不再一一详解了。


相关文章内容简介
推荐阅读
  • 01 2019-04
    体育用品电商用代理IP怎么辅助运营?

    代理IP的使用比较广泛,比如体育用品电商。近日,各项体育赛事不断,昨天孙杨1500米夺冠刷屏了,估计最近各类体育会在全国再风靡一阵子,体育用品店肯定也是大卖。体育商品运营借助代理

  • 18 2019-06
    免费代理服务器为什么少人用

    免费代理服务器为什么少人用,现在很多人还是愿意租个代理服务器使用的,免费的不好吗?何必要浪费钱呢?

  • 13 2020-08
    代理IP地址又是什么

    在使用网络做数据采集,效果补量等业务的时候通常会使用到代理IP,那么什么是代理IP呢?代理IP地址又是什么呢?

  • 08 2020-09
    性价比高的网络安全方式

    网络时代我们很多操作都无法脱离互联网来完成,随着更多的工作以及生活应用需要网络,我们对互联网的操作就更加需要注意。

  • 18 2019-04
    偶像信息怎么利用代理IP进行采集?

    大部分代理IP,其实都是拿来进行信息的采集,那么偶像信息怎么利用代理IP进行采集?你会因为一首歌,一部电影,一个角色而喜欢一个偶像。因为喜欢他,所以想了解他很多东西。作为爬虫

  • 08 2019-05
    免费IP代理安全隐患多

    免费IP代理安全隐患多,凡是免费的东西,大家都要考虑下为什么会免费给你使用,总是要你付出点什么的,或许你自己并没有发现而已,比如你的数据,你的信息,或者带点病毒之类的。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部