您的位置:首页 > 新闻资讯 >文章内容
如何使用代理IP爬取搜狗微信文章?
来源:互联网 作者:admin 时间:2019-10-09 11:03:15

  如何使用代理IP进行搜狗微信文章爬取?网上看到有不少相关的文章,这类爬取自然是少不了使用代理IP跟反爬机制的破解,机灵代理总结了以下教程,方便大家能够在使用的时候进行参考。


如何使用代理IP爬取搜狗微信文章


  一、反爬虫机制处理思路:


  浏览器伪装、用户代理池;


  IP限制--------IP代理池;


  ajax、js异步-------抓包;


  验证码-------打码平台。


  二、散点知识:


  def process_request(): #处理请求


  request.meta["proxy"]=.... #添加代理ip


  scrapy中如果请求2次就会放弃,说明该代理ip不行。


  项目实现:关于python文章的抓取,抓取标题、标题链接、描述


  1、middlewares.py主要代码


  # -*- coding: utf-8 -*-

  import random

  from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware #代理ip,这是固定的导入

  from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware #代理UA,固定导入

  class IPPOOLS(HttpProxyMiddleware):

  def __init__(self,ip=''):

  '''初始化'''

  self.ip=ip

  def process_request(self, request, spider):

  '''使用代理ip,随机选用'''

  ip=random.choice(self.ip_pools) #随机选择一个ip

  print '当前使用的IP是'+ip['ip']

  try:

  request.meta["proxy"]="http://"+ip['ip']

  except Exception,e:

  print e

  pass

  ip_pools=[

  {'ip': '124.65.238.166:80'},

  # {'ip':''},

  ]

  class UAPOOLS(UserAgentMiddleware):

  def __init__(self,user_agent=''):

  self.user_agent=user_agent

  def process_request(self, request, spider):

  '''使用代理UA,随机选用'''

  ua=random.choice(self.user_agent_pools)

  print '当前使用的user-agent是'+ua

  try:

  request.headers.setdefault('User-Agent',ua)

  except Exception,e:

  print e

  pass

  user_agent_pools=[

  'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

  'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36',

  ]


  2、setting.py主要代码


  1 DOWNLOADER_MIDDLEWARES = {

  2 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

  3 'weixin.middlewares.IPPOOLS':124,

  4 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : 125,

  5 'weixin.middlewares.UAPOOLS':126

  6 }


  以上代码部分贴出了主要部分,具体步骤相信有爬取经验的已经非常熟悉,就不再一一详解了。


相关文章内容简介
推荐阅读
  • 20 2019-08
    用动态IP游戏号会被封吗?

    广大玩家和游戏工作室都会遇到封号问题,严重甚至会被“拉黑”,一旦违反平台规则被封号,之前投入的时间、精力就白费了。由于每个游戏平台会有不同的地方,那么我们应该怎么才能高效

  • 17 2019-06
    分布式爬虫需要代理IP优化采集

    分布式爬虫需要代理IP优化采集,因为技术人员在使用分布式爬虫,或是多进程爬虫的时候,目标一旦限制,很有可能会使用到代理IP。因此对于代理IP的寻找还是需要重视的。

  • 20 2019-03
    刷流量用什么IP代理软件好?

    自网络发展以来,商家都是跟着流量走,流量越多的地方,商机自然越多,获利也越容易。为了吸引客户,商家会首先自己刷些流量,增加些人气。这刷流量是有技巧,不然容易被系统查到

  • 13 2020-05
    代理IP作用有哪些

    代理IP用到的领域越来越广,如爬虫、投票、抢购等等,那么具体代理IP有什么用?能做些什么呢?

  • 26 2019-04
    搭建代理服务器的步骤

    免费的代理IP不好用,想自己搭建代理服务器?那么你知道搭建代理服务器的步骤是怎样的吗?其实搭建的方法也不难,主要是先找个vps服务器,然后再进行搭建的,准备工作和方法如下:

  • 09 2020-12
    国内好用的ip代理软件

    网络世界非常广泛,也有不同类型的网络用户。有些人通过互联网享受生活,而有些人需要通过互联网完成工作。面对不同的网络使用场景,我们需要使用不同的ip资源。

在线咨询
大客户经理
大客户经理
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部