您的位置:首页 > 新闻资讯 >文章内容
代理IP爬虫代码分享
来源:互联网 作者:admin 时间:2020-06-22 09:27:13

  使用代理IP爬取网站,我们能够从不同类型的网站来获取信息,但是面对不同网站的爬取策略,我们需要进行不同的规划。通过一个具体的案例,大家可以感受一下爬取的过程是如何实现的。



  机灵代理分享爬取视频网站的代码案例给大家,详情代码如下:


  #对梨视频的视频爬取


  import re,random


  import requests


  from lxml import etree


  from multiprocessing.dummy import Pool


  pool=Pool(4)


  #定义一个函数,传送每一个url,下载视频


  def downloadDate(url):


  #content爬取二进制使用


  return requests.get(url=url,headers=headers).content


  #定义一个函数,存储每一个视频


  def saveDate(data):


  name=str(random.randint(0,10000))+’mp4′


  with open(name,’wb’)as


  fp:fp.write(data)


  print(name,’下载成功’)


  url=‘https://www.pearvideo.com/category_1’


  headers={


  “User-Agent”:“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/73.0.3683.103 Safari/537.36″}


  page_text=requests.get(url=url,headers=headers).text


  tree=etree.HTML(page_text)li_list=tree.xpath(‘//ul[ id=”listvideoListUl”]/li’)


  #定义一个空列表存放所有的视频链接


  urls=[]


  for li in li_list:


  detail_url=‘https://www.pearvideo.com/’+li.xpath(‘./div/a/ href’)[0]pages_text=requests.get(url=detail_url,headers=headers).text ex=‘srcUrl=”(.*?)”,vdoUrl’video_url=re.findall(ex,pages_text,re.S)[0]urls.append(video_url)


  #在耗时较为严重的地方使用线程池,视频的请求下载及持久化存储


  #让函数对urls中的每一个元素进行异步网络请求下载


  #函数不能传参,不能加括号


  #datas是一个列表,存储的是所有的视频二进制的数据datas=pool.map(downloadDate,urls)pool.map(saveDate,datas)pool.close()


  #join的意思是让主线程等待子线程全部结束后再结束pool.join()


  #在获取视频链接的时候发现视频并不是存储在标签中,而是在js中的变量里,


  #此时我们只能使用支持各种匹配的正则来获取链接


  “””


  var contId=”1565375″,liveStatusUrl=”liveStatus.jsp”,liveSta=””,playSta=”1″,autoPlay=!1,isLiving=!1,isVrVideo=!1,hdflvUrl=””,sdflvUrl=””,hdUrl=””,sdUrl=””,ldUrl=””,srcUrl=”https://video.pearvideo.com/mp4/short/20190612/cont-1565375-14010027-hd.mp4″,vdoUrl=srcUrl,skinRes=”//www.pearvideo.com/domain/skin”,videoCDN=”//video.pearvideo.com”;“””


相关文章内容简介
推荐阅读
  • 22 2019-07
    代理IP时效多久?

    代理IP时效多久?初次接触代理IP的朋友会发现,代理IP的时效比较短,有几分钟的,十几分钟的,或者是半小时的等等。很多用户会问,这个时效是什么意思?是怎么计算的,不同时效的单价有

  • 01 2019-07
    游戏IP限制代理IP能解决吗?

    游戏IP限制代理IP能解决吗?这是问题,很多游戏玩家都比较关注的,尤其是现在玩游戏的玩家越来越多了。但是呢,不管是个人还是工作室,如果玩的游戏要多开,都要注意被封号的问题,大

  • 08 2020-06
    选择代理IP的原因

    现在网络发展的很快速,网络带来的不仅有好处也带来了一些弊端,例如容易泄露个人隐私,如果不想被追踪,可以隐藏IP地址避免被追踪,这也是很多人选择代理IP的原因。

  • 29 2019-03
    动态IP代理哪家质量不错?推荐测试这家!

    连接网络都是要使用IP地址的,如今连接网络的设备众多,如果都使用了固定IP,这必定是不够用的,再说现在IPV6还不能广泛使用,那么大家都能正常使用网络,这些IP地址从哪里来的呢?

  • 16 2020-03
    电脑ip代理软件哪个好

    目前,在互联网世界活跃着这么一群人,他们需要人工注册、需要网页拥有大量的阅读量、需要不同的IP地址去投票点击等等,然而,一个人的力量是有限的,而发动数千上万人帮忙也是天方夜

  • 26 2019-06
    爬虫被识别是不是用了透明代理

    爬虫被识别是不是用了透明代理?有时候爬虫在采集数据时,使用代理IP,有的代理IP没事,有的代理IP直接重定向,这是不是代理IP质量问题?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部