您的位置:首页 > 新闻资讯 >文章内容
爬虫实战案例:抓取京东图片
来源:互联网 作者:admin 时间:2019-10-26 10:28:02

  利用爬虫程序,我们可以实现不同的数据抓取,可以抓取文字信息,也可以抓取音频信息、图片信息等。机灵代理下面带来一个爬虫案例实战分享。


爬虫抓取京东图片

  爬虫如何爬取京东上的手机图片?


  代码如下:


  import re

  import urllib.request

  def craw(url,page):

  #获取网页源代码

  html1 = urllib.request.urlopen(url).read()

  html1 = str(html1)

  #对网页源码进行过滤,只保留和产品列表相关的信息

  pat1 = '

  '

  result1 = re.compile(pat1).findall(html1)

  result1 = result1[0]

  #print(result1)

  #再次过滤,提取网页中图片的链接,并将链接地址存储在列表中

  pat2 = ''

  imagelist = re.compile(pat2).findall(result1)

  x = 1

  #遍历列表,将链接存储到本地

  for imageurl in imagelist:

  imagename = "D:/jd/img1/" + str(page) + str(x) + ".jpg"

  imageurl = "http://" + imageurl

  try:

  urllib.request.urlretrieve(imageurl,filename=imagename)

  except urllib.error.URLError as e:

  if hasattr(e,"code"):

  x+=1

  if hasattr(e,"reason"):

  x+=1

  x+=1

  #通过for循环,将该分类下的所有网页都爬取一遍

  for i in range(1,88):

  url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)

  craw(url,i)


  通过以上操作,我们就能够顺利完成了抓取京东上的图片信息了。


相关文章内容简介
推荐阅读
  • 18 2019-03
    对于个人来说拉票数量有限,是否可以使用代理IP自动刷票?

    投票这个活动,一直是存在的,常见于朋友圈的投票,也有网络投票。对于个人来说,拉票数量有限,无法获得大量的票数,有些人为了拿到高票数,或许进行各种拉票,甚至刷票,这是怎么办

  • 04 2019-03
    爬虫代理IP的获取方式有哪些,该怎么选择呢

    ​随着互联网的迅猛发展,爬虫工作日益重要,而爬虫工作者一般都绕不过代理IP这个问题,为什么呢,这是因为在网络爬虫抓取信息的过程中,抓取频率高过了目标网站的设置阀值

  • 03 2020-07
    如何更改ip地址

    在日常生活中很多工作都要使用电脑来完成,但是很多时候网络ip都会受到限制,从而严重影响了工作的效率,这时我们就需要切换网络的ip来解决这个问题,那如何更改ip地址呢?这就要用到机

  • 08 2019-11
    区分线程IP池与独享IP池

    独享IP池是什么?线程IP池是什么?下面我们从概念以及二者的区别来进行分析,看看是否能够搞懂,帮助大家选择更合适的代理IP。

  • 14 2019-11
    网络营销补量工作如何利用代理IP开展?

    现在很多网络营销场景都需要我们去做一些补量工作,也就是俗称的刷数据,数据不仅是刷给甲方看,而且也要刷给乙方看,是什么意思呢?我们的数据有一定基础的时候,用户看到才会更加愿

  • 19 2019-08
    代理IP的直接转发与隧道转发有什么区别?

    使用代理IP的时候,不知道你是否有留意过会出现直连IP、隧道IP,这两种形式。这两种形式有什么区别呢,在选用代理IP的时候又应该选择哪一种更方便呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部