您的位置:首页 > 新闻资讯 >文章内容
爬虫实战案例:抓取京东图片
来源:互联网 作者:admin 时间:2019-10-26 10:28:02

  利用爬虫程序,我们可以实现不同的数据抓取,可以抓取文字信息,也可以抓取音频信息、图片信息等。机灵代理下面带来一个爬虫案例实战分享。


爬虫抓取京东图片

  爬虫如何爬取京东上的手机图片?


  代码如下:


  import re

  import urllib.request

  def craw(url,page):

  #获取网页源代码

  html1 = urllib.request.urlopen(url).read()

  html1 = str(html1)

  #对网页源码进行过滤,只保留和产品列表相关的信息

  pat1 = '

  '

  result1 = re.compile(pat1).findall(html1)

  result1 = result1[0]

  #print(result1)

  #再次过滤,提取网页中图片的链接,并将链接地址存储在列表中

  pat2 = ''

  imagelist = re.compile(pat2).findall(result1)

  x = 1

  #遍历列表,将链接存储到本地

  for imageurl in imagelist:

  imagename = "D:/jd/img1/" + str(page) + str(x) + ".jpg"

  imageurl = "http://" + imageurl

  try:

  urllib.request.urlretrieve(imageurl,filename=imagename)

  except urllib.error.URLError as e:

  if hasattr(e,"code"):

  x+=1

  if hasattr(e,"reason"):

  x+=1

  x+=1

  #通过for循环,将该分类下的所有网页都爬取一遍

  for i in range(1,88):

  url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)

  craw(url,i)


  通过以上操作,我们就能够顺利完成了抓取京东上的图片信息了。


相关文章内容简介
推荐阅读
  • 03 2020-03
    寻找ip在线代理的途径

    为什么代理ip成为了互联网中不可缺少的重要一环?明明只是一个换ip软件,但是却在很多方面都少不了它的作用,这是什么原因呢?下面我们一起来关注。

  • 09 2020-01
    什么是动态ip​代理?

    什么是动态ip​代理?随着科学技术的不断变化和发展,我们会发现互联网它在现实生活当中所起到的作用变得越来越多,基本上大家如果能够掌握一些比较高超的互联网技巧的话,就一定能够让

  • 06 2019-03
    代理服务器缓存,提高用户访问速度

    代理服务器有缓存的功能,可以提高访问速度,因此可以使用游戏的加速,降低网络延迟。今天我们就来看看关于代理服务器的缓存功能,web缓存的种类有哪些?下面一起跟小编去瞧一瞧。

  • 21 2019-10
    网站如何利用代理IP获益?

    网站通过代理IP也能够赚到钱?现在建立一个网站并不难,有很多的模板可以直接套用,而且操作起来也非常就简单。如果觉得网站太复杂,甚至可以创立一个个人博客也可以。

  • 31 2021-03
    代理IP时需要注意哪些方面

    近年来,大数据行业发展迅速,给互联网上的各行各业带来了活力。HTTP代理IP作为一种有效的资源,异军突起。面对市场上众多的IP供应商,越来越多的用户在挑刺。在这里,我们带大家来统计

  • 23 2020-03
    新媒体与代理ip相辅相成

    如今是网络时代,立足于网络而兴起的行业,以热度和广泛度来排列名次,第一名莫过于新媒体,这一行业的利润之高,来钱之快,恐怕是令很多人眼红,只是也有很多人并不知道,为行业奠定

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部