您的位置:首页 > 新闻资讯 >文章内容
爬虫实战案例:抓取京东图片
来源:互联网 作者:admin 时间:2019-10-26 10:28:02

  利用爬虫程序,我们可以实现不同的数据抓取,可以抓取文字信息,也可以抓取音频信息、图片信息等。机灵代理下面带来一个爬虫案例实战分享。


爬虫抓取京东图片

  爬虫如何爬取京东上的手机图片?


  代码如下:


  import re

  import urllib.request

  def craw(url,page):

  #获取网页源代码

  html1 = urllib.request.urlopen(url).read()

  html1 = str(html1)

  #对网页源码进行过滤,只保留和产品列表相关的信息

  pat1 = '

  '

  result1 = re.compile(pat1).findall(html1)

  result1 = result1[0]

  #print(result1)

  #再次过滤,提取网页中图片的链接,并将链接地址存储在列表中

  pat2 = ''

  imagelist = re.compile(pat2).findall(result1)

  x = 1

  #遍历列表,将链接存储到本地

  for imageurl in imagelist:

  imagename = "D:/jd/img1/" + str(page) + str(x) + ".jpg"

  imageurl = "http://" + imageurl

  try:

  urllib.request.urlretrieve(imageurl,filename=imagename)

  except urllib.error.URLError as e:

  if hasattr(e,"code"):

  x+=1

  if hasattr(e,"reason"):

  x+=1

  x+=1

  #通过for循环,将该分类下的所有网页都爬取一遍

  for i in range(1,88):

  url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)

  craw(url,i)


  通过以上操作,我们就能够顺利完成了抓取京东上的图片信息了。


相关文章内容简介
推荐阅读
  • 01 2019-10
    详解代理IP的工作原理

    代理IP是怎么起到作用的?它的工作原理是什么?或许对于一般使用者而言,只要代理IP能够奏效,完成相应的工作那么实现过程原理可以不用去理解,但是如果你对这方面感兴趣,想要进行一番研

  • 30 2019-05
    增加IP流量用http代理可以吗

    增加IP流量用http代理可以吗?毫不夸张的说,现在就是一个流量的时代,哪里有流量,哪里就有商机,商家也是喜欢往流量大的地方去。但是流量没有那么容易获得,我们是否可以通过认为增加

  • 21 2019-06
    服务器根据HTTP头信息分析用户有没有使用代理

    服务器根据HTTP头信息分析用户有没有使用代理,HTTP代理按匿名度可分为透明代理、普匿代理和高匿代理。如何知道我们使用的是哪种代理呢?我们可以根据代理访问对方服务器所带的HTTP头信息

  • 24 2019-06
    网络爬虫采集需要代理IP的帮助

    网络爬虫采集需要代理IP的帮助,日常生活中,大数据帮助电商平台打造更极致的用户体验,尤其是网购狂欢节,电商由于提前对消费者需求做了充分调研,因此更能抓住消费者的心理,通过大

  • 23 2019-02
    爬虫伪装浏览器和设置代理的方法

    大部分的网站为了避免爬虫的恶意访问,会设置一些反爬虫机制,常见的反爬虫机制主要有:

  • 20 2020-04
    怎么挑到最优质的代理ip

    我们平常选取代理商的情况下,是经过哪些渠道呢?是直接通过网上查找,还是朋友推荐?不论是哪一种渠道,在选取代理商的情况下,我们都要认真的对代理商的资质。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部