您的位置:首页 > 新闻资讯 >文章内容
Python如何抓取网络图片?
来源:互联网 作者:admin 时间:2019-11-28 10:51:21

  使用Python来进行网络爬虫,我们可以配置购买的代理IP,或者是使用代理IP池。Python可以帮助我们完成很多工作,今天我们来介绍其中一个使用技巧给大家。

Python如何抓取网络图片

  Python3要如何获取网络图片并且保存到本地?下面看看机灵代理带来的教程,以下是代码部分:


  import requests


  from bs4 import BeautifulSoup


  from urllib import request


  import sys


  import re


  import os


  def getNews(title,url,m):


  Hostreferer = {


  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'


  }


  req = request.Request(url)


  response = request.urlopen(req)


  #过滤非utf-8的网页新闻


  response = response.read().decode('utf-8',"ignore")


  soup = BeautifulSoup(response,'lxml')


  tag = soup.find('div',class_='article')


  if tag == None:


  return 0#获取文章内容


  rep = re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+<>?、~*()]+")


  title = rep.sub('',title)


  title = title.replace(':',':')


  filename = sys.path[0]+"/news/"+title+".txt"


  with open(filename,'w',encoding='utf8') as file_object:


  file_object.write("网址:"+url)


  file_object.write("\n")


  file_object.write(title)


  file_object.write(tag.get_text())


  i = 0


  for image in tag.find_all('div','img_wrapper'):


  title_img = title +str(i)


  # 保存图片


  #判断目录是否存在


  if (os.path.exists(sys.path[0]+"/news/"+title)):


  pass


  else:


  #不存在,则新建目录


  os.mkdir(sys.path[0]+"/news/"+title)


  os.chdir(sys.path[0]+"/news/"+title)


  file_name = "http://news.***.com.cn/"+image.img.get('src').replace('//','')


  html = requests.get(file_name, headers=Hostreferer)


  # 图片不是文本文件,以二进制格式写入,所以是html.content


  title_img = title_img +".jpg"


  f = open(title_img, 'wb')


  f.write(html.content)


  f.close()


  i+=1


  print('成功爬取第', m,'个新闻',title)


  return 0


  这样我们就可以实现将网络图片给抓取下来,然后保存到自己的本地文件啦,是不是非常方便呢?


相关文章内容简介
推荐阅读
  • 29 2019-07
    IP代理匿名度不同用哪种好?

    IP代理匿名度不同用哪种好?代理有着不用说大家也知道的重要性,不管是做CPA还是做点击亦或者投票,代理都能帮我们一下,虽然帮的忙不大,但是却很重要。但是很多人只是会用代理,但代理

  • 04 2019-02
    认识Scrapy爬虫框架,采用Scrapy提高效率

    虽然各个网站的反爬虫都不少,并进行了各种的限制,比如访问频率限制,这大大影响了网络爬虫的效率,让爬虫不能按时完成任务,这该怎么好?

  • 30 2020-03
    换ip软件能保护隐私吗

    在网络时代,在用网络的过程中个人信息是很容易被泄露的。被一些商家收集后,个人信息、消费习惯等,都会被利用,对我们使用网络带来了一些隐患。那么,换IP能保护隐私吗?下面就一起

  • 07 2020-08
    手机代理ip用哪家的呢

    很多时候,我们都需要用到手机代理ip,因为当ip被限制的时候,我们等不到它解封了。因此我们需要备一款手机代理ip。

  • 22 2019-03
    Scrapy爬取知乎------配置代理IP和UA

    爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?

  • 18 2020-02
    如何理解http代理的含义

    代理IP是什么?上网的时候,我们为什么会需要用到代理IP?是每一个用户都会有换IP的需求吗?当然并不是每一个人都一定要用代理IP才能够上网,今天我们来认识http代理的意义。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部