您的位置:首页 > 新闻资讯 >文章内容
Python如何抓取网络图片?
来源:互联网 作者:admin 时间:2019-11-28 10:51:21

  使用Python来进行网络爬虫,我们可以配置购买的代理IP,或者是使用代理IP池。Python可以帮助我们完成很多工作,今天我们来介绍其中一个使用技巧给大家。

Python如何抓取网络图片

  Python3要如何获取网络图片并且保存到本地?下面看看机灵代理带来的教程,以下是代码部分:


  import requests


  from bs4 import BeautifulSoup


  from urllib import request


  import sys


  import re


  import os


  def getNews(title,url,m):


  Hostreferer = {


  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'


  }


  req = request.Request(url)


  response = request.urlopen(req)


  #过滤非utf-8的网页新闻


  response = response.read().decode('utf-8',"ignore")


  soup = BeautifulSoup(response,'lxml')


  tag = soup.find('div',class_='article')


  if tag == None:


  return 0#获取文章内容


  rep = re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+<>?、~*()]+")


  title = rep.sub('',title)


  title = title.replace(':',':')


  filename = sys.path[0]+"/news/"+title+".txt"


  with open(filename,'w',encoding='utf8') as file_object:


  file_object.write("网址:"+url)


  file_object.write("\n")


  file_object.write(title)


  file_object.write(tag.get_text())


  i = 0


  for image in tag.find_all('div','img_wrapper'):


  title_img = title +str(i)


  # 保存图片


  #判断目录是否存在


  if (os.path.exists(sys.path[0]+"/news/"+title)):


  pass


  else:


  #不存在,则新建目录


  os.mkdir(sys.path[0]+"/news/"+title)


  os.chdir(sys.path[0]+"/news/"+title)


  file_name = "http://news.***.com.cn/"+image.img.get('src').replace('//','')


  html = requests.get(file_name, headers=Hostreferer)


  # 图片不是文本文件,以二进制格式写入,所以是html.content


  title_img = title_img +".jpg"


  f = open(title_img, 'wb')


  f.write(html.content)


  f.close()


  i+=1


  print('成功爬取第', m,'个新闻',title)


  return 0


  这样我们就可以实现将网络图片给抓取下来,然后保存到自己的本地文件啦,是不是非常方便呢?


相关文章内容简介
推荐阅读
  • 02 2020-07
    代理IP是保证爬虫正常工作的必要条件

    网络爬虫在如今的互联网领域有着特别的意义,比如我们耳熟能详的大数据,它的发展就离不开网络爬虫。然而网络爬虫也是有天敌的,那就是目标网站的反爬虫策略,爬虫在工作过程中要时刻

  • 10 2019-07
    代理怎么获取流量?

    代理如何获取流量?代理服务器可以简称代理,在网上的过程中,很多人都需要使用代理的,无论是直接还是间接,还有主动使用代理或者被动使用代理。那么代理如何获取流量呢?我们一起去

  • 27 2020-10
    代理ip​确保网络不受限

    经常上网的人都会遇到这么一个问题,IP地址被网站封禁导致无法正常访问了。这是由于网站认为你的IP地址访问量过大,危害到了网站所以把你拒之门外了,这种问题其实非常常见,解决方法

  • 10 2019-05
    http代理受欢迎的原因

    http代理受欢迎的原因都有哪些?代理逐渐被大家熟悉,有些工作或者生活都需要使用代理,比如在我们浏览网站的时候,有时候会需要代理ip。之所以使用代理ip,是因为我们有时候需要保护自

  • 02 2021-03
    代理IP​能避免网络攻击吗

    随着互联网的快速发展,网络安全已经成为一个重要的问题。以前只能在科幻电影里看到的网络入侵可能会发生在你身上。例如,像代理ip这样的工具可以避免网络攻击并保护我们的安全吗?

  • 01 2020-09
    代理IP对于爬虫的重要性

    大家都说现在是大数据时代,是python爬虫的天下,但python爬虫也是有天敌的,随着网络爬虫的日渐壮大,反爬虫也在不断进化,若想顺应时代发展,更好的突破网站反爬虫机制,拥有一款好的代

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部