您的位置:首页 > 新闻资讯 >文章内容
爬取网站的前期准备:网页分析、代理IP绕过反爬虫
来源:互联网 作者:admin 时间:2019-04-10 15:41:50

网络爬虫在爬取一个网站的信息之前,需要注意什么呢?我们通常需要进行网页的分析,还有反爬虫机制的研究,并准备好代理IP使用,可以找机灵代理的。也就是说,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。

当准备好之后,就可以开始进行爬虫代码的编写了。下面小编分享一个案例给大家看看。

1.需要爬取的东西

找到要爬取的网站,如下图。采集的是网站中的中文音译名字性别来源语种名字寓意名字印象名字含义6个数据。我分别设置namesChineseTransliterationnamesGendernamesFromLanguagenamesMoralnamesImpressionnamesMeaning等6个字段来存放相应的数据。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

2.防反爬措施

在这防反扒这一块我选择每发送一次requests请求更换一个User-AgentIP。User-Agent的更换我依靠第三方库fake_useragent来完成,在每次发送requests请求前通过{'User-Agent':str(UserAgent().random)}语句来获取一个随机User-Agent。关于代理IP这块我则是事先准备好IP存放到IP.txt文件中,每一次发送requests前从该文件中随机获取一个IP用于本次请求。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

3.关于网页解析

在网页解析这块我选择的是Python第三方库BeautifulSoup4,具体如何解析后期我再单独出一个教程吧,有不懂的地方可以在下方留言。

4.完整代码

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫


从上可知,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。嗯,对于爬取信息,其中最难的就是要研究对方网站,考虑如何绕过对方的反爬虫机制,这并不简单的,而代理IP是爬虫的好帮手,这是少不了得。

相关文章内容简介
推荐阅读
  • 14 2020-04
    代理ip软件刷量效果如何

    网络更改ip地址,如果你是需要在网上进行推广的工作者,那么刷量工作是比较经常使用代理软件的一种。

  • 05 2019-05
    急需高质量的HTTP代理IP来救场

    急需高质量的HTTP代理IP来救场,有没有什么好的推荐呢?大家都知道,现在是大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP

  • 26 2019-06
    这类代理IP效率太低了不能用

    这类代理IP效率太低了不能用,因为代理IP的有效率影响项目的进程,太差的话会延迟很多的时间,那么哪些代理IP效率太低了不能用呢?

  • 10 2020-03
    电脑如何修改ip地址

    处在局域网中的计算机可能会遇到被网管限制带宽、限制浏览等情况,这些操作通常都是针对ip地址实现的,想要摆脱限制就需要更改ip地址,那么如何修更改ip地址呢?

  • 06 2019-12
    换IP的技术原理是什么?

    换IP这个操作,在当代互联网是非常常见的一种技术行为了,虽然使用代理IP的技术操作不用很复杂,但是这当中的原理,你是否认识?要了解代理IP能够起到换IP作用的原理,我们要先知道什么是

  • 02 2019-04
    爬虫案例:爬取张国荣最火的几首歌

    想要在音乐网上爬取一些歌,如何爬取?在爬取的过程中一般会遇到哪些问题呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部