您的位置:首页 > 新闻资讯 >文章内容
爬取网站的前期准备:网页分析、代理IP绕过反爬虫
来源:互联网 作者:admin 时间:2019-04-10 15:41:50

网络爬虫在爬取一个网站的信息之前,需要注意什么呢?我们通常需要进行网页的分析,还有反爬虫机制的研究,并准备好代理IP使用,可以找机灵代理的。也就是说,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。

当准备好之后,就可以开始进行爬虫代码的编写了。下面小编分享一个案例给大家看看。

1.需要爬取的东西

找到要爬取的网站,如下图。采集的是网站中的中文音译名字性别来源语种名字寓意名字印象名字含义6个数据。我分别设置namesChineseTransliterationnamesGendernamesFromLanguagenamesMoralnamesImpressionnamesMeaning等6个字段来存放相应的数据。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

2.防反爬措施

在这防反扒这一块我选择每发送一次requests请求更换一个User-AgentIP。User-Agent的更换我依靠第三方库fake_useragent来完成,在每次发送requests请求前通过{'User-Agent':str(UserAgent().random)}语句来获取一个随机User-Agent。关于代理IP这块我则是事先准备好IP存放到IP.txt文件中,每一次发送requests前从该文件中随机获取一个IP用于本次请求。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

3.关于网页解析

在网页解析这块我选择的是Python第三方库BeautifulSoup4,具体如何解析后期我再单独出一个教程吧,有不懂的地方可以在下方留言。

4.完整代码

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫


从上可知,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。嗯,对于爬取信息,其中最难的就是要研究对方网站,考虑如何绕过对方的反爬虫机制,这并不简单的,而代理IP是爬虫的好帮手,这是少不了得。

相关文章内容简介
推荐阅读
  • 22 2020-07
    重启路由器能不能换ip

    有时候IP被限制了,怎么换IP访问,重启路由器可以换IP吗?一般家庭的基于PPPOE拨号方式上网的,使用的是动态IP,可以更换IP,下面一起去看看具体方法:

  • 09 2020-11
    利用换IP软件来组建网络

    在工作中我们经常会遇到修改设备IP来组建网络的情况,其实是分几种情况的,接下来机灵小编给大家介绍一下。

  • 28 2020-01
    电脑可以换ip吗

    随着网络的不断发展,已经成为了我们生活中的一部分,想要上网就需要要有IP地址,相当于我们网络身份证,没有IP地址就没有办法上网。那么,电脑换IP有什么影响呢?

  • 22 2019-11
    Python怎么获取网页源码?

    Python跟代理IP是一组梦幻的搭配,很多网络工作者都非常喜欢。今天我们来聊聊Python怎么获取网页的源码?下面看看机灵代理带来的教程。

  • 14 2020-08
    怎么选代理ip的几种

    所谓的代理服务器,其实实际上跟我们平时上网的服务器非常相似,只不过通过代理,我们的ip可以进行一个中转来完成操作。

  • 17 2019-09
    免费IP代理与付费代理IP哪个好用?

    之前我们了解过免费代理ip的致命缺点​,当然不花一分钱就能够用上代理是好事,但是这好事的背后用起来肯定是有一定风险存在的。虽然付费代理是自己真金白银买回来,但是你买的不仅仅

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部