您的位置:首页 > 新闻资讯 >文章内容
爬取网站的前期准备:网页分析、代理IP绕过反爬虫
来源:互联网 作者:admin 时间:2019-04-10 15:41:50

网络爬虫在爬取一个网站的信息之前,需要注意什么呢?我们通常需要进行网页的分析,还有反爬虫机制的研究,并准备好代理IP使用,可以找机灵代理的。也就是说,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。

当准备好之后,就可以开始进行爬虫代码的编写了。下面小编分享一个案例给大家看看。

1.需要爬取的东西

找到要爬取的网站,如下图。采集的是网站中的中文音译名字性别来源语种名字寓意名字印象名字含义6个数据。我分别设置namesChineseTransliterationnamesGendernamesFromLanguagenamesMoralnamesImpressionnamesMeaning等6个字段来存放相应的数据。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

2.防反爬措施

在这防反扒这一块我选择每发送一次requests请求更换一个User-AgentIP。User-Agent的更换我依靠第三方库fake_useragent来完成,在每次发送requests请求前通过{'User-Agent':str(UserAgent().random)}语句来获取一个随机User-Agent。关于代理IP这块我则是事先准备好IP存放到IP.txt文件中,每一次发送requests前从该文件中随机获取一个IP用于本次请求。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

3.关于网页解析

在网页解析这块我选择的是Python第三方库BeautifulSoup4,具体如何解析后期我再单独出一个教程吧,有不懂的地方可以在下方留言。

4.完整代码

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫


从上可知,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。嗯,对于爬取信息,其中最难的就是要研究对方网站,考虑如何绕过对方的反爬虫机制,这并不简单的,而代理IP是爬虫的好帮手,这是少不了得。

相关文章内容简介
推荐阅读
  • 14 2019-03
    对于爬虫来说,代理IP是否能用是非常重要的

    对于爬虫来说,代理IP是否能用,这是非常重要的。有没有什么方法可以检测这些代理IP是否能用呢?有的,比如直接用浏览器访问自己的服务器来测试,同时也可以从服务器端下手,毕竟代理IP

  • 19 2019-07
    使用http代理的三大优势

    使用http代理有什么优势?很多人使用互联网时,需要突破一些限制,比如他们需要人工注册、需要网页拥有大量的阅读量、需要不同的IP地址去投票点击等等,然而,一个人的力量是有限的,而

  • 10 2019-06
    可以自动设置代理服务器吗?

    可以自动设置代理服务器吗?很多时候都要设置代理服务器使用的,每次都设置来设置去的老麻烦了,如果不使用还需要关闭,能不能自动设置代理服务器呢?我们来试试:

  • 07 2019-03
    网络爬虫怎么突破反爬虫高效爬取数据

    因为网络爬虫的存在,很多企业或者个人都使用了爬虫去别的平台采集数据,因此网站不得不设置反爬虫,但是呢你有招数,我也有套路。下面就去看看爬虫怎么处理网站的反爬虫,如何技巧性

  • 14 2019-10
    对比优质代理IP与普通代理IP的区别

    使用优质的代理IP跟普通的代理IP之间会有差别吗?在使用中它们会有什么不同的效果?为什么那么多的专业爬虫工作者更愿意花更多的钱去购买优质的代理IP服务呢?

  • 23 2019-10
    代理IP如何筛选特定地区?

    如果购买代理IP服务的时候,发现有些地区的ip对我没有用,想指定地区提取ip,能够实现吗?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部