您的位置:首页 > 新闻资讯 >文章内容
爬取网站的前期准备:网页分析、代理IP绕过反爬虫
来源:互联网 作者:admin 时间:2019-04-10 15:41:50

网络爬虫在爬取一个网站的信息之前,需要注意什么呢?我们通常需要进行网页的分析,还有反爬虫机制的研究,并准备好代理IP使用,可以找机灵代理的。也就是说,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。

当准备好之后,就可以开始进行爬虫代码的编写了。下面小编分享一个案例给大家看看。

1.需要爬取的东西

找到要爬取的网站,如下图。采集的是网站中的中文音译名字性别来源语种名字寓意名字印象名字含义6个数据。我分别设置namesChineseTransliterationnamesGendernamesFromLanguagenamesMoralnamesImpressionnamesMeaning等6个字段来存放相应的数据。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

2.防反爬措施

在这防反扒这一块我选择每发送一次requests请求更换一个User-AgentIP。User-Agent的更换我依靠第三方库fake_useragent来完成,在每次发送requests请求前通过{'User-Agent':str(UserAgent().random)}语句来获取一个随机User-Agent。关于代理IP这块我则是事先准备好IP存放到IP.txt文件中,每一次发送requests前从该文件中随机获取一个IP用于本次请求。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

3.关于网页解析

在网页解析这块我选择的是Python第三方库BeautifulSoup4,具体如何解析后期我再单独出一个教程吧,有不懂的地方可以在下方留言。

4.完整代码

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫


从上可知,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。嗯,对于爬取信息,其中最难的就是要研究对方网站,考虑如何绕过对方的反爬虫机制,这并不简单的,而代理IP是爬虫的好帮手,这是少不了得。

相关文章内容简介
推荐阅读
  • 26 2019-07
    HTTP代理IP质量太差怎么找个好的?

    HTTP代理IP质量太差怎么找个好的?网络爬虫在如今的互联网领域有着特别的意义,比如我们耳熟能详的大数据,它的发展就离不开网络爬虫。然而网络爬虫也是有天敌的,那就是目标网站的反爬

  • 12 2019-04
    没有客户?可以用代理IP去爬取用户信息吗?

    没有客户?可以用代理IP去爬取用户信息吗?有时候大家总会接到各类的推销电话,我们的信息是如何泄露出去的呢?这些业务人员是怎么拿到我们的电话信息?下面就以装修行业来说下:

  • 27 2019-06
    HTTP没有HTTPS安全为什么更受欢迎

    HTTP没有HTTPS安全为什么更受欢迎?就连使用HTTP代理的用户也更多,这是为什么呢?

  • 25 2019-03
    当爬虫使用单ip和随机cookie无效时,采取什么措施突破限制?

    网站的IP限制以及cookie限制,是比较普遍的,不管去采集哪些网站的资料,都是需要考虑这两个问题,我们要想弄懂这些,首先要搞清楚网站设置的阈值,然后根据找到的范围进行调整爬虫速度

  • 03 2019-04
    封锁IP破解--代理IP伪装不同用户

    如果遇到的网站反爬虫机制比较严,网络爬虫怎么入手爬取比较好?一般上来讲,只要利益大于成本,不管反爬虫机制有多严,网络爬虫都是有办法的,大不了多找些工具,把程序做好些。

  • 03 2019-06
    Socks5代理功能的设置方法

    有些游戏可以设置代理功能的,例如逆水寒,可以设置Socks5代理使用,那么这Socks5代理功能的设置方法是如何的呢?

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961