您的位置:首页 > 新闻资讯 >文章内容
爬取网站的前期准备:网页分析、代理IP绕过反爬虫
来源:互联网 作者:admin 时间:2019-04-10 15:41:50

网络爬虫在爬取一个网站的信息之前,需要注意什么呢?我们通常需要进行网页的分析,还有反爬虫机制的研究,并准备好代理IP使用,可以找机灵代理的。也就是说,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。

当准备好之后,就可以开始进行爬虫代码的编写了。下面小编分享一个案例给大家看看。

1.需要爬取的东西

找到要爬取的网站,如下图。采集的是网站中的中文音译名字性别来源语种名字寓意名字印象名字含义6个数据。我分别设置namesChineseTransliterationnamesGendernamesFromLanguagenamesMoralnamesImpressionnamesMeaning等6个字段来存放相应的数据。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

2.防反爬措施

在这防反扒这一块我选择每发送一次requests请求更换一个User-AgentIP。User-Agent的更换我依靠第三方库fake_useragent来完成,在每次发送requests请求前通过{'User-Agent':str(UserAgent().random)}语句来获取一个随机User-Agent。关于代理IP这块我则是事先准备好IP存放到IP.txt文件中,每一次发送requests前从该文件中随机获取一个IP用于本次请求。

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

3.关于网页解析

在网页解析这块我选择的是Python第三方库BeautifulSoup4,具体如何解析后期我再单独出一个教程吧,有不懂的地方可以在下方留言。

4.完整代码

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫

爬取网站的前期准备:网页分析、代理IP绕过反爬虫


从上可知,爬取网站的前期准备:网页分析、代理IP绕过反爬虫。嗯,对于爬取信息,其中最难的就是要研究对方网站,考虑如何绕过对方的反爬虫机制,这并不简单的,而代理IP是爬虫的好帮手,这是少不了得。

相关文章内容简介
推荐阅读
  • 05 2019-06
    HTTP代理ip和socks5代理ip可以混用吗

    HTTP代理ip和socks5代理ip可以混用吗?有些朋友分不清什么是HTTP代理ip,什么是socks5代理ip,经常将两者搞混,结果买错了产品,甚至有的客户想将错就错,问我HTTP代理ip能不能当成socks5代理ip用,

  • 30 2019-05
    爬虫工程师用代理IP应对反爬虫机制

    爬虫工程师用代理IP应对反爬虫机制,这是比较常见的。反爬虫机制对于爬虫工程师来说并不陌生,可以说爬虫与反爬虫是相爱相杀的,没有爬虫就不存在反爬虫,没有了反爬虫,爬虫也不用发

  • 26 2019-03
    浅谈http代理服务器地址该如何选择?

    在选择http代理服务器时,可以根据自己需要的时间长短自行选择,之后就可以在网上提取相应信息,一般网站都会给客户一个下载链接让他们自行下载,也可以选择那些浏览器多开的不同IP自动

  • 20 2019-05
    代理IP有免费和付费两种类型

    代理服务器,你是否使用过?生活和工作中,越来越多场景会出现需要使用代理的情况。对于ip代理地址,代理IP有免费和付费两种类型,那么这两种不同类型有什么区别?

  • 20 2019-04
    嫌弃代理IP质量差?机灵代理自建代理服务器

    嫌弃代理IP质量差?机灵代理自建代理服务器,代理IP高质量,你最好的工作伙伴!小编作为一名90后的老网民,曾经遇到过无数次访问网站IP受限的尴尬情况;作为从事网络推广工作的同事小王

  • 14 2019-05
    IP代理在爬虫抓取中的作用

    IP代理在爬虫抓取中的作用大吗?我们都知道爬虫抓取可能被限制的,比如说我们经常在做数据爬取过程中遇到这样的情况:

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961