您的位置:首页 > 新闻资讯 >文章内容
用代理IP爬虫前 你必须懂的33个知识点(三)
来源:互联网 作者:admin 时间:2019-09-12 11:38:15

  爬虫为什么要用代理IP?又是什么让爬虫变得常态化?如果你也在思考这些问题,那么机灵代理搜集了33个相关知识点就非常适合你了,如果你想要了解爬虫以及大数据的相关知识,用代理IP开展爬虫,挖掘数据之前,我们先一起来看看这些要点吧。


用代理IP爬虫前 你必须懂的33个知识点(三)


  第三部分的内容如下:


  21、大数据挖掘定义有广义和狭义之分。


  从广义的观点,大数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。


  从这种狭义的观点上,我们可以定义大数据挖掘是从特定形式的数据集中提炼知识的过程。


  22、web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息内容、电子商务信息内容等在内的各种Web数据,应用大数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。


  23、K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。


  24、K-means算法的性能分析:


  主要优点:


  (1)是解决聚类问题的一种经典算法,简单、快速。


  (2)对处理互联网大数据集,该算法是相对可伸缩和高效率的。


  (3)当结果簇是密集的,它的效果较好。


  主要缺点:


  (1)在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。


  (2)必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。


  (3)不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。


  25、ID3算法的性能分析:


  ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。


  ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。


  ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。


  26、Apriori算法有两个致命的性能瓶颈:


  多次扫描事务数据库,需要很大的I/O负载。


  对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。


  可能产生庞大的侯选集


  由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。


  27、改善Apriori算法适应性和效率的主要的改进方法有:


  基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。


  基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。


  基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。


  其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。


  28、面向Web的大数据挖掘比面向数据库和数据仓库的大数据挖掘要复杂得多:


  异构数据源环境:Web网站上的信息内容是异构: 每个站点的信息内容和组织都不一样;存在大量的无结构的文本信息内容、复杂的多媒体信息内容;站点使用和安全性、私密性要求各异等等。


  数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息内容;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为大数据挖掘的不可推卸的责任。


  动态变化的应用环境:


  Web的信息内容是频繁变化的,像新闻、股票等信息内容是实时更新的。


  这种高变化也体现在页面的动态链接和随机存取上。


  Web上的用户是难以预测的。


  Web上的数据环境是高噪音的。


  29、简述知识发现项目的过程化管理I-MIN过程模型。


  MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。


  IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。


  IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。


  IM3任务与目的:它是KDD的挖掘准备阶段,大数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。


  IM4任务与目的:它是KDD的大数据挖掘阶段,用户通过指定大数据挖掘算法得到对应的知识。


  IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。


  IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。


  30、改善Apriori算法适应性和效率的主要的改进方法有:


  基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。


  基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。


  基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。


  其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。


  第三部分内容到这里就结束了,剩下还有3个知识点等着大家来学习,请继续锁定机灵代理吧。如果你错过了之前的文章,推荐阅读:用代理IP爬虫前 你必须懂的33个知识点(一)用代理IP爬虫前 你必须懂的33个知识点(二)


  机灵代理,自建200+机房,数万拨号线路,提供企业级HTTP代理服务,IP覆盖全国200+城市,高匿名代理IP帮助你保护个人隐私。无论是网络爬虫、互联网营销、投票打榜都可以使用。


相关文章内容简介
推荐阅读
  • 19 2019-04
    动态ip代理软件的选购攻略

    大家知道动态ip代理软件的选购攻略吗?由于IP限制,很多工作都不能重复的进行,这对于一部分来说讲是不利于工作的,于是他们开始使用动态ip代理软件,这样可以换其他的IP使用,就没有限

  • 08 2020-12
    代理IP应该避免哪些误区

    互联网上的很多作业都需要代理IP,所以选择一个好的代理IP池有助于更高效快速地完成任务。所以选择代理IP很重要。代理IP应该避免哪些误区?我们一起来看看。

  • 18 2019-06
    免费代理ip的致命缺点

    免费代理ip,可能大家多少都有使用过,但大家也知道天下没有白吃的午餐,不要钱的不能说是不好,但是肯定没有你想象中那么好就是了。所以大家对于免费代理ip也是心理有数的,用不用,

  • 21 2019-06
    如何验证ip代理是否可以用

    如何验证ip代理是否可以用?网络上有很多的免费代理ip,但是有效率低的可怜,这个是为什么呢?这是因为用的人太多了,同一个ip无数人用来访问同一个网站,ip就会被封掉。那么如何验证ip是

  • 15 2019-04
    http代理的含义和作用科普

    http代理的含义和作用科普,爬虫是需要使用到http代理的,一些商家刷单也会使用到http代理,或者是刷广告,或者是刷票,刷流量等等,这些都是要使用http代理的,可见作用非常多。

  • 22 2019-11
    如何验证代理IP是否起到作用?

    现在购买代理IP来上网的用户相比之前要多很多了,因为大家都开始慢慢对自己的真实IP地址以及网络环境安全有一个重视。那么,用来代理IP我们怎么能够直观知道自己的代理是否奏效呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部