在机器学习方面使用 R + Hadoop 方案真的有那么好_光环大数据培训机构

来源:互联网 由 光环IT学院 贡献 责任编辑:李志  
http://hadoop.aura-el.com

在机器学习方面使用 R + Hadoop 方案真的有那么好_光环大数据培训机构R:

R的应用场景不在于无与伦比的统计学习能力,而在于结构化数据下无与伦比的单位代码产出量。神经网络,决策树等基于结构化数据的算法一行代码搞定,预测又只是一行代码。这样,商业数据库(如包括Oracle,Netezza,Teradata, SAP HANA等)提供了R接口供统计分析人员进行高效实施。同样的,SAS和IBM SPSS也做到了一部分高效实施能力,他们没有的是R独有的庞大cran packages 群。但相似的一点是,R的package群也把它的用户惯坏了,惯坏到这些人只是觉得这是一个SAS或者SPSS的免费版,而不是去通过代码学习如何做机器学习哪怕一点点核心原理。你要做的,就是高效的最新结构化数据算法的实施。

最重要的是,从Hadoop上的数据加载到这些库,不仅保证了数据本身的正确性和结构化,也已经保证了数据模型的第二、第三范式化(CAErwin的第一课),想做任何一个分析,你手边的数据库简单的join就形成了你需要的分析宽表。想想SQL里sum over的设计含义:为什么它要制造数据的冗余?那一定是为了BI或者分析存在的。

Hadoop:

Hadoop的应用场景不在于给统计分析软件提供强力的支持,而只是提供了一个分布式数据的泛用免费框架,基于键值对(key value pair)高效的对原始非结构化数据进行存储。

传统方式下目测可以做到对连续型数值、离散型数值、字符串、大型字符串BLOB、地理信息(二维点,多边形)的存储,Hadoop相当于直接把很多功能扩

http://hadoop.aura-el.com

展:比如Hive作为一个基本工具,直接提供了更广泛的数据类型存储方案:数组(array),结构体(struct),键值对(map)等。

业务场景:我存储一篇文章不再需要一坨文字灌进去,先做NLP解析,然后形成 (词,词性)的元组,再组成长数组(Array)即可方便的存储、分析,以及利用内置UDF、自写UDF对复杂结构行转列,提取信息。(当然,将NLP解析本身整合在UDF甚至算法中都是可行的,如PySpark)

如果你至今觉得非结构化数据,键值对是一种卖弄概念,我就换一个至简的说法:一个只有两列的数据表。两列的mn*2和多列m*n数据表是可以在一定加工代价下互转的。这种数据结构被大量应用于Java,C++,Python甚至JavaScript 中,当你看见类似Hashmap,Hashtable,dict,map等字眼,那就是这货没跑了:经过设计,用于存储的键(key)被散列后决定了它能够被均匀地分布式存储,值(value)是键的跟班,随着键被存储。

对于非结构化数据而言,元数据和数据不像方表,极其容易抽象出来(无非就是列名和方表的内容)。初看一个半结构化的Json/XML,元数据出现在键(key)中,数据出现在值(value)中,容易理解。但在解析其他类型数据,(如网络日志Url),键里的所谓元数据才是要分析的对象(一个用户反复的使用price=xxx做查询条件,说明价格敏感,有可能xxx取了好多值甚至所有可能值,key却很少,可能只有price和brand;此时用户行为模式出现在key里了。)

结构化和非结构化数据库结合的R+Hadoop看起来很美,实则困难重重。我的看法是,任何一家在数据分析领域(文本挖掘暂时除外,理由在业务场景里描述过)决定以一个稳健的态度涉足的企业,都无一例外的基于数据强一致性的考虑,选择传统的结构化数据库作为后续结构化分析的依托——哪怕他们是收费的。如果习惯代码开发,Hadoop+python自己做初步的数据处理,而后使用基于java的Mahout是一个很自然的选择:其提供的矩阵计算(SVD),迭代式聚类算

http://hadoop.aura-el.com

法(如Kmeans),基于图的迭代模型(一个例子是PageRank算法,值中存的也是Key),以及集成决策树等模型,在分布式场景下是顺理成章完成的,而R则会像一个跟班,很难找到它的应用场景。一样具有较高编码效率的Python可以更加灵活、优美(缩进的意义上)的继承mrjob类完成相应功能,在数据尝试性探索这一步,matplotlib产出报告恐怕是不如R+knitr+ggplot2更能取悦老板,但一旦需要阶段性的测试,Python这种胶水语言或者一步到位的使用Java开发显得更接地气,更容易落地。(关于落地性,再小小吐槽一下R在Windows和Linux 两个平台下能够使用的包范围是不同的,尤其是使用Rcpp或者并行包的时候。Python和Java则不常见到这种问题)

R+Hadoop的幻觉:

不管什么和Hadoop结合,都喜欢以word count这种典型的键值对开始。事实上R可以做这件事,但是觉得R做的无与伦比,就有点进入误区。还是那句R 的美在于结构化数据下无与伦比的单位代码产出量。一旦你发现你作为专注于数据的分析师,同时也是一个并不骨灰的代码开发者,开始用R操作列表和数据结构,开始用R重写Mapper和Reducer,你就会产生一个疑问:

为嘛不学Java、Python?这种分析“不传统”,就算你不想学吧,为嘛不找懂它们的人来干?

Python基于键值对存储,也具有相当高的单位代码产出量,也有很多科学计算包。从这个意义上你可以做出一个白箱,单机缩水版的mahout,而且适合处理有增量算法的大数据学习(看看NumPy,SciPy,)。一样免费。

数据挖掘的幻觉:

数据挖掘是什么,很难吗?

http://hadoop.aura-el.com

广义的数据挖掘,包括数据分析和机器学习,只说最核心的数学概念的话,估计就几句话;恰好R的简洁性也是能用几句话做完这几句话的:

0 数据清洗,标准化。和1-4,理解真实世界是相辅相成的

1 最先学的数学技巧是空间分解:LL’,PCA,SVD,一般回归以及L2/L0惩罚变种;从信息论角度讲信息流压缩(有名如LZ及变种LZO);SVM用到的RBF 也算基提取技巧。

2 再学最优化算法:L1惩罚回归,SVM(使用的Newton-Raphson/Gauss-Newton/Levenberg-Marquadt(还是1的内容!); MonteCarlo Markov Chain

3 数据结构:决策树(列表类),词频统计(键值对或者字典类),FP-growth (一个树的加强版)。学到这,所谓“贝叶斯”根本就不能叫算法,只能叫一个无处不在的指导思想。

4 模型集成:Adaboost,神经网络,bootstrap。集成时,权重技巧和惩罚技巧我的理解是不可割裂。但这个思想对方法,对模型参数都能集成,大杂烩。1个超级精妙的模型不如200个良好理解了问题性质的土鳖模型更实用。

任何一个听起来很装逼的算法,逃不过被解析成这4类方法组合的命运。参数调优这种不提纲挈领的问题,确实需要结合时间成本人力成本看(研究者,学生,码农的成本和投入量完全不一样)

可以看到,大数据分析的瓶颈在哪?

http://hadoop.aura-el.com

第0步,和曾经的大Boss讨论过,传统行业数据仓库实施起码还能打10年,而”实体-关系”概念和”键-值”概念这两种抽象起码还能打30年,数据的组织,过滤,元数据维护都是数据产生价值的必经之路,这方面的工作很枯燥但是很基础,大数据和传统数据都需要;

第1步是最基本最重要的分析手段,也最容易在大数据语境下导致单机无法分析的亿阶稀疏大矩阵产生:例1,用户User对商品SKU的购买记录;例2,在特定的经纬度,特定的时间,特定的用户发生了动作;这两个例子是典型的“查询简单分析难,汇总还不如不汇总”的情况,必须要有分布式稀疏矩阵处理技术;

第2步,序贯MCMC的串行性可以通过并行集成方法模拟,但是收敛性还仍然较低,需要暴力并行堆FLOPS;对应的,因为SVM/Lasso都有增量算法、分布式算法方案,核心思想在于“世界的真实,模型的本质,都是稀疏的”,锁少量资源,分布式地更新模型系数或者是梯度,这些算法在理论上得到突破后,往往依赖分析型数据库或者大数据平台灵活的并发调度,灵活的行列混合存储模式,这一点是单机、小集群、传统数据库难以企及的;

第3、4步,这里虽然举了很简单的例子,但这些是在数学模型和数据模型上是最没有开发压力的,需要关心的只是资深程序员的功底了。举例说明,文本挖掘(NLP)统计完词频你还是得会空间里做PCA(或者其他形式的大矩阵加工);如果不然,只引入HMM模型和基础字典树的话,学习成本就只有学习贝叶斯理论了,并且仍然可以高效并行的解决NLP问题,有兴趣的可以参考Viterbi算法和CRF算法。

大数据的幻觉:存储和计算的冲突

大数据处理,多大算大?像我说的,在3,4步出来的数据,原始数据很大,加工汇总完了很小,或者处理起来是高度独立的。分布式存储不影响分析,说是

以下内容为系统自动转化的文字版,可能排版等有问题,仅供您参考:

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 在机器学习方面使用 R + Hadoop 方案真的有那么好_光环大数据培训机构

R:

R 的应用场景不在于无与伦比的统计学习能力,而在于结构化数据下无与伦 比的单位代码产出量。 神经网络, 决策树等基于结构化数据的算法一行代码搞定, 预测又只是一行代码。 这样, 商业数据库 (如包括 Oracle, Netezza, Teradata, SAP HANA 等)提供了 R 接口供统计分析人员进行高效实施。 同样的,SAS 和 IBM SPSS 也做到了一部分高效实施能力,他们没有的是 R 独有的庞大 cran packages 群。但相似的一点是,R 的 package 群也把它的用户惯坏了,惯坏到这些人只是 觉得这是一个 SAS 或者 SPSS 的免费版,而不是去通过代码学习如何做机器学习 哪怕一点点核心原理。你要做的,就是高效的最新结构化数据算法的实施。

最重要的是,从 Hadoop 上的数据加载到这些库,不仅保证了数据本身的正 确性和结构化, 也已经保证了数据模型的第二、 第三范式化 (CAErwin 的第一课) , 想做任何一个分析,你手边的数据库简单的 join 就形成了你需要的分析宽表。 想想 SQL 里 sum over 的设计含义:为什么它要制造数据的冗余?那一定是为了 BI 或者分析存在的。

Hadoop:

Hadoop 的应用场景不在于给统计分析软件提供强力的支持,而只是提供了 一个分布式数据的泛用免费框架,基于键值对(key value pair)高效的对原始 非结构化数据进行存储。

传统方式下目测可以做到对连续型数值、离散型数值、字符串、大型字符串 BLOB、地理信息(二维点,多边形)的存储,Hadoop 相当于直接把很多功能扩

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 展:比如 Hive 作为一个基本工具,直接提供了更广泛的数据类型存储方案:数 组(array),结构体(struct),键值对(map)等。

业务场景:我存储一篇文章不再需要一坨文字灌进去,先做 NLP 解析,然后 形成 (词,词性)的元组,再组成长数组(Array)即可方便的存储、分析,以及利 用内置 UDF、自写 UDF 对复杂结构行转列,提取信息。 (当然,将 NLP 解析本身 整合在 UDF 甚至算法中都是可行的,如 PySpark)

如果你至今觉得非结构化数据,键值对是一种卖弄概念,我就换一个至简的 说法:一个只有两列的数据表。两列的 mn*2 和多列 m*n 数据表是可以在一定加 工代价下互转的。 这种数据结构被大量应用于 Java, C++, Python 甚至 JavaScript 中, 当你看见类似 Hashmap, Hashtable, dict, map 等字眼, 那就是这货没跑了: 经过设计,用于存储的键(key)被散列后决定了它能够被均匀地分布式存储,值 (value)是键的跟班,随着键被存储。

对于非结构化数据而言,元数据和数据不像方表,极其容易抽象出来(无非 就是列名和方表的内容) 。 初看一个半结构化的 Json/XML, 元数据出现在键(key) 中,数据出现在值(value)中,容易理解。但在解析其他类型数据,(如网络日志 Url),键里的所谓元数据才是要分析的对象(一个用户反复的使用 price=xxx 做 查询条件, 说明价格敏感, 有可能 xxx 取了好多值甚至所有可能值, key 却很少, 可能只有 price 和 brand;此时用户行为模式出现在 key 里了。)

结构化和非结构化数据库结合的 R+Hadoop 看起来很美,实则困难重重。我 的看法是,任何一家在数据分析领域(文本挖掘暂时除外,理由在业务场景里描 述过)决定以一个稳健的态度涉足的企业,都无一例外的基于数据强一致性的考 虑,选择传统的结构化数据库作为后续结构化分析的依托—— 哪怕他们是收费 的。如果习惯代码开发,Hadoop+python 自己做初步的数据处理,而后使用基于 java 的 Mahout 是一个很自然的选择:其提供的矩阵计算(SVD) ,迭代式聚类算

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 法(如 Kmeans),基于图的迭代模型(一个例子是 PageRank 算法,值中存的也是 Key) ,以及集成决策树等模型,在分布式场景下是顺理成章完成的,而 R 则会像 一个跟班,很难找到它的应用场景。一样具有较高编码效率的 Python 可以更加 灵活、优美(缩进的意义上)的继承 mrjob 类完成相应功能,在数据尝试性探索 这一步,matplotlib 产出报告恐怕是不如 R+knitr+ggplot2 更能取悦老板,但 一旦需要阶段性的测试,Python 这种胶水语言或者一步到位的使用 Java 开发显 得更接地气, 更容易落地。 (关于落地性, 再小小吐槽一下 R 在 Windows 和 Linux 两个平台下能够使用的包范围是不同的,尤其是使用 Rcpp 或者并行包的时候。 Python 和 Java 则不常见到这种问题)

R+Hadoop 的幻觉:

不管什么和 Hadoop 结合,都喜欢以 word count 这种典型的键值对开始。事 实上 R 可以做这件事,但是觉得 R 做的无与伦比,就有点进入误区。还是那句 R 的美在于结构化数据下无与伦比的单位代码产出量。 一旦你发现你作为专注于数 据的分析师,同时也是一个并不骨灰的代码开发者,开始用 R 操作列表和数据结 构,开始用 R 重写 Mapper 和 Reducer,你就会产生一个疑问:

为嘛不学 Java、Python?这种分析“不传统” ,就算你不想学吧,为嘛不找 懂它们的人来干?

Python 基于键值对存储,也具有相当高的单位代码产出量,也有很多科学 计算包。从这个意义上你可以做出一个白箱,单机缩水版的 mahout,而且适合 处理有增量算法的大数据学习(看看 NumPy,SciPy,) 。一样免费。

数据挖掘的幻觉:

数据挖掘是什么,很难吗?

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

广义的数据挖掘,包括数据分析和机器学习,只说最核心的数学概念的话, 估计就几句话;恰好 R 的简洁性也是能用几句话做完这几句话的:

0 数据清洗,标准化。和 1-4,理解真实世界是相辅相成的

1 最先学的数学技巧是空间分解:LL’ ,PCA,SVD,一般回归以及 L2/L0 惩 罚变种;从信息论角度讲信息流压缩(有名如 LZ 及变种 LZO) ;SVM 用到的 RBF 也算基提取技巧。

2

再 学 最 优 化 算 法 : L1

惩 罚 回 归 , SVM ( 使 用 的

Newton-Raphson/Gauss-Newton/Levenberg-Marquadt ( 还 是 1 的 内 容 ! ) ; MonteCarlo Markov Chain

3 数据结构:决策树(列表类) ,词频统计(键值对或者字典类) ,FP-growth (一个树的加强版) 。学到这,所谓“贝叶斯”根本就不能叫算法,只能叫一个 无处不在的指导思想。

4 模型集成:Adaboost,神经网络,bootstrap。集成时,权重技巧和惩罚 技巧我的理解是不可割裂。但这个思想对方法,对模型参数都能集成,大杂烩。 1 个超级精妙的模型不如 200 个良好理解了问题性质的土鳖模型更实用。

任何一个听起来很装逼的算法,逃不过被解析成这 4 类方法组合的命运。参 数调优这种不提纲挈领的问题,确实需要结合时间成本人力成本看(研究者,学 生,码农的成本和投入量完全不一样)

可以看到,大数据分析的瓶颈在哪?

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 第 0 步, 和曾经的大 Boss 讨论过, 传统行业数据仓库实施起码还能打 10 年, 而”实体-关系”概念和”键-值”概念这两种抽象起码还能打 30 年,数据的组 织,过滤,元数据维护都是数据产生价值的必经之路,这方面的工作很枯燥但是 很基础,大数据和传统数据都需要;

第 1 步是最基本最重要的分析手段, 也最容易在大数据语境下导致单机无法 分析的亿阶稀疏大矩阵产生:例 1,用户 User 对商品 SKU 的购买记录;例 2,在 特定的经纬度,特定的时间,特定的用户发生了动作;这两个例子是典型的“查 询简单分析难, 汇总还不如不汇总” 的情况, 必须要有分布式稀疏矩阵处理技术;

第 2 步,序贯 MCMC 的串行性可以通过并行集成方法模拟,但是收敛性还仍 然较低,需要暴力并行堆 FLOPS;对应的,因为 SVM/Lasso 都有增量算法、分布 式算法方案,核心思想在于“世界的真实,模型的本质,都是稀疏的” ,锁少量 资源,分布式地更新模型系数或者是梯度,这些算法在理论上得到突破后,往往 依赖分析型数据库或者大数据平台灵活的并发调度,灵活的行列混合存储模式, 这一点是单机、小集群、传统数据库难以企及的;

第 3、4 步,这里虽然举了很简单的例子,但这些是在数学模型和数据模型 上是最没有开发压力的,需要关心的只是资深程序员的功底了。举例说明,文本 挖掘 (NLP) 统计完词频你还是得会空间里做 PCA (或者其他形式的大矩阵加工) ; 如果不然,只引入 HMM 模型和基础字典树的话,学习成本就只有学习贝叶斯理论 了,并且仍然可以高效并行的解决 NLP 问题,有兴趣的可以参考 Viterbi 算法和 CRF 算法。

大数据的幻觉:存储和计算的冲突

大数据处理,多大算大?像我说的,在 3,4 步出来的数据,原始数据很大, 加工汇总完了很小,或者处理起来是高度独立的。分布式存储不影响分析,说是

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 大数据,其实和小数据处理没差别。

需要随时交换资源的聚类,回归,SVD,PCA,QR,LU 等关系到矩阵分解的 计算甚至是高效访问, 更进一步还有热数据在内存上而不是物理存储上的多次迭 代,这才是大数据真正的挑战。

那些有监督的分类树,把数据集切成 1000 份并且有冗余的给 500 台机器每 台 3-5 份数据最后得到集成的分类结果,我很难称其为“大数据计算技术” ,它 的本质和挖矿机每秒能做无数个高度同质化的 hash 计算一样, 不需要资源交换, 不需要大量通信,它只是“小数据+独立运算后直接能够整合结果”的范围内打 转。

数据在物理存储、内存、甚至显存的原地迭代会带来数据重分布;在传统数 仓领域数据,重分布其实是对未来效率提高预期的妥协,且里面含有比较多对传 统业务稳定数据架构的理解。

大数据时代明显不存在什么数据仓库 ER 模型稳定性,不知道大家有没有这 种体验:一个新需求,一个全新的不着边际的研究性问题的场景下,就能建个新 库来进行探索与数据加工整理,数据挖掘。各自为政,实验容易,落地与整合困 难。—— 这个情况下如果要频繁走物理存储的话,基于 key 的重新分布会让数 据像煮沸的一锅粥大量占用网络与 IO 写入带宽,与传统数据库性能的巨大鸿沟 是无法回避的问题。 因此在这个场景下, Spark、 Storm、 GPU 计算火起来, 如 Scala、 Clojure、Python 等含有 FP 概念的语言走得越来越靠近开发工程师的视线,较 高级的封装工具如图模型计算的 GraphSQL 等组件也浮出水面。而且说句实话, Map(映射)和 Reduce(规约)在这些语言中,已经是老的掉了好多年牙的概念 了。 (FP:Functional Programming 我反对翻译成函数式编程,这明明是泛函编 程)

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 大数据概念引入这件事儿是大炮打蚊子——内存内的分析和数据探索, 展现 (单节点) :

*从数据记录条数讲:

百万级,R 的上限;

千万级-亿级,SAS 的上限;

千万级,Python 的上限;

*我的使用经验,从数据占用内存的效率讲:加载 400M 数据会使得

Python(Numpy 列存)占用内存 500M

R(我谨慎猜测是行存列存和二维表三样都存一份)加载占内存 2G

SAS(行存)占用 600M,经过表级压缩(依然是行存)150M

*后续的原始处理

尤其是字符串操作这种数据清洗,R 几乎不能做,精通 shell 及 regexp 的 人又做的太容易。

若想用 R,这就需要你输入到 R 的数据几乎就能直接开始跑分析了。若不信 邪,我推荐你用 readLines 加上 strsplit 来操作读入 R 的文件,看看他数据清 洗的效率和 read.delim,和 SAS proc import 以及 Python 的 with as 语法相 差多少。

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

*展现方案:

只要数据量低于刚才提到的限度,R 又提供了最好的展现方案,因为“展现 方案是专用而非泛用”的:

a. Hadley 最著名的 R 包之一 ggplot2 未来会引入 SVG 等可交互元素。一个 具有 d3.js 可视化特性的绘图包还不让你震惊吗?

b. 百度 echarts 团队项目被 taiyun 包装成 recharts 放在了 github 上

c. 已经加入 RStudio 的 R 统计达人 Yihui Xie 的作品 knitr,能够使用 markdown 语法动态将数据挖掘结果,图片,视频生成打包放进 html 或者 pdf 文 档。

说说对手:

a. R 要比 Python 现有的可视化包 (以 matplotlib 和 pygame 为主) 更友好, 更易于操作。

b. 虽然让从来没接触过前端的人沉浸在用 Chrome 即可调试的 JavaScript 里面不太科学,但我爱不释手,而且其核心的展现方式确实未来会加入 R。

c. Java 风格的 Processing,无缝调用 java 库,封装大量 java 图形函数、 视频相关 API、鼠标响应 API,可以导出 java applet 或 port 成 js 代码;搞大 数据的人必然熟悉 java 开发,可以几乎 0 成本又高效快速的使用它。

这几种工具确实各有所长,我个人无法取舍,但平心而论,R 是学习门槛、

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 编码效率和产出效果同时最出色的 (个人经历原因无法对 SAS VA, Tableau, Flex 或更一般的 BI 展现工具置评,其受众因为软件成本,落地性不够等原因,我缺 乏使用它们的经验,它们也缺乏对我的吸引力)

归纳下我的理解,R 的产出报告类似 html+javascript+CSS 一样,是适合轻 量分析,轻量展现的。

大数据干这件事儿是正道——非结构化大数据批量或者迭代处理:

你的算法已经走到了“万事俱备,只差跑全量” 这样一个对手中的数据很 了解的地步了。Wiki 对 Revolution Analytics 的介绍讲:R didn’t natively handle datasets larger than main memory,这么灵活小巧的工具做个抽样数 据分析明明是很好的。

非结构化大数据应用的场景只能是:

-你很懂数据分布的细节 (也许是项目经验, 也许是 R 上已经做过抽样探索)

-问题适合的算法你了然于胸;增量算法存在;暴力并行计算(矩阵计算, 图迭代)没问题

-你觉得把类似 Mahout 计算的步骤经过代码包装交付给 R 来做没问题

-你完全不 care 交互式探索

这是你需要的 R 应用场景么?或者换一种说法, 这种应用场景 R 有什么优势? 调用编译好的 cpp 库,fortran 库是 R 发挥优势的地方吗?要知道算法效率排名 上 R<java<C++。算法月内要上线,自己看着办。

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

说下前鄙 team(一个不是专业做数据挖掘的数据部门)的经验:

讲了半天 R+Hadoop,不上 Mahout,随便搞搞 RSnow,准备买 SAS。

因为我会 SAS(少量用 Macro,没用过矩阵,因为没必要)和 R(没有学习 成本) ,Python 的并行包 pp 使用中,考虑 mahout。

更新:当大数据平台用户不满足于存储,简单加工以及成型算法实施,也开 始关注最小查询、交互式探索效率了,诸如 Spark 的内存解决方案将会更合适。

现 team 是一个同事至少是硕士(统计/金融/计算机) ,专做金融行业数据挖 掘的小团队。能力和业务场景可以供参考。

* SAS 能力覆盖面 95%(具备核心价值的数据在服务器上能够处理的量很少 超过上亿,主推 SAS)

* Python 和 R 覆盖面都在 70%+

* Hadoop/大数据概念淡:客户有足够的 Teradata、Oracle、SAS 服务器

* Hive/Spark:Hive 做辅助、灵活仓储,PySpark 作为一个可以预期、稳定 的数据挖掘平台的接点

为什么大家选择光环大数据!

大数据培训、 人工智能培训、 Python 培训、 大数据培训机构、 大数据培训班、

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据 领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时 代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入 浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现 就业梦想。

光环大数据启动了推进人工智能人才发展的“AI 智客计划” 。光环大数据专注国内 大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据 将联合国内百所大学,通过“AI 智客计划” ,共同推动人工智能产业人才生态建设,培 养和认证 5-10 万名 AI 大数据领域的人才。

参加“AI 智客计划” ,享 2000 元助学金!

【报名方式、详情咨询】 光环大数据网站报名:http://hadoop.aura-el.com 手机报名链接:http:// hadoop.aura-el.com /mobile/

光环大数据 http://hadoop.aura-el.com


  • 与《在机器学习方面使用 R + Hadoop 方案真的有那么好_光环大数据培训机构》相关:
  • 大数据培训机构_ Hadoop大数据学习方案_光环
  • 培训机构给Hadoop学习新手的一些建议_光环大数
  • hadoop培训班 零基础学习hadoop的方法汇
  • 大数据培训机构_ O基础学习Hadoop大数据大概
  • Hadoop培训班_ hadoop是什么?hado
  • 实现R与Hadoop联合作业的三种方法_光环大数据
  • 如何挑选合适的大数据或Hadoop平台_西安光环大
  • 大数据培训机构_ Hadoop大数据的学习提纲_光
  • 大数据培训机构_权威的Hadoop大数据培训机构_
  • 北京大数据培训机构_ Hadoop大数据权威学习指
  • 本站网站首页首页教育资格全部考试考试首页首页考试首页职业资格考试最近更新儿童教育综合综合文库22文库2建筑专业资料考试首页范文大全公务员考试首页英语首页首页教案模拟考考试pclist学路首页日记语文古诗赏析教育教育资讯1高考资讯教育头条幼教育儿知识库教育职场育儿留学教育高考公务员考研考试教育资讯1问答教育索引资讯综合学习网站地图学习考试学习方法首页14托福知道备考心经冲刺宝典机经真题名师点睛托福课程雅思GREGMATSAT留学首页首页作文
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.xue63.com All Rights Reserved