R语言学习路线和常用数据挖掘包_光环大数据培训机构

来源:互联网 由 光环IT学院 贡献 责任编辑:王小亮  
http://hadoop.aura-el.com

R语言学习路线和常用数据挖掘包_光环大数据培训机构

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式,最好的方式是——看书。目前,市面上介绍R语言的书籍很多,中文英文都有。那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问。有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路。

本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。

1.初级入门

《R语言实战》,这是高涛、肖楠等翻译的一本书详细全面介绍了入门、图形、统计、回归、方差、功效分析、广义线性模型、主成分、因子分析、缺失值处理等。除此之外,还可以去读刘思喆的《153分钟学会R》。这本书收集了R初学者提问频率最高的153个问题。为什么叫153分钟呢?因为最初作者写了153个问题,阅读一个问题花费1分钟时间,全局下来也就是153分钟了

2.高级入门

读了上述书籍之后,你就可以去高级入门阶段了。这时候要读的书有两本很经典的。《Statistics with R》和《The R book》。之所以说这两本书高级,是因为这两本书已经不再限于R基础了,而是结合了数据分析的各种常见方法来写就的,比较系统的介绍了R在线性回归、方差分析、多元统计、R绘图、时间序

http://hadoop.aura-el.com

列分析、数据挖掘等各方面的内容,看完之后你会发现,哇,原来R能做的事情这么多,而且做起来是那么简洁。读到这里已经差不多了,剩下的估计就是你要专门攻读的某个方面内容了。下面大致说一说。

3.绘图与可视化

亚里斯多德说,“较其他感觉而言,人类更喜欢观看”。因此,绘图和可视化得到很多人的关注和重视。那么,如何学习R画图和数据可视化呢?再简单些,如何画直方图?如何往直方图上添加密度曲线呢?我想读完下面这几本书你就大致会明白了。

首先,画图入门可以读《R Graphics》,个人认为这本是比较经典的,全面介绍了R中绘图系统。该书对应的有一个网站,google之就可以了。更深入的可以读《Lattice:Multivariate Data Visualization with R》。上面这些都是比较普通的。当然,有比较文艺和优雅的——ggplot2系统,看《ggplot2:Elegant Graphics for Data Analysis》。还有数据挖掘方面的书:《Data Mining with Rattle and R》,主要是用Rattle软件,个人比较喜欢Rattle!当然,Rattle不是最好的,Rweka也很棒!再有就是交互图形的书了,著名的交互系统是ggobi,这个我已经喜欢两年多了,关于ggobi的书有《Interactive and Dynamic Graphics for Data Analysis With R and GGobi》,不过,也只是适宜入门,更多更全面的还是去ggobi的主页吧,上面有各种资料以及包的更新信息!

4.计量经济学

关于计量经济学,首先推荐一本很薄的小册子:《Econometrics In R》,做入门用。然后,是《Applied Econometrics with R》,该书对应的R包是AER,可以安装之后配合使用,效果甚佳。计量经济学中很大一部分是关于时间序列分析的,这一块内容在下面的地方说。

http://hadoop.aura-el.com

5.时间序列分析

时间序列书籍的书籍分两类,一种是比较普适的书籍,典型的代表是:《Time Series Analysis and Its Applications :with R examples》。该书介绍了各种时间序列分析的经典方法及实现各种经典方法的R代码,该书有中文版。如果不想买的话,建议去作者主页直接下载,英文版其实读起来很简单。时间序列分析中有一大块儿是关于金融时间序列分析的。这方面比较流行的书有两本《Analysis of financial time series》,这本书的最初是用的S-plus代码,不过新版已经以R代码为主了。这本书适合有时间序列分析基础和金融基础的人来看,因为书中关于时间序列分析的理论以及各种金融知识讲解的不是特别清楚,将极值理论计算VaR的部分就比较难看懂。另外一个比较有意思的是Rmetrics 推出的《TimeSeriesFAQ》,这本书是金融时间序列入门的东西,讲的很基础,但是很难懂。对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。经济领域的时间序列有一种特殊的情况叫协整,很多人很关注这方面的理论,关心这个的可以看《Analysis of Integrated and Cointegrated Time Series with R》。最后,比较高级的一本书是关于小波分析的,看《Wavelet Methods in Statistics with R》。附加一点,关于时间序列聚类的书籍目前比较少见,是一个处女地,有志之士可以开垦之!

6.金融

金融的领域很广泛,如果是大金融的话,保险也要被纳入此间。用R做金融更多地需要掌握的是金融知识,只会数据分析技术意义寥寥。我觉得这些书对于懂金融、不同数据分析技术的人比较有用,只懂数据分析技术而不动金融知识的人看起来肯定如雾里看花,甚至有人会觉得金融分析比较低级。这方面比较经典的书籍有:《Advanced Topics in Analysis of Economic and Financial Data Using R》以及《Modelling Financial Time Series With S-plus》。金融产品

http://hadoop.aura-el.com

定价之类的常常要用到随机微分方程,有一本叫《Simulation Inference Stochastic Differential Equations:with R examples》的书是关于这方面的内容的,有实例,内容还算详实!此外,是风险度量与管理类。比较经典的有《Simulation Techniques in Financial Risk Management》、《Modern Actuarial Risk Theory Using R》和《Quantitative Risk Management:Concepts, Techniques and Tools》。投资组合分析类和期权定价类可以分别看《Portfolio Optimization with R》和《Option Pricing and Estimation of Financial Models with R》。

7.数据挖掘

现在相关的书籍已经比较多了,可见一文中推荐的几本书。

8.附注

很多书都已经有电子版。可以在一些群或新浪爱问 csdn等里面去找。

与数据挖掘有关或者有帮助的R包和函数的集合。

1、聚类

常用的包: fpc,cluster,pvclust,mclust

基于划分的方法: kmeans, pam, pamk, clara

基于层次的方法: hclust, pvclust, agnes, diana

基于模型的方法: mclust

基于密度的方法: dbscan

基于画图的方法: plotcluster, plot.hclust

基于验证的方法: cluster.stats

2、分类

http://hadoop.aura-el.com

常用的包:

rpart,party,randomForest,rpartOrdinal,tree,marginTree, maptree,survival

决策树: rpart, ctree

随机森林: cforest, randomForest

回归, Logistic回归, Poisson回归: glm, predict, residuals

生存分析: survfit, survdiff, coxph

3、关联规则与频繁项集

常用的包:

arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则DRM:回归和分类数据的重复关联模型

APRIORI算法,广度RST算法:apriori, drm

ECLAT算法:采用等价类,RST深度搜索和集合的交集: eclat

4、序列模式

常用的包: arulesSequences

SPADE算法: cSPADE

5、时间序列

常用的包: timsac

时间序列构建函数: ts

成分分解: decomp, decompose, stl, tsr

6、统计

常用的包: Base R, nlme

方差分析: aov, anova

密度分析: density

假设检验: t.test, prop.test, anova, aov

以下内容为系统自动转化的文字版,可能排版等有问题,仅供您参考:

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com R 语言学习路线和常用数据挖掘包_光环大数据培训机构

对于初学 R 语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼 一嗓子,然后欣然 or 悲伤的离去,一直到遇到下一个问题再回来。

当然,这不 是最好的学习方式,最好的方式是——看书。

目前,市面上介绍 R 语言的书籍很 多,中文英文都有。

那么,众多书籍中,一个生手应该从哪一本着手呢?入门之 后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问。

有这 种疑问的人有福了, 因为笔者将根据自己的经历总结一下 R 语言书籍的学习路线 图以使 Ruser 少走些弯路。

本文分为 6 个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经 济学,时间序列分析,金融等。

1.初级入门

《R 语言实战》 ,这是高涛、肖楠等翻译的一本书详细全面介绍了入门、图 形、统计、回归、方差、功效分析、广义线性模型、主成分、因子分析、缺失值 处理等。

除此之外,还可以去读刘思喆的《153 分钟学会 R》 。

这本书收集了 R 初 学者提问频率最高的 153 个问题。

为什么叫 153 分钟呢?因为最初作者写了 153 个问题,阅读一个问题花费 1 分钟时间,全局下来也就是 153 分钟了

2.高级入门

读了上述书籍之后,你就可以去高级入门阶段了。

这时候要读的书有两本很 经典的。

《Statistics with R》和《The R book》 。

之所以说这两本书高级,是 因为这两本书已经不再限于 R 基础了, 而是结合了数据分析的各种常见方法来写 就的,比较系统的介绍了 R 在线性回归、方差分析、多元统计、R 绘图、时间序

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 列分析、数据挖掘等各方面的内容,看完之后你会发现,哇,原来 R 能做的事情 这么多,而且做起来是那么简洁。

读到这里已经差不多了,剩下的估计就是你要 专门攻读的某个方面内容了。

下面大致说一说。

3.绘图与可视化

亚里斯多德说, “较其他感觉而言,人类更喜欢观看” 。

因此,绘图和可视化 得到很多人的关注和重视。

那么,如何学习 R 画图和数据可视化呢?再简单些, 如何画直方图?如何往直方图上添加密度曲线呢?我想读完下面这几本书你就 大致会明白了。

首先,画图入门可以读《R Graphics》 ,个人认为这本是比较经典的,全面 介绍了 R 中绘图系统。

该书对应的有一个网站,google 之就可以了。

更深入的 可以读《Lattice:Multivariate Data Visualization with R》 。

上面这些都是 比较普通的。

当然, 有比较文艺和优雅的——ggplot2 系统, 看 《ggplot2: Elegant Graphics for Data Analysis 》 。

还有数据挖掘方面的书: 《 Data Mining with Rattle and R》 ,主要是用 Rattle 软件,个人比较喜欢 Rattle!当然,Rattle 不 是最好的, Rweka 也很棒! 再有就是交互图形的书了, 著名的交互系统是 ggobi, 这个我已经喜欢两年多了,关于 ggobi 的书有《 Interactive and Dynamic Graphics for Data Analysis With R and GGobi》 ,不过,也只是适宜入门,更 多更全面的还是去 ggobi 的主页吧,上面有各种资料以及包的更新信息!

4.计量经济学

关于计量经济学,首先推荐一本很薄的小册子:《Econometrics In R》 ,做 入门用。

然后,是《Applied Econometrics with R》 ,该书对应的 R 包是 AER, 可以安装之后配合使用,效果甚佳。

计量经济学中很大一部分是关于时间序列分 析的,这一块内容在下面的地方说。

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

5.时间序列分析

时间序列书籍的书籍分两类, 一种是比较普适的书籍, 典型的代表是: 《Time Series Analysis and Its Applications :with R examples》 。

该书介绍了各 种时间序列分析的经典方法及实现各种经典方法的 R 代码,该书有中文版。

如果 不想买的话,建议去作者主页直接下载,英文版其实读起来很简单。

时间序列分 析中有一大块儿是关于金融时间序列分析的。

这方面比较流行的书有两本 《Analysis of financial time series》 ,这本书的最初是用的 S-plus 代码, 不过新版已经以 R 代码为主了。

这本书适合有时间序列分析基础和金融基础的人 来看, 因为书中关于时间序列分析的理论以及各种金融知识讲解的不是特别清楚, 将极值理论计算 VaR 的部分就比较难看懂。

另外一个比较有意思的是 Rmetrics 推出的《TimeSeriesFAQ》 ,这本书是金融时间序列入门的东西,讲的很基础,但 是很难懂。

对应的中文版有《金融时间序列分析常见问题集》 ,当然,目前还没 有发出来。

经济领域的时间序列有一种特殊的情况叫协整,很多人很关注这方面 的理论,关心这个的可以看《Analysis of Integrated and Cointegrated Time Series with R 》 。

最后,比较高级的一本书是关于小波分析的,看《 Wavelet Methods in Statistics with R》 。

附加一点,关于时间序列聚类的书籍目前比 较少见,是一个处女地,有志之士可以开垦之!

6.金融

金融的领域很广泛,如果是大金融的话,保险也要被纳入此间。

用 R 做金融 更多地需要掌握的是金融知识,只会数据分析技术意义寥寥。

我觉得这些书对于 懂金融、不同数据分析技术的人比较有用,只懂数据分析技术而不动金融知识的 人看起来肯定如雾里看花,甚至有人会觉得金融分析比较低级。

这方面比较经典 的书籍有: 《Advanced Topics in Analysis of Economic and Financial Data Using R》以及《Modelling Financial Time Series With S-plus》 。

金融产品

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 定 价 之 类 的 常 常 要 用 到 随 机 微 分 方 程 , 有 一 本 叫 《 Simulation Inference Stochastic Differential Equations:with R examples》的书是关于这方面的 内容的,有实例,内容还算详实 ! 此外,是风险度量与管理类。

比较经典的有 《Simulation Techniques in Financial Risk Management》 、 《Modern Actuarial Risk Theory Using R》 和 《Quantitative Risk Management: Concepts, Techniques and Tools》 。

投资组合分析类和期权定价类可以分别看 《Portfolio Optimization with R》和《Option Pricing and Estimation of Financial Models with R》 。

7.数据挖掘

现在相关的书籍已经比较多了,可见<R 语言经典书籍推荐>一文中推荐的几 本书。

8.附注

很多书都已经有电子版。

可以在一些群或 新浪爱问 csdn 等里面去找。

与数据挖掘有关或者有帮助的 R 包和函数的集合。

1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats

2、分类

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 常用的包: rpart,party,randomForest,rpartOrdinal,tree,marginTree, maptree,survival 决策树: rpart, ctree 随机森林: cforest, randomForest 回归, Logistic 回归, Poisson 回归: glm, predict, residuals 生存分析: survfit, survdiff, coxph

3、关联规则与频繁项集 常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI 算法,广度 RST 算法:apriori, drm ECLAT 算法: 采用等价类,RST 深度搜索和集合的交集: eclat

4、序列模式 常用的包: arulesSequences SPADE 算法: cSPADE 5、时间序列 常用的包: timsac 时间序列构建函数: ts 成分分解: decomp, decompose, stl, tsr

6、统计 常用的包: Base R, nlme 方差分析: aov, anova 密度分析: density 假设检验: t.test, prop.test, anova, aov

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 线性混合模型:lme 主成分分析和因子分析:princomp

7、图表 条形图: barplot 饼图: pie 散点图: dotchart 直方图: hist 密度图: densityplot 蜡烛图, 箱形图 boxplot QQ (quantile-quantile) 图: qqnorm, qqplot, qqline Bi-variate plot: coplot 树: rpart Parallel coordinates: parallel, paracoor, parcoord 热图, contour: contour, filled.contour 其 他 图 : stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot, assocplot, mosaicplot 保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png

8、数据操作 缺失值:na.omit 变量标准化:scale 变量转置:t 抽样:sample 堆栈:stack, unstack 其他:aggregate, merge, reshape

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 9、与数据挖掘软件 Weka 做接口 RWeka: 通过这个接口,可以在 R 中使用 Weka 的所有算法。

为什么大家选择光环大数据!

大数据培训、 人工智能培训、 Python 培训、 大数据培训机构、 大数据培训班、 数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据 领域具有多年经验的讲师,提高教学的整体质量与教学水准。

讲师团及时掌握时 代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。

通过深入 浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现 就业梦想。

光环大数据启动了推进人工智能人才发展的“AI 智客计划” 。

光环大数据专注国内 大数据和人工智能培训,将在人工智能和大数据领域深度合作。

未来三年,光环大数据 将联合国内百所大学,通过“AI 智客计划” ,共同推动人工智能产业人才生态建设,培 养和认证 5-10 万名 AI 大数据领域的人才。

参加“AI 智客计划” ,享 2000 元助学金!

【报名方式、详情咨询】 光环大数据网站报名:http://hadoop.aura-el.com 手机报名链接:http:// hadoop.aura-el.com /mobile/

光环大数据 http://hadoop.aura-el.com


  • 与《R语言学习路线和常用数据挖掘包_光环大数据培训机构》相关:
  • R语言学习路线图及R数据挖掘包_光环大数据培训机构
  • R语言学习路线图_光环大数据培训
  • R语言学习路线和常用数据挖掘包
  • R语言企业级数据挖掘应用_光环大数据培训机构
  • R语言学习由浅入深路线_光环大数据培训机构
  • R语言数据挖掘的界面化工具_光环大数据培训机构
  • R语言环境下的文本挖掘tm包_光环大数据培训机构
  • 数据挖掘常用的方法_光环大数据培训机构
  • R语言网络爬虫学习 基于rvest包_光环大数据培
  • 大数据挖掘培训哪家好 光环大数据教你如何挑选大数据
  • 本站网站首页首页教育资格全部考试考试首页首页考试首页职业资格考试最近更新儿童教育综合综合文库22文库2建筑专业资料考试首页范文大全公务员考试首页英语首页首页教案模拟考考试pclist学路首页日记语文古诗赏析教育教育资讯1高考资讯教育头条幼教育儿知识库教育职场育儿留学教育高考公务员考研考试教育资讯1问答教育索引资讯综合学习网站地图学习考试学习方法首页14托福知道备考心经冲刺宝典机经真题名师点睛托福课程雅思GREGMATSAT留学首页首页作文
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.xue63.com All Rights Reserved