R快速入门之高级统计-广义线性_光环大数据培训

来源:互联网 由 光环IT学院 贡献 责任编辑:鲁倩  
http://hadoop.aura-el.com

R快速入门之高级统计-广义线性_光环大数据培训1,logistic回归:

因变量是二值变量(例如成功和失败),自变量是连续变量。做这种预测,还有很多其他方法,例如判别、神经网络、分类、支持向量机等,但是logistic 最受欢迎。

# logistic回归的主要参数如下:

# Logistic Regression

# where F is a binary factor and

# x1-x3 are continuous predictors

fit <- glm(F~x1+x2+x3,data=mydata,family=binomial())

summary(fit) # display results

confint(fit) # 95% CI for the coefficients

exp(coef(fit)) # exponentiated coefficients

exp(confint(fit)) # 95% CI for exponentiated coefficients

predict(fit, type=”response”) # predicted values

http://hadoop.aura-el.com

residuals(fit, type=”deviance”) # r esiduals

可以使用anova(fit1,fit2, test=”Chisq”)来比较不同的模型,另外, cdplot(F~x, data=mydata) will display the conditional density plot of the binary outcome F on the continuous x variable.

2,poisson回归

Poisson回归的因变量是计数型的变量,自变量是连续型变量

# Poisson Regression

# where count is a count and

# x1-x3 are continuous predictors

fit <- glm(count ~ x1+x2+x3, data=mydata, family=poisson())

summary(fit) display results

如果残差变异方差比自由度大,那么需要用quasipoisson()函数

3,生存分析

谈到生存分析,就必须提到结尾数据这个概念。

生存分析主要是把数据放入Surv object,通过Surv()函数做进一步分析

http://hadoop.aura-el.com

生存分析的主要函数有:

survfit( ) is used to estimate a survival distribution for one or more groups.

survdiff( ) tests for differences in survival distributions between two or more groups.

coxph( ) models the hazard function on a set of predictor variables.

数据基本情况如下:

变量的意义如下:

生存分析的建模过程如下:

# create a Surv object

survobj <- with(lung, Surv(time,status))

# Plot survival distribution of the total sample

# Kaplan-Meier estimator

fit0 <- survfit(survobj~1, data=lung)

summary(fit0)

Call: survfit(formula = survobj ~ 1, data = lung)

http://hadoop.aura-el.com

time n.risk n.event survival std.err lower 95% CI upper 95% CI

5 228 1 0.995

6 0.00438 0.9871 1.000

11 227 3 0.9825 0.00869 0.9656 1.000

12 224 1 0.9781 0.00970 0.9592 0.997

13 223 2 0.9693 0.01142 0.9472 0.992

15 221 1 0.9649 0.01219 0.9413 0.989

26 220 1 0.9605 0.01290 0.9356 0.986

30 219 1 0.9561 0.01356 0.9299 0.983

31 218 1 0.9518 0.01419 0.9243 0.980

53 217 2 0.9430 0.01536 0.9134 0.974

54 215 1 0.9386 0.01590 0.9079 0.970

59 214 1 0.9342 0.01642 0.9026 0.967

60 213 2 0.9254 0.01740 0.8920 0.960

61 211 1 0.9211 0.01786 0.8867 0.957

62 210 1 0.9167 0.01830 0.8815 0.953

65 209 2 0.9079 0.01915 0.8711 0.946

71 207 1 0.9035 0.01955 0.8660 0.943

79 206 1 0.8991 0.01995 0.8609 0.939

……

# Compare the survival distributions of men and women

fit1 <- survfit(survobj~sex,data=lung)

# plot the survival distributions by sex

http://hadoop.aura-el.com

plot(fit1, xlab=”Survival Time in Days”,

ylab=”% Surviving”, yscale=100, col=c(“red”,”blue”),

main=”Survival Distributions by Gender”)

legend(“topright”, title=”Gender”, c(“Male”, “Female”), fill=c(“red”, “blue”))

# test for difference between male and female

# survival curves (logrank test)

survdiff(survobj~sex, data=lung)

Call:

survdiff(formula = survobj ~ sex, data = lung)

N Observed Expected (O-E)^2/E (O-E)^2/V

sex=1 138 112 91.6 4.55 10.3

sex=2 90 53 73.4 5.68 10.3

Chisq= 10.3 on 1 degrees of freedom, p= 0.00131

# predict male survival from age and medical scores

MaleMod <- coxph(survobj~age+ph.ecog+ph.karno+pat.karno,

data=lung, subset=sex==1)

# display results

以下内容为系统自动转化的文字版,可能排版等有问题,仅供您参考:

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com R 快速入门之高级统计-广义线性_光环大数据培训

1,logistic 回归:

因变量是二值变量(例如成功和失败) ,自变量是连续变量。做这种预测, 还有很多其他方法,例如判别、神经网络、分类、支持向量机等,但是 logistic 最受欢迎。

# logistic 回归的主要参数如下:

# Logistic Regression

# where F is a binary factor and

# x1-x3 are continuous predictors

fit <- glm(F~x1+x2+x3,data=mydata,family=binomial())

summary(fit) # display results

confint(fit) # 95% CI for the coefficients

exp(coef(fit)) # exponentiated coefficients

exp(confint(fit)) # 95% CI for exponentiated coefficients

predict(fit, type=”response”) # predicted values

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

residuals(fit, type=”deviance”) # residuals

可以使用 anova(fit1,fit2, test=”Chisq”)来比较不同的模型,另外, cdplot(F~x, data=mydata) will display the conditional density plot of the binary outcome F on the continuous x variable.

2,poisson 回归

Poisson 回归的因变量是计数型的变量,自变量是连续型变量

# Poisson Regression

# where count is a count and

# x1-x3 are continuous predictors

fit <- glm(count ~ x1+x2+x3, data=mydata, family=poisson())

summary(fit) display results

如果残差变异方差比自由度大,那么需要用 quasipoisson()函数

3,生存分析

谈到生存分析,就必须提到结尾数据这个概念。

生存分析主要是把数据放入 Surv object,通过 Surv()函数做进一步分析

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

生存分析的主要函数有:

survfit( ) more groups.

is used to estimate a survival distribution for one or

survdiff( )

tests for differences in survival distributions between

two or more groups.

coxph( )

models the hazard function on a set of predictor variables.

数据基本情况如下:

变量的意义如下:

生存分析的建模过程如下:

# create a Surv object survobj <- with(lung, Surv(time,status)) # Plot survival distribution of the total sample # Kaplan-Meier estimator fit0 <- survfit(survobj~1, data=lung) summary(fit0)

Call: survfit(formula = survobj ~ 1, data = lung)

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

time n.risk n.event survival std.err lower 95% CI upper 95% CI 5 11 12 13 15 26 30 31 53 54 59 60 61 62 65 71 79 228 227 224 223 221 220 219 218 217 215 214 213 211 210 209 207 206 1 3 1 2 1 1 1 1 2 1 1 2 1 1 2 1 1 0.9956 0.00438 0.9825 0.00869 0.9781 0.00970 0.9693 0.01142 0.9649 0.01219 0.9605 0.01290 0.9561 0.01356 0.9518 0.01419 0.9430 0.01536 0.9386 0.01590 0.9342 0.01642 0.9254 0.01740 0.9211 0.01786 0.9167 0.01830 0.9079 0.01915 0.9035 0.01955 0.8991 0.01995 0.9871 0.9656 0.9592 0.9472 0.9413 0.9356 0.9299 0.9243 0.9134 0.9079 0.9026 0.8920 0.8867 0.8815 0.8711 0.8660 0.8609 1.000 1.000 0.997 0.992 0.989 0.986 0.983 0.980 0.974 0.970 0.967 0.960 0.957 0.953 0.946 0.943 0.939

??

# Compare the survival distributions of men and women fit1 <- survfit(survobj~sex,data=lung)

# plot the survival distributions by sex

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com plot(fit1, xlab=”Survival Time in Days”, ylab=”% Surviving”, yscale=100, col=c(“red”,”blue”), main=”Survival Distributions by Gender”) legend(“topright”, title=”Gender”, c(“Male”, “Female”), fill=c(“red”, “blue”))

# test for difference between male and female # survival curves (logrank test) survdiff(survobj~sex, data=lung)

Call: survdiff(formula = survobj ~ sex, data = lung)

N Observed Expected (O-E)^2/E (O-E)^2/V sex=1 138 sex=2 90 112 53 91.6 73.4 4.55 5.68 10.3 10.3

Chisq= 10.3

on 1 degrees of freedom, p= 0.00131

# predict male survival from age and medical scores MaleMod <- coxph(survobj~age+ph.ecog+ph.karno+pat.karno, data=lung, subset=sex==1)

# display results

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com MaleMod

Call: coxph(formula = survobj ~ age + ph.ecog + ph.karno + pat.karno, data = lung, subset = sex == 1) coef exp(coef) se(coef) age ph.ecog ph.karno 0.0225 0.6655 0.0256 1.023 1.945 1.026 0.989 0.01222 0.22571 0.01178 z p

1.84 0.0660 2.95 0.0032 2.17 0.0300

pat.karno -0.0111

0.00889 -1.24 0.2100

Likelihood ratio test=17.9 events= 108

on 4 df, p=0.00131

n= 134, number of

(4 observations deleted due to missingness)

# evaluate the proportional hazards assumption cox.zph(MaleMod)

rho age ph.ecog ph.karno

chisq

p

0.00534 0.00363 0.952 0.02851 0.09155 0.762 0.16922 2.43462 0.119

pat.karno 0.02988 0.12793 0.721 GLOBAL NA 5.62951 0.229

plot( cox.zph(MaleMod))

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 为什么大家选择光环大数据!

大数据培训、 人工智能培训、 Python 培训、 大数据培训机构、 大数据培训班、 数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据 领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时 代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入 浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现 就业梦想。

光环大数据启动了推进人工智能人才发展的“AI 智客计划” 。光环大数据专注国内 大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据 将联合国内百所大学,通过“AI 智客计划” ,共同推动人工智能产业人才生态建设,培 养和认证 5-10 万名 AI 大数据领域的人才。

参加“AI 智客计划” ,享 2000 元助学金!

【报名方式、详情咨询】 光环大数据网站报名:http://hadoop.aura-el.com 手机报名链接:http:// hadoop.aura-el.com /mobile/

光环大数据 http://hadoop.aura-el.com


  • 与《R快速入门之高级统计-广义线性_光环大数据培训》相关:
  • R广义线性模型_光环大数据培训机构
  • 大数据培训_非统计学专业适合学习大数据吗_光环大数
  • 全面的R语言统计检验方法_光环大数据培训机构
  • R做多元线性回归全攻略_光环大数据 Python培
  • 统计建模与R软件_光环大数据培训机构
  • 大数据培训之云计算和大数据的关系_光环大数据培训
  • 光环大数据培训_大数据云计算呼之欲出
  • 用好大数据 加强“三新”统计_北京光环大数据培训机
  • 夯实云计算和大数据产业基础_光环大数据培训
  • 云计算与大数据要学啥_光环大数据培训
  • 本站网站首页首页教育资格全部考试考试首页首页考试首页职业资格考试最近更新儿童教育综合综合文库22文库2建筑专业资料考试首页范文大全公务员考试首页英语首页首页教案模拟考考试pclist学路首页日记语文古诗赏析教育教育资讯1高考资讯教育头条幼教育儿知识库教育职场育儿留学教育高考公务员考研考试教育资讯1问答教育索引资讯综合学习网站地图学习考试学习方法首页14托福知道备考心经冲刺宝典机经真题名师点睛托福课程雅思GREGMATSAT留学首页首页作文
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.xue63.com All Rights Reserved