R语言与机器学习学习笔记 分析算法_光环大数据培训机构

来源:互联网 由 光环IT学院 贡献 责任编辑:王小亮  

以下内容为系统自动转化的文字版,可能排版等有问题,仅供您参考:

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com R 语言与机器学习学习笔记 分析算法_光环大数据培训机构

人工神经网络(ANN) ,简称神经网络,是一种模仿生物神经网络的结构和功 能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数 情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。 现代神经网络是一种非线性统计性数据建模工具, 常用来对输入和输出间复杂的 关系进行建模,或用来探索数据的模式。

人工神经网络从以下四个方面去模拟人的智能行为:

物理结构:人工神经元将模拟生物神经元的功能 计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个 系统。人工神经网络中也有大量有局部处理能力的神经元,也能够将信息进行大 规模并行处理 存储与操作: 人脑和人工神经网络都是通过神经元的连接强度来实现记 忆存储功能,同时为概括、类比、推广提供有力的支持 训练:同人脑一样,人工神经网络将根据自己的结构特性,使用不同的 训练、学习过程,自动从实践中获得相关知识

神经网络是一种运算模型,由大量的节点(或称“神经元” ,或“单元” )和 之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个 节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于 人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对 一种逻辑策略的表达。

一、感知器

感知器相当于神经网络的一个单层, 由一个线性组合器和一个二值阈值原件 构成:

构成 ANN 系统的单层感知器:

感知器以一个实数值向量作为输入,计算这些输入的线性组合,如果结 果大于某个阈值,就输出 1,否则输出‐1。 感知器函数可写为: sign (w*x) 有时可加入偏置 b, 写为 sign (w*x b) 学习一个感知器意味着选择权 w0,?,wn 的值。所以感知器学习要考虑 的候选假设空间 H 就是所有可能的实数值权向量的集合

算法训练步骤:

1、定义变量与参数 x(输入向量),w(权值向量),b(偏置),y(实际输

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 出),d(期望输出),a(学习率参数)

2、初始化,n=0,w=0

3、输入训练样本,对每个训练样本指定其期望输出:A 类记为 1,B 类记为 -1

4、计算实际输出 y=sign(w*x b)

5、更新权值向量 w(n 1)=w(n) a[d-y(n)]*x(n),0<a<1

6、判断,若满足收敛条件,算法结束,否则返回 3

注意,其中学习率 a 为了权值的稳定性不应过大,为了体现误差对权值的修 正不应过小,说到底,这是个经验问题。

从前面的叙述来看,感知器对于线性可分的例子是一定收敛的,对于不可分 问题,它没法实现正确分类。这里与我们前面讲到的支持向量机的想法十分的相 近,只是确定分类直线的办法有所不同。可以这么说,对于线性可分的例子,支 持向量机找到了 “最优的” 那条分类直线, 而单层感知器找到了一条可行的直线。

我们以鸢尾花数据集为例,由于单层感知器是一个二分类器,所以我们将鸢 尾花数据也分为两类, “setosa”与“versicolor” (将后两类均看做第 2 类) , 那么数据按照特征:花瓣长度与宽度做分类。

运行下面的代码:

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

[plain] view plaincopyprint?

#感知器训练结果: a<-0.2 w<-rep(0,3) iris1<-t(as.matrix(iris[,3:4])) d<-c(rep(0,50),rep(1,100)) e<-rep(0,150) p<-rbind(rep(1,150),iris1) max<-100000 eps<-rep(0,100000) i<-0 repeat{ v<-w%*%p; y<-ifelse(sign(v)>=0,1,0); e<-d-y; eps[i 1]<-sum(abs(e))/length(e) if(eps[i 1]<0.01){ print(“finish:”); print(w); break; } w<-w a*(d-y)%*%t(p); i<-i 1; if(i>max){ print(“max time loop”); print(eps[i])

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com print(y); break; } } #绘图程序 plot(Petal.Length~Petal.Width,xlim=c(0,3),ylim=c(0,8), data=iris[iris$Species==”virginica”,]) data1<-iris[iris$Species==”versicolor”,] points(data1$Petal.Width,data1$Petal.Length,col=2) data2<-iris[iris$Species==”setosa”,] points(data2$Petal.Width,data2$Petal.Length,col=3) x<-seq(0,3,0.01) y<-x*(-w[2]/w[3])-w[1]/w[3] lines(x,y,col=4) #绘制每次迭代的平均绝对误差 plot(1:i,eps[1:i],type=”o”)

分类结果如图:

这是运行了 7 次得到的结果。与我们前面的支持向量机相比,显然神经网络 的单层感知器分类不是那么的可信,有些弱。

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

我们可以尝试来做交叉验证,可以发现交叉验证结果并不理想。 二、线性神经网络

尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如 果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服 这个不足,称为 delta 法则。

如果训练样本不是线性可分的, 那么 delta 法则会收敛到目标概念的最佳近 似。

delta 法则的关键思想是使用梯度下降来搜索可能权向量的假设空间,以找 到最佳拟合训练样例的权向量。

我们将算法描述如下:

1、定义变量与参数。x(输入向量),w(权值向量),b(偏置),y(实际输 出),d(期望输出),a(学习率参数) (为叙述简便,我们可以将偏置并入权值 向量中)

2、初始化 w=0

3、输入样本,计算实际输出与误差。e(n)=d-x*w(n)

4、调整权值向量 w(n 1)=w(n) a*x*e(n)

5、判断是否收敛,收敛结束,否则返回 3

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com Hayjin 证明,只要学习率 a<2/maxeign, delta 法则按方差收敛。其中 maxeigen 为 x’x 的最大特征值。故我们这里使用 1/maxeign 作为 a 的值。

我们还是以上面的鸢尾花数据为例来说这个问题。运行代码:

[plain] view plaincopyprint?

p<-rbind(rep(1,150),iris1) d<-c(rep(0,50),rep(1,100)) w<-rep(0,3) a<-1/max(eigen(t(p)%*%p)$values) max<-1000 e<-rep(0,150) eps<-rep(0,1000) i<-0 for(i in 1:max){ v<-w%*%p; y<-v; e<-d-y; eps[i 1]<-sum(e^2)/length(e) w<-w a*(d-y)%*%t(p); if(i==max) print(w) }

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

得到分类直线:

相比感知器分类而言已经好了太多了, 究其原因不外乎传递函数由二值阈值 函数变为了线性函数, 这也就是我们前面提到的 delta 法则会收敛到目标概念的 最佳近似。增量法则渐近收敛到最小误差假设,可能需要无限的时间,但无论训 练样例是否线性可分都会收敛。

为了明了这一点我们考虑鸢尾花数据后两类花的分类 (这里我们将前两类看 做一类) ,使用感知器:

使用线性分类器:

但是要解释的一点是,收敛并不意味着分类效果更好,要解决线性不可分问 题需要的是添加非线性输入或者增加神经元。我们以 Minsky & Papert (1969) 提出的异或例子为例说明这一点。

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

使用线性神经网络,代码与上面完全相同,略。

第一个神经元输出:

权值: [,1] [,2] [,3]

[1,] 0.75 0.5 -0.5

测试: [,1] [,2] [,3] [,4]

[1,] 1 0 1 1

第二个神经元输出:

权值: [,1] [,2] [,3]

[1,] 0.75 -0.5 0.5

测试: [,1] [,2] [,3] [,4]

[1,] 1 1 0 1

求 解 异 或 逻 辑 ( 相 同 取 0 , 不 同 取 1 ) 有 结 果 :( 代 码 xor(c(1,0,1,1),c(1,1,0,1)))

[1] FALSE TRUE TRUE FALSE

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 即 0,1,1,0,分类正确。

最后再说一点,Delta 规则只能训练单层网络,但这不会对其功能造成很大 的影响。从理论上说,多层神经网络并不比单层神经网络更强大,他们具有同样 的能力。

三、BP 神经网络 1、sigmoid 函数分类

回顾我们前面提到的感知器,它使用示性函数作为分类的办法。然而示性函 数作为分类器它的跳点让人觉得很难处理,幸好 sigmoid 函数 y=1/(1 e^-x)有 类似的性质,且有着光滑性这一优良性质。我们通过下图可以看见 sigmoid 函数 的图像:

Sigmoid 函数有着计算代价不高,易于理解与实现的优点但也有着欠拟合, 分类精度不高的特性, 我们在支持向量机一章中就可以看到 sigmoid 函数差劲的 分类结果。 2、BP 神经网络结构

BP (Back Propagation)神经网络,即误差反传误差反向传播算法的学习过 程,由信息的正向传播和误差的反向传播两个过程组成。由下图可知,BP 神经 网络是一个三层的网络:

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

输入层(input layer):输入层各神经元负责接收来自外界的输入信息, 并传递给中间层各神经元; 隐藏层(Hidden Layer):中间层是内部信息处理层,负责信息变换,根 据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐 层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处 理过程; 输出层(Output Layer):顾名思义,输出层向外界输出信息处理结果;

当实际输出与期望输出不符时, 进入误差的反向传播阶段。 误差通过输出层, 按误差梯度下降的方式修正各层权值,向隐藏层、输入层逐层反传。周而复始的 信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络 学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或 者预先设定的学习次数为止。 3、反向传播算法

反向传播这一算法把我们前面提到的 delta 规则的分析扩展到了带有隐藏 节点的神经网络。为了理解这个问题,设想 Bob 给 Alice 讲了一个故事,然后 Alice 又讲给了 Ted, Ted 检查了这个事实真相, 发现这个故事是错误的。 现在 Ted 需要找出哪些错误是 Bob 造成的而哪些又归咎于 Alice。当输出节点从隐藏节点 获得输入,网络发现出现了误差,权系数的调整需要一个算法来找出整个误差是 由多少不同的节点造成的,网络需要问, “是谁让我误入歧途?到怎样的程度? 如何弥补?”这时,网络该怎么做呢?

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

同样源于梯度降落原理,在权系数调整分析中的唯一不同是涉及到 t(p,n) 与 y(p,n)的差分。通常来说 Wi 的改变在于:

alpha * s'(a(p,n)) * d(n) *X(p,i,n)

其中 d(n)是隐藏节点 n 的函数,让我们来看:

n 对任何给出的输出节点有多大影响; 输出节点本身对网络整体的误差有多少影响。

一方面,n 影响一个输出节点越多,n 造成网络整体的误差也越多。另一方 面,如果输出节点影响网络整体的误差越少,n 对输出节点的影响也相应减少。 这里 d(j)是对网络的整体误差的基值,W(n,j) 是 n 对 j 造成的影响,d(j) * W(n,j) 是这两种影响的总和。但是 n 几乎总是影响多个输出节点,也许会影响 每一个输出结点,这样,d(n) 可以表示为:SUM(d(j)*W(n,j))

这里 j 是一个从 n 获得输入的输出节点,联系起来,我们就得到了一个培训 规则。

第 1 部分:在隐藏节点 n 和输出节点 j 之间权系数改变,如下所示: alpha *s'(a(p,n))*(t(p,n) – y(p,n)) * X(p,n,j) 第 2 部分:在输入节点 i 和输出节点 n 之间权系数改变,如下所示: alpha *s'(a(p,n)) * sum(d(j) * W(n,j)) * X(p,i,n)

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

这里每个从 n 接收输入的输出节点 j 都不同。 关于反向传播算法的基本情况 大致如此。

通常把第 1 部分称为正向传播,把第 2 部分称为反向传播。反向传播的名 字由此而来。 4、最速下降法与其改进

最速下降法的基本思想是:要找到某函数的最小值,最好的办法是沿函数的 梯度方向探寻,如果梯度记为 d,那么迭代公式可写为 w=w-alpha*d,其中 alpha 可理解为我们前面提到的学习速率。

最速下降法有着收敛速度慢(因为每次搜索与前一次均正交,收敛是锯齿形 的) ,容易陷入局部最小值等缺点,所以他的改进办法也有不少,最常见的是增 加动量项与学习率可变。

增加冲量项(Momentum)

修改权值更新法则, 使第 n 次迭代时的权值的更新部分地依赖于发生在 第 n‐1 次迭代时的更新 Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1) 右侧第一项就是权值更新法则,第二项被称为冲量项 梯度下降的搜索轨迹就像一个球沿误差曲面滚下, 冲量使球从一次迭代 到下一次迭代时以同样的方向滚动

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域 冲量也具有在梯度不变的区域逐渐增大搜索步长的效果, 从而加快收敛。

改变学习率

当误差减小趋近目标时,说明修正方向是正确的,可以增加学习率;当 误差增加超过一个范围时,说明修改不正确,需要降低学习率。

5、BP 神经网络的实现

(1)数据读入,这里我们还是使用 R 的内置数据——鸢尾花数据,由于神 经网络本质是 2 分类的,所以我们将鸢尾花数据也分为两类(将前两类均看做第 2 类) ,按照特征:花瓣长度与宽度做分类。

(2)划分训练数据与测试数据

(3)初始化 BP 网络,采用包含一个隐含层的神经网络,训练方法使用包含 动量的最速下降法,传递函数使用 sigmoid 函数。

(4)输入样本,对样本进行归一化,计算误差,求解误差平方和

(5)判断是否收敛

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com (6)根据误差调整权值。权值根据以下公式进行调整:

Delta(w)= alpha *s'(a(p,n))*(t(p,n) – y(p,n)) * X(p,n,j)

其中,alpha 为学习率,s'(a(p,n))*(t(p,n)- y(p,n))为局部梯度。此外, 由于使用了有动量因子的最速下降法,除第一次外,后续改变量应为:

Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1)

(7)测试,输出分类正确率。

完整的 R 代码:

[plain] view plaincopyprint?

iris1<-as.matrix(iris[,3:4]) iris1<-cbind(iris1,c(rep(1,100),rep(0,50))) set.seed(5) n<-length(iris1[,1]) samp<-sample(1:n,n/5) traind<-iris1[-samp,c(1,2)] train1<-iris1[-samp,3] testd<-iris1[samp,c(1,2)] test1<-iris1[samp,3]

set.seed(1)

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com ntrainnum<-120 nsampdim<-2

net.nin<-2 net.nhidden<-3 net.nout<-1

w<-2*matrix(runif(net.nhidden*net.nin)-0.5,net.nhidden,net.nin) b<-2*(runif(net.nhidden)-0.5) net.w1<-cbind(w,b)

W<-2*matrix(runif(net.nhidden*net.nout)-0.5,net.nout,net.nhidden) B<-2*(runif(net.nout)-0.5) net.w2<-cbind(W,B)

traind_s<-traind traind_s[,1]<-traind[,1]-mean(traind[,1]) traind_s[,2]<-traind[,2]-mean(traind[,2]) traind_s[,1]<-traind_s[,1]/sd(traind_s[,1]) traind_s[,2]<-traind_s[,2]/sd(traind_s[,2])

sampinex<-rbind(t(traind_s),rep(1,ntrainnum)) expectedout<-train1

eps<-0.01 a<-0.3 mc<-0.8 maxiter<-2000

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com iter<-0

errrec<-rep(0,maxiter) outrec<-matrix(rep(0,ntrainnum*maxiter),ntrainnum,maxiter)

sigmoid<-function(x){ y<-1/(1 exp(-x)) return(y) }

for(i in 1:maxiter){ hid_input<-net.w1%*%sampinex; hid_out<-sigmoid(hid_input); out_input1<-rbind(hid_out,rep(1,ntrainnum)); out_input2<-net.w2%*%out_input1; out_out<-sigmoid(out_input2); outrec[,i]<-t(out_out); err<-expectedout-out_out; sse<-sum(err^2); errrec[i]<-sse; iter<-iter 1; if(sse<=eps) break

Delta<-err*sigmoid(out_out)*(1-sigmoid(out_out))

delta<-(matrix(net.w2[,1:(length(net.w2[1,])-1)]))%*%Delta*sigmoid(hi d_out)*(1-sigmoid(hid_out));

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

dWex<-Delta%*%t(out_input1) dwex<-delta%*%t(sampinex)

if(i==1){ net.w2<-net.w2 a*dWex; net.w1<-net.w1 a*dwex; } else{ net.w2<-net.w2 (1-mc)*a*dWex mc*dWexold; net.w1<-net.w1 (1-mc)*a*dwex mc*dwexold; }

dWexold<-dWex; dwexold<-dwex; }

testd_s<-testd testd_s[,1]<-testd[,1]-mean(testd[,1]) testd_s[,2]<-testd[,2]-mean(testd[,2]) testd_s[,1]<-testd_s[,1]/sd(testd_s[,1]) testd_s[,2]<-testd_s[,2]/sd(testd_s[,2])

inex<-rbind(t(testd_s),rep(1,150-ntrainnum)) hid_input<-net.w1%*%inex hid_out<-sigmoid(hid_input) out_input1<-rbind(hid_out,rep(1,150-ntrainnum))

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com out_input2<-net.w2%*%out_input1 out_out<-sigmoid(out_input2) out_out1<-out_out

out_out1[out_out<0.5]<-0 out_out1[out_out>=0.5]<-1

rate<-sum(out_out1==test1)/length(test1)

分类正确率为:0.9333333,是一个不错的学习器。这里需要注意的是动量 因子 mc 的选取,mc 不能过小,否则容易陷入局部最小而出不去,在本例中,如 果 mc=0.5,分类正确率仅为:0.5333333,学习效果很不理想。 四、R 中的神经网络函数

单层的前向神经网络模型在包 nnet 中的 nnet 函数,其调用格式为:

nnet(formula,data, weights, size, Wts, linout = F, entropy = F,

softmax = F, skip = F, rang = 0.7,decay = 0, maxit = 100,

trace = T)

参数说明:

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com size, 隐层结点数;

decay, 表明权值是递减的(可以防止过拟合) ;

linout, 线性输出单元开关;

skip,是否允许跳过隐层;

maxit, 最大迭代次数;

Hess, 是否输出 Hessian 值

适用于神经网络的方法有 predict,print 和 summary 等,nnetHess 函数用 来计算在考虑了权重参数下的 Hessian 矩阵,并且检验是否是局部最小。

我们使用 nnet 函数分析 Vehicle 数据。随机选择半数观测作为训练集,剩 下的作为测试集,构建只有包含 3 个节点的一个隐藏层的神经网络。输入如下程 序:

[plain] view plaincopyprint?

library(nnet); #安装 nnet 软件包 library(mlbench); #安装 mlbench 软件包 data(Vehicle); #调入数据 n=length(Vehicle[,1]); #样本量 set.seed(1); #设随机数种子

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com samp=sample(1:n,n/2); #随机选择半数观测作为训练集 b=class.ind(Vehicle$Class); #生成类别的示性函数

test.cl=function(true,pred){true<-max.col(true);cres=max.col(pred);ta ble(true,cres)};

a=nnet(Vehicle[samp,-19],b[samp,],size=3,rang=0.1,decay=5e-4,maxit=20 0); #利用训练集中前 18 个变量作为输入变量,隐藏层有 3 个节点,初始随机权 值在[-0.1,0.1],权值是逐渐衰减的。 test.cl(b[samp,],predict(a,Vehicle[samp,-19]))#给出训练集分类 结果 test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));# 给 出 测 试 集 分类结果 #构建隐藏层包含 15 个节点的网络。接着上面的语句输入如下程序:

a=nnet(Vehicle[samp,-19],b[samp,],size=15,rang=0.1,decay=5e-4,maxit=1 0000); test.cl(b[samp,],predict(a,Vehicle[samp,-19])); test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));

再看手写数字案例

最后,我们回到最开始的那个手写数字的案例,我们试着利用支持向量机重 做这个案例。 (这个案例的描述与数据参见《R 语言与机器学习学习笔记(分类 算法) (1) 》 )

由于 nnet 包对输入的维数有一定限制(我也不知道为什么,可能在权值计 算的时候出现了一些 bug,反正将支持向量机那一节的代码平行的移过来是会报

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 错的) 。我们这里采用手写数字识别技术中常用的办法处理这个案例:计算数字 的特征。选择数字特征的办法有许多种,你随便百度一篇论文都有叙述。我们这 里采用结构特征与统计特征结合的办法计算图像的特征。

我们这里采用的统计特征与上图有一点的不同(结构特征一致) ,我们是将 图片分为 16 块(4*4) ,统计每个小方块中点的个数,这样我们就有 25 维的特征 向量了。为了保证结果的可比性,我们也报告支持向量机的分类结果。

运行下列代码:

[plain] view plaincopyprint?

setwd(“D:/R/data/digitsrainingDigits”) names<-list.files(“D:/R/data/digitsrainingDigits”) data<-paste(“train”,1:1934,sep=””) for(i in 1:length(names))

assign(data[i],as.matrix(read.fwf(names[i],widths=rep(1,32)))) library(nnet)

label<-factor(rep(0:9,c(189,198,195,199,186,187,195,201,180,204)))

feature<-matrix(rep(0,length(names)*25),length(names),25) for(i in 1:length(names)){

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com feature[i,1]<-sum(get(data[i])[,16]) feature[i,2]<-sum(get(data[i])[,8]) feature[i,3]<-sum(get(data[i])[,24]) feature[i,4]<-sum(get(data[i])[16,]) feature[i,5]<-sum(get(data[i])[11,]) feature[i,6]<-sum(get(data[i])[21,]) feature[i,7]<-sum(diag(get(data[i]))) feature[i,8]<-sum(diag(get(data[i])[,32:1])) feature[i,9]<-sum((get(data[i])[17:32,17:32])) feature[i,10]<-sum((get(data[i])[1:8,1:8])) feature[i,11]<-sum((get(data[i])[9:16,1:8])) feature[i,12]<-sum((get(data[i])[17:24,1:8])) feature[i,13]<-sum((get(data[i])[25:32,1:8])) feature[i,14]<-sum((get(data[i])[1:8,9:16])) feature[i,15]<-sum((get(data[i])[9:16,9:16])) feature[i,16]<-sum((get(data[i])[17:24,9:16])) feature[i,17]<-sum((get(data[i])[25:32,9:16])) feature[i,18]<-sum((get(data[i])[1:8,17:24])) feature[i,19]<-sum((get(data[i])[9:16,17:24])) feature[i,20]<-sum((get(data[i])[17:24,17:24])) feature[i,21]<-sum((get(data[i])[25:32,17:24])) feature[i,22]<-sum((get(data[i])[1:8,25:32])) feature[i,23]<-sum((get(data[i])[9:16,25:32])) feature[i,24]<-sum((get(data[i])[17:24,25:32])) feature[i,25]<-sum((get(data[i])[25:32,25:32])) } data1 <- data.frame(feature,label) m1<-nnet(label~.,data=data1,size=25,maxit = 2000,decay = 5e-6,

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com rang = 0.1) pred<-predict(m1,data1,type=”class”) table(pred,label) sum(diag(table(pred,label)))/length(names)

library(“e1071”) m <- svm(feature,label,cross=10,type=”C-classification”) m summary(m) pred<-fitted(m) table(pred,label)

setwd(“D:/R/data/digitsestDigits”) name<-list.files(“D:/R/data/digitsestDigits”) data1<-paste(“train”,1:1934,sep=””) for(i in 1:length(name))

assign(data1[i],as.matrix(read.fwf(name[i],widths=rep(1,32))))

feature<-matrix(rep(0,length(name)*25),length(name),25) for(i in 1:length(name)){ feature[i,1]<-sum(get(data1[i])[,16]) feature[i,2]<-sum(get(data1[i])[,8]) feature[i,3]<-sum(get(data1[i])[,24]) feature[i,4]<-sum(get(data1[i])[16,]) feature[i,5]<-sum(get(data1[i])[11,]) feature[i,6]<-sum(get(data1[i])[21,]) feature[i,7]<-sum(diag(get(data1[i])))

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com feature[i,8]<-sum(diag(get(data1[i])[,32:1])) feature[i,9]<-sum((get(data1[i])[17:32,17:32])) feature[i,10]<-sum((get(data1[i])[1:8,1:8])) feature[i,11]<-sum((get(data1[i])[9:16,1:8])) feature[i,12]<-sum((get(data1[i])[17:24,1:8])) feature[i,13]<-sum((get(data1[i])[25:32,1:8])) feature[i,14]<-sum((get(data1[i])[1:8,9:16])) feature[i,15]<-sum((get(data1[i])[9:16,9:16])) feature[i,16]<-sum((get(data1[i])[17:24,9:16])) feature[i,17]<-sum((get(data1[i])[25:32,9:16])) feature[i,18]<-sum((get(data1[i])[1:8,17:24])) feature[i,19]<-sum((get(data1[i])[9:16,17:24])) feature[i,20]<-sum((get(data1[i])[17:24,17:24])) feature[i,21]<-sum((get(data1[i])[25:32,17:24])) feature[i,22]<-sum((get(data1[i])[1:8,25:32])) feature[i,23]<-sum((get(data1[i])[9:16,25:32])) feature[i,24]<-sum((get(data1[i])[17:24,25:32])) feature[i,25]<-sum((get(data1[i])[25:32,25:32])) }

labeltest<-factor(rep(0:9,c(87,97,92,85,114,108,87,96,91,89))) data2<-data.frame(feature,labeltest) pred1<-predict(m1,data2,type=”class”) table(pred1,labeltest) sum(diag(table(pred1,labeltest)))/length(name)

pred<-predict(m,feature) table(pred,labeltest)

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com sum(diag(table(pred,labeltest)))/length(name)

经整理,我们有如下输出结果:

可以看到,神经网络与支持向量机还是有一定的可比性,但支持向量机的结 果还是要优于神经网络的。

这里我们神经网络取 25 个节点(隐藏层)似乎出现了过拟合的现象(虽然 还不算过于严重)我们应该减少节点个数得到更佳的预测结果。

关于节点的选择是个经验活,我们没有一定的规则。可以多试几次,结合训 练集正确率与测试集正确率综合研判,但是构造神经网络的代价是高昂的,所以 有一个不太坏的结果也就可以停止了。 (其他参数的选择同样如此, 但是不如 size 那么重要)

特征的选取对于识别问题来说相当的重要, 也许主成分在选择特征时作用会 比我们这样的选择更好,但是代价也更高,还有我们应该如何选择主成分,怎么 选择(选择哪张图的主成分)都是需要考虑的。

五、神经网络还是支持向量机

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com 从上面的叙述可以看出, 神经网络与我们前面说的支持向量机有不少相似的 地方,那么我们应该选择谁呢?下面是两种方法的一个简明对比:

– SVM 的理论基础比 NN 更坚实,更像一门严谨的“科学” (三要素: 问题的表示、问题的解决、证明) – SVM ——严格的数学推理 –ANN ——强烈依赖于工程技巧 –推广能力取决于“经验风险值”和“置信范围值” ,ANN 不能控制两 者中的任何一个。 –ANN 设计者用高超的工程技巧弥补了数学上的缺陷——设计特殊的结 构,利用启发式算法,有时能得到出人意料的好结果。

为什么大家选择光环大数据!

大数据培训、 人工智能培训、 Python 培训、 大数据培训机构、 大数据培训班、 数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据 领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时 代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入 浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现 就业梦想。

光环大数据启动了推进人工智能人才发展的“AI 智客计划” 。光环大数据专注国内

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com

大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据 将联合国内百所大学,通过“AI 智客计划” ,共同推动人工智能产业人才生态建设,培 养和认证 5-10 万名 AI 大数据领域的人才。

参加“AI 智客计划” ,享 2000 元助学金!

【报名方式、详情咨询】 光环大数据网站报名:http://hadoop.aura-el.com 手机报名链接:http:// hadoop.aura-el.com /mobile/

光环大数据 http://hadoop.aura-el.com


  • 与《R语言与机器学习学习笔记 分析算法_光环大数据培训机构》相关:
  • R语言中的情感分析与机器学习_光环大数据培训机构
  • 机器学习的方法_光环大数据培训机构
  • 机器学习新手的学习方法推荐_北京光环大数据培训机构
  • 算法是机器学习的核心_光环大数据培训机构
  • 试试这个机器学习算法_光环大数据培训机构
  • R语言学习路线和常用数据挖掘包_光环大数据培训机构
  • 简单易学的机器学习算法_北京光环大数据培训机构
  • 大数据培训机构_什么是大数据机器学习_光环大数据培
  • 基于R语言的数据分析和挖掘方法总结_光环大数据培训
  • R编码常见的机器学习算法_光环大数据 Python
  • 本站网站首页首页教育资格全部考试考试首页首页考试首页职业资格考试最近更新儿童教育综合综合文库22文库2建筑专业资料考试首页范文大全公务员考试首页英语首页首页教案模拟考考试pclist学路首页日记语文古诗赏析教育教育资讯1高考资讯教育头条幼教育儿知识库教育职场育儿留学教育高考公务员考研考试教育资讯1问答教育索引资讯综合学习网站地图学习考试学习方法首页14托福知道备考心经冲刺宝典机经真题名师点睛托福课程雅思GREGMATSAT留学首页首页作文
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.xue63.com All Rights Reserved