解决回归问题的支持向量机算法简介支持向量机采用最优分类面的方法,将分类问题转化为一个凸二次规划问题,并应用拉格朗日函数求解。支持向量机在分类问题上的应用已经非常成熟。
对于回归问题支持向量机在引入精度后就可以应用分类问题的方法。对于线性回归,设所有训练数据都可以在精度下无误差地用线性函数拟合,考虑到会有样本点在目标函数的之外的情况,引入松弛因子i0和i0,这时回归问题就可转化为最小化结构风险函数的问题:R(w,,)=12ww+Cki=1(i+i)。
(1)其相应约束条件为yi-wxi-b+i,wxi+b-yi+i;i0,i0,i=1,,k.
(2)式(1)中的第1项是使回归函数更为平坦,泛化能力更好,第2项则为减少误差,常数C>0控制对超出误差的样本的惩罚程度。f(xi)(样本实际值)与yi(预测值)的差别小于时不计入误差(,=0),大于时误差计为|f(xi)-yi|-.
对于非线性回归,支持向量机使用非线性映射把数据映射到高维特征空间,在高维特征空间进行线性回归,取得在原空间非线性回归的效果。设样本x可用非线性函数(x)映射到高维空间,(x)称为映射函数,核函数K(xi,xj)=(xi)(xj)是映射函数的点积,Merce定理已证明,只要满足Mercer条件的对称函数即可作为核函数。按照优化理论中的KuhnTucker定理,在拉格朗日函数鞍点KarushKuhnTucker(KKT)互补条件成立,通过KKT互补条件很容易求解拉格朗日函数的对偶问题<34>。
选用工况28和1012作为训练样本,以工况1作为检验样本对模型参数进行选择,采用径向基核函数进行回归分析,并应用选择好的参数对工况9进行预测。模型的取为10-4,设定当训练误差小于10-5时停止训练,参数g缺省值为10-4,从缺省值开始向其两侧进行寻优,寻优条件为预测误差和经验风险最小,罚因子参数C缺省值为10,并从缺省值开始进行与参数g相同的寻优过程,当误差明显有增大趋势或稳定趋势时停止寻优,取得参数。本模型在参数C为缺省值情况下先对参数g寻优,然后再对C寻优,最终得到最优结果。
参数g的影响示出了径向基函数中参数g对工况1预测相对误差的影响。从图中可以看出,参数g在一定范围(-8-2或lgg<-8均方差趋于稳定。预测误差和训练样本均方差分别代表了模型的两个不同方面的性能,在选择参数时应综合考虑,尽量使两者都比较小。单纯从g的参数g对均方差的影响情况看,当g=8%10-5和2%10-5时预测误差和训练均方差都比较小,可以根据不同侧重进行选择,本文更侧重于泛化能力,因此,若单纯靠考虑g的影响则选择g=8%10-5,3种情况下的详细数据见表2,其中n为迭代次数,为相对误差,为均方差,为相关系数,t为时间。在本模型中由于还存在另外一个影响较大的参数罚因子C,选择3个g值(8%10-5、2%10-5、0.03)分别为预测误差最小、训练样本均方差最小和预测误差及均方差都趋于稳定且较大的情况,在3种情况下,分别调整参数C进行对比和分析,以研究不同情况下参数C对模型的影响,最后综合考虑g和C的影响选择最优模型参数。
参数C的影响、4分别示出了在g=8%10-5条件下参数C的变化对预测相对误差和训练均方差的影响。从可以看出,随着C值的变