摘要
为了提高分析模型的效率与性能,提出了一种基于变量稳定性与集群分析相结合(VSPA)的波长选择方法。该算法将变量分为样本空间与变量空间,在样本空间里计算变量的稳定性,根据稳定性值,利用加权自举采样技术将变量划分为有用变量与无用变量;在变量空间中,统计每个变量出现的频率,利用指数衰减函数在无用变量中去掉变量频率较低的变量。将算法应用在近红外光谱玉米数据集中来预测玉米中淀粉的含量,其预测集均方根(RMSEP)与相关系数(Rp)分别为0.0409和0.9974,筛选后的特征变量仅为原始光谱数据的2.7%,说明提出的变量选择方法能够提高模型的运算效率与预测能力,是一种有效的变量选择方法。
红外光谱定性与定量分析技术由于其响应速度快、分析成分多、预测准确等特点,广泛应用于电力设备故障诊断、石油天然气勘探、煤矿灾害预警等领
偏最小二乘法(partial least square, PLS)由于其操作简单与较高的预测精度,广泛应用于线性模型
针对上述波长选择方法存在的问题,本文提出了一种基于变量稳定性与集群分析相结合的变量选择方法对红外光谱变量进行筛选,该方法将变量分为样本空间与变量空间,在样本空间中计算变量的稳定性,在变量空间中计算变量的频率,根据变量稳定性利用加权自举采样将变量分为有用变量与无用变量,利用指数衰减函数在无用变量中强制剔除在变量空间在频率较低的变量,实现对变量的筛选。为了评价提出方法的性能,将现有MCUVE、CARS、BOSS与提出的VSPA四种变量选择方法,分别应用于玉米的近红外光谱数据集中,并对四种方法筛选的变量分别建立PLS模型来预测玉米中淀粉的含量。结果表明,本文提出的VSPA算法选择的变量个数与BOSS算法相当,预测结果最好,是一种有效的变量筛选方法。
假设样本的红外光谱矩阵为Xn×p,X为n个样本扫描获得的p个谱线,通常n<<p, y为分析样本的浓度信息矩阵,当样本包含的成分为1时,y为浓度信息向量,e为随机误差。建立PLS回归模型时光谱矩阵与浓度信息之间的关系可以表示为如下:
y=Xβ+e , (1)
式(1)中,β为回归系数向量,β=[β1, β2,∙∙∙, βp
. | (2) |
VSPA算法以变量回归系数的稳定性进行粗选,根据变量的频率指标进行精选。当变量的稳定性值越小时,有很大概率被认为是无用变量,此时如果变量获得的频率越小,则该变量会被强制剔除,当循环到达设定的次数时,迭代停止。VSPA算法具体的实现步骤如下所示:
Step1:循环开始,变量的初始长度等于全部光谱变量,记为p。从n个样本中随机选择n1个样本作为样本空间,计算每个变量的稳定性Si,根据Si的值,利用加权自举采样技术,将p个变量划分为有用变量,与无用变量。值得一提的是,有用变量的个数约为变量长度的0.632
Step2:保持样本的数量n不变,应用蒙特卡洛算法随机从p个变量中选择p1个变量,该步骤循环W次,获得W个变量空间,分别为每个变量空间建立PLS模型,每个模型会获得相应的均方根误差值(RMSE),从W个模型里面选择RMSE值较小的αW个模型,统计每个变量出现的频率fi;
Step3:利用指数衰减函数,确定每次迭代后剩余的变量,指数衰减函数可以表示如下:
, | (3) |
式(3)中ri为当前迭代后剩余的变量数,,i为第i次循环,N为循环的运行次数。当剩余变量的个数大于step1中有用变量的个数时,从无用变量中删除step2中频率低的变量,当剩余变量小于有用变量个数时,删除全部的无用变量,并且从有用变量中删除稳定性值低的变量;
Step4:对每次循环中剩余的变量建立PLS模型,记录每次循环中获取的RMSE值,同时更新p的值,使得p=r,循环次数i=i+1;
Step5:若i≤N,执行step1,否则,执行Step6;
Step6:选择最小的RMSE值对应的变量组合作为最终选择的变量。
所用的近红外光谱数据集为玉米数据集,来源于benchmark红外光谱数据库,可以在网站http://www.eigenvector.com/data/Corn/index.html上免费下载。该数据集是由同一批80个玉米样本分别在编号为M5、MP5、MP6三台光谱仪上采样获得的。文中选择编号为M5光谱仪获得的光谱建立分析模型,波长扫描范围为1100~2498nm,波长分辨率为2nm,因此,每个样本可以获得700个谱线变量,每个样本中包含四个指标含量,分别为水分、油、蛋白质、淀粉。本文以淀粉含量作为模型评价指标。在变量选择之前,利用SG平滑算
VSPA算法中需要确定的参数有:(1)VSPA循环的次数N;(2)从样本中随机选择的样本个数n1;(3)利用蒙特卡洛生成的样本空间的个数M;(4)计算变量频率时蒙特卡洛生成次数W;(5)选择的最优模型占全部变量空间模型的比例系数α,可以分两步来进行参数确定。
首先,确定样本空间的参数,固定变量空间参数,α设置为0.1,W设置为1000。固定样本空间中循环次数,N设置为50,因为验证集的样本数为60,因此n1的值可以设置从20到55,间隔设置为5,为了求取样本空间的稳定性,M取值从40到320之间取值即可,间隔为20,N的大小为50,共经历120次VSPA运算后,获得120个RMSE值,选择RMSE最小的值作为最终的n1与M。

图1 VSPA算法中参数n1与M的优化选择
Fig 1 The optimization and selection of parameters n1 and M of the VSPA algorithm

图2 VSPA算法中参数N的优化选择
Fig 2 The optimization and selection of parameter N of the VSPA algorithm
然后固定样本空间中确定的参数,进行变量空间子模型个数W与最优模型比例α参数的选取。为了保证每个变量都有机会分配到对应的子模型,W的值设置较大,设置W的初始值为500,在500到5000范围内以间隔为500取值。α的值应该尽量小,通常要小于0.5,保证了所选择的变量空间预测结果更好,α的设置范围为0.05到0.5,间隔为0.05,经过100次VSPA计算后,获得100个RMSE值,

图3 VSPA算法中参数W与α的优化选择
Fig 3 The optimization and selection of parameter W and α of the VSPA algorithm
根据2.2小节所确定的参数,采用VSPA算法对玉米数据集的700个谱线变量进行选择。700个变量选择过程如




图4 VSPA算法变量选择过程 (a) 选择的变量数与迭代次数的关系;(b) RMSE与迭代次数的关系;(c) 样本空间中变量稳定性随着迭代次数的变化图;(d) 变量空间中变量频率随着迭代次数的变化图
Fig 4 Spectra variables selection procedure with VSPA algorithm:(a) Relationship between selected variables and iteration times; (b) Relationship between RMSE and iteration times; (c) The change of stability with the number of iterations in sample space; (d) The change of variable frequency with the number of iterations in variable space
为了评价提出波长选择方法的性能,应用MCUVE、CARS、BOSS与本文提出的VSPA四种方法进行变量选择。

图5 四种方法选择的变量分布图
Fig 5 The variables selected by MCUVE, CARS, BOSS and VSPA
利用上述四种方法提取的变量分别建立PLS模型来预测玉米数据集中淀粉的含量,四种方法的预测结果如
为了更加直观的评价VSPA-PLS模型的预测性能,绘制了玉米数据集中淀粉含量的真实值与预测值之间的散点图,从

图6 玉米中淀粉含量的真实值与预测值的散点图
Fig 6 Scatter diagram of real and predicted value of starch content
分析了近年来基于偏最小二乘模型中回归系数的波长选择方法,提出了一种基于变量稳定性与集群分析的变量选择方法,将该方法与MCUVE、CARS、BOSS四种变量选择方法分别应用于玉米近红外光谱数据集中,对四种方法筛选的变量分别建立PLS模型来预测玉米中淀粉含量。结果表明,本文提出的波长变量选择方法预测性能最好,在波长选择数量上与BOSS方法相当,是一种有效的波长变量选择方法,具有实际的应用价值。
References
Shen X C, Xu L, Ye S B, et al. Automatic baseline correction method for the open-path Fourier transform infrared spectra by using simple iterative averaging[J]. Optics Express, 2018, 26 (10): A609-A614 [百度学术]
Tang X J, Liang Y T, Dong H Z, et al. Analysis of index gases of coal spontaneous combustion using Fourier Transform Infrared Spectrometer[J]. Journal of Spectroscopy, 2014, 2014: 1-8 [百度学术]
Tang X J, Li Y J, Zhu L J, et al. On-line multi-component alkane mixture quantitative analysis using Fourier transform infrared spectrometer[J]. Chemometrics and Intelligent Laboratory Systems, 2015, 146: 371-377 [百度学术]
Chen J M, Yang C H, Zhu H Q, et al. A novel variable selection method based on stability and variable permutation for multivariate calibration[J]. Chemometrics and Intelligent Laboratory Systems. 2018, 182: 188-201 [百度学术]
Yun Y H, Wang W T, Deng B C, et al. Using variable combination population analysis for variable selection in multivariate calibration. Analytica Chimica Acta, 2015, 140: 14-23 [百度学术]
SHI Ji-Yong, ZOU Xiao-Bo, ZHAO Jie-Wen, Mao Han-Ping. Selection of wavelength for strawberry NIR spectroscopy based on BiPLS combined with SAA. [J]. J. Infrared Millim. Waves(石吉勇,邹小波,赵杰文,等.BiPLS结合模拟退火算法的近红外光谱特征波长选择研究.红外与毫米学报),2011, 30(5): 458-462 [百度学术]
Deng B C, Yun Y H, Ma P, et al. A new method for wavelength interval selection that intelligently optimizes the locations, widths and combinations of the intervals[J]. Analyst, 2015,140: 1876-1885 [百度学术]
LIU Guo-hai, XIA Rong-sheng, JIANG Hui, et al. A Wavelength Selection Approach of Near Infrared Spectra Based on SCARS Strategy and Its Application [J]. Spectroscopy and Spectral Analysis (刘国海,夏荣盛,江辉,等.一种基于SCARS策略的近红外特征波长选择方法及其应用. 光谱学与光谱分析) . 2014, 34(8): 2094-2097 [百度学术]
Han Q J, Wu H L, Cai C B, et al. An ensemble of Monte Carlo uninformative variable elimination for wavelength selection. Analytica Chimica Acta, 2008, 612: 121-125 [百度学术]
Li H D, Liang Y Z, Xu Q S, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration [J]. Analytica Chimica Acta, 2009, 648(1): 77-84 [百度学术]
Deng B C, Yun Y H, Cao D S, et al. A bootstrapping soft shrinkage approach for variable selection in chemical modeling[J]. Analytica Chimica Acta, 2016, 908: 63-74 [百度学术]
Song X Z, Huang Y, Yan H, et al. A novel algorithm for spectral interval combination optimization[J]. Analytica Chimica Acta, 2016, 948: 19-29 [百度学术]
ZHAO An-xin, TANG Xiao-jun, ZHANG Zhong-hua, et al. Optimizing Savitzky-Golay Parameters and Its Smoothing Pretreatment for FTIR Gas Spectra [J]. Spectroscopy and Spectral Analysis,(赵安新, 汤晓君, 张钟华,等.优化Savitzky-Golay滤波器的参数及其在傅里叶变换红外气体光谱数据平滑预处理中的应用.光谱学与光谱分析). 2016, 36(05):1340-1344 [百度学术]