摘要
土壤中红外(MIR)光谱能快速、无污染、低成本地估算土壤有机碳等理化属性。随着各种尺度土壤光谱库的建立,使用其进行快速土壤分析引起广泛关注,但光谱库的通用模型在局部尺度上的预测效果不理想。开发“局部化”光谱建模方法是提高土壤光谱库性能的有效途径。本文提出了一种新的方法,通过光谱相似度计算和建模子集构建,旨在从库中快速建立最优局部建模集以提高预测精度。比较了欧氏、马氏、余弦三种距离算法衡量待测样本与库样本之间的相似度并生成距离矩阵;使用连续统去除法从距离矩阵中提取库容曲线中的特征点。利用偏最小二乘回归建立土壤MIR光谱与有机碳含量间的定量关系。结果表明,三种距离算法结合连续统去除得到的第一特征点均可得到较佳的预测精度。马氏距离不仅模型精度最高(
中红外(Mid-Infrared,MIR)光谱技术的应用有助于土壤的定性及定量分析,可以节约传统土壤分析需要耗费的大量时间,同时也可以减少分析成本。MIR技术不仅能用于土壤肥力分析,如有机质、pH
近年来,国
即便有无限容量的库,全局数据建立的通用关系在应用到局部尺度时面临挑战。这是由于全局模型(Global)包含了多样的土壤变异信息,从而难以准确表征甚至会掩盖局部样本的变异,尤其当待测样本来自多个局部
本文探索并提出了一种从土壤MIR光谱库中快速确定局部建模集容量的方法,以期提升MIR光谱分析技术的效果,同时响应FAO发起的GLOSOLAN-Spec倡议。
研究数据来自国际土壤参比与信息中心(International Soil Reference and Information Center)发布的全球土壤光谱库(Global Soil Spectral Library,GSSL

图1 全球土壤光谱库中677个包含中红外光谱和土壤有机碳的土样分布
Fig. 1 677 site locations of with MIR spectra and SOC in the Global Soil Spectral Library
土壤MIR光谱采用常用的预处理流程:先重采样至16 c
光谱数据集的划分使用Kennard–Stone(KS)法,以避免因验证集特征与建模集相近而令预测结果过优,当前也已成为深入研究光谱库时构建代表性样本集合的方
在光谱分析时,使用主成分分析法(Principal Components Analysis,PCA)对预处理后的光谱数据进行降维,以实现少量不相关的变量来表征样本的主要特征。SSL和Test前三个主成分贡献率分别达55.2%和59.9%。
SSL和Test的SOC含量分布特征如
数据集 | 样本数 | 最小值 | 第1四分位数 | 中值 | 均值 | 第3四分位数 | 最大值 | 标准差 |
---|---|---|---|---|---|---|---|---|
SSL | 3167 | 0.00 | 0.21 | 0.47 | 1.19 | 1.18 | 60.00 | 2.75 |
Test | 588 | 0.00 | 0.24 | 0.55 | 1.21 | 1.29 | 24.00 | 2.03 |
光谱经预处理后,从SSL中优化局部建模集(Local)的过程分两步:光谱相似度计算和建模子集构建(

图2 局部建模集优化流程
Fig. 2 The scheme of optimizing local calibrations
本文考察了欧式距离(Euclidean Distances,ED)、马氏距离(Mahalanobis Distances,MD)和余弦距离(Cosine Distance,CD)三种经典方法来衡量Test样本与SSL样本之间的相似度。其中,ED和MD得到的距离值越小表示越相似,反之越相异;CD计算的是夹角余弦,值越接近0表示越相异,越接近1表示越相
连续统去除也称去包络线,常用于提取连续变量的局部变化特
矩阵第一行是从库中匹配到的最相似样本,样本数位于库容曲线的起点,所以该点位不会出现在连续统去除的曲线上。本文以距离矩阵第一行作为考察的起点,将其库容对应的样本所组成的建模集记作“Local0”;以全库作为考察终点,记作“Global”。
图

图3 SSL(a,c)和Test(b,d)的平均光谱曲线及95%置信区间
Fig. 3 Average absorbance with 95% confidence intervals of SSL (a, c) and Test (b, d)
随着行数的增加(

图4 距离矩阵所有行的库容(a)、连续统去除(b)及模型精度(c,d)的变化
Fig. 4 The capacity (a), continuum-removal (b) and model accuracy (c, d) for all rows of the distance matrix
图
数据集 | Local0 | Local1 | Global | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
RMSE | 库容 | RMSE | 库容 | RMSE | 库容 | ||||||
ED | 0.708 | 1.105% | 333 | 0.733 | 1.060% | 926 | 0.704 | ||||
MD | 0.752 | 1.135% | 262 | 0.764 | 1.021% | 430 | 1.108% | ||||
CD | 0.715 | 1.086% | 338 | 0.730 | 1.066% | 1038 | 3167 |

图5 距离矩阵前200行的库容(a)、连续统去除(b)和模型预测精度(c,d)的变化
Fig. 5 The capacity (a), continuum-removal (b) and model accuracy (c, d) for the first 200 rows of the distance matrix
以
MD在Local1的精度优于ED和MD,且430个样本的库容相较于ED的926个和CD的1038个明显更少。而ED和CD此处的精度差异不显著,两点在图
值得注意的是,三者第一特征点的位置并非对应前5行
以MD为例,

图6 基于MD法组建的五个Local集(红点)投影到Test集(蓝点)主成分空间的分布
Fig. 6 The PCA score plot from five Locals (red dots) projected onto Test (blue dots) by MD
占库14%的Local1的阴影范围与Local0接近,但前者因样本的加入而使其范围更大,如PC12的第三象限、PC13的第二象限、PC23的第一象限都或多或少超越了Test,从而使Local1的精度优于Local0。随着库容的逐渐增大伴随着阴影范围显著超越Test,Local1之后的局部建模集相应的精度也开始下降,这种现象表明,越来越多与Test相异的样本被加入到了Local集合
本研究针对土壤MIR光谱库提出了一种快速构建最优局部建模集的方法,包含两步:光谱相似度计算和建模子集构建。通过比较ED、MD和CD三种距离算法来衡量光谱相似度并得到距离矩阵,使用连续统去除法来提取库容曲线上的特征点,并考察了每种距离算法各自3167个模型对同一个待测集合的预测和检验。结果表明:
(1) ED、MD和CD三种方法的第一特征点均可得到较佳的预测精度;
(2) 对库容曲线进行连续统去除是提取特征点的有效手段;
(3) 待测样本通过MD法从土壤MIR光谱库构建的最优局部建模集预测精度较ED和CD更优,所用库样本数最少。
References
Kumar M, Jain V. Mid-infrared spectroscopy for fast, accurate and reliable soil analysis[J]. Trends in Analytical Chemistry, 2018, 103: 216–224. [百度学术]
Fang H, Zhou K, Wang S, et al. Soil fertility analysis based on mid-infrared spectroscopy[J]. International Agrophysics, 2018, 32(4): 553–563. [百度学术]
Ge Y, Wadoux A, Peng Y. A primer on soil analysis using visible and near-infrared (vis-NIR) and mid-infrared (MIR) spectroscopy[M]. Rome, FAO. 2022. [百度学术]
Shi Z, Wang Q L, Peng J, et al. Development of a national VNIR soil-spectral library for soil classification and prediction of organic matter concentrations[J]. Science China: Earth Sciences, 2014, 44(5): 978–988. [百度学术]
史舟, 王乾龙, 彭杰, 等. 中国主要土壤高光谱反射特性分类与有机质光谱预测模型[J]. 中国科学: 地球科学, 2014, 44(5): 978–988. [百度学术]
Orgiazzi A, Ballabio C, Panagos P, et al. LUCAS Soil, the largest expandable soil dataset for Europe: a review[J]. European Journal of Soil Science, 2018, 69(1): 140–153. [百度学术]
Viscarra Rossel R A, Behrens T, Ben-Dor E, et al. A global spectral library to characterize the world's soil[J]. Earth-Science Reviews, 2016, 155: 198–230. [百度学术]
Hong Y, Munnaf M A, Guerrero A, et al. Fusion of visible-to-near-infrared and mid-infrared spectroscopy to estimate soil organic carbon[J]. Soil and Tillage Research, 2022, 217: 105284. [百度学术]
Chen S C, Peng J, Ji W J, et al. Study on the characterization of VNIR-MIR spectra and prediction of soil organic matter in paddy soil[J]. Spectroscopy and Spectral Analysis, 2016, 36(06): 1712–1716. [百度学术]
陈颂超, 彭杰, 纪文君, 等. 水稻土可见-近红外-中红外光谱特性与有机质预测研究[J]. 光谱学与光谱分析, 2016, 36(06): 1712–1716. [百度学术]
Meng X X, Yu L, Zhou Y, et al. Predicting organic carbon using datafusion of visible near-infrared and middle infrared spectra by proximal soil sensing[J]. Chinese Journal of Soil Science, 2022, 53(2): 301–307. [百度学术]
孟鑫鑫, 于雷, 周勇, 等. 基于可见近红外和中红外近地面光谱数据融合的土壤有机碳含量反演[J]. 土壤通报, 2022, 53(2): 301–307. [百度学术]
Ji W J, Shi Z, Zhou Q, et al. VIS-NIR reflectance spectroscopy of the organic matter in several types of soils[J]. Journal of Infrared and Millimeter Waves, 2012, 31(3):277–282. [百度学术]
纪文君, 史舟, 周清, 等.几种不同类型土壤的VIS-NIR光谱特性及有机质响应波段研究[J]. 红外与毫米波学报, 2012, 31(3):277–282. [百度学术]
Terhoeven-Urselmans T, Vagen T G, Spaargaren O, et al. Prediction of soil fertility properties from a globally distributed soil mid‐infrared spectral library[J]. Soil Science Society of America Journal, 2010, 74(5): 1792–1799. [百度学术]
Baumann P, Helfenstein A, Gubler A, et al. Developing the Swiss soil spectral library for local estimation and monitoring[J]. SOIL Discussions, 2021: 1–32. [百度学术]
Luce M S, Ziadi N, Viscarra Rossel R A. GLOBAL-LOCAL: A new approach for local predictions of soil organic carbon content using large soil spectral libraries[J]. Geoderma, 2022, 425: 116048. [百度学术]
Guerrero C, Zornoza R, Gómez I, et al. Spiking of NIR regional models using samples from target sites: Effect of model size on prediction accuracy[J]. Geoderma, 2010, 158(1-2): 66–77. [百度学术]
Lobsey C R, Viscarra Rossel R A, Roudier P, et al. rs‐local data‐mines information from spectral libraries to improve local calibrations[J]. European Journal of Soil Science, 2017, 68(6): 840-852. [百度学术]
Liu Y F, Lu Y N, Guo L, et al. Construction of calibration set based on the land use types in visible and near-infrared (VIS-NIR) model for soil organic matter estimation[J]. Acta Pedologica Sinica, 2016, 53(2): 332–341. [百度学术]
刘艳芳, 卢延年, 郭龙, 等. 基于地类分层的土壤有机质光谱反演校正样本集的构建[J]. 土壤学报, 2016, 53(2): 332–341. 10.11766/trxb201506020150 [百度学术]
Mid-Infrared Spectra (MIRS) from ICRAF Soil and Plant Spectroscopy Laboratory: Africa Soil Information Service (AfSIS) Phase I 2009-2013[DB]. [百度学术]
Shen Z, Ramirez-Lopez L, Behrens T, et al. Deep transfer learning of global spectra for local soil carbon monitoring[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 188: 190-200. [百度学术]
Chen Y Y, Qi T C, Huang Y J, et al. Optimization method of calibration dataset for VIS-NIR spectral inversion model of soil organic matter content[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 107–114. [百度学术]
陈奕云, 齐天赐, 黄颖菁, 等. 土壤有机质含量可见-近红外光谱反演模型校正集优选方法[J]. 农业工程学报, 2017, 33(6): 107–114. 10.11975/j.issn.1002-6819.2017.06.014 [百度学术]
Peng Q Q, Chen S C, Zhou M H, et al. Developing of Local Model From Soil Spectral Library with Spectral Dissimilarity[J]. Spectroscopy and Spectral Analysis, 2022, 42(5): 1614–1619. [百度学术]
彭青青, 陈颂超, 周明华, 等. 基于土壤光谱库和光谱相异度的局部模型构建[J]. 光谱学与光谱分析, 2022, 42(5): 1614–1619. 10.3964/j.issn.1000-0593(2022)05-1614-06 [百度学术]
Li S, Shi Z, Chen S, et al. In situ measurements of organic carbon in soil profiles using vis-NIR spectroscopy on the Qinghai–Tibet plateau[J]. Environmental Science & Technology, 2015, 49(8): 4980–4987. [百度学术]
Li S, Viscarra Rossel R A, Webster R. The cost‐effectiveness of reflectance spectroscopy for estimating soil organic carbon[J]. European Journal of Soil Science, 2022, 73(1): e13202. [百度学术]
Ramirez-Lopez L, Behrens T, Schmidt K, et al. Distance and similarity-search metrics for use with soil vis–NIR spectra[J]. Geoderma, 2013,199: 43–53. [百度学术]
Li H D, Li D C, Zeng R. Estimation of soil organic carbon based on spectral similarity matching[J]. Acta Pedologica Sinica, 2021, 58(5): 1224–1233. [百度学术]
李宏达, 李德成, 曾荣. 基于光谱相似性匹配的土壤有机碳估算[J]. 土壤学报, 2021, 58(5): 1224–1233. [百度学术]
Guerrero C, Wetterlind J, Stenberg B, et al. Do we really need large spectral libraries for local scale SOC assessment with NIR spectroscopy? [J]. Soil and Tillage Research, 2016, 155: 501–509. [百度学术]