资助项目:国家自然科学基金面上项目“黄土丘陵区小流域泥沙来源对侵蚀环境变化的响应”(41671282)
第一作者:倪玲珊(1984—),女,四川自贡人,博士研究生,研究方向为土壤学。E-mail:lsni@ms.iswc.ac.cn 通信作者:方怒放(1985—),男,安徽铜陵人,博士,研究员,博士生导师,主要从事土壤侵蚀研究。E-mail:fnf@ms.iswc.ac.cn
(1.中国科学院 水利部 水土保持研究所 黄土高原土壤侵蚀与旱地农业国家重点实验室, 陕西 杨凌712100; 2.中国科学院大学, 北京 100049; 3.西北农林科技大学 水土保持研究所, 陕西 杨凌 712100)
(1.State Key Laboratory of Soil Erosion and Dryland Farming on the Loess Plateau, Institute of Soil and Water Conservation, CAS & MWR, Yangling, Shaanxi 712100, China; 2.University of Chinese Academy of Sciences, Beijing 100049, China; 3.Institute of Soil and Water Conservation, Northwest A&F University, Yangling, Shannxi 712100, China)
mid-infrared diffuse reflectance spectroscopy; calcium carbonate; loess; regression modeling
以黄土高原侵蚀严重的丘陵沟壑区7个小流域126个土壤样品和108个沉积泥沙样品为对象,分析了土壤的基本属性及其中红外漫反射光谱特征,将中红外漫反射光谱技术与化学计量法相结合,采用不同的光谱预处理方法,分别利用偏最小二乘回归法、主成分回归法和支持向量机回归法建立土壤碳酸钙的光谱估算模型,并对模型进行验证。结果 显示:土壤光谱变量与碳酸钙含量的关系更接近线性相关,偏最小二乘回归法和主成分回归法要优于支持向量机回归法,其中PLSR(SG-Der1st)模型为最优,对土壤(决定系数R2=0.948,相对分析误差RPD=4.426)和沉积泥沙(决定系数R2=0.875,相对分析误差RPD=2.841)均能准确预测其碳酸钙含量。研究结果表明,基于中红外漫反射光谱的碳酸钙含量估算模型能准确定量土壤及沉积泥沙碳酸钙含量,实现了对黄土高原小流域土壤碳酸钙的快速无损测量。
In order to explore the potentiality of predicting calcium carbonate in loess base on mid-infrared diffuse reflectance spectroscopy, a total of 126 soil samples and 108 sediment samples taken from 7 small catchments in hilly-gully regions with severe erosion on the Loess Plateau were selected. Different pretreatment methods were used to establish the calcium carbonate estimation model. The results indicate that the relationship between spectral variables and calcium carbonate content is closer to the linear correlation, the predictions by using PLSR method and PCR method are superior to those by using SVMR method. The PLSR(SG-Der1st)model is optimal, and can accurately predict the calcium carbonate contents of soils(R2=0.948, RPD=4.426)and sediments(R2=0.875, RPD=2.841). In summary, mid-infrared diffuse reflectance spectroscopy can provide a rapid and nondestructive alternative to estimate the calcium carbonate content in loess in the small catchments of the Loess Plateau.
无机碳是土壤碳库的重要部分,在干旱、半干旱区域无机碳主要以碳酸钙的形态存在,对大气CO2、土壤碳储量和碳密度分布有重要影响[1]。碳酸钙含量是干旱半干旱区土壤关键性质之一[2]。黄土高原土壤碳酸钙含量丰富,碳酸盐作为黄土的重要组成部分,对土壤酸碱度、土壤养分等物化性质有重要的影响。此外,由于剧烈的土壤侵蚀,土壤碳酸钙在物质输移和全球碳循环中发挥着重要作用[3]。因此研究黄土高原土壤碳酸钙储量及其空间分布特征和空间变异性对生态环境监测和土壤侵蚀等研究具有极其重要的意义。而传统的碳酸钙测定法存在测定速度慢,成本较高,且对样品有损等弊端,寻求一种快速高效的碳酸钙测定方法实属必要。
光谱法由于分析速度快、对样本无损、成本低以及前处理简单等优点,在土壤学领域逐渐得到了广泛应用。近年来,关于土壤碳酸钙的光谱特征及其含量估算方面的研究,学者们也进行了相关的探索。McCarty等利用近红外和中红外漫反射对美国中西部土壤碳进行了定量分析,结果表明中红外的表现优于近红外,并指出区域建模定量土壤碳是可行的[4]。Chang和Laird利用近红外光谱结合偏最小二乘回归法成功预测了无机碳含量(验证r2=0.96)[5]。Gomez等研究法国南部土壤发现利用可见近红外和短波红外光谱结合偏最小二乘法比连续统去除法能更好地预测土壤碳酸钙含量[6]。马赵扬等分析了土壤碳酸钙的中红外光声光谱及特征,并利用中红外光声光谱结合不同化学计量法建模对土壤碳酸钙含量进行了估算,取得了较好的结果[7]。Ben-Dor和Banin利用近红外光谱对以色列干旱半干旱地区土壤碳酸钙含量进行估算,对比5种不同光谱前处理方法(反射率,发射率一阶导,吸光度,吸光度一阶导和吸光度二阶导)发现用反射率时结果最佳[8]。光谱法应用在不同的研究区域,针对不同的土壤,其研究结果差异较大。
本研究拟利用中红外漫反射光谱法建模估算黄土高原小流域土壤及侵蚀沉积泥沙的碳酸钙含量。以黄土高原侵蚀严重的丘陵沟壑区小流域土壤及淤地坝侵蚀沉积泥沙为研究对象,其中小流域土壤拟选取坡面(不同土地利用类型)土壤及沟道土壤样本,这通常也是侵蚀沉积泥沙的主要来源,同时分析其中红外光谱特征,通过建立土壤碳酸钙预测模型,定量估算该区域土壤及沉积泥沙的碳酸钙含量,最终建立适用于估算黄土高原该区域土壤和沉积泥沙碳酸钙含量的通用模型及光谱估量方法。
选取位于黄土高原陕西省境内侵蚀严重的丘陵沟壑区7个小流域作为研究区域,其位置和基本特征见表1。该区域属于半干旱大陆性气候,海拔高度991~1 206 m,年均降雨量420~510 mm,且降雨主要集中在夏季,常以暴雨形式出现,往往造成严重的水土流失,侵蚀方式以水力侵蚀和重力侵蚀为主。研究流域地质构造单一,垂直剖面从上到下依次为马兰黄土、离石黄土和午城黄土。每个小流域出口处建有一座淤地坝,淤积流域内径流所带来的侵蚀泥沙。
共采集样品234个,包括流域土壤样品126个和沉积泥沙样品108个。流域土壤样品包括有代表性的坡面主要土地利用类型(草地、林地和耕地)土壤以及沟道土壤样品。沉积泥沙样品通过人工钻在淤地坝沉积泥沙核心区采集,每隔25 cm采集一个沉积样。所有土样经风干,去除植物残体、砾石等杂物,研磨过筛备用。
采集的土样经风干和研磨,每份土样分为两份,分别过100目与230目筛,前者用于测定碳酸钙和土壤有机质,后者用于测定红外光谱。其中碳酸盐的测定参考一种改进的压力石灰测定器法[9],有机质采用重铬酸钾容量法。光谱法采用红外光谱仪is50(ThermoNicolet,美国),MCT检测器,采集4 000~650 cm-1的中红外波段光谱,分辨率4 cm-1,扫描64次。得到的光谱分别进行Savitzky-Golay平滑一阶导(SG-Der1 st),变量标准化(SNV)和基线校正(Baseline)预处理,以比较不同光谱预处理后的建模效果。
分别采用偏最小二乘回归法、主成分回归法和支持向量机回归法对不同光谱预处理后的数据进行建模。
偏最小二乘回归法(Partial least squares regression,PLSR)是由Wold等提出的一种多变量数学统计方法,能解决自变量的多重相关性,并且能在样本个数小于变量个数的条件下建模。通过分解光谱矩阵X与目标矩阵Y建立混合模型。当预测标准差(PRESS)最低时的潜变量个数最佳。
主成分回归法(Principle component regression,PCR)。过程分为主成分分析(PCA)和多元线性回归(MLR)两步,首先对光谱矩阵X进行主成分分析,将得到的前n个得分向量组成矩阵T,进行MLR回归,从而得到主成分回归模型。针对多元线性回归中的共线性问题、变量数使用限制问题等能有效解决,同时通过主成分分析对X矩阵进行分解和合理选择,能有效去除噪音的干扰,提高模型的预测能力。
支持向量机回归法(Support vector machine regression,SVMR)是一种机器学习方法,兴起于20世纪90年代无监督、非参数的机器学习方法[10]。支持向量机回归的基本思想是通过升维,将训练样本集在原始空间的非线性问题转化为在高维特征空间构造线性函数,最终实现线性回归求解。
模型的优劣通过决定系数(R2)、均方根误差(RMSE)以及预测相对分析误差(RPD)[11]来评价。其中,模型的拟合性通过R2来评价,R2越高模型的拟合效果越好,即模型解释因变量的能力越强; 通过RMSE评价模型的稳定性,RPD评价模型预测性,RPD越高,RMSE越低,模型越优[11]。各参数具体计算公式如下:
(1)决定系数(R2)
R2=1-∑ni=1(yi-^/yi)2/∑ni=1(yi-y^-)2
式中:yi为测量值; ^/yi为预测值; y^-为测量值的平均值。
(2)均方根误差(RMSE)
式中:yi为测量值; ^/yi为预测值; n为样本数量。
(3)相对分析误差(RPD)
RPD=STD/RMSE
式中:STD为标准差; RMSE为均方根误差。
当R2≤0.5且RPD≤1.4时模型预测性能较差,0.5
研究流域不同土壤类型(包括坡面土壤和沟道土壤)及沉积泥沙样品的平均中红外漫反射光谱如图1所示。从图中可以看出,坡面土壤、沟道土壤与沉积泥沙的特征峰均一致,但其吸光度不同,沉积泥沙的光谱曲线基本位于坡面土壤与沟道土壤之间。对比坡面土壤和沟道土壤的光谱吸光度值,在3 700~3 000 cm-1范围内沟道土壤要明显高于坡面土壤,在3 000~650 cm-1则相反,表现为坡面土壤高于沟道土壤。所有样品在2 514 cm-1,1 796 cm-1,1 450 cm-1,875 cm-1和712 cm-1处均有明显的源自碳酸钙的特征吸收[13]。其中,875 cm-1和712 cm-1处的特征吸收峰分别是由碳酸根的面外变形振动和面内变形振动所产生,频率在1 000 cm-1以上的特征吸收峰则由碳酸根的对称伸缩振动和非对称伸缩振动所引起[14]。3 620 cm-1左右尖锐的吸收峰为O—H伸缩振动产生[15],该吸收峰的存在证明样品中有黏土矿物的组成[16]。3 000~2 800 cm-1处的吸收峰源自脂肪族C—H振动[17],同时碳酸根的振动对此吸收峰也有影响[18]。1 630 cm-1左右的吸收峰通常是由C=C,C=O和O—H的振动所引起[15-16]。1 450 cm-1处的特征峰除了可能由碳酸根的振动引起外,C—H,N—H及C—O的振动也对其有一定影响[19]。对供试样品的碳酸钙和有机质含量进行统计分析(表2),结果表明大部分样品均具有高碳酸钙和低有机质的特点,其中平均碳酸钙含量为坡面土壤小于沟道土壤,而平均有机质含量则为坡面土壤大于沟道土壤,沟道土壤的碳酸钙含量最大值高达165.50 g/kg。
将得到的样品光谱分别进行Savitzky-Golay平滑一阶导(SG-Der1st),变量标准化(SNV)和基线校正(Baseline)预处理,以比较不同光谱预处理对模型表现的影响。分别采用偏最小二乘回归法(PLSR)、主成分回归法(PCR)和支持向量机回归法(SVMR)对原始光谱数据和不同预处理后的光谱数据进行建模。随机选取84个土壤样品作为建模集,采用留一交互验证法对模型进行验证,当预测残差平方和(PRESS)最小时建模集所用潜变量因子的数量最佳。将其余42个土壤样品和108个沉积泥沙样品分别作为预测集对模型预测性进行检验。为了去除CO2的影响,建模时删除2 400~2 300 cm-1的波段。
建模与预测结果见表3,从预测结果看出,采用PLSR方法无论是基于原光谱(raw)还是经过预处理(SG-Der1st,Baseline或SNV)的光谱建模,对土壤碳酸钙含量都能很好地预测(R2>0.876,RPD>2.871),其中经过SG-Der1st预处理时所建PLSR模型最优(R2=0.948,RPD=4.426); 对沉积泥沙碳酸钙的预测结果则不理想,仅有经过SG-Der1st预处理时所建PLSR模型预测效果最好(R2=0.875,RPD=2.841)。采用PCR方法在对土壤预测时,原光谱和几种预处理后的光谱所建模型均有很好的预测性能(R2>0.865,RPD>2.758); 对沉积泥沙预测时,仅有经过Baseline和SNV这两种预处理所建PCR模型预测性能优秀,但是模型拟合性略差,R2分别为0.759,0.747。SVMR法基于SG-Der1st(R2=0.886,RPD=2.998)和SNV(R2=0.817,RPD=2.368)两种预处理所建模型均能准确预测土壤的碳酸钙含量,而原光谱所建SVMR模型对土壤的预测准确性都不高(R2=0.679,RPD=1.786); 对沉积泥沙的预测仅有经过Baseline预处理时所建SVMR模型预测性能优秀,但拟合性略为欠缺(R2=0.779,RPD=2.139)。在此基础上,分别选择预测结果较优的两种回归建模法PLSR法和PCR法所建模型的碳酸钙预测值与测定值进行t检验分析,见表4。t检验结果表明,当所建模型R2>0.8且RPD>2.0时,光谱法对碳酸钙含量的预测值与化学法的测定值无显著差异,因此,在本研究区域若只对土壤进行预测时,PLSR和PCR两种方法都是很好的选择,在对沉积泥沙碳酸钙含量进行预测时,仅有基于SG-Der1st预处理所建PLSR模型为最优。
根据以上分析结果筛选出最优的PLSR(SG-Der1st)模型对样品碳酸钙含量进行预测,将其预测值和测定值作对比,见图2。从图中可以看出,对于土壤来说,预测值和测定值在整个数据集范围内有很好的一致性,基本均匀分布在1:1线附近,且预测精准度高; 沉积泥沙的预测值和测定值也在1:1线附近均匀分布,但碳酸钙含量较高的沉积泥沙样本均被略微低估。
PLSR(SG-Der1st)模型的B系数如图3所示。B系数是由观测到的Y值和PLSR评分为最优的PLSR因子数所决定的,系数包含有驱动PLSR模型最重要的光谱信息,能表明各波数变量在建模中的贡献大小[20]。系数的绝对值大小代表对应的波数变量在土壤属性分析中解释变异的重要程度。当系数的绝对值越大,表明该波数变量在模型建立中的相对贡献越大。从图中可以看出部分碳酸钙特征吸收峰附近的波数变量其B系数值较高,表明此波段范围的波数变量对碳酸钙的预测影响显著,同时也说明模型的建立过程充分利用了碳酸钙的特征吸收。除此以外,在3 000~2 800 cm-1(C—H),1 700~1 600 cm-1(C=O)等波段其B系数值也很高,这也证实了与此相关的有机物官能团所在波数变量也显著影响了碳酸钙的预测。而在一些波段如3 500~3 000 cm-1(O—H,N—H和C—H)其B系数值相对较低,说明产生这些吸收波段的官能团在此模型中的贡献相对较小。
有研究表明统计预测模型的建立应在同一类地质条件区域,这样有利于提高预测精度[21]。本研究所选的7个小流域均属于半干旱的黄土高原丘陵沟壑区,地质构造单一,该区域土壤碳酸钙含量高,有机质含量低,具有黄土的典型特质。由于在埋藏土层以下存在钙质结核,韩家懋等[22]发现洛川黄土剖面的离石黄土中每层古土壤的底部都存在钙结核层,所以沟道土壤样品中碳酸钙含量出现的一些极大值很可能是由于钙结核的存在所产生。土壤样品的中红外漫反射光谱中碳酸钙的特征吸收明显,表明光谱携带了大量的碳酸钙信息。因此,该区域具备建立碳酸钙预测模型的理论条件。
利用PLSR(SG-Der1st)模型对高碳酸钙含量的沉积泥沙样本的碳酸钙预测值略微低于测定值,类似的情况其他研究者也有发现。出现的这些拟合误差主要是由于建模过程中交叉验证所选择的潜变量因子不能完全描述数据集的可变性而产生的[23]。推测另一个原因有可能是由于随机挑选的建模集没有包括高碳酸钙的样本,或参与建模集的高碳酸钙样本太少,以至于所建立的模型在预测建模集碳酸钙含量范围内的样本时准确性高,而预测超出建模集碳酸钙含量范围的高碳酸钙或低碳酸钙样本(如极大值或极小值)时准确性降低。此外,研究还发现相对于沉积泥沙碳酸钙含量预测集,土壤碳酸钙含量预测集其预测精准度更高,这是由于建模集仅选用土壤样品,沉积泥沙样品并没有参与建模。Malley等[24]利用光谱法预测湖泊沉积物CO2-3含量时发现,对CO2-3含量差别较大湖泊沉积物分别建模比笼统建一个模型预测性更高,也就是说将变异性大的样本分别建模,所建模型其预测结果会越好。因此,在本研究中如若对沉积泥沙单独建模或是将沉积泥沙样品参与土壤一起建模,其模型的预测性能则有可能更加准确。其次,沉积泥沙虽然源自流域内不同类型土壤,但采集的土壤样品有可能并没有包括所有沉积泥沙的来源。但是根据模型的评价结果来看,所建模型达到了本研究的预测目的,因此,该建模方式是可取的。
通过对比3种回归方法建模,结果表明PLSR法和PCR法要优于SVMR法。SVMR法是一种非线性建模法,而PLSR法和PCR法是线性建模,有可能在本研究中土壤的光谱变量与碳酸钙含量的关系更接近线性相关,所以线性建模的方法得到的结果更好。Malley曾指出近红外光谱吸光度和物质浓度存在线性关系[24]。但也有学者有着不同的发现,Shao等[25]在利用近红外光谱对土壤氮磷钾预测时发现,最小二乘支持向量机法(LS-SVM)预测结果要优于PLSR,并推测是因为LS-SVM利用了光谱数据的非线性信息,从而提升了预测精度。没有一种建模方法是通用的,在一个应用中表现出色的模型并不一定适用于另一个应用。因此,在利用光谱预测土壤性质时,研究区域不同,光谱范围不同以及目标成分不同,最优的建模回归方法也不相同。与PCR法相比,PLSR法建模所用的潜变量更少(表3),但所建模型无论是拟合性还是稳定性都更高,有着更强的预测能力,这表明PLSR法所用潜变量包含了更多的土壤物化信息。有学者研究发现,之所以PLSR法相比于PCR法预测结果更佳,是由于PLSR潜变量包含有机质含量的信息[26]。McDowell等[27]在利用中红外光谱预测土壤全碳的研究中也发现,在PLSR建模预测过程中充分利用了与多种有机成分及硅酸盐矿物相关的光谱特征变量。本研究中,波段3 000~2 800 cm-1(C-H)和1 700~1 600 cm-1(C=O)有着较高的B系数值,这说明有机质的光谱信息在碳酸钙预测中起到了非常重要的作用。
本研究选取的黄土高原丘陵沟壑区7个小流域,其土壤的中红外漫反射光谱具有明显的碳酸钙吸收特征。将原光谱数据经过不同的预处理,并分别采用PLSR,PCR和SVMR这3种回归方法进行建模预测碳酸钙含量,结果显示PLSR法建模预测结果要优于PCR法和SVMR法,其中PLSR(SG-Der1st)模型为最优,对土壤(R2=0.948,RPD=4.426)和沉积泥沙(R2=0.875,RPD=2.841)均能准确预测,t检验结果表明光谱法的预测值和物化法测定值之间无显著差异。综上所述,在黄土高原该研究区域内,利用中红外漫反射光谱法预测土壤及沉积泥沙的碳酸钙含量是可行的,这为黄土高原土壤碳酸钙含量的快速无损测量提供了新的方法。