徐梦辉 王卫红 田硕娟 訾应昆 吴周航 王晓梦 向红瑶 范静

Influence of different data types and dimension reduction on the recognition accuracy of travertine hyperspectral images

  • 摘要: 钙华是研究地壳运动、古气候等地质环境的重要载体,大规模的钙华景观不仅有利于研究地质演变,作为自然遗产具有很高的旅游价值和保护意义,由于全球气候变化与人为因素影响,钙华容易出现被破坏、退化等现象。为方便保护和修复钙华资源,本研究提出区别于传统实地勘察的高光谱识别方法,利用原始数据(OD)、多元散射(MSC)后数据、一阶导后(FD)数据、二阶导(SD)后数据经过主成分分析(PCA)、线性判别分析(LDA)方法降维后与支持向量机(SVM)、随机森林(RF)、BP神经网络、卷积神经网络(CNN)四种方法建立识别模型,并讨论了不同降维效果和数据类型对识别模型总体分类精度(OA)的影响,发现原始数据中PCA降维的效果比LDA降维效果好,其在PCA降维下的分类模型普遍精度要比LDA下的模型精度高;在本研究中,以MSC数据为输入的识别模型精度均值为88%,在四种数据的模型精度均值大小中位居第二,仅比第一位低0.1%,但其方差与标准差分别为0.043、0.042,远远小于其他三种数据的模型,说明MSC数据的识别模型要更加稳定;其次经过粒子群算法(PSO)优化的SVM分类模型在F1-score、kappa系数、OA三种性能指标的评价下性能显示优良,其中SD-PCA-PSO-SVM获得了98%的高精度。综上,在钙华识别过程中,未经优化的分类器选择MSC数据或PCA降维的原始数据作为输入,更容易获取高精度识别模型,选择合适的理论来优化模型也可提升模型的识别性能。


  • 图  1  a.钙华的某7种高光谱曲线 b.非钙华地物的某6种高光谱曲线

    Figure  1.  a. Seven hyperspectral curves of travertine b. Six hyperspectral curves of non-travertine features

    图  2  PSO-SVM模型建立流程图

    Figure  2.  Flow chart of model construction of PSO-SVM

    图  3  (a、c、e、g)分别为经LDA降维后的OD、FD、MSC、SD数据;(b、d、f、h)分别为经PCA降维后的OD、FD、MSC、SD数据

    Figure  3.  (a, c, e and g) are OD, FD, MSC and SD data after LDA dimension reduction, respectively. (b, d, f, h) are OD, FD, MSC and SD data after PCA reduction, respectively

    图  4  四种数据的识别模型精度稳定性分析

    Figure  4.  Stability analysis on the accuracy of recognition models of four types of data

    图  5  a.四类数据的PCA-PSO-SVM模型测试集分类混淆矩阵;b.四类数据的LDA-PSO-SVM模型测试集分类混淆矩阵

    Figure  5.  a. Classification Confusion matrix of PCA-PSO-SVM model test set for four types of data; b. Classification Confusion matrix of LDA-PSO-SVM model test set for four types of data

    表  1  PSR-2500地物光谱仪的主要技术参数

    Table  1.   Main technical parameters of PSR-2500 ground object spectrometer

    标称测量范围/nm 实际测量范围/nm 波长准确度/mm 光谱分辨率/nm 单样品采集数/个
    350~2 500 334.3~2 535.9 5 ≤3.5(350~1 000 );
    ≤22(1 000~2 500
    表  2  四类数据主成分和总方差解释

    Table  2.   Main components of four types of data and total variance interpretation

    类别 总方差解释
    主成份 特征值 方差/% 累积/%
    OD 1 648.66 84.462 84.462
    2 83.886 10.923 95.384
    26 0.004 0.001 99.997
    27 0.004 0.000 99.997
    MSC 1 648.667 84.462 84.462
    2 83.886 10.923 95.384
    26 0.004 0.001 99.997
    27 0.004 0.000 99.997
    FD 1 357.702 46.637 46.637
    2 81.224 10.590 57.226
    133 0.004 0.001 99.993
    134 0.004 0.000 99.993
    SD 1 155.906 20.353 20.353
    2 87.884 11.473 31.826
    158 0.016 0.002 99.998
    159 0.014 0.002 100.00
    表  3  四种数据的两种降维方法的降维效果优劣

    Table  3.   Advantages and disadvantages of dimension reduction by two methods for four types of data

    表  4  四种数据经PCA、LDA降维后的数据分类精度对比

    Table  4.   Comparison of classification accuracy of four types of data after PCA and LDA dimension reduction

    类别 SVM RF BP CNN
    linear poly rbf sigmoid
    OD 0.815 0.753 0.891 0.877 0.906 0.892 0.877 0.877 0.854 0.837 0.965 0.916 0.895 0.854
    FD 0.877 0.646 0.892 0.877 0.877 0.877 0.908 0.877 0.796 0.857 0.895 0.895 0.937 0.959
    MSC 0.815 0.877 0.908 0.877 0.908 0.892 0.877 0.877 0.816 0.837 0.958 0.958 0.875 0.854
    SD 0.892 0.707 0.950 0.877 0.892 0.877 0.877 0.877 0.796 0.837 0.937 0.926 0.916 0.950
    表  5  PSO-SVM的各个性能指标值

    Table  5.   Index values of the performance of PSO-SVM

图(5) / 表(5)
  • 收稿日期:  2023-06-08
  • 录用日期:  2023-07-31
  • 修回日期:  2023-07-23
  • 网络出版日期:  2024-08-15
  • 刊出日期:  2024-06-25


