摘要: |
特征选择是模式识别系统中非常关键和重要的部分,它不仅对于人类开发和认识未知世界、找到未知事物的联系能够发挥较大的作用,而且对于构造一个实际的模式识别系统也起着至关重要的作用。大规模数据的不断涌现,对已有的特征选择算法提出了严峻的挑战,这是因为与特征选择相关的许多问题都是NP难问题,因此要找到最优特征子集,往往是不切实际的。然而研究人员总是尽量提高特征选择的性能,从而找到一个接近最优的特征子集。本文在特征选择算法设计以及盾构地铁隧道施工复杂系统的数据挖掘中进行了一些研究和探讨,论文的主要工作和贡献有以下几个方面:
1.提出了一种基于自适应遗传算法和支持向量机的特征选择算法AGASVM。该方法利用自适应遗传算法AGA进行最优特征子集的搜索,用支持向量机SVM作为特征子集评价方法。AGASVM用于盾构地铁隧道施工质量风险致险因子的选取,实验结果表明了AGASVM提高了特征选择的效率。
2.提出了一种用于解决“类标具有约束条件的约束性多分类问题”的模型RMCM和一种混沌离散粒子群算法CBPSO。将CBPSO与RMCM模型结合,得到一种基于CBPSO特征选择的RMCM模型CBPSO-RMCM。将CBPSO-RMCM应用于盾构地铁隧道施工管片衬砌过程中的管片选型预测,实验结果表明该模型的分类准确率比RMCM有明显提高,且选取出的关键特征集与领域专家的意见基本一致,为今后的管片选型预测提供了一种参考方法。
3.分析了Filter和Wrapper两种模式的优缺点,提出了一种适用于回归的基于层次聚类算法和偏最小二乘(PLS)的特征选择方法。该方法将原始特征根据相关度进行聚类;同时,又用PLS对每个特征的预测能力进行排序,最后根据特征聚类和特征排序的结果生成最优特征子集(称最优回归子集),使所得最优回归子集中特征间的相关性低(含冗余特征少)并且绝大部分特征的预测能力较强。该特征选择方法应用于盾构地铁隧道施工地面沉降的回归预测中,实验结果表明所得最优SVR和最优PLS模型的回归精度、预测精度以及计算效率均有明显提高。
|