摘要: |
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。粗糙集作为新生的数学工具,在许多方面克服了传统数据分析理论显现出的诸多不足,成为数据挖掘重要工具之一。
本文主要对基于粗糙集的属性约简算法作了深入研究,分析主要算法的优缺点,提出一些改进意见。重点提出一种新的属性约简算法: (1)该算法在生成可分辨矩阵的过程中,直接随机选取属性构成约简超集,避免对可分辨矩阵的存储,解决空间复杂度问题; (2)在约简超集的基础上,使用基于信息熵的启发式搜索方法去除冗余属性,保证算法完备性,在一定程度上减小时间复杂度。文章以实验证明算法的有效性。
隧道病害防治是非常复杂的问题,目前使用的人工分析方法大多局限于具体的工程条件或病害类型,缺乏系统性和科学性。本文结合大量隧道病害的历史数据和相关背景知识,提出对隧道病害进行预测的一系列数据挖掘方法,综合预测隧道可能发生的病害,挖掘病害潜在原因。首先,根据挖掘目标选取隧道基础数据和隧道秋检数据为研究对象,使用传统的统计分析方法核实数据质量;给出数据集成方法,合并隧道基础信息与病害信息;最后建立基于粗糙集改进约简算法和决策树的病害等级预测模型,在2005年成都铁路局隧道数据实验的基础上,对模型进行优化调整。实验证明模型对病害的预测率达70%以上,模型输出规则可为专家分析病害潜在原因提供参考意见。文章最后总结在实验中发现目前隧道防治存在的问题,有针对性的提出一些改进意见,完善病害防治工作。 |