当前位置: 首页> 学位论文 >详情
原文传递 基于数据预处理和回归分析技术的数据挖掘算法及其应用研究
论文题名: 基于数据预处理和回归分析技术的数据挖掘算法及其应用研究
关键词: 桥梁监测;数据预处理;回归分析;数据挖掘算法
摘要: 在当前科技飞速发展的形势下,随之而来的是数据的急速增长。这也吸引了国内外越来越多的专家学者们的目光,引发了研究海量数据的热潮。新兴起的数据挖掘技术目前已成为人们研究的热点之一。所谓数据挖掘是从庞大的数据中提取有价值的或人们感兴趣的知识的过程。本文在“西北黄土地区高速铁路客运专线桥梁健康监测若干问题研究”这个项目的背景下对海量数据的挖掘技术及算法进行研究,并将其应用到桥梁健康监测预测中。
  本文着重研究关于时间序列海量数据的挖掘算法以及它的实际应用。由于实际监测的数据有不完整性、含有噪声、含有空值、异地存储以及数量较大的特点,因此,若要对这些数据进行挖掘首先应当对其进行数据的预处理,而后使用行之有效的方法或算法对其处理,其结果才具有一定的可信度。
  本文主要的研究内容有:
  (1)阐述了数据挖掘的基础理论和相关流程,并对在数据挖掘中常用的聚类分析、关联规则以及分类和回归分析方法进行了探讨。在数据挖掘中对时间序列的数值进行预测时常用到回归分析方法,而BP算法是该方法中预测效果较好的一种算法,因此,本文着重分析了BP算法以及对其改进的一些常用方法及原理。
  (2)将邻域粗糙集理论引入数据预处理阶段,首先分析邻域粗糙集属性约简的原理,而后利用UCI数据集对其性能进行研究,并在与传统的Pearson方法进行对比分析的基础上,重点研究邻域粗糙集算法在属性约简中的应用。
  (3)为了将算法更好的应用在数据挖掘中,借助软件仿真,首先,深入分析几种常用改进后的BP神经网络算法的性能;其次,选择两个算法性能相对较好的改进函数,并在此基础上提出4种基于遗传算法优化的BP神经网络算法的模型;再次,确定了一种较有效的GA-BP模型算法;最后,经查阅相关文献得知遗传算法的参数选择范围后,采用固定两个变量改变其中一个变量的方法确定出该模型性能最佳时的参数。
  (4)将上述提出的数据预处理方法(数据的集成、数据的属性约简、数据的降噪、数据的归一化)以及 GA-BP算法应用在桥梁健康监测系统的斜拉桥斜拉索的索力预测上,经过实验分析,验证了其应用的有效性。
作者: 李学学
专业: 检测技术与自动化装置
导师: 彭珍瑞
授予学位: 硕士
授予学位单位: 兰州交通大学
学位年度: 2014
正文语种: 中文
检索历史
应用推荐