论文题名: | 公路收费系统数据分析与挖掘 |
关键词: | 公路收费系统;数据分析;系统数据;数据挖掘技术;数据集;聚类分析方法;重要数据;噪音数据;挖掘算法;生成算法;决策分析;信息处理技术;关联分析方法;预处理算法;统计学理论;子集;知识基础;运行过程;预测方法;引入概念 |
摘要: | 数据挖掘技术是现代最主要的信息处理技术之一,它集成了许多学科成熟的工具和技术,并随着这些学科的发展而不断进步。本文运用数据挖掘算法,详细地探讨了结合数据挖掘技术来研究收费系统数据的思路,为决策分析提供了知识基础。 收费系统数据是收费系统运行过程中的产物,是一组记录公路运营结果的重要数据。现今已有多种方法对其进行研究,最常见的是利用统计学理论进行的数据分析方法,但这种方法工作量大、效率较低。 本文针对收费数据的不一致性并含有噪音等特点,提出不完整噪音数据集的数据预处理算法,在对缺失数据进行有效填补的同时去除数据集中的噪音数据。针对聚类集成算法面临的2大问题,提出共同属性缺失模式生成算法和子集生成算法,用于查找频繁缺失项,生成聚类子集,进而融合聚类结果;针对常规数据处理不能很好的分析收费系统数据这一问题,采用4种数据挖掘算法,引入概念描述方法,汇总给定相关数据集,提供数据的一般特性;引入关联分析方法,寻找给定数据集之间的联系;引入分类和预测方法,提取描述重要数据的模型,预测未来的数据趋势;引入聚类分析方法,通过将数据对象分组成多个类,使同一类中的对象有较高的相似度,提高分析能力。结果表明,对容噪后的数据进行挖掘得到的知识较传统数据库应用软件分析结果相比,对决策分析有更多帮助。 |
作者: | 杨海陆 |
专业: | 计算机技术 |
导师: | 张健沛;殷志鹏 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工程大学 |
学位年度: | 2010 |
正文语种: | 中文 |