当前位置: 首页> 学位论文 >详情
原文传递 DM2平台的扩展及其在铁路货票数据上的挖掘应用研究
论文题名: DM2平台的扩展及其在铁路货票数据上的挖掘应用研究
关键词: DM2平台;铁路货票;数据挖掘
摘要: 数据库技术从20世纪80年代初开始,就得到了广泛的普及和应用。伴随着近年来数据量的急剧增长,以及数据仓库和Web等新型数据源的日益普及,人们面临的主要问题不再是缺乏足够可以使用的信息,而是如何将这些海量的数据有效地利用起来。面对这一挑战,数据挖掘技术应运而生,并在各行各业得到了广泛应用。而关联规则是数据挖掘中最活跃的研究方向之一。 DM2平台是一款由我们设计并正在开发的数据挖掘平台。目前,DM2平台已开发了用于实例分类和关联规则挖掘的功能组件,并实现了ID3、Naive Bayes、FP-Growth、CLOSET等数据挖掘算法。但为了满足不同数据挖掘项目的需求,DM2还有很多有待于完善和扩展之处:首先,DM2平台与数据库的交互能力还有待增强;其次,DM2平台所实现的算法还很有限,而算法恰恰是一个数据挖掘系统的精髓,因此,丰富DM2平台的数据挖掘算法是当务之急;再者,DM2平台还不具备以界面的方式与用户交互的功能。本文针对这些问题,从丰富算法库以及如何实现用户界面等方面对DM2平台进行了扩展。 首先,本文丰富了DM2平台的数据挖掘算法,在DM2平台上,实现了经典的Apriori算法,还针对海量数据提出并实现了一种改进的Apriori算法,该算法采用线性存储结构与垂直数据结构数掘库相结合的方式,从一定程度上解决了经典Apriori算法的瓶颈问题,改善了DM2平台的性能。 其次,本文进一步加强了DM2数据挖掘平台与数据库的交互能力。实现了规则集到数据库的存储,使DM2平台能够对规则进行过滤、排序、分组等操作。 最后,本文实现了DM2平台数据挖掘的用户界面。采用基于浏览器的技术和JSP技术实现用户与DM2平台的动态交互操作,并直观得到挖掘结果。 扩展后的DM2平台具有极强的处理大数据集的能力,优异的与数据库交互的能力,人性化的可视化数据挖掘界面。 本文以2004年郑州铁路局铁路货票数据记录样本为实验数据,基于扩展后的DM2平台建立了铁路货票数据挖掘系统,实验结果表明,该系统能够挖掘出确实有价值的关联规则,系统性能稳定可靠。 论文结束部分,讨论了目前DM2平台研究工作中需要进一步完善的问题,指出了今后的研究方向。
作者: 王誉泽
专业: 计算机应用技术
导师: 黄厚宽
授予学位: 硕士
授予学位单位: 北京交通大学
学位年度: 2008
正文语种: 中文
检索历史
应用推荐