摘要: |
随着计算机科学的不断发展,大量的原始数据被不断收集并存储到计算机中,而数据处理能力的低下,造成了目前信息丰富,知识贫乏的现状。数据挖掘--用非平凡的方法从大量数据中发现有用的知识,正是应此要求而迅速发展起来的一门科学。
铁路中的客票系统蕴含了丰富的数据信息,如何从这海量的信息中挖掘出有用的知识,是一个有待研究解决的问题。本文将数据挖掘技术用于铁路客运营销分析中的巨量客票分析,针对铁路客票的实际特点,对客票数据进行分析,提取客流信息以及客票数据的各个属性对旅客购票行为的影响规则,用于指导铁路旅客运输组织,服务客运营销决策。
本文选用SQLServer2000作为数据仓库和数据挖掘的开发工具。分析了数据挖掘技术、可视化数据挖掘技术、OLAP以及数据仓库的基本原理,并对SQLServer2000中决策树、聚类分析的数据挖掘算法作了重点分析。在对铁路客票系统中的数据进行了初步分析基础上,对涉及的多种数据进行了集成与转换,给出了数据仓库的详细设计过程和步骤。以京九线南昌局段下行方向08年4月份的客票数据为样本,建立了星型构架的多维数据集,分析了样本数据的客流特征,并且利用决策树和聚集技术对样本数据的席位、发车时间、列车种类字段其进行了的数据挖掘和结果分析。 |