论文题名: | 车载信息服务业数据仓库系统的设计与实现 |
关键词: | 车载信息服务业;数据仓库系统;数据挖掘;K均值聚类;功能模块 |
摘要: | 随着汽车行业的飞速发展,车载信息服务业也应运而生,目前国内车载信息服务公司已经一家家的建立起来,只是各家的侧重点不同,有偏向导航领域,也有偏向安防领域,但是导航这个方面却是各个车载信息服务公司都侧重的,所以已经有了一定的规模。目前车载信息服务业的数据仓库系统的应用主要实现了简单的查询和联机事务处理,业务数据库中积累了大量的业务数据,并且其中不乏一些有价值的信息。而传统的联机事务处理已不能满足用户对数据分析的需求,即造成了各公司拥有海量数据但是却没有发现其中有价值的信息。海量的、有意义的数据也就变成了永远保存在数据库中的普通数据,造成了严重的信息浪费。 本文在研究数据仓库、数据挖掘的基础上,重点深入探讨如何解决系统间数据不一致;如何保证日常数据可以每天抽取到报表数据库中;提出数据仓库的总体设计与实现过程,建立起相应的星型模型。在建立好的数据仓库的前提下,对数据进行挖掘,将挖掘出的知识通过系统展示,为管理层制定营销策略提供可靠依据。本文主要包括以下几个方面: 首先,分析目前车载信息服务业的现状,以及目前数据仓库与数据挖掘技术的应用情况,并且梳理整个车载信息服务业的业务流程,本文主要介绍车辆注册的整个流程;分析得出车载信息服务业的数据具有多源性、类型多样性、海量数据等特性;并且通过和用户多次沟通,最终确定用户需求,主要包含车辆信息查询、客户信息查询、服务信息查询、续约信息查询、坐席信息查询等,还需要提供坐席聚类分析功能以及客户分类分析功能等;对系统的性能也一定的要求,如系统交互量、网络数据流量以及数据存储量;还涉及到对车载信息服务业数据仓库系统的整个体系结构的初步描述,整个体系结构包括对原始数据进行预处理,根据清洗过的数据构建数据仓库,根据数据仓库中的数据进行数据挖掘,对挖掘结果和实验数据进行分析,最终制定策略。 其次,根据车载信息服务业的业务流程和数据特性,整合用户需求,设计了整个数据仓库系统的系统架构。不管是数据仓库数据的使用,或者是数据挖掘技术的应用,都离不开底层大量的数据,将这些数据经过清理整理后存储于数据仓库中,既可以为使用者获取相关信息,也可以为数据挖掘技术的应用做好准备,故本文在研究数据预处理这个过程中,重点研究了采用标志位来解决不同系统同一含义的数据不一致的方法以及采用物理分区和逻辑分区解决数据的读取问题,采用索引解决数据的存储问题;本文采用“自顶向下”的方法构建数据仓库,并最终得到车载信息服务业的数据仓库星型模型。 接着,在构建完数据仓库的基础上,使用数据挖掘的K均值聚类算法,得出坐席人员的分组情况;使用C4.5决策树算法得到客户分类情况,其中使用K均值聚类算法得到客户训练集的试验结果,并用交叉验证的方法验证模型。 最后,使用实际的案例,构建整个数据仓库,并且实现系统的各个功能以及对坐席进行分组、对客户进行分类,从而得出相应的可行性策略,如可以对坐席分为5组:VIP组、演示(包括注册车辆)组、紧急服务组、销售组、普通组,针对每个坐席不同的特点,被分到不同的组,可以更好的发挥坐席的特点;把客户分为4类:VIP客户、次VIP客户、普通客户、潜在客户,针对每个用户不同的自然属性和行为属性,被分为不同的类的客户后,可以使营销人员更好的了解客户适合何种服务包,使服务人员更好的为客户服务。 |
作者: | 沈雯洁 |
专业: | 软件工程 |
导师: | 姜丽红 |
授予学位: | 硕士 |
授予学位单位: | 上海交通大学 |
学位年度: | 2015 |
正文语种: | 中文 |