论文题名: | 海量车载信息的存储和挖掘方法的研究与应用 |
关键词: | 海量车载信息;数据挖掘;索引效率;集群配置;时间排序 |
摘要: | 当今社会的信息量飞速增长,迫切需要解决大数据相关问题,通常用于分析企业数据的传统数据库和一些商业智能工具难以满足需求。Hadoop起源于Apache基金会,随着逐渐增加的用户数量及进一步的开发和完善,Hadoop已成为海量数据分析的最佳解决方案之一。Hadoop的应用也逐渐拓展到了电信、电子商务、银行等行业,而物流行业存在着海量的车辆行驶数据,Hadoop在储存并分析这些数据时必定有其用武之地。越来越多的配送车辆安装了车载设备,通过GPS定位、内嵌计算模块等监控车辆运输过程,这些数据可以给各厂商提供监管依据,同时能够挖掘出其中有用的商业价值信息。 Hadoop平台的功能之一是实现了传统数据库向分布式存储方法的转换,可以把现有数据或者关系型数据库数据导入HBase。由于HBase产生不久,开源资料缺少高效的导入方式,现有资料多是介绍了HBase shell命令或者简单API,不能满足批量快速导入的需求,即使提到了一些有效改进方法也没有给出具体操作和实现。本文研究了海量数据快速导入HBase数据库,根据集群的各方面性能、HBase运行的内部机制并结合了配置参数的功能,修改了部分参数;为了节省空间、提高索引效率以及提升入库效率,优化了rowkey的设计;为均衡HReginSever的负载,实现了预分区方案并给出了详细的实现方法,通过实验测试得到了最佳分区方案;结合MapReduce模型实现了批量导入功能,给出了实现方法及改进;另外在程序中直接利用sqoop源码将shell命令嵌入到程序中,提高了程序控制的灵活性。最后综合以上方法进行测试并分析了实验结果。 针对某几个客户公司的需求,本文挖掘海量GPS车辆数据中的有价值信息,基于MapReduce框架设计并实现了三个算法。第一,利用MapReduce模型设计并实现了各区域中车辆密度的统计,在定位地理位置时设计了两种方法,包括在sqlserver生成空间数据库和建立地理信息四叉树索引。第二,设计了各加油站经过车流量统计算法,其中定制了Writable类实现了value值按照产生时间排序,解决了前后关联数据在Reduce阶段前被打乱顺序或者分散到不同的Reduce任务中。第三,设计了统计经过给定路线车辆的算法,其中的关键是判断车辆行驶轨迹是否与给定线路重合。最后根据集群配置和各算法特点,实验测试并分析了相关参数调优对程序运行过程的影响,提升了数据运算的效率。 |
作者: | 解镇源 |
专业: | 电子与通信工程 |
导师: | 王俊平;孙京梅 |
授予学位: | 硕士 |
授予学位单位: | 西安电子科技大学 |
学位年度: | 2014 |
正文语种: | 中文 |