论文题名: | 基于Hadoop的海量城市交通流数据分布式存储与分析研究 |
关键词: | 智能交通;城市交通流;数据存储;Hadoop平台;非参数回归 |
摘要: | 随着智能交通基础建设的快速发展,城镇居民收入水平逐步提高,城市汽车拥有量大幅度增加。遍布每个城市道路的感应线圈、卡口断面系统,能够及时地采集、记录、汇总并上传监控数据。但是由于城市道路交通流存在着数据量大、实时性高等特点,传统的数据存储与处理技术存在着数据结构与数据存储容量无法灵活扩展、分布式并行数据挖掘难、高容错恢复能力差等问题。如何将海量的交通流数据实时地上传、汇总和存储利用,以及如何对数据进行统计挖掘成为一个较大的难题。以Hadoop为代表的大数据技术成为解决这一系列问题的有效手段之一。 基于现阶段城市交通发展带来的数据存储与分析等突出问题,本文通过对基于Hadoop的MapReduce、HBase等大数据技术的研究,提出了相应的解决方案,其主要研究工作和成果如下: (1)本文提出了基于Hadoop的交通流数据存储与分析总体架构。将架构分为5个层面:数据采集层、硬件平台层、数据存储与计算层、挖掘分析层和应用服务层,同时研究与设计了节点在故障或宕机情况下,Hadoop集群具有高容错恢复能力的可用性方案。 (2)本文提出了基于HBase的海量交通流数据分布式存储方案。根据交通流数据特点与处理应用需求,设计了可解决“热点”问题的交通流数据表行健结构。同时研究了HBase的协处理器,设计了用于针对列查询的快速数据检索的二级索引表。 (3)本文还根据交通车流量与密度的关系,设计了流量与密度计算模型,提出了基于MapReduce的流量密度计算的并行化实现,解决了海量交通流数据情况下的流量、密度快速计算难题。同时,采用K近邻非参数回归算法来预测短时交通流,通过对K近邻状态向量、距离度量方式、近邻个数以及预测算法的选择及研究,提出了基于MapReduce的KNN预测短时交通流的并行化实现,加快K最近邻算法的搜索速度,实现对短时交通流的定时预测。 (4)最后,根据总体架构应用层需求,基于Hadoop平台,构建并实现了城市道路交通流数据分析系统。本文对系统进行了详细的功能模块设计,并实现了对交通流量进行实时监测、海量数据分析的图形化展示等功能。 |
作者: | 朱刘江 |
专业: | 计算机技术 |
导师: | 李云 |
授予学位: | 硕士 |
授予学位单位: | 扬州大学 |
学位年度: | 2015 |
正文语种: | 中文 |