论文题名: | 基于Spark的短时交通流预测系统设计 |
关键词: | 短时交通流预测;Spark平台;分布式存储;自回归积分滑动平均模型;梯度优化决策树模型 |
摘要: | 短时交通流预测,作为智能交通系统的重要组成部分,一直是道路交通领域的研究热点。对于短时交通流预测算法,预测准确率和预测计算时间是影响交通控制、诱导和管理效果的关键指标,目前短时交通流预测算法的预测准确率和预测计算时间互为对立,没有很好的融合解决方法。论文结合Hadoop, Hbase, Spark, Dubbo等分布式处理技术,设计了一种灵活可扩展的分布式短时交通流预测系统模型。为了使此系统模型更好适应现代智能交通系统的需要,对以下几个方面展开研究,取得的主要成果如下。 通过对Spark分布式计算技术进行深入剖析,发现其磁盘 I/O效率不高,不能很好适应短时交通流预测的要求。为了提高磁盘 I/O效率,论文提出了一种改进的Spark Shuffle过程,让每个Mapper只生成一个共享的缓存文件,使磁盘读写方式由随机访问变为顺序访问,减少了磁盘寻道时间;让每个Mapper的所有bucket共享同一个内存缓冲区,提高了内存的利用率,减少了磁盘的读写次数。 针对短时交通流预测算法时间复杂度较高的问题,结合统计学领域时间复杂度较低的ARIMA模型,设计了一种RUTP-ARIMA模型。该模型利用克罗内克指数减少道路-时间矩阵维数,降低时间复杂度;加入城市道路交通特征参数,优化了其在城市道路上的准确率;最后用线性回归的方式对交通流数据进行实时预测。 为了解决短时交通流预测算法预测准确率和预测计算时间没有很好融合的问题,结合机器学习领域的梯度优化决策树模型,设计了一种DUTP-GBDT模型。该模型以影响城市交通的时间特征、道路状况特征和天气特征三个关键因素作为输入参数,有效提高了该模型在城市道路环境的短时交通流预测准确率。在Spark平台上实现此模型时,为了减少模型的训练时间,提出了切分点抽样、特征装箱和逐层训练三种优化方法,显著降低模型训练过程中的网络I/O开销。 实验结果表明,改进的Spark Shuffle过程可以有效提高Spark平台的磁盘I/O效率。RUTP-ARIMA模型能有效减少预测计算时间。DUTP-GBDT模型在保持预测准确率较高的情况下,有效减少了短时交通流预测所需的预测计算时间。 |
作者: | 王玉良 |
专业: | 软件工程 |
导师: | 黄廷辉 |
授予学位: | 硕士 |
授予学位单位: | 桂林电子科技大学 |
学位年度: | 2017 |
正文语种: | 中文 |