当前位置: 首页> 学位论文 >详情
原文传递 基于Spark的路网交通运行状态判别研究
论文题名: 基于Spark的路网交通运行状态判别研究
关键词: 高速公路网;交通运行;状态判别;随机森林;机器学习
摘要: 近年来,交通出行需求迅猛增长,单纯依靠扩大路网建设规模并不能有效解决交通供需不平衡问题,交通拥堵日益严重。为此,本文以高速公路路网交通运行状态为研究对象,针对单机串行学习路网海量交通流运行数据效率低下问题,提出利用Spark大数据机器学习平台构建路网交通运行状态判别模型,实现路网交通运行状态的及时、准确判别,以便制定科学有效的交通管理控制措施,这对解决交通拥堵,提高路网运行效率,提供畅通、安全、智能化的行程环境具有重要意义和价值。
  由于单台机器的数据存储和处理能力有限,串行的学习路网交通大数据进行交通运行状态判别效率低下,本文首先对大数据处理技术平台及并行机器学习进行分析,提出依托Spark灵活的数据重用及并行化执行机制,从数据存储、数据处理、数据应用三层构建Spark大数据机器学习平台。其次,针对传统交通运行状态判别采用单一参数绝对度量标准的不科学性,本文选取交通流量、车速和占有率三参数表征高速公路交通流运行情况,利用k-means算法对路网交通流运行数据进行聚类分析,确定交通运行状态相对度量标准;将聚类标记后的路网交通流运行数据作为输入数据,利用随机森林构建路网交通运行状态分类决策模型,实现交通流运行数据状态分类;同时,本文围绕不同交通参与者的交通运行状态信息需求,立足高速公路路网结构,提出利用交通运行指数对路网交通运行状态进行量化判别。最后,本文搭建Spark大数据机器学习平台,以奥克兰区域路网作为实验路网,利用PeMS系统采集实验数据,采用数据并行化与任务并行化的策略,对路网交通运行状态判别过程进行并行化分析与实现。
  实验结果表明:Spark大数据机器学习平台下,并行聚类与串行聚类具有一致的可靠性,聚类结果能有效反应交通流运行特性;并行分类与串行分类具有一致的准确性,基于随机森林的分类决策模型平均F度量、精确度、召回率可达98.97%,98.99%,98.96%;路网交通运行状态并行判别比串行判别效率明显提高,平台具有良好的可扩展性和加速比。本文方法能对路网交通运行状态进行及时、准确判别。
作者: 朱熹
专业: 交通信息工程及控制
导师: 许宏科
授予学位: 硕士
授予学位单位: 长安大学
学位年度: 2017
正文语种: 中文
检索历史
应用推荐