论文题名: | 基于Apache Spark的公共自行车系统使用状况分析 |
关键词: | 公共自行车系统;大数据平台;随机森林;梯度提升回归树 |
摘要: | 随着我国乃至世界范围内的城镇化进程的推进,城市交通正面临前所未有的压力。一方面交通拥堵造成了极大的时间浪费,由此带来不可预估的直接或间接的经济损失;另一方面大量的用车还带来了极大的环境污染。近几年来公共自行车作为一种新型的公共交通出行方式受到了广泛的关注。它扩展了传统公共交通,如公交车、地铁等不能触及的城市交通出行的末端,很大程度的解决了公共交通“最后一公里”的问题。但是由于城市出行的不确定性,特别是潮汐现象等造成了公共自行车经常出现“借车难”和“还车难”的现象。本文针对公共自行车历史数据量大、数据结果展示复杂、影响公共自行车使用的因素复杂等诸多问题,对第三代公共自行车的使用特性和使用量预测进行了基于Apache Spark大数据平台的分析与研究。本文主要完成的研究内容如下: (1)阐述了公共自行车作为城市出行中重要的组成部分对绿色出行、倡导低碳生活的重要意义,以及在大数据时代背景下,公共自行车项目使用大数据工具的必要性。 (2)通过对大数据工具的梳理,搭建了以Apache Spark为核心的公共自行车使用分析的大数据处理平台,并通过D3.js、Carto、Python和R等工具和编程语言实现数据的可视化展示。 (3)以美国纽约市的Citi Bike公共自行车系统的开源数据作为本文实验数据,使用Spark SQL和Spark Dataframe编程实现对公共自行车用户和站点两个角度的使用状况的统计与分析。总结了不同用户类型对公共自行车使用的影响;并使用K均值聚类算法对站点的使用规律做了分析。 (4)基于Spark MLlib机器学习库,使用随机森林和梯度提升回归树两种算法实现对Citi Bike每日使用量的预测。以历史天气数据为决策树特征进行模型建立,并对所建立模型结果进行了评价,验证了所选算法的可靠性。 |
作者: | 贾志立 |
专业: | 控制科学与工程 |
导师: | 谢刚 |
授予学位: | 硕士 |
授予学位单位: | 太原理工大学 |
学位年度: | 2017 |
正文语种: | 中文 |