论文题名: | 并行化流式数据聚类及其在交通热点挖掘中的应用 |
关键词: | 交通预测;热点区域;实时挖掘;流式数据;聚类算法 |
摘要: | 随着交通、GPS监控等方面数据量的海量增长,伴随出现交通实时路况延时性、交通预测不准确等现象,对流式数据的实时处理提出更高的要求,挖掘交通热点区域成为交通领域研究热点;尽管目前对交通领域流式数据聚类的研究已取得显著成就,但仍存在聚类时效性、伸缩性差,不可实现任意形状类簇等缺点。因此,为高精度实时的挖掘交通热点区域,减少城市交通拥堵和方便资源调度,提出两阶段快速流式数据聚类框架并在Storm集群下实现并行化。 本文提出的两阶段快速流式数据聚类框架(Canopy-Kmeans,简称CK)针对流式数据,在线阶段选择改进Canopy算法粗聚类产生宏簇并缓存概要信息;离线阶段使用Kmeans算法细聚类;引入滑动时间窗口并抽取概要信息以自动确定Kmeans初始输入和微簇时间标志。为增加聚类实时性,将CK算法在Storm集群并行化,提出并行化流式数据聚类算法(Parallel-Canopy-Kmeans,简称PCK)并实现。 为验证PCK算法性能,选取测试数据集对PCK、CK、Kmeans进行聚类就准确性、执行时间对比;对PCK自身就扩展性对比。为提高交通热点区域挖掘的可行性,选取北京市某七天的出租车定位数据模拟流式数据,使用PCK算法聚类生成微簇集合并结合热力图和电子地图可视化表达。实验结果表明:生成的交通热力图可直观地发现出租车活动较为频繁的热点区域和线路,且与日常出行经验相符合;生成的微簇集合可实现用户在任意时间窗口范围内交通状况实时查询,提高流式数据的聚类质量的同时保证交通路况预测实时性,为交通活动实时分析、城市车辆实时调度、物流园区车货调度等方面提供有价值的理论参考依据。 |
作者: | 高书娟 |
专业: | 管理科学与工程 |
导师: | 陈燕 |
授予学位: | 硕士 |
授予学位单位: | 大连海事大学 |
学位年度: | 2018 |
正文语种: | 中文 |