摘要: |
本文的研究目标是在针对城市道路交通流数据质量控制理论进行分析和总结的基础上,研究并建立针对单源数据的质量控制理论与模型以及针对多源数据的融合理论与模型,通过实测数据验证其效果;同时,为从源头上根本解决数据质量问题,提出有助于数据质量控制工作开展的实施策略与建议。
围绕该研究目标,首先对国内外相关研究进行综述,总结当前交通流数据质量控制模型和算法的研究现状。其次,在此基础上,结合当前的交通流数据质量控制需求,建立针对单源数据的质量控制理论与模型,包括基于交通流理论和统计学原理的分层次错误数据判别模型、基于相关分析理论的错误数据修正模型、基于统计学原理的不规则时间点修正模型、基于时间序列理论的丢失数据补齐模型四个部分,以及针对多源数据的基于支持向量机技术的融合模型。再次,利用北京市快速路和日本阪神高速公路实测交通流数据设计合理的数据测试方案,对所建立的单源和多源质量控制理论与模型进行检验。最后,从技术、体制和政策三个层面设计并提出有助于数据质量控制工作开展的实施策略与建议。通过研究发现:
1、在单源交通流数据的质量控制研究领域中,由于使用单一规则无法实现错误数据的全面判别,有必要建立分层次的错误数据判别模型,以便从交通流阈值关系、交通流理论、交通流参数分布特征等多个角度入手,提高错误数据的判别效果。模型包括特殊样本比例阈值规则、基于交通流参数的阈值规则、基于交通流模型规律的判别规则、基于聚类分析-曲线回归的异常数据判别规则和基于数据总体趋势的精密判别规则等五个层次,其中的第四层规则借助于聚类分析方法进行分类,然后分别根据拟合优度检验结果选择最佳的回归曲线模型,最后设计残差分析指标得出错误数据,检验结果表明较常规的判别方法能够提高判别比率55%左右。
2、关乎单源交通流数据质量控制中的错误数据修正的两个重要因素是用于修正的数据源和修正方法。修正的数据来源均来自与错误数据时间或空间相关的正确数据集合。通过数据相关分析表明:就三个交通参数而言,相关度由高到低依次为流量、占有率和速度;就相关类型而言,横向邻接的时间和空间数据相关度高于纵向邻接的空间数据。另外,在目前研究中修正的方法大多以回归、插值和加权移动平均等传统时间序列预测方法为主,将传统时间序列预测方法和相关分析方法结合起来建立错误数据修正模型可以改善修正的精确度。
3、目前国内外文献中尚未对不规则时间点的修正问题开展研究,本文建立的不规则时间点修正模型可以在最大程度上保留原始数据信息的前提下,对冗余数据进行归并和整理,并将数据时间点修正为规范的格式,为这些数据的管理和应用奠定基础。
4、由于采集时间间隔的差异,美国部分城市的丢失数据所占比例在15%以上,北京市快速路数据在包含冗余数据的情况下,平均丢失率在2%左右,最高丢失率达到10%。对于丢失数据补齐而言,不同方法有着不同的优缺点和适用性,单一的补齐模型无法就不同的丢失环境作针对性的处理,有必要针对不同的丢失间隔和可用正确数据条件设计出更高细节度的数据补齐模型。基于此,本文建立了根据丢失间隔来制定补齐方法的数据补齐模型,其中根据自回归移动平均结合(ARIMA)原理实现了针对较长丢失间隔条件下的数据补齐。采用北京市快速路数据对模型的检验结果表明,与小波变换技术和平均值方法相比,ARIMA模型用于长间隔条件下丢失数据的补齐数据与真实值的相关度指标能分别提高42.7%和3.5%。
5、由于多源交通流数据的质量控制属于像素层融合,适用的融合技术以卡尔曼滤波和神经网络两类方法为主,但是卡尔曼滤波对数值病态情形很敏感,且滤波数值计算缺乏稳定性,另外神经网络技术在应用中容易过学习、欠学习或陷入局部极小值陷阱,而支持向量机能够克服上述不足,更加适用于像素层数据融合,因此本文引入了支持向量机理论用于多源交通流数据的质量控制。采用日本阪神高速公路数据对模型的检验结果表明,当泛化参数ε=1,2或3时,修正值与真实值的总体相关系数分别为0.9995,0.9992和0.9990,二者具有很高的相关度,模型的有效性得以证明。
6、除了从定量建模分析的角度来开发交通流数据的质量控制技术以外,可以由技术、体制和政策三个层面提出有助于数据质量控制工作开展的实施策略与建议,作为实现交通流数据质量控制的辅助手段,这将更有利于从源头上根本解决数据质量问题。
总之,本文在总结既有研究的基础上,研究并建立了单源和多源条件下的城市道路交通流数据质量控制理论与模型,实现了针对错误数据、不规则时间点和丢失数据的修正和补齐,以及基于支持向量机技术的多源数据融合,案例研究表明模型的精确度比现有模型有很大的提高。另外,从定性的角度就技术、体制和政策三个层面提出有助于交通流数据质量控制工作开展的相关策略,旨在从源头上实现对数据的质量控制。本文对交通流质量控制理论与模型的研究将有效提高交通流数据的准确程度,为大量交通应用的开展提供良好的数据基础。 |