详情

原文传递基于深度序列模型的地铁系统乘客出行行为预测及其机理研究

论文题名：	基于深度序列模型的地铁系统乘客出行行为预测及其机理研究
关键词：	地铁系统;出行行为;深度序列模型;机器学习
摘要：	个体出行行为预测（作为对个体未来出行特征的建模）对目前“智慧交通”背景下的个性化、差异化交通应用（如网约车，共享服务等）的运营及管理具有重要意义。对个体出行行为的准确预测，可以为系统的运营提供可靠的指导，从而提高管理及服务水平。然而，个体的出行行为具有高度复杂性，准确预测个体的出行行为是一个富有挑战的问题。本研究基于自动售检票（AutomaticFareCollection，AFC）系统数据中提取出的地铁乘客历史出行记录，对个体出行行为预测中所存在的问题进行深入研究，其主要内容如下：　　（一）针对由站点-刷卡机对应表信息缺失或错误引起的AFC数据进出站信息缺失及错误问题，提出了一种基于张量分解的刷卡机关联客流特征提取方法，用以描述通过各刷卡机的客流特征。对于信息缺失问题，提出一种基于神经网络与决策融合的缺失信息填补方法，修复对应表中的信息缺失；针对信息错误问题，提出一种基于孤立森林与神经网络的异常检测方法，自动检测对应表的信息错误并推测正确的对应信息。结果表明，提出的方法在信息的缺失填补及错误修复问题上具有良好的性能，在缺失/错误比例较小时，准确率可以达到80-90%。　　（二）针对目前研究对所使用数据集本身的可预测性缺乏深入研究，预测准确率缺乏参考性的问题，本研究利用基于熵率的可预测性上限量化模型，深入研究从AFC数据中提取的个体出行行为序列的可预测性。通过单属性序列及复合属性序列的可预测性实验，发现从AFC数据提取的个体出行序列具有较强的可预测性（上限到达70%以上），但相对于其他非移动关联数据集（如手机通话位置记录数据）可预测性稍低；同时研究了个体出行行为特征与可预测性的关系，结果表明，访问站点越少、出行序列越长的个体倾向于拥有更高的可预测性上限值。　　（三）针对现有预测模型特征提取及时序建模能力有限的问题，提出一种基于注意力机制的序列—序列（sequencetosequence,seq2seq）预测模型，用于地铁系统个体的出行行为预测。首先，提出了属性嵌入、归一化表示、映射方法及重叠编码四种特征提取方法对离散及连续两种数据类型的出行属性进行特征提取；同时，提出一种基于成对时间指针的模型训练算法，使模型具有把握预测时间信息的能力。实验结果证明，本研究提出的模型相较于传统机器学习模型，预测准确率提升显著（超过10%）；相较于不具备把握预测时间信息的深度学习模型，所提出模型的准确率提升了3%。　　（四）针对深度学习预测模型的“黑箱”特性难以得到决策者信任的问题，提出个体出行预测模型的可解释性定义，并提出一种基于注意力权重擦除的可解释性评估框架，从决策翻转及输出概率分布两方面研究个体出行行为预测模型中的可解释性及其显著性。结果表明，在基于深度学习的个体出行行为预测模型中，注意力机制具有一定的可解释性。单一注意力权重的可解释性显著性较弱；基于权重降序的组合注意力可以显著影响模型决策。
作者：	张鹏飞
专业：	交通信息工程与控制
导师：	翁小雄
授予学位：	博士
授予学位单位：	华南理工大学
学位年度：	2021