详情

原文传递决策支持中基于时间序列数据的异常点检测

论文题名：	决策支持中基于时间序列数据的异常点检测
关键词：	时间序列分析;决策支持;交通事件检测;机器学习;无监督学习;异常点检测
摘要：	科技的发展使得现代企业和机构可以应用智能信息管理系统来存储和处理日常行为数据。基于这些存储数据检测到的行为变化为后续管理层制定策略提供了有效的知识。一般而言，行为数据通常以时间序列的模式被存储和分析。举例来说，在交通事件管理中，分析人员通过监测交通时间序列数据来实时监测道路上发生的事件，从而为后续的事件处理决策的制定提供重要信息。在疾病爆发监测中，正是基于各地区药品购买和使用时间序列数据，研究人员才能比较准确预测疾病的爆发情况，使及时制定应对策略和急救措施成为可能。在我们的研究中，这类基于时间序列数据来支持制定决策和战略的研究被称为基于时间序列的决策支持。　　虽然现有关于基于时间序列的决策支持的研究已经展现了不错的结果，但是仍然有两个要点未得到重视:一是大部分关于基于时间序列的决策支持研究没有在本质上认识到此类研究可以被认为是基于时间序列数据的异常点检测。二是在解决问题的过程中大量的未被标注的数据没有得到有效的利用，而标识数据的过程是需要大量人工劳动的。　　我们认为通过在为基于时间序列决策支持提出的框架中引进正常情况预测和非监督特征学习可以解决未被重视的两个问题。为了检测上述假设，我们通过实现两个解决交通事件检测的实验性研究，分别验证引入的两个模块。实验结果表明:正常情况预测和非监督特征学习确实能够通过提升交通时间序列数据中的异常点检测的精度和及时性，从而为后续的决策制定提供支持。　　在第一个实验中我们设计了一种合成方法将正常情况预测引入到交通事件管理中基于时间序列数据的异常点检测—自动交通事件检测。在合成方法中，正常交通情境预测和机器学习分类器是两个重要的模块。其中正常交通情境预测是通过分析以往正常情况下的交通数据来预测当前理论上正常的交通情况:路段的速度、占有率，以及流量。通过输入的特征向量:真实的交通情况，预测的交通情况，和两者的差别，机器学习分类器将当前的交通状况分类成正常交通流和出现了事件的交通流。通过将合成方法应用于一个真实的交通事件数据集—I-880数据集，我们发现和基准方法相比较，这样的方法能够在一定错误警报下以比较短的时间检测到更多的事件.第一个实验研究结果为将来在交通事件检测领域中整合时间序列方法和机器学习方法的研究工作提供了基础。　　在第二个研究性实验中，我们探索了非监督特征学习在自动交通事件检测中的效果，预期可以解决两个问题:1）将现存的未被标记的数据加以利用生成中心，为生成更高层次的特征向量做准备;2）进一步提高合成方法框架中的特征生成模块，从而实现自动的特征向量选取和生成。因为类似于交通事件自动检测，大多数的基于时间序列的决策支持都要求算法在实时情况下能够高效执行，所以我们选择了一种虽然简单但是已经被证明在图片识别领域非常有效的Spherical K-Means来实现非监督特征学习。我们仍然通过I-880数据集来验证算法的效果。实验结果表明，当聚类中心的数目被正确选取时，我们可以得到比基准方法更为优秀的结果。　　虽然通过两个实验性研究单独证明了正常情况预测和非监督特征学习在交通自动事件检测问题中的效果，我们仍然需要在后续的研究中研究两个模块合并之后的效果并尝试找出为两个模块选择适合算法实现的规则。同时，我们为基于时间序列的决策支持所提出的框架在本论文中仅在典型的交通事件检测问题中进行了测试。为了测试框架的适用性，我们需要在其他领域进行类似的实验研究。
作者：	王佳玮
专业：	管理科学与工程
导师：	华中生;廖少毅
授予学位：	博士
授予学位单位：	中国科学技术大学
学位年度：	2014
正文语种：	中文