当前位置: 首页> 学位论文 >详情
原文传递 最大信息系数改进算法及其在铁路事故分析中的应用
论文题名: 最大信息系数改进算法及其在铁路事故分析中的应用
关键词: 铁路事故;风险预警;最大信息系数;聚类算法
摘要: 铁路运输在整个交通运输体系中占有重要的地位,随着我国铁路的大规模建设,铁路运输进入了跨越式快速发展阶段,铁路运营里程不断增加,货运及客运量不断增长。然而,与此同时,重、特大铁路事故仍然偶有发生,这给人民生命和财产安全造成极大的损失,确保铁路运输安全仍然是铁路运输中的一项重要工作。当前,各种先进电子电气设备不断地应用到铁路系统中,影响铁路安全的因素越来越多。面对如此多影响铁路安全的因素,首先需要分析这些因素之间的相关性,相比其它统计相关系数,最大信息系数(the Maximal Information Coefficient,MIC)具有良好的性质:广泛性(Generality)和均匀性(Equitability),MIC可以发现不同类型的相关关系。本文具体分析了Reshef等人提出的两变量最大信息系数MIC的定义及其近似算法,针对其存在的不足,提出了计算大规模数据中两变量以及多变量最大信息系数MIC的快速算法,并基于最大信息系数MIC,进行了铁路事故分析及预警研究。具体来说,本文主要创新点如下。
  1.提出了计算两变量最大信息系数MIC的数学规划模型并设计了面向大规模数据的快速算法。通过分析Reshef等人提出的两变量最大信息系数MIC的定义,明确了求解两变量最大信息系数MIC的目标以及各种约束条件,给出了数学规划模型;针对Reshef等人提出的计算两变量最大信息系数MIC近似算法计算时间较长的问题,利用k-均值聚类算法,分别对两个变量进行划分,得到两个变量的格子划分,提出了计算大规模数据中两变量最大信息系数MIC的快速算法。数值实验表明,本文提出的快速算法计算得到的两变量最大信息系数MIC保留了MIC的两个优良的性质:广泛性和均匀性;不同类型两变量相关关系最大信息系数MIC的计算时间非常接近,而且,随着数据规模的增大,计算时间的增长速度不快;分析了算法的时间复杂度,Reshef等人提出的近似算法的时间复杂度为O(n24),本文提出的快速算法的时间复杂度是O(n16),本文提出的快速算法更适合发掘大规模数据中的两变量相关关系。
  2.给出了多变量最大信息系数MIC的定义,并提出了计算大规模数据中多变量最大信息系数MIC的快速算法。利用互信息的链式法则,将多变量互信息分解为一个变量与多个变量之间互信息的和,从而将多变量分为因变量和自变量两部分,得到多变量最大信息系数MIC的定义。利用二分k-均值聚类算法,将自变量和因变量分别划分为不同数量的块,提出了计算大规模数据中多变量最大信息系数MIC的快速算法。数值实验结果表明,提出的快速算法计算得到的多变量最大信息系数MIC保持了MIC的优越性质:广泛性和均匀性,并且计算时间较短,计算时间增长速度较慢,本文提出的快速算法适合发掘大规模数据中的多变量相关关系。
  3.提出了基于最大信息系数MIC的铁路事故复杂网络模型。事故因素作为网络节点,根据两点之间最大信息系数MIC值产生网络中的边,分析了不同依赖性水平下的网络结构变化情况,具体分析了网络节点的度、度分布、孤立点、连通图以及网络平均连接度等指标的变化情况。对某一固定因素,随着依赖性水平的不断增长,该因素的重要影响因素可以被识别出来。
  4.提出了一种基于最大信息系数MIC的铁路事故预警方法。基于最大信息系数MIC,对相关影响因素按照相关性程度进行排序,利用人工神经网络模型,得到不同数量影响因素情况下的拟合曲线,由此得到目标因素与影响因素之间的最优拟合曲线。在此基础上,给出危险区域的概念,提出了一种铁路事故预警方法。当影响铁路安全的因素进入危险区域时,调整不正常影响因素指标,可以极大地避免铁路事故的发生。
作者: 邵福波
专业: 系统科学
导师: 李克平
授予学位: 博士
授予学位单位: 北京交通大学
学位年度: 2016
正文语种: 中文
检索历史
应用推荐