论文题名: | 铁路事故故障文本大数据分析关键技术研究及应用 |
关键词: | 铁路运输;非结构化事故;故障文本;大数据分析 |
摘要: | 安全是铁路运输永恒的主题。围绕安全中国铁路已建立车务、机务、工务、电务、车辆等各专业安全监测/监控系统数十个,产生了PB级规模的各类监控/监测数据。这些海量监控/监测数据绝大多数为语音、文本、图形图像等非结构化数据。由于其他形式的信息都可以通过文本描述来实现,因此当前文本是海量信息的主要载体。在铁路行车安全领域体量最大的、保存周期最长、蕴含价值最丰富的文本文件就是铁路非结构化事故故障文本。 铁路非结构化事故故障文本主要包含事故故障追踪报告、事故库、故障库等,大多以Word、Excel等形式存储,且以纸质形式存档,受限于传统技术限制,这些事故故障文本难以进行有效存储和分析,无法挖掘蕴藏在文本数据中的巨大价值。为实现海量铁路事故故障文本的分布式存储、检索和分析,推动领先的大数据分析技术在铁路安全领域的应用,本文主要对铁路事故故障文本大数据分析关键技术进行了研究和应用,主要取得了以下创新成果: (1)铁路事故故障文本大数据分析的整体框架。针对铁路非结构化事故故障文本大数据难以有效分析和应用的问题,提出按照“平台+应用”的模式构建,即在统一的铁路大数据平台基础之上,应用文本大数据分析技术,实现铁路海量非结构化事故故障文本数据分析,并给出了总体架构、技术架构、功能架构和主要的关键技术。 (2)基于ES的铁路事故故障文本分布式全文检索。针对海量铁路事故故障文本难以存储和检索的问题,本文提出了基于Lucene的分布式全文检索引擎Elasticsearch的分布式存储和检索解决方案。即应用ES集群实现海量铁路事故故障文本数据的分布式存储,并采用融合铁路领域词典的Jieba中文分词,应用倒排索引技术实现中文分词后的快速索引,最后实现基于TF-IDF算法的全文检索。通过对某路局2016年7月至2016年12月份的铁路总公司事故故障追踪报告进行实验分析,表明基于ES的全文检索的效率不会随着文本数量的增加而出现明显下降且可实现根据查询条件相似性高低排序的铁路事故故障文本全文检索。 (3)基于Bi-LSTM+CRF的铁路事故故障文本特征提取模型。针对铁路事故故障文本中事故故障名称、时间、地点、原因、整治措施等关键信息难以提取的问题,本文提出基于Bi-LSTM+CRF的铁路事故故障特文本特征提取模型。即应用BIO标记事故故障文本,并通过Word2Vec实现标记文本序列的向量转化,之后应用深度学习中的Bi-LSTM自动学习BIO标记的事故故障词向量序列特征,然后通过CRF学习事故故障文本标记的全局特征,从而提高事故故障文本特征提取的效果。最后基于TensorFlow l.2+Python3.6分析环境,以某路局2016年7月-2017年7月的电务专业事故故障追踪报告数据进行实验分析,实验结果表明在本文提出的事故故障文本特征提取模型在各实体提取的准确率、召回率和F-Score均在80%以上。 (4)基于不平衡文本数据挖掘的铁路事故故障智能分类模型。针对铁路设备机理、自然条件不同等而导致的不平衡事故故障文本数据问题,本文提出基于SVM-SMOTE的不平衡故障智能分类模型。即利用SVM-SMOTE算法对小类别文本向量数据进行随机生成,采用逻辑回归、朴素贝叶斯、SVM等基分类器和GBDT、随机森林集成分类器对平衡后的数据进行分类,考虑不同分类器的适用特点,通过Voting方式进行多分类器集成学习。通过对某路局2012-2016年铁路信号设备故障文本数据实验分析,表明该模型使得故障分类的准确率、召回率和F-score均得到显著提升。 (5)基于知识图谱的事故故障关联分析和原因智能推荐模型。针对传统事故故障分析的专业壁垒以及无法实现事故故障超前防范的问题,本文借鉴互联网知识图谱和智能推荐思路,提出基于知识图谱的铁路事故故障关联分析和原因智能推荐模型。即利用不同事故故障发生设备部位结构之间的关系、以及铁路同专业和跨专业事故故障实体、原因实体等关系等构建铁路事故故障知识图谱,为事故故障关联分析及原因推荐提供支撑;通过利用改进相似度计算的ItemCF-IUF和UserCF-IIF协同过滤模型算法,实现事故故障的关联分析和原因智能推荐,同时将分析结果反馈到知识图谱,为知识图谱提供新的知识补充。最后应用提取特征后的某路局2016年7月至2017年7月份的铁路事故故障追踪报告数据为分析样例进行试验分析,通过覆盖率和新颖度两个指标,找出了选取相似性项目数K=20时,模型效果最佳,验证了改进相似度计算方法的有效性。 最后本文以某路局的实际事故故障文本数据为例,通过PMML封装铁路事故故障文本分析的算法模型,应用Java SSH架构和Restful API接口,搭建路局事故故障文本大数据分析应用平台,实现了铁路事故故障全文检索、事故故障特征提取、铁路事故故障文本分词、事故故障多发区域分析、重点事故故障分析、事故故障原因推荐、事故故障关联分析等功能,通过实际工程应用,证明本文研究成果可以为实际现场作业人员提供切实有效的指导。 |
作者: | 杨连报 |
专业: | 交通信息工程及控制 |
导师: | 李平 |
授予学位: | 博士 |
授予学位单位: | 中国铁道科学研究院 |
学位年度: | 2018 |
正文语种: | 中文 |