详情

原文传递基于机器学习自然语言处理的兰新高铁信号设备故障诊断

论文题名：	基于机器学习自然语言处理的兰新高铁信号设备故障诊断
关键词：	铁路信号设备;自然语言处理;主题模型;支持向量机;故障诊断
摘要：	兰新高速铁路又称兰新高铁或兰新客运专线，是推进国家“一带一路”战略的重要助力之一，但由于途径地区地理环境复杂，气候环境多变，导致沿线信号设备易出现各类故障，严重影响线路的安全高效运营。在长期的运营维护过程中，电务部门通过自然语言的形式记载了大量非结构化的故障文本信息，其中包含了各类相关故障的发生时间、发生地点、故障表现、故障类别以及故障后续处理方法等重要信息。而长期以来，维修人员在处理现场故障时，多依据个人经验以及专家知识，通过人工的方法对故障进行诊断，并未对相应的故障数据加以有效的分析与利用，无法对蕴含其中的巨大价值进行挖掘。因此，为了响应国家大数据发展战略，推进大数据在铁路安全领域的应用，研究一种能够有效利用故障记录文本提高信号设备故障诊断效率、提升线路运输安全保障的故障诊断方法具有十分重要的意义。　　首先，根据目前我国铁路信号设备故障记录多为非结构化的中文短文本形式，其中包含着大量铁路信号的专业词汇，并且夹杂着数字、字母以及一些特殊符号，在传统的人工故障诊断方式下，并不能得到有效的分析与利用，本文采用数据挖掘寻找高频词结合铁路信号领域专业词汇的方式，构建铁路信号领域故障词库；在此基础上采用基于HMM（HiddenMarkovModel，隐马尔科夫模型）的Jieba中文分词技术对故障文本进行分词处理，并去除停用词。由结果可知，在采用自定义铁路信号领域词库后，有效的解决了中文分词处理过程中容易出现的错分与不分的问题，为后续特征提取工作提供保障。　　然后，采用VSM（VectorSpaceModel，向量空间模型）的方法，将分词后的故障信息转化到词项特征空间上，为了针对传统词项特征方法对文本隐含语义联系考虑不足的问题，本文采用LDA（LatentDirichletAllocation，隐狄利克雷分布）主题模型的方法对铁路信号设备故障记录进行特征提取，通过多次试验的方式选择合适的主题数后，以不同主题对应相应词项的形式将原有故障信息转化到主题特征空间上，使语义与词项特征相关联，同时降低故障数据的维度，便于后续进行故障诊断。　　最后，通过对兰新高铁信号设备故障数据的统计，发现故障样本存在着分布并不均衡的问题。因此本文采用机器学习分类算法与自然语言处理(NaturalLanguageProcessing，NLP)的方法相结合对故障进行诊断，通过对比传统空间向量模型与主题空间模型分别结合支持向量机(SupportVectorMachine，SVM)、朴素贝叶斯(NaiveBayes，NB)、逻辑回归(LogisticRegression，LR)、随机森林(RandomForests，RF)、K-最邻近(K-NearestNeighbor，KNN)等多种机器学习分类算法对故障分类器进行训练。在此基础上以兰新高铁信号设备故障文本数据进行实验分析，并通过对比不同组合Precision（精确率）、Recall（召回率）以及F1-measure（F1值）三项指标的方法，对提出方法的有效性进行验证；实验表明，结合LDA主题模型后SVM分类算法的准确率可以达到0.84，验证了利用自然语言处理的方法能够有效地对电务部门长期记载的故障文本数据加以利用，以实现信号设备的故障诊断，对现场信号设备的维护具有一定的指导意义。
作者：	朱玉林
专业：	交通运输工程
导师：	石磊;陈力
授予学位：	硕士
授予学位单位：	兰州交通大学
学位年度：	2022