论文题名: | 面向桥梁检测领域的机器阅读理解方法研究 |
关键词: | 桥梁检测;机器阅读理解;文本分类;图神经网络 |
摘要: | 随着自然语言处理技术的飞速发展,机器阅读理解逐渐成为学术界与工业界共同关心的热门话题,尤其是高质量数据集以及大规模预训练模型的提出更是促使这一领域取得了长足的进步。机器阅读理解作为关键的研究方向,其目的是使得机器能够像人类一样分析语义、理解自然语言并回答问题,从而可以提取文本中的重要信息。然而国内外机器阅读理解的研究主要集中在英文语境和部分中文特殊应用领域,如:司法、医疗、和军事等领域。由于中英文文本差异较大,面向中文领域的机器阅读理解方法仍存在一些待解决的关键问题,尤其是面向中文特殊应用领域,相关机器阅读理解方法研究仍处于起步阶段。 目前,桥梁检测领域管理养护单位业已堆积了海量多源异构历史数据信息,其中公路桥梁定期检测报告中详细记录了桥梁基础属性、病害信息以及病害原因及处置建议等重要信息,由于桥梁检测领域业务本身的专业性和特殊性,这些文档信息仍然以文档链接的形式存储在数据库中,大量有价值的信息尚未充分利用,影响了运营维护单位的后续管理养护决策。 本文以抽取式机器阅读理解作为主要研究内容,面向桥梁检测领域关键信息抽取任务,根据给定的文章段落文本和领域重点关注问题,通过建立端到端的深度神经网络模型,预测答案在目标文本段落中的开始位置和结束位置以获得问题对应的答案。针对现有的特定领域机器阅读理解方法存在的问题以及公路桥梁管理养护实体工程需求,本文开展了以下研究工作: (1)在数据集方面,目前业界尚未形成一个面向桥梁检测领域的机器阅读理解数据集,本文构建了一个高质量和较大规模的中文桥梁检测领域机器阅读理解数据集(BridgeInspectionQuestionandAnswerdataset,BIQA),该数据集共涵盖了11820个问答对,按照桥梁工程领域需求可以大致划分为三类问题。在构建过程中,通过结合桥梁检测报告的文本特性和实际应用需求出发,在领域工程专家的指导下,制定相应的数据规范和标注体系,构建了以回答桥梁基础属性、桥梁病害检测情况、桥梁病害原因及建议为主的工程应用性数据集。该数据集用于后续桥梁检测领域专业知识机器阅读理解模型训练及性能评估。同时为机器阅读理解任务的语言多样性和领域多样性研究提供了一定的参考价值。 (2)针对桥梁检测领域机器阅读理解任务中存在的大量长答案不完整、短答案冗余,即模型对答案的边界信息捕捉能力有待提升的问题。本文提出了一种通过答案长短特征分类指导桥梁检测领域机器阅读理解的模型LSG-MRC。该方法整体采用“问题分类+答案预测联合学习”的流水线式策略,首先以RoBERTa_wwm_ext预训练模型对问题和文章进行语义表示,接着针对待预测答案的长短类型对相应问题进行二分类,然后将问题分类的结果用于指导阅读理解中的答案预测模块,即对不同复杂程度的问题文本进行抽取作业,最终以多任务联合学习的方式得到全部答案的开始和结束位置。实验结果表明,在自建的中文桥梁检测问答数据集上的EM平均值为89.4%、F1平均值为94.7%,相比基线模型,分别提升了1.2%、0.5%,证明了该方法的有效性。 (3)针对桥梁检测领域机器阅读理解任务中存在许多专业命名实体语义信息捕捉不充分的问题,提出了一种融合图嵌入的桥梁检测领域机器阅读理解神经网络模型,可有效整合段落内部和段落与问题之间的命名实体信息。该方法利用图结构对所有桥梁检测阅读理解训练数据中的命名实体信息进行建模,训练得到包含两种边关系的实体节点向量表示,然后与基于RoBERTa_wwm_ext的上下文表示进行融合,并在研究二的基础上,即采用“问题分类+答案预测联合学习”的流水线式策略加上图嵌入融合的方法进行了实验,实验结果表明,该方法可以取得更好的效果。在自建的中文桥梁检测问答数据集上的EM平均值为90.4%、F1平均值为95.8%,相比基线模型,分别提升了2.2%、1.6%,验证了该方法的有效性。 |
作者: | 向芳悦 |
专业: | 计算机科学与技术;计算机应用技术 |
导师: | 杨建喜 |
授予学位: | 硕士 |
授予学位单位: | 重庆交通大学 |
学位年度: | 2022 |