论文题名: | 面向桥梁管养领域的少样本机器阅读理解方法研究 |
关键词: | 桥梁管养;机器阅读理解;数据增强;信息交互 |
摘要: | 随着大规模预训练语言模型的快速发展,智能问答系统研究与应用受到了学术界和多个行业领域的密切关注。机器阅读理解作为智能问答任务的基础性研究内容,也已在自然语言处理领域开展了较多理论方法研究。如今,桥梁作为重要的交通基础设施,在经济和社会发展中具有举足轻重的地位。因此,面向桥梁管养领域电子文档中的文本数据,研究适应于领域上下文特性及其问答任务场景的机器阅读理解方法,促进桥梁管养领域信息交互智能化创新发展,是迫切需要解决的关键问题并具有显著应用前景。 本文源于上述领域需求,以课题组前期构建的桥梁管养领域文本问答语料为数据源,结合特定领域实际工程场景的少样本约束限制,着力解决桥梁管养领域下少样本机器阅读理解任务的关键问题,并开展了如下研究: (1)以桥梁管养领域文本和智能问答需求为基础,分析了该领域文本及机器阅读理解任务特性。桥梁管养领域文本数据在内容组织、领域专业术语、语法表达等方面具有较强的领域特性。同时,领域文本段落和问题语句中存在大量的专业词汇描述,对模型的上下文理解能力提出较大挑战。此外,面向桥梁管养领域,由于存在一定的数据保密性限制,较难获取互联网级的超大规模无标注语料,很难从头构建适应于该领域特性的预训练语言模型。同时,由于标注语料构建需要领域专家协同,并且需要大量标注人员参与,领域标注语料相对匮乏,对预训练语言模型的领域及任务适应性微调也带来极大挑战。 (2)面向桥梁管养领域少样本约束的实际应用场景,并结合领域文本和任务特性分析,提出了联合自监督进阶训练和启发式Prompt调优的少样本机器阅读理解方法,降低通用领域预训练语言模型与特定领域机器阅读理解任务之间的差异性。该方法首先根据领域上下文和机器阅读理解任务特点定义启发式Prompt模板。然后,使用桥梁管养领域无标注文本数据对通用领域预训练语言模型进行自监督进阶训练,以构建具备一定领域上下文表征能力的进阶训练模型。在进阶训练模型基础上,将桥梁管养领域文本问答语料作为输入,通过问题分类及其后缀识别,匹配相应的启发式Prompt模板。最后,将启发式Prompt模板与文本段落拼接输入进阶训练模型进行微调,以实现领域细粒度信息问答。实验结果表明,基于自监督进阶训练和启发式Prompt的桥梁管养领域少样本机器阅读理解方法具有较好的评测性能,在1024个微调样本数量下,其F1值和EM值分别为86.38%、72.9%。 (3)针对启发式Prompt模板主要借助专家经验进行人工定义,且进阶训练后Prompt 调优模型的领域适应度仍有待提升等问题,提出了一种数据增强预调优的领域少样本机器阅读理解方法,并构建了具备更好领域适应性及任务适应性的领域少样本机器阅读理解模型。该方法首先使用桥梁管养领域无标注文本数据自动生成领域特定问题和相应答案,并结合文本段落构建机器阅读理解任务伪标注数据。然后,基于伪标注数据集对语言模型开展预调优,提升模型的领域适应度和任务适应度。最后,在少样本条件下,使用领域真实文本问答语料对语言模型进行微调。实验表明,所构建的模型性能表现优于其他基线模型,更好的适应于实际应用场景。在1024个微调样本数量下,其F1值和EM值分别为86.42%、74.65%。 综上所述,本文将机器阅读理解研究和桥梁管养领域迫切需求深度融合。基于领域文本及机器阅读理解任务特性分析,分别提出了适应于任务特性的少样本机器阅读理解Prompt调优方法、适应于领域及任务特性的少样本机器阅读理解模型预调优方法,实现了桥梁管养领域机器阅读理解任务在少样本约束下的准确应答,在促进桥梁管养领域信息交互智能化发展的同时,也可为其它垂直领域的少样本机器阅读理解方法研究提供借鉴。 |
作者: | 张露伊 |
专业: | 计算机科学与技术 |
导师: | 李韧 |
授予学位: | 硕士 |
授予学位单位: | 重庆交通大学 |
学位年度: | 2023 |