摘要: |
自主式交通系统(ATS)的重要组成部分是参与主体,参与主体的信息通常依靠文本进行描述。为构建自主式交通知识图谱,需要从文本中准确地识别出大量参与主体。为此,研究了基于BERT-Bi-LSTM-CRF模型的实体识别方法,对自主式交通系统参与主体进行抽取。词嵌入模型BERT为预训练语言模型,用以捕获丰富的语义特征,将捕获的语义特征输入到双向长短时记忆神经网络(Bi-LSTM)模型中提取上下文双向序列信息,经条件随机场(CRF)处理得到最优序列预测结果。收集交通专业相关的原始语料,经过数据预处理与文本标注,形成了可用于自主式交通系统参与主体识别的语料库,基于此数据开展实体识别对比实验。结果证明:BERT模型显著提升了自主式交通系统参与主体识别任务的性能。相较于传统方法CNN-LSTM或Bi-LSTM等,所提方法可以得到最佳综合识别效果,各实体的综合F1值为86.81%,表明通过BERT模型提取参与主体的语义特征,可以增强识别方法的泛化能力。“使用者”“运营者”“提供者”“规划者”“维护者”类实体的F1值分别为90.35%,92.31%,90.48%,93.33%,95.00%。验证了所提方法识别自主式交通系统参与主体的有效性。 |