摘要: |
为实现从自然语言描述的交通事故文本中提取应急处置信息,提出了一种基于预训练模型和BiLSTM-CRF的交通事故命名实体识别方法。首先,基于陕西省高速公路2021年6月至2022年8月的多模态交通事故数据,分别比较了3种深度学习模型的识别效果和训练时长。其次,利用官方微博交通事故语料作为袋外测试集,检验实体识别模型的鲁棒性。然后,从一致性和丰富性两个维度,构建了文本信息和结构化数据的多模态交通事故信息内容评价指标。最后,以测试集为例进行交通事故信息识别,分析了应急处置实体数量与事故持续时间的相关性,计算并探讨了信息内容评价指标结果。结果表明,BERT-BiLSTM-CRF在测试集和袋外测试集的加权F1值分别为97.029 4%和69.155 5%,为模型精度、训练效率和鲁棒性3个方面综合表现最优。处置机构、处置设备、未处置、处置中、处置效果的实体数量与持续时间之间的相关系数依次为0.309,0.151,0.137,0.220和0.178,呈正相关性。天气、路产损失、交通分流、事故类型和伤亡情况的信息内容一致性依次为7.06%,45.79%,1.59%,67.65%和47.59%,应急处置占为36%,变异性为1.305,说明文本信息蕴含丰富的应急处置信息,然而文本信息和结构化数据对同一交通事故的信息内容一致性尚待提高。研究结果可为提高交通事故信息采集质量和有效性提供参考。 |