当前位置: 首页> 交通中文期刊数据库 >详情
原文传递 基于规则的海事自由文本信息抽取方法研究
题名: 基于规则的海事自由文本信息抽取方法研究
正文语种: 中文
作者: 余晨;毛喆;高嵩;
关键词: 信息抽取;海事自由文本;自定义词库;抽取规则
摘要: 海事数据的结构化处理是海事安全研究的一个重要步骤。目前,网络上存在着大量的海事相关信息,但多为不同格式的非结构化文档数据,可以采用一种基于规则的海事信息抽取方法,将海事自由文本转化为结构化的数据。通过网络爬虫从海事相关网页中得到待抽取文本数据,根据得到的文本信息定义抽取任务为时间、地点、船名和事故类型4个数据项,再根据抽取任务本身及其常见触发词构建自定义海事词库,用于自由文本的分词和词性标注;通过对大量事故语料的分析总结,编制抽取规则进行海事信息的抽取,形成结构化的海事数据。以长江海事局网站的事故详情为数
期刊名称: 交通信息与安全
出版年: 2017
期: 02
页码: 40-47
检索历史
应用推荐