题名: | 基于规则的海事自由文本信息抽取方法研究 |
正文语种: | 中文 |
作者: | 余晨;毛喆;高嵩; |
关键词: | 信息抽取;海事自由文本;自定义词库;抽取规则 |
摘要: | 海事数据的结构化处理是海事安全研究的一个重要步骤。目前,网络上存在着大量的海事相关信息,但多为不同格式的非结构化文档数据,可以采用一种基于规则的海事信息抽取方法,将海事自由文本转化为结构化的数据。通过网络爬虫从海事相关网页中得到待抽取文本数据,根据得到的文本信息定义抽取任务为时间、地点、船名和事故类型4个数据项,再根据抽取任务本身及其常见触发词构建自定义海事词库,用于自由文本的分词和词性标注;通过对大量事故语料的分析总结,编制抽取规则进行海事信息的抽取,形成结构化的海事数据。以长江海事局网站的事故详情为数 |
期刊名称: | 交通信息与安全 |
出版年: | 2017 |
期: | 02 |
页码: | 40-47 |