论文题名: | 面向水路基础数据库平台的Lucene全文检索技术研究 |
关键词: | 水路基础数据库平台;Lucene全文检索技术;中文分词;多格式文档;全局跨库 |
摘要: | 二十一世纪是一个信息化、网络化的时代,人们可以时时感受到足不出户就可以进行办公、交友等活动带来的巨大的好处。但在信息数据量膨胀的时代,面对着海量的数据,如何快速的从中查找到有用的的数据,成为信息化数据管理亟待解决的问题。对待从海量数据中快速获取到有意义数据的主要方法就是使用信息检索技术,而为待检索数据创建索引然后对索引进行检索的全文检索技术在对海量数据检索上又有着很大的优势。本文结合需求对全文检索及Lucene全文检索框架进行研究,设计实现了一个面向水路基础数据库平台的Lucene全文检索系统,检索用户可以在检索页面输入检索关键字即可对数据资源进行全文检索。 本文研究全文检索技术所依托的背景系统水路基础数据库平台具有如下特点:1、具有水路运输相关专业性;2、多种数据源(Word文档、PDF文档、Excel文档、数据库记录数据等);3、数据源为中文办公文献资料及数据库记录等。本文对基于Java语言的开源全文检索架构Lucene进行了深入的研究,根据全文检索技术所要应用的系统平台的特点,对Lucene全文检索框架进行功能上的扩充。如Lucene自带的两个中文分析器不能有效的对中文进行切分过滤等处理,所以本文对Lucene自带的中文分析器进行了分析改进以迎合本水路数据全文检索的需求;又如Lucene只能够对文本数据进行解析处理,而待索引的数据多种格式的文档数据,所以本文研究设计了一个对多种常用格式的文档数据解析处理的接口,它可以很好的解决不同格式文档索引问题。再如本文针对水路基础数据库平台的多数据库特点,设计了一个全局跨库数据检索的模块,以整合多数据库数据,实现一点式数据检索,这样的设计大大的减少用户检索数据的复杂度。 本文结合水路基础数据库平台的特点对Lucene全文检索的关键技术进行了深入的研究,并以此为基础进行了详细的分析设计,并对其给予实现。 |
作者: | 丁文雯 |
专业: | 管理科学与工程 |
导师: | 陈燕 |
授予学位: | 硕士 |
授予学位单位: | 大连海事大学 |
学位年度: | 2013 |
正文语种: | 中文 |