当前位置: 首页> 学位论文 >详情
原文传递 面向航运领域的文本分类系统
论文题名: 面向航运领域的文本分类系统
关键词: 文本分类系统;航运领域文献;语料库;特征选择;分类系统;航运信息资源建设
摘要: 目前世界上许多国家已开始着手数字文献的整理与永久保存工作,研究和探讨数字文献的开放获取与共享、知识库的领域专业化和图书馆的数字化等数字资源建设问题。在我国航运信息文献库的建设和维护过程中,同样面临航运专业文献尤其是网络文献人工分类的精度低、时效性差和代价高等严重问题,必须借助自动分类技术加以解决。
   本文在描述文本自动分类常用技术方法的基础上,通过深入研究文本分类技术及相关算法,包括分词、特征提取、训练、性能评估等几个主要部分内容,针对航运领域的文献特点,开展了面向航运领域文本分类系统的需求分析和总体设计。构建了用于对航运领域专业文献进行文本分类所使用的语料库以及必要的航运专业文献的分类体系,并完成了对语料库中文本的预处理工作。进而,在系统中采用五种文本分类方法,实现了对航运领域专业文献大规模真实文本的文本自动分类工作,并进行了实验验证和结果分析。分类中实现的算法包括最邻近、朴素贝叶斯、支持向量机、决策树和类中心分类五种常用的文本分类方法。通过列举大量的实验数据,分析出了各分类器在不同类别样本上分类能力的差异性。建立面向航运领域的中英文文本分类系统,能够极大地推动我国航运信息资源建设进程,带动相关领域信息资源建设的迅速发展,具有重要社会意义和科学研究价值。
   通过实验分别对以上算法进行了评测和比较,得到了相关参数的经验值,实验数据可用于航运领域文献的信息检索、信息过滤、图书馆文献分类等研究中。
  
作者: 王询
专业: 计算机技术
导师: 鲁明羽
授予学位: 硕士
授予学位单位: 大连海事大学
学位年度: 2011
正文语种: 中文
检索历史
应用推荐