当前位置: 首页> 学位论文 >详情
原文传递 火车票面信息识别算法研究
论文题名: 火车票面信息识别算法研究
关键词: 火车票;图像识别;文字信息;去噪算法;二值化处理;单字分割;特征提取
摘要: 随着计算机硬件技术及网络技术的更新,图像处理识别得到了很大程度的研究及发展,而人机交互能力也得到了前所未有的改善,其中得到提升最大应用最广的是模式识别技术。而文字识别是其中的重要领域,尤其对我国的汉字识别来说由于起步较晚,而且汉字结构复杂,汉字识别技术相对困难。本文针对火车票上票面信息的识别算法进行研究,识别信息包括数字、字母、汉字,其中主要对汉字识别加以研究。提出有效的处理方案,包括针对火车票的预处理、单子分割、特征提取、单字识别方案。
  本文首先对汉字识别的系统OCR识别进行基本框架和理论知识的介绍,包括OCR技术的发展及现状,以及火车票卧铺换票的现状进行分析,对本文所针对的背景及要解决的问题及研究意义做出阐述后对四个模块分别进行分析以及提出合适的处理方式。
  在预处理阶段,火车票这一票面较为特殊,因为有彩色噪声,因此提出基于色彩空间的去噪算法,为二值化创造有利条件。后对各种二值方式进行分析,结合火车票性质提出合适的二值化处理方式,得到满意结果。之后,因为对火车票来说,我们本次提取的信息是部分不是全部信息,因此对火车票进行版面分析,得到我们所需要的文本块。之后,利用使用最广泛的基于投影法的切分方式来对文本块儿进行单独的字分割。由于火车票印刷质量差,文本信息存在粘连断裂现象,对粗分割后的文本进行精细切分。分离出的文字进行特征提取,因为汉字结构复杂,因此基于汉字的这一特点,选定粗外围特征进行特征提取以及C-均值聚类方式进行特征库建立。之后,对单字识别特征运用外围特征和密度比划特征的方式进行特征提取。最后为了提高效果,对特征空间压缩。最后进行单字识别,分析现有的常用的几种识别方式,提出依靠基于模板和结构的识别算法,利用最近邻法来判决识别结果,之后为了提高识别准确率,增加后处理模块。之后对识别得到的信息进行提取,以文本方式存储起来。
作者: 孔祥倩
专业: 电子与通信工程
导师: 程晓东
授予学位: 硕士
授予学位单位: 内蒙古大学
学位年度: 2018
正文语种: 中文
检索历史
应用推荐