摘要: |
随着中国移动短信业务的迅猛增长,用短信对数据库中的信息进行查询已经成为一种十分便利的信息查询方式。但现在大部分短信查询系统都要求用户按照规定的格式编写短信,这给用户的查询带来了许多不便。数据库自然语言查询系统可以使用自然语言灵活的编写短信,但自然语言理解方面遇到的困难使得中文自然语言短信查询系统迟迟未能达到实用水平。因此,研究中文自然语言查询短信的理解方法,对数据库中文查询系统的早日实用化有着十分积极的作用。本文根据中文查询短信的特点,提出了基于领域知识的中文短信理解方法,具体的工作内容包括如下几点:
1.词法分析方面,针对铁路票务领域查询句中词汇的特点,对词汇进行重新划分,构造了具有领域特征的分词词典。在分词词典的基础上,应用逆向最大匹配算法,完成对中文查询句的切分。
2.句法分析中,通过对查询句中查询目标和查询条件详细的分析,设计了能够覆盖铁路票务领域内大部分查询问句的语义文法。提出了图结构自顶向下分析算法同数据库语义相结合的方法,以此来完成句子结构的分析和句法成分数据库语义的获得。
3.在SQL命令的生成中,提出把具有数据库语义的语法树作为自然语言向SQL查询命令转化的中间形式,通过深度优先搜索算法搜索语法树,提取语法树中相应结点的信息,完成SQL查询命令的构造。
4.问答句生成方面,根据不同的的查询目标设计出相应的问答句模版,通过查询结果与问答句模版的组合形成问答句。
本文在总结了其它数据库中文查询句的理解方法后,针对铁路票务领域内的数据库中文查询问句提出了一套切实可行的理解方法,这一理解方法不仅适用于铁路票务领域内的数据库中文查询句,同时,也为其它领域中中文查询句的理解提供了一种思路。 |