详情

当前位置：首页> 交通专利数据库 >详情

原文传递一种基于文本匹配的港口检索方法

专利名称：	一种基于文本匹配的港口检索方法
摘要：	本发明公开了一种基于文本匹配的港口检索方法，其特征在于，包括以下步骤：S1.数据预处理：获取用户原始文本，通过设置的停用词字典/基于业务的规则，去除包括乱码、标点、异常字符在内的脏数据，得到文本数据；S2.文本数据向量化：将词序列(短语或句子)通过神经网络映射为一个嵌入向量，通过适合的DNN学习，得到更好的编码词及其上下文的语义信息。本发明中，结合NLP技术对用户输入信息进行匹配，其中含有注意力机制的RNN模型综合考虑了所有生成的中间状态向量，通过一个额外的注意力网络生成最终的向量表达，将用户查询和基准港口通过网络映射为最终的表达向量后计算距离，从而提高港口检索的效率和检索内容点击准确率。
专利类型：	发明专利
国家地区组织代码：	江苏;32
申请人：	运去哪(南京)供应链管理有限公司
发明人：	周星杰
专利状态：	有效
申请日期：	2022-09-21T00:00:00+0800
发布日期：	2022-12-30T00:00:00+0800
申请号：	CN202211151259.7
公开号：	CN115544228A
代理机构：	北京和联顺知识产权代理有限公司
代理人：	余王敏
分类号：	G06F16/332;G06F16/953;G06N3/04;G06N3/08;G;G06;G06F;G06N;G06F16;G06N3;G06F16/332;G06F16/953;G06N3/04;G06N3/08
申请人地址：	210000 江苏省南京市秦淮区光华东街1号3-302室
主权项：	1.一种基于文本匹配的港口检索方法，其特征在于，包括以下步骤： S1.数据预处理：获取用户原始文本，通过设置的停用词字典/基于业务的规则，去除包括乱码、标点、异常字符在内的脏数据，得到文本数据； S2.文本数据向量化：将词序列(短语或句子)通过神经网络映射为一个嵌入向量，通过适合的DNN学习，得到更好的编码词及其上下文的语义信息，使得近义词有相似的嵌入向量，语义不同的词，经过映射后，得到不同的表达向量； S3.特征处理：为提升计算效率，降低用户搜索匹配的信息数，对用户输入地址提取特征，国家/省份/，建立了8种港口输入表达模式，分别是：五字码，英文名，中文名，中文名+国家ID,英文名+国家ID,英文名+省份ID，中文名+省份ID，省份ID+英文名，同时维护基准库港口TEU量信息； S4.相似度计算：使用余弦距离计算两个向量之间的距离，返回得分最高的港口信息，分数相同则根据步骤S3获取到的不同港口TEU量，取量大的热门港口。 2.根据权利要求1所述的一种基于文本匹配的港口检索方法，其特征在于，所述步骤S2中通过构建含有注意力机制的RNN模型对DNN的网络权值进行优化：首先通过两个DNN分别将用户查询和基准港口映射为两个具有相同维数的向量，这两个DNN具有相同的结果，但有不同的网络权值，其中DNN为编码器；然后基于用户正确点击的代价函数，用以指导编码器网络权值的学习，即通过优化算法调整编码器的网络权值，使得其对应的代价函数值最优化。

相关文献

检索历史

应用推荐