当前位置: 首页> 交通专利数据库 >详情
原文传递 一种基于文本匹配的港口检索方法
专利名称: 一种基于文本匹配的港口检索方法
摘要: 本发明公开了一种基于文本匹配的港口检索方法,其特征在于,包括以下步骤:S1.数据预处理:获取用户原始文本,通过设置的停用词字典/基于业务的规则,去除包括乱码、标点、异常字符在内的脏数据,得到文本数据;S2.文本数据向量化:将词序列(短语或句子)通过神经网络映射为一个嵌入向量,通过适合的DNN学习,得到更好的编码词及其上下文的语义信息。本发明中,结合NLP技术对用户输入信息进行匹配,其中含有注意力机制的RNN模型综合考虑了所有生成的中间状态向量,通过一个额外的注意力网络生成最终的向量表达,将用户查询和基准港口通过网络映射为最终的表达向量后计算距离,从而提高港口检索的效率和检索内容点击准确率。
专利类型: 发明专利
国家地区组织代码: 江苏;32
申请人: 运去哪(南京)供应链管理有限公司
发明人: 周星杰
专利状态: 有效
申请日期: 2022-09-21T00:00:00+0800
发布日期: 2022-12-30T00:00:00+0800
申请号: CN202211151259.7
公开号: CN115544228A
代理机构: 北京和联顺知识产权代理有限公司
代理人: 余王敏
分类号: G06F16/332;G06F16/953;G06N3/04;G06N3/08;G;G06;G06F;G06N;G06F16;G06N3;G06F16/332;G06F16/953;G06N3/04;G06N3/08
申请人地址: 210000 江苏省南京市秦淮区光华东街1号3-302室
主权项: 1.一种基于文本匹配的港口检索方法,其特征在于,包括以下步骤: S1.数据预处理:获取用户原始文本,通过设置的停用词字典/基于业务的规则,去除包括乱码、标点、异常字符在内的脏数据,得到文本数据; S2.文本数据向量化:将词序列(短语或句子)通过神经网络映射为一个嵌入向量,通过适合的DNN学习,得到更好的编码词及其上下文的语义信息,使得近义词有相似的嵌入向量,语义不同的词,经过映射后,得到不同的表达向量; S3.特征处理:为提升计算效率,降低用户搜索匹配的信息数,对用户输入地址提取特征,国家/省份/,建立了8种港口输入表达模式,分别是:五字码,英文名,中文名,中文名+国家ID,英文名+国家ID,英文名+省份ID,中文名+省份ID,省份ID+英文名,同时维护基准库港口TEU量信息; S4.相似度计算:使用余弦距离计算两个向量之间的距离,返回得分最高的港口信息,分数相同则根据步骤S3获取到的不同港口TEU量,取量大的热门港口。 2.根据权利要求1所述的一种基于文本匹配的港口检索方法,其特征在于,所述步骤S2中通过构建含有注意力机制的RNN模型对DNN的网络权值进行优化:首先通过两个DNN分别将用户查询和基准港口映射为两个具有相同维数的向量,这两个DNN具有相同的结果,但有不同的网络权值,其中DNN为编码器;然后基于用户正确点击的代价函数,用以指导编码器网络权值的学习,即通过优化算法调整编码器的网络权值,使得其对应的代价函数值最优化。
检索历史
应用推荐