题名: | 面向演化数据的代表性记录构建方法 |
正文语种: | 中文 |
作者: | 高广尚 |
作者单位: | 桂林理工大学商学院 |
关键词: | 近似重复记录;演化数据;代表性记录;实体解析 |
摘要: | 对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。论文首先分析记录之间的相似合并策略,具体包括记录间相似性策略、记录间合并策略和相似与合并组合策略,然后给出代表性记录的基本定义,并分析成为最佳代表性记录的先决条件,接着探讨面向演化数据的代表性记录构建方法,该方法首先在静态数据上利用匹配函数、合并函数生成代表性记录,然后在演化数据到来时基于出现操作及演化记录来有效更新先前生成的代表性记录集,最后通过实验和数据分析验证提出的方法。实验结果显示,提出的方法在静态数据上比传统方法更能提高生成质量,且在演化数据上具有良好的增量更新性能,最终保证提出的方法在演化数据环境下整体上的可行性和高效性。提出的方法不仅能有助于解决多源数据演化环境下的代表性记录高效构建问题,而且具有较好的稳定性和通用性,能适合诸多实际领域,因为它能适用于任何类型的相似性度量函数。 |
期刊名称: | 系统工程 |
出版年: | 2022 |
期: | 03 |
页码: | 137-148 |