题名: | 基于聚类分析算法的铁路通信设备厂商信息智能分类 |
正文语种: | 中文 |
作者: | 赵颖 王华伟 |
作者单位: | 中国铁道科学研究院集团有限公司 电子计算技术研究所,北京100081 |
关键词: | 聚类分析 相似度 TF-IDF 分类 |
摘要: | 针对铁路通信大数据平台中设备厂商信息不规范的问题,提出一种采用聚类分析算法对厂商信息智能分类的方法,介绍聚类分析算法、相似度计算方法和聚类性能度量等理论,通过分词处理、构建词袋模型、权值转换等数据预处理技术,将文本转换为适合分类的权值向量,采用K-均值聚类、层次聚类算法分别对部分样本进行聚类分析,比较测试结果,最终选择层次聚类算法对所有样本进行聚类分析。该算法可以将不规范的厂商信息进行合理的分类,从而为形成厂商信息字典提供数据支持。 |
会议日期: | 20180705 |
会议举办地点: | 北京 |
会议名称: | 智能高铁发展暨京津城际铁路开通十周年年论坛 |
出版日期: | 2018-07-05 |
母体文献: | 智能高铁发展暨京津城际铁路开通十周年年论坛论文集 |
分类号: | U285 TP39 |