当前位置: 首页> 学位论文 >详情
原文传递 基于公交Wi-Fi数据的网络用户行为分析
论文题名: 基于公交Wi-Fi数据的网络用户行为分析
关键词: 公共交通;Wi-Fi数据;用户行为;层次聚类;相似性度量
摘要: 随着智慧城市建设的不断推进,越来越多的企业将日益成熟的Wi-Fi技术与公共交通相结合,力求扩展出面向公交出行的应用及服务。目前国内还没有研究公交Wi-Fi场景下网络用户行为的论文,而通过对公交Wi-Fi网络用户行为数据的分析与挖掘,可以得到用户在公交Wi-Fi场景下上网的主要行为模式,发现公交Wi-Fi网络用户行为的特点,应用于用户差异化服务和广告精准推送,也有利于优化公交Wi-Fi网络规划,提高网络的稳定性等。
  本文的研究依托于中科院深圳先进技术研究院构建公交Wi-Fi大数据平台的项目,属于其中的数据分析挖掘部分,基于搭建的Hadoop平台,致力于通过对公交Wi-Fi网络用户上网时段和访问内容行为数据的挖掘,得到用户主要的行为模式。具体的工作有以下几个方面:
  (1)实现用户上网时段行为模式的挖掘。利用相似性度量的方法分析了实际的用户上网时间数据,发现并验证了公交Wi-Fi网络用户上网时间分布的近相似性。基于此规律,选用层次聚类算法挖掘用户上网时段行为模式。针对层次聚类算法在大数据量情况下计算时间太长的缺点,对层次聚类作了两方面改进:一是基于近相似性的规律对用户进行初步分组,二是在分组内一次合并多个相似单点簇,最后挖掘得到了用户上网时段的4种行为模式。根据实际应用场景,从4个指标对本文改进的算法进行评估,结果表明:本文改进的算法在区分不同模式时段特征的显著性和运行效率方面有明显的优势。
  (2)实现用户访问内容行为模式的挖掘。针对复杂多样的公交Wi-Fi用户上网访问数据给有效处理和表示用户行为信息带来的困难,本文通过截取用户访问URL的二级域名,在对上网访问特征分析的基础上,设计了一种解决思路:根据网站访问人数过滤出对本文有研究价值的网站,采用移动互联网报告中对App的分类方式对过滤出的网站进行分类。并利用真实场景数据验证了此思路的合理性,构建了用户访问内容分析的特征向量。接着基于数据稀疏性和用户兴趣相近似的特点,提出一种基于加权的访问内容行为模式挖掘模型,该模型利用TF-IDF对特征进行加权、SVD对稀疏矩阵进行降维处理,再使用改进的K-means算法挖掘得到了用户访问内容的9种行为模式。从4个指标对本文提出的模型进行评估,证明了其在公交Wi-F i场景下挖掘用户访问内容行为模式的有效性。
  (3)公交Wi-Fi网络用户行为分析系统的设计与实现。设计了该系统的整体框架,并详细介绍了其中的数据接入、数据预处理、数据分析挖掘和数据存储模块。利用可视化方式对系统结果进行了展示,提出了该系统的应用方向。
作者: 徐婷
专业: 信息与通信工程
导师: 杨杰
授予学位: 硕士
授予学位单位: 武汉理工大学
学位年度: 2017
正文语种: 中文
检索历史
应用推荐