论文题名: | 基于面板数据的聚类方法及应用研究 |
关键词: | 面板数据;矩阵表示;时间序列特征;聚类分析;特征提取;交通安全 |
摘要: | 面板数据(panel data)是指若干样本在不同时点上的一个或多个指标观测值构成的数据集,也就是同时包含了截面数据和时间序列数据特征的一种多维数据。面板数据由于其特殊的数据结构,能够充分利用不同时点上各个指标的数据信息,有利于研究者从多角度、多时段掌握更全面的样本信息。大数据时代的到来和学科间的交叉渗透使得面板数据的聚类分析在各学科研究中的应用日益增加,由于经典的聚类方法难以直接应用于面板数据的聚类分析,这方面的研究仍有待深入。本文根据已有研究成果,针对面板数据的特征,对其聚类方法进行了改进与应用研究,总的来说,本文的研究内容包括: (1)在对已有面板数据聚类方法进行总结的基础上,分析了多指标面板数据的矩阵表示形式和时间序列特征,研究了将欧式距离直接应用于面板数据聚类分析时的不足;定义了面板数据的基本统计量,给出了面板数据的标准化处理公式; (2)提出了多指标面板数据的特征提取方法,定义了包括“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征在内的特征值统计量,以这些统计量为基础,衡量了面板数据的聚类对象在指标值、发展趋势、波动程度、分布情况等方面的相似性; (3)将K均值算法与本文定义的特征统计量相结合,构建了基于特征提取的面板数据聚类分析模型,并给出了聚类算法的详细步骤;从类内与类间距离,聚类域内样本距离的标准差两个角度出发,定义了面板数据聚类结果的评价方法; (4)利用本文提出的多指标面板数据聚类模型对全国各省2004年至2013年的交通安全状况进行了聚类分析,最终将31个省划分为5类,分析了每一类地区的特点及指标的演变情况,从主动预防、被动防御、区域合作等角度出发,提出了针对各省份的交通安全改善建议,为国家交通治理及发展规划提供参考。 |
作者: | 侯荻青 |
专业: | 管理科学与工程 |
导师: | 党耀国 |
授予学位: | 硕士 |
授予学位单位: | 南京航空航天大学 |
学位年度: | 2016 |
正文语种: | 中文 |