论文题名: | 基于均值聚类的交通事故因素挖掘及预测模型研究 |
关键词: | 交通事故分析;均值聚类;数据挖掘;数据预测 |
摘要: | 近年来,随着社会经济的快速发展,作为基础产业的道路运输业日益发展壮大,基础交通设施投资不断增加,高速公路、普通道路和城市道路建设速度加快,与此同时,道路交通事故率逐渐攀升,交通安全成为当下亟待解决的问题。道路交通事故具有复杂性和多样性的特点,事故成因往往是多方面的,与人、车、环境、道路等众多因素都有着直接或间接的关联,将事故原因全部归结为驾驶员的个人责任是不严谨的。伴随着大数据时代的兴起,数据挖掘技术和机器学习等方法开始被应用到交通事故分析中,充分利用事故数据探寻事故背后隐藏的规律并建立科学的事故预测模型对改善交通安全问题具有重大意义。本文进行的主要工作如下: 1. 在交通事故因素挖掘方面,本文针对关联规则算法中 Apriori 算法在面对较大数据集时效率低下的问题,从算法迭代搜索数据库的次数着手,通过加入候选项集计数器,对Apriori算法进行了局部优化。将传统Apriori算法在剪枝阶段需要多次遍历数据库来筛选频繁项集的方式转变为仅需遍历一次数据库即可确定出频繁项集。通过设计仿真实验与多种关联规则算法进行对比,实验结果证明优化后的 Apriori 算法在支持度阈值较低,数据量较大的情况下有更高的挖掘效率。针对面向交通事故的关联分析中关联结果清晰性弱的问题,利用聚类算法良好的聚类性能,将K-means聚类算法和优化后的Apriori算法串行组合,首先采用K-means 聚类算法对原始事故数据进行分级聚类,划分出轻微事故、严重事故和重大事故三种事故等级,然后使用优化后的 Apriori 算法对各等级事故分别进行关联分析,挖掘出各等级事故中的强关联规则。通过实验和原关联规则算法相比,基于聚类的关联规则算法能够更清晰直观地挖掘出事故严重程度和各因素之间的关系。 2. 在事故预测模型研究中,采用遗传算法(Genetic Algorithm)改善传统BP(Back Propagation)神经网络的缺陷,构建GA-BP模型。传统BP神经网络由于网络中初始权值和阈值具有随机性的特点,比较容易陷入局部最优解。本文根据阅读文献发现遗传算法具有优异的全局寻优能力,使用遗传算法对 BP 神经网络初始参数进行迭代寻优,计算出最优的权值和阈值输入到 BP 神经网络中,通过仿真实验验证了GA优化的有效性,为下文组合模型的构造建立了基础。本文在实验的过程中发现,在单一模型的预测结果上,GA-BP 模型对负样本有着较高的准确率,而支持向量机(Support Vector Machine, SVM)模型对正样本有着较高的准确率,因此,本文将 GA-BP 模型和 SVM 模型并行组合构建交通事故预测模型,使二者优势互补,通过给这两种模型分配不同的权重输出预测结果。实验结果表明,组合模型的各项性能指标均比较良好,在整体预测准确率上高于单一模型。 |
作者: | 牛子文 |
专业: | 计算机技术 |
导师: | 张海朝;马大林 |
授予学位: | 硕士 |
授予学位单位: | 河南科技大学 |
学位年度: | 2022 |