论文题名: | 交通事故因素与事故等级的关联性分析 |
关键词: | 交通事故;严重等级;关联性分析;贝叶斯岭回归算法;信息增益;卡方检验;决策树算法 |
摘要: | 以交通事故严重等级与事故因素之间存在的潜在联系为研究问题,以某市2011年至2015年的交通事故记录为研究对象。研究工作首先去除了交通事故数据中的噪音,并对缺失数据进行了填补;其次对每个事故因素与事故等级之间的关联程度进行了度量,在度量的结果上获取到与事故等级较强关联的事故因素;最后对事故因素组合与事故等级之间存在的关联关系进行了决策分析,提取出不同等级事故发生的事故因素规则。论文主要内容如下: (1)提出了基于贝叶斯岭回归算法填补交通事故数据中缺失值的方法。算法发掘已知数据之间的联系来对缺失值进行估计,在测试集上填补缺失值的准确度为79%,因此采用该算法填补缺失值可以较好的反映数据的信息,由此获得了完整数据集。 (2)提出了基于信息增益和卡方检验的单事故因素与事故等级关联程度的度量方法。分别采用基于信息增益的方法和卡方检验方法量化单事故因素与事故等级两个变量间的关联程度,并采用聚类方法对两种方法的量化结果分别进行聚类,从100个事故因素中得到五个与事故等级关联程度较强的事故因素,通过对比得出两种聚类结果具有一致性,从而进一步验证了所选事故因素与事故等级之间关联性挖掘的正确性。 (3)提出了基于决策树算法的事故因素组合与事故等级关联性的决策模型。将得到的主要事故因素与事故等级组成的数据集划分为训练集和测试集分别用来训练和评估模型,根据得到的决策树结果统计各结点表示的事故因素中不同取值的占比,通过组合占比较大的取值得到导致各等级事故发生的事故因素规则。 经过干扰因素的滤除和模型训练最终得到在测试集上准确度均高于79%的四个决策树模型,并根据决策树结果获取到:血液酒精含量、路口路段类型为导致高等级事故发生的两个主要因素,以及12个造成不同等级事故发生的事故因素规则。根据实验结果可以为交通管理部门降低各等级事故的发生提供参考性意见。 |
作者: | 安宁 |
专业: | 计算机技术 |
导师: | 袁绍欣 |
授予学位: | 硕士 |
授予学位单位: | 长安大学 |
学位年度: | 2021 |