论文题名: | 面向概念漂移数据流的在线集成分类算法研究与应用 |
关键词: | 概念漂移数据流;在线集成分类算法;数据挖掘;车联网 |
摘要: | 在过去的几十年里,数据挖掘分类算法发展迅速,出现了许许多多性能较好的算法。然而,随着大数据时代的到来,由于数据量的增大,数据的多样性增加以及数据的产生速度加快,这些基于静态数据挖掘的传统分类算法已经很难再保证良好的应用可行性以及较高的分类准确率。因此,针对大数据流,需要提出新的分类算法。本次研究所依赖的车联网项目正是需要这类新的算法。 本文的研究内容是集成分类方法的改进与应用,主要包含三个方面的内容。首先,本文将对现有两类集成方法进行研究,归纳两类集成方法为适应动态数据流所做的努力,并基于这些研究提出改进集成方法的通用策略。然后,基于第一项工作中所提出的改进策略,本文还将对两个典型的集成方法 AUE、OSBoost进行改进。AUE算法作为块集成方法的代表,本次研究将主要考虑将它转变为在线方法。OSBoost作为在线方法的代表,本次研究将主要考虑提升该算法的准确率。最后,本文还将研究如何把现有集成方法应用到实践中去。 本文的主要成果如下: 1、基于现有算法,提出了三种改进集成方法的通用策略。首先,使用增量式赋权机制能够确保模型对最近最新的数据有较高的适应能力。其次,使用自适应分类器作为集成组件能够大幅度提升集成方法对突变型概念漂移的适应能力。最后,概念漂移检测器的使用,使得集成方法能够更精确的识别概念漂移并适应概念漂移。实验表明,这三种策略对集成方法的泛化准确率具有不同程度的提升。 2、基于上一结论,对两种集成方法进行了改进。首先,针对块集成方法AUE,本文通过设计并对比四种改进方案的结果,提出了在线集成算法OAUEAdwin。然后,针对在线方法 OSBoost算法,本文通过增加概念漂移检测器并修改其赋权机制将其改进为OSBoostAdwin算法。实验结果表明,新的算法具有更高的泛化准确率。同时,也再次证明了三种改进策略的可行性。 3、为了探索集成方法的应用可行性,本次研究还基于VRSS平台与MOA平台整合出了实时数据流挖掘平台 VRSS-MOA。基于 VRSS-MOA平台,本文对比了OAUEAdwin算法与OSBoostAdwin算法在车联网项目中对驾驶员驾驶风格分类的学习效果。 |
作者: | 徐加文 |
专业: | 软件工程 |
导师: | 顾小丰 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2016 |
正文语种: | 中文 |