论文题名: | 基于Hadoop的滑坡监测数据处理与分析 |
关键词: | 滑坡监测;K-means聚类;分布式计算;数据处理 |
摘要: | 滑坡常常会给当地居民带来巨大的财产损失和生命威胁,对环境、资源也极具破坏性。导致滑坡发生的因素有很多,很难通过对单一因素的分析进行滑坡预测,同时,滑坡监测得到的数据复杂多样,需要专门的人力对数据进行处理。再者,随着物联网技术的飞速发展,通过监测仪器获得的反映监测区域状态的数据量越来越大,数据种类也更多样。在提供更多有价值信息时,也给传统的数据存储与处理的效率带来很大的挑战性。面对数量巨大、类型多样的滑坡监测数据,需要一种新的数据存储方式和高效快速的数据处理方法。 在地质灾害监测领域,传统方法是通过自动量雨站、GPS、三维激光扫描、近景摄影测量等方法将收集到的数据存储在传统关系型数据库中,再通过数据挖掘处理分析监测数据。K-means是一种被广泛应用的一种数据挖掘方法,对其并行化能有效提高计算效率,但在海量数据处理分析条件下的并行计算效率提高上仍需进一步研究。Hadoop平台作为大数据处理技术的关键平台,在面对海量工程数据分布式存储和并行计算上有着独特的优势,被广泛应用。 本文分析滑坡监测数据的典型大数据特征,建立一个完全分布式Hadoop集群系统,通过对收集到的滑坡监测数据进行整理,利用HDFS实现滑坡监测数据的分布式存储,并结合 MapReduce分布式编程模型实现 K-means并行化。主要研究工作有:(1)滑坡监测数据的存储方法研究。分析滑坡监测数据的特点和传统存储模式中存在的缺陷,并设计基于Hadoop的HDFS分布式存储方案,通过HDFS API接口的调用,实现监测数据文件的上传、修改、查看等操作。(2)分布式并行计算算法设计。滑坡监测数据分布式并行处理的实现,结合K-means算法的特点与MapReduce编程模型的计算方式,成功实现K-means算法对滑坡监测数据的并行处理。(3)最后对比K-means串行计算与并行计算时的效率,得到分布式并行计算下的K-means算法计算效率更高。 本文工作为大数据条件下的滑坡监测数据处理分析方法提供了一种新的途径。 |
作者: | 曹彬 |
专业: | 计算机技术 |
导师: | 蒋廷耀 |
授予学位: | 硕士 |
授予学位单位: | 三峡大学 |
学位年度: | 2016 |
正文语种: | 中文 |