当前位置: 首页> 学位论文 >详情
原文传递 基于Hadoop的车联网数据存储策略研究与优化
论文题名: 基于Hadoop的车联网数据存储策略研究与优化
关键词: 车联网;数据存储;Hadoop框架;云计算
摘要: 车联网系统能极大的改善城市的交通状况,但是它会产生大量的数据,如何存储海量的车联网数据成了一项艰巨的挑战,而云计算可以提供海量的存储。Hadoop是一个开源的云计算框架,也是目前应用最广的云计算平台,Hadoop上所有的数据都存储在HDFS上,对于HDFS的优化得到越来越多的研究者的重视。但HDFS的存储策略存在一些缺陷,如数据副本个数固定和选择节点时没有考虑到节点的实际运行情况,造成数据分布不均匀和节点负载不均衡等问题。本文针对上述问题展开研究,提出了ART存储策略来改进 HDFS的存储性能,ART存储策略包括区域划分算法、动态数据副本算法和基于代价的节点选择算法。
  在区域划分算法中,根据节点的性能和对服务的响应质量,将HDFS中的DataNodes划分成High-Zone和Low-Zone两个区域,High-Zone中的节点具有较高的剩余性能,存储数据时应该优先选择处于该区域的中节点。为了完成区域划分算法,本文定义了节点性能和节点负载的计算方法,引入了数据访问频度,同时也为后续的改进打下基础。动态数据副本在保证数据有效性的前提下,综合集群中数据节点的失效率和数据的访问频度,动态的计算每个文件应该保存的副本个数,该算法既减少了数据冗余,又能保证数据读取的性能。基于代价的节点选择算法改进了HDFS在选择节点时的随机性,定义了节点间数据的传输代价,结合节点的实际性能和负载,设计了选择某个节点的代价的计算方法。在选择节点时,通过计算节点的代价找出最适合存储数据的节点。
  实验部分,分别存储热点数据和非热点数据验证了区域划分算法的有效性。通过数据冗余和对热点数据的响应时间验证了动态数据副本个数算法的有效性,通过数据存储时间验证了基于代价的节点选择算法的有效性。最后通过平均响应时间和节点相对负载验证了ART存储策略确实提高了集群的性能,印证了本文思路的可行性。
作者: 曹肖永
专业: 计算机科学与技术
导师: 夏松竹
授予学位: 硕士
授予学位单位: 哈尔滨工程大学
学位年度: 2015
正文语种: 中文
检索历史
应用推荐