当前位置: 首页> 学位论文 >详情
原文传递 基于HBase的交通大数据查询优化研究
论文题名: 基于HBase的交通大数据查询优化研究
关键词: 交通大数据;Hadoop云平台;HBase数据库;SQL解析;参数调优
摘要: 随着交通数据量的爆炸式增长,传统的交通数据处理手段在处理PB级的交通数据量时效率低下,云计算技术的出现为解决这个问题提供了方向。
  交通云将交通大数据和Hadoop云平台结合起来,利用Hadoop的非关系型数据库HBase实现对交通大数据的处理。HBase采用横向扩展的方式,通过多台廉价服务器实现海量数据的存储,并且具有高可靠性和高稳定性的特点。
  首先,提出了基于HBase的交通大数据存储方案。传统的关系型数据在存储交通大数据时存在容量小和效率低的问题,而且交通数据访问具有随机性的特点,为此选择交互式访问效率较高的HBase的进行交通数据存储。同时,为了提高HBase存储效率和访问速度,通过对历史交通数据的调研分析,构建特定行键的HBase表格,并且在HBase仅有的主键查询的基础上增加特定的二级索引,提高查询的速度。
  其次,提出了基于Phoenix on HBase的查询SQL查询方案。原生HBase不支持SQL查询,只能通过特定行键或者全局扫描的方式获取数据。面对无法识别标准SQL语句的HBase数据库时,很难满足用户习以为常的标准的SQL查询习惯,为此采用Phoenix实现SQL解析,将SQL语句转换成适合HBase执行的语句,不仅方便HBase的使用而且提高了查询效率。
  最后,提出了基于机器学习的HBase自动调参方案。HBase配置参数作为HBase集群工作过程中分配资源的依据,直接决定HBase集群性能的好坏。HBase具有高达200个配置参数,而默认配置往往性能低下,一般在面对如此多参数的时候,大部分的开发者都会根据自己的实际经验手动配置,但是这样往往比较耗时而且不是全局最优。为此采用机器学习算法,通过随机森林算法建立关于配置参数的性能模型,并且采用遗传算法快速找出性能最优的配置参数,这样能最快速的以最大的概率找到最优配置参数。
  通过采用HBase进行系统的设计和实现,进而对系统中的查询进行优化,以及对系统的整体查询性能进行测试,结果表明采用HBase处理交通大数据具有高可靠和速度快的特点。
作者: 苏旭博
专业: 电子与通信工程
导师: 王全宇;王洋
授予学位: 硕士
授予学位单位: 兰州交通大学
学位年度: 2018
正文语种: 中文
检索历史
应用推荐