论文题名: | 滴滴出行数据实时分析引擎设计与实现 |
关键词: | 滴滴出行;实时分析引擎;批量数据流;云计算;数据库设计 |
摘要: | 随着云计算和大数据的高速发展,Hadoop和Spark等批量数据处理的平台也就孕育而生。需要先存储再计算的批量处理系统,处理请求有很高的响应延时。但是,由于业务的需求,实时分析也逐渐被提上日程。虽然现在已经有了Storm、Samza和Spark Streaming等流式计算系统,但是由于很多公司针对特定的业务场景各自为政地使用这些系统,因此,就需要一个统一的实时分析引擎,来统一处理各种处理过的或者未处理过的流式数据。 实时分析引擎是为滴滴出行数据量身定制的一个系统。该系统采用Java语言开发,以Kafka、HBase、QDB和RedHat为开发环境。首先,对系统进行需求分析,并给出用例图。其次,给出系统的总体架构设计,包括系统层次结构设计和系统模块划分,其中,系统包括四个模块:数据收集模块、数据分析模块、数据存储模块、数据访问模块。再次,分别对系统的四个模块进行详细设计和介绍,包括每个模块的结构设计、功能实现,和每个模块的流程图,以及数据库表的设计。最后,是对整个系统的测试,包括功能性测试,以及采用JMeter进行性能测试和压力测试,验证系统功能是否符合需求预期的目的。 系统通过Kafka可以接受来自Storm、Samza和Spark Streaming等流式计算系统的数据,实现公司内部的通用性,同时也整合了资源,极大地降低了重复开发的人力和物力消耗。 |
作者: | 王志明 |
专业: | 软件工程 |
导师: | 覃中平 |
授予学位: | 硕士 |
授予学位单位: | 华中科技大学 |
学位年度: | 2016 |
正文语种: | 中文 |