当前位置: 首页> 学位论文 >详情
原文传递 公共交通一站式数据中台构建与应用
论文题名: 公共交通一站式数据中台构建与应用
关键词: 公共交通;一站式数据中台;架构设计;功能模块
摘要: 随着城市智能化程度的推进,海量出行数据潜在价值急需挖掘开发,数据逐渐成为企业的重要资产,是赋能业务和推动产品创新的核心动力。以往由于缺乏整体战略性规划,导致数据在集成及使用上存在数据孤岛现象。其次,数据统计口径不一、数据标准不同等数据问题不断涌现,这些问题的存在使得后台系统无法快速响应前台业务,驱动业务创新与变革。数据中台将数据集中汇聚进行处理,构建可复用的共性能力和可共享的数据资产,从战略层面对数据进行管理,使数据真正成为企业资产。本文设计了公共交通一站式数据中台架构,利用其所提供的数据中台能力,基于深圳通刷卡数据实现数据全链路服务应用,最后针对性地对数据生成服务以及数据采集功能服务进行测试。通过从小场景高价值的数据集(即深圳通刷卡数据)入手,将数据中台能力应用于实际当中,快速验证了数据价值和数据中台能力。论文主要内容如下:
  (1)分析公共交通一站式数据中台功能需求和性能需求。基于功能需求和性能需求,软件选择上以Apache大数据生态开源软件为主,结合业内常用的一些大数据框架组件为辅,进行公共交通一站式数据中台整体架构设计。其整体基于数据平台能力、数据治理、数据挖掘与分析和数据服务应用四部分来进行设计,通过分层明确责任分工,使建设步骤清晰化和功能具体化,为业界提供了一种架构参考方案。
  (2)基于深圳通刷卡数据构建了数据全链路服务应用。在功能模块上,实现五个功能模块,分别是数据采集模块、离线数据分析模块、实时数据分析模块、数据治理模块和数据服务模块;围绕这五个功能模块,建立一站式数据全链路服务。在技术选用上,数据采集模块采用Flume实现多节点数据采集和汇总;离线数据分析模块采用HDFS+Spark+Hive实现数据仓库分层模型构建和数据分析;实时数据分析模块采用Kafka+Spark Structured Streaming实现实时数据指标计算;数据治理模块采用Atlas进行数据血缘构建;数据服务模块采用Ganglia监控Flume、Kafka-Eagle监控Kafka、DBeaver对Hive及MySQL进行离线/实时视图查询、Presto和Kylin进行即席查询以及DataEase进行数据可视化大屏设计与实现。在架构设计上,本应用采用Lambda架构,通过流批分离处理实现复杂性隔离。整体框架设计具备一定容错性和鲁棒性,可较好展示一站式数据中台数据服务能力。
  (3)搭建数据中台测试环境并对相关功能进行测试,规划集群硬件环境和服务器各角色服务分配,在其上搭建软件服务,使其拥有通用平台服务能力,针对性地测试数据生成服务以及数据采集功能服务。
作者: 林泽嘉
专业: 控制工程
导师: 谢胜利;谢振东
授予学位: 硕士
授予学位单位: 广东工业大学
学位年度: 2022
检索历史
应用推荐