论文题名: | 基于大数据组件的铁路供电监控信息压缩存取研究 |
关键词: | 铁路运输;供电监控系统;信息压缩存取;HQL连接查询;大数据组件 |
摘要: | 铁路供电系统是铁路运输的重要装备,担负着为电力机车和动车组、沿途车站、通信、照明、信号灯和闭塞装置等设备供电的重任,其安全可靠供电直接关系到铁路运输的安全,故为保障其安全供电,铁路部门装设了铁路供电监控系统。由于铁路牵引供电系统是一种典型的动态电网络,其机车负荷又是大功率的冲击性负荷,且具有波动幅度大、变化快等特点,加之高速动车组的运行速度快、开行密度大,加剧了铁路电网电压、电流等运行参数的变化,被控端将采集到大批量现场实时数据信息上传至调度中心,调度监控系统需要对这些信息进行不断地存取处理,长期运行将产生海量信息。而目前监控系统的数据存储平台大多基于关系数据库,存取容量一般限制在TB级,面对快速增长、动态、海量的监测数据,其装载和查询性能较差,如果直接对这些海量数据进行存取操作,系统的响应速度慢、甚至死机,容易使信息延迟,不仅影响系统实时性,严重时甚至造成关键信息的迟报或漏报,导致报警延迟或消失,直接威胁供电安全,已无法满足持续增长的海量数据存储与处理需求。因此,如何快速存储和处理海量监控数据,是一个需要迫切解决的关键问题。 本文针对铁路供电监控系统中海量监控信息的存储与查询困难的问题,融合Hadoop、Hive和Impala的云计算大数据组件,构建铁路供电调度监控云计算集群,以北京动车段10kV电力远动监控系统为算例,进行了调度监控数据的分布式Map压缩存储研究、HQL连接查询优化研究和Impala快速查询研究,实现海量监控数据的高效压缩存储与快速查询。研究结果表明:1)监控数据采用分布式Map压缩后,既可明显加快压缩导入速度,又可大幅减小数据体量,同时对查询几乎无影响,其中Map_Gzip、Map_Deflate、Map_Snappy、Map_LZO格式反而加快了查询速度,为解决海量监控数据的存取问题提供了新的解决思路;2)HQL连接查询的混洗阶段采用分布式Map压缩后查询耗时明显减少,其中,分布式Map的Map_LZO及Map_Snappy格式效果最好,在记录大于2.0×107条时相比混洗阶段未压缩而直接查询的时间大幅降低,减少了31.6%;3)Impala加载铁路供电监控大数据速度远超关系库,查询性能也远胜关系库和Hive,即使是千万级的记录,也能在百毫秒级完成,查询性能提高约3个数量级,具有良好的交互性,对于铁路供电监控大数据的快速查询具有一定的实用价值。 |
作者: | 陈鼎龙 |
专业: | 电气工程 |
导师: | 屈志坚 |
授予学位: | 硕士 |
授予学位单位: | 华东交通大学 |
学位年度: | 2017 |
正文语种: | 中文 |