华北电力大学宋亚奇等:云平台下输变电设备状态监测大数据处理研究
计算性能是制约电力大数据应用的关键。利用计算机、互联网领域现有大数据处理技术提升输变电设备状态评价的广度和深度,并解决实际应用问题成为电力行业新的挑战。本文基于Hadoop技术对海量输变电设备状态监测数据的存储策略和并行分析方法进行研究。...
点击标题下「中国电机工程学报」即可关注本刊微信
提示新增功能:点击文章底部左下角“ 阅读原文”可在手机端查看论文全文啦!点击右下角“写留言”可对论文进行评论。
[/b]
云平台下输变电设备状态监测大数据存储优化与并行处理
宋亚奇, 周国亮, 朱永利, 李莉, 王刘旺, 王德文
DOI:
10.13334/j.0258-8013.pcsee.2015.02.001
DOI:
10.13334/j.0258-8013.pcsee.2015.02.001
1
项目背景
随着智能电网建设的不断推进,智能化电力一次设备和常规电力设备的在线监测都得到了较大发展并成为趋势,监测数据变得日益庞大,电力设备在线监测系统面临巨大的技术挑战。迫切需求一种集中式的数据存储和管理平台,能够对源源不断到达的海量异构监测数据流进行可靠地存储,并能提供快速、及时分析和处理数据的手段,进而实现有效的感知和控制。Hadoop平台在一定程度上满足上述需求,但在应用于状态监测系统时,仍有很大的优化余地。
2
所解决的问题及意义
针对输变电设备状态监测大数据可靠存储和快速访问两方面大数据处理基础问题,基于Hadoop云计算平台进行了数据分布策略、数据块尺寸调优等方面的存储优化研究和大数据并行分析的研究。提出计及数据相关性的多副本一致Hash存储算法(data correlation based multi-copy consistency hash algorithm,CMCH),能将具有相关性的数据在集群中聚集,提升数据处理执行效率。基于数据相关性多副本一致Hash数据分布,应用MapReduce并行编程模型设计实现了多数据源并行连接查询算法和多通道数据融合并行特征提取算法。实验结果表明,优化存储策略能有效提升监测数据并行分析的性能。
3
本文主要工作
提高数据存储的可靠性,算法考虑3方面的相关性:监测装置位置、数据采集时间和自定义相关性。利计及数据相关性的多副本一致Hash存储算法CMCH的基本思想是:将相关的数据尽量集中存储,在数据查询和分析时,将主要工作放在Map端执行,以减少由Map到Reduce中间过程网络通信负载,从而提高整体查询和分析性能。每一种类型的监测装置所获得的监测数据可能具有不同的数据类型和格式,但它们的共同特点是均具有时空特性:即每个传感器采样数据均对应于一个具体的采样时间和一个具体的采集地点。这构成数据查询和分析时最常使用的关键字。由于Hadoop默认将数据存为3个副本,以用一致Hash方法,将数据的第1个副本按照采集装置ID进行Hash映射;将数据的第2个副本按照采集时间戳进行Hash映射;将数据的第3个副本按照自定义相关系数进行Hash映射,以满足不同查询和数据分析需求。这里,相关系数作为监测数据的一个属性,根据上层查询分析应用的需求,可以将用于同一种应用程序的不同来源监测数据赋予相同的相关系数,以实现自定义的相关数据的集中存储。算法中需要构建Hash环,Hash环配置如图1所示。
![](/static/css/default/img/bg.gif)
图1 CMCH算法示意图
输变电设备状态监测系统需要对在线监测的多种设备以及线路参数根据监测设备ID、采样时间等条件进行综合查询。综合查询涉及设备台账数据(名称、运行时间、安装地点等)、本体参数(直径、密度、粗糙度等),监测数据(导线温度、载流量、拉力等)、环境数据(环境温湿度、气压等)、地理信息数据(海拔、经纬度等)等多数据源,这需要将不同的数据源进行数据连接。多源数据通常来自于不同的文件。以输电线路状态监测数据分析为例,本文作者的课题组所研发输电线路监测综合监测装置能够对绝缘子泄漏电流、导线张力、导线电流、导线温度、微气象等数据进行统一的数据采集并上送,如图2所示。在绝缘子异常、导线接头过热或塔身失衡的情况下能进行相关的信息报警。线路管理人员在异地监控室内就可监测到远方绝缘子、导线和铁塔的运行参数。![](/static/css/default/img/bg.gif)
图2 在铁塔上部署的输电线路综合监测装置
![](/static/css/default/img/bg.gif)
图3 基于CMCH的数据分布及Map端连接模式流程与
未优化的连接查询进行对比实验,执行性能如图4所示。
![](/static/css/default/img/bg.gif)
图4 多数据源连接查询执行时间对比
4
结论
Hadoop云计算技术是目前最主要的大数据处理技术之一。研究了基于Hadoop平台的输变电设备状态监测大数据存储优化和并行处理方法,提出了计及数据相关性的多副本一致Hash存储算法(CMCH)。该算法可以按照设备主属性、时间戳和相关系数使具有相关性的数据在集群中聚集,从而加快数据处理速度。下一步的工作重点是综合利用多种大数据处理技术,满足海量历史数据批量处理、在线查询、实时数据分析等各类应用需求。
引文信息
宋亚奇, 周国亮, 朱永利,等. 云平台下输变电设备状态监测大数据存储优化与并行处理[J]. 中国电机工程学报, 2015, 35(2):255-267.Song Yaqi, Zhou Guoliang, Zhu Yongli, et al. Storage optimization and parallel processing of condition monitoring big data of transmission and transforming equipment based on cloud platform[J]. Proceedings of the CSEE, 2015, 35(2):255-267(in Chinese).
团队介绍
![](/static/css/default/img/bg.gif)
![](/static/css/default/img/bg.gif)
![](/static/css/default/img/bg.gif)
声明
本文为原创作品,所涉文字及图片版权均属中国电机工程学报编辑部所有,根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编我编辑部的作品,务必请提前联系我编辑部。个人请按本微信原文转发、分享 联系我们
电话: 010-82415657,010-82812972
邮箱: pcsee@epri.sgcc.com.cn
网址: www.pcsee.org
主办:中国电机工程学会
官方微信号: PCSEE1964
![](/static/css/default/img/bg.gif)
![](/static/css/default/img/bg.gif)
↓↓↓ 点击“阅读原文”可查看全文
关注 中国电机工程学报
![](http://a-site.cn/static/down/wx_205x205.png)