管线数据分析旨在通过对互联网、移动应用等外部数据抓取和物联传感器实时监测数据集成,加强管线运营数据与抓取数据、监测数据的融合,构建以管线运营数据为核心的数据资源池。在此基础上,重点解决多源异构数据融合、数据存储、数据处理以及数据计算等方面的问题,提高管线运营数据存储与管理的集成度。通过对管线运营大数据挖掘分析模型的研究,提供多维度的管线运营数据分析,从而为管线运营过程中的决策提供辅助支持。
探索分析与管线运营相关的互联网管线相关数据、物联接入数据等外部数据,形成与管线运营相关的外部数据指标体系表,并对各指标的参考取值及对管线运营的影响进行分析。建立大数据中心,通过数据交换平台及相应的主题数据库实现管线运营数据的抓取,针对外部数据,重点研究数据采集、处理和分析,实现结构化数据、非结构化数据及半结构化数据的应用。
管线数据体系自动识别:传统的管线数据分析包括人工分析和简单的程序分析,但随着海量管线数据的采集和积累,传统的分析方式都难以实现对管线大数据指标识别。基于大数据技术的管线数据对互联网、物联接入、管线运营、应急指挥、安全监管等数据进行分析,可以实现对管线指标体系自动识别的效果,提升管线画像的分析能力。
管线数据高维分析:管线数据指标体系中的指标数量众多,指标数据之间可能存在多种相关关系,指标分析维度呈现多样化分析。通过高维分析技术,可以将指标维度进行汇集、合并,自动对维度与指标关系进行判断,从而尽可能减少边缘维度对关键维度可能出现安全隐患的管线提前预警,提高管线运营整体的工作效率,降低管线维修维护成本。
管线大数据平台主要解决面向大数据的采集、存储、管理、计算和分析应用等应用。平台总体架构包括管线数据采集与处理平台、管线数据储存与管理平台、管线分布式计算与挖掘平台、管线大数据分析平台模块,以及用于管理软件组件以及集群硬件的大数据平台管理模块。
1:基础设施管理:包括服务器计算资源、存储设备资源、网络资源,为业务应用系统和大数据分析提供基础环境。
2:管线数据采集与处理平台:针对互联网、物联接入、管线运营、应急指挥、安全监管等数据的采集要求,平台通过集成和开发等方式,设计了多种应用场景下的数据库采集工具,根据不同数据特点对数据进行采集、清洗、转换和加载。
3:管线存储与管理平台:提供对结构化和非结构化数据通过综合应用关系型数据库、列式数据库、内存数据库运算、并列数据库等数据库技术,支持海量异构数据统一可靠的储存管理,对外提供统一的分布式调用接口。
4:管线分布计算与挖掘凭条:优化了分布计算框架和分布式内存计算框架。并在此基础上构建面向管线运营管理业务的文本处理引擎、流处理引擎、数据挖掘引擎、搜索引擎等,加强了管线数据分析能力的支持。
5:管线大数据分析平台:利用强大的分析能力,从互联网、物联接入、管线运营、应急指挥、安全监管等数据大量基础数据中分析、获得规律,并利用规律对未知数据进行预测,实现对管线数据进行高维分析、安全隐患分析、应急指挥分析、管线预警预测分析等。
6:大数据平台管理模块:可以实现大数据平台的快速部署,包括平台的安装、部署、配置、运维、监控、数据操作等,以图形化的方式可以将大数据平台中各类服务、组件的使用情况进行可视化展现。
7:主数据管理模块:支撑大数据平台中主数据的管理,包括元数据管理、主数据模型管理、主数据检索、数据质量管理、数据字典管理、数据接口管理和安全管理。
管线运营数据分析应用也可分为3方面
1:管线运营时空分析:运用GIS手段对地下排水管线、给水管线、供热管线、供气管线等市政基础设施管线不间点不同地理位置的运行状态进行监控,通过对同一时间段不同地理位置的流量流速分析,适当调配不同区域供水、供气的水压和气压,保障区域内人民对水、气、暖的正常使用。
2:管线老化预警分析:由于管线材质、施工时间、表面防腐层的不同,直接影响了各类管线的老化程度各异,通过对各类管线基础数据进行分析,评价管线的老化情况,定量给出管线的老化级别,对于老化级别较高的管线进行定期预警,形成管线预警分析报告,预防管线事故的发生。
3:管线事故影响分析:根据水、气、暖等事故影响模型,在出现应急事件时,通过获取应急事件的事件类型、发生时间、事故地点等参数信息,从而计算得出事故的影响范围需要调配的物资、人员、车辆等资源信息,有利支撑应急决策和执行。
管线安全关乎社会民生和经济发展,管线运营数据分析意义重大。