基于 Informatica 的數據質量設計在數字供電中的應用
基于 Informatica 的數據質量設計在數字供電中的應用
文/劉葉
摘要:某省電力部門在信息化建設與運行的過程中,為了讓主網生產系統、EMS系統的基礎數據維護單位及時了解基礎數據在業務系統中的完整、準確性以及跨系統之間的數據一致性情況,利用數據質量提供的數據,拼接成統一的電網模型,提供給管理人員全方位的電網全景分析和應用。本文闡述了主網生產系統與EMS系統的電網模型比對方法,以及通過 ETL 工具 Informatica PowerCenter 及正則表達式等實現的效果。最后,根據實際數據分析出取得的效果及待改進之處。
【關鍵詞】電網模型 模型比對 ETL 數據質量
1 數字供電項目應用背景
某省電力部門信息化建設經過多年發展,圍繞電網設備和電網生產已經形成了主網生產、EMS、配網生產和GIS等應用系統,為主配網生產、管理提供了較大支持。針對同一個物理設備,不同的應用系統根據業務部門的需要進行相關的數據建模和數據錄入,比如生產系統維護設備相關的生產數據,EMS或GIS維護設備在電網中的拓撲數據,同時由于各應用系統建設時間、開發廠商不同,造成系統間技術實現、應用架構、數據庫平臺、數據編碼等方面的異構性。隨著該電力部門圍繞設備數據應用的深度和廣度不斷增加,單一系統的數據已經不再可以滿足需要。圍繞該省電網設備,通過基于統一模型的信息集成已經非常有必要。隨著主網生產系統和營配一體化系統在該省的推廣和實用化,已經具備一定的數據基礎。設備數據的一體化非常符合電網信息化建設方向以及智能電網的發展趨勢。
2 數據質量與數字供電項目的交互
圖1主要說明數據質量在整個數字供電項目中的支撐作用,是由主網系統和EMS系統對比成功后的數據提供給數字供電項目使用,包括SVG圖轉換,統一模型裁剪臺賬樹,向WEBGIS提供實時數據查詢。
(1)SVG 圖 轉 換: 把 SVG 圖 中 的SCADA_ID替換成對應數據的主網MIP_ID。
(2)統一模型裁剪臺賬樹:對省公司上傳比對成功的節點,使之滿足整棵樹的連通性。
(3)向 WEBGIS 提供實時數據查詢:取 SCADA_ID 和 MIP_ID,以 MIP_ID 來查詢實時數據。(實時數據庫中存放的是SCADA_ID)。
3 數據質量的設計與實現
3.1 主網與EMS系統模型的比對方法
主網與EMS系統模型的比對規則的制定首先依照數據唯一性和準確性的原則,另外規則需簡練無冗余以保證執行效率,如Disconnector(刀閘)的數據比對僅需變電站名和刀閘編號即可得出,無需增加電壓等級或間隔名稱等冗余規則。根據以上原則,在基于informatica的基礎上,使用相關正則表達式[4],可分析出主網與EMS系統模型的比對方法下:
(1)Bay(間隔): 變電站+間隔編號。
(2)Line(線路): 電壓等級+名稱。
(3)Substation(變電站): 變電站名稱+#號變壓器名。
(4)VoltageLevel(電壓等級區域): 變電站名稱+電壓等級。
(5)Breaker(斷路器): 變電站名+開關編號。
(6)Disconnector(刀閘): 變電站名+刀閘編號。
(7)BusbarSection(母線): 站名+ 電壓等級+母線名。
3.2 數據質量比對的實現
基于以上的方法通過ETL工具Informatica PowerCenter來進行數據抽取、清洗、處理和比對等。Informatica PowerCenter 是 Informatica 公司開發的世界級的企業數據集成平臺,也是業界領先的ETL工具。Informatica PowerCenter使用戶能夠方便地從異構的已有系統和數據源中抽取數據,用來建立、部署、管理企業的數據倉庫,從而幫助企業做出快速、正確的決策。在 Informatica PowerCenter 中,依此通過建立ODBC、映射、流程和定時執行計劃后,即可依據一定的規則從主網生產系統和EMS系統中分別抽取中對應設備的數據,進行處理后整理成數字供電應用項目所需的數據。
3.3 數據質量一致率提升處理機制
數據一致率提升處理機:由部門專責在發現問題,軟件公司針對這些問題找出處理辦法,并將處理辦法反饋到專責處,再由專責與相關業務部門協調,進行數據整改,在此過程中,反復檢查數據整改是否符合規范,最后跑informatica流程,為其它系統提供最為準確的數據。
3.4 數據質量對比結果
主要完成九個主要對象數據對比,俊工驗收對于九個對象的平均對比效率要求為85%左右。
功能驗收階段:
(1)Breaker( 斷路器 ):主網為 11553,SCADA為11863,比對一致數為11156,一致率為96.56%。
(2)Line( 線段 ):主網為 610,SCADA為670,比對一致數為489,一致率為80.16%。(3)Busbarsection( 母 線 段 ): 主 網 為1221,SCADA為1824,比對一致數為361,一致率為29.57%。
(4)Disconnector( 隔 離 開 關 ): 主 網為 14059,SCADA 為 17094,比對一致數為11597,一致率為82.49%。
(5)Grounddisconnector(接地隔離開關):主網為17670,SCADA為19029,比對一致數為14827,一致率為83.91%。
(6)Substation(變電站):主網為248,SCADA為248,比對一致數為246,一致率為99.19%。
(7)Bay( 間隔 ):主網為 6624,SCADA為 16282,比對一致數為 6119,一致率為92.38%。
(8)Voltaglevel( 電 壓 等 級 ): 主 網 為550,SCADA為2941,比對一致數為538,一致率為97.82%。
(9)PowerTransformer(變壓器):主網為1363,SCADA為1415,比對一致數為1186,一致率為87.01% 。
通過一致率提升機制,數據質量較之以前有了顯著的提高,統計如下所示:
(1)Breaker( 斷路器 ):主網為 11641,SCADA為11801,比對一致數為11224,一致率為96.42%。
(2)Line( 線段 ):主網為 610,SCADA為557,比對一致數為489,一致率為89.41%。(3)Busbarsection( 母 線 段 ): 主 網 為1232,SCADA為1471,比對一致數為1052,一致率為85.39%。
(4)Disconnector( 隔 離 開 關 ): 主 網為 14058,SCADA 為 13241,比對一致數為11465,一致率為86.59%。
(5)Grounddisconnector(接地隔離開關):主網為17726,SCADA為18069,比對一致數為14851,一致率為85.78%。
(6)Substation(變電站):主網為249,SCADA為248,比對一致數為246,一致率為99.19%。
(7)Bay( 間隔 ):主網為 7243,SCADA為 16052,比對一致數為 6700,一致率為92.50%。
(8)Voltaglevel( 電 壓 等 級 ): 主 網 為552,SCADA為2942,比對一致數為538,一致率為97.46%。
(9)PowerTransformer(變壓器):主網為1363,SCADA 為 1178,比對一致數為 1115,一致率為94.65% 。
通過以上數據可以看出數據質量得到了明顯的提高,證明本文提出的數據處理機制是行之有效的,這種思路可以應用于任何行業來處理數據質量問題。
4 總結
本文主要是通過Informatica PowerCenter等工具實現了主網和EMS系統模型比對,基本達成主網電網模型比對的目的,與此同時發現了在電網模型比對過程中的源系統數據質量問題,如:調度不規范命名、羅馬數字與字符數字交替使用、無效數據沒有及時處理等,解決這些問題后將更有效提升電網模型數據比對率,從而促進數字供電項目的應用效果。
參考文獻
[1]廣東電網公司 廣東電網公司數字供電集成應用 2011
[2]廣東電網公司 2010年數據質量提升計劃實施方案 2010
[3] 侯曉靜 , 苑津莎 , 李中 , 徐良燕 基于 SVG 的電網WebGIS實現方案[J],電力系統通信 ,2006,27(163):41-46.
[4] 李旻,陳和平 正則表達式在數據庫查詢中的應用[J],計算機工程與設計 ,2006,27(12):2303-2305.
[5]胡波 電網業務系統數據質量管理平臺的設計與初步實現 2010
作者單位
廣州科騰信息技術有限公司 廣東省廣州市 510656
本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除! 快速論文發表網(www.6scc.cn)本中心和國內數百家期刊雜志社有良好的合作關系,可以幫客戶代發論文投稿.
投稿郵箱:ksfbw@126.com
客服Q Q:
82702382
聯系電話:15295038833
本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除!