亚州天堂爱爱,做爱视频国产全过程在线观看,成人试看30分钟免费视频,女人无遮挡裸交性做爰视频网站

? ? ?

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

聲明

因轉載眾多,無法找到真正來源,如標錯來源,或對于文中所使用的圖片、文字、鏈接中所包含的軟件/資料等,如有侵權,請跟我們聯系刪除,謝謝。將在收到信息后第一時間進行刪除。參考資料來源網絡,僅用于行業知識分享,供個人學習參考,不得作商業用途。

方案獲取方式在文末

目 錄

1、項目概況 1

1.1、項目背景 1

1.2、現狀分析 1

1.4、建設目標 2

1.5、建設內容 3

1.6、建設效果 3

2、項目建設方案 4

2.1、總體架構 4

2.2、總體設計原則 5

2.3、總體建設方案 7

2.4、詳細建設方案 7

2.4.1、數據資源梳理 7

2.4.1.1數據資源梳理方式 7

2.4.1.2信息資產梳理與編目工具 9

2.4.2、建立數據標準和規范 13

2.4.2.1信息資源標準和管理規范制定 13

2.4.2.2標準規范體系和管理規范制定思路 14

2.4.2.3標準規范體系和管理規范制定范圍 15

2.4.3、數據接入服務 18

2.4.4、基礎信息資源庫建設 20

2.4.4.1設計原則 20

2.4.4.2基礎數據庫設計 25

2.4.4.3中心數據庫組成 27

2.4.5、數據處理系統 30

2.4.5.1數據清洗、比對和處理步驟 30

2.4.5.2數據清洗系統 33

2.4.5.3數據比對系統設計 38

2.4.5.4數據處理的技術要求 42

2.4.5、數據資源目錄 44

2.4.6、數據監管服務 47

2.4.7、統一的數據服務 51

2.4.8、數據共享交換服務 57

2.4.9、數據中臺服務可視化服務 63

2.4.10、大數據支撐平臺 65

1、項目概況

1.1、項目背景

伴隨著數據量的與日俱增,基層人員對業務的理解隨著大數據思維的影響越來越活躍,日益復雜的應用需求、應用的個性化要求日益增多、模型的快速個性化開發、應用的實時交流與共享、專項行動支撐等敏捷式交互已成主流,所以目前迫切需要既能貼近員工日常各類應用的大數據支撐統一平臺。

單位目前無數據留存的載體,使每次新建業務系統都需要協調其他各部門的數據未能體現數據共享的原則,隨著業務系統的不斷深入,單位也迫切打破數據壁壘,能對接各單位的數據加以綜合應用。

1.2、現狀分析

單位目前信息化水平已步入前列,但是在數據使用和管理上仍然存在諸多問題和矛盾,主要體現在以下幾點:

單位建設了若干應用系統,系統建設后的每種應用產生的二次加工數據未回流,不知存在哪里,也沒有把二次產生的歷史數據利用起來。

每次建設不同應用系統都會向上級單位申請數據,相同的數據資源重復申請,本地未能做好備份和數據積累。

數據質量無法管控,數據安全性無法保證。信息不全面、不及時、不準確,容易造成管理漏洞。

對數據資源價值認識不足缺乏大數據應用經驗。應用的規劃局限大,應用的建設成效不理想。

1.4、建設目標

通過大數據中臺建設,匯集大量單位及社會層面的數據資源,并整理形成數據資源目錄,梳理數據的字段結構、數據字典項目等內容。為全面推動單位數據標準化工作、促進信息資源的共享,確保數據質量,進一步規范基礎數據采集、數據資源共享交換,以“全面整合信息資源、信息高度集成共享、方便基層人員使用、貼近一線實戰業務”為指導思想,面向決策與實戰的大數據應用與部門間業務協同等工作為目標,對單位內、外部的海量信息進行加工、處理、整合,建設具有單位局特色的大數據管理服務平臺。以數據治理為抓手,以共享服務為支撐,以實戰為唯一檢測標準。

過程中以“建的精、管的細,用的好”為指導思想推進數據中臺建設。

建得精:通過建立數據交換平臺和渠道,構建“大數據基礎”。

管得細:通過大數據支撐跨部門跨系統的應用建設,實現“大數 據綜合治理”。

用得好:通過分析挖掘和營運大數據面向不同業務提供服務,建成“大數據公共服務”。

1.5、建設內容

結合單位的需求和實際情況,本次規劃單位數據中臺項目主要從以下幾個方面開展建設。

  1. 建立單位數據標準
  2. 整理目前所能獲取的數據資源
  3. 單位數據接入服務區
  4. 數據清洗系統
  5. 建立數據資源目錄
  6. 建立數據監管系統
  7. 建立統一的數據服務系統
  8. 建立統一的數據交換系統
  9. 建設數據可視化服務系統

項目建設分三個階段完成,建設周期為9個月。

1.6、建設效果

  1. 打破數據孤島,形成內部開放的數據格局

基于自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,匯聚內外部數據,形成數據倉庫,通過清洗、數據資源目錄,開放的數據共享和交換服務,使數據在匯聚的同時,提高數據的準確和有效性,能充分達到內外部系統的方便有序共享。

  1. 快速響應業務需求,靈活實現數據服務

大部分服務都是圍繞數據而生,數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰略讓數據在數據平臺和業務系統之間形成了一個良性的閉環,應用與數據之間的關系較之以往更加緊密。從而使敏捷前臺開發成為了可能。

  1. 深度挖掘數據價值,為整合高階算法打下基礎

數據資產的最大價值在于分析應用,當下的諸多高階的算法,其應用場景都是建立在一個相對規范,體量巨大的數據資產之上的。數據中臺構建了開放、靈活、可擴展的統一數據管理,將內、外部數據隨需關聯,打破了數據的系統界限。從而為日后的可視化建模等高階的分析應用提供了良好的數據基礎。因為數據的良好基礎,從而使跨維度,帶算法的分析成為可能,從而真正能實現大數據分析的“隨需而變、數里淘金”。

2、項目建設方案

2.1、總體架構

數據中臺的總體架構以全域大數據建設為中心,覆蓋整個大數據獲取、治理、建立目錄、共享、服務、可視化的全鏈路環節。

架構總體上是一種服務化的架構,各服務模塊間弱耦合。每個模塊對外的服務是開放性的,這意味著各種不同的模塊可以按需使用。不僅如此,合理、恰當、符合邏輯的問題拆解,將每個子問題域控制在合適的粒度大小,這利于展開落地方案的架構設計,并為系統的運行演化奠定了模塊化、組件化的指導基礎。

各層次間的銜接與交互采取“服務化”的設計思路,層次間弱耦合,在層間通信契約穩定的前提下,各層均可獨立地進行擴展變更。同時,基于這種松耦合的邏輯設計與實現,在部署架構上,可以支持靈活地按需部署,各種不同的模塊部件,可以按需地分布在相同或者不同的進程單元中,并且各層次內也可以根據數據處理規模來橫向伸縮擴展。

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

2.2、總體設計原則

數據中臺的涉及內容眾多,技術復雜,使用對象覆蓋面廣。因此,在建設時,項目規劃設計應遵循以下基本原則:

先進性原則。本項目整個平臺應采用先進的技術,符合技術發展趨勢。數據中臺采用先進技術,針對不同的業務場景,采用不同的計算和存儲技術來對應等。平臺采用先進的架構,各個部分之間采用松耦合,一個子系統出現問題不會影響其他系統。

易用性原則。平臺應注重易用性,方便用戶使用。數據中臺的各個子系統注重易用性的設計,界面和操作直觀、美觀、方便, 易理解性,使用戶抓住重點,一目了然;易操作性,提供便捷、一致的操作方式,減少用戶輸入和點擊次數;易管理性,縮減安裝、配置、實施、備份的時間和難度。

安全性原則。應充分保證數據的安全性,提供合理的解決方案。針對數據安全性,采用立體化的安全防范手段,一方面加強對現有安全設備的利用,另一方面應采用安全加密和脫敏系統加強對數據的防護,并結合已有的安全管理制度,共同形成高安全性防護。

擴展性原則。平臺應考慮技術的發展和未來的應用需求,提供良好的擴展性,確保隨著業務的發展能夠快速進行系統的擴展。為保證系統的可擴展性設計,在系統架構上,采用系統分層設計實現。保證在設計開發上具有適應業務變化的能力,當系統新增業務功能或現有業務功能改變時(界面的改變、業務實體變化、業務流程變化、規則的改變、代碼改變等),應盡可能的保證業務變化造成的影響局部化。

整體性原則。要考慮各系統之間的集成,形成一個整體對外提供服務。由于數據中臺類項目涉及的子平臺和子系統眾多,為體現系統的整體性,應提供統一門戶,完成各子平臺和子系統的身份統一和集成,完成各系統的界面、應用和數據集成,確保各部分形成一個整體統一對外提供服務。

2.3、總體建設方案

中臺技術建設逐步成為構建“大中臺、輕應用”的信息化建設格局,加快信息化應用創新和發展,進一步解決現有數據平臺瓶頸的重要手段和支撐。數據中臺是中臺技術的關鍵內容,數據中臺建設主要包括數據存儲、數據集成、數據治理、數據服務等方面以及相關的數據實施。數據存儲、數據集成、數據治理方面主要是為了加強數據中臺的數據處理能力,數據服務則主要是為了支持應用和業務的進一步創新和發展。同時,數據實施服務是數據中臺建設能較好落地的基礎和保障。

2.4、詳細建設方案

2.4.1、數據資源梳理

本次項目需要的梳理的數據資源包括對接上級單位的數據資源、單位自身擁有的數據資源、調研梳理其他上級單位數據資源,上級單位和單位的數據資源相對比較明確,其他上級單位數據相對較模糊需花費一定的時間進行調研。

2.4.1.1數據資源梳理方式

在梳理信息資源時可以通過以下4種方式進行:

l、采取不同的收集手段。

A.兼容各個電子系統,收集整理數據。近幾年,隨著信息化建設的推動和發展,各個部門的信息化建設都有不同程度的提高。各個部門或多或少都建立起計算機系統,只是各個部門發展程度不一樣,有些部門電子化程度很高,絕大多數數據都納入到計算機系統中,而有些部門電子化的東西還很少。充分利用現有的各個電子系統,是獲得信息資源最有效的途徑。但在利用同時還存在一些問題,如各個部門即有自己的辦公自動化系統,又有業務系統;既有以前開發的系統,又有新開發的系統;既有可公開的系統,又有密級的系統,幾個系統間并不兼容,這樣就需要在收集整理這些數據前,先對這些系統進行整合,抽取出符合要求的信息資源。

B.手工整理資源。各個部門信息化建設時總會有些數據資源被落下,特別是些老數據,像很多年前的檔案數據、歷史數據,這些數據就需要手工進行整理。

2、以信息資源的時間為主線收集。

信息資源雖然內容多而雜,但也是有規律地產生的,可以根據信息資源的產生的時間先后進行整理。時間的不同,部門所賦予的職責也會有變化,不同時期部門的名稱都會有明顯變化,職能的調整就更多,職能對應的資源信息也就有變化。通過時間整理數據,邏輯上比較清楚。

3、以信息資源的研究內容為主線。

以信息資源的研究內容整理數據,其實就是根據其職能范圍來整理數據。根據部門的每個職能,收集相應職能所涉及到的信息資源。由于有些信息資源包含的內容比較多,因此這種整理方式會有重復收集的現象。

4、從業務應用出發進行梳理。

業務部門在履行職能、辦理業務和事項中隨時都需要和產生的信息資源,它的存在和分布是跨行業、跨部門、跨地域的,并且大部分信息資源隨著業務的開展不斷產生和變化,是一種與政府活動相關的動態信息資源。由于各個地區經濟發展不同、各個部門職能不同,所擁有的政府信息資源也各不相同。

信息資源與業務密切相關的特點要求信息資源整合方法應適應業務和信息的動態產生和變化。信息資源目錄體系就是從業務應用出發,梳理業務辦理的流程、職責、依據等,編制信息資源目錄。如針對案件研判業務,需要通過調查和梳理相關的業務環節和部門,根據業務流程,梳理和分析業務相關的信息,并且根據相關的信息資源描述規范和分類規范描述以及標識信息資源,編制面向業務的信息資源分類目錄和共享目錄,在目錄體系的基礎上進行信息資源整合。這樣的整合方法為信息資源的動態有機整合建立了基礎,可以適應政府信息隨業務處理而動態變化的特點。

2.4.1.2信息資產梳理與編目工具

為實現對信息資產的梳理與編目,我們在信息資源管理與服務平臺中提供了信息資產登記與管理系統。通過系統實現:

采用標準化工具完成基礎信息資源的梳理,資源梳理工具的管理內容包括系統目標、組織結構、業務角色、用戶視圖等;

對業務流程圖和數據流程圖進行管理,能夠識別協同關系和信息共享需求,能夠明確職責、整理和挖掘數據資源、規范數據表示;

對數據庫的主題庫、邏輯實體、實體關系圖、數據映射圖、數據元標準、信息分類編碼進行管理;通過梳理明確信息資源的出口、入口、數據間關系;

支持信息資源的文檔的自動化生成(數據庫設計文檔、信息資源目錄、實體關系圖等);

支持思維導圖等方式的可視化展示。

信息資源梳理的成果為數據交換提供數據來源、業務流程、資源目錄、標準規范等服務支撐。

資源梳理工具的功能包括高階導圖、思維導圖、業務架構、數據架構、應用架構、需求管理、文檔附件、系統編碼、權限管理、項目管理、系統設置等。

信息資源梳理平臺通過兩類視角進行說明:管理視角、維護視角。

在管理視角下進行系統編碼字典、用戶及權限管理、項目模塊管理、系統設置等系統管理級別操作。

在維護視角下對高階導圖、業務架構、數據架構、應用架構、需求管理等功能模塊內容進行編輯和查詢操作。

信息資產登記

信息資產登記系統實現了各類信息資產的注冊與維護,實現信息資源的編目功能。信息資產登記系統包括業務架構登記管理、數據架構登記管理和應用架構登記管理、架構資產目錄管理功能。信息資產是政府架構里的核心構成和基礎,對信息資產的梳理和編目、信息資產登記系統是政府整個信息化工作的靈魂和基石,信息資產登記系統產品用來支持信息資產初始化,并作為有序存儲和可持續管控的起點。

在信息化工作過程中,將產生大量、復雜的信息,它們數量多、門類廣、分布分散、信息資源提供者和信息資源使用者的信息不對稱,這些信息只有經過梳理、分類、編目和可視化,才能變得更有價值,從而形成真正的資產,完全依靠手工和紙面管理幾乎變成不可能,必須引入資產知識儲藏庫,通過合理的架構管控,保持定義與理解的一致性,并貫穿信息化建設的始終,對信息從產生、處理、傳輸、利用的全生命周期進行梳理、規劃、設計和實施落地,保證信息和知識記存與使用的無歧義和連續性。為此,必須使用科學、合理、動態、活化的技術文檔來存儲相關信息,建立此儲藏庫是一個積累發展過程,首次規劃資料的存儲,有利于后續開發工作的進行;修訂業務架構,優化數據架構和系統架構,都建立在原有知識庫的基礎上。

信息資產登記系統將滿足其他組織建立信息資產編目體系而開發的產品,可以輔助這些組織的架構管理機構或信息部門,對業務、數據、應用等進行可視化的信息資產構建工作,并支持彼此之間的關聯和可持續改進,形成清晰完整的高階資產模型。有效支撐信息資產和企業架構開發理論、方法的具體實施。產品的信息資產知識庫,存儲整個開發過程中的各種資產和資源,管理層、決策層可從不同角度、視點去審視企業的結構和運作,幫助政府或企業有效實現IT戰略。

該工具軟件主要基于企業架構、信息工程、總體數據規劃、數據管理等理論,引入高階的架構開發方法和信息化建設中的標準化核心內容,工具通過中心數據庫共享功能將各模塊有機聯系在一起,集中記錄和管理需求,支持多團隊協作和各實施階段成果之間的一致性,同時,支持主流建模標準文檔的導出。

2.信息資產管理

信息資產管理是系統維護人員對登記后的信息資產,實現有效的管理,并通過平臺實現對外的可視化展現與信息資源的發布。資產管理包括資源目錄的管理、文件的管理和服務的管理。

信息資產管理子系統為可視化管理平臺。通過該平臺,中心管理員可管理整個域內的信息資產情況,部門管理員可管理該相關部門的資產情況。信息資產管理子系統主要包括以下幾大部分功能:

1、資產總體視圖

2、組織機構視角

3、服務對象視角

4、信息資產視角

5、協同主題視角

2.4.2、建立數據標準和規范

建立的一套符合自身實際,涵蓋定義、操作、應用多層次數據的標準化體系。

數據治理對標準的需求可以劃分為兩類,即基礎性標準和應用性標準。前者主要用于在不同系統間,形成信息的一致理解和統一的坐標參照系統,是信息匯集、交換以及應用的基礎,包括數據分類與編碼、數據字典、數字地圖標準;后者是為平臺功能發揮所涉及的各個環節,提供一定的標準規范,以保證信息的高效匯集和交換,包括元數據標準、數據交換技術規范、數據傳輸協議、數據質量標準等。

2.4.2.1信息資源標準和管理規范制定

標準規范體系是區單位單位大數據中心標準化工作的核心,也是區單位局大數據中心總體設計的重要內容。區單位局大數據中心標準規范體系建設過程將按標準規范辦事,使工程建設效果符合最新的行業技術質量標準規范,保證工程的先進性和可靠性,符合國家、省、市電子政務項目建設規范的要求。

2.4.2.2標準規范體系和管理規范制定思路

建立標準規范體系是實現城市大數據中心對外提供數據服務的重要支撐,是直接導致本項目建設成敗的重中之重。具體的建設思路如下:

1)符合國家和單位局信息化規劃的相關政策法規

項目相關標準規范體系設計及制度的制定,必須在國家和單位局相關政策的指導下,根據《中華人民共和國標準化法》,從項目建設的實際需要出發,統籌考慮大數據中心切實利益,進行制定。

2)遵循國家相關標準規范和管理規章

審查項目相關標準、規范及制度的制定,必須遵循國家信息化建設的相關標準規范,以及標準制定相關規章制度,進行起草、送審和發布。

3)從區單位局信息化建設發展的大局出發

項目相關標準、規范及制度的制定,要符合無錫市信息化建設總體思路,進行深入研究、探討、制定,按需建立信息資源的統一數據標準。

4)充分滿足本項目建設和發展要求

緊密貼合項目的建設目標,充分滿足大數據中心的建設和發展要求。

2.4.2.3標準規范體系和管理規范制定范圍

1.數據規范

數據標準規范由公共數據元標準、公共代碼標準、公共數據存取規范和數據交換規范組成。除國信辦[2003] 62號要求的六項基本信息和十二項應用信息的標準外,基礎信息庫建設還需其他信息標準的制定。

(1)數據分類與編碼

數據分類與編碼標準是信息化建設中標準化的一項基礎工作,該類標準規定平臺匯集、交換相關信息統一的分類系統和排列順序以及編碼規則,目的是在不同系統和用戶之間建立交通數據的一致參照,對提高數據采集、處理和數據交換效率具有重要作用。數據分類與編碼標準的制定將有力推進平臺標準化及交通信息化建設標準化的進程。

(2)數據字典

針對實際需求,定義數據集,建立各個領域的數據字典,規范數據概念和數據定義。在此基礎上,形成完備的集團單位數據集和數據字典。

(3)元數據標準

元數據標準是描述數據資源的具體對象時所有規則的集合,它包括了完整描述一個具體數據對象時所需要的數據項集合。針對各種信息資源分別制定適當的元數據標準,可為信息的管理、發現和獲取提供一種實際而簡便的方法,從而提高數據交換效率。

(4)數據交換標準

為了保證數據共享和交換的順利實現,必須明確定義和規范數據交換的相關標準。數據交換的標準規范是綜合信息平臺的核心標準。其中應當包括數據交換內容、數據交換格式、數據傳輸方式、各類中心間數據接口的標準化等方面。

(5)數據質量標準

由于數據采集任務通常由其他二級平臺完成,數據治理平臺的標準方法主要集中在數據的加工和管理上。應該重點開發的一個領域是數據質量控制方法。應當從三個方面對數據質量方法進行研究:“壞數據”或“不可靠數據”的識別,錯誤數據的編輯方法,以及缺少值的處理。

2.技術規范

技術規范由如下組成。

基礎數據庫標準規范

針對基礎信息數據庫建庫標準制定規范,并為未來其他基礎庫建設形成體系規范。

外部接口規范

外部接口規范為其他系統接入提供可執行規范,包括在系統接口定義、交換系統交換方式、部門接入信息字段定義、各類應用層協議等。

二次開發規范

二次開發規范,明確開發權限定義、數據接口定義、功能掛接定義、平臺要求等。

測試規范

測試規范規定測試條件、范圍、選擇數據,以及測試案例定義等。

3.業務規范

業務操作流程規范

配合信息資源整體建設,規范業務人員操作各應用系統所確定的業務規范。

安全保密規范

配合信息資源整體建設,明確應用系統使用安全與保密規范,完善系統保密規范。

4.信息化管理規范

配合信息資源整體建設,形成信息化管理規范。

業務部門數據交換共享機制規范

配合數據交換平臺相關規范制定,確定業務部門數據共享機制規范,明確業務部門信息共享指南。

5.系統運行管理規范。

系統運行管理規范,為各級管理員和用戶提供運行管理指南與規范。

6.數據維護管理規范

數據維護管理規范,針對中心數據庫的各類數據,進行管理維護的規范等。

數據標準對數據集成和信息資源共享具有重要意義:

  1. 增強業務部門和技術部門對數據定義和使用的一致性。
  2. 減少數據轉換,促進系統集成。
  3. 促進信息資源共享。促進單一數據視圖的形成,支持管理信息能力的發展。
  4. 消除各部門間的數據壁壘,方便數據的共享,另外數據標準同樣對業務流程的規范化有幫助作用。

2.4.3、數據接入服務

數據接入系統主要實現多源異構數據的跨網絡、跨地域的統一接入,為數據資源的匯聚集中、標準化處理和數據資源池構建提供支撐,功能主要有數據抽取、數據庫同步、文件導入、數據填報等。

主要為了解決各級部門和組織在中心側的數據落地問題,采集后的數據統一歸集到數據湖滄庫中的“原始數據區”。需要支持的數據采集方式需包含數據流采集、數據庫采集、日志采集、接口采集、應用數據采集、網頁爬取、文件交換等多種方式。

數據接入可以分為以下幾個部分:

執行引擎:依照用戶設定的業務流程,完成對變更數據的捕獲。通過重做日志采集和對數據庫日志的解析,識別出變更數據內容;再通過事務的過濾、合成和加載等流程,實現事務的統一控制,確保事務的一致性和準確性。

控制臺:控制臺負責為用戶提供多種管理和監控功能,包括數據采集的性能監控,異常情況的管理,采集任務的調度管理以及元數據的管理等。

第三方接口:系統提供了種類豐富的第三方服務接口,包括管理監控類的接口,以及服務集成類的接口等。通過上述服務接口,用戶可以在第三方系統中進行產品的集成和二次開發,以滿足用戶不同業務場景的功能需求。

在數據接入過程中采根據建立的數據標準,用數據清洗模型可快速對不同的數據進行整合清洗。

數據接入日志:接入數據做好日志記錄,可根據要求定制日志需記錄的內容。

本次規劃的數據接入包含如下幾種類型:

(1)單位現有存量數據的數據接入:該部分數據主要是依托大數據基礎平臺提供的數據庫環境,開展存量數據的抽取、標準化轉換和加載工作最終將該類數據整合到單位大數據資源庫。

(2)現有業務系統不斷新增的生產數據的數據治理:該部分數據的處理根據源數據的提供方式不同,分為兩部分:一是源數據的業務系統直接開放數據庫賬號(只讀),直接通過數據庫直連的方式進行數據抽取整合;二是源數據的業務系統開放webservice接口,設置相關的訪問規則,然后通過該數據接口進行數據抽取整合。

(3)市單位局同步的數據,根據上級單位接口的要求,針對性的對每種數據開發對應的接口,根據上級單位數據同步的周期,可以和數據更新周期,也可以定時抽取同步。同步上級單位的數據可采用數據抽取、數據庫同步、斷點續傳等多種方式。

(4)單位體系外黨政單位、社企單位所共享出來的數據資源與社會化采集資源,例如工商數據(法人庫)、稅務數據、社醫保數據、銀行數據等,需要利用單位安全邊界平臺,實現與此類數據的整合作業。

通過數據接入服務,建立了部分符合數據標準要求的單位數據倉庫。

2.4.4、基礎信息資源庫建設

2.4.4.1設計原則

城市大數據中心數據庫的數據涉及到各類基本信息資源、擴展信息資源,以及多種專業應用等多方位多層次數據和信息。數據類型有數字、文字乃至圖片等,主要以表格形式表現,既有實時采集數據,也要包含多年歷史數據。

對于基于大型關系數據庫的核心業務系統,數據庫是系統的核心。數據庫結構的設計也就是項目成敗的關鍵。設計不好的數據庫,會增加編程復雜度、后期維護繁瑣、系統性能低下等等問題。由此,數據庫設計之初必須遵守如下設計原則。

盡量減少數據冗余,實現最低的存儲空間、最高的存取速度、確保各數據項間的關系規范,能夠展現完整的政務信息視圖。

數據庫的數據規范化設計達到第四范式(4NF)。

關系模式規范化設計的基本思想是通過對關系模式進行分解,用一組等價的關系子模式來代替原有的關系模式,消除數據依賴(包括函數依賴和多值依賴)中不合理的部分,使得一個關系僅描述一個實體或者實體間的一種聯系。這一過程必須在保證無損連接性、保持函數依賴性的前提下進行,即確保不破壞原有數據,并可將分解后的關系通過自然聯接恢復至原有關系。

規范化設計的優點包括可有效地消除數據冗余,理順數據的從屬關系,保持數據庫的完整性,增強數據庫的穩定性、伸縮性、適應性。通常認為規范化設計存在的主要問題是增加了查詢時的連接庫表運算,導致計算機時間、空間、系統及運行效率的損失。在大多數情況下,這一問題可通過良好的索引設計等方法得到解決。

具體地說,規范化設計的過程就是按不同的范式,將一個二維表不斷地分解成多個二維表并建立表之間的關聯,最終達到一個表只描述一個實體或者實體間的一種聯系的目標。目前遵循的主要范式包括1 NF、 2 NF、3 NF、BCNF、4NF和 5NF等幾種;在工程中3NF、BCNF應用得最廣泛,本次項目采用 4 NF作為標準。

此外,數據庫系統對信息的處理、獲取、發布、存儲等提出了很高的性能要求。主要體現在以下幾個方面:

一、信息的存儲,以及日益膨脹的歷史數據。

二、信息的檢索,各種各樣的用戶如何從一個數據庫中快速的查詢到所需的信息。

三、數據的完整性和一致性如何保證。

隨著客戶/服務器(Client/Server)技術的成熟和大型關系型數據庫(LDBMS)技術的發展,出現了Oracle ,Sybase,Informix,DB2,Ms Sqlserver等一些著名的數據庫產品,使得這些問題得到完美的解決。但是,一個好的數據庫產品不等于就有一個好的應用系統,如果不能設計一個合理的數據庫模型,不僅會增加客戶端和服務器端程序的編程和維護的難度,而且將會影響系統實際運行的性能。一般來講,在一個軟件系統分析、設計、測試和試運行階段,因為數據量較小,設計人員和測試人員往往只注意到功能的實現,而很難注意到性能的薄弱之處,等到系統投入實際運行一段時間后,隨著數據的日益膨脹,才發現系統的性能在降低,這時再來考慮提高系統性能則要花費更多的人力物力,而整個系統也不可避免的形成了一個打補丁工程。

依據在軟件行業信息化應用中的數據庫設計和使用經驗,以及對項目建設的理解,提出以下一些設計準則:

命名規范原則。

不同的數據庫產品對對象的命名有不同的要求,因此,數據庫中的各種對象的命名、后臺程序的代碼編寫應采用大小寫敏感的形式,各種對象命名長度不要超過30個字符,這樣便于應用系統適應不同的數據庫平臺。

游標的慎用原則。

游標提供了對特定集合中逐行掃描的手段,一般使用游標逐行遍歷數據,根據取出的數據不同條件進行不同的操作。尤其對多表和大數據表定義的游標(大的數據集合)循環很容易使程序進入一個漫長的等待甚至死機。在有些場合,有時也非得使用游標,此時也可考慮將符合條件的數據行轉入臨時表中,再對臨時表定義游標進行操作,可使得性能得到明顯提高。

索引(Index)的使用原則。

創建索引一般有以下兩個目的:維護被索引列的唯一性和提供快速訪問表中數據的策略。大型數據庫有兩種索引即簇索引和非簇索引,一個沒有簇索引的表是按堆結構存儲數據,所有的數據均添加在表的尾部,而建立了簇索引的表,其數據在物理上會按照簇索引鍵的順序存儲,一個表只允許有一個簇索引,因此,根據B樹結構,可以理解添加任何一種索引均能提高按索引列查詢的速度,但會降低插入、更新、刪除操作的性能,尤其是當填充因子(Fill Factor)較大時。所以對索引較多的表進行頻繁的插入、更新、刪除操作,建表和索引時應設置較小的填充因子,以便在各數據頁中留下較多的自由空間,減少頁分割及重新組織工作的產生的概率。通常,還要根據算法邏輯關系動態調整數據庫信息表的索引。

數據的一致性和完整性。

為了保證數據庫的一致性和完整性,設計人員往往會設計過多的表間關聯(Relation),盡可能的降低數據的冗余。表間關聯是一種強制性措施,建立后,對父表(Parent Table)和子表(Child Table)的插入、更新、刪除操作均要占用系統的開銷,另外,最好不要用Identify 屬性字段作為主鍵與子表關聯。如果數據冗余低,數據的完整性容易得到保證,但增加了表間連接查詢的操作,為了提高系統的響應時間,合理的數據冗余也是必要的。使用規則(Rule)和約束(Check)來防止系統操作人員誤輸入造成數據的錯誤是設計人員的另一種常用手段,但是,不必要的規則和約束也會占用系統的不必要開銷,需要注意的是,約束對數據的有效性驗證要比規則快。所有這些,設計人員在設計階段應根據系統操作的類型、頻度加以均衡考慮。

事務的陷阱。

事務是在一次性完成的一組操作。雖然這些操作是單個的操作,Oracle數據庫能夠保證這組操作要么全部都完成,要么一點都不做。正是大型數據庫的這一特性,使得數據的完整性得到了極大的保證。

數據庫性能調整。

在計算機硬件配置和網絡設計確定的情況下,影響到應用系統性能的因素不外乎為數據庫性能和客戶端程序設計。

而大多數數據庫設計員采用兩步法進行數據庫設計:

首先進行邏輯設計,而后進行物理設計。數據庫邏輯設計去除了所有冗余數據,提高了數據吞吐速度,保證了數據的完整性,清楚地表達數據元素之間的關系。而對于多表之間的關聯查詢(尤其是大數據表)時,其性能將會降低,同時也提高了客戶端程序的編程難度,因此,物理設計需折衷考慮,根據業務規則,確定對關聯表的數據量大小、數據項的訪問頻度,對此類數據表頻繁的關聯查詢應適當提高數據冗余設計。數據庫模式體生成后,應根據應用系統的事物大小、服務器的性能調整數據庫服務器的系統參數,一般來講,有兩個系統參數鎖(Locks)的數量、內存(Memory)和過程高速緩存(Procedure cache)大小應加以提高,可以提高數據庫的操作性能。

2.4.4.2基礎數據庫設計

數據庫設計是建立數據庫及其應用系統的核心和基礎,它要求對于指定的應用環境,構造出較優的數據庫模式,建立起數據庫應用系統,并使系統能有效地存儲數據,滿足用戶的各種應用需求。一般按照規范化的設計方法,常將數據庫設計分為若干階段:

需求分析階段

需求分析階段要在用戶調查的基礎上,通過分析,逐步明確用戶對系統的需求,包括數據需求和圍繞這些數據的業務處理需求。通過對組織、部門、企業等進行詳細調查,在了解現行系統的概況、確定新系統功能的過程中,收集支持系統目標的基礎數據及其處理方法。

系統規劃階段

系統規劃階段主要是確定系統的名稱、范圍;確定系統開發的目標功能和性能;確定系統所需的資源;估計系統開發的成本;確定系統實施計劃及進度;分析估算系統可能達到的效益;確定系統設計的原則和技術路線等。對分布式數據庫系統,還應分析用戶環境及網絡條件,以選擇和建立系統的網絡結構。

概念設計階段

概念設計階段要產生反映單位各組織信息需求的數據庫概念結構,即概念模型。概念模型必須具備豐富的語義表達能力、易于交流和理解、易于變動、易于向各種數據模型轉換、易于從概念模型導出與DBMS有關的邏輯模型等特點。

邏輯設計階段

邏輯設計階段除了要把E-R圖的實體和聯系類型,轉換成選定的DBMS支持的數據類型,還要設計子模式并對模式進行評價,最后為了使模式適應信息的不同表示,需要優化模式。

物理設計階段

物理設計階段的主要任務是對數據庫中數據在物理設備上的存放結構和存取方法進行設計。數據庫物理結構依賴于給定的計算機系統,而且與具體選用的DBMS密切相關。物理設計常常包括某些操作約束,如響應時間與存儲要求等。

系統實施階段

系統實施階段主要分為建立實際的數據庫結構;裝入試驗數據對應用程序進行測試;裝入實際數據建立實際數據庫三個步驟。

2.4.4.3中心數據庫組成

中心數據庫是大數據中心的核心數據庫,根據項目建設要求包括:信息采集庫、綜合信息庫、規則數據庫、元數據庫和管理數據庫。如下所示:

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

圖:中心數據庫組成舉例

中心數據庫各庫間邏輯關系如下所示。

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

1.信息資源采集庫

中心信息資源采集庫部署在交換信息中心,其數據結構與各部門交換的數據源結構相對應。信息資源采集庫的內容來源于各個政務部門業務庫,是由各業務庫通過數據共享與交換平臺匯總形成,它是綜合信息數據庫的生成來源。如上圖所示。

2.綜合信息數據庫

綜合信息庫是基于信息采集庫生成的信息數據庫。包括將信息采集數據庫數據經過比對和整合系統進行比對、梳理形成的如法人和人口基礎信息庫等,和根據應用需求梳理、匯總形成的支撐各類主題的專業數據庫。人口信息基礎庫與法人基礎數據庫等的設計來源于部門業務資源,根據部門業務信息資源進行結構設計。

3.規則數據庫

該數據庫用于存儲數據庫應用、維護中的各種規則。包括比對整合系統比對規則信息,比對輔助信息,交換系統各類規則信息等。應用系統的運行必須制定相應的規則,包括用戶權限設計、比對策論與方法規則,以及應用的調用規則等。

4.元數據庫

元數據庫用于存儲對數據項的描述信息。根據國家《政務信息資源目錄體系》(GB/T21063-2007)標準的規定,核心元數據的定義包含6個必選的元數據實體和元數據元素,分別是:

信息資源名稱:縮略描述政務信息資源內容的標題。

信息資源摘要:對資源內容進行概要說明的文字。

信息資源提供方:信息資源的完整性、正確性、真實性等負有責任的業務部門的名稱和地址信息。

信息資源分類:說明共享政務信息資源分類方式及其相應的分類信息。

信息資源標識符:信息資源的唯一不變的標識編碼。

元數據標識符:元數據的唯一標識。此外,配合目錄體系建設,此次的企業和人口基礎信息建設的核心元數據,還包括6個可選的元數據實體和元數據元素。

信息資源發布日期:信息資源提供方發布共享政務信息資源的日期。

關鍵字說明:說明共享政務信息資源的關鍵字內容及其依據。

在線資源鏈接地址:可以獲取共享政務信息資源的網絡地址。

服務信息:描述政務信息資源提供者所提供的計算機服務功能接口的基本信息。

元數據維護方:對元數據內容負責的政務部門的名稱和地址信息。

元數據更新日期:更新元數據的日期。

5.管理數據庫

管理數據庫用于存儲問題數據、日志及權限等信息。包括比對過程問題數據;面向安全性的用戶管理、權限管理和密碼管理;面向可用性的節點管理和狀態監控;面向運行管理機制的信息管理。

2.4.5、數據處理系統

2.4.5.1數據清洗、比對和處理步驟

在數據經過數據共享交換平臺處理完成之后,針對基礎數據的入庫還需要經過數據處理方能正式入庫,以達到數據的統一和標準化,數據入庫流程如下:

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

圖:數據入庫流程

接下來圍繞數據比對、清洗及建庫來展開介紹。

數據處理主要包含兩個方面:數據清洗、數據比對、數據遠管理、規則管理、數據整合流程管理、作業管理,下面分開展述:

數據清洗:按照通用或者指定的清洗規則,針對數據本身屬性錯誤的數據進行過濾,例如:身份證號碼位數,只有15位或者18位,其他位數即可認定為身份證號錯誤,通過過濾規則,即可將這類錯誤數據過濾。通過數據清洗功能,為數據比對提供干凈、準確的數據環境。

數據比對:將同一屬性但來自不同數據源的數據,通過制定的比對規則進行比對,例如:同一人的婚姻狀況信息即可來自單位部門,也可來自民政部門,通過數據比對,比對一致,即可認定該人的婚姻狀況準確,不一致,則認定為錯誤,反饋到相關部門進行核查。

中心通過清洗比對系統,對采集庫獲取的各部門匯總信息進行清洗、比對,形成標準、規范、準確、可信度高的法人和人口基礎信息。

數據清洗比對系統主要功能包括:

數據源管理:通過數據源管理模塊可以定義多種數據源連接,獲得數據源的元數據,對數據源可進行增刪改查等操作。

規則管理:通過通用數據規則管理模塊,可以將基礎數據規則庫內的規則進行組合,形成新的規則。除了以圖形方式進行規則的組合和定義之外,還可以通過腳本定義更復雜的規則,包括規則的輸入參數和返回值等。通過這兩種方式自定義的規則都可被進一步使用,組合成更復雜的規則。某個項目下的自定義規則可以另存為擴展規則作為所有項目公用的擴展規則。

數據整合流程管理:數據整合流程的定義是通過在圖形界面上指定數據處理組件之間的關聯關系而完成的。數據處理組件包括數據過濾,數據轉換等多種類型。從數據整合流程生成數據作業,數據作業可以直接放入數據處理引擎執行。

作業管理:作業管理模塊負責將數據處理流程轉換為可運行的數據作業,并將作業上傳到中心管理平臺上,由中心平臺對作業進行統一的調度和管理。

2.4.5.2數據清洗系統

數據清洗實現對不符合規定格式的數據的“洗除”,利用用戶認可的過濾規則,過濾那些不符合要求的數據,最終將過濾的結果交給相關業務部門的過程。

數據清洗系統的功能包括元數據管理、數據服務、數據規則管理和安全模塊。具體如下。

元數據管理

元數據記錄了數據源的結構信息,有了元數據才能對數據源進行各種操作,元數據管理模塊提供了對各數據源的元數據進行注冊,加載,查看等功能。

數據清洗系統首先提供對關系型數據庫元數據的支持,以后可以逐漸擴展到對XML格式,消息隊列,文件,以及應用程序的特殊格式等進行支持。

管理平臺通過元數據存儲模塊提供的接口,獲得元數據倉庫中所有元數據的列表,并通過樹狀結構呈現出來。業務元數據和技術元數據分別顯示,技術元數據還可以按各數據源的實際類型分類顯示。

管理平臺的使用者可以對元數據進行修改或刪除等操作。

元數據存儲模塊集中存儲了各個數據源的技術元數據(由數據源注冊而來),業務元數據(由數據源注冊或通過中心操作管理平臺定義),以及從技術元數據到業務元數據的映射規則等內容。元數據注冊模塊則負責監聽數據源的注冊請求,當接收到注冊請求時,注冊模塊會分析接收到的元數據是否有效,并將有效的元數據注冊到元數據存儲模塊中。

在每個數據源端,元數據是通過XML文件描述的,在注冊數據源元數據的時候,數據源管理模塊會把要注冊的元數據生成XML文檔,并通過元數據注冊模塊提供的接口將此XML文檔注冊到中心。

元數據存儲模塊還對外提供了一系列的接口,允許外部應用程序通過這些接口對元數據倉庫進行一些操作,比如獲得元數據列表,查詢某些符合條件的元數據,注冊新的元數據等。

信息資源元數據根據部門共享信息資源的內容進行編目,提取其基本特征,按照《政務信息資源目錄體系標準》(GB/T 21063-2007)第三部分核心元數據、第四部分分類標準、第五部分資源標識編碼等相關標準,實現元數據賦值,形成目錄內容。

編目過程遵循以下國標規定的技術要求:

編目對象是具體的共享信息資源,主要內容包括數據集、檔案、法律法規、文件、報告、服務等,具體的形式可以是數據庫、圖片、文檔、音頻、視頻、網頁、服務等;

編目系統應支持自動、機輔方式完成元數據元素的賦值;

唯一標識符管理功能:按照GB/T 21063.5-2007,支持唯一標識符的分配和賦值,包括支持后段碼的自動生成和管理;

標準符合性檢查功能:支持政務信息資源元數據完整性和標準一致性檢查,元數據完整性檢查的主要目的是保證所有必選的元數據實體和元數據元素已經賦值,標準一致性檢查的主要目標是保證已填寫的元數據實體和元數據元素的取值符合GB/T 21063.3-2007、GB/T 21063.4-2007和GB/T 21063.5-2007的規定;

信息資源分類:按照GB/T 21063.4-2007,實現對共享政務信息資源的分類。

數據服務

數據服務是數據清洗系統中最核心的部分,由于采用了面向服務的架構(SOA),對數據的操作全部被包裝成服務的形式,數據服務種類的多少決定了對數據可以進行什么樣的操作。

數據清洗系統提供了一些預定義的基礎數據服務,如數據傳輸,數據轉換,數據清洗,數據比對,數據加載,數據共享等。同時還支持用戶自定義數據服務并注冊到平臺上,形成多樣化的擴展服務,實現了數據服務的安全性,可靠性,以及可調度性等。

數據清洗服務是數據清洗系統的核心,作為一個面向服務的平臺,數據清洗系統是由多個數據清洗服務組成的,其中包括一系列預定義的基礎數據服務,這些基礎數據服務包括以下幾個:

數據清洗:數據清洗過程應該包含兩個層次的含義,第一是數據過濾,將源數據按照一定的過濾規則進行區分,符合規則和不符合規則的數據分別存放到不同的數據表中;第二就是真正意義上的數據清洗,即按照清洗規則將數據源中的數據直接進行轉換,并代替原來的數據。在實際工作中,可以先實現數據過濾的功能。

不管是數據過濾還是數據清洗都需要相應的規則,由規則定義模塊負責制定。

數據比對:數據比對過程對兩個數據表中的數據按照規則進行比對,比如只在某一個表中存在的數據,或者通過字段之間的關系定義比對規則。比對之后生成符合比對規則的結果表,和比對的統計信息表。

數據加載:即在目的數據源中有一張目的表,多個數據源的多張表通過一定的加載規則將結果數據加載到這張目的表中。在實際的工作中,往往是有一張表作為基準數據表,首先進行加載入庫的操作,然后其它數據表通過與基準表進行比對,將相應的信息插入或更新至目的表中。

數據轉換:數據轉換可以看作是數據傳輸和數據清洗過程的結合,數據源的數據按照一定的轉換規則生成新的數據并存放至目的數據源中。數據轉換支持數據字段之間一對多,多對一,以及多對多的映射關系。底層使用XSLT描述數據轉換的內容。

數據共享:對分布式的異構數據源進行集中統一的查詢。中心有一個統一的數據視圖,但是并不保存數據,只有在進行查詢的時候,才將查詢語句拆分并發布到每個數據源進行實際的數據查詢。每個數據源查詢得出的結果整合之后返回給中心的查詢者,從而得到想要的查詢結果。

除了以上這些基礎數據清洗服務之外,數據清洗系統還應支持用戶自定義數據清洗服務,并提供數據清洗服務注冊接口,用戶可以按照提供的數據服務定義規范制定自己的數據清洗服務,并通過注冊接口將服務注冊到數據清洗系統的平臺上。數據清洗服務的定義和注冊機制提供了極大的擴展性,使得添加新的功能更加方便。

數據規則管理

許多數據操作,如數據清洗,數據比對,數據轉換等,都需要通過一定的規則才能完成。數據清洗系統的規則管理模塊提供了定義規則的用戶界面,使用者可以很方便的以圖形方式定義自己的規則。同時還提供了解釋規則的規則引擎,以及存儲規則的規則倉庫。

在數據清洗,數據比對,數據轉換等基礎數據服務,以及很多自定義的擴展服務中,都需要指定按照何種方式對數據進行操作,也就是數據操作規則。這些規則由規則管理模塊定義并維護,規則管理的內容包括:

提供基礎的函數庫,這里面的函數是定義一切規則的基礎,通過函數的組合關系,可以進行規則的定制。

支持規則的保存和重用,已定義的規則可以被用在新的規則定義中,從而制定更復雜的規則,減少了重復勞動。

提供定義規則的圖形界面,用戶不需要手工書寫規則文件的內容,而是只要在界面上通過拖拉連接的方式即可,已保存的規則可以在圖形界面上再次打開修改。

規則文件以xml格式保存,被保存在項目目錄下的自定義規則子目錄中,可以考慮采用xslt的格式。

為一些常用的規則提供已定義好的規則模版,用戶可以直接使用,或重用這些模版定義新的規則。

支持項目之間規則的導入導出。

支持多個規則按一定順序連接形成的規則流程。

使用規則時,從已有的規則庫中選擇要用的規則,并定義從數據表字段到規則變量的映射關系,從而從一個規則模版生成跟數據相關的具體規則。

安全模塊主要負責用戶權限的管理。安全模塊應該包含兩方面的內容,一是用戶的權限管理,包括用戶登錄,用戶對功能模塊的使用權限,數據源、規則的查看、修改、或刪除權限等;另一方面是數據傳輸的安全,因為大部分的數據服務都是包括數據傳輸部分的,如何保證數據的安全傳輸是一個很重要的方面。

2.4.5.3數據比對系統設計

數據比對服務系統主要解決不同數據集合間的數據比對問題。系統基于J2EE架構,提供了數據轉換與加載、數據預處理、比對規則設置、比對引擎、比對分析報告等功能模塊。

政府、企事業單位用戶根據對數據比對的需求,利用系統提供的功能,可以方便、快捷地在線實現數據比對分析,提供自動比對和手工比對策略相結合的方式,改變傳統的手工比對工作方式的不足,提高辦事效率。同時,可大大節約建設專用數據比對分析系統的資金。

數據比對服務系統可以滿足多種信息比對、分析的需求,主要功能是比較不同數據集之間的差異性。

比較兩個數據集合之間的差異情況,如企業基礎信息比對是這種情況的一個典型應用,通過比較工商、質監、稅務部門之間企業注冊登記、變更登記、注銷登記信息,找出不同部門之間重復采集、重復錄入造成的數據不一致問題,同時,通過比較可以發現在工商部門注冊,但未在稅務部門辦理稅務登記;已辦理稅務登記注銷但未辦理工商營業執照注銷等企業信息,加強稅源監控力度。比較的方法是以企業的工商注冊號、企業名稱為比較依據,對比不同部門提供的企業信息,等到完全一致的信息,企業名稱相同、企業注冊號不同,企業注冊號相同、企業名稱不同,工商有但稅務沒有的企業信息等多種不同情況比對結果。

本次系統建設,將比對系統引擎嵌入到系統底層,實現如法人基礎信息和人口基礎信息的比對引擎調用,根據法人基礎信息和人口基礎信息的比對規則,制定的比對策略,根據一數一源的原則,保證數據規則確定的唯一性,實現多層次的比對方法和策略。

數據處理流程

進行數據比對處理的一般包括4個環節:

(一)系統初始化

(1)系統管理員建立用戶,并分配用戶權限。

(2)用戶數據建模,規劃定義比對數據的原始數據結構、比對數據庫表結構以及兩者之間的映射關系,定義數據比對結果表結構。數據建模完成后,可以被同類型數據重復使用。

(二)規則定義和任務配置

(1)定義規則:用戶利用工具集定義數據過濾、數據比對映射、數據入庫規則。

(2)配置比對任務:用戶建立比對任務,任務的內容是執行不同的規則。

(三)運行使用

(1)用戶上傳原始文件,系統自動入庫

(2)執行比對任務,自動或人工執行比對任務

(3)使用比對結果:瀏覽比對結果、生成結果報告

數據關系轉換

為了適應不同用戶的需求,系統提供了數據關系轉換功能,用戶可以自定義數據結構。數據關系轉換功能的要點如下:

(1)定義原始數據文件:確定原始數據文件類型、數據結構。原始數據文件支持各類數據庫文件、文本文件、Excel文件、XML文件、Access文件等。

(2)定義數據庫結構:原始數據的數據庫表結構、比對結果數據表結構。

(3)定義原始數據文件與數據庫表的映射關系及數據轉換關系。

規則管理

規則配置包括:數據過濾規則配置、數據比對規則配置、比對結果入庫規則配置。

(1)數據過濾規則配置:配置數據過濾條件,篩選數據。 一般包括:字段類型校驗、字段值是否為空校驗、字段值長度校驗、字段間關系校驗等。

(2)數據比對規則配置:定義數據比較的規則,如比較的字段項、比對條件等,系統提供測試功能,用戶可以直接運行測試配置的比對規則。

(3)比對結果入庫規則配置:配置比對結果存儲規則。

任務管理

任務管理包括任務配置、任務監控等功能。

任務配置用來定義任務定時或周期性啟動比對規則進行數據比對處理。

任務監控功能可以監控任務執行歷史情況。

比對結果查看

對系統進行比對后的數據進行相關的條件查詢,并根據用戶的需求導出為相應的文件。支持的文件主要有:Excel、XML、TXT 等。

比對結果數據主要分為兩大類:比對匹配上的數據和比對匹配不上的數據。

其他功能

數據比對服務系統還提供用戶管理、權限管理、數據源配置管理、日志管理等系統級功能。

2.4.5.4數據處理的技術要求

數據處理是完成一個完整數據交換流程中的一個重要環節,是數據交換平臺所應具備的重要功能之一。數據處理過程包括數據抽取、數據橋接、數據過濾、數據清洗、數據比對和數據入庫幾個重要步驟。

通過對數據處理流程及規則的解析,根據定義的運行任務,自動執行數據處理工作,完成對數據的過濾、清洗、映射、轉換等功能。數據處理引擎支持模板技術,能夠根據不同的模板執行不同的處理語言,包括多種數據庫存儲過程、JAVA語言、C語言等。

數據處理功能可以通過手工方式和圖形化配置工具兩種方式實現。由于圖形化數據處理方式帶來的便捷性、可靠性、技術先進性和易維護性等特點,新一代的數據交換平臺必須聽過強大的數據處理功能。

對主流數據庫和常用格式化文件的支持

支持所有的ODBC或JDBC兼容數據庫,包括Oracle、Sybase、Informix、 Microsoft SQL Server等。可以方便的實現對數據庫的訪問,無論從數據庫抽取數據,還是插入數據。

支持格式化數據文件,如XLS、XML、文本文件等。

數據轉換

實現源數據庫和目標數據庫之間的信息的轉換,根據需求對抽取的數據進行必要數據處理配置,不需要開發代碼,提供圖形化界面,方便用戶設置數據轉換規則。轉換的類型包括:字段名轉換、代碼轉換、數據類型轉換、數據校驗、數據合并等。

數據抽取方式

支持完全提取和增量提取兩種方式。完全抽取是一次性將源數據庫的所有業務數據抽取到目標數據庫中;增量抽取是只將發生過增、刪、改的新鮮數據抽取到目標數據庫中。支持數據庫映象方式的數據抽取。支持實時、定時、周期等多種采集方式。

對負載均衡及容錯的支持

前置交換結點(適配器)應提供負載均衡及容錯支持功能,任何一臺機器發生故障均不影響整個交換結點的正常工作和運行,在交換任務繁忙是可將任務自動分配到多臺交換前置機上運行。

部門維護“零管理”的支持

應用適配器是在中心管理和維護的,對部門來說,無需任何維護和管理工作。

數據過濾和清洗

設置數據轉換字典,定義數據庫中的臟數據及所述臟數據的修改規則;

獲取所述數據庫的屬性,數據屬性包括數據的編碼格式、字符格式及字符長短;按照規則對編碼格式不符合設定標準的數據和含有“臟數據”的數據進行修正;對所述讀取的數據進行標準化處理,將經過標準化處理后的新數據導入數據庫或送到交換平臺。

2.4.5、數據資源目錄

數據資源目錄管理是,建立統一的數據匯集庫和管理界面,方便數據運維管理人員對“標準數據區”的數據進行管理、分類、查找。數據接入獲取到的結構化數據進行全量的存儲。根據建立的數據標準進行相應的數據處理后,可根據主題建立多級目錄進行管理。圍繞業務流程和研判分析等應用需要可建立各種類型的專題資源庫。通過對結構化數據進行二次抽取關聯,按不同業務主題建立專題庫、支持將結構化數據通過二次抽取,建立可進行全文檢索的全文庫。

1)關聯資源庫

在基礎數據資源庫的基礎上,采用關聯的技術方法,建立關聯模型,實現各類數據資源的關聯和集成調用。建立要素內各類基礎數據的集成關聯以及各要素事實表相互間的關聯,并進一步延伸實現各要素內基礎業務管理數據及可關聯共享數據維度表相互間的關聯。

2)專題資源庫

圍繞業務流程和研判分析等應用需要,基于基礎數據和綜合關聯數據,按照一般地級市單位局不同的應用側重點,分類研究制定不同的數據組織策略和技術實現方法,建設形成流程應用和專題研判兩大應用層面數據資源庫。建立具有專題性質和關聯關系的表。主要包含三個功能模塊:a、行篩選。b、列篩選。c、表關聯。通過行篩選可進行內容的篩選,如籍貫選擇:新疆。通過列篩選可選擇需要建立專題表所包含的字段,將無用字段進行剔除。通過表關聯將數據進行邏輯上的打通,實現數據間的關聯。專題庫可對外開放給業務人員進行數據接口的調用。

1)類目標庫

類目標庫按照單位“五要素”的數據大類分類習慣,分為“人、車、地、物、組織”五大類,可根據業務要求對要素分類進行重新歸類整合。

2)專題目標庫

專題目標庫按照數據的業務分析研判使用習慣,包括“涉恐重點人員專題庫”、“高危車輛活動匯集專題庫”、“涉穩情報線索專題庫”、“重大安保專題庫”、“關系人員專題庫”、“人車布控專題庫”等,可根據業務要求無限制拓展專題庫種類和范圍。

此外專題庫的單位包括但不限于以上的內容,可在項目執行過程中不斷細化分類。

3)全文資源庫

在完成基礎數據資源庫、綜合關聯資源庫和應用數據資源庫建設的基礎上,按照數據資源邏輯關聯、集成共享的目標要求,建設統一的標化共享全文資源庫,用于描述存儲其他數據中心開放共享和局方開放給其他數據中心共享的各類數據資源目錄清單、共享服務方式和調用路徑等信息。在基礎資源庫上進行二次抽取建立的全文庫,目的為進行全文檢索的底層庫。進行數據庫全文檢索時僅可檢索出全文庫中的數據。并在全文庫中建立一級目錄便于在全文檢索結果中進行分類查找。在創建全文表時需選擇首頁展示字段,在全文搜索的結果的第一頁面進行展示。

數據資源目錄的建設可以使數據的管理者清楚知道目前的數據總量、數據類型、數據來源以及方便的查找每種類型數據的獲取方法獲取路徑。能做到方便的數理淘金。

2.4.6、數據監管服務

數據監管服務包含了數據運維監管和數據質量監管兩大部分。

數據質量監管:數據作為信息化應用的主體,本身具有多重特性,不僅有適用性、準確性、完整性、及時性、有效性等質量特性,還具有可取得性、可銜接性、可解釋性、客觀性、專業性、可比性等非質量的應用屬性。

所采集原始數據的真實性是確保整個統計數據質量的基礎。要對數據質量進行較好地控制,就必須對數據的質量特性進行很好了解,從而在各個方面采取措施,杜絕數據質量問題的出現,使數據監督工作能夠真正達到控制數據質量的目的。

數據質量管理可以根據用戶的業務規則和邏輯,通過大量內置的質量校驗模型對原始的業務數據進行檢查,并生成質量檢查報告。業務人員可以根據質量檢查報告及時修正原始的業務數據,提升業務數據的完整性、一致性、準確性等質量問題,實現改善數據質量的目的。

產品能夠分析多種類型的數據源,包括國內外主流的數據庫Oracle/MySQL/SQLServer /DB2/Sybase/Netezza/HIVE/HBase/神通/達夢/金倉/通用等;支持 txt/csv 格式的文本數據源校驗。同時,可以通過擴展接口配置,提供擴展新數據源功能。

業務數據檢查

通過數據挖掘分析出異常數據對異常數據進行檢查

質量模型管理

質量模型管理主要負責管理業務校驗模型,功能包括新建校驗模型、修改校驗模型、刪除校驗模型、搜索校驗模型、校驗模型分組管理以及分發校驗模型。

質量規則管理

質量規則管理主要負責管理系統的質量校驗規則,包括對數據質量規則的新建、刪除、修改、導入導出等,同時提供質量規則分組管理功能,便于對數據質量規則進行分類。

質量規則擴展

系統除了內置大量已有的通用質量規則以外,還應支持質量規則的自定義擴展能力。允許用戶依據具體的行業特性自定義擴展校驗規則,具體擴展方式包括常規校驗規則,正則表達式校驗規則和 JavaScript 表達式校驗規則等。

校驗維度管理

產品提供完全基于 web 方式的管理和配置,可以提供多種校驗維度,包括表間校驗、表級校驗和字段級校驗三種。以上三種不同的校驗維度均需內置大量常用的校驗規則,滿足日常的數據校驗需求。

數據質量監控

數據質量監控是對任務最近執行情況的管理與跟蹤,主要包括了快速搜索任務、運行校驗任務、查看校驗報告、檢查規則、重置值域緩沖數據等功能。

質量報告管理

針對數據質量校驗結果,系統可以出具質量校驗報告,報告可以提供在線查閱的功能,能夠詳細展示每次校核任務的執行結果,判斷數據質量問題的具體細節,同時,用戶可以通過頁面下載所有的錯誤數據,便于業務人員進行數據修正。

數據質量分析

可以方便的查看各個數據源和某一時間段內的數據健康情況和排名統計,以及系統數據的規則數統計和問題數據量統計等信息,便于用戶宏觀地掌控系統數據質量情況。

同時,系統提供“數據質量評估統計結果”,“數據質量分數走勢圖”和“問題數據占比走勢圖”等統計功能。

錯誤數據入庫

允許用戶通過系統配置自定義錯誤數據寫入的目標庫。在數據質量校驗后, 產品將錯誤數據自動寫入目標庫中,用戶可以在數據庫中查看所有錯誤數據。

規則權重管理

允許用戶自定義校核規則的權重,即可以自定義某一個校驗規則的全局權重值,也可以自定義某一個校核方案中具體規則的權重值。成功設定權重值后,質量校核的打分將依據最新的權重值進行計算。

多種碼表管理

產品提供數據質量校核碼表管理功能,支持業務碼表管理和系統碼表管理。業務碼表管理可以根據用戶自定義的數據源,通過 SQL 語句自定義碼表內容;

系統碼表可通過 excel 模板的填寫,批量地導入碼表內容。

前置任務管理

前置任務管理完成服務間的聯系,實現服務間通信,收發業務模型。提供對前置任務的新建、修改、刪除等功能。

任務調度管理

針對執行頻率較高或者執行時間較固定任務,可以利用調度管理功能進行精細的作業調度。

產品提供新建調度和關聯任務模板的功能。用戶可以使用這些功能定義多個調度,并將調度與質量校驗任務關聯,實現質量校驗任務根據調度策略自動執行。

數據運維管理:監控平臺運行、標準建設度、數據集成異常動態、代碼差異統計動態、數據質量統計動態、以及數據庫聯動監控;可在線化動態生成數據模型拓撲、數據流向拓撲圖。

可以實時監控數據的動態。平臺運維人員為系統管理員對系統運行狀態,數據情況,服務使用情況提供監測界面;

提供任務調度機制,對任務進度情況進行實時監控;

對任務做配置操作,如數據更新方式、任務調度周期等。監測界面包含平臺監測和數據監測,其中平臺監測展示集群服務器運行的狀態,包含CPU、內存、15分鐘負載、HDFS的空間占用率,并對Hadoop運行組件進行監控,及時掌握系統的運行狀態。數據監測為對系統中錄入的數據和接口服務狀態進行可視化統計和展示,包含錄入數據總量、錄入表總量、本周數據增量、上周數據增量、所錄數據來源分布圖、數據趨勢圖、服務申請TOP10、服務申請統計。(可視化部分需與指揮中心大屏顯示系統進行對接)。任務調度實現對數據錄入、同步等在執行任務進行任務跟蹤和任務的配置。通過數據跟蹤可查看正在執行任務的進度和狀態,可進行啟停操作。通過任務配置,將任務調度機制進行配置和修改,保障系統資源占用合理。

2.4.7、統一的數據服務

數據服務是敏捷的數據虛擬化平臺產品,可以將共享數據通過 Web 頁面快速封裝成 API 接口,以 API 接口形式對外提供數據服務。通過實時統一的數據訪問入口提供數據服務,一方面可以屏蔽共享異構數據的復雜性,同時也大幅降低了傳統硬編碼共享接口的工作量,顯著縮短項目工期。

此外,數據服務系統應具備完善的權限控制能力,可以滿足用戶在多種復雜的應用場景中對數據訪問和內容安全的權限控制需求。整合智能數據中臺的數據服務能力,快捷的將已有能力授權給外部應用訪問使用,服務于各業務系統。提供數據服務資源注冊、審批管理,并面向應用開發者提供數據服務申請、授權管理的系統。服務資源管理既可以注冊由本地數據倉庫服務接口系統提供的數據服務,也可以注冊來自其他系統提供的數據服務

系統應采用業界先進的設計理念和成熟的技術路線。架構設計遵循自主可控、安全、高效、開放、穩定的原則,確保整個產品平臺的安全性、高效性、易用性、可擴充性和可維護性。其系統功能架構如下所示:

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

產品的系統架構可以分為以下幾個部分:

執行引擎:在執行引擎中,系統具備完善的適配模塊,可以適配國內外主流的關系型數據庫、擴展支持文件數據源以及 NoSQL 數據源等。用戶可以依托產品提供的各功能模塊完成數據接口封裝,權限控制以及 OData 解析等功能。

控制臺:控制臺負責為用戶提供多種管理和監控功能,包括 API 接口調用情況的監控、API 接口維護管理、用戶管理和元數據管理等。

第三方接口:系統提供了種類豐富的第三方服務接口,包括 API Gateway 接口以及服務集成類的接口等。通過上述服務接口,用戶可以在第三方系統中進行產品的集成和二次開發,以滿足用戶不同業務場景的功能需求。

  • 數據源管理

產品具備國內外各類主流數據庫的訪問能力,包括 Oracle、MySQL、SQLServer、DB2、Sybase、PostgreSQL、HBase、神通、達夢、金倉、南大通用等等。同時也支持靈活擴展新的數據源類型。

  • 數據發布

支持基于國際通用的 OData V4.0 標準發布 REST API 標準接口。多表關聯

產品既可以針對單表的應用場景發布共享服務接口,也可以針對多表關聯的復雜場景,提供數據服務接口的封裝,并提供查詢、插入、修改和刪除等功能。此外,針對多級嵌套的關聯查詢場景,允許用戶在任意的嵌套層級中過濾和

  • 篩選數據。安全管理

產品可以提供完善的數據安全管理能力,具體包括:

設定接口類型:完全公開、需要申請、不公開。

設定接口請求類型:全部、查詢、新增、修改、刪除

設定數據資源項是否隱藏:針對數據資源中的某一項,管理員可以設定為對外公開或者對外隱藏。

設定查詢條件:管理員可以通過自定義 where 查詢條件,只返回滿足查詢條件的數據資源,而非全部數據,滿足數據安全控制需求。

提供必填列校驗,過濾列篩選校驗以及必填過濾列校驗等。

用戶級別權限控制:針對同一個接口,管理員可根據不同的申請用戶,設定返回不同的字段列,也可以通過 where 查詢條件,設定只返回滿足查詢條件的數據資源。

  • 加密解密
  • 訪問控制

產品能夠以白名單的形式控制 IP 地址訪問權限,不在 IP 地址白名單內的服務器無法調用 API 接口。

訪問地址控制功能應提供兩級設置,包括全局設置和用戶級別的白名單設置。全局設置里的白名單可以針對所有用戶都起作用。用戶級別的白名單功能,可以針對某一個用戶,指定允許調用接口的合法 IP 地址。

  • 調試功能

產品內嵌數據服務調試功能,可基于自定義的條件格式和數據內容調試服務接口,便于用戶實時掌握接口的健康狀態。

  • 審計日志

產品將用戶對數據服務的調用時間、調用行為、調用結果、客戶端 IP 和登出系統時間等信息都可以持久化到數據庫中,形成審計日志以便后續查詢審計。

此外,數據服務系統應具備完善的權限控制能力,可以滿足用戶在多種復雜的應用場景中對數據訪問和內容安全的權限控制需求。

服務平臺實現的功能要求:

目錄服務:在目錄服務模塊中,產品對所有數據資源提供統一的元數據管理功能。同時,該模塊提供了數據資源的注冊、發布、審核、申請和訂閱等全流程管理功能,滿足數據資源日常管理需求。

瀏覽檢索:提供數據資源的全局檢索和數據地圖瀏覽功能。

管理監控:提供目錄管理和統計功能。

服務接口:系統提供了種類豐富的第三方服務接口,包括管理集成服務接口,以及下載服務接口等。通過上述服務接口,用戶可以在第三方系統中進行產品的集成和二次開發,以滿足用戶不同業務場景的功能需求。

統一數據服務系統具備如下特點:

集中的服務開放門戶:提供集中的能力服務門戶,提高能力使用效率,降低 服務搜索成本。

統一的服務分享平臺:統一匯聚已有的數據和能力,形成匯總視圖,供內外 部應用與檢索。

統一的能力出入口:快捷的將已有能力授權給外部應用訪問使用,是整個數據中臺生態的統一能力出入口。

標準化的能力支撐平臺:構建數據服務能力、應用服務能力、消息服務能力的 標準化發布模板,降低二次學習成本。

2.4.8、數據共享交換服務

數據交換系統,負責相關數據的傳輸、交換、格式轉換的工作,即數據交換平臺,是整個系統的核心支撐。

通過數據交換平臺將各個參加節點部門的業務數據匯總到數據中心。利用交換平臺實現異構系統的數據采集、可靠信息傳輸等功能。利用平臺提供的適配器功能實現對數據的抽取、加載、格式轉換等功能。根據信息資源總體框架建設要求,空間地理信息庫、人口基礎庫、法人基礎庫、案件信息數據庫等都是信息資源的重要組成部份,為此對數據交換平臺提出了支撐多個交換域、形成信息資源交換體系的基礎要求。

信息資源交換體系建設的核心內容,就是建設信息資源數據交換平臺,交換平臺是信息資源交換體系的樞紐,通過交換平臺與各部門、部門行業專用交換平臺實現互聯互通,構成支撐跨地區、跨部門信息交換與業務協同的基礎設施。信息庫系統由交換信息庫、共享信息庫組成;數據交換平臺由交換橋接子系統、前置交換子系統、交換傳輸子系統、交換管理與監控子系統組成。通過交換橋接子系統將部門需要交換的信息交換到前置交換信息庫,在交換管理子系統的流程控制下,通過交換傳輸子系統、前置交換子系統,把需要交換的信息定向傳輸到接收部門。

數據交換平臺涉及三類不同的角色,分別是:

(1)參與信息交換的政務部門負責建立交換橋接系統(業務系統接口系統),實現內部業務系統與交換信息庫內容的同步。

(2)跨部門信息交換協同應用牽頭部門負責對經過信息交換平臺采集的信息資源的整合、處理、管理與使用,負責本交換域內的交換業務管理。

交換平臺支持分布式前置交換和人工上傳集中式交換兩種交換模式。

1.分布式前置交換

對于信息化建設水平高,業務系統及業務信息庫完善的部門,安裝交換前置機,將交換平臺與部門業務系統隔離開來,保證部門業務系統與業務數據庫的獨立性,同時保證部門業務網絡、業務系統的安全。交換前置機上安裝部門前置交換信息庫,保存部門對外交換共享的數據和從交換平臺接收的數據。部門業務應用數據庫與前置交換數據庫之間通過信息交換橋接實現交換信息的實時同步。

2.人工上傳集中式交換

對于信息化建設基礎相對較差,業務信息系統建設不完善的部門,采用人工上傳/下載的方式實現集中式交換。發送數據時,利用信息交換交換中心的數據上傳網站,部門將需要交換的信息以XML、文本文件、EXCEL文件形式上傳到交換中心,交換中心配置的適配器將上傳的數據發送到信息交換平臺,并經信息平臺發送到相應部門。接收數據時,由交換平臺負責生成數據交換文件保存到指定的目錄,部門通過數據上傳網站下載所需數據文件。

數據交換平臺,以多個部門為交換節點,各交換節點各自負責部門內縱向信息匯聚與分發,通過數據交換平臺實現多部門的數據共享與交換。

總體建設框架包括:交換網絡、交換前置機、前置交換信息庫、信息交換平臺、信息交換橋接等。其中的交換網絡基于市電子政務外網。

(1)交換網絡:連接各交換節點前置機、交換中心交換服務器的網絡。

(2)交換前置機:由操作系統、前置交換信息庫、信息交換通訊接口、前置交換安全管理模塊組成。

(3)前置交換信息庫:各參與交換部門及交換中心之間共享信息雙向交換的中轉數據庫。包括部門對外發布的信息和從其他部門接收的信息。

(4)數據交換傳輸:實現不同部門前置交換信息庫之間安全、可靠、穩定、高效的信息交換傳遞系統。

(5)數據交換橋接:由部門業務應用信息庫到前置交換信息庫之間的信息交換橋接接口,以完成兩個信息庫之間的在線實時交換。

(6)數據交換路由:實現市區兩級數據交換平臺的對接。

(7)管理與服務系統:由數據比對、交換庫管理與維護、日志管理、用戶及權限管理、數據備份以及對整個交換運行情況的監控等部分組成。

系統總體框架如下:

數據中臺及大數據支撐平臺項目建設方案(WORD)(為數據中臺構建提供基礎大數據)

圖:系統總體框架

如圖所示,數據交換平臺依托于電子政務網絡,由交換橋接子系統、前置交換子系統、交換傳輸子系統、交換路由子系統、交換管理與監控子系統等組成。各參建單位通過前置交換系統接入交換平臺,通過交換平臺完成數據的共享與交換,通過交換平臺的交換路由子系統實現與數據交換平臺的無縫對接。

前置交換子系統

為確保各部門的原有系統的運行不被資源整合所影響,保障原系統的數據安全,使用前置機作為各部門與數據交換平臺進行數據交換的窗口,也可認為它是各部門的業務系統與數據交換平臺之間的數據流動中轉站。它一方面從各業務系統提取數據,向數據中心提交;另一方面從數據中心接收數據,并向業務系統傳遞數據。同時,前置機也具備緩存交換數據,對數據進行過濾、加工和展現的功能。這樣可以有效規避潛在的信息安全風險。它由網絡通信系統、操作系統、交換信息庫、前置交換環境、交換服務配置工具等組成。

單位、計生、勞動、民政、衛生、工商、質監、國稅、地稅等部門配置交換前置機,成為與信息交換總線相連接的橋梁,同時也是與部門內部業務系統及業務信息庫相隔離的“堡壘”。在部門前置機上安裝前置交換數據庫、應用適配器系統以及橋接系統,用于實現信息的發送和接收。

(1)前置交換數據庫

部門交換前置機安裝MySQL數據庫作為部門前置交換信息庫。部門前置交換信息庫,即為部門業務信息采集庫,通過橋接系統將部門信息導入到部門業務信息采集庫中。

(2)應用適配器系統

部門交換前置機安裝應用適配器系統。應用適配器系統負責自動從部門前置交換信息庫提取數據發送到信息交換總線,同時,從信息交換總線上獲取信息并存儲到部門交換信息庫。

(3)橋接系統

部門交換前置機上的橋接系統,實現部門業務信息庫與部門交換信息庫之間的信息交換橋接功能。

(4)交換傳輸子系統

交換傳輸系統即消息總線系統,作為前置交換系統之間的信息交換通道,實現交換信息的打包、轉換、傳遞、路由、解包等功能。

(5)交換橋接子系統

交換橋接系統是部門業務數據對外共享的雙向接口。它負責將部門業務數據提取到前置交換系統中;也負責將前置交換系統中共享數據導入業務部門。

數據交換平臺是系統間無縫共享數據、連通信息孤島的高速公路,由數據交換管理模塊、核心元數據審批模塊、適配器模塊、數據傳輸設計模塊,權限設計模塊,安全性和穩定性模塊,易擴展,易用性模塊組成,提供點對點的數據共享機制,有效的減輕了中心負擔,實現系統的負載均衡,保證數據安全可靠高效的轉遞。

數據共享交換系統也包含數據中臺內部系統間的數據交換共享,采用B/S模式設計;實現了集中管理靈活配置,用戶只需通過簡單的操作,就可完成數據共享交換的配置。通過適配器圖形化拖拽的方式,簡單的配置來實現。

系統采用SOA框架,很好適應未來的擴展需要。可以方便的擴展節點數量,在服務器上部署新的數據交換應用和更新數據交換原有應用。對傳統的消息中間件進行了改進,實現節點的熱部署,熱配置。能實現節點的一次性添加。

文件交換引擎:提供基于文件交換任務的大文件交換能力,提供文件交換故障恢復、文件斷點續傳能力。

庫表交換引擎:提供基于庫表交換任務的大數據量交換能力,提供庫表交換故障恢復、數據續傳能力。

文件交換任務服務:提供文件交換任務配置服務,包含定期交換任務、按需交換任務。

庫表交換任務服務:提供庫表交換任務配置服務,包含定期交換任務、按需交換任務。

文件交換監控:提供文件交換過程的監控分析,確保文件交換過程的透明、可控。

庫表交換監控:提供庫表交換過程的監控分析,確保庫表交換過程的透明、可控。

2.4.9、數據中臺服務可視化服務

基于H5的可視化圖形及交互引擎。支撐完成可視化組件構建、渲染、呈現及生命周期管理,支撐組件間消息通信、參數化、預警等基礎功能。

基于H5的豐富的可視組件庫。包括多 種基于可視化引擎開發的豐富、立體、全面的可視化圖形庫,同時支撐2D呈現能力,支撐靜態和矢量圖,支持數據動態綁定。組件可復用性強,可基于此組件組裝配置復合組件,可在應用主題中按需組合配置。

可視化組件在線配置。提供可視化組件在線配置界面,用戶可通過瀏覽器自行配置可視化組件布局、大小、顏色、狀態、皮膚、自適應性指標等,配合的生效范圍可控制在用戶級、系統級。

可視化組件動態關聯。提供可視化組件相互通信、參數傳遞易用性配置方法,允許客戶定制化組件間參數傳遞及交互邏輯。

本次數據中臺的可視化主要支隊的是數據匯聚和服務調用的可視化展示。

數據匯聚可視化展示:可通過地圖化的方式,可視化的展示,數據總量,數據類型,每種數據的來源等,提供了數據標注,及數據報警提示功能。

服務調用可視化展示:可呈現近一天、近一周、近一月的各類服務類型的調用匯總情況,包括服務所屬應用服務名稱,調用應用名稱,總調用次數,成功調用次數等。通過儀表盤提供數據服務系統概覽,包括“數據源數量”、“接口數量”、“用戶數量”等數據。此外,儀表盤還應提供“接口訪問趨勢圖”、“用戶訪問 TOP”、“接口訪問 TOP”等分析數據,并允許用戶自定義時間段進行聯動數據的統計分析。

2.4.10、大數據支撐平臺

大數據支撐平臺是整個單位大數據體系架構的基礎,其建設目的就在于為數據存儲、數據處理、分析應用搭建環境以及所有的功能組件支持。支撐平臺既承載了單位數據的管理,為上層單位應用提供數據支撐。它統一管理、集中存儲了單位的各種數據,保證數據質量。同時提供多種數據計算引擎供應用選用,以更好挖掘數據價值。

建立全局大數據基礎支撐平臺,包括Hadoop大數據分布式架構、分布式緩存數據庫、全文檢索庫等,需滿足全局各單位的數據需求和應用需求。建成后能夠實現大數據的存儲、實時分析挖掘、離線分析挖掘、在線查詢統計及全文檢索等功能。

Hadoop大數據支撐平臺的主要要求如下:

(1)實時計算服務:基于Spark、Kafka提供流式實時計算。提供標準JDBC接口,方便上層服務接口訪問底層數據,通過查詢服務接口,實現高效查詢效能。基于Sqoop實現不同來源數據接入,將數據以文件形式分布式存儲在HDFS中,包括歷史數據,增量數據;

(2) 離線計算服務:基于MapReduce以及Hive提供離線計算服務,對海量數據提供復雜批處理;

(3) 分布式緩存數據庫:提供實時比對服務和搜索算法,滿足實時比對、布控業務場景要求;

(4) 全文檢索:提供實時檢索服務,基于ElasticSearch的全文檢索引擎架構,提供完整的查詢檢索和索引檢索,實現分布式全文檢索功能;

(5) 需要提供可視的各個組件的監控管理UI平臺。

具體技術參數指標要求:

(1)開放性,成熟性要求

必須是采用當前先進且成熟技術的,具備分布式集群擴展能力的數據管理系統產品,并符合未來大量新增數據管理技術的發展潮流;

(2)海量數據處理和高性能要求

數據中心應有強大的處理能力,應遵循主流大數據處理架構(Hadoop架構),支持先進內存數據分析引擎(Spark),支持基于Hive的數據倉庫建設,能夠支持多計算節點并行處理,支持的大數據組件包括DFS、Hive、Spark、HBase、Sqoop、ZooKeeper、ELK、Kafka、Flume、Pig、Mahout、HAWQ、PXF、Oozie、Storm、Accumulo、Atlas、Kerberos、Ranger及KMS等。

提供單節點多隊列服務機制,最大程度發揮每個計算節點的處理性能;應能在系統資源低負擔的條件下提供最高的并發度和最大的吞吐量;在集群環境中支持節點內和跨節點并行處理技術;

應支持大數據量處理的數據分區等優化大數據量處理的技術,支持數據分區,表分區、多維數據分區等分區技術,分區方式不受CPU數量、節點數量等影響;

(3)可靠性和高可用性要求

應支持7×24不間斷的運行處理;

支持靈活的數據備份/恢復功能,支持多數據副本,單一磁盤損壞時,數據不丟失,業務不中斷;

應提供軟件容錯機制,包括數據庫、日志鏡像、自動恢復和集群機制,具有高度的數據可靠性、容錯能力、完整性和有效性;

平臺軟硬件系統平均無故障運行時間(MTBF)≥2000小時,平均故障修復時間≤2小時,系統可用度≥99.9%。

(4)可擴展性要求

應支持集群服務節點擴容功能,支持集群中節點的存儲擴容功能,支持自動負載均衡;

最大可擴展節點數目應大于256個,有大于32節點的測試結果或大于4個結點的應用實例可參照。

(5)安全性要求

應達到多級安全控制,支持數據存儲加密、數據傳輸通道加密;

應支持存取控制、身份識別、角色劃分、追蹤審計等安全機制;

軟件公司負責在軟件代碼設計、賬號權限管理、系統配置等方面確保通過等級保護要求和風險評估測評。

(6)易管理性要求

提供統一的圖形化數據中心管理工具,可對數據中心網絡上的硬件平臺和軟件系統進行集中式的統一管理;

可以提供圖形界面的數據性能監控和動態性能調整等功能,具有對軟件系統自動參數調優功能;

支持對數據中心服務組件的啟停狀況、組件集群的運行狀態進行監控;

支持對數據中心數據管理工具進行圖形化界面參數配置,支持一鍵安裝、一鍵擴容。

(7)兼容性要求

要求保證投標產品為當前主流產品,并保證未來至少5年的持續研發能力和擴展能力,并提供與未來替代產品的平滑遷移能力。

(8)性能要求

本期項目各業務處理部分依靠網絡和集中部署的分布式計算機系統實現。要求具備較強的分布式數據處理計算能力;服務器并行處理和數據集群處理能力。系統用戶訪問性能:用戶并發數≥500;要求系統能迅速的對用戶響應,在峰值網絡連接情況下,響應時間≤3秒。峰值網絡連接情況下,發送、接收5M文件≤5秒(假設失敗重傳率達到20%)。每發送/接收小于10M的數據發送/接收成功率應在99.9%。

? 數據檢索性能:要求對文件或數據的全文檢索;3秒內返回檢索結果;要求分布式高效檢索,可以通過擴充節點增加檢索性能;要求針對專題數據或指定數據表的全文檢索,3秒內返回檢索結果;要求實現針對不同數據類別進行高級檢索,3秒內返回檢索結果;

? 數據可視化展現性能:數據可視化前端展示頁面,要求每個頁面加載時間≤3秒。

下載方式

高質量PPT方案報告及WORD方案已上傳至知識星球(目前已經積累2W 方案報告待上傳星球)。

加入方式:

1)、關注公眾號:優享智庫

2)發信息

3)點擊知識星球,獲取加入方式。會員不限量下載。

版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

(0)
上一篇 2022年7月7日 上午11:23
下一篇 2022年7月7日 上午11:37

相關推薦