來源:2023鑫智獎第四屆中小金融機構數智化轉型優秀案例評選
獲獎單位:晉商銀行
榮獲獎項:運維管理創新優秀案例獎
一、項目背景及目標
隨著銀行業信息科技的高速發展,晉商銀行數據中心網絡上承載了越來越多的核心業務系統,因此對網絡運行的穩定性要求也越來越高。但信息系統間日益復雜的網絡訪問關系,網絡上傳輸的日益增多的數據類型,都對網絡運維管理工作帶來了嚴峻的考驗。如何對重要業務系統數據流量進行端到端的可視化監控,如何對網絡丟包、傳輸時延、服務器響應時延、會話異常中斷等關鍵網絡指標進行精細化監控,實現對網絡的主動高效運維,成為網絡運維人員亟待解決的問題。以此為背景,晉商銀行建設了一套能夠實現網絡數據流傳輸質量可視化監控的網絡流量分析系統。最終實現的目標如下:
1.透視網絡全流量成分:多維度可視化精準到秒級的任意時間段內的網絡流量成分。在網絡流量成分出現異常突發時,網絡運維人員可以快速定位到網絡中的違規流量。
2.網絡傳輸性能可視化監控:圖形化監控網絡邊界線路傳輸質量、內網高層網絡設備數據傳輸質量,對網絡設備存在的性能瓶頸或者隱患進行及時發現,縮小由于設備或線路問題導致的負面影響。
3.網絡視角主動分析業務性能:從網絡角度,通過網絡時延、網絡丟包、連接成功率等量化指標來衡量用戶的業務體驗和網絡質量,能通過主動分析發現重要業務系統中存在的性能瓶頸。
4.故障快速定位:對于業務訪問失敗、訪問慢等各種故障現象,通過網絡/應用性能指標的主動預警和專家模塊診斷,幫助管理員快速確定故障位置,定位問題原因,極大降低排查故障時間,提升工作效率。
5.數據可溯源:長期保存業務系統通訊數據,對于突發性故障可以提供歷史數據回溯,重現網絡故障現象,定位原因,避免故障再次發生,排除隱患。
二、創新點
晉商銀行網絡流量分析系統項目建設之前便預見全路徑監控的必要性,鏡像流量的廣大需求性,因此行方建設了第三張網–鏡像流量管理網,實現了鏡像流量的統一化管理。
晉商銀行在實現通用的監控場景后,在后期優化階段,將其從一個被動運維的“工具”轉變成一套主動運維的“解決方案”。轉變過程實現了基于故障現場建立警報模型、對接短信平臺實現及時感知網絡故障和對接CMDB配置庫實現資產自動化同步。
三、項目技術方案
1.系統描述
晉商銀行網絡流量分析系統是通過旁路抓包的形式,經過數據包的解碼和分析,通過可視化界面,集中對我們各個業務系統的主機、應用系統、網絡設備之間的網絡運行情況以及業務訪問情況進行實時監控、回溯分析以及快速故障定位。同時根據定義的告警規則進行實時告警,主動發現業務系統中的一些問題。提高工作效率,提升運管水平。同時也為業務運維管理人員、業務人員的決策分析提供主要依據。
2.系統總體架構
網絡流量分析系統由科來業務性能管理子系統和回溯子系統組成。
圖2-1系統總體架構圖
3.系統邏輯架構
晉商銀行網絡流量分析系統按照數據處理流程共分為分為四個層面,包括流量處理層、數據存儲層、綜合分析層和可視化展示層,系統架構如下圖。監控系統由網絡回溯分析系統及業務性能管理系統組成,通過旁路鏡像的方式進行數據采集、分析和存儲,完成四個層面的完整功能。相關層面的具體實現如下:
1)流量處理層:網絡回溯分析系統從鏡像流量管理網中獲取網絡流量,對流量分析計算出評估性能的指標并網絡檢測。指標數據向上推送到業務性能管理系統。
2)數據存儲層:業務性能管理系統將推送上來的指標數據、網絡異常等進行存儲。
3)綜合分析層:業務性能管理系統將多組數據進行對比,實現數據關聯分析、性能分析,并采用內部算法計算指標基線等。
4)可視化展示層:業務性能管理系統對網絡線路性能、網絡設備傳輸質量、業務性能進行可視化展示,最終形成監控大屏。
4.系統物理部署架構
根據網絡流量分析項目需求,項目實施使用科來網絡回溯分析系統用于移動數據中心的各區域流量監控和水西門災備數據中心的各區域流量監控,每個數據中心分別部署中創網絡流量分流設備產品進行流量的匯接。
移動數據中心機房安裝UPM分析中心,通過分析中心進行全網的處理與分析。相關組件說明如下:
1)回溯:流量采集處理和分析。移動與水西門數據中心分別各部署一臺回溯,進行相關流量的采集。
2)UPM:負責數據采集和展示。采用硬件部署方式,通過用戶提供的虛擬機平臺上安裝相應系統軟件。
3)采集點:通過TAP設備進行網絡流量采集,各數據中心分別由鏡像流量管理網連接進行流量匯總。
5.鏡像流量管理網建設
為了實現主備雙數據中心全網的網絡設備流量接入,并方便管理,晉商銀行同時建設了行內第三張網-鏡像流量管理網,如下圖所示。
通過鏡像流量技術所有的網絡設備的流量復制一份發送到智能TAP網內,然后根據需求對流量進行轉發輸出。
鏡像流量管理網共分為兩層,包括鏡像流量輸入層和輸出層。鏡像流量輸入層用于連接實現鏡像的網絡設備,接入鏡像流量,同時將流量上送到輸出層。鏡像流量輸出層用于連接各種旁路分析設備,如網絡流量分析系統、IPS、IDS等。
四、項目過程管理
項目建設共分為兩期進行建設。一期建設實現數據中心重要功能區匯聚層流量的監控,二期建設實現剩余功能區以及重點設備前后流量的流量監控。
根據項目規劃,工程實施分為 3 個階段,第一階段為前期準備階段,大概需要15個工作日,包括設備采購,到貨,設備初驗等工作,將于項目采購合同簽訂后開展;第二階段是現場安裝服務階段,需要30個工作日,進行網絡設備安裝調試,并進行系統測試。第三階段是項目驗收需要10個工作日。在安裝實施完成系統并穩定工作后進行系統運行測試和驗收工作并根據情況進行多次的培訓。
五、運營情況
1.面向傳輸性能的可視化主動運維
建成后的網絡流量分析系統為整個運維體系提供了220 性能指標參數,用于評估實時網絡傳輸質量。按照評估的對象不同分為三方面,包括網絡傳輸性能、主機服務性能和應用服務性能,如下圖:
同時支持與過去同期的指標參數進行對比分析,通過豐富直觀的圖表展現方式呈現傳輸性能的變化。運維人員通過指標量化、對比的方式快速發現網絡異常、應用異常等。
2.基于多維度評估的智能警報
由于考慮到行內運維人員精力有限,晉商銀行同時針對各種可能發生的網絡故障問題進行了評估和預判,對于可能會發生網絡問題,建立了多種故障警報模型。實現由設備代替運維人員全天候實時智能監控及時發現網絡隱患。
常用的警報模型包括網絡線路擁塞、中斷和傳輸質量差;網絡設備傳輸延時突增、丟包率高、包數突增;應用主機響應慢、存在性能瓶頸;網絡邊界高危端口訪問、網銀區服務器異常訪問互聯網等。
從而實現貫穿網絡-應用-主機-安全為一體的主動智能運維。
3.高效準確的根因定位
為了更快的發現處理承載在網絡上業務故障,我行從網絡視角將業務邏輯關系圖進行梳理,通過可視化的方式呈現出組成業務的每個應用環節的訪問關系和運行狀態。運維人員可以通過該圖可以清楚掌握每個業務系統所經過的網絡路徑以及在網絡上傳輸質量。
當網絡承載的某個業務出現問題時,運維人員通過性能指標在1分鐘內發現性能問題范圍,在五分鐘內定位造成性能問題原因。
同時針對問題原因還可以采取數據包級分析,用以佐證驗證分析結論,并將原始數據報下載復現故障現場,為結論提供數據支撐。
4.基于數據支撐的線路帶寬變動
網絡線路是晉商銀行總行連接外界的通道,晉商銀行通過網絡流量分析系統的報表分析模塊,每月對線路使用情況進行評估,為線路帶寬擴容或者減速提供有效可靠的數據支撐。常用的指標包括進出網流量峰值、進出網嚴重擁塞占比,流量峰值可以看出每月流量帶寬使用最高時候的上限,嚴重擁塞占比可以評估每月帶寬出現擁塞的時長占整月時間的比例。
5.多平臺聯動運行
資產維護是運維不可或缺的一項工作。在晉商銀行多個平臺需要對主機資產、應用資產、網絡設備資產、安全設備資產進行定義和監控,但是平臺之間信息不互通,形成信息孤島,導致運維人員工作量突增。從而晉商銀行通過建立了統一資產管理平臺—CMDB配置庫,行內所有資產變動信息都會更新到此平臺上。
網絡流量分析系統監控有全網的流量數據,掌握所有主機、網絡設備和安全設備之間的通信行為,其所需要的資產信息是最多最全的。因此晉商銀行將網絡流量分析系統的資產梳理功能與CMDB配置庫打通,實現配置自動同步,將運維人員從繁重的資產維護工作中解脫出來。
網絡流量分析系統智能警報功能模塊監控著網絡中多個維度的異常,運維人員早一步感知到警報,就可以早一步完成故障處理,及時遏制故障導致的負面影響。因此晉商銀行將網絡流量分析系統與短信平臺進行了對接,監控系統產生的嚴重警報會通過短信第一時間通知到運維人員,運維人員接收到警報會立即進入故障處理流程進行故障恢復。
六、項目成效
1.經濟效益:節省鏈路運營成本,對鏈路中流量優化,提高鏈路的有效利用率,同時實現線路帶寬擴容或降速的有據可依;提升運維人員工作效率,降低人力投入成本;
2.社會效益:及時感知網絡性能瓶頸,提供用戶可感知的服務體驗;及時發現主動外聯等異常行為,確保行內數據不存在外泄風險。
七、經驗總結
綜上,完成網絡流量分析系統的建設后,晉商銀行的網絡運維管理能力不斷提升,監控分析視角不斷增多,整體的運維體系得到了極大的補充,在網絡分析的精細化、可視化和智能化等方面同時也得到了完善。充分滿足網絡日益復雜的背景下的運維需求,為實現網絡穩定、持續和安全運行提供了保障。
更多金融科技案例和金融數據智能優秀解決方案,請登錄數字金融創新知識服務平臺-金科創新社案例庫、選型庫查看。
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。