來源:2023鑫智獎第四屆中小金融機(jī)構(gòu)數(shù)智化轉(zhuǎn)型優(yōu)秀案例評選
獲獎單位:晉商銀行
榮獲獎項(xiàng):運(yùn)維管理創(chuàng)新優(yōu)秀案例獎
一、項(xiàng)目背景及目標(biāo)
隨著銀行業(yè)信息科技的高速發(fā)展,晉商銀行數(shù)據(jù)中心網(wǎng)絡(luò)上承載了越來越多的核心業(yè)務(wù)系統(tǒng),因此對網(wǎng)絡(luò)運(yùn)行的穩(wěn)定性要求也越來越高。但信息系統(tǒng)間日益復(fù)雜的網(wǎng)絡(luò)訪問關(guān)系,網(wǎng)絡(luò)上傳輸?shù)娜找嬖龆嗟臄?shù)據(jù)類型,都對網(wǎng)絡(luò)運(yùn)維管理工作帶來了嚴(yán)峻的考驗(yàn)。如何對重要業(yè)務(wù)系統(tǒng)數(shù)據(jù)流量進(jìn)行端到端的可視化監(jiān)控,如何對網(wǎng)絡(luò)丟包、傳輸時延、服務(wù)器響應(yīng)時延、會話異常中斷等關(guān)鍵網(wǎng)絡(luò)指標(biāo)進(jìn)行精細(xì)化監(jiān)控,實(shí)現(xiàn)對網(wǎng)絡(luò)的主動高效運(yùn)維,成為網(wǎng)絡(luò)運(yùn)維人員亟待解決的問題。以此為背景,晉商銀行建設(shè)了一套能夠?qū)崿F(xiàn)網(wǎng)絡(luò)數(shù)據(jù)流傳輸質(zhì)量可視化監(jiān)控的網(wǎng)絡(luò)流量分析系統(tǒng)。最終實(shí)現(xiàn)的目標(biāo)如下:
1.透視網(wǎng)絡(luò)全流量成分:多維度可視化精準(zhǔn)到秒級的任意時間段內(nèi)的網(wǎng)絡(luò)流量成分。在網(wǎng)絡(luò)流量成分出現(xiàn)異常突發(fā)時,網(wǎng)絡(luò)運(yùn)維人員可以快速定位到網(wǎng)絡(luò)中的違規(guī)流量。
2.網(wǎng)絡(luò)傳輸性能可視化監(jiān)控:圖形化監(jiān)控網(wǎng)絡(luò)邊界線路傳輸質(zhì)量、內(nèi)網(wǎng)高層網(wǎng)絡(luò)設(shè)備數(shù)據(jù)傳輸質(zhì)量,對網(wǎng)絡(luò)設(shè)備存在的性能瓶頸或者隱患進(jìn)行及時發(fā)現(xiàn),縮小由于設(shè)備或線路問題導(dǎo)致的負(fù)面影響。
3.網(wǎng)絡(luò)視角主動分析業(yè)務(wù)性能:從網(wǎng)絡(luò)角度,通過網(wǎng)絡(luò)時延、網(wǎng)絡(luò)丟包、連接成功率等量化指標(biāo)來衡量用戶的業(yè)務(wù)體驗(yàn)和網(wǎng)絡(luò)質(zhì)量,能通過主動分析發(fā)現(xiàn)重要業(yè)務(wù)系統(tǒng)中存在的性能瓶頸。
4.故障快速定位:對于業(yè)務(wù)訪問失敗、訪問慢等各種故障現(xiàn)象,通過網(wǎng)絡(luò)/應(yīng)用性能指標(biāo)的主動預(yù)警和專家模塊診斷,幫助管理員快速確定故障位置,定位問題原因,極大降低排查故障時間,提升工作效率。
5.數(shù)據(jù)可溯源:長期保存業(yè)務(wù)系統(tǒng)通訊數(shù)據(jù),對于突發(fā)性故障可以提供歷史數(shù)據(jù)回溯,重現(xiàn)網(wǎng)絡(luò)故障現(xiàn)象,定位原因,避免故障再次發(fā)生,排除隱患。
二、創(chuàng)新點(diǎn)
晉商銀行網(wǎng)絡(luò)流量分析系統(tǒng)項(xiàng)目建設(shè)之前便預(yù)見全路徑監(jiān)控的必要性,鏡像流量的廣大需求性,因此行方建設(shè)了第三張網(wǎng)–鏡像流量管理網(wǎng),實(shí)現(xiàn)了鏡像流量的統(tǒng)一化管理。
晉商銀行在實(shí)現(xiàn)通用的監(jiān)控場景后,在后期優(yōu)化階段,將其從一個被動運(yùn)維的“工具”轉(zhuǎn)變成一套主動運(yùn)維的“解決方案”。轉(zhuǎn)變過程實(shí)現(xiàn)了基于故障現(xiàn)場建立警報(bào)模型、對接短信平臺實(shí)現(xiàn)及時感知網(wǎng)絡(luò)故障和對接CMDB配置庫實(shí)現(xiàn)資產(chǎn)自動化同步。
三、項(xiàng)目技術(shù)方案
1.系統(tǒng)描述
晉商銀行網(wǎng)絡(luò)流量分析系統(tǒng)是通過旁路抓包的形式,經(jīng)過數(shù)據(jù)包的解碼和分析,通過可視化界面,集中對我們各個業(yè)務(wù)系統(tǒng)的主機(jī)、應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備之間的網(wǎng)絡(luò)運(yùn)行情況以及業(yè)務(wù)訪問情況進(jìn)行實(shí)時監(jiān)控、回溯分析以及快速故障定位。同時根據(jù)定義的告警規(guī)則進(jìn)行實(shí)時告警,主動發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中的一些問題。提高工作效率,提升運(yùn)管水平。同時也為業(yè)務(wù)運(yùn)維管理人員、業(yè)務(wù)人員的決策分析提供主要依據(jù)。
2.系統(tǒng)總體架構(gòu)
網(wǎng)絡(luò)流量分析系統(tǒng)由科來業(yè)務(wù)性能管理子系統(tǒng)和回溯子系統(tǒng)組成。
圖2-1系統(tǒng)總體架構(gòu)圖
3.系統(tǒng)邏輯架構(gòu)
晉商銀行網(wǎng)絡(luò)流量分析系統(tǒng)按照數(shù)據(jù)處理流程共分為分為四個層面,包括流量處理層、數(shù)據(jù)存儲層、綜合分析層和可視化展示層,系統(tǒng)架構(gòu)如下圖。監(jiān)控系統(tǒng)由網(wǎng)絡(luò)回溯分析系統(tǒng)及業(yè)務(wù)性能管理系統(tǒng)組成,通過旁路鏡像的方式進(jìn)行數(shù)據(jù)采集、分析和存儲,完成四個層面的完整功能。相關(guān)層面的具體實(shí)現(xiàn)如下:
1)流量處理層:網(wǎng)絡(luò)回溯分析系統(tǒng)從鏡像流量管理網(wǎng)中獲取網(wǎng)絡(luò)流量,對流量分析計(jì)算出評估性能的指標(biāo)并網(wǎng)絡(luò)檢測。指標(biāo)數(shù)據(jù)向上推送到業(yè)務(wù)性能管理系統(tǒng)。
2)數(shù)據(jù)存儲層:業(yè)務(wù)性能管理系統(tǒng)將推送上來的指標(biāo)數(shù)據(jù)、網(wǎng)絡(luò)異常等進(jìn)行存儲。
3)綜合分析層:業(yè)務(wù)性能管理系統(tǒng)將多組數(shù)據(jù)進(jìn)行對比,實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)分析、性能分析,并采用內(nèi)部算法計(jì)算指標(biāo)基線等。
4)可視化展示層:業(yè)務(wù)性能管理系統(tǒng)對網(wǎng)絡(luò)線路性能、網(wǎng)絡(luò)設(shè)備傳輸質(zhì)量、業(yè)務(wù)性能進(jìn)行可視化展示,最終形成監(jiān)控大屏。
4.系統(tǒng)物理部署架構(gòu)
根據(jù)網(wǎng)絡(luò)流量分析項(xiàng)目需求,項(xiàng)目實(shí)施使用科來網(wǎng)絡(luò)回溯分析系統(tǒng)用于移動數(shù)據(jù)中心的各區(qū)域流量監(jiān)控和水西門災(zāi)備數(shù)據(jù)中心的各區(qū)域流量監(jiān)控,每個數(shù)據(jù)中心分別部署中創(chuàng)網(wǎng)絡(luò)流量分流設(shè)備產(chǎn)品進(jìn)行流量的匯接。
移動數(shù)據(jù)中心機(jī)房安裝UPM分析中心,通過分析中心進(jìn)行全網(wǎng)的處理與分析。相關(guān)組件說明如下:
1)回溯:流量采集處理和分析。移動與水西門數(shù)據(jù)中心分別各部署一臺回溯,進(jìn)行相關(guān)流量的采集。
2)UPM:負(fù)責(zé)數(shù)據(jù)采集和展示。采用硬件部署方式,通過用戶提供的虛擬機(jī)平臺上安裝相應(yīng)系統(tǒng)軟件。
3)采集點(diǎn):通過TAP設(shè)備進(jìn)行網(wǎng)絡(luò)流量采集,各數(shù)據(jù)中心分別由鏡像流量管理網(wǎng)連接進(jìn)行流量匯總。
5.鏡像流量管理網(wǎng)建設(shè)
為了實(shí)現(xiàn)主備雙數(shù)據(jù)中心全網(wǎng)的網(wǎng)絡(luò)設(shè)備流量接入,并方便管理,晉商銀行同時建設(shè)了行內(nèi)第三張網(wǎng)-鏡像流量管理網(wǎng),如下圖所示。
通過鏡像流量技術(shù)所有的網(wǎng)絡(luò)設(shè)備的流量復(fù)制一份發(fā)送到智能TAP網(wǎng)內(nèi),然后根據(jù)需求對流量進(jìn)行轉(zhuǎn)發(fā)輸出。
鏡像流量管理網(wǎng)共分為兩層,包括鏡像流量輸入層和輸出層。鏡像流量輸入層用于連接實(shí)現(xiàn)鏡像的網(wǎng)絡(luò)設(shè)備,接入鏡像流量,同時將流量上送到輸出層。鏡像流量輸出層用于連接各種旁路分析設(shè)備,如網(wǎng)絡(luò)流量分析系統(tǒng)、IPS、IDS等。
四、項(xiàng)目過程管理
項(xiàng)目建設(shè)共分為兩期進(jìn)行建設(shè)。一期建設(shè)實(shí)現(xiàn)數(shù)據(jù)中心重要功能區(qū)匯聚層流量的監(jiān)控,二期建設(shè)實(shí)現(xiàn)剩余功能區(qū)以及重點(diǎn)設(shè)備前后流量的流量監(jiān)控。
根據(jù)項(xiàng)目規(guī)劃,工程實(shí)施分為 3 個階段,第一階段為前期準(zhǔn)備階段,大概需要15個工作日,包括設(shè)備采購,到貨,設(shè)備初驗(yàn)等工作,將于項(xiàng)目采購合同簽訂后開展;第二階段是現(xiàn)場安裝服務(wù)階段,需要30個工作日,進(jìn)行網(wǎng)絡(luò)設(shè)備安裝調(diào)試,并進(jìn)行系統(tǒng)測試。第三階段是項(xiàng)目驗(yàn)收需要10個工作日。在安裝實(shí)施完成系統(tǒng)并穩(wěn)定工作后進(jìn)行系統(tǒng)運(yùn)行測試和驗(yàn)收工作并根據(jù)情況進(jìn)行多次的培訓(xùn)。
五、運(yùn)營情況
1.面向傳輸性能的可視化主動運(yùn)維
建成后的網(wǎng)絡(luò)流量分析系統(tǒng)為整個運(yùn)維體系提供了220 性能指標(biāo)參數(shù),用于評估實(shí)時網(wǎng)絡(luò)傳輸質(zhì)量。按照評估的對象不同分為三方面,包括網(wǎng)絡(luò)傳輸性能、主機(jī)服務(wù)性能和應(yīng)用服務(wù)性能,如下圖:
同時支持與過去同期的指標(biāo)參數(shù)進(jìn)行對比分析,通過豐富直觀的圖表展現(xiàn)方式呈現(xiàn)傳輸性能的變化。運(yùn)維人員通過指標(biāo)量化、對比的方式快速發(fā)現(xiàn)網(wǎng)絡(luò)異常、應(yīng)用異常等。
2.基于多維度評估的智能警報(bào)
由于考慮到行內(nèi)運(yùn)維人員精力有限,晉商銀行同時針對各種可能發(fā)生的網(wǎng)絡(luò)故障問題進(jìn)行了評估和預(yù)判,對于可能會發(fā)生網(wǎng)絡(luò)問題,建立了多種故障警報(bào)模型。實(shí)現(xiàn)由設(shè)備代替運(yùn)維人員全天候?qū)崟r智能監(jiān)控及時發(fā)現(xiàn)網(wǎng)絡(luò)隱患。
常用的警報(bào)模型包括網(wǎng)絡(luò)線路擁塞、中斷和傳輸質(zhì)量差;網(wǎng)絡(luò)設(shè)備傳輸延時突增、丟包率高、包數(shù)突增;應(yīng)用主機(jī)響應(yīng)慢、存在性能瓶頸;網(wǎng)絡(luò)邊界高危端口訪問、網(wǎng)銀區(qū)服務(wù)器異常訪問互聯(lián)網(wǎng)等。
從而實(shí)現(xiàn)貫穿網(wǎng)絡(luò)-應(yīng)用-主機(jī)-安全為一體的主動智能運(yùn)維。
3.高效準(zhǔn)確的根因定位
為了更快的發(fā)現(xiàn)處理承載在網(wǎng)絡(luò)上業(yè)務(wù)故障,我行從網(wǎng)絡(luò)視角將業(yè)務(wù)邏輯關(guān)系圖進(jìn)行梳理,通過可視化的方式呈現(xiàn)出組成業(yè)務(wù)的每個應(yīng)用環(huán)節(jié)的訪問關(guān)系和運(yùn)行狀態(tài)。運(yùn)維人員可以通過該圖可以清楚掌握每個業(yè)務(wù)系統(tǒng)所經(jīng)過的網(wǎng)絡(luò)路徑以及在網(wǎng)絡(luò)上傳輸質(zhì)量。
當(dāng)網(wǎng)絡(luò)承載的某個業(yè)務(wù)出現(xiàn)問題時,運(yùn)維人員通過性能指標(biāo)在1分鐘內(nèi)發(fā)現(xiàn)性能問題范圍,在五分鐘內(nèi)定位造成性能問題原因。
同時針對問題原因還可以采取數(shù)據(jù)包級分析,用以佐證驗(yàn)證分析結(jié)論,并將原始數(shù)據(jù)報(bào)下載復(fù)現(xiàn)故障現(xiàn)場,為結(jié)論提供數(shù)據(jù)支撐。
4.基于數(shù)據(jù)支撐的線路帶寬變動
網(wǎng)絡(luò)線路是晉商銀行總行連接外界的通道,晉商銀行通過網(wǎng)絡(luò)流量分析系統(tǒng)的報(bào)表分析模塊,每月對線路使用情況進(jìn)行評估,為線路帶寬擴(kuò)容或者減速提供有效可靠的數(shù)據(jù)支撐。常用的指標(biāo)包括進(jìn)出網(wǎng)流量峰值、進(jìn)出網(wǎng)嚴(yán)重?fù)砣急龋髁糠逯悼梢钥闯雒吭铝髁繋捠褂米罡邥r候的上限,嚴(yán)重?fù)砣急瓤梢栽u估每月帶寬出現(xiàn)擁塞的時長占整月時間的比例。
5.多平臺聯(lián)動運(yùn)行
資產(chǎn)維護(hù)是運(yùn)維不可或缺的一項(xiàng)工作。在晉商銀行多個平臺需要對主機(jī)資產(chǎn)、應(yīng)用資產(chǎn)、網(wǎng)絡(luò)設(shè)備資產(chǎn)、安全設(shè)備資產(chǎn)進(jìn)行定義和監(jiān)控,但是平臺之間信息不互通,形成信息孤島,導(dǎo)致運(yùn)維人員工作量突增。從而晉商銀行通過建立了統(tǒng)一資產(chǎn)管理平臺—CMDB配置庫,行內(nèi)所有資產(chǎn)變動信息都會更新到此平臺上。
網(wǎng)絡(luò)流量分析系統(tǒng)監(jiān)控有全網(wǎng)的流量數(shù)據(jù),掌握所有主機(jī)、網(wǎng)絡(luò)設(shè)備和安全設(shè)備之間的通信行為,其所需要的資產(chǎn)信息是最多最全的。因此晉商銀行將網(wǎng)絡(luò)流量分析系統(tǒng)的資產(chǎn)梳理功能與CMDB配置庫打通,實(shí)現(xiàn)配置自動同步,將運(yùn)維人員從繁重的資產(chǎn)維護(hù)工作中解脫出來。
網(wǎng)絡(luò)流量分析系統(tǒng)智能警報(bào)功能模塊監(jiān)控著網(wǎng)絡(luò)中多個維度的異常,運(yùn)維人員早一步感知到警報(bào),就可以早一步完成故障處理,及時遏制故障導(dǎo)致的負(fù)面影響。因此晉商銀行將網(wǎng)絡(luò)流量分析系統(tǒng)與短信平臺進(jìn)行了對接,監(jiān)控系統(tǒng)產(chǎn)生的嚴(yán)重警報(bào)會通過短信第一時間通知到運(yùn)維人員,運(yùn)維人員接收到警報(bào)會立即進(jìn)入故障處理流程進(jìn)行故障恢復(fù)。
六、項(xiàng)目成效
1.經(jīng)濟(jì)效益:節(jié)省鏈路運(yùn)營成本,對鏈路中流量優(yōu)化,提高鏈路的有效利用率,同時實(shí)現(xiàn)線路帶寬擴(kuò)容或降速的有據(jù)可依;提升運(yùn)維人員工作效率,降低人力投入成本;
2.社會效益:及時感知網(wǎng)絡(luò)性能瓶頸,提供用戶可感知的服務(wù)體驗(yàn);及時發(fā)現(xiàn)主動外聯(lián)等異常行為,確保行內(nèi)數(shù)據(jù)不存在外泄風(fēng)險(xiǎn)。
七、經(jīng)驗(yàn)總結(jié)
綜上,完成網(wǎng)絡(luò)流量分析系統(tǒng)的建設(shè)后,晉商銀行的網(wǎng)絡(luò)運(yùn)維管理能力不斷提升,監(jiān)控分析視角不斷增多,整體的運(yùn)維體系得到了極大的補(bǔ)充,在網(wǎng)絡(luò)分析的精細(xì)化、可視化和智能化等方面同時也得到了完善。充分滿足網(wǎng)絡(luò)日益復(fù)雜的背景下的運(yùn)維需求,為實(shí)現(xiàn)網(wǎng)絡(luò)穩(wěn)定、持續(xù)和安全運(yùn)行提供了保障。
更多金融科技案例和金融數(shù)據(jù)智能優(yōu)秀解決方案,請登錄數(shù)字金融創(chuàng)新知識服務(wù)平臺-金科創(chuàng)新社案例庫、選型庫查看。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。