零事故背后|揭秘NGSOC如何助力冬奧安全運營中心——標(biāo)準(zhǔn)化運營篇

2022-03-25 14:56:09來源:威易網(wǎng)作者:

如果說冬奧安全運營中心是奇安信得以兌現(xiàn)“零事故”承諾背后的重要保障,那么安全運維和應(yīng)急響應(yīng)就是安全運營中心的保障。下一篇我們將進一步為大家介紹,關(guān)于冬奧安全運營中心的安全運維保障和應(yīng)急響應(yīng)保障背后的故事。

       揭秘NGSOC如何助力冬奧安全運營中心--規(guī)劃和建設(shè)篇展示了冬奧安全運營中心從最開始的規(guī)劃設(shè)計,到將NGSOC作為核心安全監(jiān)測平臺,再到交付部署和如何保障NGSOC安全穩(wěn)定運行的技術(shù)攻堅過程,本篇將重點介紹冬奧安全運營中心是如何進行標(biāo)準(zhǔn)化運營的。
 
        “磨刀不誤砍柴工” 標(biāo)準(zhǔn)化流程才能高效運營
       提起冬奧安全運營,冬奧安全運營中心現(xiàn)場項目經(jīng)理仝磊回憶道,“冬奧安全運營最大的挑戰(zhàn)在于,隨著2020年以來我們實現(xiàn)了冬奧項目所有安全產(chǎn)品的交付部署及多次升級,團隊人數(shù)不斷增加,如何才能實現(xiàn)高效運營?”實際上,早在初期規(guī)劃階段,考慮到冬奧項目相較于常規(guī)項目的復(fù)雜性和重要性,團隊已經(jīng)預(yù)測了可能出現(xiàn)的問題并制定了完整的安全運營方案,但在方案執(zhí)行過程中,還是發(fā)現(xiàn)了不少問題。
       2020年冬奧安全運營中心監(jiān)控人員還只有四五人,到了2021年人數(shù)擴增到二十多人,加上所有測試賽、場館的駐場人員,一線團隊多達兩百多人。隨著人員增多,原有流程難以有效保障工作流程運轉(zhuǎn),仍有團隊成員搞不清安全事件的處置流程,溝通過程中難以凸顯重點,從場館到總部的跟蹤、匯報流程也眾說紛紜。
       在問題日益凸顯和冬奧組委賽時要求提升的背景下,解決高效運營挑戰(zhàn)迫在眉睫。于是在2021年初,團隊成立專門的小組,調(diào)動集團作訓(xùn)部專家、安全服務(wù)部門的咨詢專家、攻防專家和NGSOC事業(yè)部人員共同制定冬奧SOP(標(biāo)準(zhǔn)作業(yè)程序),主要包括安全運營流程、安全運維流程、應(yīng)急響應(yīng)流程。這一標(biāo)準(zhǔn)詳細劃分了監(jiān)控崗、分析崗、運維崗、處置決策崗等不同崗位,并明確各個崗位的詳細工作內(nèi)容和工作標(biāo)準(zhǔn)。此外,為了保證流程高效執(zhí)行,NGSOC產(chǎn)品團隊也進行了一系列的測試。
       第一輪測試從2021年2月初持續(xù)到4月底,這也是第一次將安全運營SOP也投入使用。雖然標(biāo)準(zhǔn)投入使用,但過程并沒有想象中順利,團隊成員在短時間內(nèi)很難快速熟悉并嚴(yán)格執(zhí)行,同時,流程本身也還有不少問題要完善。但隨著不斷的測試和演練,以及對所有冬奧一線人員進行培訓(xùn)和考試,到了2021年8月份,安全運營SOP才算是真正形成。
       雖然從初期交付部署到2021年底測試運營,梳理標(biāo)準(zhǔn)化流程很累、很繁瑣,但是有了SOP,到了2022年1月23日進入冬奧準(zhǔn)賽時階段后,整個團隊反而輕松下來了。所有人都能熟練掌握SOP,明確知道自己的工作內(nèi)容,該如何匯報、如何處置,對NGSOC平臺操作也高度熟練。雖然人數(shù)多,但是整個團隊高效協(xié)同、有序處置,絕大多數(shù)的安全事件都可以通過標(biāo)準(zhǔn)化流程解決。
       回想起這一段,仝磊說:“我們真正的通過標(biāo)準(zhǔn)化流程實現(xiàn)了常態(tài)化運營,這一點我們非常自豪。”而且整個過程下來,每個人的責(zé)任感和參與感更強了,標(biāo)準(zhǔn)化動作和流程可以有效糾偏,各個崗位犯錯幾率大大降低,安全事件處置不再完全基于個人技術(shù),而是靠人+工具+流程高效有序的運轉(zhuǎn)。
 
       “工欲善其事必先利其器” 安全運營需要工具協(xié)同
       在冬奧安全運營中心項目中,標(biāo)準(zhǔn)化流程的運轉(zhuǎn),離不開人和工具的緊密配合,而NGSOC作為冬奧安全運營中心核心安全監(jiān)測平臺,如何跟安全運營團隊緊密結(jié)合保證SOP高效落地?
       首先,實用、易讀、美觀的可視化大屏。 
       NGSOC平臺的監(jiān)控覆蓋到了網(wǎng)絡(luò)中心、數(shù)據(jù)中心、云上系統(tǒng)以及眾多場館,所以如何對不同組織的安全狀態(tài)進行呈現(xiàn),讓安全運營團隊更快發(fā)現(xiàn)安全事件并且流暢處置,也是擺在NGSOC事業(yè)部冬奧項目組面前的問題,所以在做可視化設(shè)計的時候標(biāo)出了幾個關(guān)鍵詞:實用、易讀、美觀。
經(jīng)過了記不清多少次的改版調(diào)優(yōu),在可視化呈現(xiàn)上逐漸形成了綜合網(wǎng)絡(luò)安全監(jiān)控大屏、各場館網(wǎng)絡(luò)安全監(jiān)控大屏、實時監(jiān)控大屏。
\
NGSOC-綜合網(wǎng)絡(luò)安全監(jiān)控大屏
 
       實時監(jiān)控大屏為冬奧安全運營中心的實時監(jiān)控工作帶來了最直觀、最及時的呈現(xiàn),可以實時的看到最新的告警數(shù)據(jù)統(tǒng)計、告警處置狀態(tài)。當(dāng)危急告警發(fā)生時,大屏通過告警提醒聲音、屏幕特效方式為7*24H運營工作帶來最及時有效的提醒,做到實用高效。
 
\
NGSOC-實時監(jiān)控大屏
       “可視化大屏的呈現(xiàn)從場館、應(yīng)用系統(tǒng)維度,對面臨威脅情況、事件情況、數(shù)據(jù)趨勢情況做了直觀的展示,滿足了冬奧安全運營中心的使用需求。”NGSOC事業(yè)部冬奧項目經(jīng)理表示,為了更好呈現(xiàn)展示效果,協(xié)同奇安信可視化團隊投入了巨大的人力,對競賽場館做實地踏勘,在短短兩個月內(nèi)實現(xiàn)了所有競賽場館的3D建模,最終效果驚艷眾人,實現(xiàn)了實用、易讀、美觀的綜合呈現(xiàn)。
\
NGSOC-場館網(wǎng)絡(luò)安全監(jiān)控大屏示意圖
       第二,云上云下全覆蓋,監(jiān)控能力全面提升。
       在冬奧安全運營中心項目中,NGSOC平臺共計接入云上、云下1000+種數(shù)據(jù)源,涵蓋終端、服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、應(yīng)用系統(tǒng)、業(yè)務(wù)系統(tǒng)等所有核心資產(chǎn)。日志種類超過80類,日均35億日志,存量日志千億級。
       為了實現(xiàn)對冬奧云上服務(wù)全方位、無死角的持續(xù)安全監(jiān)測,結(jié)合云上服務(wù)的安全架構(gòu)設(shè)計,NGSOC共采集了云上網(wǎng)絡(luò)、主機、數(shù)據(jù)、監(jiān)控審計四大部分共18類數(shù)據(jù)源、30余類日志,共設(shè)計60+個安全監(jiān)測場景。在日常運營期間,監(jiān)測到數(shù)千起云上安全事件。
       第三,奇安信全產(chǎn)品體系接入、協(xié)同、聯(lián)動。
       2021年8月,奇安信冬奧項目組緊急成立聯(lián)合項目組,目標(biāo)是以NGSOC為核心,集成各個產(chǎn)品日志與流量分析能力,以解決冬奧會現(xiàn)場常態(tài)化安全運營與應(yīng)急響應(yīng)問題,經(jīng)綜合評估,實現(xiàn)8大產(chǎn)線(NGSOC、椒圖、天眼、天擎、威脅情報、錫安、SOAR、天狗)產(chǎn)品聯(lián)動的研發(fā)及所有安全產(chǎn)品日志接入和解析的工作。按照冬奧項目工期進展,大家只有19個工作日去完成這項任務(wù),這對項目組來說是一項幾乎不可能實現(xiàn)的挑戰(zhàn)。
       時間緊迫,各產(chǎn)品線都在爭分奪秒。到了聯(lián)調(diào)階段,因NGSOC研發(fā)人員有限,及時調(diào)整應(yīng)對策略,形成了1對多的聯(lián)調(diào)模式(1個人并發(fā)對接多條產(chǎn)線),從開發(fā)方案到對接聯(lián)調(diào)。為了交付滿意的答卷,NGSOC事業(yè)部冬奧項目組所有人日夜奮戰(zhàn),積極推動各產(chǎn)線工作進展,只要發(fā)現(xiàn)阻塞性問題立即想辦法解決,得到了各產(chǎn)品線包括冬奧組委的高度認可。
       除了產(chǎn)品聯(lián)動外,還有安全場景的打通這一重要任務(wù)。8大應(yīng)急安全場景、40個常態(tài)化運營場景一并完成需求拆解、方案設(shè)計、開發(fā)、測試、交付上線。最終,NGSOC首次在冬奧實現(xiàn)了與奇安信全產(chǎn)品體系的集成。從各設(shè)備的日志接入,數(shù)據(jù)的集中呈現(xiàn)、關(guān)聯(lián)分析到安全能力的協(xié)同、聯(lián)動,安全運營人員只需要通過NGSOC即可實現(xiàn)一站式監(jiān)測、調(diào)查、響應(yīng)閉環(huán),無需在眾多的安全產(chǎn)品之間來回切換。
       當(dāng)所有的工作接近尾聲時,看到各個研發(fā)團隊交付的答卷,大家不禁松了口氣,正是這樣一支富有冬奧精神的團隊,秉承著艱苦奮斗,披荊斬棘的信念贏得了最終勝利,完美地按照計劃完成這項看似不可完成的任務(wù)。
       第四,設(shè)計上千個冬奧威脅檢測場景。
       冬奧項目NGSOC預(yù)置規(guī)則有448條,到冬奧會開幕式之前,規(guī)則已經(jīng)達到了958條,而且在賽時也會有新增的場景需求,每天也都在補充規(guī)則,冬奧結(jié)束時規(guī)則達到1043條,覆蓋云上、云下所有核心資產(chǎn)的威脅、異常、違規(guī)監(jiān)測場景。小到場館的辦公機、服務(wù)器上部署的業(yè)務(wù)組件,大到數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng)、安全防護系統(tǒng),幾乎是有IP設(shè)備、有提供服務(wù)的系統(tǒng)就有采集其日志,有分析、監(jiān)測價值的日志就有對應(yīng)的監(jiān)測場景。
       既有監(jiān)測外部入侵、社工釣魚、惡意破壞、惡意軟件的各種威脅場景,也有監(jiān)測內(nèi)部人員違規(guī)、異常操作的場景;既有針對突發(fā)漏洞、安全事件的持續(xù)監(jiān)測,又有針對日常運營期間各系統(tǒng)、服務(wù)運行狀態(tài)的持續(xù)監(jiān)測。在整個冬奧值守期間,通過外部入侵場景監(jiān)控到1118次告警,違規(guī)、異常操作場景共監(jiān)測到7起內(nèi)部人員操作不當(dāng)事件,常態(tài)化運營場景共監(jiān)測到3起設(shè)備斷電事件,6起數(shù)據(jù)斷流事件。
       在冬奧項目中規(guī)則的優(yōu)化達到145條,將告警由之前存在大量誤報(由于業(yè)務(wù)觸發(fā)的誤報)讓監(jiān)控人員疲于分析,到現(xiàn)在日均告警量不超過427條,日志告警比為7860974:1,并且達成了無安全事件遺漏的成就。
       第五,設(shè)計高并發(fā)支撐多人同時運營。
       根據(jù)冬奧會項目對NGSOC平臺設(shè)計要求,需支持200人使用50+人并發(fā)訪問,這種規(guī)模前所未有。這種并發(fā)訪問量對系統(tǒng)整體壓力特別大,會導(dǎo)致系統(tǒng)負載急劇上升。對此,NGSOC研發(fā)團隊主要的優(yōu)化方案包括:其一,瓶頸節(jié)點進行集群部署節(jié)點優(yōu)化,識別出瓶頸節(jié)點后,對集群的部署方案做出調(diào)整,資源向瓶頸節(jié)點傾斜,比如ES集群,在高并發(fā)的情況下性能損耗非常大,集群規(guī)模要保持在合適的量級。其二,優(yōu)化數(shù)據(jù)庫,調(diào)研冬奧會的運營場景,根據(jù)冬奧會的運營場景,對數(shù)據(jù)庫配置進行針對性優(yōu)化,通過性能監(jiān)測工具排查所有耗時的數(shù)據(jù)操作,逐一進行設(shè)計與優(yōu)化。最終NGSOC平臺在日均35億日志高吞吐和50+人并發(fā)運營條件下,實現(xiàn)了安全平穩(wěn)運行。
       結(jié)語: 
       在“人+工具+流程”高效運轉(zhuǎn)的支撐下,冬奧安全運營實戰(zhàn)效果有目共睹。
       首先是標(biāo)準(zhǔn)化流程安全運營SOP的制定,充分保障了業(yè)務(wù)正常運轉(zhuǎn)。冬奧網(wǎng)絡(luò)安全監(jiān)控值班經(jīng)理提到:“安全運營SOP大大提升了團隊信心,大家清晰明確地了解自己的崗位職責(zé),避免因為事實不清造成處置不當(dāng)。這樣一來,比賽現(xiàn)場業(yè)務(wù)系統(tǒng)可以更加高效運轉(zhuǎn)。”
       其次是NGSOC的多重功能極大提升了安全運營效率。如實時監(jiān)控大屏,對于安全運營人員來說使用頻率最高,這塊大屏投放在冬奧安全運營中心正中間,每30秒刷新一次,高危告警會閃動和發(fā)出警報,所有人都可以看到告警情況,便于及時追蹤、解決。告警TOP5,可以直觀提醒安全運營人員可能規(guī)則有問題,當(dāng)告警每天處于TOP5,可以在平臺上查看告警的規(guī)則解釋,NGSOC平臺所有告警都可以看規(guī)則解釋說明。這個細節(jié)極大的方便了我們查閱基于哪條規(guī)則產(chǎn)生的告警,方便找威脅建模工程師做規(guī)則優(yōu)化,直接解決了告警冗余的問題。告警的高級篩選功能幫助特別大,通過預(yù)置的告警篩選器,每個監(jiān)控值班經(jīng)理看不同告警內(nèi)容,極大提高了告警處置效率。
       “對于NGSOC作為運營平臺的最大期望是能發(fā)現(xiàn)、能回溯,最好能通過一個平臺發(fā)現(xiàn)所有安全事件,完成所有操作,NGSOC平臺真的做到了。” 冬奧網(wǎng)絡(luò)安全監(jiān)控值班經(jīng)理總結(jié)到,這要歸功于NGSOC的高并發(fā)、全產(chǎn)品體系聯(lián)動和對告警的妥善處置。
       首先是高并發(fā),總指揮中心從監(jiān)控崗、分析崗、處置崗等共計數(shù)十人同時在NGSOC上進行相關(guān)工作,這對NGSOC的并發(fā)要求很高,但是NGSOC在整個冬奧賽事期間,運行一直很流暢。其次,NGSOC與奇安信全產(chǎn)品體系的接入,監(jiān)控范圍覆蓋了云上和云下所有業(yè)務(wù),平臺需完成所有的監(jiān)測、分析、處置工作,與安全運營SOP進行緊密結(jié)合。此外,除了安全事件回溯外,平臺還可以回溯告警處置人員、處置過程、處置結(jié)果,告警評論功能,可以將每條告警的處置寫出結(jié)論,所有近似告警可以通過往期告警進行關(guān)聯(lián),分析是否歷史出現(xiàn)和查看結(jié)論,從而快速分析研判,不需要重復(fù)走監(jiān)控處置流程。
       如果說冬奧安全運營中心是奇安信得以兌現(xiàn)“零事故”承諾背后的重要保障,那么安全運維和應(yīng)急響應(yīng)就是安全運營中心的保障。下一篇我們將進一步為大家介紹,關(guān)于冬奧安全運營中心的安全運維保障和應(yīng)急響應(yīng)保障背后的故事。
 
 
關(guān)鍵詞:冬奧