揭秘零事故背后的冬奧安全運營中心-規(guī)劃和建設篇

2022-03-23 20:00:07來源:威易網(wǎng)作者:

 2022年2月4日至3月13日,北京順利舉辦了第24屆冬季奧林匹克運動會。時間拉回到2019年12月26日,奇安信正式成為北京2022年冬奧會和冬殘奧會官方網(wǎng)絡安全服務和殺毒軟件贊助商。

 202224日至313日,北京順利舉辦了第24屆冬季奧林匹克運動會。時間拉回到20191226日,北京2022年冬奧會和冬殘奧會官方網(wǎng)絡安全服務和殺毒軟件贊助商發(fā)布會在北京冬奧組委園區(qū)舉行,奇安信正式成為北京2022年冬奧會和冬殘奧會官方網(wǎng)絡安全服務和殺毒軟件贊助商。時至今日,已兩年有余。從成為冬奧會贊助商,到以零事故的成績圓滿完成冬奧會安全保障,離不開從零開始搭建到流暢運轉的冬奧安全運營中心。 

提到冬奧安全運營中心,離不開一個貫穿全程的人,奇安信冬奧項目的總工程師尹智清,大家都叫他老尹。“從20191226日開始,奇安信正式成為北京2022年冬奧會和冬殘奧會官方贊助商。 回顧冬奧項目設計階段,老尹提到,“早在20193月,冬奧項目的設計工作就已經(jīng)開始。由于3月份冬奧組委還沒有正式發(fā)布應征文件,所以第一版設計方案并沒有可參考的明確要求,其主要參考依據(jù)是奇安信多年的重保經(jīng)驗。
 
老尹說,當時參與做第一版方案的只有3個人,只能摸著石頭過河。即便沒有可參考的要求,這3個人的團隊還是在7月份迭代了第二版方案。直到20199月份冬奧組委的應征文件正式發(fā)布,才有了明確的方案要求,也就是從那時候開始正式進入最終策劃階段。在數(shù)十人團隊的共同努力下,直到最后中標,奇安信冬奧重保任務的第一階段的正式完成。
 
與以往重保不同的是,首先冬奧項目的網(wǎng)絡安全建設耗時非常長,前后歷時2年多,其次奇安信要全面承擔冬奧會網(wǎng)絡安全責任,從以往項目的甲乙方關系變成了合作伙伴關系,這一點的轉變非常關鍵,也給冬奧重保提出了更高的要求。
 
“冬奧組委對于我們的最核心要求就是,要對冬奧會的網(wǎng)絡安全承擔完全的、徹底的、端到端的責任,最終目標就是零事故。”老尹說。
 
同步規(guī)劃 同步建設 同步運營
 
在正式成為冬奧贊助商之后,項目也即將進入現(xiàn)場交付建設階段。
 
“冬奧項目有數(shù)十家贊助商及第三方云上云下業(yè)務系統(tǒng),涉及多個場館,要保障冬奧項目全盤業(yè)務系統(tǒng)安全運行,就意味著,冬奧項目的網(wǎng)絡安全建設要與多個業(yè)務系統(tǒng)保持同步規(guī)劃、同步建設、同步運營,這也是項目初期最大的難點。”冬奧安全運營中心現(xiàn)場項目經(jīng)理仝磊提到,幾十個利益相關方要保持協(xié)同、進度計劃適配、技術對接、系統(tǒng)聯(lián)調(diào),往往安全建設總是被安排在業(yè)務系統(tǒng)之后,還要面臨著工期被壓縮等諸多壓力。不僅如此,在與有些業(yè)務相關方做技術對接的時候,還會遇到各種各樣的“非技術性難題”。


 \
 
入場后面臨的第一個問題就是定位。冬奧安全運營中心在設計之初包含三級指揮中心,即一個總指揮中心+三個賽區(qū)指揮中心+場館指揮中心,但由于冬奧沒有了賽區(qū)的概念,相應賽區(qū)指揮中心也隨之取消,最終只有位于首鋼園區(qū)的總指揮中心——即冬奧安全運營中心。
 
而作為冬奧安全運營中心的核心安全監(jiān)測平臺,需要匯集全量數(shù)據(jù),因此該平臺必須要擁有巨大的數(shù)據(jù)處理能力以及相應的關聯(lián)分析能力,對所有安全事件集中展示,且總指揮中心所有安全監(jiān)測、分析人員都能夠通過一個平臺監(jiān)控、分析、處置安全事件。于是在多次評估和討論之后,奇安信態(tài)勢感知與安全運營平臺(NGSOC),順理成章成為了建設冬奧安全運營中心安全監(jiān)測平臺的核心。
 
與此同時,為了提升效率,冬奧安全運營中心采用了全流程的標準化運營,制定了涉及安全運營、安全運維、應急響應的SOP(標準作業(yè)程序),以上每個環(huán)節(jié)的決策和動作都對最終結果產(chǎn)生了重要影響。
 
“其實當時選擇哪個產(chǎn)品作為核心安全監(jiān)測平臺并沒有那么順利。”老尹回憶說,“但作為總工程師,要對整體項目進行考慮和負責,總指揮中心人員有限,不可能讓他們分散去監(jiān)測多個設備,在事件處置上也無法做到及時和高效。” 作為冬奧安全運營中心核心安全監(jiān)測平臺,NGSOC承載著從數(shù)據(jù)的接入、日常監(jiān)控、應急管理、溯源分析、事件處置、態(tài)勢呈現(xiàn)等全流程動作的對接和落地,因此需要最早一批進場交付部署。
 
熬夜、紅牛,持續(xù)兩周的交付部署
 
2020年那個炎熱的夏天,PNC機房剛剛完成建筑施工,在網(wǎng)絡條件還未完善的情況下,冬奧項目組幾位工程師就奔赴現(xiàn)場,開始了第一次的平臺遷移、部署工作。當入場的時候著實被嚇了一跳,交付團隊的同學帶著防毒面具的在里面忙碌著。

 \

機房建成初期里面充斥著粉塵和不確定是否有害的怪味氣體,冬奧安全運營中心項目的交付部署和建筑施工同步進行工作,當你認為耳邊想起的轟隆聲是服務器聲音的時候,卻發(fā)現(xiàn)有可能是電鉆和榔頭,還有可能是空調(diào)調(diào)試的轟鳴聲。大家在機柜之間,豎起服務器紙箱子,作為電腦辦公桌、作為半蹲半坐的椅子、也作為走廊的“餐桌”。每隔一兩個小時就要出去室外換個氣、同時在夏日陽光下“取暖”。


 \

據(jù)其中一位工程師回憶,持續(xù)高強度的工作,身體稍微有點吃不消,印象最深刻的一次是在機房升級到晚上近凌晨1點,按照升級流程一步步地進行著,不停地敲擊著鍵盤,突然鼻血留在了鍵盤上。
 
“因為項目工期比較緊,所以大家住在了離冬奧安全運營中心最近的旅館,早上8點進場、凌晨一兩點離開,晚上大家為了提神,3個人每2天就會喝掉一箱紅牛,嗓子腫到1天只吃一頓飯,不敢喝太多、不敢吃太多,因為上廁所要去差不多1公里之外的地方,來回跑太耽誤事兒。”另一位工程師補充說到。
 
即便如此,時間也顯得非常緊張。
 
NGSOC平臺的部署工作持續(xù)了大概2周的時間,工程師們克服了惡劣條件帶來的困難,解決了很多技術問題,在保障冬奧組委業(yè)務使用的前提下,平滑穩(wěn)定地實現(xiàn)了平臺集群拓荒部署、平臺遷移、HAHighly Available,是雙機集群系統(tǒng)簡稱,提高可用性集群,是保證業(yè)務連續(xù)性的有效解決方案,一般有兩個或兩個以上的節(jié)點,且分為主活動節(jié)點及備用節(jié)點)上線、HA初期技術驗證等工作,為后續(xù)的安全建設工作提供了支撐。
 
高可靠、高安全,主備集群無縫切換  
 
冬奧項目采用HA(雙機集群)的方式,這在NGSOC以前的項目中是沒有遇到過的,也給研發(fā)人員帶來了巨大的挑戰(zhàn)。“主備集群的配合可以有效保障業(yè)務系統(tǒng)穩(wěn)定運行,通常我們完成主備切換需要30分鐘。”NGSOC事業(yè)部研發(fā)總監(jiān)說,然而這個速度顯然還達不到冬奧標準。而隨著技術難關一個個被攻克,直到最后,主備切換不到10分鐘即可完成。
 
為了達到冬奧會零事故的要求,NGSOC研發(fā)團隊從建設初期就開始研討高可靠、穩(wěn)定性和安全性要求,從架構設計出發(fā)全面提升產(chǎn)品能力,目標是達到冬奧會的高質(zhì)量標準,打造冬奧標準NGSOC。
 
首先是高可靠。NGSOC借鑒了傳統(tǒng)安全產(chǎn)品的高可靠思路,通過主從的方式實現(xiàn)高可靠,但是很快就面臨困難,海量的數(shù)據(jù)如何能夠做到一致性關聯(lián)、高并發(fā)的告警處置過程如何實現(xiàn)狀態(tài)同步等。研發(fā)中心組建了攻堅團隊,最終在架構層面成功解決。通過唯一性ID生成算法,在HA主從集群實現(xiàn)一致性關聯(lián)。通過邏輯復制機制,實現(xiàn)告警處置過程的狀態(tài)同步,并且順利實現(xiàn)了可控的主從同步切換機制,在緊急故障情況下可實現(xiàn)業(yè)務不中斷。NGSOC平臺最終在日均35億日志高吞吐和50+人并發(fā)運營條件下,實現(xiàn)了數(shù)據(jù)的主從完全同步。
 
其次是穩(wěn)定性。NGSOC需要對自身的穩(wěn)定性以及輸入異常做出反應,避免自身陷入異常。在研發(fā)過程中實現(xiàn)了對核心組件進行監(jiān)控,包括服務監(jiān)控、告警通知和自動恢復機制。一旦某個核心業(yè)務組件出現(xiàn)異常,NGSOC可以自動感知,并通過冬奧會短信網(wǎng)關及時通知7*24H待命的安全運維人員及時介入并處置。同時,在NGSOC能夠自動恢復的情況下,會同時嘗試自動恢復。其次是實現(xiàn)了對集群EPS負載進行監(jiān)控,當集群負載超出集群告警閾值的時候,NGSOC自動短信通知監(jiān)控人員,通過冬奧應急響應SOP,按要求進行降負載處置,避免數(shù)據(jù)積壓等問題出現(xiàn)。還設計了限流保障機制,過載情況下也要確保NGSOC本身穩(wěn)定運行。最終NGSOC在冬奧會和冬殘奧會期間7*24H小時持續(xù)穩(wěn)定運行,做到了運營平臺零事故。
 
最后是安全性。NGSOC作為冬奧安全運營中心核心安全監(jiān)測平臺,保障自身的安全至關重要。NGSOC冬奧研發(fā)項目組聯(lián)合奇安信集團多位架構師、攻防專家和研發(fā)人員,重點梳理了以下幾項工作:
 
第一是進行源代碼審計,從根源上找到所有可能被利用的攻擊漏洞,進行徹底修復上線;
第二是參加冬奧會眾測專項,將冬奧項目1:1環(huán)境搬到線上,接受滲透測試人員的攻擊測試,對所有發(fā)現(xiàn)的攻擊脆弱點進行修復和驗證;
第三是冬奧現(xiàn)網(wǎng)暴露面梳理,對NGSOC的所有訪問路徑、賬號和權限進行統(tǒng)一管理,權限做到最小化,將授權的訪問路徑梳理出清單并統(tǒng)一管理,其余非授權的訪問路徑全部設置封鎖阻斷策略。
第四是新增NGSOC自身安全性檢測,安全從來不是絕對的,一旦NGSOC被攻擊,如何能夠快速而準確地產(chǎn)生預警,以便最短時間內(nèi)介入處理就非常重要。除了通用的終端安全檢測、網(wǎng)絡攻擊檢測和APT檢測等攻擊檢測手段,還引入了NGSOC網(wǎng)絡白名單機制,非白名單的入站和出站均告警和阻截,最大限度避免NGSOC被攻擊或攻陷。此外,還給NGSOC平臺增加了300多條自身安全加固和檢測規(guī)則,讓NGSOC平臺在冬奧會和冬殘奧會期間實現(xiàn)零事故。
 
技術的困難可以靠人力解決,但項目進行過程中遇到的困難不僅僅只是技術難題,比如從20202月開始開展HA項目研發(fā)開始,由于各方面原因,研發(fā)人員并不是一成不變的,每一次人員的更迭都需要消耗大量時間去培訓和交接。
 
老尹還提到,除了NGSOC外,冬奧項目在2020年幾乎都在進行安全產(chǎn)品能力提升和交付部署階段,直到2021年重心開始轉向運營。冬奧安全運營中心項目整體做下來也是了了一個夙愿,從加入奇安信開始一直在接觸和參與安全運營相關的工作,心里也一直有一個目標和期待,就是通過標準化把常態(tài)化安全運營真正做起來,事實也證明了做起來很有必要。冬奧項目經(jīng)歷了一個從極繁設計-不斷簡化-不斷優(yōu)化-全部標準化的過程?紤]到全面性的同時,又要兼顧效率,過于繁瑣的設計會大大降低效率。
 
下一篇將會進一步講述如何實現(xiàn)冬奧安全運營中心標準化運營。
關鍵詞:奇安信