2022年9月16日-17日,QECon全球軟件質(zhì)量&效能大會上海站在上海龍之夢大酒店隆重舉辦。本次大會,聚焦人工智能、云原生、移動互聯(lián)網(wǎng)、大數(shù)據(jù)、業(yè)務價值、協(xié)同提效等主題,邀請眾多行業(yè)技術(shù)大咖展開專場分享。掌動智能作為戰(zhàn)略合作伙伴受邀參會,首次提出“三位一體”IT反脆弱性工程解決方案,為大型數(shù)字化系統(tǒng)的穩(wěn)定可靠運行保駕護航!
大會現(xiàn)場
▲ 掌動智能“三位一體”IT反脆弱性工程在大會主會場首發(fā)亮相
何為“三位一體”IT反脆弱性工程?下面為您一一揭秘!
反脆弱性與混沌工程
“反脆弱(Antifragile)”是趨勢作家塔勒布在其同名著作中提出的觀點。他認為,風險事件無法預估,但脆弱卻可以被提前發(fā)現(xiàn)。反脆弱性方案針對脆性提前發(fā)現(xiàn)并從不確定性中收益。
在IT領域,混沌工程就是反脆弱性方案的典型代表。它是一套通過在(準)生產(chǎn)環(huán)境,對IT架構(gòu)和業(yè)務系統(tǒng)進行壓力與故障模擬實驗,主動暴露實驗對象脆弱性的方法論,能有效地幫助探索和避免潛在的穩(wěn)定性缺陷,檢驗和提升系統(tǒng)高可用性和容錯性,提升故障響應修復效率,減小事故影響,從而打造更具彈性、更抗風險的系統(tǒng),掌握系統(tǒng)運行時各種行為規(guī)律,持續(xù)提高技術(shù)團隊的應急能力和抗壓素養(yǎng)。
但是傳統(tǒng)的混沌工程也有自身的缺陷。根據(jù)反脆弱性理論,IT組織的脆弱性來自于內(nèi)部隨機事件和外部壓力事件,但現(xiàn)階段混沌方案,只側(cè)重于來自內(nèi)部,面向架構(gòu)的故障注入;而欠缺來自外部,面向業(yè)務的故障注入。同時由于歷史原因,大部分混沌工程方案,并未形成跨架構(gòu)的能力,在“軟件定義一切”的大背景下,絕大多數(shù)的故障注入,又都會對IaaS,PaaS和SaaS產(chǎn)生影響。因此,跨架構(gòu)的可觀測性成為必然。
“三位一體”反脆弱性工程
針對混沌工程的短板,掌動智能提出“三位一體”反脆弱性工程解決方案。它是基于反脆弱性理論,以業(yè)務壓測作為外部壓力,混沌工程作為隨機事件,性能監(jiān)控作為統(tǒng)一的測量方法,將三個方案有機融合在一起。
三位一體的反脆弱性工程解決方案主要包括:
1、混沌業(yè)務級故障注入
通過配置不同參數(shù),組合不同業(yè)務報文,播放不同類型的業(yè)務交易,實現(xiàn)對被測對象的容量爆破,容錯爆破,風險爆破。
2、混沌架構(gòu)級故障注入
通過執(zhí)行不同策略的故障腳本,實現(xiàn)對架構(gòu)級、應用級的混沌爆破,主要以資源耗盡,錯誤配置,人工切換等方法,實現(xiàn)故障注入。
3、跨架構(gòu)全??捎^測性
通過資產(chǎn)、指標(KPI/KQI)和業(yè)特征務(API/SQL/報文),實現(xiàn)基于性能異常方法的故障注入監(jiān)控告警以及基于故障定位方法的故障爆炸半徑測量。
從落地角度,掌動智能針對“三位一體”的實現(xiàn),推出了三套業(yè)界領先的工具集。
1、X-Runner業(yè)務測試工具
具有國際先進水平的新一代國產(chǎn)化性能安全保障軟件套件產(chǎn)品。X-Runner使用百萬級別的并發(fā)虛擬用戶模擬真實用戶訪問,從集中控制點管理分布式壓測端對系統(tǒng)生成準確、可衡量和可重復的負載,并在服務器、虛擬化、容器等多種不同環(huán)境采集云網(wǎng)性能指標和業(yè)務運行指標。
XRunner實現(xiàn)了大規(guī)模用戶瞬時并發(fā)訪問場景注入,無規(guī)律,瞬時隨機的大規(guī)模業(yè)務并發(fā),通過響應時間、辦理成功率等數(shù)據(jù),檢測系統(tǒng)對尖峰流量的抗沖擊能力,伸縮性以及自恢復能力;錯誤業(yè)務數(shù)據(jù)場景注入,構(gòu)建錯誤數(shù)據(jù)、錯誤流程、重復數(shù)據(jù)、攻擊性數(shù)據(jù)等場景,通過返回報文的正確性校驗,檢測系統(tǒng)對非正常數(shù)據(jù)的容錯能力
2、X-Chaos-混沌工程工具
Chaos混沌工程,是一類基于方法論和實踐相結(jié)合的工程化項目。X-Chaos以ChaosBlade為基礎,結(jié)合某超大型央企的全國云環(huán)境的混沌需求打造,也是國內(nèi)現(xiàn)階段,單一項目規(guī)模最大,內(nèi)容最復雜,故障注入用例最多,實施頻次最高的混沌工程。X-Chaos的混沌能力借助故障注入對基礎層、平臺層和應用層進行混沌演練,依托PaaS平臺的安全能力和自身的權(quán)限控制做到在進行混沌實驗的同時保障集群的安全可靠。
3、X-UniEye-跨架構(gòu)全棧性能監(jiān)控
X-Unieye以超輕量的單體探針,實現(xiàn)豐富的資產(chǎn)、業(yè)務、指標的數(shù)據(jù)采集、解析和治理;憑借“顯微鏡”一樣的可觀測性能力,快速實現(xiàn)豐富的運維與安全多場景方案。
X-Unieye的觀測維度包括:
① 資產(chǎn)類:從IP、Port、MAC到Host-Name、System、Process和Pod,再到Domain、URL和API業(yè)務特征
② 指標類:從主機資源使用率;到每一次通信連接的流量,數(shù)據(jù)包,會話,各種標志位,各類時延;再到每一次應用會話,業(yè)務報文的通信指標、各類時延,返回碼;實現(xiàn)最完整的基于流量的Metrix能力。
③交易鏈路類:從每一次TCP/UDP通信四元組,到每一次HTTP/URL/API,DNS,SQL…各類應用層會話,再到每一次負載段的業(yè)務報文。
收益與價值
通過三位一體的反脆弱性工程的實施,能帶給企業(yè)如下價值體現(xiàn):
1、提高事故預測和預警能力,有效降低事故率
通過對不同業(yè)務量下,各個應用組件,架構(gòu)組件,網(wǎng)絡組件的性能指標分析,實現(xiàn)定位故障隱患,減少事故風險,為每個單元建立基于業(yè)務量的性能基線,提高異常發(fā)現(xiàn)能力。
2、驗證自愈和應急能力,減小事故影響和損失
精確衡量業(yè)務影響度和故障恢復時間,有效判斷系統(tǒng)自愈能力、高可用能力、資源配置合理性以及監(jiān)控告警的有效性,降低事故影響和業(yè)務損失。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: