最近中文字幕国产一区二区,亚洲色swag在线无码,中国美妇的肉逼,无码 有码 日韩 人妻

混沌工程如何控制爆炸半徑?掌動(dòng)智能為你揭秘!

首頁 > 快訊 > > 正文

日期:2023-02-03 16:08:34    來源:中國網(wǎng)    

在數(shù)字化時(shí)代,IT系統(tǒng)成為業(yè)務(wù)發(fā)展的主要載體,其可靠性直接影響業(yè)務(wù)的可持續(xù)性。隨著系統(tǒng)架構(gòu)逐漸向微服務(wù)架構(gòu)演化、開發(fā)效率以及系統(tǒng)擴(kuò)展性的答復(fù)提高,系統(tǒng)的復(fù)雜性隨之增長。傳統(tǒng)的測(cè)試方法已經(jīng)不能全面覆蓋系統(tǒng)所有的行為,測(cè)試的有效性也隨之大打折扣。

為了保障系統(tǒng)穩(wěn)定運(yùn)行,很多企業(yè)都上了“容災(zāi)方案”以及各種“監(jiān)控告警手段”。但都是“被動(dòng)響應(yīng)”,并且沒有任何一個(gè)團(tuán)隊(duì)或個(gè)人,可以保障自己的“容災(zāi)方案”、“監(jiān)控告警手段”在任何情況下都能夠正常生效。同時(shí),業(yè)務(wù)規(guī)模的不斷增長使得服務(wù)之間的依賴性帶來的不確定性也呈指數(shù)級(jí)增長。在這種復(fù)雜的服務(wù)調(diào)用網(wǎng)中,任何一個(gè)環(huán)節(jié)出現(xiàn)異常變化,都有可能導(dǎo)致整個(gè)業(yè)務(wù)無法運(yùn)行。SRE(Site Reliability Engineering/Engineer,站點(diǎn)可靠性工程師)發(fā)現(xiàn)“混沌工程”是非常有效的“主動(dòng)預(yù)防”手段。

混沌工程

混沌工程是一門對(duì)系統(tǒng)進(jìn)行實(shí)驗(yàn)的學(xué)科,旨在了解系統(tǒng)應(yīng)對(duì)生產(chǎn)環(huán)境中混亂狀況的能力,建立對(duì)系統(tǒng)的信心,其目的是在系統(tǒng)缺陷導(dǎo)致中斷等危機(jī)發(fā)生前,發(fā)現(xiàn)系統(tǒng)缺陷。

混沌工程的基礎(chǔ)是經(jīng)驗(yàn)主義,但實(shí)驗(yàn)高于測(cè)試,驗(yàn)證高于清查?;煦绻こ淘瓌t中的高級(jí)原則首次描述了混沌工程的黃金標(biāo)準(zhǔn)。高級(jí)原則如下:

●建立關(guān)于穩(wěn)態(tài)行為的假說

●多樣化地引入現(xiàn)實(shí)世界的事件

●在生產(chǎn)環(huán)境中進(jìn)行實(shí)驗(yàn)

●持續(xù)運(yùn)行自動(dòng)化實(shí)驗(yàn)

●最小化爆炸半徑

最小化爆炸半徑

在實(shí)際的混沌工程實(shí)驗(yàn)操作中,最小化爆炸半徑目標(biāo)與所面對(duì)的復(fù)雜系統(tǒng)的上下文高度相關(guān)。在某些系統(tǒng)中這可能意味著使用影子流量,也可能是將對(duì)業(yè)務(wù)有重大影響的請(qǐng)求排除在實(shí)驗(yàn)之外。因此,如何精準(zhǔn)的控制/測(cè)量爆炸半徑已經(jīng)成為混沌工程實(shí)驗(yàn)的核心。

下文將為您揭示掌動(dòng)智能實(shí)施團(tuán)隊(duì)是如何在混沌工程的實(shí)驗(yàn)中控制爆炸半徑的。

爆炸半徑控制

由于混沌工程實(shí)驗(yàn)可能會(huì)給業(yè)務(wù)系統(tǒng)帶來風(fēng)險(xiǎn),所以對(duì)于爆炸半徑的控制要始終貫穿于整個(gè)實(shí)驗(yàn)過程:從實(shí)驗(yàn)設(shè)計(jì)階段、實(shí)驗(yàn)執(zhí)行階段、到結(jié)束實(shí)驗(yàn)階段,在整個(gè)實(shí)驗(yàn)生命周期中,我們應(yīng)該時(shí)刻牢記“最小化爆炸半徑”這一點(diǎn)。下文將分階段為大家展示各時(shí)延階段常見的爆炸半徑控制方法。

一、實(shí)驗(yàn)設(shè)計(jì)階段

“凡事預(yù)則立,不預(yù)則廢”,在實(shí)驗(yàn)設(shè)計(jì)階段,最重要的是要討論清楚實(shí)驗(yàn)的范圍,并跟相關(guān)團(tuán)隊(duì)做好溝通,調(diào)整每個(gè)人的思維模式以保持對(duì)實(shí)驗(yàn)認(rèn)知的一致性。

在實(shí)驗(yàn)設(shè)計(jì)階段,常見的“最小化爆炸半徑”控制方法有如下幾種:

1、確定合理的實(shí)驗(yàn)范圍

明確實(shí)驗(yàn)范圍是在混沌工程實(shí)驗(yàn)生命周期中控制爆炸半徑最基礎(chǔ)的手段。在確定實(shí)驗(yàn)范圍時(shí),我們要根據(jù)“實(shí)驗(yàn)假設(shè)”進(jìn)行充分考慮,為滿足“實(shí)驗(yàn)假設(shè)”,我們要注入故障的目標(biāo)對(duì)象到那個(gè)級(jí)別,比如:節(jié)點(diǎn)、node、pod、或者是進(jìn)程。一般情況下,我們會(huì)在滿足“實(shí)驗(yàn)假設(shè)”的情況下,選擇最小的故障注入級(jí)別。

2、設(shè)置準(zhǔn)確的觀測(cè)指標(biāo)

準(zhǔn)確的觀測(cè)指標(biāo),有助于混沌工程時(shí)延過程中控制爆炸半徑。觀測(cè)指標(biāo)的設(shè)計(jì)一般會(huì)從如下三個(gè)方面進(jìn)行考慮:

業(yè)務(wù)性指標(biāo):能否反映業(yè)務(wù)狀況的關(guān)鍵指標(biāo),比如:每秒內(nèi)成功打開重要活動(dòng)頁面的用戶數(shù)、每秒內(nèi)關(guān)鍵業(yè)務(wù)交易成功率、關(guān)鍵業(yè)務(wù)的用戶停留時(shí)長等。

應(yīng)用健康指標(biāo):能夠反映應(yīng)用健康狀況的指標(biāo),比如:平均用戶操作時(shí)延,數(shù)據(jù)庫連接池可用連接數(shù)量等。

其他系統(tǒng)指標(biāo):能否反應(yīng)基礎(chǔ)設(shè)施和系統(tǒng)運(yùn)行狀況的指標(biāo),比如:應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器的CPU利用率,內(nèi)存利用率等、JVM可用內(nèi)存大小等。

3、明確系統(tǒng)處于不良狀態(tài)的定義

在明確混沌工程實(shí)驗(yàn)的范圍和“觀測(cè)指標(biāo)”后,還要明確系統(tǒng)“處于不良狀態(tài)”的定義,比如:平均用戶響應(yīng)時(shí)間超過10秒、應(yīng)用服務(wù)器或數(shù)據(jù)庫服務(wù)器CPU使用率達(dá)到95%以上等。當(dāng)出現(xiàn)這種情況時(shí),預(yù)示著系統(tǒng)即將處于失效狀態(tài)或不可用狀態(tài),要及時(shí)終止實(shí)驗(yàn)或者調(diào)整實(shí)驗(yàn)參數(shù)。

二、實(shí)驗(yàn)執(zhí)行階段

由于混沌工程實(shí)驗(yàn)相較于傳統(tǒng)的測(cè)試工作有著更強(qiáng)的不確定性,為了避免影響太多用戶正常使用,一般會(huì)在實(shí)驗(yàn)進(jìn)行時(shí)進(jìn)行用戶分流,讓很少一部分用戶參與到實(shí)驗(yàn)中作為實(shí)驗(yàn)組,剩余的用于作為對(duì)照組,并且在實(shí)驗(yàn)的執(zhí)行的過程中,密切關(guān)注系統(tǒng)的各項(xiàng)指標(biāo)反饋,及時(shí)調(diào)整實(shí)驗(yàn)的參數(shù)或者終止實(shí)驗(yàn)。

1、用戶分流

在實(shí)驗(yàn)執(zhí)行階段,精準(zhǔn)的用戶分流是一個(gè)重要的控制爆炸半徑的手段。這種模式需要前后端配合,比如前端在發(fā)送請(qǐng)求時(shí)可以帶上一個(gè)特殊的標(biāo)識(shí)(可以是,特殊的版本號(hào),或者其他標(biāo)識(shí)),后端根據(jù)前端發(fā)送請(qǐng)求時(shí)帶的標(biāo)識(shí),進(jìn)行分流。詳見下圖:

用戶分流后在實(shí)驗(yàn)過程中實(shí)時(shí)關(guān)注“實(shí)驗(yàn)組”和“對(duì)照組”的數(shù)據(jù),根據(jù)實(shí)際觀測(cè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)參數(shù)的調(diào)整或終止實(shí)驗(yàn)操作,以達(dá)到在實(shí)驗(yàn)執(zhí)行過程中控制爆炸半徑的目的。

2、指標(biāo)采集監(jiān)控

由于混沌工程實(shí)驗(yàn)相較于傳統(tǒng)的測(cè)試工作有著更強(qiáng)的不確定性,需要對(duì)系統(tǒng)運(yùn)行狀態(tài)有更好的把控,除了實(shí)驗(yàn)前進(jìn)行用戶分流外,還需要在實(shí)驗(yàn)執(zhí)行的過程中密切關(guān)注在實(shí)驗(yàn)設(shè)計(jì)階段,設(shè)計(jì)的“觀測(cè)指標(biāo)”的變化,關(guān)注系統(tǒng)是否出現(xiàn)告警或業(yè)務(wù)異常。如果發(fā)現(xiàn)系統(tǒng)失效,可以隨時(shí)終止實(shí)驗(yàn)執(zhí)行。

3、調(diào)整實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)執(zhí)行的過程中,可以根據(jù)“觀測(cè)指標(biāo)”的波動(dòng)情況,隨時(shí)調(diào)整實(shí)驗(yàn)參數(shù),改變實(shí)驗(yàn)的影響范圍和強(qiáng)度,如指標(biāo)波動(dòng)不明顯,可適當(dāng)增加實(shí)驗(yàn)強(qiáng)度。如系統(tǒng)發(fā)生大范圍失效,難以定位故障原因,則可適當(dāng)降低實(shí)驗(yàn)強(qiáng)度或終止實(shí)驗(yàn)。

一般我們?cè)趧?chuàng)建實(shí)驗(yàn)的時(shí)候,對(duì)實(shí)驗(yàn)“添加防護(hù)策略”,在實(shí)驗(yàn)的過程中,根據(jù)監(jiān)控指標(biāo)進(jìn)行實(shí)驗(yàn)參數(shù)的調(diào)整,或者終止實(shí)驗(yàn)。

三、結(jié)束實(shí)驗(yàn)階段

在實(shí)驗(yàn)終止后,需要確保沒有殘留的進(jìn)程,并且需要對(duì)系統(tǒng)在實(shí)驗(yàn)結(jié)束后,繼續(xù)觀測(cè)一段時(shí)間,確保各項(xiàng)關(guān)鍵指標(biāo)(業(yè)務(wù)指標(biāo)、應(yīng)用健康指標(biāo)、系統(tǒng)資源指標(biāo)等)都恢復(fù)正常。

結(jié) 語

隨著IT技術(shù)的更新以及業(yè)務(wù)發(fā)展,IT系統(tǒng)的復(fù)雜度也隨之提高,傳統(tǒng)的IT系統(tǒng)穩(wěn)定性保障技術(shù)也需要隨之更新以解決新架構(gòu)下面臨的新問題。而混沌工程通過向系統(tǒng)注入隨機(jī)和不可預(yù)知行為的受控實(shí)驗(yàn)來識(shí)別系統(tǒng)的脆弱點(diǎn),大大地提升了IT系統(tǒng)的穩(wěn)定性。在我們實(shí)際進(jìn)行混沌工程實(shí)驗(yàn)時(shí),除了將“最小爆炸半徑”貫穿于整個(gè)實(shí)驗(yàn)過程中,還需要配合使用“可觀測(cè)性平臺(tái)”、“業(yè)務(wù)壓測(cè)工具”等工具或技術(shù),組合搭建系統(tǒng)穩(wěn)定性保障平臺(tái),全方位保障系統(tǒng)的可靠性和連續(xù)性。有興趣的朋友,歡迎關(guān)注廣州掌動(dòng)智能官網(wǎng)具體了解“三位一體超級(jí)混沌工程解決方案”。

免責(zé)聲明:市場有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

關(guān)鍵詞:

下一篇:鐳神智能參與行業(yè)標(biāo)準(zhǔn)制定,引領(lǐng)行業(yè)規(guī)范發(fā)展
上一篇:不忘初心,砥礪前行丨鐳神智能2022年度回顧

科技

 
集安市| 高密市| 庆元县| 卫辉市| 准格尔旗| 清原| 大冶市| 滦南县| 尉氏县| 刚察县| 密山市| 高尔夫| 长海县| 萝北县| 深圳市| 桑植县| 温州市| 辽源市| 柳林县| 泽库县| 余江县| 芷江| 开江县| 凌海市| 汕头市| 长治县| 雷波县| 登封市| 蓝田县| 盘山县| 田东县| 长顺县| 黑河市| 贞丰县| 额济纳旗| 郴州市| 宁阳县| 海阳市| 伊川县| 静安区| 乌拉特前旗|