隨著科技的不斷進步,“AI”、“大數(shù)據(jù)”這些名詞越來越多地出現(xiàn)在人們的日常生活中。對監(jiān)控運維產(chǎn)品來說,平臺會獲得大量設(shè)備的性能數(shù)據(jù)并加以存儲。對于這些數(shù)據(jù)的進一步利用,傳統(tǒng)方式一般為生成數(shù)據(jù)圖表、分析性能使用、預(yù)測未來趨勢等。今天來說說 ManageEngine OpManager 在滿足傳統(tǒng)數(shù)據(jù)分析功能外,還可以由AI 機器學(xué)習(xí),通過高階算法,自動生成并優(yōu)化性能監(jiān)控閾值,實現(xiàn)性能告警全自動。
什么是閾值?
在介紹自適應(yīng)閾值之前,首先來說明一下到底什么是閾值。
閾值又叫臨界值,是指一個效應(yīng)能夠產(chǎn)生的最低值或最高值。
在監(jiān)控中,以CPU利用率為例,設(shè)置閾值用于判斷CPU利用率是否在正常使用范圍內(nèi)。當(dāng)CPU利用率超過設(shè)定的閾值時,便可以認為此時設(shè)備的CPU處于異常使用情況,從而觸發(fā)告警,讓作為管理員的我們第一時間得到消息,檢查設(shè)備運行狀態(tài)。
閾值的配置
既然閾值是觸發(fā)告警的標準,那么設(shè)置合理的閾值是非常重要的。我們發(fā)現(xiàn)目前常見的閾值配置辦法,是管理員手動對各個不同監(jiān)控項,正如下圖中給一個固定數(shù)值來區(qū)分“正常”、“異常”狀態(tài)。
手動配置閾值的缺陷:
上述說到的手動配置有些致命的問題,那就是當(dāng)面臨成百上千臺不同的設(shè)備,以及成千上萬個不同監(jiān)視項時,管理員需要花費大量時間手動配置不同監(jiān)控項的閾值。這不僅麻煩,而且會給“異常”情況留出“生存空間”。
我來舉個例子,讓大家更好地理解。當(dāng)一臺服務(wù)器白天的內(nèi)存利用率正常情況下保持在70%左右、夜間保持在30%左右時,管理員將內(nèi)存利用率閾值設(shè)置為大于80%產(chǎn)生告警。那么當(dāng)某個夜間內(nèi)存利用率突然飆升到60%時,因為沒有達到閾值告警的觸發(fā)條件,所以不能將此特殊情況通知到管理員。然而,對于夜間來說,60%的數(shù)值實際上已經(jīng)是出現(xiàn)了異常情況,只是受限于傳統(tǒng)閾值的設(shè)置方法,導(dǎo)致了這種異常情況被忽略。
基于 AI,“預(yù)測”未來
在使用OpManager的過程中,發(fā)現(xiàn)OpManager可以基于AI技術(shù),通過高階算法計算出“預(yù)測值”,并根據(jù)“預(yù)測值”自動設(shè)置閾值。未來,通過不斷地機器學(xué)習(xí),閾值也會隨著“預(yù)測值”的更新而自動變化,從而使告警也“智能”起來。它不僅消除了手動設(shè)置閾值的煩惱,并使研究復(fù)雜數(shù)據(jù)集和為每個監(jiān)視器得出可行的閾值的過程完全自動化。如下圖所示,OpManager需要至少3天的性能數(shù)據(jù)收集,會以每天不同小時段為單位,給出一個該小時內(nèi)的“預(yù)測值”,并會通過后續(xù)的數(shù)據(jù)不斷自動優(yōu)化和更新“預(yù)測值”。
自適應(yīng)閾值為運維人員帶來不少好處,例如:
●省去了管理員手動設(shè)置的麻煩與時間。
●針對不同設(shè)備的不同監(jiān)視器,會自動設(shè)置不同的閾值。
●對不同時間段,會自動設(shè)置對該小時內(nèi)的告警觸發(fā)條件,不給“異常”情況留“活路”
●不斷根據(jù)新的數(shù)據(jù)收集自動優(yōu)化、調(diào)整告警閾值,徹底實現(xiàn)監(jiān)控自動化。
●ManageEngine OpManager 是一款功能強大的網(wǎng)絡(luò)監(jiān)控工具,可通過AI技術(shù)自動為您監(jiān)控中的設(shè)備性能配置閾值告警。不僅省去了管理員手動設(shè)置的繁瑣,而且能夠自動對不同時間段分配不同的告警觸發(fā)條件,加上不斷的機器學(xué)習(xí)與優(yōu)化,讓“異常”無所遁形。
免責(zé)聲明:市場有風(fēng)險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: