統(tǒng)一化、標(biāo)準(zhǔn)化、智能化,博睿數(shù)據(jù)OneAlert為運(yùn)維降本增效
原創(chuàng)隨著IT基礎(chǔ)設(shè)施的云化,應(yīng)用運(yùn)行環(huán)境的容器化,系統(tǒng)架構(gòu)的微服務(wù)化,數(shù)據(jù)處理量成倍增長(zhǎng),企業(yè)不得不引入更多的工具、更復(fù)雜的流程,來提升IT系統(tǒng)管理的精細(xì)度,隨之而來的是IT運(yùn)維師的壓力越來越大。
首先,部署大量的系統(tǒng)造成了告警源越來越分散,每個(gè)告警之間呈現(xiàn)出分散式、孤島式,導(dǎo)致告警無法統(tǒng)一管理。同時(shí),告警的來源分散和不統(tǒng)一,導(dǎo)致了告警處理流程無序,缺乏統(tǒng)一處理,統(tǒng)一通知,無法標(biāo)準(zhǔn)化處理。而為了保障運(yùn)維的安全,企業(yè)往往部署更多的監(jiān)控,這樣一來,產(chǎn)生的告警就會(huì)越來越多,這些告警中往往會(huì)有大量重復(fù)的、冗余的告警,運(yùn)維人員在處理告警的時(shí)候無法快速定位到這些告警的關(guān)鍵信息,給運(yùn)維人員對(duì)告警的判斷和處理帶來了巨大壓力,因此急需一個(gè)能夠幫助客戶解決以上問題的運(yùn)維監(jiān)控統(tǒng)一管理平臺(tái)。
日前,博睿數(shù)據(jù)研發(fā)了一款全場(chǎng)景運(yùn)維監(jiān)控統(tǒng)一接入、海量告警降噪收斂、故障統(tǒng)一分析管理的新一代告警平臺(tái)產(chǎn)品——OneAlert,憑借統(tǒng)一化、標(biāo)準(zhǔn)化、智能化告警管理,為企業(yè)降低運(yùn)維成本、提升工作效率,為業(yè)務(wù)的穩(wěn)定運(yùn)行保駕護(hù)航。
博睿數(shù)據(jù)產(chǎn)品經(jīng)理郝寧從統(tǒng)一化、標(biāo)準(zhǔn)化、智能化三個(gè)方面詳細(xì)介紹了OneAlert的核心優(yōu)勢(shì)和價(jià)值。
多源事件統(tǒng)一接入
OneAlert實(shí)現(xiàn)了四類監(jiān)控工具的統(tǒng)一接入:首先是云類監(jiān)控工具,包括常見的三朵云:阿里云、騰訊云、華為云等。第二類是博睿數(shù)據(jù)自研的監(jiān)控工具:APM Server、NET、SDK。第三類是運(yùn)維過程中常用的開源監(jiān)控工具:ZABBIX、Prometheus等。第四類是自建平臺(tái)、自定義的監(jiān)控工具REST API。OneAlert平臺(tái)支持對(duì)主流運(yùn)維監(jiān)控告警源提供統(tǒng)一接入功能,對(duì)這些接入后的多源異構(gòu)數(shù)據(jù)提供完整統(tǒng)一的標(biāo)準(zhǔn)化映射處理,實(shí)現(xiàn)了全場(chǎng)景下運(yùn)維異常事件監(jiān)控全覆蓋統(tǒng)一接入,避免了因自身監(jiān)控?cái)?shù)據(jù)相互獨(dú)立導(dǎo)致的重大事件無人發(fā)現(xiàn)的監(jiān)控死角。

運(yùn)維故障標(biāo)準(zhǔn)處理
據(jù)郝寧介紹,當(dāng)接入多來源的告警數(shù)據(jù)后,OneAlert平臺(tái)支持提供統(tǒng)一、實(shí)時(shí)的故障信息展示,運(yùn)維人員不再需要登錄多個(gè)平臺(tái)查看故障情況,從而提升了異常事件的處理效率。同時(shí),OneAlert支持針對(duì)不同的通知要求選用不同的通知方式,實(shí)現(xiàn)了將故障快速通知到相關(guān)負(fù)責(zé)人,保證故障及時(shí)響應(yīng),縮短故障處理時(shí)間,最小程度降低對(duì)業(yè)務(wù)的影響。最后,OneAlert支持對(duì)故障進(jìn)行處理跟蹤,實(shí)現(xiàn)故障生命周期的閉環(huán)管理,使運(yùn)維故障處理從以前的無序到有序流程化,提升一線運(yùn)維人員、運(yùn)維管理人員的整體工作效率。
海量告警智能收斂
OneAlert平臺(tái)通過對(duì)海量雜亂事件降噪處理,形成告警,降低了故障分析的信息量,并通過自定義標(biāo)簽規(guī)則收斂、標(biāo)簽AI相似、AI時(shí)域的AI智能決策收斂的功能,識(shí)別出異常事件之間的關(guān)聯(lián)性,將多個(gè)關(guān)聯(lián)事件歸并處理成一個(gè)故障,從而輔助運(yùn)維人員聚焦處理關(guān)鍵故障信息,避免告警風(fēng)暴,極大程度降低整體運(yùn)維成本。
其中,AI算法智能收斂實(shí)現(xiàn)了AIOps多場(chǎng)景的有效支撐,從根本上解決了規(guī)則收斂的瓶頸問題,同時(shí)還支持收斂組合自定義搭配使用,在規(guī)則收斂的基礎(chǔ)上開展AI能力收斂探索(AI相似+AI時(shí)域),使得收斂場(chǎng)景更全面、收斂能力更強(qiáng)大、收斂效果更顯著。
基于數(shù)據(jù)處理的領(lǐng)先優(yōu)勢(shì),OneAlert在告警收斂過程中除了固定標(biāo)簽收斂,還支持自定義標(biāo)簽作為收斂條件進(jìn)行告警收斂,有效避免因海量雜亂告警產(chǎn)生的告警風(fēng)暴。
總之,OneAlert提供了完整的標(biāo)準(zhǔn)化分析處理管控能力,實(shí)現(xiàn)了對(duì)故障(事前)及時(shí)發(fā)現(xiàn)、統(tǒng)一管理;(事中)快速響應(yīng)、精準(zhǔn)處置;(事后)分析統(tǒng)計(jì)的標(biāo)準(zhǔn)化全生命周期完整管控。
積極打磨產(chǎn)品,推動(dòng)產(chǎn)品國際化
談到國內(nèi)的應(yīng)用性能觀測(cè)產(chǎn)品與國際廠商的產(chǎn)品的差距,博睿數(shù)據(jù)產(chǎn)品總監(jiān)孫麗表示,國內(nèi)的應(yīng)用性能觀測(cè)產(chǎn)品基本具備了同等產(chǎn)品能力,但是在技術(shù)深度和技術(shù)領(lǐng)先性上,尤其是在AI的應(yīng)用方面,還需要追趕。此外,在將新興的技術(shù)和能力轉(zhuǎn)化為產(chǎn)品的效率方面,如云原生網(wǎng)絡(luò)的可觀測(cè)性等,是國內(nèi)的應(yīng)用性能觀測(cè)產(chǎn)品需要學(xué)習(xí)的一個(gè)方面。
在信創(chuàng)的大趨勢(shì)下,博睿數(shù)據(jù)的應(yīng)用性能觀測(cè)產(chǎn)品在服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫中間件等層面做了很多適配,支持大部分主流廠商,也已經(jīng)在政府客戶中開始落地。
在標(biāo)準(zhǔn)方面,博睿數(shù)據(jù)積極參與了工信部、信創(chuàng)工委會(huì)等標(biāo)準(zhǔn)制定。孫麗表示,這些標(biāo)準(zhǔn)將對(duì)中國的產(chǎn)品走向全球化是非常重要的。
























