国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

監控告警滿飛天,運維在家睡到自然醒...

運維 系統運維
本文闡述了 Netflix 的系統監控實踐:自研 Telltale,成功運行并監控著 Netflix 100 多個生產應用程序的運行狀況。

作為知名的流媒體巨頭,Netflix 在全球擁有近 2 億訂閱用戶,服務遍及多個國家。 

[[406395]]

圖片來自 Pexels 

本文闡述了 Netflix 的系統監控實踐:自研 Telltale,成功運行并監控著 Netflix 100 多個生產應用程序的運行狀況。

難忘的經歷

相信很多運維人都有過這樣的經歷:監控系統某個指標超過閾值,觸發告警。大半夜里,你被緊急召喚。

半睜著眼,你滿臉疑惑:“系統真出問題了嗎,還是僅僅需要調整下告警?上一次有人調整我們的告警閾值是在什么時候?有沒有可能是上游或者下游的服務出現了問題?”

鑒于這是一次非常重要的應用告警,因此你不得不從床上爬起來,迅速打開電腦,然后瀏覽監控儀表盤來追蹤問題源頭。

忙了半天,你還沒確認這個告警是來自于系統的問題,但也意識到,從海量數據中尋找線索時,時間正在流逝。你必須盡快定位告警的原因,并祈禱系統穩定運行。

對我們的用戶來講,穩健的 Netflix 服務至關重要。當你坐下來看《養虎為患》時,你肯定希望它能順利播放。

多年來,我們從經常在深夜被召喚的工程師那里了解到應用程序監控的痛點:

  • 過多的告警
  • 太多滾動瀏覽的儀表盤
  • 太多的配置
  • 過多的維護

Telltale

我們的流媒體團隊需要一個全新的監控系統,可以讓團隊成員快速地診斷和修復問題;因為在系統告警的緊急情況下,每一秒都至關重要!

我們的 Node 團隊 需要一個僅需一小撮人就能運維大型集群的系統。因此,我們構建了 Telltale。 

Telltale 監控時間軸 

Telltale 的特性如下:

  • 匯集監控數據源,創建整體監控視圖:Telltale 匯集了各種監控數據源,從而能創建關于應用程序運行狀況的整體監控視圖。
  • 多維度判斷應用程序的健康狀況:Telltale 可以通過多個維度判斷一個應用程序的健康情況,而無需根據單一指標頻繁調整告警閾值。
  • 及時告警:因為我們知道應用程序在什么情況下是正常的,所以能在應用程序有異常趨勢時及時通知應用程序的所有者。
  • 顯示關鍵數據:指標是了解應用程序運行狀態的關鍵。但很多時候,你擁有太多的指標、太多的圖表以及太多的監控儀表盤。而 Telltale 僅顯示應用程序中有用的相關數據及其上游和下游服務的數據。
  • 用顏色區分問題的嚴重程度:我們使用不同的顏色來表示問題的嚴重程度(除選擇顏色之外,還可以讓 Telltale 顯示不同的數字),以便運維人員一眼就能判斷出應用程序的運行狀況。
  • 高亮提示:我們還會對一些監控事件進行高亮提示,比如局部區域的網絡流量疏散及就近的 服務部署,這些信息對于全面了解服務的健康情況至關重要,尤其是在真正發生系統故障的情況下。

這就是我們的 Telltale 監控。它現已成功運行并提供監控服務,監控著 Netflix 100 多個生產應用程序的運行狀況。

應用程序健康評估模型

微服務并非是孤立存在和運行的。它需要特定的依賴,與其他服務進行數據交互,甚至位于不同的 AWS 區域。

上面的調用圖是一個相對簡單的圖,其中涉及許多服務,實際的調用鏈可能會更深更復雜。

一個應用程序是系統生態的一部分,它的運行狀態可能會受到相關屬性變化的微弱影響,也有可能會受到區域范圍內某些事件的影響從而發生根本性改變。

canary 的啟動可能會對應用程序產生一定影響。在一定程度上,上游或下游服務的部署同樣也可以帶來一定的影響。

Telltale 通過使用多個維度的數據源構建一個不斷自我優化的模型來監控應用程序的健康度:

  • Atlas 時序指標
  • 區域網絡流量疏散
  • Mantis 實時流數據
  • 基礎架構變更事件
  • Canary 部署及使用
  • 上、下游服務的運行狀況
  • 表征 QoE 的相關指標
  • 告警平臺發出的報警

不同的數據源對應用程序健康度的影響權重不同。例如,與錯誤率增加相比,響應時間的增加對應用程序的影響要小很多。

錯誤代碼有很多,但是某些特定的錯誤代碼的影響要比其他錯誤代碼的影響大。在服務下游部署 canary 可能不如在上游部署帶來的效果明顯。

區域網絡流量轉移意味著某個區域的網絡流量降為零而另一個區域的網絡流量會加倍。

你可以感受下不同的指標對于監控的影響。監控指標的具體含義決定了我們應該如何科學有效地使用它來進行監控。

在構建應用程序健康狀況視圖時,Telltale 考慮了所有這些因素。應用程序健康評估模型是 Telltale 的核心。

智能監控

每個服務運維人員都知道告警閾值調整的難度。將閾值設置得太低,你會收到大量虛假告警。

如果過度補償并放寬告警閾值,就會錯過重要的異常警告。這樣導致的最終結果是對告警缺乏信任。Telltale 可以幫助你免除不斷調整相關配置的繁瑣工作。

通過提供準確的和嚴格管理的數據源,我們能讓應用程序所有者的設置和配置過程變得更加容易。

這些數據源通過按照一定的組合應用到程序的配置中,以實現最常見的服務類型配置。

Telltale 可以自動追蹤服務之間的依賴關系,以構建應用程序健康評估模型中的拓撲。

通過數據源管理以及拓撲監測,在不用付出很大的努力情況下就能使配置保持最新狀態。那些需要手動實踐的一些場景仍然支持手動配置和調整。

沒有任何一個獨立的算法可以適用我們所有的監控場景。因此,我們采用了混合算法,包括統計算法、基于規則的算法和機器學習算法。

不久后,我們將在 Netflix Tech Blog 上發表一篇針對我們監控算法的文章。

Telltale 還具有分析器,可用于趨勢探測或內存泄漏監測。智能監控意味著我們的用戶可以信賴我們的監控結果。

這表明故障發生時,用戶能更快地定位和解決系統異常問題。

智能告警

智能監控必然會促進智能告警。當 Telltale 檢測到應用程序中的運行異常時,就會產生異常事件。

團隊可以選擇通過 Slack、電子郵件或 PagerDuty(均由我們的內部告警系統提供支持)進行告警。

如果該異常問題是由上游或下游系統引起的,則 Telltale 的上下文感知路由會提醒服務對應的維護團隊。

智能告警還意味著運維團隊針對特定異常只會收到一個通知,也就是說,告警風暴已經成為過去式。 

Slack 中的 Telltale 通知示例 

在系統出現問題時,掌握準確的信息至關重要。我們的 Slack 告警程序還會啟動一個包含有關事件上下文信息的線程,提供 Telltale 識別到的異常問題信息及問題產生的原因。

正確的上下文可以方便我們了解應用程序的當前狀態,以便值班運維的工程師能有針對性的定位和修復問題。

異常告警事件會不斷發展而且擁有自己的生命周期,因此及時更新事件狀態至關重要。告警異常是好轉了還是惡化了?是否要考慮新的監控信息或事件?

Telltale 在當前事件發生改變時會更新 Slack 線程。系統返回正常狀態后,該線程將被標記為“已解決”,因此用戶一眼就能知道哪些異常事件正在處理中,哪些異常事件已成功修復。

這些 Slack 線程不僅僅適用于 Telltale。團隊還可以用它們來共享有關事件的其他數據,方便進一步觀察、理論分析和討論。

異常信息數據和討論全部集中在一個線程中,方便達成針對當前異常的共識,有利于更快提出問題的解決方案以及異常事件的事后分析。

我們致力于提高 Telltale 告警的質量。一種方法是向我們的用戶學習。因此,我們在 Slack 消息中提供了反饋按鈕。

用戶可以告訴我們以后某些情況不需要再發生告警,或提供某些告警不合理的原因。智能告警意味著用戶可以信賴我們的告警。 

在 Slack 的 Telltale 通知中描述異常詳細信息的一個示例 

為什么我的應用服務運行狀態欠佳?各種類型的監控數據、應用程序相關知識以及跨多種服務數據的相關性,有助于 Telltale 檢測分析應用程序運行健康度降低的原因。

這些原因包括實例異常、相關依賴的監測和部署異常、數據庫異?;蛘呔W絡流量高峰等。突出高亮顯示這些可能的原因可以幫助運維人員節省大量寶貴的時間。

異常事件管理 

Telltale 異常事件摘要的一個示例 

當 Telltale 發送告警時,它還會創建一個快照,其中引用了不正常的監控信號數據。隨著新監控信息的到來,會將其添加到此快照中。

這簡化了團隊的很多事后審查流程。當需要復查過去的異常問題時,“應用程序事件摘要”功能可以從各個方面顯示當前的問題,包括一些關鍵指標,比如總停機時間和 MTTR(平均解決時間)。

我們希望幫助我們的團隊了解更多的異常事件的模式,以便提高我們服務的整體可用性。 

集群視圖下將相似異常事件分組 

部署監控

可以看出,Telltale 的應用程序健康評估模型及其智能監控功能非常強大,所以我們也會將其應用于安全部署方面。我們從開放源碼交付平臺 Spinnaker 開始測試。

隨著 Spinnaker 逐漸推出新版本,我們使用 Telltale 連續監監控運行新版本實例的運行狀態。

持續監控意味著新部署在問題出現時能自行停止并進行回滾操作。這意味著部署存在問題時的影響半徑較小,持續時間更短。

持續優化

在復雜的系統中,運行微服務非常具有挑戰性。Telltale 的智能監控和告警功能可以幫助我們運維人員提高系統可用性、降低運維人員的勞動強度并減少工作人員大半夜被叫醒的頻率。

我們為 Telltale 做到的這些功能提升感到高興。但是遠沒有結束,我們仍在不斷探索新算法,以提高告警的準確性。

我們將在以后的 Netflix Tech Blog 文章中詳細介紹我們的工作進展。我們仍然在對應用程序健康評估模型進行進一步評估和改進。

我們相信服務運行日志和跟蹤數據中會包含更多有價值的信息,這樣我們就能采集到更有用的指標數據。我們很期待與平臺其他團隊進行合作,共同開發這些新功能。

將新應用監控引入 Telltale 可以享受到很好的服務體驗,但是無法很好的進行擴展,所以我們絕對可以優化和提高自服務的用戶界面。

我們確信,有更好的啟發式方法能幫助用戶找出影響服務健康度的一些因素。Telltale 簡化了應用程序的監控。

作者:Andrei Ushakov

編輯:陶家龍

出處:http://7t4z2.cn/2Oa14

 

責任編輯:未麗燕 來源: 51CTO技術棧
相關推薦

2021-06-21 08:59:55

監控Netflix優化

2019-03-19 08:41:38

Linux運維變更

2025-08-27 07:10:00

運維監控系統資源

2024-04-09 08:00:00

Kubernetes管理系統云原生

2022-05-05 07:25:03

Supervisor監控Python

2022-07-29 21:23:54

Grafana微服務

2015-07-16 16:31:58

運維工具

2020-12-30 05:34:25

監控PrometheusGrafana

2022-07-28 06:50:52

微服務業務系統

2011-03-21 14:43:42

2025-06-20 02:11:00

2015-05-27 14:50:54

監控寶

2022-04-01 08:27:30

告警收斂運維監控

2025-03-13 08:01:32

2023-12-20 08:13:54

K8S監控管理

2024-01-05 11:49:30

K8S監控告警

2017-02-27 17:51:31

戴爾

2020-12-30 08:09:46

運維Prometheus 監控

2021-11-05 10:54:31

數字化

2011-03-25 13:54:00

Nagios
點贊
收藏

51CTO技術棧公眾號

日韩欧美电影一区| 翡翠波斯猫1977年美国| 色影院视频在线| 亚洲成人午夜影院| 亚洲国产日韩欧美在线观看| 成人午夜看片网址| 18视频在线观看娇喘| 久久精品国语| 欧美久久久久久| 亚洲自啪免费| 农村寡妇一区二区三区| 亚洲乱亚洲高清| 国产精品久久久久久久小唯西川| 成人影视亚洲图片在线| 国产精品狠色婷| 欧美三级伦理在线| 国产又爽又黄的激情精品视频| 精品日韩欧美一区| 91精品视频在线| 欧美日韩国产高清| 精品乱码一区| 天使萌一区二区三区免费观看| 欧美中文娱乐网| 蜜桃久久久久久久| 精品人妻人人做人人爽| av在线播放一区二区三区| 黄色片一级视频| 欧美韩国日本不卡| 黄色三级在线观看| 色综合欧美在线| av在线电影免费观看| 日韩丝袜美女视频| 三上悠亚国产精品一区二区三区| 中文字幕在线看视频国产欧美| 亚洲精品福利| 国产精品美女呻吟| 黄色日韩在线| 亚洲日本理论电影| 91在线一区二区| 国产女主播在线| 色婷婷国产精品综合在线观看| 免费av在线网站| 国产亚洲福利一区| 婷婷国产精品| 国内精品国语自产拍在线观看| 久久国内精品视频| 日韩免费高清在线| 亚洲高清在线视频| 国产美女一区视频| 久热精品视频在线观看一区| 日韩www.| 久久观看最新视频| 欧美激情一区二区三区四区| 三区在线视频| 日韩av在线免费播放| 久久久久久久久久久久电影| 国产女人精品视频| 久久爱www久久做| 天天综合天天| 欧美三级视频在线| 91精品一区| 97在线中文字幕| 国产99久久久国产精品潘金网站| 1区不卡电影| 欧美刺激午夜性久久久久久久| 日韩三级网址| 久久99国产精品99久久| 91偷拍与自偷拍精品| 污香蕉视频在线观看| 亚洲欧洲国产精品| 日韩成人精品一区二区| 伊人久久99| 欧美视频在线观看 亚洲欧| 中文字幕乱码中文乱码51精品| 日本一区二区三区在线播放| 卡一卡二国产精品 | 一区二区视频| 国产亚洲自拍偷拍| 国产亚洲精品7777| 欧美人动性xxxxz0oz| 国产成人精品一区| 国产不卡在线播放| 国产黄在线播放| 欧美激情三级免费| 欧美aaaaa成人免费观看视频| 美日韩在线观看| 中文字幕欧美视频在线| 国产一区观看| 久草在线国产| 丝袜情趣国产精品| 久久综合婷婷| 中文字幕中文字幕在线中文字幕三区 | 99久久久无码国产精品性色戒| 亚洲激情自拍偷拍| 久久精品嫩草影院| 日本一区二区精品| 天天影视色香欲综合网老头| 亚洲不卡视频| 青春草国产视频| 亚洲的天堂在线中文字幕| 欧美极品一区二区三区| 男人天堂2020| 国内精品一区二区三区四区| 丰满岳乱妇一区二区三区| 超碰porn在线| 国产精品一区二区免费| 无码av免费一区二区三区试看 | 免费人成精品欧美精品| 男女污视频在线观看| 久久久免费在线观看| 99精品视频中文字幕| 在线精品亚洲欧美日韩国产| 日韩欧美亚洲在线| 欧美人xxxx| 极品少妇一区二区三区| 神马久久久久| 国产日韩欧美在线看| 一区二区三区四区高清精品免费观看| 国产成人夜色高潮福利影视| 国产成人久久婷婷精品流白浆| 亚洲无av在线中文字幕| 国产精品一区二区久激情瑜伽| 182在线播放| 台湾成人av| 精品成人在线观看| 九色porny丨国产精品| 男人的天堂免费在线视频| 日韩国产欧美精品| 亚洲第一天堂av| 久久99在线观看| 小早川怜子影音先锋在线观看| 椎名由奈jux491在线播放| 精品呦交小u女在线| 国产精品一区二区在线播放| 国产成人毛片| 欧美成人免费高清视频| 欧美精品videosex极品1| 国产精品色哟哟网站| 亚洲最好看的视频| 在线播放av片| 久久福利电影| 亚洲精品黄网在线观看| 国产不卡一区视频| 精品国产乱码久久久久久樱花| 亚洲 激情 在线| 国产精品网址在线| 欧美日韩视频在线一区二区| 日韩精品成人一区二区三区| 毛片无码国产| 婷婷六月天在线| 国产精品免费视频xxxx| 欧洲激情一区二区| 久久国产日韩欧美精品| 日韩成人综合网站| 高清av影院| 精品久久久久久亚洲| 亚洲片av在线| 国产日韩在线不卡| 亚洲情侣在线| 日韩av影片| 可以免费看污视频的网站| 亚洲伊人成综合成人网| 精品日韩欧美一区二区| 91日韩精品一区| 小小影院久久| 青草av在线| 久久国产成人精品国产成人亚洲| 亲子乱一区二区三区电影 | 免费av在线一区| 亚洲国产欧美一区二区三区丁香婷 | 超碰超碰97| 久久久7777| 久久久久999| 欧美日韩国产一区二区| 麻豆久久久久久| 国产图片一区| 成年人视频免费在线观看| 在线视频精品一区| 2019av中文字幕| 欧美精品国产精品| www..com久久爱| 99成人超碰| 朝桐光一区二区| 亚洲热app| 欧美大片在线播放| 成人疯狂猛交xxx| 国产一区二区成人| 亚洲国产你懂的| 久久成人麻豆午夜电影| 免费电影一区二区三区| 欧美黑人猛交| 日本高清视频网站www| 天堂av免费看| 92国产精品视频| 精品激情国产视频| 欧美一区二区三区在线看| 亚洲你懂的在线视频| 激情小说亚洲一区| 欧美私人啪啪vps| 果冻天美麻豆一区二区国产|