国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

天穹數倉自治能力在大模型時代的新實踐

大數據 數據倉庫
隨著大數據技術的不斷發展,數據治理和自治能力的提升變得尤為重要。本次分享題目為“天穹數倉自治能力新實踐”。

一、大數據自治的背景

1. 大數據自治涵蓋的范疇

大數據自治是一個廣義的概念,涵蓋從數據采集到數據接入、計算、存儲、應用等一系列問題。它不僅包括數據治理,還涉及數據研發和業務發生問題的解決。大數據自治的目的是管理數據的整個生命周期,從數據產生到數據使用,再到數據銷毀。

2. 業務、技術的快速發展

在過去的三十年中,數倉的發展歷程經歷了從傳統數倉到大數據數倉,再到數字數倉的三個階段。傳統數倉如 Oracle、DB2 等,架構單一,主要處理結構化數據,數據規模較小,實時性較低。

隨著 Google 三篇論文的發表,開始進入大數據時代,Hive、Hadoop/MR、Spark 等大數據數倉先后問世,產生了 Lambda、Kappa 等較為復雜的架構,處理的數據規模呈爆炸性增長,結構化、半結構化和異構化數據并存,實時性要求更高,計算也變得更為復雜。

從 2020 年至今,處于數智數倉時代,實時性和計算復雜性進一步提升,架構也更加復雜,包括流批一體、湖倉一體等,大模型也逐漸應用到數倉之中。

隨著數倉技術的發展,數據處理的流程從傳統的 ETL,變為大數據時代的 ELT,當前又提出了 EtLT 的概念。

3. 數倉模式演進:EtLT 崛起

EtLT 是 ELT 的擴展,其中 Extract、Load、Transform 的含義并沒有改變,在此基礎上提出了小 t 和大 T 的區別。針對當前數智數倉的技術生態,小 t 更緊密地結合湖倉技術,偏數據底層的工程架構,而大 T 階段則更貼合業務,結合大模型的能力,完成偏數據上層應用的工作。

二、天穹大數據自治能力建設和落地:雙引擎策略

天穹大數據自治平臺采用雙引擎策略,結合 SQL 智能體和傳統機器學習,推動平臺自治。通過構建感知力、觀測力、診斷力和優化力,實現對數據相關進程的細粒度感知和智能優化。能力范圍包括從數據采集、數據接入,到數據計算、存儲,再到應用的全流程,從資源、計算、研效等各方面進行了優化。

最終實現了包括算子粒度的回放和診斷能力的產品化:支持 40 多個算子粒度問題的診斷,并優化了 SQL 粒度算子實現了自動 map join 功能,在 Presto 上測試效果顯著,CPU 和內存節省顯著。SQL 引擎自動選擇方面,提升了計算性能,減少了資源浪費。作業任務資源優化方面,大幅降低了天穹上運行作業的內存和 CPU 成本。除此之外還有 SQL 智能體的優化改寫等功能,這些功能在實際應用中取得了顯著效果。

圖片

1. 感知力

感知力是數據系統的重要部分,決定著上層觀測力、診斷力、優化力等能力體系建設的深度。天穹平臺通過 JVM 級別的數據感知,已基本覆蓋所有物理機和容器,每天感知的數據量達到了萬億規模。

2. 觀測力

通過對采集數據進行指標的聚合和抽象,建立以健康分為核心的數據體系,實現任務進程粒度的數據上卷和下鉆操作,使大數據生態的“黑盒”更加透明化,發現底層指標或異常問題。

3. 診斷力

(1)全鏈路診斷能力的構建

針對內部經常遇到的作業鏈路較長,問題定位和診斷工作繁瑣低效的問題,天穹平臺基于組件粒度構建了全鏈路診斷能力,使得用戶能夠清晰地了解當前問題發生在哪個組件,并在此基礎上進行深入挖掘和對比。例如,如果問題發生在計算引擎側,能夠清晰地告知用戶作業在計算引擎層是由于資源搶占被 kill,或任務本身數據膨脹、數據傾斜等原因導致的異常,并提供細粒度的判斷。

(2)算子粒度的異常識別

同時,針對 SQL 任務,推出了算子粒度的診斷,可以將實際物理執行過程中發生的異常點與 SQL 邏輯片段對應起來,從而幫助用戶在繁雜的計算過程中快速準確地定位到問題的具體原因。

圖片

在實際應用中,我們已經將算子粒度的回放和診斷能力產品化。這使得用戶能夠回放 SQL 計算的過程,診斷每一個算子的數據規模和資源占用情況。目前,我們已經支持了 40 多個算子粒度問題的診斷。

圖片

4. 優化力

針對在大數據計算過程中面臨的挑戰,如任務運行緩慢、數據處理速度不理想以及任務資源啟動困難等問題,構建了優化力能力體系。在資源方面,針對 Spark 和 Flink 進行了深入優化。在性能方面,引入了 SQL 引擎選擇、智能 SQL Hint 和智能 RSS 等技術。此外,通過 SQL 智能體的構建,實現了 SQL 優化改寫、語法糾錯和診斷等功能。

(1)數據驅動的資源優化

針對 Spark 的資源優化,主要構建了基于 Spark 歷史運行數據的方法,采用白盒和黑盒兩種方式進行調整。白盒方法通過分析歷史運行過程中資源的實際進程粒度占用情況,擬合出適合作業正確運行的資源參數。我們根據歷史運行曲線自定義計算彈性因子,并每天為作業推薦資源參數。而黑盒方法則無需用戶感知,算法基于時間和性能兩個維度自動調整參數,并每天定時進行迭代。通過前一周期的運行結果,調整下一周期的參數,并提交到集群中運行。

最終針對一些應用組顯著節省了超過 50% 的內存成本和 30% 的 CPU成本,在資源優化方面取得了顯著的成果,降低了資源的使用。

圖片

(2)SQL 引擎選擇,讓 SQL 計算更加高效

在 SQL 計算引擎選擇方面,根據 SQL 計算邏輯的復雜度判斷其是 IO 密集型還是 CPU 密集型,并將不同的 SQL 分發到不同的計算引擎上以提高性能。同時從歷史運行的 SQL 中提取特征,利用 XGBoost 模型進行訓練,以優化底層的建模過程。

最終通過特征化和模型訓練,引擎 failover 規避率有了顯著提升,進一步降低了資源浪費。

圖片

(3)SQL 算子粒度優化,反哺計算引擎

除了資源優化和 SQL 引擎選擇外,還關注算子粒度的優化。從歷史運行數據中挖掘包含算子粒度信息的數據記錄,經過規劃處理后形成 SQL 算子粒度的數據體系。這有助于支持 SQL 的 CBO 代價模型優化。例如,如果提前知道計算過程的數據量,可以自動添加 map join 等提示以提升效率。此外,對于每天定時調度的數據計算任務,由于 SQL 邏輯和數據量相似,可以通過歷史數據進行預測和優化。

圖片

最終通過算子粒度的數據挖掘,將運行過程中的數據量大小和數據記錄數喂給 SQL 代價模型,實現了自動 map join 的功能,顯著提高了 SQL 計算的性能。在 TPC-DS 測試集中,自動 map join 的占比達到了 57%,顯著提升了 CPU 和內存的使用效率。

圖片

5. SQL 智能體

由于日常機器計算類型中 SQL 任務占比很高,且標準化程度較高,天穹結合大語言模型對于 SQL 的理解力,以優化 SQL 性能提升作業效率為目標,進行了 SQL 智能體的構建。

騰訊內部基于混元大語言模型,設計了多輪對話、問診模式的 SQL 智能體,涵蓋了 prompt 知識庫、function call 等環節。

圖片

下面介紹一下 SQL 智能體的構建過程。首先,通過現網收集 SQL 優化和錯誤 SQL,以及 SQL 工單語料庫,在此基礎上建立 SQL 指令集,基于基座模型進行指令微調,并結合 prompt 強化用戶意圖。

圖片

最終通過 SQL 智能體的構建,從多方面實現了 SQL 的優化改寫和診斷,顯著提升了 SQL 性能。

(1)正確性解析和轉換

它能自動將硬查詢中的 SQL 翻譯為為 inner join,并實時對比優化前后的 SQL。

SQL 智能體在優化改寫方面也取得了顯著的成果。通過底層的 OLAP 引擎測試發現,性能提升了 17.19%。這表明 SQL 智能體能夠有效地優化 SQL 計算,提高系統性能。

圖片

(2)SQL 長度優化

大模型能夠理解長 SQL 內容,自動去除不必要的如 order by 的邏輯片段,提高計算效率。

圖片

(3)SQL 邏輯簡化

此外,SQL 智能體還能夠簡化 SQL 邏輯,借助臨時表等技術,使得 SQL 計算邏輯更加簡潔和高效。

圖片

三、未來規劃和展望

在未來的規劃中,我們將繼續優化數據存儲和研發能力,不斷豐富和提升大數據自治的能力。最終,我們計劃打造一個湖倉智能自治的解決方案,支撐大數據平臺的智能化應用,推動大數據自治向更高層次發展。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-04-16 04:20:00

2022-06-10 15:21:15

MySQL CDCSqlServer數據庫

2023-09-28 08:19:57

語言模型數倉數據

2022-08-22 17:46:56

虛擬數倉Impala

2021-01-31 23:54:23

數倉模型

2025-06-09 09:32:35

2024-06-11 07:46:23

2023-10-11 07:20:17

2021-01-04 05:42:48

數倉模型設計

2025-04-02 01:25:00

2023-05-10 14:40:40

AI模型算力

2023-08-30 07:14:27

MaxCompute湖倉一體

2023-12-08 07:44:20

2022-12-06 17:52:57

離線數倉治理

2024-04-09 07:28:05

2022-09-15 09:32:42

數據倉處理

2022-12-08 10:16:58

數據模型

2024-09-09 13:55:35

2023-08-15 08:12:12

數倉建模數倉建設
點贊
收藏

51CTO技術棧公眾號

1区2区3区在线观看| 德国一级在线视频| 日本精品600av| 污污的视频在线观看| 日日夜夜免费精品视频| 26uuu欧美日本| 国产91精品高潮白浆喷水| 成熟丰满熟妇高潮xxxxx视频| 黄色片在线免费看| 亚洲宅男一区| 日韩亚洲电影在线| 狠狠97人人婷婷五月| 性欧美lx╳lx╳| 欧美视频你懂的| 日韩在线三区| 中文成人激情娱乐网| 亚洲欧美日韩专区| 色综合导航网站| 黄网站在线免费| 97久久精品人人做人人爽| 午夜精品蜜臀一区二区三区免费| 免费看成年人视频在线观看 | 亚洲国产电影在线观看| 欧美国产一区二区在线| 久久91超碰青草在哪里看| 亚洲综合男人的天堂| 8x8x华人在线| 亚洲澳门在线| 日韩欧美一区二区在线视频| 成人欧美视频在线| 精品视频免费| 亚洲福利视频免费观看| 青青草视频免费在线观看| 成人动漫在线一区| 欧美一级黄色网| 福利视频免费在线观看| 日本伊人色综合网| 欧美最近摘花xxxx摘花| h片视频在线观看| 亚洲mv大片欧洲mv大片精品| 精品网站在线看| 国产一区二区三区视频在线| 日韩中文字幕视频在线| 美女高潮在线观看| 精品国产一二三区| 91美女视频在线| 亚洲影视在线播放| 一本一本a久久| 精品午夜久久| 国产拍精品一二三| 五月激情久久久| 5278欧美一区二区三区| 亚洲三级av| 一本色道久久88精品综合| 日日夜夜精品视频免费| 色涩成人影视在线播放| 久久一区中文字幕| 久久精品国产精品国产精品污| 91成人精品| 91在线网站视频| 欧美在线91| 91精品国产综合久久久久久久久久 | 国产区亚洲区欧美区| 精品国产乱码一区二区三区| 国产乱人伦精品一区二区| 成人精品在线视频观看| 亚洲三级视频网站| 天天av天天翘天天综合网| bdsm精品捆绑chinese| av不卡免费在线观看| 色悠悠久久综合网| 久久久99免费视频| 久久久欧美精品sm网站| 老司机免费在线视频| 国产亚洲欧美视频| 精品一区二区三| 农村寡妇一区二区三区| 丝袜美腿亚洲色图| 久久午夜夜伦鲁鲁一区二区| 在线成人高清不卡| 日韩黄色片在线观看| 有色激情视频免费在线| 欧美一区二区免费| 欧美美女福利视频| 51国偷自产一区二区三区的来源| 日韩午夜激情| 国产视频观看一区| 91丨九色丨蝌蚪丨老版| 91三级在线| 日韩免费av在线| 麻豆精品在线播放| 精品久久久久久中文字幕动漫| 国产欧美日韩激情| 又黄又爽无遮挡| 精品视频—区二区三区免费| 日本一区二区三区电影免费观看| 日本亚洲欧洲色α| 日韩精品一区二区在线| 国产乱色国产精品免费视频| av午夜在线观看| 国产伦精品一区二区三区高清版| 国产人伦精品一区二区| av在线电影观看| 亚州精品天堂中文字幕| 亚洲少妇30p| 中文字幕日韩高清在线| r级无码视频在线观看| 欧美日韩1234| 亚洲精品成人影院| 日本肉肉一区| 成人在线播放网站| 欧美日韩亚洲综合一区二区三区| 16—17女人毛片毛片| 久久精品国产精品亚洲| 懂色av中文一区二区三区天美| 亚洲国产精品综合久久久| 男人的天堂www| 国产精品久久久久久久久久免费 | 亚洲第一视频网站| 国产精品久久久久久久久久10秀| 簧片在线免费看| 久久国产精品亚洲| 色天天综合久久久久综合片| 亚洲一级一区| 77thz桃花论族在线观看| 可以在线看黄的网站| 欧美性受xxxx黑人xyx| 日韩欧美精品一区| 制服丝袜中文字幕在线观看| 国产人妻互换一区二区| 国产日韩欧美中文| 久久精品91久久香蕉加勒比| 精品视频全国免费看| 日本一区二区三区国色天香| 日本欧美大码aⅴ在线播放| 日本不卡免费一区| 美女扒开腿让男人桶爽久久动漫| 成年男女免费视频网站不卡| 在线免费看黄色| 黄页网站在线播放| free性欧美1819hd| 日本中文字幕高清| 黄色直播在线| 亚洲mv在线看| 亚洲国产精品va在线看黑人动漫| 国产一区二区电影| 欧美电影免费网站| 黑粗硬长欧美在线视频免费的| 成人免费淫片视频软件| 久久精品91久久久久久再现| 精品久久久久久中文字幕| a亚洲天堂av| 亚洲成人午夜电影| 国产欧美一区二区三区鸳鸯浴| 国产自产视频一区二区三区| 久久婷婷久久| 日日噜噜夜夜狠狠视频欧美人 | 国产精品99蜜臀久久不卡二区| 日韩欧美美女一区二区三区| 亚洲地区一二三色| 亚洲视频一区在线观看| **性色生活片久久毛片| 三级在线观看一区二区| 国产乱码精品一区二区三区四区 | 成人免费小视频| 久久精品夜夜夜夜久久| 国产高清不卡二三区| 国产一区欧美日韩| 最新中文字幕一区二区三区 | 2021国产精品久久精品| 日日摸夜夜添夜夜添精品视频| 美女网站视频久久| 麻豆一区二区三| blacked蜜桃精品一区| 蜜桃a∨噜噜一区二区三区| 亚洲小说春色综合另类电影| 青青草国产一区二区三区| 国内精品麻豆美女在线播放视频| 深夜福利一区二区三区| 全黄性性激高免费视频| 色欲av无码一区二区人妻| 热久久精品免费视频| 国产成人无码av在线播放dvd| 国产男女在线观看| 精品伦理一区二区| 99香蕉久久| 欧美激情性爽国产精品17p| 日韩电影免费在线| 亚洲免费观看高清| 久久精品视频免费| 亚洲网友自拍偷拍| 日韩欧美电影一区| 欧美日韩电影在线观看| 91av在线免费播放| 精品电影在线| 福利精品在线| 亚洲小说欧美另类社区| 色香蕉久久蜜桃| 欧美巨猛xxxx猛交黑人97人| 91精品久久久久久久久青青|