国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

再也不用敲SQL DDL了!數據湖時代Google的元數據自動管理技術

數據庫
本文的特點是方向新穎、問題開放,因此行文邏輯和其他論文有一些不同,側重在問題的定義。

一、閱讀目的

目前不管是數倉、Lakehouse、數據湖都把開放數據湖中數據的分析作為當下的一個能力突破點。前面有看過論文“Data lake management: Challenges and opportunities”主要分析數據湖管理領域趨勢和挑戰,里面有提到google的Goods在元數據管理方面做了不錯的工業實踐。

二、解決的核心問題(場景/技術)

1、Goods在Google元數據體系的位置

從Google bigquery相關資料可以看出google有一套統一的Data catalog,Goods可以理解是基于這套Data catalog基礎服務提供的面向數據湖場景元數據管理的完善能力。另外googole還有一篇論文“Big Metadata: When Metadata is Big Data”則是講在large scale表的元數據及統計信息管理的創新,也是基于Data catalog的工作,這篇文章的解析可以參考本公眾號的“Delta Lake&Hudi很火!Google更是Lakehouse的領跑者”文章。

2、Goods的場景定位

面向數據湖場景避免數據孤島,需要對數據進行統一的管理,而統一管理的可落地方式就是把元數據統一管理起來。Goods的定位不只做統一元數據服務,而是在元數據服務之上解決元數據上下游的處理,并支持用戶高效的從大量數據中找到自己需要的數據集。核心技術難點在于準確發現、大規模存儲、提供元數據查詢能力。

產生很多dataset的原因是為了快速的使用數據,來驅動他們的競爭優勢,但是在存儲數據的時候沒有進行統一的元數據管理,這樣就只能事后進行元數據的管理。不改變原有使用元數據的方式,goods后臺執行并采集元數據,并記錄和其他dataset之間的血緣關系,從而對外提供高效的元數據查詢服務。

三、論文內幕

本文的特點是方向新穎、問題開放,因此行文邏輯和其他論文有一些不同,側重在問題的定義。主要包括幾方面:挑戰、數據發現能力、后端存儲計算服務、查詢服務、相關工作及未來

1、挑戰

下面是整體的架構,可以看到goods支持多種數據源的元數據發現、對外提供豐富的數據管理能力。挑戰包括下面的:

  • 海量dataset的元數據發現:支持google所有依賴的26 billion datasets的發現,未來加速需要做dataset關聯的元數據推斷
  • dataset多樣性:不同的數據源有不同的類型系統,怎么做一套統一的元數據管理很有挑戰。比如bigtable的表需要按照列簇進行表的拆分
  • dataset的TTL能力:因為元數據會有版本,全部保留數據量很大,因此需要有TTL的能力
  • 后置元數據發現具有一定不確定性:利用dataset自包含的content和dataset本身的隱藏關系
  • 計算dataset的重要性:通過比如計算訪問頻率,主動推理dataset對用戶的重要性
  • 恢復dataset的語義:dataset的語義對于后續的查詢、搜索、描述更有意義

2、Goods數據發現能力

存儲的元數據包括從不同系統獲取的,goods彌補自由度和統一視圖之間的gap,同時具備對多個版本進行聚合處理的能力。

  • 元數據

多種方式來爬取元數據并進行組裝,獲取的這些元數據不僅支持元數據恢復,同時能夠滿足數據的血緣和流動管理。goods支持構建一個圖來描述元信息之間的關系。發現元數據的手段包括:結構化的元數據都是使用pb來存儲、讀取一部分的數據來識別schema、使用一種算法識別潛在的key關鍵字、通過注釋來消除語義的歧義。

  • 對數據進行聚集處理

按照邏輯集群級別進行聚集分類,分類后可以進行一些智能的schema推斷和傳播,從而減少schema推斷的開銷。

3、后端存儲計算服務

  • Catalog storage:有特點的是支持dataset添加描述、以及一些維度的標簽信息

  • 批處理作業性能及調度

后臺有分析生成元數據的作業、schema識別可能會比較久,做了一些同質元數據比如分區的元數據發現的數據裁剪

  • 容錯:status的metadata里面存儲作業的運行狀態,做了執行作業的隔離
  • 元數據的垃圾收集:這里主要是有一些TTL

4、查詢服務

  • Dataset profile pages:支持dataset添加profile級別的配置,為了防止通過壓縮來減少使用空間。
  • dataset 搜索:這里主要是一些索引相關
  • 團隊報表:可以監控dataset的屬性的變化

5、相關工作

業界工作:Goods的特點是管理海量數據湖的元數據,不需要元數據再創建的時候就進行預處理。與現有比如hive管理元數據,核心的區別就在與數據湖場景,以及事后的元數據發現。

未來工作包括:

  • 對dataset的重要性進行標記還沒有完全做好
  • 區分生產、測試、開發的datasets
  • 整合更多的信息來做dataset的推理和管理
  • 語義發現和識別

四、學習感悟

goods對于數據湖場景海量的數據集,進行元數據做事后的發現提取、收集、管理、查詢。這個和筆者前面在阿里云云原生數據湖分析做的數據湖管理的元數據發現工作基本是一致的,這塊工作對于數據湖場景有很大的價值,可以看出goods在數據集血緣、發現的規模、模糊數據集的準確性做了更加體系化的思考。

責任編輯:張燕妮 來源: LakeHouse技術
相關推薦

2021-12-21 09:05:46

命令Linux敲錯

2024-01-26 07:00:11

Python工具無向圖

2015-05-29 09:01:48

2023-11-27 17:11:02

數據庫oracle

2018-10-11 15:51:32

ChromeGoogle瀏覽器

2021-08-13 22:38:36

大數據互聯網技術

2022-09-14 08:02:25

加密算法Bcryp

2024-04-15 00:08:00

MySQLInnoDB數據庫

2021-06-08 07:48:26

數據 Python開發

2020-06-15 08:03:17

大文件OOM內存

2023-07-29 22:02:06

MyBatis數據庫配置

2022-06-01 10:09:39

Linux網絡延遲

2022-11-07 08:58:41

搜索數據索引

2020-12-18 08:23:16

安卓手機系統谷歌

2025-04-25 10:00:00

2019-09-04 10:00:07

手機人臉識別

2015-10-22 10:38:43

Wi-Fi燃氣報警器

2020-01-21 21:15:16

WiFi網絡WiFi6

2021-01-11 16:19:45

MySQL數據庫服務器

2024-08-26 00:01:00

前端性能優化
點贊
收藏

51CTO技術棧公眾號

丁香花在线观看完整版电影| 日本一区二区黄色| 精精国产xxxx视频在线动漫| 欧美一区自拍| 欧美性大战xxxxx久久久| 日韩精品无码一区二区三区| 色狠狠一区二区三区| 在线免费精品视频| 9l视频白拍9色9l视频| 精品成人一区| 69av成年福利视频| 亚洲女同志freevdieo| 日韩中文综合网| 欧美日韩美女一区二区| 亚洲精品国产精品久久| 999成人精品视频线3| 中文字幕久久精品| 在线观影网站| 91免费视频观看| 亚洲欧洲中文| 欧美日韩国产综合新一区| 久久综合九色综合欧美亚洲| 亚洲自拍偷拍一区| 精品国产一区二区三区不卡蜜臂| 欧美美女激情18p| 中文字幕天天干| 国产成人啪午夜精品网站男同| 国产区欧美区日韩区| 日韩精品2区| 久久久噜噜噜久久久| 性欧美videohd高精| 欧美精品一区视频| 在线网址91| 欧美色倩网站大全免费| 日本视频不卡| 欧美xxxxxxxxx| 国产99在线| 国产香蕉97碰碰久久人人| sqte在线播放| 亚洲乱码一区二区| 亚洲精品国产嫩草在线观看| 日韩有码片在线观看| 欧美激情啪啪| 18禁网站免费无遮挡无码中文| 97影视在线观看| 国产欧美精品一区二区色综合| 91最新在线观看| 亚洲女同ⅹxx女同tv| 人成在线免费视频| 欧美综合一区二区三区| 老司机在线视频二区| 亚洲欧洲国产精品| 国产精品国产亚洲精品| 欧美在线视频观看免费网站| 欧美第十八页| 中文字幕中文字幕在线中心一区 | www.欧美精品| 综合国产视频| 蜜桃传媒一区二区| 久久久99精品久久| 久久77777| 欧美激情网站在线观看| 中文字幕一区二区三三 | 在线观看午夜av| 国产欧美日韩一区| 日韩在线成人| 中文字幕の友人北条麻妃| 日韩欧美国产wwwww| 丁香桃色午夜亚洲一区二区三区| 国产激情欧美| 国产成+人+亚洲+欧美+综合| 欧美亚洲国产视频小说| 国产日产亚洲精品系列| 欧美wwwwww| 伪装者免费全集在线观看| 国新精品乱码一区二区三区18| 精品国产一二三区| 免费污视频在线一区| 色乱码一区二区三区88| 欧美久色视频| 97天天综合网| 欧美日韩一区二区在线免费观看| 国产成人精品电影| 亚洲经典中文字幕| 丁香婷婷综合色啪| 欧美福利在线播放网址导航| 在线小视频网址| 影音先锋欧美在线| 青青在线视频一区二区三区| 日韩一区二区三| 亚洲成人免费在线| 日本不卡一区二区| 欧美高清另类hdvideosexjaⅴ| 精品不卡在线| 色av一区二区| 久久午夜精品| xxx欧美xxx| 国产原创中文在线观看| 4444欧美成人kkkk| 天天综合日日夜夜精品| 亚洲美女视频在线免费观看 | 色综合一个色综合| 成人在线播放| 免费看成人哺乳视频网站| 亚洲熟妇国产熟妇肥婆| 日韩一级免费一区| 久热国产精品| caoprom在线| 亚洲春色在线| 日韩激情视频在线| 国产精品水嫩水嫩| 久草成人在线| 久草福利在线视频| 国产精品男人的天堂| 欧美性猛交xxxxxx富婆| 久久综合伊人| 一区三区自拍| 一卡二卡三卡亚洲| 精品无人区一区二区三区| 亚洲国产精品高清久久久| 精品亚洲aⅴ乱码一区二区三区| 女厕盗摄一区二区三区| 久久久久久久久久久99| 日本国产一区二区三区| 色域天天综合网| 国产精品18久久久久久久久久久久| 日韩三级精品电影久久久| 日韩人妻精品一区二区三区| 欧美日韩国产一区二区三区地区| 精油按摩中文字幕久久| 欧美变态挠脚心| 免费在线午夜视频| av免费中文字幕| 亚洲va久久久噜噜噜| 亚洲精选一区二区| 色综合天天综合给合国产| 日韩激情av在线| 婷婷综合久久| av动漫免费看| 国产精品三区www17con| 亚洲欧洲一区二区三区久久| 亚洲精品一卡二卡| 久久99国产精品久久| 999成人精品视频线3| 欧美三级电影网址| 97在线观看免费观看高清| 欧美日韩亚洲自拍| 九九热久久66| 国产日韩欧美亚洲一区| 国产精品老牛影院在线观看| 中文字幕亚洲一区二区三区五十路 | 欧美人妖在线| av网站大全在线| 色网在线观看| 成人精品一区二区三区校园激情| 天天综合网日韩| 国产精品夜夜夜爽张柏芝| 亚洲精品自拍偷拍| 亚洲色图13p| 在线观看欧美激情| 蜜臀av在线播放一区二区三区 | 日韩一区二区三区三四区视频在线观看| 91精品国产免费| 欧美xxxx做受欧美.88| 91在线看网站| 亚洲最新合集| 亚洲五码在线观看视频| 亚洲最大av在线| 糖心vlog在线免费观看| 女生裸体视频网站免费观看| 肉肉视频在线观看| 韩日在线一区| 91网站黄www| 欧美xxx久久| 久久九九国产精品怡红院| 欧美在线一级va免费观看| 亚洲砖区区免费| 中文字幕在线免费观看| 国产精品成人国产| 鲁大师影院一区二区三区| 在线观看区一区二| 久久大香伊蕉在人线观看热2| 91国视频在线| 日韩资源在线| 牛牛精品一区二区| 日韩国产欧美一区二区| 日韩不卡一二三区| 亚洲欧美日韩在线| 9191国产精品| 欧美激情一级精品国产| 丁香婷婷久久久综合精品国产 | 欧美精品一区二| 成人自拍性视频| 阿v天堂2017| 成人av一区| 亚洲人成精品久久久| 久久99在线观看| 亚洲18女电影在线观看| 国产91精品在线播放| 成人性生活视频免费看|