国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

數倉 | Kimball的維度建模過時了嗎?

大數據
Inmon和Kimball是兩大主要陣營,但是Kimball的維度建模理論對于現代數倉建設的影響可謂是非常深遠的,所以本文主要討論維度建模的相關問題。

[[416770]]

本文轉載自微信公眾號「大數據技術與數倉」,作者西貝。轉載本文請聯系大數據技術與數倉公眾號。

從20世紀80年代中期以來,kimball一直是數據倉庫和商業智能行業維度建模方法的思想開拓者。維度建模之初假設數據倉庫僅限于單服務器數據庫,隨著大數據時代的到來,分布式計算和分式存儲成為了新的趨勢,所以Ralph Kimball所普及的維度數據建模方法和技術需要一些修訂,這樣才能更好地滿足大數據建模的需求。需要注意的是,在數據倉庫領域, Inmon和Kimball是兩大主要陣營,但是Kimball的維度建模理論對于現代數倉建設的影響可謂是非常深遠的,所以本文主要討論維度建模的相關問題。

不要使用代理鍵

在KimBall的維度建模中,必須使用代理鍵作為每個維表的主鍵,用于處理緩慢變化維。

這個問題對于初學數倉維度建模的人而言,很容易陷入Kimball提出的代理鍵的漩渦之中,以至于把時間都浪費了。其實代理鍵在大數據倉庫環境下顯得很不合時宜,并且很難維護。在實際的建模中使用自然鍵是一個很好的選擇,如果維度有一個復合主鍵,只需將它們與合理的分隔符連接在一起,即可根據多個自然鍵生成單個鍵。

總結下來不使用代理鍵主要有一下兩個原因:

  • 分布式計算系統,淡化了事務的概念,生成代理鍵的代價會很高
  • 代理鍵會大大增加ETL的復雜性,對于ETL任務的開發和維護成本很高

避免使用 Type-2 SCD

緩慢變化維是維度建模理論的一個非常重要的概念,大多數情況下,Type-0 或 Type-1 SCD 可以解決問題。除非有特別關鍵的原因,否則我會避免使用 Type-2 SCD。尤其是在大數據環境下的數據建模,幾乎很少使用Type-2 SCD。

關于SCD的解釋如下:

  • SCD1:通過更新維度記錄直接覆蓋已存在的值,它不維護記錄的歷史。SCD1一般用于修改錯誤的數據。
  • SCD2:在源數據發生變化時,給維度記錄建立一個新的“版本”記錄,從而維護維度歷史。SCD2不刪除、修改已存在的數據。
  • SCD3:通常用作保持維度記錄的幾個版本。它通過給某個數據單元增加多個列來維護歷史。例如,為了記錄客戶地址的變化,customer_dim維度表有一個 customer_address列和一個previous_customer_address列,分別記錄當前和上一個版本的地址。SCD3可以有效維護有限的歷史,而不像SCD2那樣保存全部歷史。SCD3 很少使用。它只適用于數據的存儲空間不足并且用戶接受有限維度歷史的情況。

如果非得需要實現 Type-2 SCD(不建議使用),也不要使用代理鍵。相反,將自然鍵與表示 SCD 中的有效日期和到期日期字段結合使用。這只是查詢稍微復雜一點,但更靈活,更容易實現,并且避免了對代理鍵的需要。

維表快照

在關系型數據倉庫時代,快照維度顯得沒有意義,但在大數據環境中卻非常有意義。簡單將就是使用分區表,每個分區內存儲的是截止當前時間的全量維度信息。

通過快照的方式處理緩慢變化維,是在大數據環境的數據倉庫實踐中常用的方式。以離線數倉為例,計算周期一般是每天一次,基于此周期,處理緩慢變化維的方式就是每天保留一份全量的快照數據。以商品維度為例,就是每天保留一份全量的商品快照數據。在下游的使用過程中,可以獲取每天的維度信息,使用起來非常方便。

優點

  • 簡單,開發和維護成本低
  • 方便,很容易理解,下游使用數據時只需要限定所需要的日期即可

缺點

  • 存儲浪費
  • 綜合看來,由于存儲成本遠低于CPU、內存的成本,此方法是犧牲存儲獲取ETL效率優化和邏輯上的簡單,顯然是利大于弊的。

數據建模的非規范化

所謂的非規范化,即是將某些維度屬性冗余至事實表。過去之所以不贊成這樣做,部分原因是因為 RDBMS 將數據存儲在表中的方式。隨著 Parquet 和 ORC 等列式數據存儲格式的出現;這不再是一個大問題。

在傳統的維度建模的星型模型中,對于維度的處理是將其單獨存放在專門的維表中,然后通過事實表的外鍵獲取維度。這樣做的目的是為了減少事實表的冗余,從而減少存儲消耗。

但是在大數據背景下,考慮到提高下游任務的使用效率,降低獲取數據的復雜性,減少關聯表的數量,通常的做法是將常用的維度冗余至事實表中。

善于使用復雜的數據類型

通常,作為數據工程師,我們的工作是將非結構化數據集重新組織為結構化(或半結構化)數據集,但是在一些場景下,非結構化是一個很好的選擇。

復雜的數據類型違反了最重要的范式(原子列)規則,其實你會發現,維度數據建模的許多傳統理論都違反了其中的一些規則。由于復雜數據類型使用起來非常靈活,其在現代數據倉庫中功能是非常強大的。

當某個實體的詳細信息在不久的將來發生變化時,使用一個 JSON來保存這些字段是很有必要的,直到schema的細節可以固化。

對于一對多的情況,使用數組或許是一個很好的方案,例如,如果在商品維度中存儲一些標簽字段,我們就可以將這些字段存在在一個數組字段中,而不是將標簽存儲在 一張標簽表中。

值得注意的是,對于一些特殊的場景,要善于使用復雜類型,而不是濫用復雜數據類型。結構化依然是建模過程中需要考慮的重點。

總結 

Ralph Kimball的維度建模理論對于當今數據倉庫建模的影響可謂是非常深遠的,我們現在主流的數倉建模都是基于維度建模的。隨著大數據技術的不斷發展,維度建模的一些方法需求隨之做出一些調整,但是其核心思想是不變的。另外,作為數倉開發者,我們要遵循一個準則:數據倉庫的設計是為了業務服務的,是為了發揮數據運營的優勢而存在的,所以彰顯數據價值,賦能業務增長才是我們需要考慮的最根本問題。

 

責任編輯:武曉燕 來源: 大數據技術與數倉
相關推薦

2024-04-30 00:00:00

數倉維度建模

2023-11-23 16:59:37

數據倉庫建模

2017-10-25 14:15:55

大數據Hadoop維度建模

2017-10-26 09:31:14

Hadoop維度建模Kimball

2021-12-02 08:41:30

數倉建模設計

2022-03-01 17:16:16

數倉建模ID Mapping

2023-08-15 08:12:12

數倉建模數倉建設

2019-03-10 16:21:05

大數據深度學習人工智能

2012-01-12 12:53:25

2020-12-15 08:16:44

Vite工具系統

2025-07-09 09:18:29

2016-11-21 12:26:58

編程代碼

2024-08-13 08:14:55

2023-11-15 13:36:00

數倉建設數據中臺

2023-09-11 08:00:00

代碼審查開發

2022-08-22 17:46:56

虛擬數倉Impala

2025-09-08 09:39:25

2022-07-26 15:38:58

數據倉數據治理數據團隊

2020-04-09 15:32:20

數據科學AutoML代智能

2022-11-04 18:28:31

數倉建模大數據
點贊
收藏

51CTO技術棧公眾號

免费污视频在线观看| 深夜福利一区| 国产精品久久久久四虎| 精品免费二区三区三区高中清不卡 | 国产91精品在线播放| 四虎在线精品| 日韩激情第一页| 日本最新在线视频| 日本高清无吗v一区| 最近中文视频在线| 亚洲已满18点击进入久久| 三上悠亚在线资源| 久久精品人人做人人综合| 久久久久久久久久久视频| 人成在线免费视频| 亚洲国产成人午夜在线一区| 成人一对一视频| 丰满岳乱妇一区二区三区| 国产大尺度在线观看| 另类的小说在线视频另类成人小视频在线 | 日韩精品久久久久久久玫瑰园| 欧美jizz18性欧美| 91精品免费观看| 欧美jizzhd69巨大| 欧美久久高跟鞋激| 青草视频在线免费直播| 欧美成va人片在线观看| 高清电影在线免费观看| 日韩限制级电影在线观看| 韩国av网站在线| 亚洲成人三级在线| 成人做爰免费视频免费看| 一区二区三区四区视频| av日韩久久| 欧美中文在线观看| 成人影视亚洲图片在线| 成人黄色片视频网站| 亚洲一区中文| 黄色片免费在线观看视频| 久久综合久久99| 美女一级全黄| 欧美夫妻性生活| 欧美色网在线| 日本国产高清不卡| 一区二区三区国产在线| 亚洲精品偷拍视频| 欧美高清免费| 久久精品国产亚洲精品| 色吊丝一区二区| 成人羞羞视频免费| 久久99久久精品欧美| 欧美精品一区免费| 亚洲精品乱码久久久久久黑人| 黄色av网站在线免费观看| 欧美xfplay| 日韩一区二区三区精品| 91欧美激情另类亚洲| 免费看黄色91| 制服丝袜影音先锋| 日韩一区二区三| 国产无遮挡裸体免费久久| 99在线热播| 国产精品 日产精品 欧美精品| 日本新janpanese乱熟| 色狠狠av一区二区三区| 久久夜夜操妹子| 成人激情黄色网| 国产精品77777竹菊影视小说| 美女在线一区| 欧美精品一级二级三级| 国色天香久久精品国产一区| 99在线观看视频| www.亚洲激情.com| 精品视频一二区| 中文字幕精品—区二区| 久久电影院7| 亚洲色欲久久久综合网东京热| 亚洲综合激情网| 日韩亚洲欧美一区二区三区| 日韩国产大片| 99久久精品久久久久久ai换脸| 成人免费毛片片v| 高清毛片在线看| 久久久久久久久久久人体| 久久久水蜜桃av免费网站| 777欧美精品| 黄页在线播放| 日韩视频一区二区在线观看| 国产一区二区色| 亚洲激情黄色| 国产真实乱子伦| 日韩一区二区三区视频在线观看| theporn国产在线精品| 欧美 日韩 国产 在线观看| 欧美www视频在线观看| www.在线观看av| 欧美影院一区二区三区| 国产精品xxxav免费视频| 国产高清免费在线| 欧美性色aⅴ视频一区日韩精品| 在线一区二区三区视频| 在线一区亚洲| 在线观看一区二区精品视频| 国产精品丝袜在线播放| 300部国产真实乱| 日韩色视频在线观看| 自拍日韩欧美| 在线免费视频你懂得| …久久精品99久久香蕉国产| 成人性视频免费网站| 超碰公开在线| 国产精品日韩欧美一区二区| 亚洲综合色丁香婷婷六月图片| 国产精品欧美一区二区三区不卡 | 国产人久久人人人人爽| 成人爽a毛片免费啪啪| 欧美成人dvd在线视频| 精品久久久在线观看| 亚洲免费成人av在线| 国模杨依粉嫩蝴蝶150p| 亚洲精品videossex少妇| 婷婷六月综合| 全部孕妇毛片丰满孕妇孕交| 欧美极品在线播放| 久久精品在线观看| 成人国产一区二区| 亚洲综合图片区| 国产免费播放一区二区| 免费高清成人| 欧美在线视频免费| 亚洲欧美日韩中文字幕一区二区三区 | 日本三级韩国三级久久| 国产区在线观看成人精品| 爱情电影网av一区二区| 91免费黄视频| 日韩在线观看免费全| 波多野结衣在线一区| 欧美亚洲人成在线| 国产免费黄视频| 欧美激情久久久| 成人免费在线播放视频| 色婷婷综合久久久久久| 亚色视频在线播放| 91系列在线观看| 欧美区一区二区三区| 99精品视频免费观看| 怡红院在线观看| 亚洲永久一区二区三区在线| 亚洲欧美日韩精品久久亚洲区 | 久精品国产欧美| 日韩欧美一级特黄在线播放| 日韩高清在线电影| 欧美性xxx| 成人中文字幕av| 国产成人在线一区| 色婷婷精品久久二区二区蜜臀av| 伊人久久成人| 欲香欲色天天天综合和网| 日本wwww视频| 国产精品扒开腿做| 日韩免费电影一区二区三区| 成人免费在线视频| 成人在线免费观看视频| 蜜桃视频在线免费| 亚洲图片你懂的| av一区二区在线播放| porn视频在线观看| 午夜啪啪福利视频| 668精品在线视频| 欧美在线免费播放| 国产成人在线电影| 欧美一区二区综合| 久久精品免费播放| 精品久久久久久久久久| 美日韩一区二区| 久久夜色电影| 69久久夜色| 精品一卡二卡三卡| 3d动漫啪啪精品一区二区免费 | 伊人久久亚洲热| a日韩av网址| 亚洲一级免费在线观看| 97超碰资源| 中文字幕亚洲激情| 精品国产乱码久久久久酒店 | 成人欧美一区二区三区白人| 精品福利av| 91精品视频一区二区| 人人九九精品| 欧美极品欧美精品欧美| 成人免费淫片aa视频免费| 日韩精品在线第一页| 亚洲欧洲精品一区二区精品久久久 | 欧美日韩视频在线| 国产美女视频91| 亚洲成人日韩| 日韩在线你懂得| av在线播放网站| heyzo视频在线播放| 一区二区三区四区五区视频|