国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大數據之數據倉庫分層

大數據 數據倉庫
數據分層是一套行之有效的數據組織和管理方法,使得數據體系更有序。每一個數據分層都有它的作用域和職責,在使用表的時候能更方便的定位和理解。

大數據之數據倉庫分層

  1. 什么是數據分層?
  2. 數據分層的好處
  3. 一種通用的數據分層設計
  4. 舉例
  5. 各層會用到的計算引擎和存儲系統
  6. 分層實現
  7. 數據分層的一些概念說明 7.大數據相關基礎概念

1. 什么是數據分層?

數據分層是一套行之有效的數據組織和管理方法,使得數據體系更有序。

2. 數據分層的好處

(1)清晰數據結構

每一個數據分層都有它的作用域和職責,在使用表的時候能更方便的定位和理解。

(2)減少重復開發

規范數據分層,開發一些通用的中間層數據,能夠減少極大的重復計算。

(3)統一數據口徑

通過數據分層,提供統一的數據出口,統一對外輸出的數據口徑。

(4)復雜問題簡單化

將一個復雜的任務分解成多個步驟完成,每一層解決特定的問題。

一種通用的數據分層設計

  • ODS:存放原始數據
  • DW:存放數倉中間層數據
  • APP:面向業務定制的應用數據

 

大數據之數據倉庫分層

3. 舉例

以下是一個電商網站的數據體系設計,只關注用戶訪問日志這部分數據。

 

大數據之數據倉庫分層

4. 各層會用到的計算引擎和存儲系統

 

大數據之數據倉庫分層

5.分層實現

 

大數據之數據倉庫分層

在確定建模思路和模型類型之后,下一步的工作是數據分層。數據分層可以使得數據構建體系更加清晰,便于數據使用者快速對數據進行定位;同時數據分層也可以簡化數據加工處理流程,降低計算復雜度。

我們常用的數據倉庫的數據分層通常分為集市層、中間層、基礎數據層上下三層結構。由傳統的多層結構減少到上下三層結構的目的是為了壓縮整體數據處理流程的長度,同時扁平化的數據處理流程有助于數據質量控制和數據運維。

在上下三層的結構的右側,我們增加了流式數據,將其添加成數據體系的一部分。這是因為當前的數據應用方向會越來越關注數據的時效性,越實時的數據價值度越高。

但是,由于流式數據集的采集、加工和管理的成本較高,一般都會按照需求驅動的方式建設;此外,考慮到成本因素,流式數據體系的結構更加扁平化,通常不會設計中間層。

下面來具體看下每一層的具體作用。

數據基礎層

 

大數據之數據倉庫分層

數據基礎層主要完成的工作包括以下幾點:

  • 數據采集:把不同數據源的數據統一采集到一個平臺上;
  • 數據清洗,清洗不符合質量要求的數據,避免臟數據參與后續數據計算;
  • 數據歸類,建立數據目錄,在基礎層一般按照來源系統和業務域進行分類;
  • 數據結構化,對于半結構化和非結構化的數據,進行結構化;
  • 數據規范化,包括規范維度標識、統一計量單位等規范化操作。

數據中間層

 

大數據之數據倉庫分層

數據中間層最為重要的目標就是把同一實體不同來源的數據打通起來,這是因為當前業務形態下,同一實體的數據可能分散在不同的系統和來源,且這些數據對同一實體的標識符可能不同。此外,數據中間層還可以從行為中抽象關系。從行為中抽象出來的基礎關系,會是未來上層應用一個很重要的數據依賴。例如抽象出的興趣、偏好、習慣等關系數據是推薦、個性化的基礎生產資料。

在中間層,為了保證主題的完整性或提高數據的易用性,經常會進行適當的數據冗余。比如某一實事數據和兩個主題相關但自身又沒有成為獨立主題,則會放在兩個主題庫中;為了提高單數據表的復用性和減少計算關聯,通常會在事實表中冗余部分維度信息。

數據集市層

 

大數據之數據倉庫分層

數據集市層是上下三層架構的最上層,通常是由需求場景驅動建設的,并且各集市間垂直構造。在數據集市層,我們可以深度挖掘數據價值。值得注意的是,數據集市層需要能夠快速試錯。

數據架構

 

大數據之數據倉庫分層

數據架構包括數據整合、數據體系、數據服務三部分。其中,數據整合又可以分為結構化、半結構化、非結構化三類。

數據整合

 

大數據之數據倉庫分層

結構化數據采集又可細分為全量采集、增量采集、實時采集三類。三種采集方式的各自特點和適應場合如上圖所示,其中全量采集的方式最為簡單;實時采集的采集質量最難控制。

 

大數據之數據倉庫分層

在傳統的架構中,日志的結構化處理是放在數倉體系之外的。在大數據平臺倉庫架構中,日志在采集到平臺之前不做結構化處理;在大數據平臺上按行符分割每條日志,整條日志存儲在一個數據表字段;后續,通過UDF或MR計算框架實現日志結構化。

在我們看來,日志結構越規范,解析成本越低。在日志結構化的過程中,并不一定需要完全平鋪數據內容,只需結構化出重要常用字段;同時,為了保障擴展性,我們可以利用數據冗余保存原始符合字段(如useragent字段)。

 

大數據之數據倉庫分層

非結構化的數據需要結構化才能使用。非結構化數據特征提取包括語音轉文本、圖片識別、自然語言處理、圖片達標、視頻識別等方式。盡管目前數倉架構體系中并不包含非結構化數據特征提取操作,但在未來,這將成為可能。

數據服務化

 

大數據之數據倉庫分層

數據服務化包括統計服務、分析服務和標簽服務:

  • 統計服務主要是偏傳統的報表服務,利用大數據平臺將數據加工后的結果放入關系型數據庫中,供前端的報表系統或業務系統查詢;
  • 分析服務用來提供明細的事實數據,利用大數據平臺的實時計算能力,允許操作人員自主靈活的進行各種維度的交叉組合查詢。分析服務的能力類似于傳統cube提供的內容,但是在大數據平臺下不需要預先建好cube,更靈活、更節省成本;
  • 標簽服務,大數據的應用場景下,經常會對主體進行特征刻畫,比如客戶的消費能力、興趣習慣、物理特征等等,這些數據通過打標簽轉換成KV的數據服務,用于前端應用查詢。

6.數據分層的一些概念說明

大數據數據倉庫是基于HIVE構建的數據倉庫,分布文件系統為HDFS,資源管理為Yarn,計算引擎主要包括MapReduce/Tez/Spark等,分層架構說明如下:

  1. 數據來源層:日志或者關系型數據庫,并通過Flume、Sqoop、Kettle等etl工具導入到HDFS,并映射到HIVE的數據倉庫表中。
  2. 事實表是數據倉庫結構中的中央表,它包含聯系事實與維度表的數字度量值和鍵。事實數據表包含描述業務(例如產品銷售)內特定事件的數據。
  3. 維度表是維度屬性的集合。是分析問題的一個窗口。是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性的集合構成一個維。數據庫結構中的星型結構,該結構在位于結構中心的單個事實數據表中維護數據,其它維度數據存儲在維度表中。每個維度表與事實數據表直接相關,且通常通過一個鍵聯接到事實數據表中。星型架構是數據倉庫比較流向的一種架構。

星型模式的基本思想就是保持立方體的多維功能,同時也增加了小規模數據存儲的靈活性。

說明:

  • 事實表就是你要關注的內容;
  • 維度表就是你觀察該事務的角度,是從哪個角度去觀察這個內容的。

例如,某地區商品的銷量,是從地區這個角度觀察商品銷量的。事實表就是銷量表,維度表就是地區表

4、主題表:主題(Subject)是在較高層次上將企業信息系統中的數據進行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。例如“銷售分析”就是一個分析領域,因此這個數據倉庫應用的主題就是“銷售分析”。

面向主題的數據組織方式,就是在較高層次上對分析對象數據的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯系。所謂較高層次是相對面向應用的數據組織方式而言的,是指按照主題進行數據組織的方式具有更高的數據抽象級別。與傳統數據庫面向應用進行數據組織的特點相對應,數據倉庫中的數據是面向主題進行組織的。例如,一個生產企業的數據倉庫所組織的主題可能有產品訂貨分析和貨物發運分析等。而按應用來組織則可能為財務子系統、銷售子系統、供應子系統、人力資源子系統和生產調度子系統。

5、匯總數據層:聚合原子粒度事實表及維度表,為滿足固定分析需求,以提高查詢性能為目的,形成的高粒度表,如周報、月報、季報、年報等。

6、應用層:

為應用層,這層數據是完全為了滿足具體的分析需求而構建的數據,也是星形結構的數據。應用層為前端應用的展現提現數據,可以為關系型數據庫組成。

7、【補充】

數據緩存層:

  • 用于存放接口方提供的原始數據的數據庫層,此層的表結構與源數據保持基本一致,數據存放時間根據數據量大小和項目情況而定,如果數據量較大,可以只存近期數據,將歷史數據進行備份。此層的目的在于數據的中轉和備份。

臨時數據表層:

  • 存放臨時測試數據表(Temp表),或者中間結果集的表。

7. 大數據相關基礎概念

  • 數據源:業務系統、埋點、爬蟲
  • PG:PostgreSQL,一種關系型數據庫
  • Sqoop:是一個在結構化數據(mysql/oracle)和Hadoop(Hive)之間進行批量數據遷移的工具
  • Flume:是一個分布式、可靠、高可用的海量日志采集、聚合和傳輸的系統。支持在日志系統中定制各類數據發送方,用于收集數據;提供對數據進行簡單處理,并寫到各種數據接受方(HDFS\Hbase)的能力。
  • Kafka:是一個分布式、支持分區的、多副本的,基于zookeeper協調的分布式消息系統。
  • Flink:一個流式的數據流執行引擎。針對數據流的分布式計算提供了數據分布、數據通信以及容錯機制等功能。
  • Kylin:是一個開源的分布式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力一直吃超大規模數據。能在亞秒內查詢巨大的Hive表。
  • ES:elasticsSearch,是一個高擴展、開源的全文檢索和分析引擎,可準實時地快速存儲、搜索、分析海量的數據。
  • Hadoop:是一個分布式系統基礎架構,可使用戶在不了解分布式底層細節的情況下開發分布式程序,充分利用集群的威力進行高速運算和存儲。兩大核心:HDFS\MapReduce
  • HDFS:是可擴展、容錯、高性能的分布式文件系統,異步復制,一次寫入多次讀取,主要負責存儲。
  • MapReduce:分布式計算框架。
  • Spark:是一個專為大規模數據處理而設計的快速通用的計算引擎。

 

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2021-01-04 05:51:02

數據倉庫架構

2014-02-12 09:22:28

大數據

2017-10-20 12:59:05

數據分層數據建設數據倉庫

2018-03-20 09:36:57

數據倉庫數據存儲知識

2023-11-09 15:56:26

數據倉庫數據湖

2022-02-18 09:02:04

數據倉庫治理

2021-10-27 11:33:31

數據倉庫架構

2019-06-06 14:08:37

數據倉庫數據分析數據報表

2021-09-01 10:03:44

數據倉庫云數據倉庫數據庫

2018-07-26 10:26:09

大數據傳統數據

2015-06-17 19:54:10

星環大數據銀行

2020-01-08 21:53:06

大數據數據倉庫數據湖

2021-11-30 08:11:19

數據倉庫經驗

2013-03-20 16:23:53

數據清洗

2018-07-24 09:28:18

存儲數據倉庫

2022-11-29 17:16:57

2024-09-23 22:17:56

2019-05-24 11:51:18

BI數據倉庫數據分析

2009-01-18 15:14:00

數據倉庫開發OLTP

2012-07-23 14:38:16

Exalytics
點贊
收藏

51CTO技術棧公眾號

日韩中文第一页| 国产有码在线一区二区视频| 欧美午夜黄色| 中文字幕一区二区三中文字幕| 91传媒免费视频| 日韩国产欧美视频| 狠狠色综合网站久久久久久久| 日韩毛片视频| 国产成人精品亚洲精品| 加勒比色综合久久久久久久久| 色天天综合狠狠色| 日韩专区视频| 日韩视频欧美视频| 亚洲精品成a人ⅴ香蕉片| 夜夜嗨av一区二区三区四区| 黄色亚洲网站| 中文字幕亚洲综合久久| 精品久久毛片| 久久91亚洲人成电影网站| 福利片在线一区二区| 日本高清久久天堂| 欧美电影三区| www日韩av| 欧美中文日韩| 相泽南亚洲一区二区在线播放| 麻豆91在线播放| 精品少妇人妻av一区二区| 精品一区二区在线看| 老司机av福利| 国产成人99久久亚洲综合精品| 国产成人永久免费视频| 不卡av在线网| 日本超碰在线观看| 亚洲一区在线观看网站| 国产永久免费高清在线观看| 精品少妇一区二区三区在线播放| 女厕盗摄一区二区三区| 久久在线视频在线| 四虎5151久久欧美毛片| 成人精品久久一区二区三区| 亚洲视频狠狠| 亚洲精品一区二区三区蜜桃久| 国产成人无遮挡在线视频| 日韩网址在线观看| 亚洲一区二区黄色| 麻豆电影在线播放| 一本色道久久综合亚洲精品小说| 99国产精品久久一区二区三区| 国产精品久久77777| 中文亚洲免费| 成人区一区二区| 亚洲欧洲综合另类| 中文字幕在线播放| 久久九九精品99国产精品| 日韩在线综合| 免费国产成人看片在线| 中文字幕一区二区三| 欧美日韩在线看片| 精品国产美女在线| 中文字幕亚洲精品乱码| 欧美一级爱爱视频| 五月婷婷综合激情| 国产啊啊啊视频在线观看| 久久男人的天堂| 亚洲欧美网站| 日韩av在线中文| 91精品国产一区二区| 日韩在线观看中文字幕| 鬼打鬼之黄金道士1992林正英| 国产一区二区三区av电影| av美女在线| 日韩精品在线影院| 狠狠综合久久av一区二区蜜桃| 日韩免费三级| 亚洲国产中文字幕| 香蕉成人av| 国产一区二区三区四区五区在线 | 色噜噜狠狠狠综合曰曰曰| 少妇精品久久久一区二区三区| 欧美一进一出视频| 亚洲日本成人在线观看| eeuss鲁一区二区三区| 555www成人网| 国产激情偷乱视频一区二区三区| 在线视频se| 欧美国产日韩在线| 免费成人在线影院| 日韩精品一二| 91高清视频免费| 成人美女在线视频| 国产午夜精品久久久久免费视| 欧美中文字幕精品| 99re亚洲国产精品| 黄色网在线免费观看| 国产日韩欧美在线看| 中文字幕av一区 二区| 写真福利精品福利在线观看| 免费一区二区三区| 日本韩国欧美三级| 成人羞羞网站入口免费| 成人女人a毛片在线看| 久久好看免费视频| 国产精品亚洲一区二区三区妖精 | 欧美不卡在线一区二区三区| 国产精品久久久久久久久免费丝袜 | 蜜乳av一区二区| 国产在线超碰| 国产精品视频xxxx| 国产亚洲成aⅴ人片在线观看 | 亚洲激情久久| 久久久久久77777| 色综合天天狠天天透天天伊人| 国产乱子伦视频一区二区三区| 国产精品一区二区婷婷| 国产免费一区二区三区在线能观看 | 日本午夜精品一区二区| 精品成人av一区| 九九综合在线| av网站免费观看| 97在线免费观看| 亚洲欧洲日本在线| 亚洲亚洲一区二区三区| 久久久噜噜噜www成人网| 色综合影院在线| 成人免费视频视频在线观看免费| 日韩av一卡| 四虎永久免费网站| 亚洲精品永久免费| 蜜臀国产一区二区三区在线播放| 一级毛片视频在线观看| 99精品国产高清一区二区| 日本精品一区二区三区高清| 欧美日韩亚洲国产精品| 1024国产在线| 色一情一乱一伦一区二区三区丨| 欧美一级理论片| 毛片一区二区三区| 91av一区| 色悠悠久久综合网| 国产成人在线视频| 色综合一个色综合| 新67194成人永久网站| 天堂8中文在线| 天天操天天干天天玩| 久久精品成人欧美大片古装| 国产欧美综合色| av一区二区在线观看| 国产区视频在线播放| 日韩hmxxxx| 日韩在线欧美在线国产在线| 久久久久久久综合日本| 免费看成人人体视频| 美女被人操视频在线观看| 成人午夜小视频| 制服.丝袜.亚洲.另类.中文| 国产精品夜夜夜| 欧美少妇网站| 婷婷六月天在线| 亚洲在线一区二区| 欧美tk—视频vk| 久久人人97超碰com| 日韩欧美不卡| 国产在线xxx| 青青草av网站| 91精品久久久久久久久不口人| www.com.cn成人| 热久久精品免费视频| 成人在线一区二区| 69精品人人人人| 国产福利91精品一区二区三区| 香蕉成人app| 成人av毛片| 日本阿v视频在线观看| 国产成人综合精品| 精品成人佐山爱一区二区| 99国产精品99久久久久久| 波多野结衣在线观看一区二区三区 | 91青青在线视频| 精品成在人线av无码免费看| 91国语精品自产拍在线观看性色 | 久国内精品在线| 色综合久久综合网97色综合| 捆绑变态av一区二区三区| 日本一区二区三区电影免费观看| 亚洲精品视频区| 大伊香蕉精品视频在线| 国产日韩亚洲欧美| 日韩精品免费在线播放| 一区二区三区四区蜜桃| 久久精品人人| 77成人影视| 宅男网站在线免费观看| 三上悠亚av一区二区三区| 久久大香伊蕉在人线观看热2| 久久精品最新地址| 色激情天天射综合网| 久久久另类综合| 日韩高清中文字幕一区| 中文有码一区| 制服诱惑亚洲|