国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

數據百問系列:什么是 ETL ?ETL 的常見技術方案是什么?

大數據
先聊一下什么是 ETL。聊一下大致的概念和一般意義上的理解。聊一聊數據流是什么樣子。因為 ETL 的工作主要會體現在一條條的數據處理流上,因此這里做一個說明。

本文轉載自微信公眾號「 木東居士」,轉載本文請聯系 木東居士公眾號。

[[329322]]

0x00 前言

三年前寫過一篇ETL的文章,最近又被小伙伴問到了,因此略作整理放進數據百問系列。

雖然已經過去兩三年了,ETL 領域的一些組件也都有了一些更新,但是整體來看設計的理念變化不是特別大(比如實時處理以前流行的是Spark Streaming,現在流行 Flink,而對于組件,本文也不會講解他的一些使用教程。本文更多地是分享做ETL和數據流的思考。)

 

文章結構

先聊一下什么是 ETL。聊一下大致的概念和一般意義上的理解。

聊一聊數據流是什么樣子。因為 ETL 的工作主要會體現在一條條的數據處理流上,因此這里做一個說明。

舉個具體的例子來說明。

0x01 什么是 ETL

ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。

嗯,怎么理解 ETL 這個東西呢?直接上一個網上搜到的招聘信息看一下:

 

  • 職位名稱:ETL工程師
  • 職位職責:
  • 負責ETL系統研發和對外支持工作;
  • 設計科學的數據抽取、轉換、加載的工作流程,保證數據及時、正確地抽取到數倉中;
  • 負責安排ETL工程流程的調度和成功執行;
  • 協調數據建模建立風控模型、對數據進行挖掘、優化及統計。
  • 職位要求:
  • 熟練掌握數倉方法論,理解維度建模;
  • 熟悉hadoop,hive,hbase,spark,flume等工作原理;熟悉kettle,informatica,sqoop等工作;
  • 精通hive語法,熟練SQL優化,熟悉python/shell等一種腳本語言;掌握mysql,oracle,sqlserver等數據庫;
  • 有互聯網大數據平臺數據開發經驗優先。

看上面的要求,有幾個點可以關注一下:

數倉的理論

  • 計算引擎:Hadoop、Spark、hive
  • 數據同步:Flume、Sqoop、Kettle
  • 存儲引擎:Mysql、Oracle、Hbase等存儲平臺

我們大致分析一下這些內容。首先說數倉的理論,這個在前面的博客也都有提到,很重要,從理論上指導了怎么來進行數據處理。存儲引擎也就不提了。這兩者不太算是 ETL 的范疇。

那就聊一下計算引擎和數據同步的工具。我們可以大致理解 ETL 的主要工作就是利用這些工具來對數據進行處理。下面舉幾個栗子來說明 ETL 的場景:

  1. Nginx 的日志可以通過 Flume 抽取到 HDFS 上。
  2. Mysql 的數據可以通過 Sqoop 抽取到 hive 中,同樣 hive 的數據也可以通過 Sqoop 抽取到 Mysql 中。
  3. HDFS 上的一些數據不規整,有很多垃圾信息,可以用 Hadoop 或者 Spark 進行處理并重新存入 HDFS 中。
  4. hive 的表也可以通過 hive 再做一些計算生成新的 hive 表。

這些都算是 ETL,其中 1 和 2 都比較典型,它們把數據從一個存儲引擎轉移到另一個存儲引擎,在轉移的過程中做了一定的轉換操作。3 和 4 也同樣是 ETL 只是它們更側重的是數據的加工。

到了這一步,我們不再糾結于具體的 ETL 概念是什么,僅從自己的直觀理解上來定義 ETL,不管嚴謹不嚴謹,反正這些活 ETL 工程師基本都要干。

ETL 是對數據的加工過程,它包括了數據抽取、數據清洗、數據入庫等一系列操作,大部分和數據處理清洗相關的操作都可以算是 ETL。

0x02 數據流長什么樣子

舉個栗子

舉個簡單的栗子,下面是一個種數據流的設計,藍色的框框代表的是數據來源,紅色的框框主要是數據計算平臺,綠色的 HDFS 是我們一種主要的數據存儲,hive、Hbase、ES這些就不再列出來了。

 

數據流的分類

我們常說的數據流主要分兩種:

  • 離線數據
  • 實時數據

其中離線數據一般都是 T+1 的模式,即每天的凌晨開始處理前一天的數據,有時候可能也是小時級的,技術方案的話可以用 Sqoop、Flume、MR 這些。實時數據一般就是指實時接入的數據,一般是分鐘級別以下的數據,常用的技術方案有 Spark Streaming 和 Flink。

現在的大部分數據流的設計都會有離線和實時相結合的方案,即 Lambda 架構,感興趣的同學可以了解一下。

0x03 舉個栗子

前段時間和一個哥們再聊數據流的設計,正好這里大概描述一下場景和解決方案。

一、場景

數據源主要為 Mysql,希望實時同步 Mysql 數據到大數據集群中(肯定是越快越好)。

目前每日 20 億數據,可遇見的一段時間后的規模是 100 億每日以上。

能快速地查到最新的數據,這里包含兩部分含義:從 Mysql 到大數據集群的速度快、從大數據集群中查詢的速度要快。

二、方案選型

遇到這個場景的時候,根據經驗我們主要考慮下面兩個點:數據抽取引擎和存儲引擎。

數據抽取引擎

這里我們主要考慮兩種方案:

Sqoop 定時抽取 Mysql 數據到 HDFS 中,可以每天全量抽取一份,也可以隔段時間就抽取一份變更的數據。

Canal 監聽 Mysql 的 binlog 日志,相當于是 Mysql 有一條數據久變動,我們就抽取一條數據過來。

優缺點的對比也很明顯:

  • Sqoop 相對比較通用一些,不管是 Mysql 還是 PostgreSql都可以用,而且很成熟。但是實時性較差,每次相當于是啟動一個 MR 的任務。
  • Canal 速度很快,但是只能監聽 Mysql 的日志。

存儲引擎

存儲引擎主要考慮 HDFS、Hbase 和 ES。

一般情況下,HDFS 我們盡量都會保存一份。主要糾結的就是 Hbase 和 ES。本來最初是想用 Hbase 來作為實時查詢的,但是由于考慮到會有實時檢索的需求,就暫定為ES

三、方案設計

最終,我們使用了下面的方案。

 

使用 Canal 來實時監聽 Mysql 的數據變動

使用 Kafka 作為消息中間件,主要是為了屏蔽數據源的各種變動。比如以后即使用 Flume 了,我們架構也不用大變

數據落地,有一份都會落地 HDFS,這里使用 Spark Streaming,算是準實時落地,而且方便加入處理邏輯。在 落地 ES 的時候可以使用 Spark Streaming,也可以使用 Logstach,這個影響不大

四、一些問題

有兩個小問題列一下。

小文件,分鐘級別的文件落地,肯定會有小文件的問題,這里要考慮的是,小文件的處理盡量不要和數據接入流程耦合太重,可以考慮每天、每周、甚至每月合并一次小文件。

數據流的邏輯復雜度問題,比如從 Kafka 落地 HDFS 會有一個取舍的考慮,比如說,我可以在一個 SS 程序中就分別落地 HDFS 和 ES,但是這樣的話兩條流就會有大的耦合,如果 ES 集群卡住,HDFS 的落地也會受到影響。但是如果兩個隔開的話,就會重復消費同一份數據兩次,會有一定網絡和計算資源的浪費。

0xFF 總結

仔細想了一下,數據流應該是我做的最多的一塊了,但是總結的時候感覺又有很多東西說不清楚,先簡單寫一部分。

責任編輯:武曉燕 來源: 木東居士
相關推薦

2022-10-21 18:31:21

ETL

2017-02-08 10:01:13

大數據ETL技術

2009-01-20 14:47:19

ETL數據集成技術研究

2022-07-11 09:00:00

數據集成云計算ELT

2010-06-07 10:24:14

InformaticaPowerCenterETL

2021-09-30 18:27:38

數據倉庫ETL

2020-07-20 07:33:44

Python開發工具

2021-05-28 09:23:07

數據倉庫數據湖

2021-02-08 21:07:47

JavaCAS機制

2021-02-02 18:02:09

java對象數據

2013-05-20 09:36:32

Hadoop大數據分析工具大數據

2024-12-13 08:00:00

2013-03-27 13:34:49

數據清洗

2024-12-04 08:00:00

數據科學數據ETL管道

2020-06-28 14:32:11

數據標注人工智能AI

2024-11-29 08:40:34

2011-06-30 18:23:08

2023-10-30 15:51:43

ByteHouse大數據

2024-09-06 10:25:32

人工智能ETL微服務
點贊
收藏

51CTO技術棧公眾號

天堂成人免费av电影一区| 久久久久9999亚洲精品| 欧美劲爆第一页| 国产丝袜一区二区三区| 国产视频在线视频| 欧美三级网页| 亚洲盗摄视频| 91久久久精品| 久久久久久黄色| 九九热视频在线观看| 亚洲精品国精品久久99热一| 精品免费一区二区| 黄色三级视频片| 精品网站999www| 亚洲狠狠婷婷| 黄色国产网站| 国产亚洲精品va在线观看| 午夜久久福利| 国产美女玉足交| 中文字幕免费精品一区| 久久精品国产大片免费观看| 国产主播在线一区| 国产综合自拍| 精品午夜一区二区| 欧美电影免费观看网站| 91成人免费在线| 国产片在线观看| 日韩欧美一级特黄在线播放| 福利在线导航136| 国产精品成人国产乱一区| 久久激情视频| 亚洲国产精品久久久久婷蜜芽| 久久综合99re88久久爱| 97超碰人人看人人| 在线一区电影| 一区二区三区视频免费| 天堂网www中文在线| 99久久婷婷国产| gogogogo高清视频在线| 欧美一区视久久| 欧美国产亚洲精品久久久8v| 乱亲女h秽乱长久久久| 日本一区二区三区国色天香| 国产伦精品一区| 免费不卡在线视频| 成人精品水蜜桃| 久久国产亚洲精品| 亚洲一区二区三区四区视频| 亚洲伊人观看| 九9re精品视频在线观看re6| 麻豆av在线免费看| 日本va欧美va瓶| 日韩午夜中文字幕| 亚洲小视频在线| 五月综合激情网| 欧美一级黄色影院| 亚洲色图另类专区| 久久久国产精品视频| 91九色国产在线播放| 中文字幕久热精品在线视频| 免费电影日韩网站| 日韩av电影手机在线| 日韩中文字幕1| 国产1区2区3区| 一区二区三区黄色| 欧美1区免费| 亚洲欧美自拍另类日韩| 日韩欧美区一区二| 一区二区三区日本久久久| 亚洲高清视频一区| 亚洲国产日韩精品| 99精品国产一区二区三区2021| 亚洲a中文字幕| 亚洲欧美激情一区二区| 99精品在免费线偷拍| 欧美一区二区三区四区在线观看地址| 亚洲国产欧美在线| 天堂成人娱乐在线视频免费播放网站| 久久亚洲a v| 亚洲四色影视在线观看| 99久久伊人| 68精品久久久久久欧美| 成午夜精品一区二区三区软件| 国产激情一区二区三区在线观看| 国产成人精品亚洲线观看| 国产亚洲欧洲在线| 99这里只有精品视频| 91手机在线观看| 蜜芽一区二区三区| 国产最新免费视频| 国产精品天干天干在线综合| 欧美日韩国产综合视频 | а√资源新版在线天堂| 91精品国产一区二区人妖| 日韩欧美看国产| 国产69久久精品成人看| 久久午夜av| 国产女女做受ⅹxx高潮| 亚洲色欲色欲www在线观看| av在线免费观看网站| 欧美成人免费网| 成人免费毛片片v| 你懂的网址一区二区三区| 日本成人中文| 日韩中文一区| 在线一区二区三区四区五区| 日韩电影在线观看一区| 国产一区高清| 伊人激情综合网| 亚洲久久一区二区| 两个人看的免费完整在线观看| www.亚洲成人| 国产资源在线一区| 成人a在线视频免费观看| 国产福利在线免费| 国产一区二区三区视频免费| 午夜精品久久| 日本欧洲国产一区二区| 欧美国产一区二区在线观看| 国产精品一区二区日韩| 自慰无码一区二区三区| 欧美放荡办公室videos4k| 久久久精品国产| 久久久综合av| 国产精品网站大全| 国产精品夜间视频香蕉| 日本亚洲欧美三级| 国产z一区二区三区| 99re在线国产| 亚洲桃花岛网站| 国产二区视频在线| 亚洲高清中文字幕| 中文字幕欧美区| 中文字幕一区二区三区av| 国产精品久久福利| 一区二区三区四区五区视频在线观看| 欧美激情一二三区| 五月婷婷激情综合网| 欧美色大人视频| 日韩精品亚洲精品| 久久久精品国产网站| 国产成人精品午夜| 国产99视频精品免费视频36| 欧美日韩国产精品一卡| 一区二区av| 三级a在线观看| 国产有码在线| 日韩成人亚洲| 欧美天天综合| 国产一区二区三区精品欧美日韩一区二区三区 | 日韩中文字幕精品| 色偷偷综合社区| 国产精品网址在线| 亚洲欧洲精品一区二区三区波多野1战4| 国产成人一区二区三区别| 777.av| 白浆视频在线观看| 成人黄色av| 懂色av一区二区在线播放| 精品久久久久久久大神国产| 欧美精品 国产精品| 国产视频一区二区在线观看| av在线不卡观看免费观看| 欧美日韩1区| 欧美日韩老妇| www.久久久.com| 成人自拍视频网| 亚洲精品一区二区三区中文字幕| 精品三级av在线导航| 波多野结衣在线观看一区二区三区 | 久久经典视频| 亚洲精品一区av| 精品成人免费| 99国产精品久久久| 色噜噜夜夜夜综合网| 精品电影一区二区| 久久免费视频网| 日本一区视频在线播放| 尤物国产精品| av免费在线观看网址| 欧美日韩高清在线| 含羞草www国产在线视频| 91精品高清| 日本电影在线观看| av三级影院| 国产成人综合美国十次| 日韩理论片在线观看| 九色综合日本| 国产精品羞羞答答| 中文在线аv在线| 成人在线影视| 免费看电影在线| 日韩三级毛片| 精品一区二区国语对白| 久久理论电影网| 日韩三级精品电影久久久| 91精品久久久久久综合乱菊| av免费中文字幕| 99热国产在线| 羞羞视频在线观看欧美|