国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大數據Hadoop之—Apache Hudi 數據湖實戰操作

大數據 Hadoop
構建hudi后,可以通過cd hudi cli&&./hudi-cli.sh啟動shell。一個hudi表駐留在DFS上的一個稱為basePath的位置,我們需要這個位置才能連接到hudi表。Hudi庫有效地在內部管理此表,使用.hoodie子文件夾跟蹤所有元數據。

一、概述

Hudi(Hadoop Upserts Deletes and Incrementals),簡稱Hudi,是一個流式數據湖平臺,支持對海量數據快速更新,內置表格式,支持事務的存儲層、 一系列表服務、數據服務(開箱即用的攝取工具)以及完善的運維監控工具,它可以以極低的延遲將數據快速存儲到HDFS或云存儲(S3)的工具,最主要的特點支持記錄級別的插入更新(Upsert)和刪除,同時還支持增量查詢。

GitHub地址:https://github.com/apache/hudi

官方文檔:https://hudi.apache.org/cn/docs/overview

關于Apache Hudi 數據湖 也可以參考我這篇文章:大數據Hadoop之——新一代流式數據湖平臺 Apache Hudi

二、Hudi CLI

構建hudi后,可以通過cd hudi cli&&./hudi-cli.sh啟動shell。一個hudi表駐留在DFS上的一個稱為basePath的位置,我們需要這個位置才能連接到hudi表。Hudi庫有效地在內部管理此表,使用.hoodie子文件夾跟蹤所有元數據。

編譯生成的包如下:

# 啟動
./hudi-cli/hudi-cli.sh

三、Spark 與 Hudi 整合使用

Hudi 流式數據湖平臺,協助管理數據,借助HDFS文件系統存儲數據,使用Spark操作數據。

1)Spark 測試

cd $SPARK_HOME
hdfs dfs -mkdir /tmp/
hdfs dfs -put README.md /tmp/
hdfs dfs -text /tmp/README.md

# 啟動spark-shell
./bin/spark-shell --master local[2]

val datasRDD = sc.textFile("/tmp/README.md")
# 行數
datasRDD.count()
# 讀取第一行數據
datasRDD.first()
val dataframe = spark.read.textFile("/tmp/README.md")
dataframe.printSchema
dataframe.show(10,false)

2)Spark 與 Hudi 整合使用

官方示例:https://hudi.apache.org/docs/quick-start-guide/在spark-shell命令行,對Hudi表數據進行操作,需要運行spark-shell命令是,添加相關的依賴包,命令如下:

  • 啟動spark-shell

【第一種方式】在線聯網下載相關jar包

### 啟動spark-shell,使用spark-shell操作hudi數據湖
### 第一種方式
./bin/spark-shell \
--master local[2] \
--packages org.apache.hudi:hudi-spark3.2-bundle_2.12:0.12.0 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

### 上述命令需要聯網,基于ivy下載下載相關jar包到本地,然后加載到CLASSPATH,其中包含三個jar包。

【第二種方式】離線使用已經下載好的jar包。

### 第二種方式,使用--jars
cd /opt/apache
wget https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.12/3.3.0/spark-avro_2.12-3.3.0.jar

cd $SPARK_HOME
./bin/spark-shell \
--master local[2] \
--jars /opt/apache/hudi-0.12.0/packaging/hudi-spark-bundle/target/hudi-spark3.2-bundle_2.12-0.12.0.jar,/opt/apache/hudi-0.12.0/hudi-examples/hudi-examples-spark/target/lib/unused-1.0.0.jar,/opt/apache/spark-avro_2.12-3.3.0.jar \
--conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \
--conf "spark.serializer=org.apache.spark.serializer.KryoSerializer"
  • 導入park及Hudi相關包
import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.hudi.common.model.HoodieRecord
  • 定義變量
val tableName = "hudi_trips_cow"
# 存儲到HDFS
val basePath = "hdfs://hadoop-hadoop-hdfs-nn:9000/tmp/hudi_trips_cow"
# 存儲到本地
# val basePath = "file:///tmp/hudi_trips_cow"
  • 模擬生成Trip乘車數據
##構建DataGenerator對象,用于模擬生成10條Trip乘車數據
val dataGen = new DataGenerator

val inserts = convertToStringList(dataGen.generateInserts(10))

其中,DataGenerator可以用于生成測試數據,用來完成后續操作。

  • 將模擬數據List轉換為DataFrame數據集
##轉成df
val df = spark.read.json(spark.sparkContext.parallelize(inserts,2))

##查看數據結構
df.printSchema()
##查看數據
df.show()
# 指定字段查詢
df.select("rider","begin_lat","begin_lon","driver","end_lat","end_lon","fare","partitionpath","ts","uuid").show(10,truncate=false)
  • 將數據寫入到hudi
# 將數據保存到hudi表中,由于Hudi誕生時基于Spark框架,所以SparkSQL支持Hudi數據源,直接通過format指定數據源Source,設置相關屬性保存數據即可,注意,hudi不是正真存儲數據,而是管理數據。

df.write.format("hudi").
options(getQuickstartWriteConfigs).
option(PRECOMBINE_FIELD_OPT_KEY, "ts").
option(RECORDKEY_FIELD_OPT_KEY, "uuid").
option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
option(TABLE_NAME, tableName).
mode(Overwrite).
save(basePath)

## 重要參數說明
#參數:getQuickstartWriteConfigs,設置寫入/更新數據至Hudi時,Shuffle時分區數目
#參數:PRECOMBINE_FIELD_OPT_KEY,數據合并時,依據主鍵字段
#參數:RECORDKEY_FIELD_OPT_KEY,每條記錄的唯一id,支持多個字段
#參數:PARTITIONPATH_FIELD_OPT_KEY,用于存放數據的分區字段

本地存儲

HDFS 存儲

四、Flink 與 Hudi 整合使用

官方示例:https://hudi.apache.org/docs/flink-quick-start-guide

1)啟動flink集群

下載地址:http://flink.apache.org/downloads.html

### 1、下載軟件包
wget https://dlcdn.apache.org/flink/flink-1.14.6/flink-1.14.6-bin-scala_2.12.tgz
tar -xf flink-1.14.6-bin-scala_2.12.tgz
export FLINK_HOME=/opt/apache/flink-1.14.6

### 2、設置HADOOP_CLASSPATH
# HADOOP_HOME is your hadoop root directory after unpack the binary package.
export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`
export HADOOP_CONF_DIR='/opt/apache/hadoop/etc/hadoop'

### 3、啟動單節點flink 集群
# Start the Flink standalone cluster,這里先修改slot數量,默認是1,這里改成4
# taskmanager.numberOfTaskSlots: 4
cd $FLINK_HOME
./bin/start-cluster.sh

# 測試可用性
./bin/flink run examples/batch/WordCount.jar

2) 啟動flink SQL 客戶端

# 【第一種方式】指定jar包
./bin/sql-client.sh embedded -j ../hudi-0.12.0/packaging/hudi-flink-bundle/target/hudi-flink1.14-bundle-0.12.0.jar shell

# 【第二種方式】還可以將jar包放在$FINK_HOME/lib目錄下

3)添加數據

-- sets up the result mode to tableau to show the results directly in the CLI
SET 'sql-client.execution.result-mode' = 'tableau';

CREATE TABLE t1(
uuid VARCHAR(20) PRIMARY KEY NOT ENFORCED,
name VARCHAR(10),
age INT,
ts TIMESTAMP(3),
`partition` VARCHAR(20)
)
PARTITIONED BY (`partition`)
WITH (
'connector' = 'hudi',
'path' = 'hdfs://hadoop-hadoop-hdfs-nn:9000/tmp/flink-hudi-t1',
'table.type' = 'MERGE_ON_READ' -- this creates a MERGE_ON_READ table, by default is COPY_ON_WRITE
);

INSERT INTO t1 VALUES ('id1','Danny',23,TIMESTAMP '1970-01-01 00:00:01','par1');
-- insert data using values
INSERT INTO t1 VALUES
('id1','Danny',23,TIMESTAMP '1970-01-01 00:00:01','par1'),
('id2','Stephen',33,TIMESTAMP '1970-01-01 00:00:02','par1'),
('id3','Julian',53,TIMESTAMP '1970-01-01 00:00:03','par2'),
('id4','Fabian',31,TIMESTAMP '1970-01-01 00:00:04','par2'),
('id5','Sophia',18,TIMESTAMP '1970-01-01 00:00:05','par3'),
('id6','Emma',20,TIMESTAMP '1970-01-01 00:00:06','par3'),
('id7','Bob',44,TIMESTAMP '1970-01-01 00:00:07','par4'),
('id8','Han',56,TIMESTAMP '1970-01-01 00:00:08','par4');

HDFS上查看

4)查詢數據(批式查詢)

select * from t1;

5)更新數據

-- this would update the record with key 'id1'
insert into t1 values
('id1','Danny',27,TIMESTAMP '1970-01-01 00:00:01','par1');

6)Streaming Query(流式查詢)

首先創建表t2,設置相關屬性,以流的方式查詢讀取,映射到上面表:t1。

  • read.streaming.enabled設置為true,表明通過streaming的方式讀取表數據;
  • read.streaming.check-interval指定了source監控新的commits的間隔時間4s;
  • table.type設置表類型為 MERGE_ON_READ;
CREATE TABLE t2(
uuid VARCHAR(20) PRIMARY KEY NOT ENFORCED,
name VARCHAR(10),
age INT,
ts TIMESTAMP(3),
`partition` VARCHAR(20)
)
PARTITIONED BY (`partition`)
WITH (
'connector' = 'hudi',
'path' = 'hdfs://hadoop-hadoop-hdfs-nn:9000/tmp/flink-hudi-t1',
'table.type' = 'MERGE_ON_READ',
'read.streaming.enabled' = 'true', -- this option enable the streaming read
'read.start-commit' = '20210316134557', -- specifies the start commit instant time
'read.streaming.check-interval' = '4' -- specifies the check interval for finding new source commits, default 60s.
);

-- Then query the table in stream mode
select * from t2;

注意:查看可能會遇到如下錯誤:

[ERROR] Could not execute SQL statement. Reason:

java.lang.ClassNotFoundException:

org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat

【解決】添加hadoop-mapreduce-client-core-xxx.jar和hive-exec-xxx.jar到Flink lib中。

cp /opt/apache/hadoop-3.3.2/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.3.2.jar $FLINK_HOME/lib
cp ./hudi-0.12.0/hudi-examples/hudi-examples-spark/target/lib/hive-exec-2.3.1-core.jar $FLINK_HOME/lib

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2023-02-26 00:12:10

Hadoop數據湖存儲

2022-10-17 10:48:50

Hudi大數據Hadoop

2021-09-13 13:46:29

Apache HudiB 站數據湖

2021-08-31 10:07:16

Flink Hud數據湖阿里云

2021-09-07 10:41:21

CDC數據湖Apache Hud

2022-03-08 13:14:32

數據湖大數據

2020-10-30 09:27:25

開源技術 數據

2018-07-11 13:33:43

大數據人工智能Hadoop

2016-09-07 15:13:54

數據湖Hadoop大數據

2020-03-26 10:05:18

大數據IT互聯網

2016-09-16 22:40:25

Hadoop數據湖

2013-02-18 15:15:32

英特爾大數據Apache

2014-11-11 10:47:19

hadoop數據流

2023-11-09 15:56:26

數據倉庫數據湖

2016-12-20 18:21:29

Hadoop大數據面試

2012-05-03 11:51:59

ApacheCXFJava

2020-12-16 09:27:05

數據湖大數據數據

2014-07-29 10:38:25

大數據Hadoop

2022-06-09 14:19:46

順豐數據集成Flink

2013-04-12 10:56:31

大數據
點贊
收藏

51CTO技術棧公眾號

久久久久国产精品麻豆ai换脸| 中文字幕不卡在线| 2019日本中文字幕| 亚洲黄色免费av| 香蕉久久一区二区不卡无毒影院| 97成人在线观看视频| 国产精品99久久久久久宅男| 你懂的网址一区二区三区| 一本一道久久a久久精品蜜桃 | 日韩欧美第一区| 国产suv精品一区二区6| 九七影院理伦片| 成人一级视频在线观看| 亚洲巨乳在线观看| 国内自拍视频一区二区三区| 日韩美女在线观看一区| 欧美影院视频| 欧美乱妇40p| 精品欧美视频| 日本中文在线观看| 日韩a在线观看| 精品在线手机视频| 久久精品中文字幕免费mv| 免费观看黄色网| 欧美激情综合五月色丁香| aa免费在线观看| 久久婷婷国产综合精品青草| 无码人妻丰满熟妇区五十路百度| 国产亚洲精品中文字幕| 我看黄色一级片| 自拍偷拍欧美专区| 日韩中文字幕网| 欧美日本国产视频| 椎名由奈jux491在线播放| 日本99精品| 日韩天堂在线观看| 18+视频在线观看| 欧美乱妇20p| 亚洲第一综合| 麻豆91精品视频| 欧美大尺度做爰床戏| 亚洲欧美国产视频| 韩国视频一区二区| 韩日精品一区二区| 国产av不卡一区二区| 欧美区视频在线观看| 欧美电影一二区| 黄网视频在线观看| 精品少妇一区二区30p| 欧美aⅴ一区二区三区视频| 一级片免费视频| 2019中文在线观看| 日本不卡视频在线观看| 日本成在线观看| 亚洲国产成人精品一区二区| 亚洲综合精品| 国产午夜在线| 欧美日韩福利视频| 国产成人av福利| av在线理伦电影| 91亚洲精品一区| 国模吧视频一区| 精品123区| 久久久久久国产精品美女| 国产一区2区| 美乳视频一区二区| caoporen国产精品视频| ga∨成人网| 亚洲韩国欧洲国产日产av| 在线精品国产亚洲| 国产视频精品网| 久久一夜天堂av一区二区三区| 亚洲女人天堂在线| 亚洲图中文字幕| 国产高清久久| 国产婷婷一区二区三区| 色av综合在线| 精品国产乱码一区二区三区| 国产精品一区二区免费| 国产欧美一区二区精品性色超碰 | 日韩欧美国产二区| 国产精品五月天| 青春草视频在线| 国产精品第一区| 成人性生交大片免费看中文| 成人77777| 97成人精品视频在线观看| 日韩电影一区二区三区四区| 95影院理论片在线观看| 日韩有码在线观看| 久久性天堂网| 神马久久久久| 国内免费精品永久在线视频| 激情深爱一区二区| p色视频免费在线观看| 欧美主播福利视频| 成人动漫一区二区三区| 污污视频在线| 99re在线观看| 亚洲免费观看视频| 亚洲热av色在线播放| 一区二区不卡在线视频 午夜欧美不卡'| 欧美日韩在线免费| 色棕色天天综合网| 成人在线播放网站| 久久视频在线播放| 国产呦萝稀缺另类资源| 午夜在线观看视频| 国产精品久久久久久中文字| 国产欧美一区二区在线| 欧美亚洲综合视频| 亚洲天堂第一区| 亚洲白虎美女被爆操| 国产亚洲精品自拍| 黄色av网址在线免费观看| 国产精品免费久久久久久| 国产欧美一区二区三区网站| jizz亚洲女人高潮大叫| 一区二区三区免费看| 欧美一区二区久久久| 国产精品久久国产愉拍| 国产黄在线看| 国产高清不卡av| 欧美在线观看18| 日韩午夜av| 久操视频在线免费播放| 精品一区久久久| 日韩视频一区在线观看| 亚洲深夜av| 毛片在线看网站| 日韩欧美99| 亚洲免费精彩视频| 国产一区二区三区美女| 91精品影视| 浮妇高潮喷白浆视频| 伦伦影院午夜日韩欧美限制| 国产日韩欧美综合在线| 红杏aⅴ成人免费视频| 爱爱永久免费视频| 成人激情黄色网| 在线免费观看日本一区| 亚洲人成久久| 电影k8一区二区三区久久 | 日韩中文理论片| 久久夜色精品国产亚洲aⅴ| 18视频在线观看娇喘| 亚洲综合色视频在线观看| 毛片网站在线| 蜜桃视频网站在线| 黄色免费看网站| jizz性欧美| 色就是色亚洲色图| 成人激情电影在线看| 成年人视频在线免费| av不卡在线免费观看| 亚洲国产欧美不卡在线观看| 91xxxxx| 日本在线三级| 116美女写真午夜一级久久| 亚洲伦理电影| 裤袜国产欧美精品一区| 欧美边添边摸边做边爱免费| 欧美一卡二卡| 99久久99热这里只有精品| 免费看黄裸体一级大秀欧美| 欧美日韩一二三四五区| 久久视频在线看| 久久国产精品久久久久久久久久| 亚洲精品网址在线观看| 久久久久久国产精品| 91理论片午午论夜理片久久| 一区二区三区四区不卡| 黄色大片在线免费看| 艹b视频在线观看| 香蕉伊大人中文在线观看| 亚洲一区有码| 国产精品视频线看| 亚洲精品美女免费| 91av在线网站| 国产一区二区在线网站| 亚洲另类第一页| 国内成人精品| 91视频免费播放| 午夜精品三级视频福利| 91精品国产91久久| 亚洲欧美中文日韩在线| 99久久99久久| 在线观看免费国产小视频| 国产精一区二区| 国产老妇另类xxxxx| 欧美优质美女网站| 欧美激情精品久久久久久大尺度| 波多野结衣久草一区| 国产美女视频黄a视频免费| 在线天堂资源| 中文字幕一区二区三区欧美日韩| 中文字幕乱码一区二区免费| 欧美精品少妇一区二区三区| 午夜精品理论片| 日本老太婆做爰视频|