国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大數據領域新星,帶你了解DuckDB

大數據 數據分析
與基于云的系統相比,DuckDB 更具吸引力,因為它對硬件的要求較低且成本效益較高。從開發人員的筆記本電腦到生產設置,DuckDB 在各種環境中都保持一致,這與基于云的解決方案形成了鮮明對比,后者往往會隨著時間的推移、數據的陳舊或無效而發生漂移。

隨著大數據領域的不斷發展,新的數據處理和分析工具不斷涌現。在這些工具中,DuckDB 是個亮點,它是一個開源的數據庫管理系統,使用 SQL 作為查詢語言,旨在提供內存中分析的高性能解決方案。DuckDB 還支持與 pandas DataFrame 的無縫集成,可以便捷地與 pandas 等工具進行數據處理和分析。因此,DuckDB 是一個非常值得關注和探索的數據庫管理系統。

1 DuckDB的崛起

DuckDB 是個正在快速崛起非常受歡迎的內置 SQL 分析引擎。統計數據如下:

  • 每月在 PyPI 上有 170 萬次下載
  • 在 GitHub 上有 13,800 個星標,在短短幾年內已與 Postgres 達到了同樣的歡迎程度

圖片DuckDB 與 Postgres 的比較 - GitHub Star Rating

在可比的兩年時間內,DuckDB 的增長速度與 Snowflake 相當,據 DB-Engines 趨勢報告顯示,DuckDB很可能在未來幾年內成為主流,并至少取代目前在傳統數據倉庫中處理的一些負載。

圖片DuckDB 與 Snowflake 的比較 - DB Engines 排名

DuckDB 的 MIT 許可證保證其永久開源,這也增加了它的吸引力。

2 DuckDB 的優勢

  • 易于安裝:運行 DuckDB 只需執行一行命令brew install duckdb。
  • 低復雜性:由于沒有服務器(DuckDB 只是一個二進制文件),因此不需要處理憑證、訪問控制列表、防火墻配置等問題。
  • 通用兼容性:DuckDB 幾乎沒有依賴性,可以在瀏覽器中運行。
  • 與 Pandas DataFrame 集成:DuckDB 的 Python 庫具有查詢 Pandas DataFrames 的能力。這種集成還使 DuckDB 能夠在自己和其他無法直接查詢的系統之間起到統一層或 "粘合劑" 的作用,促進了數據處理中的轉換步驟。
  • 擴展:DuckDB 具有靈活的擴展機制,這對于直接從 JSON 和 Parquet 或直接從 S3 讀取數據特別重要,能夠大大提高開發人員的體驗。
  • 穩定性和效率:DuckDB 旨在處理超出內存限制(雖然有一些限制)的工作負載。這在分析數據集大于可用 RAM 但小于磁盤容量的情況下特別重要,這使得分析工作可以使用 "便宜"且隨時可用的硬件(如筆記本電腦)來完成。

3 DuckDB:實際數據流中的高效數據處理引擎

與基于云的系統相比,DuckDB 更具吸引力,因為它對硬件的要求較低且成本效益較高。從開發人員的筆記本電腦到生產設置,DuckDB 在各種環境中都保持一致,這與基于云的解決方案形成了鮮明對比,后者往往會隨著時間的推移、數據的陳舊或無效而發生漂移。

DuckDB 可以在幾乎任何地方輕松運行,有效地繞過分布式系統中常見的挑戰,例如將數據移動到計算節點、VM/作業編排和故障處理。現代機器(基于云或由蘋果公司 M1 SoC 驅動的機器)的能力進一步增強了 DuckDB 的實用性,可以在單機處理場景下處理大量數據集。盡管只有少數客戶每天需要處理 TB 級別的數據,但實際上所需的計算能力超出了所有公有云現有的能力。

4 SQL "語法糖"

DuckDB 的相對新穎性使其能夠靈活地引入新的 SQL 語法增強功能,如GROUP BY ALL、SELECT * EXCLUDE、ASOF JOINS等。這些新增功能使 SQL 查詢更直觀、更易讀;請看下面的代碼段:

-- 在 ANSI SQL 中按多個字段分組
SELECT country, city, region, postal_code, AVG(price) AS avg_price
FROM customers
-- 這里需要重復非分組字段
GROUP BY country, city, region, postal_code;

-- 在 DuckDB 中按所有字段分組
SELECT country, city, region, postal_code, AVG(price) AS avg_price
-- Fields are only listed once; maintaining the code becomes easier
GROUP BY ALL;
-- 在 ANSI SQL 中查詢除 'email' 字段外的所有字段
SELECT country, city, region, postal_code, address, phone_number
  /*, email*/
FROM customers;

-- 在 DuckDB 中查詢除 'email' 字段外的所有字段
SELECT * EXCLUDE (email) FROM customers;
-- 考慮將“接近”的時間戳連接在一起。
-- 在 ANSI SQL 中,通常需要將它們分成桶
-- 在 DuckDB 中,可以使用 ASOF JOIN 來實現相同的結果,更簡單、更高效。
SELECT events.id, events.ts, events.val, metadata.details
FROM events
ASOF JOIN metadata USING(id, ts);

5 與Pandas Dataframes集成

DuckDB 的一個明顯優勢(尤其在 Python 生態系統中)就是與 Pandas Dataframes 的無縫集成。這個特性簡化了合并不同來源數據集的過程,使數據分析和轉換任務變得更加簡單。

例如,在 Jupyter Notebook 中,可以執行以下操作(基于電影推薦系統數據集https://www.kaggle.com/datasets/bandikarthik/movie-recommendation-system):

# 安裝依賴
%pip install --quiet duckdb
%pip install --quiet jupysql
%pip install --quiet duckdb-engine
%pip install --quiet pandas
%pip install --quiet matplotlib
%pip install --quiet psycopg2-binary
%pip install --quiet dash
%pip install --quiet plotly

import duckdb
import pandas as pd

# 加載并配置 jupysql
%load_ext sql
%config SqlMagic.autopandas = True
%config SqlMagic.feedback = False
%config SqlMagic.displaycon = False
%config SqlMagic.named_parameters=True

# 連接到本地 DuckDB 實例
%sql duckdb:///

# 啟用 DuckDB 查詢遠程文件(例如 S3)
%%sql
INSTALL httpfs;
LOAD httpfs;

# 配置 S3 訪問密鑰
SET s3_region = '...';
SET s3_access_key_id = '...';
SET s3_secret_access_key = '...';

# 連接到遠程 Postgres 數據庫
ATTACH 'dbname=DATABASE user=USER host=HOST password=PASSWORD connect_timeout=10' AS postgres (TYPE postgres, READ_ONLY);

# 執行查詢并將結果存儲在 dataframe 中
%%sql
df << SELECT 
    t1.movieId,
    t1.title,
    t1.genres,
    t2.userId,
    t2.rating,
    t3.tag
  # 查詢 Postgres 中的表
  FROM postgres.public.movies AS t1
  # 與 DuckDB 中的表連接
  INNER JOIN ratings AS t2 USING (movieId)
  # 與 S3 中的 JSON 數據集連接
  INNER JOIN 's3://S3-BUCKET/tags.json' AS t3 USING (userId, movieId)

# 最后,從另一個查詢中引用 dataframe
%%sql
by_genres << SELECT genres, COUNT(*) AS cnt 
             FROM df
             GROUP BY ALL
             ORDER BY 2 DESC
             LIMIT 5;

# 或者繪制轉換后的數據集
import plotly.express as px
fig = px.pie(by_genres,
             values='cnt',
             names='genres',
             title='Top 5 movie genres')
fig.show()

6 結語

本文關于 DuckDB 的概述強調了它作為大數據領域多功能、高效和用戶友好型工具的潛力。作為一個相對較新的工具,DuckDB 具有獨特的優勢,可以彌合差距,為數據工程師和軟件開發人員提供與不斷變化的需求相符的解決方案。

責任編輯:武曉燕 來源: Java學研大本營
相關推薦

2020-10-08 14:32:57

大數據工具技術

2024-05-07 08:49:36

Hadoop數據存儲-分布式存儲

2021-03-10 08:55:42

Go數據語言

2012-02-29 09:20:24

Hadoop大數據解決方案

2020-01-17 13:26:38

大數據計算方案

2020-12-11 11:33:15

大數據Hadoop

2018-09-06 16:10:37

數據庫大數據區塊鏈

2022-09-26 11:30:40

MQTT協議客戶端協議

2016-12-23 18:27:45

聯想

2017-11-29 13:31:19

大數據農業農產品

2018-09-17 16:30:24

數據庫MySQL小技巧

2019-09-27 09:40:06

ElvishShellLinux

2010-07-05 16:20:32

NetBEUI協議

2015-09-01 09:33:50

教育大數據

2020-08-31 10:48:11

MySQL數據庫數據庫技巧

2020-12-25 13:51:49

大數據醫療大數據

2017-05-26 18:30:34

華為

2021-02-03 16:22:43

新基建SAP

2020-12-31 12:16:49

SAP云計算SAP產品

2019-07-04 15:16:52

數據挖掘大數據算法
點贊
收藏

51CTO技術棧公眾號

久久精品视频一| 欧美一级免费大片| аⅴ资源天堂资源库在线| 91久久亚洲| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 国产系列电影在线播放网址| 青青草精品毛片| 国产原创一区| 亚洲一区二区黄| 亚洲人成午夜免电影费观看| 色94色欧美sute亚洲13| 久久九九国产视频| 2020国产精品自拍| 99色在线视频| 亚洲女人****多毛耸耸8| 9久久婷婷国产综合精品性色| 2017欧美狠狠色| 狠狠97人人婷婷五月| wwww国产精品欧美| 国产主播中文字幕| 亚洲色大成网站www久久九九| 免费观看一二区视频网站| 成人黄色网址在线观看| 欧美一二三不卡| 91偷拍一区二区三区精品| 欧美喷潮久久久xxxxx| www.99av| 不卡av电影在线观看| а√最新版地址在线天堂| 成人性生交大片免费看中文| 伊人久久噜噜噜躁狠狠躁| 国产精品伊人日日| 欧美综合一区第一页| 日韩精品视频在线看| 久久免费精品日本久久中文字幕| 欧美尿孔扩张虐视频| 91视频九色网站| 欧美r片在线| 欧美精品自拍| 男女激情免费视频| 欧美三电影在线| 精品国模一区二区三区欧美| 国产成人一区二区三区| 日韩欧美高清在线播放| 91日本在线视频| 国产成a人亚洲精| 亚洲日本va中文字幕久久| 欧美在线一二三| 国产精品久久亚洲不卡| 国产成人精品电影| 首页国产欧美日韩丝袜| aa免费在线观看| 日韩免费性生活视频播放| 免费一级欧美在线观看视频| 91精品久久久久久久久| 国产精品羞羞答答xxdd| 超碰免费在线| 欧美色网站导航| 深夜激情久久| 热99在线观看| 在线国产精品播放| 国产深夜视频在线观看| 国产一区二区三区视频免费| 国产三级久久久| 欧美激情一区二区三区| 中文字幕在线视频免费观看| 亚洲大胆人体在线| 国产精品美女久久久久久不卡| 亚洲狠狠婷婷综合久久久| 国产成人综合一区| 亚洲女女做受ⅹxx高潮| 精品视频日韩| 亚洲an天堂an在线观看| 日本精品视频网站| 亚洲一区二区三区四区在线| 中文字幕一区二区三区中文字幕 | 午夜视频在线瓜伦| 亚洲福利精品在线| 午夜亚洲视频| 大地资源中文在线观看免费版| 国产精品a久久久久久| 136国产福利精品导航| 日韩精品三级| h动漫在线视频| 欧美激情视频免费观看| 一区二区三区四区高清精品免费观看| 美州a亚洲一视本频v色道| 欧美在线视频免费播放| 午夜精品在线看| 成人免费在线播放| 成人福利在线视频| 国产精品久久精品日日| av网址在线看| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 亚洲最新色图| 国产午夜福利视频在线观看| 欧美一区二区三区公司| 日本不卡免费播放| 国产精品久久久一区二区三区| 欧美日韩一本到| 午夜综合激情| 九九九精品视频| 国产人成在线视频| 亚洲小视频在线观看| 日韩 欧美一区二区三区| 日本乱理伦在线| 国产91av视频在线观看| 亚洲欧美一区二区三区久久| 国产福利精品一区| 女人丝袜激情亚洲| 天堂√中文最新版在线| 99热手机在线观看| 色一情一乱一伦一区二区三区丨 | 成人免费在线视频播放| 亚洲国产欧美精品| 樱桃视频在线观看一区| 精品精品精品| jizzzz日本| 亚洲自拍小视频免费观看| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 国产剧情在线观看一区| 一级黄色片播放| 欧美成人精品1314www| 操操操综合网| 成人性生交大片免费看中文| 国产黄色片大全| 自拍偷拍亚洲色图欧美| 色综合天天综合网国产成人网| 91福利小视频| 中文字幕一区二区三区不卡| 国产精品一区二区无线| 欧美暴力喷水在线| 欧美日本不卡高清| 日韩国产大片| 欧美一级鲁丝片| 国产福利在线视频| 91精品秘密在线观看| 日本一区二区精品| 久久久久国产视频| 三级精品视频久久久久| 欧美插天视频在线播放| 97精品一区二区三区| 成人免费午夜电影| 麻豆av一区二区三区| 日本免费在线视频观看| 男人添女人下部视频免费| 国产91色在线观看| 一区二区三区不卡在线视频 | 韩国一区二区三区| 久久久噜噜噜久久人人看| 精品日韩美女的视频高清| 亚洲精品成人免费| 久久久久久国产精品三级玉女聊斋 | 国产丝袜欧美中文另类| 麻豆国产欧美一区二区三区| 99精品久久久久久| 91福利国产成人精品照片| 中文字幕亚洲一区二区三区五十路| 668精品在线视频| 国产精品夜夜夜爽张柏芝| 一本到av在线| 国产美女情趣调教h一区二区| 77成人影视| 国产麻豆精品95视频| 日韩欧美中文在线| 久久久免费在线观看| 日韩欧美亚洲v片| 色视频在线看| 精品国产一区二区三区四区| 国产很黄免费观看久久| 欧美日韩一区二区三区不卡| 国内精品视频一区| 91视频 - 88av| 国产va在线视频| 老色鬼久久亚洲一区二区| 日韩欧美国产网站| 日韩av片永久免费网站| 成人在线播放网址| 黄色成人免费网| 精品一区二区三区蜜桃| 黑人巨大精品欧美一区二区| 国产91|九色| 激情五月六月婷婷| 日韩国产91| 国产91精品在线观看| 亚洲成人黄色在线观看| 91免费的视频在线播放| 男男激情在线| 电影一区二区| 精品午夜久久福利影院 | 国产高潮免费视频| 99久久99九九99九九九| 国产大片一区| 一本色道久久综合狠狠躁的推荐 | 不卡电影一区二区三区| 亚洲精品久久久久久久久| 日韩精品不卡| 日本久久久久| 成人免费电影视频| 中文字幕在线一区|