国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI基礎軟件:如何自主構建大+小模型?

人工智能
AI 基礎軟件作為大型 AI 模型的底座,承載著頂層大模型的建設,也是大模型應用落地的關鍵。為了更好地支持大模型的訓練和演進,設計與開發基礎軟件便顯得尤為重要。本文分享了九章云極DataCanvas如何自主構建大 + 小模型的經驗與心得。

一、公司介紹

圖片

九章云極DataCanvas以創造智能探索平臺為使命,懷揣著助力全球企業智能升級的愿景,是中國人工智能基礎軟件領域的佼佼者。公司專注于自主研發的人工智能基礎軟件產品系列和解決方案,為用戶提供全面的人工智能基礎服務,旨在幫助用戶在數智化轉型過程中輕松實現模型和數據的雙向賦能,以低成本高效率的方式提升企業決策能力,從而實現企業級 AI 的規模化應用。

二、AIFS(AI Foundation Software)

圖片

在大模型時代,我們需要更高效的算力基礎設施,并對其他基礎設施和資源進行管理。為了應對這些挑戰,九章云極DataCanvas搭建了一個完整的軟件體系AIFS(AI Foundation Software),包括模型工具、大模型能力、人工智能基礎平臺、算力管理四層。

第一層是算力層。當前國產 GPU 也正在迅速崛起,華為等廠商在大模型領域,以及 GPU 領域取得巨大進展。在算力基礎設施之上,我們構建 GPU Cloud,可以統一管理異構的 GPU 資源,包括英偉達和國產 GPU。通過這種方式降低工程化成本,并提高資源利用率。

第二層以公司自研的DingoDB多模向量數據庫和人工智能開發工具為主。DingoDB是大模型時代的必備軟件,作為一個分布式向量數據庫,存儲多模態的任意大小的數據,具備高并發、低延遲的實時分析能力,處理多模數據,通過 SQL 實現結構化和非結構化數據的 ETL。在DingoDB之上,產品提供了APS Fast Label、APS LMB、 APS Lab、APS Inference人工智能開發工具。

通過這個完整的人工智能技術平臺,用戶可以高效地應對大模型時代的挑戰,快速實現 AI 應用的落地。

第三層包括九章云極DataCanvas發布的DataCanvas Alaya九章元識大模型,其支持視頻、圖片、文本等多種數據格式。此外,還具備構建小模型的能力,提供包括算法庫、場景庫、特征庫和指標庫的“四庫全書”。

最后,構建大模型,我們提供了一整套模型構建工具——LMOPS,包括 Prompt Manager(提示管理器)、Large Model Training(大模型訓練)和 Large Model Serving(大模型服務)。

圖片

AIFS是一款行業領先的人工智能應用構建基礎設施平臺,可以支持大模型和小模型的構建。AIFS 涵蓋了大模型的訓練、精調、壓縮、部署、推理和監控,以及小模型的全生命周期過程。它支持多種模式的建模,可以滿足數據科學家、開發人員以及業務專家不同的建模需求。例如,數據科學家可以按照自己的建模習慣進行建模,開發人員可以從工程的角度去構建大模型,而業務專家則可以從業務的角度出發,在平臺上構建自己的大模型和小模型。

此外,AIFS 平臺上的不同角色人員可以相互協作,輕松處理數據,并使用這些數據來開發、訓練和部署任何規模的模型。這意味著,無論是數據科學家、應用程序開發人員還是業務專家,都可以在 AIFS 平臺上找到適合自己的建模方式,并與其他角色人員協作,共同構建人工智能應用。

三、模型構建工具鏈

圖片

在 AIFS 中,有一套完整的工具鏈,旨在賦能大模型和小模型的構建。首先,從數據準備的角度來看,數據可能包括通用數據、行業數據、私域數據以及指令數據等。在數據接入后,需要進行數據處理,如數據清洗、數據變換和數據增強,針對不同類型的數據采取不同類型的處理方式。數據處理完成后,可以進行數據標注,包括人工標注和智能標注。

數據準備完成后,進入模型開發階段。在模型開發中,首先需要進行模型選型,如常見的 LLAMA 模型,最近開源的 LLAMA2,以及 Falcon 和 Bloom 等。選定模型后,可以使用前期準備的數據進行訓練,以及使用預訓練權重進行繼續訓練等。

訓練完成后,可以進行模型微調,如對齊操作。對于中小企業,可能會面臨 CPU 資源有限的問題,此時可以利用開源的 PEFT 工具進行高效微調。模型微調對齊完成后,需要對模型進行評估,可以使用如LMS評估工具進行評估。常見的評估指標包括 Ceval 和 MMLU 等。

如果現有的 Benchmark 無法涵蓋模型的能力,可以基于 AIFS 構建自己的任務或 Benchmark 進行自定義評估。評估完成后,將模型部署到 LMS 中,進行模型的部署和推理。首先,可能需要對模型進行壓縮,如量化剪枝、蒸餾轉換等操作。模型壓縮完成后,進行部署,支持單機單卡和單機多卡的部署方式。

模型上線后,需要進行模型服務的上線,使用 Prompt Manager 進行模型應用。

1、LMB(Large Model Builder)

圖片

LMB(Large Model Builder)是一款專為 AI 工程師打造的大規模預訓練模型訓練工具,旨在幫助他們快速構建訓練流程并實現高效穩定的大模型訓練。該工具包括數據準備、分布式訓練、斷點重訓、任務監控、模型評估幾個主要模塊。

通過這些模塊,LMB可以有效地幫助 AI 工程師在大規模預訓練過程中快速構建訓練流程,并實現高效穩定的大模型訓練。

圖片

LMB的功能架構從下到上分為幾個層次。首先是 GPU Cloud,這是 AIFS 人工智能平臺的最后一層,也是抹平基礎設施的關鍵組件。在 GPU Cloud 之上,實現了一層分布式任務調度,包括異構算力的統一管理和調度、資源編排、環境分發、任務分發以及任務監控等功能。再往上,有一鍵式分布式訓練環境,支持多種流行的分布式訓練環境預置,如 DeepSpeed、Megatron 和 FSDP 等。

此外,LMB還提供了多種并行方式、梯度累積、混合精度等高效策略,涵蓋了包括斷點、重新啟動等功能。可視化的 FromScratch 界面,讓用戶能夠輕松構建自己的大模型。無論是業務人員還是工程開發人員,都可以通過這個界面選擇所需的模型、數據,以及高級或簡潔模式等參數,進行訓練。訓練成功后,用戶還可以通過可視化評估功能對模型進行評估。

2、LMT(Large Model Tuning)

圖片

LMT,即Large Model Tuning,大模型微調工具,主要幫助 AI 工程師在預訓練模型的基礎上進行模型的繼續訓練、微調和評估等工作。通過可視化界面,用戶可以設定私域數據、預訓練模型以及相應的訓練參數,進行記憶訓練,并且可以選擇性擴充詞表,避免災難性遺忘,提高模型推理精度。

在模型微調方面,LMT 支持專家模式進行設計,同時也提供簡潔模式。通過專家模式,用戶可以實現一鍵式的高效 PEF指令微調,包括 LoRA 等多種PEFF 方法以及可視化的 RLHF 訓練。

對于模型評估,LMT 支持開源的 Benchmark 自動評估,用戶也可以進行自定義評估。用戶按照平臺規范構建數據集,設定評估方法,就可以進行一些自定義評估。同時,用戶也可以手動進行專家評估。最后,LMT 可以將自定義模型和開源模型進行對比,生成一個評估效果的 LeaderBoard。

簡而言之,LMT可以為整個大模型調整流程提供支持,從數據準備到繼續訓練,到指令精調,再到人工對齊、RLHF,最終生成一個 final model。

圖片

LMT與LMB 有相似的底層架構,比如 GPU Cloud。與 LMB相比,PEFT 在進行指令微調時的資源需求沒有那么高,但它仍然需要一些強大的硬件設施,因此在底層也需要有一個 GPU Cloud 這樣的算力支持,來平衡技術設施的投入成本。

再往上的架構與 LMB 相似,提供了一個一鍵式分布式訓練環境,包括DeepSpeed、Megatron、MosaicML等多種分布式訓練環境,以及圖優化、梯度累積等關鍵要素。

在這個架構中,入口是數據管理,包括數據標注和 SFT 數據增強。例如,企業客戶安裝了 LMT 后,可以管理私域數據,并基于這些數據進行 SFT 數據增強。SFT 數據增強有很多方式,比如使用我們的 self instruct 工具進行數據蒸餾,以獲得更好的模型。

現在,許多開源的大型模型都是基于英文的,有些可能會支持多語言,但中文的支持相對較少,因此需要對這些模型進行詞表擴充。我們的詞表擴充有兩種方式:一種是在改變 embedding 層后再進行 PFT訓練,第二種是使用中英平衡數據進行全量微調。

在完成訓練后,可以進行 SFT,可以通過全量微調或 PEFT 微調來實現。在進行人工對齊(如 RLHF)之前,需要先訓練出獎勵模型,再通過獎勵模型訓練 SFT 模型,以獲得最終的模型。在整個訓練過程中,會輸出一個 train revert 報告,以幫助大家了解獎勵模型在訓練 SFT 過程中的表現。

最后,LMT的架構還包括一個任務管理系統,可以監控和調度所有的任務,包括評估任務和三個階段的訓練任務。

3、LMS(Large Model Serving)

圖片

LMS(Large Model Serving),即大模型運行工具。所謂運行工具,就是在模型訓練和對齊(如人工對齊)完成后,要通過Prompt Manager 消費模型,因此需要將模型提供為一項服務,并通過 HTTP API 或 SDK 進行訪問。LMS 主要面向工程技術人員,旨在幫助他們快速、高質量地交付大模型,同時降低運維和運營成本。

在 LMS 的功能流程中,首先涉及到模型管理。啟動后,用戶可以導入模型,支持通過界面操作和命令操作完成導入。成功導入模型后,可以進行模型壓縮,如量化和剪枝操作。接著進行模型評估,評估完成后進行部署,將模型上線為一個服務。

在服務上線后,可以對服務進行監控,包括服務調用次數、調用成功率,以及調用消耗的總時長和平均時長等指標。同時,還需要監控資源消耗情況,例如 CPU 資源、GPU 資源(尤其是GPU 資源的利用率、顯存占用率)以及內存占用率等資源指標。通過這些監控,確保大模型服務的穩定性和性能。

圖片

接下來,將深入探討 LMS 的架構。參見上圖,左側是模型管理 Model Store 模塊。在 Model Store 中,可以對已導入的模型進行全方位管理,如編輯元信息、評估模型性能等。模型評估涵蓋了自動評估和自定義評估等多個方面。在對模型進行壓縮之后,可以將其部署并上線。當然,也可以在導入模型后直接在 Model Service 中上線,跳過評估環節。

在 Model Service 中,搭建一個復雜且完善的對外模型服務架構,包括 REST API、gRPC 及其它 API。這些 API 可供 Prompt Manager 調用,同時也支持客戶第三方業務系統直接訪問。在 Model Service 中,首層為 Server 的 Gateway,主要負責路由不同模型。當某個模型實例面臨壓力較大或延遲較高時,會根據業務需求進行實例伸縮。

在每個模型實例中,有兩個關鍵要素:交互式推理記憶和 kernel 級加速。交互式推理記憶用于處理與大型模型的多輪交互。例如,向大模型詢問推薦食譜,用戶可能需要與模型進行多輪對話,而大模型需要保存歷史會話,以保持上下文。交互式推理記憶就是用來緩存歷史問話,以便在第二次對話時減少 GPU 推理延遲,提高模型服務速度。

另一個關鍵要素是 kernel 級加速。熟悉底層開發的人員應該都知道,在調用模型底層 API 時,可能會多次調用 kernel。通過 kernel 級加速,可以對 kernel 進行合并操作(把幾次請求組成一個tensor),以及操作合并(把兩次kernel操作合并成一次操作),從而提高性能。

在消費模型時,可以借助 Prompt Manager 訪問知識庫,獲取相關上下文信息,再訪問大模型。

4、Prompt Manager

圖片

Prompt Manager是一個提示詞設計和構建工具,旨在幫助用戶創建更優秀的提示詞,引導大模型生成更加準確、可靠且符合預期的輸出內容。該工具可以同時面向技術人員和非技術人員,為技術人員提供開發工具包,同時也為非技術人員提供直觀易用的人機交互操作模式。

在 Prompt Manager 中,包含了幾個核心要素:場景管理、模板管理、提示詞開發以及提示詞應用。這些要素共同構成了 Prompt Manager 的功能體系,為用戶提供了全方位的支持,使其能夠更好地利用大模型生成所需的輸出內容。

圖片

上圖展示了 Prompt Manager 的功能架構。自下而上來介紹,首先,在底層,Prompt Manager可以管理大模型服務。通過 LMS 部署的模型對外提供的接口可以配置到 Prompt Manager 中,供提示工程使用。此外,還可以與其它工具(如DingoDB、搜索引擎等)進行集成。

在提示工程方面,包括 single prompt、multiple prompt 和 prompt flow 等開發方式。假設企業內部有一個業務需要多次訪問大模型,可以采用兩種方式:第一種是在業務系統中將整個流程串起來,每次與大模型的交互后,再進行業務處理;第二種方式是將整個流程封裝成一個 prompt flow,這樣在第一次訪問大模型并獲取結果后,可以進行相應處理,然后將結果傳遞給第二次訪問大模型,以 flow 的形式展現整個過程。

此外,Prompt Manager還提供了模板場景、角色定義(如協作作家、程序員等)、prompt開發(包括單個 prompt 和多個 prompt 開發方式)等功能。

最終,可以將 prompt(無論是 prompt flow、single prompt 還是 multiple prompt)提供為一個 prompt 服務,供模型消費。這樣,用戶可以通過對外開放接口或 SDK 直接訪問 prompt 服務。

四、DataCanvas APS 機器學習平臺

圖片

DataCanvas APS機器學習平臺,為數據科學家、應用程序開發人員和業務專家提供一整套工具,以便自主輕松地處理多源異構數據,并快速、高效地開發、訓練和部署任何規模的機器學習模型,打通企業級大模型和小模型應用的最后一公里。

此外,DataCanvas APS機器學習平臺還具備模型管理功能,構建了智能應用工具包,以便更好地為企業提供模型服務。

圖片

DataCanvas APS機器學習平臺的關鍵特性包括:異構多引擎融合架構;支持大數據分析;全分位的開放式;高性能分布式訓練解決方案;模型全生命周期管理;領先的自動化機器學習(AutoML)技術。

該平臺實現了數據科學家、開發人員和業務專家三位一體的融合建模方式,為數據科學家提供了友好的編碼建模環境,為數據工程師提供可視化的拖拽建模工具,而對于業務分析師,即使他們對代碼不甚了解,也可以通過自動建模工具進行模型構建。三個角色可以跨團隊、跨項目進行合作,實現高效的模型開發。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2017-04-21 07:10:12

谷歌AI芯片理由

2023-10-28 13:29:27

2023-09-25 10:19:01

模型App開源

2025-04-01 09:54:09

AI算法大模型AI

2022-06-02 10:29:23

神經網絡AI計算機

2025-01-27 09:51:24

AI模型開源

2024-12-25 08:02:17

人工智能AI運維

2024-10-14 14:47:58

2024-09-12 09:16:11

2024-09-25 15:34:21

數據模型數據驅動數字化轉型

2023-05-10 14:40:40

AI模型算力

2025-10-24 08:00:00

大模型矢量數據庫AI智能體

2025-10-16 07:45:31

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2025-10-30 16:10:20

吳恩達AI應用

2025-07-29 07:07:00

自主式AI自動化機器學習
點贊
收藏

51CTO技術棧公眾號

一区二区三区欧美在线观看| 国产精品的网站| 久久免费少妇高潮久久精品99| 免费特级黄毛片| 老牛影视一区二区三区| 秋霞午夜一区二区| 色豆豆成人网| 欧美日韩一区二区三区不卡 | 国产做受高潮69| 国产最新在线| 一区二区三区国产精品| 成人免费在线网| 亚洲制服av| 91日本视频在线| 深爱激情综合网| 久久久久久久久久久网站| 欧美日韩女优| 国产丝袜一区二区| 日本成人不卡| 欧美老年两性高潮| 国产永久免费高清在线观看 | 国产在线麻豆精品观看| 91久久嫩草影院一区二区| 国产一级成人av| 色偷偷91综合久久噜噜| 黄网av在线| 欧美日韩午夜在线| 头脑特工队2在线播放| 亚洲视频一二三区| 一本久道中文无码字幕av| 成人国产亚洲欧美成人综合网| 国产精品av免费| 免费人成在线不卡| 欧美男人的天堂| 久久高清免费观看| 日韩福利一区二区三区| 久久精品导航| 欧美性色黄大片人与善| 久久不射中文字幕| 婷婷五月色综合| 日本不卡的三区四区五区| 欧美中日韩免费视频| 免费在线日韩av| 午夜精品视频在线观看一区二区| 米奇777在线欧美播放| 日本在线播放一区| 狠狠色综合播放一区二区| 国产高清不卡无码视频| 成人av综合一区| 日韩少妇内射免费播放18禁裸乳| 成年人国产精品| 女人另类性混交zo| 国产精品蜜臀在线观看| 性疯狂做受xxxx高清视频| 亚洲无人区一区| 久久综合九色综合久| 欧美日韩不卡一区二区| 蜜桃传媒在线观看免费进入| 日韩精品中文字幕久久臀| a成人v在线| 久久久久久久久久久91| 久久porn| 成人午夜激情网| 午夜在线精品偷拍| 日本国产中文字幕| 国产精品久久久久久久午夜片| 美女视频黄a视频全免费观看| 欧美色道久久88综合亚洲精品| 久操视频在线观看| 国产一区二区久久精品| 91成人在线精品视频| 国产日韩在线亚洲字幕中文| 亚洲激情成人| 国产九九九九九| 亚洲愉拍自拍另类高清精品| 在线观看黄色av| 在线亚洲男人天堂| 久久91精品| 色综合久久久久久久久五月| 99国产麻豆精品| 天堂а√在线8种子蜜桃视频| 亚洲精品456在线播放狼人| 一区二区三区电影大全| 2018中文字幕一区二区三区| 亚洲福利电影| 欧美激情国产精品日韩| 91精品福利视频| 欧美成人高清视频在线观看| 国产精品夜色7777狼人| 日本欧美大码aⅴ在线播放| 日本999视频| 在线不卡的av| 国产精品久av福利在线观看| 久久精品国产一区二区三区日韩 | 国产精品久久久久久中文字| 亚洲黄页一区| caopor在线视频| 欧美性色xo影院| 福利一区在线| 91精品国自产在线观看| 成人aaaa免费全部观看| 成人在线观看免费| 欧美xxxx综合视频| 天堂av在线一区| 老司机性视频| 亚洲香蕉成人av网站在线观看| 欧美综合一区| 你懂的av在线| 日韩欧美国产一二三区| 久久爱www成人| 加勒比成人在线| 欧美顶级少妇做爰| 精品久久久久久久| 欧美 丝袜 自拍 制服 另类| 欧美老人xxxx18| 欧美日韩激情| 中文字幕无码不卡免费视频| 亚洲第一福利网站| 亚洲国内欧美| 啊灬啊灬啊灬啊灬高潮在线看 | 三级黄视频在线观看| 日韩中文在线不卡| 香蕉精品999视频一区二区| 色婷婷亚洲十月十月色天| 亚洲美女性生活视频| 亚洲大胆av| 精品女厕厕露p撒尿| 欧美精品在线免费播放| 免费精品视频在线| 撸视在线观看免费视频| 91精品国产91久久久久久| 国产福利不卡视频| 亚洲国产精品精华素| 成人欧美一区二区三区在线| 国产精品久久久久婷婷| 成人黄色免费观看| 一区二区成人国产精品| 日韩丝袜情趣美女图片| 欧美亚洲不卡| 青青草娱乐在线| 日韩免费观看视频| 国产精品黄色在线观看| 日韩区一区二| 免费日韩视频在线观看| 日韩一区在线视频| 成人综合在线视频| 精品国产欧美日韩一区二区三区| 中文字幕一区二区三区最新| 精品国产99国产精品| 国产日韩欧美一区| 欧美人xxx| 久久久99爱| 日韩精品一区二区三区四区视频| 亚洲影院免费| 国产精品蜜臀| 日本黄色a视频| 日韩高清欧美高清| 久久99九九99精品| 中文字幕av一区二区三区佐山爱| 杨幂一区欧美专区| 日韩av在线网| 成人av在线影院| 网站一区二区| 色琪琪免费视频网站| 91热精品视频| 欧美一级欧美三级| 国内精品国产成人| japansex久久高清精品| 91亚洲免费视频| 国产乱肥老妇国产一区二| 亚洲愉拍自拍另类高清精品| 99久久婷婷| 日本高清在线观看wwwww色| 日本在线视频不卡| 亚洲欧美国产va在线影院| 99麻豆久久久国产精品免费| 最新国产精品精品视频| 国产xxxxx18| 亚洲综合国产精品| 69精品人人人人| 国产一区二区三区免费看| 国产精品日本一区二区不卡视频 | 免费不卡av在线| 美女精品视频一区| 亚洲精品亚洲人成人网在线播放| 色婷婷色综合| 国产在线激情| 欧美另类在线播放| 欧美床上激情在线观看| 精品视频一区 二区 三区| 国产精品亲子乱子伦xxxx裸| 亚洲欧美日韩国产一区二区| 免费在线午夜视频| 成人午夜电影在线播放| 精品成人一区二区三区| 黑人一区二区| 久久亚洲欧洲| 欧美阿v一级看视频| 99九九热只有国产精品| 在线免费日韩片|