国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Meta「輕量級」KernelLLM顛覆GPU內核生成,8B參數碾壓GPT-4o

人工智能
Meta推出KernelLLM,這個基于Llama 3.1微調的8B模型,竟能將PyTorch代碼自動轉換為高效Triton GPU內核。實測數據顯示,它的單次推理性能超越GPT-4o和DeepSeek V3,多次生成時得分飆升。

在AI領域,參數規模曾被視為「性能天花板」。

Meta最新發布的KernelLLM,卻用8B參數的「小身板」,在GPU內核生成任務中把200B的GPT-4o按在地上摩擦。

這是一個基于Llama 3.1 Instruct進行微調的8B參數模型,旨在將PyTorch模塊自動轉換為高效的Triton GPU內核。

圖片圖片

KernelLLM簡直是GPU內核開發神器,用更少的參數實現了更強的性能,且簡單易用。

它只有8B參數,但是在KernelBench-Triton Level 1,單次推理性能超過了GPT-4o和DeepSeek V3。

通過多次推理,KernelLLM性能優于DeepSeek R1。

圖片圖片

這一切都來自一個參數規模比競爭對手小兩個數量級的模型。

@Denis Kanonik吐槽「這又是用測試集訓練的嗎?」

圖片圖片

KernelLLM讓內核開發更易上手

KernelLLM是一款基于Llama 3.1 Instruct的8B模型,專門針對用Triton編寫GPU內核的任務進行了訓練。

它能讓GPU編程變得更簡單,實現高性能GPU內核生成的自動化。

KernelLLM通過自動化生成高效的Triton實現,滿足對高性能GPU內核日益增長的需求。

隨著工作負載的增大和加速器架構的多樣化,對定制化內核解決方案的需求顯著增加。

現在市面上很多相關工具,要么只能在測試的時候優化,要么就只盯著KernelBench的問題調優,很難應對更廣泛的場景。

KernelLLM是首個在外部(PyTorch,Triton)代碼對數據上進行微調的LLM。

Triton內核生成工作流程

把PyTorch代碼輸進去,KernelLLM就會生成Triton內核候選代碼。

然后用單元測試來驗證這些代碼,用隨機輸入跑一跑,看看輸出對不對。要是生成好幾個候選代碼,還能比比哪個最好,挑出最優的。

圖片圖片

KernelLLM的Triton內核生成流程:用KernelLLM把PyTorch代碼翻譯成Triton內核的候選代碼。生成的代碼會通過單元測試驗證,測試用已知形狀的隨機輸入數據運行內核。這個流程支持生成多個候選代碼(通過 pass@k評估),增加候選數量來提高質量,最后選出最好的Triton內核實現作為輸出(綠色部分)

為了訓練這個模型,團隊可是下了大功夫,用了25000多對(PyTorch,Triton)代碼示例,還有合成的樣本。

這些數據一部分來自TheStack的過濾代碼,一部分是通過torch.compile () 和提示技術生成的。

數據集KernelBook,參考鏈接:https://huggingface.co/datasets/GPUMODE/KernelBook。

訓練時用的是Llama3.1-8B-Instruct模型,在自定義數據集上做了監督微調(SFT),測試它在KernelBench-Triton上生成正確Triton內核及調用代碼的能力。

KernelBench-Triton是基于KernelBench[Ouyang et al. 2025]開發的變體,專注Triton內核生成。

訓練和評估時,PyTorch代碼會配置一個包含格式示例的提示模板作為指令。

模型訓練了10個epoch,批大小為32,采用標準SFT方法,超參數根據驗證集的困惑度(perplexity)來選擇。

訓練用了16個GPU,共耗時12小時(192 GPU小時),報告了最佳檢查點的驗證結果。

性能評估

盡管模型規模較小,但其性能可與最先進的LLM相媲美。

圖片圖片

KernelBench-Triton測試中,8B參數的KernelLLM,單次推理得分20.2,比671B參數的DeepSeek V3(16分)和200B參數的GPT-4o(15分)都高。

圖片圖片

要是多生成幾個候選代碼,得分還能蹭蹭往上漲,生成10個的時候能到51.8分,20個的時候能到57.1分。

KernelLLM推理用temperature=1.0和top_p=0.97運行。

在KernelBench上測試了模型,這是一個開源基準測試,用于評估LLM編寫的高效GPU內核的能力。

它包含250個精心挑選的PyTorch模塊,按負載調整,從簡單的單操作(如Conv2D或Swish,Level 1)到完整的模型架構(Level 3)。

它在不同難度的任務里表現都很穩,不管是簡單的單個操作符,還是復雜的模型架構,都能應對。

測試會同時降低代碼的正確性(通過與參考PyTorch輸出對比)和性能(通過與基準實現的加速比)。

團隊開發了一個新的KernelBench-Triton變體,專門評估LLM生成Triton內核的能力,非常適合測試KernelLLM。

所有測試都在NVIDIA H100 GPU上完成。

圖片圖片

KernelLLM在pass@k中表現出近似對數線性的擴展行為

KernelLLM怎么用?

先裝幾個依賴包:

pip install transformers accelerate torch triton
pip install transformers accelerate torch triton

用的時候,先導入庫,調用generate_triton函數,就能生成優化后的Triton代碼啦。

KernelLLM提供了一個簡單的接口,用于從PyTorch代碼生成Triton核。

from kernelllm import KernelLLM# Initialize the modelmodel = KernelLLM()# Define your PyTorch modulepytorch_code = '''import torchimport torch.nn as nnclass Model(nn.Module):    """    A model that computes Hinge Loss for binary classification tasks.    """        def __init__(self):                super(Model, self).__init__()         def forward(self, predictions, targets):                return torch.mean(torch.clamp(1 - predictions * targets, min=0))batch_size = 128input_shape = (1,)def get_inputs():        return [torch.randn(batch_size, *input_shape), torch.randint(0, 2, (batch_size, 1)).float() * 2 - 1]def get_init_inputs():    return []'''# Generate optimized Triton codeoptimized_code = model.generate_triton(pytorch_code, max_new_tokens=512)print(optimized_code)

from kernelllm import KernelLLM
# Initialize the model
model = KernelLLM()
# Define your PyTorch module
pytorch_code = 
'''
import torch
import torch.nn as nnclass Model(nn.Module):    
"""
    A model that computes Hinge Loss for binary classification tasks.    
"""    
    def __init__(self):        
        super(Model, self).__init__()     
    def forward(self, predictions, targets):        
        return torch.mean(torch.clamp(1 - predictions * targets, min=0))
batch_size = 128
input_shape = (1,)
def get_inputs():    
    return [torch.randn(batch_size, *input_shape), torch.randint(0, 2, (batch_size, 1)).float() * 2 - 1]
def get_init_inputs():
    return []
'''
# Generate optimized Triton code
optimized_code = model.generate_triton(pytorch_code, max_new_tokens=512)
print(optimized_code)

要是不想寫腳本,還能直接運行python kernelllm.py,使用內置的REPL接口,打開交互式界面,實時看結果。

kernelllm.py提供了多種與模型交互的方法。

python kernelllm.py
python kernelllm.py

KernelLLM提供了幾種自定義生成過程的方法:

from kernelllm import KernelLLMmodel = KernelLLM()# Stream output in real-timemodel.stream_raw("Your prompt here", max_new_tokens=2048)# Generate raw text without the Triton-specific prompt templateraw_output = model.generate_raw("Your prompt here", temperature=1.0, max_new_tokens=2048)

from kernelllm import KernelLLM
model = KernelLLM()
# Stream output in real-time
model.stream_raw("Your prompt here", max_new_tokens=2048)
# Generate raw text without the Triton-specific prompt template
raw_output = model.generate_raw("Your prompt here", temperature=1.0, max_new_tokens=2048)

有時它會犯點小錯誤,比如API引用不對、語法出錯,有時候還不太能按指令生成理想的內核。

生成的代碼結構有點像編譯器自動吐出來的,有時在變量命名、張量形狀、類型處理和數值精度這些細節上也容易出問題。

參考資料:

https://x.com/reach_vb/status/1924478755898085552

https://huggingface.co/facebook/KernelLLM

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-01-16 16:39:44

2025-04-08 02:26:00

2024-08-15 15:45:00

AI訓練

2025-08-21 16:01:58

2025-06-11 09:00:00

2025-10-10 01:00:00

8B模型GPT-4oAgent

2025-04-15 08:01:12

2025-06-26 09:09:31

2025-05-26 09:05:00

2025-10-13 08:50:00

2024-12-02 14:20:00

模型訓練

2025-07-23 09:32:02

2025-01-02 13:00:00

2024-05-21 12:23:17

2025-01-02 11:00:34

2024-05-20 08:50:00

模型神經網絡

2025-09-28 15:35:32

AI模型強化學習

2024-06-05 08:29:35

2025-03-31 08:50:00

AI生成模型
點贊
收藏

51CTO技術棧公眾號

欧美成人高清视频在线观看| 欧美成人基地| 中文字幕国产一区二区| 国产精品极品美女粉嫩高清在线| 大胆av不用播放器在线播放| 成人免费三级在线| 国产一区福利视频| 亚洲国产网址| 久久久av一区| 欧美videossex另类| 姬川优奈aav一区二区| 激情五月开心婷婷| 日本少妇一区二区| 国产91色在线|亚洲| 青青草原在线亚洲| 日韩在线视频一区| 爱看av在线| 在线亚洲一区二区| 看黄色免费网站| 91欧美一区二区| 一本色道久久99精品综合| 亚洲h色精品| 97久久精品国产| 成人黄色视屏网站| 欧美精品一区二| 18视频免费网址在线观看| 亚洲激情六月丁香| 红桃av在线播放| 国产成人在线看| 你懂的视频在线一区二区| 精品久久网站| 91国内免费在线视频| 伊人久久大香| 亚洲视频在线观看视频| 在线视频观看国产| 一本色道久久综合亚洲aⅴ蜜桃 | 成人美女视频在线观看18| 免费日韩电影在线观看| 国产精品成人一区二区不卡| 欧美在线视频网站| 2019中文亚洲字幕| www.日韩不卡电影av| 免费一区二区三区四区| 亚洲精品mp4| 成人影院在线视频| 日韩欧美一区在线观看| 在线观看中文| 日韩欧美一区电影| 麻豆视频在线观看免费网站黄| 精品久久五月天| 超碰在线网站| 国产亚洲精品久久| 国产精品久久久久久久久久久久久久久 | 日韩三级精品电影久久久| 国产网站在线免费观看| 欧美揉bbbbb揉bbbbb| 国产私人尤物无码不卡| 欧美系列在线观看| 国产精品扒开做爽爽爽的视频| 欧美乱妇20p| 激情aⅴ欧美一区二区欲海潮| 亚洲成人精品视频在线观看| 综合久久2019| 亚洲精品第一国产综合精品| 桃花岛成人影院| 欧美大片大片在线播放| 九九视频精品全部免费播放| 国产精品丝袜高跟| 国产一区导航| 激情五月六月婷婷| 欧美国产日产图区| 可以直接在线观看的av| 亚洲第一av网| 欧美日韩国产一区二区在线观看| 日韩av观看网址| 欧美另类视频| 国产精品国三级国产av| 国产精品视频第一区| 欧美男男同志| 一区二区欧美亚洲| 免费短视频成人日韩| 久久免费99精品久久久久久| 国产精品综合视频| 九色porn| 欧美xxxxxxxx| 91夜夜蜜桃臀一区二区三区| 91亚洲永久免费精品| 狠狠色综合播放一区二区| 色一情一乱一伦一区二区三区日本| 亚洲国产综合视频在线观看| 在线视频国产区| 97视频在线观看网址| 国产精品日韩久久久| www.日日操| 日韩视频一区二区三区| 99久久婷婷国产综合精品青牛牛| 亚洲一区二区三区乱码aⅴ| 岛国精品一区二区| 亚洲福利二区| 日韩资源在线观看| 色欧美自拍视频| 在线视频欧美一区| 午夜精品成人在线视频| 国产亚洲欧美日韩精品一区二区三区 | 欧美午夜精品一区二区三区电影| 久久综合一区| 国产欧美日韩三区| caopo在线| 国产精品av电影| 国产一区二区在线影院| fc2人成共享视频在线观看| 亚洲精品一区中文字幕乱码| 日韩免费视频| 狠狠爱免费视频| 精品电影一区二区三区| 日韩激情在线| 欧美 日韩精品| 亚洲电影免费观看| 欧美精品18| 免费av一级电影| 久久亚洲欧美日韩精品专区 | 欧美福利在线观看| 日韩国产成人精品| 粉嫩tv在线播放| 久久久精品国产亚洲| 美女久久一区| 深夜视频在线免费| 欧美亚洲视频在线看网址| 国产suv精品一区二区883| 秋霞a级毛片在线看| 国产精品流白浆视频| 26uuu亚洲婷婷狠狠天堂| 成年网站在线视频网站| 国产精品视频入口| 午夜精品久久久久久不卡8050 | 欧美性猛交xxxx富婆弯腰| 一区二区视频| 不卡视频一二三四| 亚洲精品视频一区二区三区| 黄色成人av在线| 香蕉一区二区| 乱妇乱女熟妇熟女网站| 日韩av在线导航| 视频一区国产视频| 黄在线免费观看| 精品一区久久久久久| 欧美日韩亚洲综合一区| 欧美高清不卡| 黄色小视频在线观看| 成人激情视频网| 亚洲图片欧美一区| 成人综合一区| 最新版sss视频在线| 国产精品一久久香蕉国产线看观看 | 人妻少妇被粗大爽9797pw| 在线电影中文日韩| 国产精品911| 国产一区二区三区四区五区3d| 伊甸园精品99久久久久久| 日韩片之四级片| 美女网站在线免费欧美精品| av在线麻豆| 色综合久久久久久久久五月| 日韩精品一区二区三区中文不卡 | 上原亚衣av一区二区三区| 久久精品国产一区二区三| 白白色在线观看| 欧美爱爱视频网站| 国产亚洲激情视频在线| 成人禁用看黄a在线| 国产午夜亚洲精品一级在线| 日韩手机在线观看视频| 97免费在线视频| 亚洲高清视频的网址| 一区二区三区毛片免费| 日韩专区在线| 国产av不卡一区二区| 在线中文字幕日韩| 国产三级精品三级在线专区| 美日韩黄色大片| 在线播放免费| 日韩高清av| 久久亚洲电影天堂| 亚洲大片一区二区三区| 亚洲伊人观看| 日本免费久久| 人人澡人一摸人人添| 91免费欧美精品| 欧美一级高清片| 国产成人自拍高清视频在线免费播放| 91国产精品| 超碰在线电影| 美国av一区二区三区| 亚洲天堂av在线免费| 国产精品丝袜黑色高跟| 日韩中文字幕一区二区| 久久久久久www| 男人天堂成人网| 综合激情成人伊人| 久久久免费精品|