快手解密「AI印鈔機」,首提生成式強化學習出價技術,為平臺實現(xiàn)超過3%的廣告收入提升
前段時間,谷歌母公司 Alphabet 市值突破 3 萬億美元,成為第四家市值達到這一門檻的公司。
如果時間倒回到兩年半以前,谷歌自己可能都沒有想到這一結果。當時,ChatGPT 帶來的沖擊讓外界開始質(zhì)疑谷歌能否守住營收,尤其是廣告營收。甚至還有人發(fā)出靈魂追問:谷歌會成為下一個諾基亞嗎?
然而,事實的發(fā)展出乎許多人意料 —— 谷歌不僅穩(wěn)住了廣告基本盤,還通過將生成式 AI 融入搜索和廣告投放,提升了用戶意圖理解和廣告匹配效率,讓廣告價值進一步放大。
在國內(nèi),我們也看到了這種趨勢。上個月,快手發(fā)布了 Q2 財報。財報顯示,這一季度,快手線上營銷服務收入 198 億元,同比增長 12.8%。財報明確指出,大模型在投放出價、營銷推薦方面的應用取得顯著進展。在營銷出價方面,快手優(yōu)化了生成式出價算法,運用強化學習和長期價值策略,提升了廣告轉(zhuǎn)化效果。在營銷推薦環(huán)節(jié),快手利用大語言模型的內(nèi)容理解和推理能力,采用生成式方法篩選廣告,深入挖掘用戶行為與廣告轉(zhuǎn)化的關聯(lián)性,生成符合用戶興趣的廣告內(nèi)容,經(jīng)過排序優(yōu)化后顯著提高點擊率,推動營銷服務收入實現(xiàn)兩位數(shù)增長。這些信號表明,AI 技術正在從根本上驅(qū)動廣告行業(yè)的收入增長。
不過,從技術上來看,這不是一蹴而就的,相關技術在過去的幾年里經(jīng)歷了多次迭代。以 實時競價(RTB)廣告系統(tǒng)中的「大規(guī)模廣告自動出價」問題為例,相關技術經(jīng)歷了經(jīng)典控制、規(guī)劃求解、強化學習、生成模型等數(shù)代演化,如今又迎來了「生成式強化學習」這一全新范式。
這一新范式由快手首次提出。其核心思想是「讓出價模型能多維思考」,更充分地利用歷史出價序列信息,從而做出更精準的決策。2025 年至今,這一范式已在快手廣告系統(tǒng)全面落地,在保持廣告主既定成本目標不劣化(成本達標不降) 的前提下,為平臺實現(xiàn)了超過 3% 的廣告收入提升。
那么,這一效果是怎么實現(xiàn)的?在快手發(fā)布的幾篇論文中,我們可以找到答案。
廣告自動出價
在不確定中尋找最優(yōu)解
在深入探討快手的技術革新之前,我們有必要先對「廣告自動出價」有一個基本的理解,尤其是其核心邏輯與挑戰(zhàn)。
簡單來說,廣告自動出價,也被稱為智能出價,是使用算法,根據(jù)用戶廣告產(chǎn)生點擊或轉(zhuǎn)化的可能性自動為這些廣告設置出價。過程中無需手動更新,它會為用戶完成所有繁重的工作,以相當于或優(yōu)于現(xiàn)有效果目標的成本效益,推動實現(xiàn)更高的轉(zhuǎn)化量或轉(zhuǎn)化價值。
總結起來,相比于手動或人工出價,自動出價有三大優(yōu)勢:
- 真正的實時出價
- 查詢一級的自適應學習
- 豐富的用戶信號和跨信號分析

實時出價系統(tǒng)示意圖
然而,要實現(xiàn)理想的自動出價卻非易事,而這就涉及到了廣告出價的核心挑戰(zhàn):
- 既要花錢,又要省著花:廣告主既需控制單日花費不超預算,又需盡可能降低每次轉(zhuǎn)化(如購買、下載等)的成本。
- 未來難以預測:系統(tǒng)無法預知即將到來的流量狀況和競爭對手行為,必須依據(jù)實時花費與成本等數(shù)據(jù)動態(tài)調(diào)整出價。
- 牽一發(fā)而動全身:每次出價會影響廣告展示與消耗,改變賬戶狀態(tài)(如剩余預算),進而影響后續(xù)出價,構成連續(xù)而復雜的序列決策問題。
針對這些挑戰(zhàn),業(yè)界提出了許多不同的解決方案并一直在不斷迭代,比如互聯(lián)網(wǎng)廣告行業(yè)龍頭谷歌廣告(Google Ads)使用了一種基于機器學習的自動出價系統(tǒng),它可借助歷史轉(zhuǎn)化數(shù)據(jù)訓練點擊率(CTR)、轉(zhuǎn)化率(CVR)等預測模型,結合拍賣時上下文信號(設備、地理位置、時段、瀏覽環(huán)境等),在每次競價中實時調(diào)整出價(使用了強化學習思想),以最大化廣告主的 ROI(如轉(zhuǎn)化次數(shù)、收入、ROAS)的目標。
而快手的出價算法此前也已經(jīng)經(jīng)歷了多輪迭代,整體可以總結為從 PID、MPC 到強化學習(RL)的「三代」演化路徑。若將這一過程比喻為汽車工業(yè)的發(fā)展:
- 第一代(PID):包含了三個關鍵的控制參數(shù):比例(Proportional)、積分(Integral)和微分(Derivative)。該算法可以通過動態(tài)調(diào)整出價來很好地將廣告平均成交價穩(wěn)定在目標成交價,但不足的點在于對未來消耗和預期消耗沒有預估和規(guī)劃。這就像是定速巡航。它只能根據(jù)當前速度和設定速度的差異來調(diào)整油門,反應直接但比較「笨」,難以應對復雜多變的競價環(huán)境。
- 第二代(MPC/Model Predictive Control):引入了對未來的預測,在對出價與未來消耗、成本的關系進行建模的基礎上能夠做出更精準的出價規(guī)劃。不過,該算法建模能力較弱,也無法做出多步長期決策。這就像是更高級的自適應巡航。通過預測未來短時間內(nèi)的路況以調(diào)整車速,但其建模相對簡單,易陷入局部最優(yōu),本質(zhì)上難以實現(xiàn)效果的根本性突破。
- 第三代(強化學習):如同根據(jù)專家駕駛數(shù)據(jù)學習的 AI 駕駛員。通過分析海量歷史駕駛數(shù)據(jù)(離線數(shù)據(jù)集),學習在特定狀態(tài)下的最佳動作(出價),以最大化全程獎勵(廣告效果)。該方法安全性高(不直接影響線上業(yè)務),且能夠挖掘數(shù)據(jù)中蘊藏的更優(yōu)策略。
現(xiàn)如今,快手的出價算法已經(jīng)進化到了第四代:生成式強化學習。
顧名思義,生成式強化學習是一種將當今大熱的生成式模型與強化學習技術融合起來的新方法。它彌補了之前的強化學習的一些突出短板。
簡單來說,之前的強化學習技術有點像 「一維思考」,只根據(jù)單步狀態(tài)信息進行決策,對于出價狀態(tài)序列信息利用不夠充分。而生成模型(如 Transformer、Diffusion)特別擅長理解和生成有復雜模式的序列數(shù)據(jù)。反過來,生成模型本質(zhì)是模仿數(shù)據(jù)集的動作,高度依賴數(shù)據(jù)集質(zhì)量,難以優(yōu)化序列整體價值;而強化學習能夠?qū)W到超出數(shù)據(jù)集效果的策略,直接優(yōu)化序列整體價值,在原理上相比生成模型具有更高的收益空間。
這兩大范式互相增益,便造就了「生成式強化學習」,其能讓出價模型實現(xiàn)「多維思考」,從而更充分地利用歷史出價序列信息,從而做出更精準的決策。
雙劍合璧
詳解 GAVE 和 CBD 算法
將生成式模型的能力引入強化學習,無疑為廣告出價帶來了強大的新動能。但在實踐中,直接應用生成模型建模出價策略,也會面臨其固有的挑戰(zhàn)。
此前,業(yè)界已經(jīng)探索了兩種使用生成模型的路徑:
- Generative Model as a world model:建立一個可以模擬不同出價策略下廣告投放結果的「數(shù)字沙盒」,生成大量訓練數(shù)據(jù)來增強模型學習。
- Generative Models as policies:用生成模型直接建模強化出價策略,提升對于出價狀態(tài)序列信息的利用能力。
具體到技術框架上,業(yè)界采用的主流方法有兩類:
- Decision Transformer (DT):其機制類似于大語言模型中的「下一 token 預測」 。模型會依據(jù)歷史狀態(tài)、調(diào)價動作與獎勵序列,預測能夠最大化序列整體價值的最佳出價動作。
- 擴散模型(Diffusion Model):這一過程則猶如一位「AI 畫家」 。模型基于已有狀態(tài)從噪聲中勾勒出理想的未來軌跡(如預期消耗、成本曲線),再逆向推導出當前應當執(zhí)行的出價。

Decision Transformer 架構
然而,無論采用哪種路徑,都必須面對兩大核心挑戰(zhàn):
- 依賴高質(zhì)量數(shù)據(jù)集:生成模型的效果高度依賴于訓練數(shù)據(jù)的質(zhì)量 。在離線訓練時,如果探索超出現(xiàn)有數(shù)據(jù)范圍,很容易遇到 OOD (Out of Distribution) 問題,導致模型效果崩塌。
- 和優(yōu)化目標難以對齊:生成模型在原理上是模仿學習,難以直接最大化序列的整體收益,因此存在和最終優(yōu)化目標難以對齊的問題。
針對這兩大業(yè)界難題,快手商業(yè)化算法團隊提出了 GAVE 和 CBD 兩大創(chuàng)新算法,如同「雙劍合璧」,分別予以破解。
GAVE 算法,為探索配備價值羅盤,超越數(shù)據(jù)局限
GAVE,全稱 Generative Auto-bidding framework with Value-Guided Explorations,即由價值引導探索實現(xiàn)的生成式自動出價框架,誕生于快手商業(yè)化算法團隊今年 4 月發(fā)表的同名論文。

- 論文標題:Generative Auto-Bidding with Value-Guided Explorations
- 論文地址:https://arxiv.org/abs/2504.14587
該算法解決了將 Decision Transformer (DT) 架構應用與廣告自動出價的兩大挑戰(zhàn):
- 出價存在轉(zhuǎn)化、成本多個目標,如何能讓 DT 架構更好地適配廣告多個投放目標;
- DT 的學習原理是模仿數(shù)據(jù)集的出價動作,其效果受限于數(shù)據(jù)集質(zhì)量。
具體來說,快手商業(yè)化算法團隊分別針對這兩大挑戰(zhàn)構建了一個解決方案:Score-based RTG(Return to Go)模塊和基于價值函數(shù)的動作探索機制。而 GAVE 便是這兩大解決方案的創(chuàng)新性融合。

GAVE 算法架構圖
其中,Score-based RTG 可把當前時刻到序列結尾的成本率約束加到每個時刻 t,使得 RTG 對齊最終評估指標(帶懲罰的總轉(zhuǎn)化)。通過靈活調(diào)整得分函數(shù)參數(shù),框架可適配 CPA、ROI 等不同廣告場景需求,以實現(xiàn)目標導向的出價生成決策。
而基于價值函數(shù)的動作探索機制包含兩個模塊:動作探索和可學習價值函數(shù)。
- 動作探索(Action Explorations)模塊:首先生成探索動作,然后預估原動作和探索動作的長期價值,最后讓模型的預測動作更多地向原始動作和探索動作中價值最大的那個動作進行更新。
- 可學習價值函數(shù)(Learnable Value Function)模塊:首先借鑒 IQL 算法的期望回歸損失,預估當前序列下未來回報(RTG)的上界,形成探索動作的價值參考錨點;然后使擾動動作的 RTG 向預測的最優(yōu)價值更新,這有效地避免無效或者危險的探索。
那么,GAVE 算法的表現(xiàn)如何呢?快手商業(yè)化算法團隊通過離線和在線實驗進行了驗證。
在 AuctionNet 基準上,GAVE 在不同預算設置與數(shù)據(jù)條件下均取得最優(yōu)效果,相對于 DT 更是顯著提升。

GAVE 與其它基線方法的 AuctionNet 性能對比
不僅如此,該團隊還將 GAVE 算法部署到了其大型廣告系統(tǒng)中,進行了線上 A/B 測試。結果表明,在 Nobid(預算約束下最大化轉(zhuǎn)化)和 Costcap(CPA 約束下優(yōu)化轉(zhuǎn)化)兩種場景中,GAVE 均顯著優(yōu)于基線。GAVE 在真實廣告競價環(huán)境中的有效性與實用性得到了驗證。

在線 A/B 測試結果
據(jù)了解,該論文已被頂會 SIGIR 接收。
CBD 算法,以補全+對齊破解目標難以對齊的挑戰(zhàn)
CBD 算法則是快手商業(yè)化算法團隊在本月初公布的新方法,全名 Causal auto-Bidding method based on Diffusion completer-aligner,即基于擴散式補全器-對齊器的因果自動出價方法。

- 論文標題:Generative Auto-Bidding in Large-Scale Competitive Auctions via Diffusion Completer-Aligner
- 論文地址:https://arxiv.org/abs/2509.03348
CBD 的提出是為了解決基于 DT 的出價技術和直接應用擴散模型(Diffuser)的出價技術的不足。比如基于 DT 的出價技術可能導致誤差的累積,缺乏長程規(guī)劃能力,且可解釋性較差,而直接將 Diffuser 應用于廣告出價則可能遭遇生成狀態(tài)序列合法性問題與難以和偏好對齊的問題。

生成狀態(tài)序列一致性問題和偏好不對齊問題,圖中 (a) 和 (d)
為促使基于擴散模型的生成式強化學習出價模型與優(yōu)化目標更好對齊,快手商業(yè)化算法團隊 為 CBD 算法創(chuàng)新性地引入了 Completer 和 Aligner 兩個模塊。

CBD 算法架構示意圖
- Completer 的作用是基于歷史觀測序列擴散補全未來序列。就像手機輸入法的聯(lián)想功能,根據(jù)你已經(jīng)打出的字,預測你接下來想說什么。Completer 也是這樣,它根據(jù)廣告已經(jīng)發(fā)生的情況(歷史數(shù)據(jù)),來預測接下來可能發(fā)生什么,確保整個計劃是連貫、合理的,不會出錯。
- Aligner 則是對生成序列進行偏好對齊,從而實現(xiàn)離在線環(huán)境下的性能提升與穩(wěn)定部署。在 Completer 預測出一個合理的計劃后,Aligner 會介入。它會根據(jù)廣告主真正的目標(比如「花最少的錢拿最多的訂單」),對這個計劃進行微調(diào)和優(yōu)化,確保最終執(zhí)行的是最佳方案。
快手商業(yè)化算法團隊也已經(jīng)通過實驗證明了新方案的有效性。前面關于「生成狀態(tài)序列一致性問題和偏好不對齊問題」的圖片中就給出了非常清晰的展示。可以看到,Completer 和 Aligner 的表現(xiàn)顯著優(yōu)于通過條件式擴散建模實現(xiàn)的生成式自動出價方法 DiffBid,并極大地緩解了生成狀態(tài)序列一致性問題和偏好不對齊問題。
在基于 AuctionNet 的離線實驗中,如下表所示,基于所競得的總轉(zhuǎn)化價值(Value)指標,CBD 的表現(xiàn)明顯優(yōu)于基線算法性能(包括離線強化學習和 DT 等生成模型方法)。

離線實驗中,不同方法競得的總轉(zhuǎn)化 Value
該團隊同樣也在快手的大型廣告系統(tǒng)中對 CBD 進行了在線 A/B 測試,結果也同樣非常亮眼。在保持相近預算(成本)的情況下,廣告主實現(xiàn)的平均轉(zhuǎn)化率(目標成本)提升 2%。
盡管該方法相比 DT 方法增加了 6ms 的額外延遲,但因為出價模型調(diào)用頻率是 20 秒一次,而每次可接受的最大返回時間是 26ms,因而 6ms 的延遲增加對于出價場景是完全可以接受的。該團隊在論文中寫道:「考慮到所取得的巨大商業(yè)價值,額外的推理延遲是值得且正當。」
快手商業(yè)化算法團隊
從賽場冠軍到實際業(yè)務增長
這些行業(yè)領先的技術成果,均出自快手商業(yè)化算法團隊之手。作為快手的核心算法部門,該團隊負責快手國內(nèi)及海外多場景的廣告變現(xiàn)算法研發(fā),致力于通過前沿算法驅(qū)動商業(yè)營銷增長,并持續(xù)優(yōu)化用戶體驗與客戶效果。
該團隊在業(yè)界早已聲名鵲起。在 2024 年的機器學習頂會 NeurIPS 上,快手團隊從超過 1500 支國內(nèi)外隊伍中脫穎而出,一舉包攬了「大規(guī)模拍賣中的自動出價」競賽通用賽道和 AIGB 賽道的雙料冠軍,成為賽事最大贏家。

快手包攬 NeurIPS 2024 Auto-Bidding in Large-Scale Auctions 比賽兩個賽道第一名
除此之外,團隊依托快手實際業(yè)務問題,在智能出價和廣告推薦均有大量研究成果產(chǎn)出,發(fā)表在KDD、ICLR、ICML、NeurIPS 等國際頂會上,并先后斬獲 CIKM Best Paper、SIGIR Best Paper 提名獎、錢偉長中文信息處理科學技術獎一等獎等榮譽。
從賽場冠軍到業(yè)務增長,這些學術與競賽上的硬實力,最終都轉(zhuǎn)化為了驅(qū)動業(yè)務增長的強勁動力。如今,以 GAVE 和 CBD 為代表的生成式強化學習出價技術已在快手廣告系統(tǒng)中得到應用,在保持廣告主既定成本目標不劣化的前提下,為平臺實現(xiàn)了超過 3% 的廣告收入提升。
廣告自動出價的未來
不止于此
從 PID 控制到 MPC 規(guī)劃,再到強化學習,快手在廣告出價領域的探索最終通過 GAVE 和 CBD 算法,邁入了「生成式強化學習」的全新階段。這不僅是技術的又一次迭代,更是決策理念的根本性躍遷 —— 從單步狀態(tài)決策,轉(zhuǎn)向基于歷史序列決策。已實現(xiàn)的廣告收入提升,僅僅是這場變革的開端。
展望未來,快手在生成式強化學習出價技術上的探索并未止步。基于當前的成功實踐,快手認為該技術仍存在兩大重要的演進方向:
- 出價基座大模型:依托多場景、多目標的出價歷史序列數(shù)據(jù),基于 DT 或 Diffusion 架構訓練通用基礎出價模型,充分發(fā)揮數(shù)據(jù)與算力的規(guī)模效應;
- 出價推理大模型:引入大語言模型的復雜推理機制,增強出價模型的可解釋性與決策思維能力,推動自動出價向更高智能層次邁進。
總體來看,從賽場冠軍到業(yè)務增長,快手正通過對 AI 核心技術的持續(xù)探索和應用,不斷鞏固其在內(nèi)容社區(qū)和數(shù)字廣告領域的領先地位。從出價基座大模型到推理能力的進化,快手不僅為自身的商業(yè)增長描繪了清晰的藍圖,也為整個行業(yè)的提供了極富想象力的發(fā)展和探索方向。

































