国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

基于反事實因果推斷的度小滿額度模型

人工智能 算法
本次分享題目為基于反事實因果推斷的度小滿額度模型。

一、因果推斷的研究范式

研究范式目前主要有兩個主要的研究方向:

  • Judea Pearl Structure Model 
  • 潛在的輸出框架 

圖片

在Judea Pearl 《The Book of Why – The New Science of Cause and Effect》這本書中,將認知階梯定位為三層:

  • 第一層-關(guān)聯(lián):通過關(guān)聯(lián)的方式找出規(guī)律,可以直接觀察;
  • 第二層-干預(yù):如果改變現(xiàn)狀,應(yīng)當(dāng)實施什么樣的行動,得出什么樣的結(jié)論,可以通過實驗觀察;
  • 第三層-反事實:由于法律法規(guī)等問題無法直接實驗觀察,通過反事實假設(shè),如果實施了行動,會發(fā)生什么,如何評估ATE和CATE,是較為困難的一個問題。

圖片

首先闡述下產(chǎn)生相關(guān)關(guān)系的四種方式:

1. 因果關(guān)聯(lián):原因和結(jié)果之間有可靠的,可追溯的,能夠正向依賴的關(guān)系,比如煙霧與煙霧報警器具有因果關(guān)聯(lián);

2. 混淆關(guān)聯(lián):含有未能直接觀測的混淆變量,比如身高和閱讀能力是否能夠關(guān)聯(lián)起來,需要控制年齡這個變量相似,從而得出有效的結(jié)論;

3. 選擇偏差:本質(zhì)上是伯克森悖論,比如探究外貌和才華的關(guān)系,如果只在明星群體中觀察,可能會得出結(jié)論:長相和才華不可兼得。如果在全部人類里觀察,長相與才華沒有因果關(guān)系。

4. 逆向因果關(guān)系:即因果倒置,比如統(tǒng)計顯示人類結(jié)婚時間越長,壽命就越長。但是反過來,我們不能說:如果想獲取更長的壽命,就要早早結(jié)婚。

混淆因子如何影響觀測結(jié)果,這里有兩個case可以說明:

圖片

上面圖片描述了運動量與膽固醇水平的關(guān)系。從左圖可得出結(jié)論:運動量越大,膽固醇水平越高。但是加入年齡分層來看,相同年齡分層下,運動量越大,膽固醇水平越低。此外,隨著年齡增長,膽固醇水平逐漸升高,這個結(jié)論才符合我們的認知。

圖片

第二個例子為信貸場景。從歷史統(tǒng)計數(shù)據(jù)中可以看出,給定的額度(能借到的錢款數(shù))越高,逾期率越低。但是金融領(lǐng)域,會首先根據(jù)借款人的A卡判斷其信用資質(zhì),如果信用資質(zhì)越好,則平臺賦予額度越高,整體逾期率也很低。但是根據(jù)局部隨機實驗表明,相同信用資質(zhì)人群,會有一部分人其額度風(fēng)險遷移曲線變化比較緩慢,也會有一部分人其額度遷移風(fēng)險較高,即額度提升后,帶來的風(fēng)險增量較大。

上面兩個case說明,如果建模中忽略混淆因子,可能會得到錯誤,甚至相反的結(jié)論。

圖片

如何從RCT隨機樣本過渡到觀測樣本因果建模?

對于RCT樣本的情況,如果希望評估ATE指標(biāo),可以通過分組相減或DID(difference in difference)。如果希望評估CATE指標(biāo),可以通過uplift 建模。常見的方法比如有meta-learner,double machine learning,causal forest等等。這里需要注意必要的三大假設(shè):SUTVA,Unconfoundedness和Positivity。最核心的假設(shè)為:不存在未觀測混淆因子。

對于僅有觀測樣本的情況,無法直接獲取treatment->outcome的因果關(guān)系,我們需要借助必要的手段切斷covariates到treatment的后門路徑。常見方法是工具變量法和反事實表示學(xué)習(xí)。工具變量法需要對具體業(yè)務(wù)抽絲剝繭,繪制業(yè)務(wù)變量中因果圖。反事實表示學(xué)習(xí)則依靠成熟的機器學(xué)習(xí),匹配covariates相似的樣本做因果評估。

二、、因果推斷的框架演進

1、從隨機數(shù)據(jù)到觀測數(shù)據(jù)

接下來介紹因果推斷的框架演進,是如何一步步過度到因果表示學(xué)習(xí)的。

常見Uplift Model有:Slearner, Tlearner, Xlearner。

其中Slearner將干預(yù)變量視為一維特征。需要注意,在常見的樹模型里,treatment容易被淹沒,導(dǎo)致treatment effect估計偏小。

圖片

Tlearner將treatment離散化,對干預(yù)變量分組建模,每一個treatment建立預(yù)測模型,再作差。需要注意,較少的樣本量會帶來較高的估計方差。

圖片

Xlearner分組交叉建模,將實驗組和對照組分別進行交叉計算訓(xùn)練。該方法綜合了S/T-learner的優(yōu)點,其缺點是引入了更高的模型結(jié)構(gòu)誤差,提高了調(diào)參難度。

圖片

三種model比較:

圖片

在上圖中,橫軸是復(fù)雜的因果效應(yīng),MSE的的估計誤差,縱軸是簡單的因果效應(yīng),橫軸縱軸分別表示兩份數(shù)據(jù)。綠色表示Slearner的誤差分布,褐色表示Tlearner的誤差分布,藍色表示Xlearner的誤差分布。

在隨機樣本條件下,Xlearner對于復(fù)雜的因果效應(yīng)估計和簡單的因果效應(yīng)估計均更優(yōu);Slearner對于復(fù)雜因果效應(yīng)預(yù)估表現(xiàn)相對較差,對簡單因果效應(yīng)估計更優(yōu);Tlearner則與Slearner相反。

圖片

如果有隨機樣本,X到T的箭頭可以去掉。過渡到觀測建模后X到T的箭頭去不掉,treatment和outcome會同時受到confounders的影響,這時可以進行一些消偏處理。比如DML(Double Machine Learning)的方式,進行兩階段建模。在第一階段中,這里的X是用戶自身的表征特征,比如年齡、性別等。混淆變量會包括比如歷史中對篩選特定人群的操作。在第二階段中,對上一階段計算結(jié)果的誤差進行建模,這里的即是對CATE的估計。

從隨機數(shù)據(jù)到觀測數(shù)據(jù)有三種處理方式:

(1)做隨機試驗,但業(yè)務(wù)成本較高;

(2)尋找工具變量,一般比較困難;

(3)假設(shè)觀測到所有的混淆因子,利用DML、表示學(xué)習(xí)等方法匹配相似樣本。

2、因果表示學(xué)習(xí)

圖片

反事實學(xué)習(xí)的核心思想就是平衡不同treatment下的特征分布。

核心問題有兩個:

1. 如何調(diào)整訓(xùn)練樣本的權(quán)重? 

2. 如何在表示空間中,使變換后的樣本在實驗組和對照組分布更加均衡?

本質(zhì)思想是在變換映射后,為每個樣本尋找它的反事實“雙胞胎”。映射之后treatment組和control組X的分布比較相似。

圖片

比較有代表性的工作是發(fā)表在TKDE 2022上面的一篇論文,介紹了DeR-CFR的一些工作,這部分其實是DR-CRF模型的迭代,采用model-free的方式分離觀測變量。

將X變量分成三塊:調(diào)節(jié)變量A,工具變量I和混淆變量C。之后再通過I,C,A來調(diào)節(jié)不同treatment下X的權(quán)重,達到在觀測數(shù)據(jù)上進行因果建模的目的。

這種方法的優(yōu)勢是可以分離混淆因子,減少估計偏差。缺點是難以處理連續(xù)型干預(yù)。

這個網(wǎng)絡(luò)的核心就是如何分離A/I/C三類變量。調(diào)節(jié)變量A只與Y有關(guān),需要保證A與T正交,并且A對Y的經(jīng)驗誤差較小;工具變量I只與T有關(guān),需要滿足I與Y關(guān)于T條件獨立,并且I對T的經(jīng)驗誤差較小;混淆變量C與T和Y都相關(guān),w是網(wǎng)絡(luò)的權(quán)重,給了網(wǎng)絡(luò)權(quán)重后,需要保證C與T關(guān)于w條件獨立。這里的正交性可以通過一般的距離公式實現(xiàn),比如logloss或者mse歐氏距離等約束。

圖片


如何處理連續(xù)型干預(yù),這塊也是有一些新的論文研究,發(fā)表在ICLR2021上的VCNet,提供了連續(xù)型干預(yù)的估計方法。缺點是難以直接應(yīng)用在觀測數(shù)據(jù)上(CFR場景)。

將X映射到Z上,Z主要包含之前提到的X分解中的I變量和C變量,即將對treatment比較有貢獻的變量從X中提取出來了。這里將連續(xù)treatment劃分為B個分段/預(yù)測頭,每個連續(xù)函數(shù)轉(zhuǎn)化成分段的線性函數(shù),最下化經(jīng)驗誤差log-loss,用來學(xué)習(xí)

圖片

之后再用學(xué)完的Z和θ(t)去學(xué)習(xí)。

圖片

即outcome。這里的θ(t)是可以處理連續(xù)型treatment的關(guān)鍵,是一個變系數(shù)的模型,但是這個模型只處理了連續(xù)性treatment,如果是觀測數(shù)據(jù),無法保證每一個B分段數(shù)據(jù)同質(zhì)。

三、反事實額度模型 Mono-CFR

最后來介紹一下度小滿的反事實額度模型,這里主要解決的是在觀測數(shù)據(jù)上對連續(xù)型Treatment的反事實估計問題。

圖片

核心問題是,如何給用戶設(shè)計(可借)額度,使得平臺盈利最大化?這里的先驗知識是,額度越高,用戶借款越多,違約風(fēng)險越高。反之同理。 

  • 第一步,定義盈利公式。盈利=額度收入-額度風(fēng)險。公式看起來簡單,但實際上會有很多細節(jié)的調(diào)整。這樣,問題就轉(zhuǎn)化為了在觀測數(shù)據(jù)上建模額度與風(fēng)險(壞賬)、額度與收入的因果關(guān)系。 
  • 第二步,估計用戶在各個額度檔位上的預(yù)估收入和壞賬,確定最大盈利額度。

我們期望對每個用戶有如上圖所示的一個盈利曲線,在不同的額度檔位上,對收益值做反事實預(yù)估。

圖片

如果在觀測數(shù)據(jù)上看到額度越高風(fēng)險越低,本質(zhì)上是由于混淆因子的存在。我們場景里的混淆因子是信用資質(zhì)。信用資質(zhì)比較好的人,平臺會賦予更高的額度,反之則賦予較低額度。優(yōu)信用資質(zhì)人群的絕對風(fēng)險仍舊明顯低于低信用資質(zhì)人群。若拉齊信用資質(zhì),會看到額度的提升將帶來風(fēng)險的提升,高額度突破了用戶自身的償債能力。

圖片

我們開始介紹反事實額度模型的框架。在可觀測變量X中,存在之前提到的三種變量,其中大多數(shù)是混淆變量C,小部分是策略未考慮到的是調(diào)節(jié)變量A,還有一部分是僅僅跟干預(yù)有關(guān)系的工具變量I。 

  • 工具變量I:如政策、需求等,會影響歷史的定額策略,但不會影響逾期概率。 
  • 混淆變量C:如信用、收入與負債等,同時影響對額度的調(diào)整,和這個人的逾期概率。 
  • 調(diào)節(jié)變量A:如環(huán)境、社會地位等,會影響逾期率。

模型思想:給定期望額度μ(T|X),學(xué)習(xí)?T與Y的單調(diào)性關(guān)系(Dose-Response Curve)。期望額度可以理解為模型學(xué)習(xí)到的連續(xù)性傾向額度,使得混淆變量C和額度T之間的關(guān)系能夠斷開,轉(zhuǎn)換成?T與Y的因果關(guān)系學(xué)習(xí),從而對?T下Y的分布進行較好的刻畫。

圖片


這里進一步細化上述抽象的框架:將?T轉(zhuǎn)化成變系數(shù)模型,再接入IntegrandNN網(wǎng)絡(luò),訓(xùn)練誤差分成兩部分:

圖片


這里的α是衡量風(fēng)險重要程度的超參數(shù)。

Mono-CFR由兩大部分組成: 

  • 額度傾向網(wǎng)絡(luò):預(yù)測策略傾向額度,使X⊥?T。

作用一:蒸餾出X中與T最相關(guān)的變量,最小化經(jīng)驗誤差。 

作用二:錨定歷史策略上的近似樣本。

  • 風(fēng)險單調(diào)網(wǎng)絡(luò):約束?T與Y的理論單調(diào)關(guān)系。 

作用一:對弱系數(shù)變量施加獨立單調(diào)約束。

作用二:減少估計偏差。

問題轉(zhuǎn)化為: 

  • 額度傾向網(wǎng)絡(luò):驗證輸出?T與Y 的關(guān)系。 
  • 風(fēng)險單調(diào)網(wǎng)絡(luò):如何約束?T與Y的單調(diào)性?

實際額度傾向網(wǎng)絡(luò)輸入如下:

圖片

橫軸是A卡評分定義出的人群,可以看出,不同傾向額度μ(T|X)下,額度差?T與逾期率Y呈現(xiàn)單調(diào)遞增關(guān)系,越劣質(zhì)人群的額度差?T變化曲線越陡峭,實際逾期率變化曲線也越陡峭,整個曲線斜率更大。此處的結(jié)論完全是通過歷史的數(shù)據(jù)學(xué)習(xí)得出的。

圖片

從X和?T分布圖中可以看出:不同資質(zhì)人群(圖中通過不同顏色區(qū)分)的額度差?T均勻分布在相似的區(qū)間之中,這是從實際角度說明。

圖片

從理論角度,亦可被嚴格證明。

第二部分是風(fēng)險單調(diào)網(wǎng)絡(luò)的實現(xiàn):

圖片

這里的ELU+1函數(shù)數(shù)學(xué)表達式為:

圖片

圖片

?T和逾期率呈現(xiàn)單調(diào)遞增的變化趨勢,通過ELU+1函數(shù)的導(dǎo)數(shù)總是大于等于0來保證。

接下來說明風(fēng)險單調(diào)網(wǎng)絡(luò)如何對弱系數(shù)變量學(xué)的更加準(zhǔn)確:

假設(shè)有這樣一個公式:

圖片

可以看出這里的x1即為弱系數(shù)變量,當(dāng)對x1施加單調(diào)性約束后,對響應(yīng)Y的估計更加準(zhǔn)確。如果沒有這樣的單獨約束,x1的重要性會被x2淹沒,導(dǎo)致模型偏差增大。

圖片

如何離線評估額度的風(fēng)險的估計曲線?

分成兩部分:

  • 第一部分:可解釋驗證

圖片

不同資質(zhì)人群下,去繪制如上圖所示的額度風(fēng)險變化曲線,模型可以學(xué)出不同資質(zhì)人群(圖中不同顏色標(biāo)識)不同檔位實際額度和逾期率的區(qū)分度。

  • 第二部分:利用小流量實驗驗證,不同提額幅度下的風(fēng)險偏差,可以通過uplift分箱得出。

線上實驗結(jié)論: 

在額度上漲30%條件下,用戶逾期金額下降20%以上, 借款提升30%,盈利性提升 30%以上。

未來模型預(yù)期:

以model-free形式將工具變量與調(diào)節(jié)變量更清晰地分開,使模型在劣質(zhì)人群上的風(fēng)險遷移表現(xiàn)更佳。

在實際業(yè)務(wù)場景中,度小滿的模型演進迭代流程如下:

圖片

第一步,觀測建模,不斷滾動歷史觀測數(shù)據(jù),去做反事實因果學(xué)習(xí),不斷拉新訓(xùn)練窗口,補充外部數(shù)據(jù)源。

第二步,模型迭代,依據(jù)小流量隨機樣本進行效果驗證,支持有效的模型迭代。

第三步,業(yè)務(wù)決策,業(yè)務(wù)根據(jù)模型輸出進行實驗決策,驗證模型效果提升,拿到業(yè)務(wù)收益。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-11-23 07:41:54

因果推斷大模型

2024-04-12 07:40:37

因果推斷推薦模型推薦系統(tǒng)

2024-09-29 09:22:00

2024-01-26 08:31:49

2023-06-28 14:01:13

攜程實踐

2023-08-28 07:15:49

AIGC因果推斷

2022-10-14 16:48:40

因果推斷數(shù)據(jù)預(yù)處理特征設(shè)計

2024-09-11 19:36:24

2024-02-05 08:41:08

因果推斷快手短視頻應(yīng)用

2024-05-11 07:57:47

因果推斷知識地圖算法

2022-12-27 08:19:25

2023-05-04 08:28:30

因果推斷方法算法

2022-04-26 10:55:32

數(shù)據(jù)模型

2025-10-30 02:25:00

大型語言模型CoD注入蒸餾

2023-01-09 08:39:38

因果推斷機器學(xué)習(xí)

2014-12-23 09:23:42

2022-03-17 21:04:57

人工智能美團技術(shù)

2022-05-17 09:43:11

因果模型數(shù)據(jù)建模

2022-05-22 22:26:54

模型編譯

2023-02-20 07:46:45

機器學(xué)習(xí)AI 技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

91精品啪在线观看国产81旧版| 天堂а√在线资源在线| jizzyou欧美16| 亚洲午夜精品久久久久久久久| 国产欧美在线一区二区| 亚洲婷婷伊人| 亚洲色图35p| 黑人巨大亚洲一区二区久| 精品国产一区久久| 狼人综合视频| 久久综合五月天| 国产日产高清欧美一区二区三区| 成人亚洲视频在线观看| 欧美视频在线一区二区三区| 777午夜精品电影免费看| 精品欧美一区二区三区久久久| 一区二区三区视频在线看| 激情开心成人网| 超碰成人在线免费观看| 亚洲欧美国产精品va在线观看| 99久久精品国产一区| av2020不卡| 99在线热播| 国产精品一区二区久久精品爱涩| 动漫成人在线观看| 亚洲欧美日韩综合| 日本在线视频一区二区三区| 久久青青草综合| 粉嫩欧美一区二区三区高清影视| 国产免费黄视频| 国产精品麻豆视频| 国产欧美日韩在线一区二区| 日韩精品一区二区三区电影| 欧美性高潮在线| 台湾佬成人网| 亚洲综合在线小说| 国产精品18久久久| 青青草国产免费| 一色屋精品亚洲香蕉网站| 触手亚洲一区二区三区| 国产一级片91| 国产网站免费观看| 电影一区电影二区| 国产视频一区在线观看一区免费| 成人综合在线观看| 国产精品日韩精品在线播放| 成人h视频在线观看播放| 久久99精品久久只有精品| jizz在线观看视频| 欧美一区国产一区| 在线观看www91| 国产一区丝袜| 99超碰麻豆| 国产精品免费aⅴ片在线观看| 国产高清视频免费最新在线| 中文字幕在线观看日韩| 久久亚洲色图| 一区二区av在线| 午夜精品久久| h片在线免费| 爆操欧美孕妇| 一本色道久久综合亚洲二区三区| 欧美美女15p| 欧美日韩专区在线| 91天堂素人约啪| 一本综合精品| 激情婷婷综合| 国产福利片在线观看| av女同在线| 男人操女人逼免费视频| 精品无人区一区二区三区| 久久九九精品99国产精品| 精品视频色一区| 亚洲精品日产精品乱码不卡| 国产酒店精品激情| 欧美精品国产一区| 高潮按摩久久久久久av免费| 性欧美高清come| 校园春色欧美| 成年网站免费| www.在线观看av| 国产一区二区三区黄| 51视频国产精品一区二区| 欧美精品一区二区三区四区| 欧洲人成人精品| 午夜久久久影院| 国产欧美精品一区| 国产高清在线精品| 免费看日韩精品| 日韩成人午夜精品| 亚洲网址在线| 亚洲成人直播| 亚洲三级视频| 成人网18免费网站| 亚欧日韩另类中文欧美| 影音先锋在线播放| 成入视频在线观看| 小早川怜子影音先锋在线观看| 男人的天堂在线| 巨大荫蒂视频欧美大片| 精品福利视频导航大全| 日本私人网站在线观看| 超级污的网站| h网址在线观看| 国产视频精选在线| 国产午夜在线视频| www久久日com| 久久99亚洲网美利坚合众国| 乱人伦中文视频在线| 日韩少妇视频| 白嫩亚洲一区二区三区| 欧美五码在线| 亚洲精品tv久久久久久久久久| 日韩在线视频在线| 亚洲a成v人在线观看| 成人免费在线看片| 中文字幕在线导航| 中文字幕在线二区| 中文字幕中文字幕在线中文字幕三区| 传媒视频在线| 玖玖在线免费视频| 日韩精品三区| 久久69av| 精品国产乱码久久久久久果冻传媒 | 亚洲中文字幕久久精品无码喷水| 日韩日韩日韩日韩| 女生裸体视频网站免费观看| 日中文字幕在线| 久久黄色美女电影| 污网站在线免费看| 一区二区三区视频免费观看| 免费成人av| 91蜜桃网址入口| 亚洲精品久久久久| 欧美女子与性| 欧美色视频一区| a√天堂在线观看| 亚洲专区欧美专区| 欧美成人精品在线| 制服丝袜中文字幕在线| 欧美日韩一区二区高清| 色哟哟网站入口亚洲精品| 91se在线观看| 日韩一区精品视频| xxxxxxxxx欧美| 最色在线观看| 亚洲一区黄色| 国产suv精品一区二区三区88区| av网站在线看| 日本韩国一区二区| 免费福利影院| 久久综合色综合88| 色中文字幕在线观看| 蜜桃成人av| 欧美大片在线观看一区二区| 天堂在线亚洲| 日日夜夜免费精品| 国产欧美日韩免费看aⅴ视频| 成全电影大全在线观看| 一二三四社区欧美黄| 激情六月天婷婷| 久久久久.com| 国产精品久久久久久婷婷天堂| 两个人看的在线视频www| 亚洲一区在线视频观看| 久久人人爽人人爽人人av| 亚洲国产高清一区二区三区| 国产成人精品在线播放| 天堂久久一区| 一区二区欧美久久| caoporn国产精品免费视频| **性色生活片久久毛片| 亚洲精品中文字幕无码蜜桃| 99国产精品99久久久久久粉嫩| 久久久久久亚洲| 欧美a一级片| 北条麻妃久久精品| 99久久er| 国产一区二区三区丝袜| av电影院在线看| 色综合久久中文字幕| 亚洲免费av一区二区| 一区二区在线免费观看| 最新中文字幕2018| 国产区在线观看成人精品| 日韩少妇内射免费播放18禁裸乳| 日本成人小视频| 欧美日韩国产区一| 神马影院我不卡午夜| 国模一区二区| 丁香啪啪综合成人亚洲小说 | 日本成人中文字幕在线| 国产精品99久久免费观看| 日本一区二区高清| 亚洲一区二区三区色| 一区二区黄色| 欧美在线一区二区三区四区| 亚洲女同中文字幕| 图片区小说区区亚洲五月| 国产不卡免费视频|