【NCTS峰會回顧】融360艾輝：AI模型測試探秘

作者：佚名 2019-11-26 17:52:18

2019年10月26日，由Testin主辦的第二屆NCTS中國云測試行業峰會在京召開，此次峰會以“AI+未來”為主題，匯聚來自國內外測試領域的知名專家學者、領先企業決策者、高層技術管理者、媒體從業者等，共同探討高端云測試技術。

2019年10月26日，由Testin主辦的第二屆NCTS中國云測試行業峰會在京召開，此次峰會以“AI+未來”為主題，匯聚來自國內外測試領域的知名專家學者、領先企業決策者、高層技術管理者、媒體從業者等，共同探討高端云測試技術，幫助測試從業者了解最前沿行業趨勢，及最新的行業實踐。

[[283753]]

會上，融360高級技術經理艾輝做《AI模型測試探秘》主題演講。艾輝分享了AI在金融科技的應用場景并指出，AI在金融行業的商業場景變現領域做的相對成熟，這主要得益于數據的質量，以及數據的豐富度，它們對模型的效果起著極其重要的作用。

以下為艾輝演講實錄：

很高興和大家分享我們在過去一段時間里基于AI模型評估的測試實踐。簡短的做一下自我介紹，先后從事云計算云存儲、跨境電商、O2O外賣、金融風控業務的質量保障與工程效率。

首先給大家介紹當下AI的主要應用場景。AI在金融領域的落地主要包括：物流、廣告推薦、個性化推薦、倉儲、無人駕駛等等。目前看來，AI在金融行業的商業場景變現領域做的相對成熟，這主要得益于數據的質量，以及數據的豐富度，它們對模型的效果起著極其重要的作用。AI在金融科技領域的主要場景包括：智能營銷、智能欺詐、智能風控、理賠、支付場景指紋識別、人臉識別等等。

進一步解釋一下AI的基礎概念和交叉關系。通常來說，我們是模擬智能應用，機器學習只是AI的一個分支，如果是機器學習加圖像識別，就是視覺領域的應用；如果是機器學習加語音識別，就是自然語言處理。假如說機器學習和其它稀奇古怪的應用結合，就是數據挖掘。

機器學習，就是我們在計算機協助下，統計學假設檢驗與分布函數搜索所謂的神經元，拿一個向量去點乘上一個向量，再把結果放進一個事先定好的變換函數。深度學習是做好幾層的神經元網絡，再換幾個學習算法。關于機器學習的分類，金融領域還是偏向于監督學習，我們做一些分類問題，也就是偏預測。分類和回歸比較直觀的區分，如果做一個定性的預測，比如今天是陰天、晴天還是多云，它就是一個分類的問題；如果是我們預測明天是10-15度，還是0-5度，這就是回歸問題。在金融風控領域，大部分是基于邏輯回歸的模型方法來做訓練的，主要使用信用評分卡。神經網絡、深度學習等在金融風控領域應用，目應沒有太多。要做好風控并不一定需要用最復雜的模型來做訓練和預測。

前面說了那么多，大家會問機器學習在金融風控的應用有什么差異？金融風控的體系里存在一些特殊的東西，比如，談到金融風控中的信貸風控，一般會聊到貸前、貸中、貸后。我們用的最多的是評分卡模型，評分卡模型應該有200、300年歷史了，在機器學習應用沒有如今這么發達的時候就已經在用了，尤其是在美國。什么是評分卡？信用評分卡用的就是邏輯回歸的分類，預測好人壞人的概率，在0和1之間，基于這個概率映射到一個分數，如：1-100分，即信用評分。我們放貸可不可以放，看風險概率，用歷史的數據去為未來一段時間的違約進行預測。它的評分越高代表越是安全，評分卡的穩定性和預測能力很強，我們常用的是邏輯回歸。

我們用信用評分只是風控量化的工具，代表著信用風險。

剛開始接觸AI相關業務的時候，我們遇到了很多挑戰。之前對于整個數據、特征、模型，沒有太深入的專項測試，如數據及特征效果有質量問題，會導致模型發生衰減和偏移，最直接的結果是，本應該把一個壞人給攔住，但是沒有攔住，給他放貸了，就可能導致壞賬，產生不良資產。

具體來看一下在數據質量方面我們做了哪些工作。主要考慮數據的完整性、一致性、及時性、準確性等等。想重點強調的是，在數據質量分析的維度上做了哪些事情，數據質量分析考慮的維度更豐富一點，比如數據的干擾分析，分析單列數據對應的準確性，分析單表數據，跨表數據，跨列數據。我們對數據整個特征分布，還有離散情況做了評估，上面的離群點，能夠基于這個離群點發現數據異常的問題。

數據的完整性，從關系型數據庫到數倉，數據有沒有比較大的丟失。一致性，看對應的口徑是不是一致的。準確性、及時性，很有可能前天晚上跑批失敗了，如果沒有監控可能導致對第二天的數據造成很大的影響，比較多的是離線任務，包括在線任務及時情況的監測。

既然數據有了這些問題，一定要做數據的修正。比如說數據確實缺失太多，沒有做填充處理，到特征來沒法用的，模型更沒有辦法用，還有重復的記錄要刪除。對于定性的數據和定量的數據，處理是不一樣的，我們會基于特征進一步解釋。

數據分析方法，看整個數據各表之間有什么關聯性，做血緣基數分析。看數據是不是存在大的問題，做數據波動分析。評估某一個字段是否有問題，做值域分析、分布分析，也可以發現一些問題。評估數據是否一致，做一致性的對比diff來發現這些問題。

在項目中通過數據分析的血緣基數分析，直觀發現的情況：A表的登陸賬戶比B表少了7000萬，A、B存在600萬的數據不一致。這種問題如果不做數量質量分析，基于模型問題倒推分析，影響很大。

再看一下值域的分析，分析最大值，最小值，比如說有一個字段，年齡是150歲，這可能超乎尋常了。包括看數據的分布，時間內最大值，最小值，還有異常的占比。中文異常的占比，特別是中文入庫的字符格式。還有分布的分析，金額的占比，區間的域值，還有各種碼值。

我們再簡單看一下數據測試要點，我們在日常測試中做數據質量測試，就是按照這些來做的，金融的數據質量的要求很苛刻，可以說相對于互聯網廣告的數據更苛刻一點。比如說小明同學搜索的時候，給他推薦了一個女裝，可能不太重要。但是因為數據質量問題導致信貸風險，可能會導致直接的金融損失，所以金融數據的質量要求是很高的。

再簡單說一下數據質量平臺設計，我這里放了一個架構圖，整個數據質量平臺關鍵核心的一點，對數據質量的規則引擎是怎么做的，數據質量把對應各種數據的對比，通過配制一些規則，定制開發，對應的報表或者觸發告警，是基于自定義去寫。還是基于其他的開源工具，有很多規則引擎的方案，比如Drools，原理大多相似。

關于特征模型的測試，我先是講數據，再講特征，再講模型，為什么？我們在做模型訓練的時候就是這樣的流程和套路。我們聊到模型，做模型訓練的時候有80%的任務在做特征工程，20%在做模型的訓練。我們做一些名詞的科普，過擬合和欠擬合，過擬合就是模型過于復雜學習到額外的數據屬性，欠擬合就是沒有捕捉數據特征。

到底什么是建模？建模與馴獸的相似點，我們做馴獸，比如給猴子輸出口令，讓它調整動作，直到這個過程預期和實際是一致的，從這個類比來看，我們建模和馴獸就是這樣一個循環訓練的過程。

我們反復聊到數據特征，到底數據和特征有什么區別？左側是一個數據，右邊是特征，把對應做了一些轉換，180天內成功打車的筆數，180天內成功打車最小值，我們將數據轉化為機器能夠學習的屬性，發現規律性的信息。機器學習大部分是解決預測的問題，用X去預測Y，這個X代表的是特征，不是數據，因為直接給模型灌最原始的數據，不能很好的把數據的規律和信息get到。但是特征是有價值的屬性，這些特征是能夠做模型的訓練和擬合的。行業里面有行話，數據特征決定了機器學習的上限，我們所有模型只是逼近這個上限而已。如果你的數據，特征質量很差，再好的模型，訓練效果也會打折扣。

從特征挖掘到模型建立，這個過程是我們在日常測試開發中需要頻繁去關注的，我來簡單解釋一下。前面的這一塊數據采集，數據分析，數據清洗，大部分是數倉來做，有的是特征挖掘也會做，前面是做數據的分析和入庫。當數據清洗做完之后開始做特征挖掘，圖中所有的特征，特征挖掘的過程，在數倉中挑出跟業務強相關比較好的數據，建立特征工程。發現了很多問題，比如缺失值特別多，要做一些填充，比如定量數據，可以基于平均數，中位數去填充。如果是一些定內的數據，直接轉為NaN之類的。做完確認值之后，還要做定量特征值二化。還會做一些定型特征的啞編碼，比如我們做疾病的預測，得某某疾病的概率高、中、低，就可以放到模型里，因為很多特征的標準是不一的，包括特征的選擇和降維，我們要由高維降到低維，更好的吸收數據。

具體在信用卡評分模型中用到的關鍵指標，我們主要參考的是幾點，一個是KS，風險區分能力，就是判斷好用戶和壞用戶的差值，差值越大，就說明模型的效果越好，因為區分度高，可以區分張三是好人，李四是壞人。然后是卡方，樣本偏離程度。PSI，這是模型穩定性很關鍵的指標，模型的預測值與實際值偏差大小的指標.PSI越小有說明模型是越穩定的，一般認為PSI小于0.1時候模型穩定性很高，0.1-0.25一般，大于0.25模型穩定性差，建議重做。IV(信息價值)，這是我們模型在挑特征的時候很關注的一點，特征對于模型預測能力的貢獻度，我們要挑對模型預測能力貢獻度度強的特征，比如有100個特征，有年齡、學歷、收入，籍貫等，其中年齡、學歷、收入的特征對于信用貸風控模型貢獻度強，籍貫特征是一般的。

具體特征測試要點分為幾部分，一般特征有特征計算邏輯，還有特征調度，特征上線。對于特征計算，除了計算的時長，還會關心整個特征的分區，編碼，以及異常處理。我重點想強調的是特征的回溯，回溯對于信用評分模型效果很關鍵。信貸風控，是用用戶過去的時間窗，比如前一個月的數據去預測他未來的借貸風險，如果說用他最近的信貸數據去預測明天，或者說用今天預測今天，特征效果可能會比較高，但是它是虛高的，所以都有時間窗的概念，基于歷史來預測未來。還有Shuffle亂序，有的模型對特征的排序性是有相關性的，如果有問題，模型效果也會有波動。還有特征調度異常的處理，還有特征上線，各種的一致，在線離線覆蓋率，特征值等等，這個一致性是很關鍵的。我們基于特征也做各種專項的分析，大部分都在做一些特征指標類，特征分布，特征大小等等。

模型該怎么測？我們對模型測試有這么幾個點可以關注，一個是蛻變，我們直接去構造輸入看輸出，可能很難發現問題，模型測試的是Oracle問題（未知問題），沒有明確的標準，如果變換輸入看輸出的變化環境是否相對應，是能夠發現模型的問題，比如把一些標簽亂序，屬性亂序，增加無信息的屬性，看看對模型輸出的問題。還有要看特征工程處理的情況。整個模型工程測試大部分都是偏白盒的，不像服務端可以暴露接口。還有小樣本實驗，這很有效，看看整個信用評分的分布情況，是否符合正態分布。

關于模型效果的評估設計，我們要控制算法版本為評測流程唯一變量。

模型的監控、模型的上線，監控的重要性和工程類的服務一樣重要，模型會隨著時間衰退，我們需要做各種監控，有關鍵指標，還有對覆蓋率，準確率的監控。提取還款的樣本，樣本打標簽，請求線上模型，計算KS。做金融風控的模型測試，比做互聯網2 C的廣告推薦模型等要相對困難，對于大部分互金平臺來說信貸還款表現樣本較難獲取。

模型測試的痛點都有哪些？第一是難，門檻很高，我們傳統工程測試的方法不能完全的復用，而且是很抽象的，模型是黑盒的，想定位一個問題，模型的效果不好，排查鏈路很長，發現原來是某某數據丟失了。它是強數據相關的，數據的特征質量決定了模型效果的上限，我們經常在聊做模型的評估，這里有一個很重要的一個環節，我們需要先把數據和特征質量給覆蓋住，這是一個很重要的源頭，80%的工作在特征工程。然后是慢，有的傳統公司，像金融企業的，一個模型迭代可能半個月，一個月，甚至是兩個月，因為要反復實驗，還有環境的變化，客群的變化。它是一個不確定的問題，因為沒法基于一個分數或者什么指標完全評估這個模型好還是壞，上線才剛剛開始。所以，綜合的用各個數據指標來進行評估。

AI產品質量體系應該怎么做？分為線上和線下：線下三個模塊，模型質量、數據質量、工程質量。線上做各種模型效果的監控，特征的監控，一致性監控的，覆蓋率的還有業務表現的監控等。我們希望把線上線下模型的測試做得更專業和高效，還是需要做自動化，工具平臺化，比如說把模型的評估做到可視化，充分參考已有開源的平臺做的模型評估模塊的功能，把數據分析，質量分析，基于統計的維度做可視化的展示和度量，讓整個模型部署過程自動發布。。

最后，在AI時代，測試開發怎么做技術的儲備和轉型呢？如果要做AI的學習，從高數基礎到機器學習是需要一個過程的，我們內部也在開展機器學習小組，課程安排一共18節課。再有是數據分析和挖掘，剛才說的特征挖掘，大部分是用數據挖掘的技術，做數據質量分析本質上就是做數據分析，大量相關的理論和工具都需要熟練的用到。如果做機器學習，通過看一些視頻教材，大概就知道是怎么回事了。在我左邊的深度學習，強化學習，復雜度就更高了，右邊的一、二、三，對于我們做模型的質量保證這塊入門就夠了。如果大家覺得看書比較煩瑣，可以去B站看一下，B站有很多比較好的視頻資源。PPT里也給出了詳細的AI學習路線圖，感興趣的同學可以參考學習。

以上就是我今天和大家分享的關于模型評測的全部內容，希望能給大家一些收獲及啟發。對于AI模型評估測試，目前各個公司團隊都在摸索中前進，希望在前行的路上和各位同行朋友更多交流學習。

責任編輯：張燕妮來源： 51CTO

AI 數據人工智能

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

【NCTS峰會回顧】融360艾輝：AI模型測試探秘