国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

文本理解算法在抖音風控上的應用

原創 精選
移動開發 移動應用
在反作弊場景中,黑產必須通過文本進行信息傳遞或觸達受害者,而文本由于其生產成本低廉、傳遞信息能力強的特點成為了黑產與我們進行對抗的主要戰場。

作者 | 張冀 朱丹翔 

背景

對抗是反作弊永恒的主旋律,面對對抗我們需要做到快速響應、見招拆招、在變化中發現不變的本質。

在反作弊場景中,黑產必須通過文本進行信息傳遞或觸達受害者,而文本由于其生產成本低廉、傳遞信息能力強的特點成為了黑產與我們進行對抗的主要戰場。文本理解算法為應對各類強對抗提供了文本檢索、文本風險標簽、風險信息提取的能力,以及一個文本模型訓練平臺。這些能力的組合使用可有效打擊文本內容維度的作弊行為,現已在反作弊的各業務場景中得到應用。

文本檢索

如上所述反作弊風控就是一個和黑產持續強對抗的過程,而強對抗的一個顯著特點就是快速的變化,所以常規的先收集標注數據再訓練模型的方式很難跟得上黑產變化的腳步。此外,黑產為了更多的獲利,通常會采用廣撒網的策略大批量將相似文本內容投放到平臺。因此,由文本黑庫和回掃構成的、只需單條標注數據的相似文本檢索能力便成了我們應對這種快速變化的有力武器,可有效識別存量和增量的問題文本,進行合理的處置。

字面相似 vs 語義相似

一般來講文本的相似大體可以分為字面相似和語義相似兩種:

字面相似:兩條文本只有極少字符不一樣則被認為是字面相似的

想要看片加我微
想要看片加我微信

語義相似:通常刻畫同一件事情的兩條文本被認為是語義相似的

勿信海外高薪,避免上當受騙,天上不會掉餡餅。
不要被高薪所誘惑,天上不會掉餡餅,請朋友們遠離詐騙

字面相似較語義相似條件更為嚴格,因此更加準確更適用于黑庫,而語義相似則有更強的召回能力,更適用于回掃。

文本回掃 vs 黑庫

適用場景


檢索目標

索引特點

適用場景

回掃

大盤全量數據

1. 大而全;
2. 與數據源綁定,不能隨意定制索引內容;
3. 不支持樣本隨機增刪

離線;主要用于作弊內容歷史存量治理

黑庫

有限樣本,一般為黑灰產作弊內容。(也可以把黑庫當白庫用,存儲白樣本)

1. 小而精;
2. 用戶可自定義創建自己的內容索引庫;
3. 支持樣本隨機增刪

在線;主要用于新增作弊內容管控

技術方案

回掃:從大盤在線獲取數據建立索引,用戶離線檢索結果

圖片

黑庫:從用戶離線獲取數據建立索引,在線檢索結果

圖片

能力提供

  • 回掃
  • 提供語義相似檢索、關鍵詞檢索
  • 分鐘級延遲
  • 黑庫
  • 提供語義相似檢索、字面相似檢索、實體級相似檢索、布爾規則檢索、多模相似檢索
  • 秒級延遲
  • 為防止入庫樣本發生誤傷,提供前置防誤傷及線上灰度標簽能力

自動任務

為了對黑產的變化進行更快速的響應及更有效地利用人工審核數據,搭建了一套結合黑庫和回掃的自動任務流,該流程讓審出數據在短時間內便可起到上線攔截和存量處罰的作用

圖片

風險標簽

雖然黑產使用的文本在快速的變化,但只要黑產的目標是明確的,那么其使用的文本在類別語義層面便具有不變性。RiskText 風控文本標簽體系便是針對抖音風控場景中一些主要語義類別設計的一套文本標簽集

標簽體系

為什么要標簽體系

如果我們每次都是針對某個非常具體的業務場景使用少量特定場景數據訓練模型,例如評論色導、評論賭博導流等模型,那么會有以下問題:

  • 標簽未進行合理抽象,時效性明顯,只適用于解決臨時的、特定的業務問題,黑產變了模型就失效了
  • 由于數據量少,且無法長期積累,模型效果得不到保障
  • 數據來源雜亂且質量沒有保證,導致標簽質量沒有保障
  • 模型與具體業務 case 耦合度過高,很難進行業務或場景復用
  • 模型和標簽過于雜亂,不利于維護和能力輸出

因此一套既具備可維護、可復用、魯棒性強等特點,又能很好解決業務風控問題的文本分類標簽體系就是我們需要的。

技術方案

模型架構:多 channel 輸入對同音、形近變體更加魯棒

圖片

訓練方法:樣本增廣 + 一致性訓練

圖片

樣本降噪:解決數據中的錯誤標簽

圖片

自動迭代

  • 主動學習提高審出
  • 監控看板保證質量

圖片

風險信息提取

黑產作弊文本經常會包含一些關鍵信息,作弊手法會變但關鍵信息不易變(或者變化成本較高),如果能夠正確識別出文本中的關鍵信息,就能有效提升防御體系魯棒性。目前已有建設 3 種風險信息提取能力:風險聯系方式、風險變體、風險文本片段。其他場景下,比如電商業務中風險地址提取,也能夠參考構建類似能力。

風險聯系方式

抖音是流量聚集地,黑產為了謀利往往會將流量引到端外,進而實施違法行為,因此識別黑產留下的聯系方式是一項重要能力。

能力全景圖

從使用階段劃分,包含 判別->提取->風險分->風險標簽。

  1. 判別(有沒有聯系方式):包含高準、高召兩部分模型集,根據使用場景、治理階段不同選取相應模型集。
  2. 提取(聯系方式在哪):支持將提取出的變體聯系方式歸一化,并且有例行挖掘任務,不斷補充新型變體數字字母。
  3. 風險分(有沒有風險):基于聯系方式風險特征 ,訓練得到風險分模型。
  4. 風險標簽(風險是啥):也區分高準和高召。高準通過人工標注,高召通過用戶-聯系方式二部圖標簽擴散方式得到。

圖片

風險變體

黑產為了對抗文本識別能力,會對文本關鍵部分變體。由于大部分文本模型不會經常更新,導致模型效果會隨著時間逐漸衰減。為了解決這個問題,將文本變體能力與下游文本能力解耦開,當變體識別能力提升時,所有下游任務均可受益。

PS:如果黑產文本變體太快,會不會跟不上,這樣能力建設有啥意義?

前期的簡單變體,我們的能力都會覆蓋,越到后期,黑產創造新變體的成本會越高,更考驗的是能力是否在不斷迭代更新。

技術方案

變體挖掘->變體判別->變體映射表流程可自動化運行,不斷挖掘得到新變體。

圖片

風險文本片段

黑產除了對關鍵信息變體,還會對非關鍵文本做話術變換。黑產為了表達意圖,關鍵信息不會很發散,來來回回可能就那幾個關鍵詞,但是會變換話術以此對抗識別模型,我們只需要從黑產發的大量文本中,找出表達意圖的關鍵信息,即可提升系統對話術變換的魯棒性。

圖片

技術方案

整體技術方案總結來說就兩步:

  1. 獲取文本重要黑特征(對應圖中黑詞精篩表)。
  2. 挖掘特征之間的關系,挖掘結果導出為規則,挖掘算法使用的 FP-Growth。

圖片

責任編輯:未麗燕 來源: 字節跳動技術團隊
相關推薦

2022-06-14 16:38:42

行為序列機器學習黑產

2023-05-29 08:04:08

2023-10-26 06:55:17

風控系統應用

2017-02-24 19:45:58

2022-08-12 15:02:31

應用探索

2020-08-06 10:09:08

抖音木馬安全隱私

2017-06-14 17:45:49

2022-01-22 07:44:12

抖音PC 版電腦刷抖音

2021-03-22 11:49:19

架構運維技術

2024-07-15 08:59:52

機器學習弱監督建模人工智能

2022-11-24 14:46:14

網絡社區發現

2022-08-02 07:56:53

反轉依賴反轉控制反轉

2022-08-11 13:37:41

多模態算法多模態網絡

2023-05-31 07:22:45

2023-02-15 21:49:55

2021-10-21 10:03:09

鴻蒙HarmonyOS應用

2017-09-01 15:21:18

Raft算法CMQ應用

2017-02-28 14:53:13

2023-09-04 07:03:35

點贊
收藏

51CTO技術棧公眾號

在线观看国产精品淫| 日韩网站在线免费观看| 国产成人精品一区二区三区在线 | 欧美午夜电影网| 欧美黑人性视频| 国产在线精彩视频| 国内精品久久久久影院薰衣草| 国产精品丝袜高跟| 欧美午夜寂寞| 久久久久久久av| 北岛玲精品视频在线观看| 国产欧美日韩三区| 毛片一区二区三区四区| 国产精品资源在线观看| 亚洲精品永久www嫩草| 日日夜夜精品视频免费| 在线观看视频亚洲| www.成人爱| 日韩国产欧美精品在线| gogo高清在线播放免费| 91视频一区二区| 免费cad大片在线观看| 国产欧美自拍| 中文字幕久久久| www.亚洲高清| 国产人成亚洲第一网站在线播放| 国产成人a亚洲精v品无码| 成a人片国产精品| 国产精品jizz在线观看麻豆| 久草在线免费福利资源| 在线日韩电影| 操一操视频一区| 在线成人直播| 国产欧美在线一区二区| 手机精品视频在线观看| 日韩欧美精品在线不卡| 国产综合久久久久久久久久久久| 日本一二三区视频在线| 加勒比色综合久久久久久久久 | 亚洲欧美日本国产有色| 日产国产欧美视频一区精品| 国产又粗又硬又长| 99热精品一区二区| 91丝袜美腿美女视频网站| 黑人精品视频| 日本一区二区三区dvd视频在线| 在线观看av日韩| 99精品福利视频| 色综合色综合网色综合| 超碰成人福利| 国产精品一区二区三区免费视频 | 成人一区二区av| 99re视频精品| 啦啦啦在线视频免费观看高清中文| 天天综合网网欲色| 国产小视频91| 亚洲五码在线| 精品少妇一区二区| 日本免费一区二区六区| 久久97精品久久久久久久不卡| 国产va免费精品观看精品视频| 99视频免费观看蜜桃视频| 久久黄色级2电影| 欧美成人三级在线播放| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 综合久久给合久久狠狠狠97色| 激情小说综合区| 国产高清亚洲一区| 国产私拍一区| 国产mv日韩mv欧美| 特黄特色大片免费视频大全| 在线精品视频免费播放| 少妇精品视频一区二区免费看| 国产999在线观看| 日本不卡一区二区| 成人免费网址在线| 制服丝袜av成人在线看| 成人高潮a毛片免费观看网站| 国产成人精品自拍| 99re66热这里只有精品3直播| 四虎精品成人免费网站| 色偷偷偷综合中文字幕;dd| 影音先锋在线视频| 午夜电影久久久| 欧美裸体视频| 国产精品日韩电影| 久久99国产精品久久99大师| 国内不卡一区二区三区| 久久久久久免费| 精品美女在线观看视频在线观看| 午夜视频一区二区| 校园春色亚洲色图| 亚洲尤物视频网| 久久只精品国产| 91在线视频| 欧美一区二区三区四区在线| 精品在线免费观看| 日本大臀精品| 5252色成人免费视频| 岛国一区二区三区| 制服丝袜在线播放| 91免费看片网站| 中文字幕中文字幕一区二区| 久久综合伊人77777麻豆最新章节| 在线观看日韩电影| 欧美综合自拍| 国产一区二区三区乱码| 日韩欧美一级在线播放| 婷婷久久一区| baoyu777.永久免费视频| 亚洲激情欧美激情| 在线观看成年人视频| 国产午夜一区二区三区| 国产亚洲综合视频| 欧美精品一区二区三区蜜桃| 欧美在线免费| 亚洲夫妻av| 色综合久久久久综合99| 美女视频亚洲色图| 欧美久久久久久久久久久久久| 欧美成人乱码一区二区三区| 欧美日韩影院| 日中文字幕在线| 国产精品96久久久久久| 欧美国产日韩a欧美在线观看| 99热在线观看| 欧美成人午夜免费视在线看片| 超碰在线一区| 成年人午夜视频在线观看| 亚洲精品乱码久久久久久金桔影视 | caoporn国产精品| 亚洲天堂av在线| 一本一生久久a久久精品综合蜜| 蜜臀av性久久久久av蜜臀妖精| av播放在线| 国产精品一区二区三区在线| 色一情一乱一乱一91av| 欧美精品三区| 1769在线观看| 久久国产一区| 成人av午夜影院| 福利一区二区| 少妇高潮喷水在线观看| 日日骚av一区| 国产亚洲va综合人人澡精品| 香港久久久电影| 国产精品视频中文字幕| 91精品国产一区| 黄色欧美日韩| 婷婷五月在线视频| 欧美不卡福利| 亚洲第一页在线| 亚洲国产欧美国产第一区| 日韩精品在线中文字幕| 神马国产精品影院av| 国产亚洲欧美中文| 国产欧美一区二区三区精品观看| 中文字幕国产在线| 狠狠色狠狠色综合人人| 精品国产露脸精彩对白| 国产九色精品成人porny | 日本一区福利在线| 涩涩视频免费网站| 国产精品亚洲激情| 在线观看亚洲a| 狠狠色丁香久久婷婷综合_中 | 亚洲第一av在线| 粉嫩av一区二区三区在线播放| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 国产91av视频在线观看| 91论坛在线播放| 欧美aaaaa级| 韩国福利在线| 亚洲精品在线免费| 久久av资源网站| 一区二区久久久久| 午夜在线观看免费一区| 日韩av黄色| 亚洲1024| 亚洲欧洲另类精品久久综合| 欧美另类老女人| 欧美色欧美亚洲另类二区| 伦理一区二区| 欧美性孕妇孕交| 中文字幕色呦呦| 日韩av电影在线网| 欧美一级日韩免费不卡| 99久久亚洲一区二区三区青草| av亚洲在线观看| 国产在线观看www| 国产wwww| 久久影视电视剧免费网站清宫辞电视 | 成人性生交大合| 精品国产日韩欧美| 97久久人人超碰caoprom| 亚洲综合欧美激情| 欧美日韩一区在线观看视频| 2024亚洲男人天堂| 欧美一区二区三区电影| 亚洲欧美视频在线观看|