B站大數據開發治理平臺的產品設計心得

一、B 站的用數場景及數據開發治理平臺的概況介紹
B 站大數據開發治理平臺歷經 5 年建設,目前包含數據集成、數據開發、數據治理、數據安全、數據分析等多個模塊,服務于公司各個業務部門。
B 站數據平臺的使用者覆蓋了 60% 的員工,其面向的用戶群體主要是技術開發、產品、運營、算法工程師、分析師、數據開發等。通過對用戶的數據能力進行分層,我們可將數據平臺的用戶大致區分為高階開發、中階用戶、數據小白等 3 個用戶群體。

基于用戶分群,我們提出了數據平臺的產品定位:專業,門檻,標準化,閉環。
- 專業:數據平臺需要滿足專業的數據開發及分析訴求,提升數據供給效率。
- 門檻:數據平臺需要滿足產運等用戶低門檻的建數、用數、取數要求。
- 標準化:數據平臺需要快速滿足多業務、各部門不同的數據訴求,功能既要通用,也要足夠靈活。
- 閉環:數據平臺在 B 站也是數據中臺,我們同時承擔了數據運營、成本治理、規范約束、質量監控等管理角色,因此平臺需要替業務完成數據從入倉、生產、運維、治理等流程的全閉環。

根據不用的業務場景和用數訴求,平臺主要包括數據生成、數據消費、數據管理三大場景,分別提供相應的數據服務。

本文將重點介紹數據地圖和數據治理產品的設計。
二、基于價值體系的數據地圖產品建設
1、數據運營的痛點
面向多業務的數據中臺團隊或數倉團隊,當模型基數較大時,往往會面臨數據運營難的痛點。如何通過數據平臺,結合數據內容的建設,解決用戶找數用數痛點,是數據運營產品的核心目標。隨著模型規模的快速增長,我們從 20 年開始,也逐漸面臨數據運營難的痛點。數據運營的痛點是分階段暴露的:

2、數據運營的解決方案
針對上述痛點,我們提出了一套解決方案:完善產品功能體系,推動數據運營體系的建設,建設數據模型的評估能力。

3、數據地圖產品建設
數據地圖是一個基于元數據的數據門戶,它能夠幫助用戶更好地理解和管理數據資源。作為一個企業的數據中心,數據地圖具備多種功能,包括數據檢索、元數據詳情、數據預覽、數據血緣和數據管理等。這些功能的存在,有效地提升了用戶的找數效率,降低了數據理解難度,也降低了使用門檻。
通過完善洞察推薦、全文檢索、類目體系、數據畫像、UGC 及 API、數據專輯、數據血緣、影響分析等八大產品矩陣,能夠滿足用戶在找數、用數、數據理解、數據治理、數據推廣等不同場景下的使用訴求。

4、數據運營方法
基于數據地圖產品體系的迭代,沉淀了一些數據運營方法。
- 點(用戶):1V1 標準化
采用線上和線下的 1v1 方案針對問題進行答疑和解惑,使用工具咨詢或者解決數倉相關問題。
- 線(業務):周期節點化
定期線下結合數據內容對運營同學進行培訓、訪談以及工具的普及。
- 面(平臺):1VN 體系化
將點和面的問題及解決方案進行記錄,通過平臺進行沉淀,并體系化地反饋給業務方。
通過點線面結合的運營方法,結合線上和線下的運營策略,形成了 B 站的數據運營方案,同時從數據價值、用戶指標、用戶訪談、定期調研四個評估體系,能夠更有效的完成策略和效率提升。
5、評估數據價值
經過產品功能迭代和運營體系化建設,已經可以很好地引導用戶找數、用數,但是我們發現眾多的數據模型,仍無法讓業務有“模型建設得好”的感知,為了更好地衡量數據價值,對模型進行 ROI 評估,驅動良性的模型運營和數據建設,構建了模型價值評估體系。通過衡量數據價值,能有效提升業務的數據認可度,基于此可建設數據推薦策略、數據開發價值評估、模型的管理策略和治理策略。

6、數據價值計算
根據數據價值,設計了模型價值分。數據應用場景主要包括數據查詢熱度、ETL 引用情況、API 引用情況、BI報表熱度、數據應用使用情況、出倉業務場景熱度。價值元素主要包括內部人效、外部基線等級、外部數據質量、安全等級、數據新鮮度等方面,根據不同場景和不同因素進行份子權重設定,并通過產品化方案,更有效地支持多業務自定義數據價值。
7、數據地圖效果展示
以下是具體場景下的產品功能展示:
- 找數場景
包括元數據展示、標簽展示、用戶洞察、數據專輯功能等功能。

- 用數場景
主要集中在表詳情頁的功能,提供了豐富的應用功能,包括基本信息、業務信息、存儲信息、標簽等。

- 血緣&影響分析
基于血緣數據,沉淀了血緣地圖和歸因/影響分析兩個產品。血緣地圖提供手動探查、可視化分析、鏈路分析的功能;歸因/影響分析功能提供基于血緣的向上和向下的數據聚合分析的功能,主要針對下游數據異動快速定位問題、口徑變更對基線的影響的問題,提供批量血緣查詢、信息聚合、拉群和通知的功能。

產品功能、數據運營體系、以及數據價值評價三方面的建設,為數據運營帶來了顯著提升。經過迭代,數據地圖滲透率從 30% 提升到 60% ;推薦表熱度提升 40%,用戶評價提升 33%。同時數據價值被業務認可,價值分 Top 熱度提升 20%,用戶能找好數,用對數,數據建設價值可被衡量和評估。
三、基于抽象配置的數據治理產品建設
在 B 站,表和任務以每半年翻倍的速度進行增長。從 22 年開始,我們關注到數據治理需要以更高效的方式進行推進和落地,因此提出了用 B 端產品化的思路針對數據治理方案提供的通用治理工具,以高效解決數據治理問題。
1、建設背景及產品架構
在業務快速發展期間,數據資產增長較快、資產管理混亂,數據治理工作往往迫在眉睫。通常數據治理工作有如下痛點:
- 數據治理入手及落地難,操作和流程無法指導
- 運動式,治理工作不可持續
- 治理成效的可視化不足
- 治理不到人,權責不分明
- 運營成本高,消耗人力
從數據成本、數據規范、數據質量、數據安全四大方向入手進行治理。治理中心的產品框架主要由管理運營、治理配置& 應用、基礎數據模塊組成。以元數據為基礎數據,基于靈活配置,提升治理效果。

2、數據治理運營機制及工作流程
結合數據委員會、治理工具、運營機制三個方面,逐漸形成了一套持續可執行的治理運營流程。治理工作推進流程采用策略線上 POC->數據委員會發布->策略上線的新流程,對比之前流程有很大的改善。

3、B 站治理運營的推進痛點和訴求
在 B 站,數據治理運營的痛點主要有三個方向:治理的資產對象多、資產的操作路徑特殊、存量問題資產多,增量快。

4、治理工具的解決方案
通過豐富的元素和配置,可以實現用戶個性化訴求,解決不同業務、不同視角、不同用戶制定的形態各異的治理策略,比如:配置流程固定化、配置參數規范化、配置操作簡單化。讓業務自主完成治理方案的制定、規則定義和工作推進。

5、抽象:通過通用化配置實現個性化
以下是針對上述三個數據治理問題,提供的通用化配置的產品功能。
- 抽象治理對象
將資產抽象為統一的元數據對象,每個治理對象有通用的屬性和自定義屬性,圍繞元數據進行治理數據建模。每個對象的屬性,均可以通過動態參數如{jobid} 的形式被獲取,形成全局變量。

- 抽象操作和處理方案
充分利用現有功能和接口,通過配置 url、接口入參等,快速達到治理動作復用和上線,極大提升功能落地效率。

- 統一治理問題的生成和處理流程
通過開發數據策略、配置治理對象、配置操作流程、動態參數及使用文案,可快速生成一個待辦問題生成器;通過調度,每天自動掃描文檔,生成待辦明細,推送用戶治理。

6、效果及收益
目前通過治理工具,B 站已上線了 62 個策略,每個策略平均開發和上線時間 2-3 小時。累計生成治理問題 8w+,累計處理治理問題 2w+,累計治理金額超 500w,累計節約人效 100+ 人日。
四、核心工作及未來規劃
通過流程化管理,將線下 SOP 操作線上化,針對目前原子操作的產品弊端,解決數據治理流程長、執行進度不可觀測的用戶問題。同時能夠支持平臺諸多自動化治理、推送流程的落地,提升開發效率。


























