重建AI就緒型數據戰略的八大要點

任何想要擁有領先AI戰略的企業,都必須首先制定一套成功的數據戰略,這是IBM副總裁兼首席數據官Ed Lovely傳達的信息。“當你考慮擴展AI規模時,數據是基礎。”他說道。
然而,他表示,很少有企業的數據架構與其AI雄心相匹配,相反,他們擁有的是孤立的數據,且這些數據不受統一數據標準的約束——這是長期以來的企業數據戰略所導致的,這些戰略逐個應用構建IT環境,以支持即時決策,而非支持企業級AI部署。
IBM 2025年的研究報告《AI雄心激增,但企業數據準備好了嗎?》揭示了有多少企業在數據方面舉步維艱,該研究發現,在全球1700名首席數據官(CDO)中,只有26%的人對其數據能夠支持新的AI賦能收入流充滿信心。
Lovely表示,需要的是一種集成式企業數據架構,無論數據源自何處,都應用統一的標準、治理和元數據。
認為企業需要更新其數據戰略的,不止Lovely一人。
IDC全球數據圈和全球存儲圈研究項目研究經理、《生成式AI時代的內容創作》2025年報告的聯合作者Adam Wright表示:“大多數企業需要對其數據戰略進行現代化改造,因為AI不僅改變了數據的使用方式,還改變了使用原因以及價值創造地點。”
“傳統數據戰略是為報告、商業智能和自動化而構建的,但AI需要更加動態、精細和實時的數據管道,以支持迭代、模型驅動的工作流程,這意味著要從靜態數據治理轉向持續數據質量監控、更強的元數據和血緣追蹤,以及反映AI對臨時性、緩存和保存數據混合需求的保留策略,”他說道,“AI時代要求企業從‘收集/存儲一切’的心態,轉變為有意識、以價值為導向的數據戰略,平衡成本、風險和他們想要實現的具體AI成果。”
高成熟度的數據基礎
大多數企業離這一目標還相差甚遠。
“許多企業在獲取‘正確’數據方面仍面臨困難,無論是數據量不足、質量不佳,還是缺乏支持AI應用場景所需的上下文元數據,”Wright說道,“在IDC的研究和行業對話中,數據準備程度始終是實現AI價值的首要障礙之一,其重要性往往超過計算成本或模型選擇。大多數企業仍在應對碎片化系統、不一致的治理,以及對其實際擁有哪些數據及其可信度缺乏可見性的問題。”
Lovely表示,IBM曾面臨諸多此類挑戰,但過去三年一直在努力解決這些問題,以使其數據具備AI就緒能力。
IBM為AI時代制定的數據戰略包括對長期做法的多次變革,使其能夠構建Lovely所稱的集成式企業數據架構。例如,公司保留了數據所有者的概念,但“幫助他們理解數據是IBM的資產,如果我們能夠以可控、安全的方式實現數據民主化,我們就能以更好、更高效的方式運營業務。”Lovely說道。
因此,IBM從多個團隊管理孤立數據轉變為一個共同團隊使用共同標準和共同架構。企業領導者還整合了300太字節的數據,根據公司追求的成果和驅動這些成果的工作流程來選擇所需數據。
“我們是有意為之,”Lovely補充道,其數據平臺現在覆蓋了約80%的IBM工作流程,“對于當今的企業而言,最大的生產力提升之一就是創建集成式企業數據架構。由于我們在數據方面的投資,我們正在公司內部迅速部署AI。”
構建更好數據戰略的8個建議
為了在數據基礎和數據消費能力方面達到高成熟度,企業需要為AI時代制定一套數據戰略——一套能夠確保數據質量、打破數據孤島,并使數據能力與業務優先的AI應用場景相匹配的戰略。
專家提出了以下步驟:
1. 重新思考數據所有權
“當業務部門、產品團隊和AI平臺都在持續生成和轉換數據時,將數據所有權視為純粹的IT問題的傳統模式已不再適用,”Wright解釋道,“理想情況下,明確的問責制應由高級數據領導者(如CDO)承擔,但那些沒有CDO的企業必須確保數據治理責任在IT、安全和業務部門之間明確分配。”
他補充道,擁有“一個定義政策的單一權威點和執行的聯邦模型至關重要,這樣業務部門才能保持自主權,但又不至于不受約束。”
圣托馬斯大學軟件工程與數據科學系教授兼系主任、應用AI中心主任Manjeet Rege建議企業將數據所有者重新定義為數據管理員,他們不擁有數據,而是根據中央數據功能設定的標準、治理、安全和互操作性,對數據的意義和質量負責。
2. 打破數據孤島
Wright表示:“要做到這一點,CIO需要圍繞共享的AI和數據成果來協調業務部門,因為生成式AI只有在整個企業的流程、流程和數據源都連接起來時才能創造價值。”
“這意味著要建立跨職能的治理、標準化分類和政策,并創建激勵團隊共享數據而非保護數據的機制,”他補充道,“技術通過統一平臺、元數據層和共同安全框架提供幫助,但真正的突破來自整個高管層和業務利益相關者的協調領導。”
3. 投資AI時代的數據技術
這些技術包括現代數據湖和數據湖倉、向量數據庫和可擴展的對象存儲,所有這些“都能以強大的治理能力處理高容量、多模態數據。”Wright說道。
企業還需要編排和管道工具,以自動化數據攝取、清洗、轉換和移動,使AI工作流程能夠端到端可靠運行。元數據引擎和治理層對于使模型能夠理解上下文、追蹤血緣,以及安全可靠地使用結構化和非結構化數據至關重要。
Rege建議構建一個“模塊化、可治理且能夠演進”的數據平臺層。“你需要一種能夠將數據視為可重用產品的架構,而不僅僅是為了單一管道,并且能夠同時滿足批量和實時需求。”
Rege還認可數據湖和數據湖倉,稱它們“正成為AI的支柱,因為它們能夠處理結構化和非結構化數據。”
此外,Thoughtworks首席AI與數據官Shayan Mohanty建議CIO構建一個可組合的企業,采用模塊化技術和靈活架構,使人類和AI能夠跨多個層級訪問數據并開展工作。
專家還建議CIO投資于能夠滿足新興數據生命周期需求的技術。
“生成式AI正在從根本上重塑數據生命周期,創造出一種更加動態的臨時性、緩存和持久存儲內容的混合體。大多數生成式AI輸出都是短暫的,僅使用幾秒、幾分鐘或幾小時,這增加了對高性能基礎設施(如DRAM和SSD)的需求,以處理快速迭代、緩存和易失性工作流程。”Wright說道。
“但與此同時,也有相當一部分生成式AI輸出是持久性的,如最終文檔、批準的媒體資產、合成訓練數據集和合規相關內容,這些仍然嚴重依賴成本效益高、容量大的HDD進行長期存儲,”他補充道,“隨著生成式AI的采用增加,企業將需要數據戰略來適應從用于臨時內容的超高速內存到用于持久存檔的強大HDD基礎系統的整個生命周期,因為存儲負擔/動態正在發生變化。”
4. 實現數據架構自動化并增添智能
Mohanty將企業數據狀態不佳歸咎于“數據生產者和數據消費者之間的鴻溝”,數據被生產出來后被“扔進某個巨大的倉庫(即所謂的數據倉庫)”,然后創建分析層來利用這些數據。他指出,這種方法需要大量的人類知識和手動努力才能使其發揮作用。
他建議企業采用數據產品思維,“使數據生產者和數據消費者更加緊密”,并在其企業架構中添加自動化和智能,以便AI在需要時能夠識別和訪問正確的數據。
Mohanty表示,CIO可以使用模型上下文協議(Model Context Protocol,MCP)來封裝數據并提供協議級訪問,他指出,這種訪問要求企業在其目錄和工具中編碼信息,以確保數據可發現性。
5. 確保結構化和非結構化數據均具備AI就緒能力
“當結構化數據格式一致、治理良好,并輔以準確的元數據時,它就具備了AI就緒能力,使模型能夠輕松理解和使用,”Wright說道,“企業應優先考慮強大的數據質量控制、主數據管理和明確的所有權,以確保結構化數據集保持可靠、可互操作,并與特定AI應用場景保持一致。”
專家強調,需要對非結構化數據采取同樣的嚴格管理,確保非結構化數據也得到適當標記、分類,并輔以元數據,以便AI系統能夠有效理解和檢索。
“你需要將非結構化數據視為第一類數據資產,”Rege說道,“大多數最有趣的AI應用場景都存在于非結構化數據中,如客戶服務音頻通話、消息和文檔,但對于許多企業而言,非結構化數據仍然是一個盲點。”
Rege建議將其存儲在向量數據庫中,以便信息可搜索。
6. 考慮外部數據源和合成數據
“當企業現有數據不完整、有偏差、規模太小或與他們試圖追求的AI應用場景不匹配時,他們絕對應該評估是否需要外部或合成數據,”Wright說道,他指出,“當真實數據敏感、收集成本高昂,或受到隱私、監管或運營限制時,合成數據變得尤其有用。”
7. 逐步實施高成熟度數據基礎
Salesforce企業IT戰略高級副總裁Shibani Ahuja表示,不要等到數據達到完美狀態才開始。
“有些企業覺得他們必須先整理好所有數據才能啟動,但他們也面臨著開始這一旅程的壓力。”她說道。
正如大多數企業計劃成熟化時的情況一樣,CIO及其執行同事可以——也應該——采取漸進式方法來構建AI時代的數據計劃。
Ahuja建議通過逐個成果來成熟化數據計劃,創建一個數據戰略和架構以支持一個AI驅動的成果,然后再轉向后續成果。
“這是一種思維方式:從你需要什么出發進行逆向工程,”Ahuja說道,“將某個成果投入生產,確保你有正確的防護措施,觀察它,并調整它以便其擴展,然后再投入下一個。”
8. 采取跨職能方法構建數據團隊
“數據應該得到一個跨職能生態系統的支持,該生態系統包括IT、數據治理、安全和實際使用數據來驅動決策的業務部門,”Wright說道,“AI時代的數據戰略在這些團隊共享所有權時效果最佳,其中IT團隊提供基礎設施支持,治理團隊確保信任和質量,業務團隊定義上下文和價值。”






























