国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

未來已來:數據如何驅動AI大模型的競爭

人工智能
數據是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質量的數據。因此,對數據的投入和利用,將決定中國在全球AI競賽中的地位和成績。

隨著人工智能的迅猛發展,高質量數據的重要性已愈發明顯。以大型語言模型為例,近年來的飛躍式進展在很大程度上依賴于高質量和豐富的訓練數據集。相比于GPT-2,GPT-3在模型架構上的改變微乎其微,更大的精力是投入到了收集更大、更高質量的數據集來進行訓練。例如,ChatGPT與GPT-3的模型架構類似,但使用了RLHF(來自人工反饋過程的強化學習)來生成用于微調的高質量標注數據。

認識到這一現象,人工智能領域的權威學者吳承恩發起了“以數據為中心的 AI”運動,這是一種新的理念,它主張在模型架構相對固定的前提下,通過提升數據的質量和數量來提升整個模型的訓練效果。這其中包括添加數據標記、清洗和轉換數據、數據縮減、增加數據多樣性、持續監測和維護數據等。因此,未來在大模型開發中,數據成本(包括數據采集、清洗、標注等成本)所占的比例可能會逐步提高。

AI大模型需要的數據集應具備以下特性:

(1)高質量:高質量的數據集可以提高模型的精度和可解釋性,同時縮短模型收斂到最優解的時間,也就是訓練時長。

(2)大規模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸縮法則",即獨立增加訓練數據量、模型參數規模或延長模型訓練時間,預訓練模型的效果會持續提升。

(3)多樣性:數據的多樣性有助于提高模型的泛化能力,過于單一的數據可能會導致模型過度擬合訓練數據。

數據集的生成與處理

數據集的建立流程主要包括以下步驟:

  • 數據采集:數據采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數據采集常用的方式有系統日志采集方法、網絡數據采集方法以及ETL。
  • 數據清洗:因為采集到的數據可能存在缺失值、噪聲數據、重復數據等質量問題,數據清洗就顯得尤為重要。數據清洗作為數據預處理中至關重要的環節,清洗后的數據質量在很大程度上決定了AI算法的有效性。
  • 數據標注:這是流程中最重要的一個環節。管理員會根據不同的標注需求,將待標注的數據劃分為不同的標注任務。每一個標注任務都有不同的規范和標注點要求,一個標注任務將會分配給多個標注員完成。
  • 模型訓練:模型訓練人員會利用標注好的數據訓練出需要的算法模型。
  • 模型測試:測試人員進行模型測試并將測試結果反饋給模型訓練人員,模型訓練人員通過不斷地調整參數,以便獲得性能更好的算法模型。
  • 產品評估:產品評估人員需要反復驗證模型的標注效果,并對模型是否滿足上線目標進行評估。只有經過產品評估環節的數據才算是真正過關。

然而,盡管中國的數據資源豐富,但由于數據挖掘不足,數據無法在市場上自由流通等因素,導致優質的中文數據集仍然稀缺。據統計,ChatGPT的訓練數據中,中文資料的比重不足千分之一,而英文資料占比超過92.6%。此外,加利福尼亞大學和Google研究機構的研究發現,目前機器學習和自然語言處理模型使用的數據集有50%是由12家頂級機構提供,其中10家為美國機構,1家為德國機構,只有1家機構來自中國,即香港中文大學。

我們認為,國內缺乏高質量數據集的原因主要有以下幾點:

  • 高質量數據集需要巨大的資金投入,但目前國內對數據挖掘和數據治理的投入不足。
  • 國內相關公司往往缺乏開源意識,導致數據無法在市場上自由流通。
  • 國內相關公司成立較晚,數據積累相對于國外公司要少。
  • 在學術領域,中文數據集的重視程度低。
  • 國產數據集的市場影響力和普及度相對較低。

目前,國內科技互聯網頭部企業主要通過公開數據和自身特有數據來訓練大模型。例如,百度的“文心”大模型使用的特有數據主要包括萬億級的網頁數據,數十億的搜索數據和圖片數據等。阿里的“通義”大模型的訓練數據主要來自阿里達摩院。騰訊的“混元”大模型的特有訓練數據主要來自微信公眾號、微信搜索等優質數據。華為的“盤古”大模型的訓練數據,除了公開數據,還有B端行業數據加持,包括氣象、礦山、鐵路等行業數據。商湯的“日日新”模型的訓練數據中,包括了自行生成的Omni Objects 3D多模態數據集。

中國的數據環境和未來

盡管現狀尚有不足,但中國的數據環境仍有巨大的潛力。首先,中國是全球最大的互聯網用戶群體,日產數據量巨大,為構建大規模高質量數據集提供了基礎。其次,中國政府對于AI和數據治理的重視,無論是政策支持還是資金投入,都為數據環境的改善和發展提供了有利條件。

未來,中國需要在以下幾個方面進行努力:

  1. 建立數據采集和清洗系統:建立一套完整的數據采集和清洗系統,確保數據的質量和有效性,為后續的模型訓練提供可靠的數據基礎。
  2. 提高公開數據的可獲取性和使用性:鼓勵公司、研究機構等公開數據,讓數據在市場中自由流通,從而提高數據的可獲取性和使用性。
  3. 加大數據標注投入:通過提高標注效率和質量,降低標注成本,從而獲取更多、更高質量的標注數據。
  4. 培養更多的數據科學家和AI工程師:通過教育和培訓,增加數據科學家和AI工程師的數量和素質,以推動中國的AI研究和應用。
  5. 加強國內外的數據合作:通過數據合作,借鑒國外的成功經驗,改進數據的采集、處理、使用等方面的技術和方法,以提升中國數據的質量和價值。

數據是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質量的數據。因此,對數據的投入和利用,將決定中國在全球AI競賽中的地位和成績。

責任編輯:姜華 來源: 今日頭條
相關推薦

2021-02-05 07:06:03

AI人工智能

2018-01-16 20:14:37

OpenPOWERAIIBM

2021-05-10 09:40:02

大數據互聯網大數據應用

2021-10-14 23:05:34

運營商區塊鏈數據

2023-07-04 09:48:10

AI模型

2019-09-03 14:53:11

醫療機器人智慧醫療

2020-09-06 08:23:36

技術人工智能5G

2024-02-05 22:13:50

C++C++20開發

2015-08-24 09:59:19

dt

2022-06-28 12:02:11

ClouderaCDP混合數據

2018-04-27 14:14:29

GMIC

2020-10-22 15:20:24

北理工智慧校園永洪科技

2014-05-21 16:03:45

敏捷網絡華為

2015-10-19 13:16:57

能源互聯網

2019-11-11 16:19:39

人工智能

2018-08-09 16:03:14

2025-04-01 09:54:09

AI算法大模型AI
點贊
收藏

51CTO技術棧公眾號

久久人妻精品白浆国产 | 天天做天天爱天天爽综合网| 亚洲欧美激情视频| caoporn免费在线| 在线精品视频免费播放| 免费看啪啪网站| 老司机精品视频在线| 好吊色欧美一区二区三区 | 国产精品亚洲网站| 人妻精品无码一区二区三区 | 国产美女精品免费电影| 在线看的毛片| 国产99久久久久| 国产日韩欧美一区二区三区四区| 日韩电影在线视频| 精品毛片乱码1区2区3区| 97久草视频| 男人的天堂在线视频免费观看 | 国产欧美一区二区三区沐欲 | 日本成人一区| 亚洲三级在线| 欧美极度另类性三渗透| 亚洲一区国产| 国产一区二区在线观看免费| 欧美另类交人妖| 日本三级免费观看| 国产成人精品福利| 精品国产乱码久久久久酒店 | 国产日韩欧美亚洲| 国产精品电影观看| 国产探花视频在线观看| 亚洲三级电影网站| 日本黄色片一级片| 欧美全黄视频| 国产欧美一区二区三区四区 | 成人av高清在线| 亚洲free性xxxx护士hd| 9l视频自拍九色9l视频成人| 日韩激情视频在线播放| 亚洲一区导航| 一区二区三区四区在线免费观看| 久久久综合亚洲91久久98| 久久免费高清| 国产精品一香蕉国产线看观看| 超碰97国产在线| 国产极品在线观看| 91精品国产入口| 黄色影院在线播放| 欧美性生交xxxxxdddd| 中文在线最新版天堂8| 国产欧美一区二区三区沐欲 | 天堂在线亚洲视频| 国产传媒视频在线观看| 久久免费精品日本久久中文字幕| 国产精品91一区| 日本成人手机在线| 亚洲色图网站| 黄色高清无遮挡| 亚洲第一页在线| 亚洲在线免费| 日本不卡不卡| 国产日韩在线免费| 综合久久婷婷| 免费看成年人视频在线观看| 欧美成人精品一区二区| 色综合久久网| 性做久久久久久免费观看欧美| 国产视频资源| 色婷婷久久久综合中文字幕| 天堂√中文最新版在线| 91大神福利视频在线| 亚洲电影在线| aaaaaa亚洲| 欧美疯狂性受xxxxx喷水图片| 久久精品女人天堂av免费观看| 日韩av男人的天堂| 夜夜春成人影院| 天天看片激情网站| 欧美无砖专区一中文字| 欧美啪啪一区| 好吊色视频988gao在线观看| 亚洲精品欧美在线| 麻豆网站在线免费观看| 欧美成aaa人片免费看| 亚洲视屏一区| 日韩中文字幕在线观看| 天天做天天爱天天综合网| 菠萝蜜视频在线观看入口| 色综合久久99| 亚洲福利合集| 四虎影院一区二区三区| 亚洲成a人片在线观看中文| av日韩一区| 一本一道久久久a久久久精品91| 亚洲精品菠萝久久久久久久| 美女一区网站| 性欧美精品高清| 亚洲最大成人在线观看| 欧美精品福利视频| 欧美日韩国产一二| 99re热精品视频| 久久久精彩视频| 亚洲乱码国产乱码精品精的特点| 9999在线视频| 99在线高清视频在线播放| 国产精品毛片高清在线完整版| 天天综合av| 日本在线观看一区二区| 色一区在线观看| 精品中文字幕一区二区三区av| 欧美这里只有精品| 亚洲高清久久网| 日韩一区精品字幕| 免费不卡视频| 国产精品视频500部| 婷婷开心激情综合| 国产欧美日韩影院| 妞干网免费视频| 欧美精品在线看| 99免费精品视频| 国产亚洲人成a在线v网站| 9色视频在线观看| 亚洲成色777777在线观看影院| 蜜桃av一区| 欧美人与性动交α欧美精品济南到 | 在线亚洲男人天堂| 国产综合色在线| 久久大胆人体| 亚洲欧美日韩精品综合在线观看| 欧美精品 日韩| 欧美一级一区| gogo高清在线播放免费| 日韩欧美亚洲区| 欧美精品欧美精品系列| 国产精品综合| 精品一性一色一乱农村| 综合操久久久| 亚洲图片在线综合| 91在线观看污| 日日狠狠久久偷偷综合色| 日本中文字幕高清视频| 成人免费黄色网| 欧美在线综合视频| 国产精品久久久一区二区| 亚洲七七久久综合桃花剧情介绍| 一本久久a久久精品vr综合| 亚洲人成绝费网站色www| 国产盗摄女厕一区二区三区| 欧美高清xxx| 制服丝袜影音先锋| 国产一区欧美二区三区| 欧美色手机在线观看| 奇米综合一区二区三区精品视频| 在线观看的黄色| 91看片就是不一样| 欧洲美女7788成人免费视频| 亚洲成人激情综合网| 中文字幕日韩欧美精品高清在线| 男人的天堂在线视频免费观看 | 日韩av在线高清| 91麻豆免费看片| 国产videos久久| 婷婷激情在线| 99久re热视频精品98| 国内精品久久久久| 91福利在线播放| 国产精品1024久久| 欧美亚洲精品一区二区| 亚洲这里只有精品| 这里只有精品66| 国外成人福利视频| 成人黄色中文字幕| 亚洲欧美日本国产有色| 亚洲最大成人网色| 国内外成人激情免费视频| 最近2019好看的中文字幕免费| 中文字幕一区二区三区不卡| 狠久久av成人天堂| 国产精品高潮久久| 中文字幕在线观看| 国产免费一区二区三区四在线播放 | 偷拍日韩校园综合在线| 久热国产精品| 亚洲午夜免费| 精品国产99久久久久久| 日韩精品免费播放| 精品一区久久| 欧美精品精品精品精品免费| 精品视频免费在线| 久久久国产精品午夜一区ai换脸| 伊人久久亚洲影院| 1204国产成人精品视频| 五月婷婷在线视频| 成年人免费大片| 欧美日本韩国国产| 日本精品视频在线观看| 国产亚洲人成a一在线v站| 欧美在线看片a免费观看| 亚洲国产精品高清| 极品少妇一区二区|