国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

OpenAI曾轉錄100萬小時視頻數據,訓練GPT-4 精華

發布于 2024-4-9 13:06
瀏覽
0收藏

4月7日,紐約時報在官網發布了一篇名為《科技巨頭如何挖空心思,為AI收集數據》的技術文章。


紐約時報表示,OpenAI曾在2021年幾乎消耗盡了互聯網有用的文本數據源。為了緩解訓練數據短缺的難題,便開發了知名開源語音識別模型Whisper。


隨后在OpenAI副總裁Greg Brockman的帶領下,從視頻平臺YT、有聲播客/讀物等轉錄了超過100萬小時的視頻數據,然后轉化成文本數據用于訓練GPT-4


雖然這一舉措游走在法律的邊緣處于灰色地帶,但也直接反映出了大模型廠商對于訓練數據的饑渴程度。

OpenAI曾轉錄100萬小時視頻數據,訓練GPT-4-AI.x社區

紐約時報指出,不只是OpenAI,谷歌、Meta等科技巨頭因為想搜集高質量訓練數據而修改隱私數據條款,來避免版權法的制裁


例如,Meta為了追趕OpenAI、微軟,使用了互聯網上幾乎所有公開的英語書籍、散文、詩歌和新聞文章等內容。


甚至想直接買下一家大型出版社,來獲取更高質量的有版權、付費數據。不過沒有人敢輕易相信Meta的數據隱私條例。


這是因為2018年的“劍橋分析丑聞”讓Meta的信譽陷入低谷(那時的名字是Facebook)。

該事件是,一家英國劍橋分析公司通過一款心理測試程序,非法獲取了大約8700萬Facebook用戶的個人隱私數據,包括未經用戶明確同意的信息。

OpenAI曾轉錄100萬小時視頻數據,訓練GPT-4-AI.x社區

用戶在參與測試時,不僅自己的數據被收集,就連Facebook好友的信息也被抓取。該丑聞爆發后,Facebook面臨了前所未有的審查,該公司的數據隱私政策和管理不當受到嚴重處罰。


最后,以扎克伯格出面道歉、參加聽證會才收場。


高質量數據,是生成式AI領域的“黃金”


當你向ChatGPT、Gemini、Claude等提問獲得文本答案時,心里是否會想過,這種內容的寫法好像在哪里見過?


居然可以輕松寫出古龍、金庸、莫言、莎士比亞、泰戈爾、芥川龍之介、夏目漱石等國內外知名作家風格的內容。


沒錯,大模型最擅長的便是抄襲然后二次創新,但整體框架、敘述方法還是以模仿為基石

如果只用一句大白話來解釋大模型的原理——通過海量預訓練數據讓大模型學會人類的寫作技巧和習慣(視頻、音頻、圖片架構會更復雜一些,但基本同理),然后進行排列組合、預測生成全新的內容(大模型的文本提示,相當于搜索引擎的關鍵字)。


所以,相比幾千億甚至上萬億的參數,在架構、算法差不多的情況下,訓練數據對于大模型更重要。微軟、Stability AI發布的Orca 2、Stable LM 2等模型也充分證明了——通過高質量數據訓練的小參數模型,性能可以強過大參數模型


就像上面的作家舉例一樣,A廠商的模型學習了夏目漱石的寫作數據,而B沒有,兩家又都是基于Transformer架構,明顯A的寫作能力要大于B。


也可以把訓練數據看成“內功心法”,當兩位劍客的招式幾乎差不多時,在關鍵時刻比拼的就是誰的內功高,誰便能技高一籌。


此外,為了獲取高質量數據,2023年7月5日,谷歌 修改了數據隱私條款,將會抓取用戶公開或來自其他公共來源的數據,用于訓練Gemini(當時用名Bard)、谷歌翻譯和云AI等產品。

OpenAI曾轉錄100萬小時視頻數據,訓練GPT-4-AI.x社區

但好景不長,在公布消息的15天后,谷歌就接到了美國克拉克森律師事務所的起訴。在這份長達90頁的訴訟書中,指控谷歌從網絡秘密竊取大量數據來訓練其AI產品。指控其疏忽、侵犯隱私、盜竊、侵犯版權以及從非法獲取的個人數據中獲利。


谷歌為了獲取高質量數據鋌而走險,可見數據對于大模型的重要性。


合成數據正成為主流

?

4月2日,華爾街日報在官網發布了一篇名為《對于大量消耗數據的AI企業來說,互聯網太小了》的內容。


華爾街日報指出,對于大模型廠商來說互聯網那點數據,就像一口被挖干的油井根本不夠用


尤其是對于訓練視頻、音頻、圖像這些比文本更復雜的模型,就像一個“數據黑洞”可以無限吸收各種數據。

OpenAI曾轉錄100萬小時視頻數據,訓練GPT-4-AI.x社區

但常在河邊走哪有不濕鞋的事,各家科技巨頭當然也清楚,游走在灰色地帶只是無奈之舉。所以,他們想了一個新辦法使用合成數據。


合成數據是通過算法、機器學習模型自動合成的“虛擬數據”,以模擬真實世界數據的統計特性。基本上也是以模仿為主,但在法律和應用場景等方面有很多優勢


良好的隱私保護,合成數據可以在不暴露個人或敏感信息的情況下生成數據,這對于遵守GDPR或HIPAA等隱私法規非常重要。


無限數據源,理論上,可以生成無限量的合成數據,這對于需要大量數據但現實世界數據不足以支持的場景非常有用。


控制數據分布,可以精確控制合成數據的分布,能定制數據以探索特定的情況或增強模型在特定任務上的性能。


成本低,收集和標注大量真實世界數據比較貴,而生成合成數據的成本通常較低,主要由AI自動完成。


但合成數據也并非完美無缺,最致命的缺點便是過度擬合:如果合成數據過于簡化或未能捕捉到真實數據的關鍵特征、表示,用于訓練AI模型可能會過度擬合輸出的內容同質化且繁重無用。


在合成數據應用方面,OpenAI在今年2月15日重磅發布的視頻模型Sora,很多技術大咖就分析,Sora能生成如此高清的視頻和時長,可能使用了虛幻引擎5生成的合成數據。


事實上,根據內測用戶發布Sora生成的視頻,然后與虛幻引擎5的示例視頻進行了多維度對比,大概率是使用了合成的視頻數據來訓練Sora。


所以,使用合成數據訓練AI模型,將成為未來主要趨勢之一。


本文轉自  AIGC開放社區 ,作者: AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/D7eEvw4TRTBo97Belx-6DQ??

標簽
收藏
回復
舉報
回復
相關推薦
色综合久久一区二区三区| www.成人精品免费网站青椒| 精品久久香蕉国产线看观看亚洲| 高清一区二区三区av| 久久国产精品免费观看| 欧美午夜精品一区二区蜜桃| 91欧美大片| 在线免费观看h| 国产成人精品在线| 国产精品久久久久精k8| 日本一区影院| 国产精品涩涩涩视频网站| 日韩在线观看网站| 成人免费视频视频| 精品欧美日韩精品| 妺妺窝人体色www看人体| 亚洲欧洲日产国产网站| 国产一区二区在线观看视频| 1区2区3区在线| 亚洲一区二区自拍偷拍| 精品国产欧美一区二区| 日本网站在线观看一区二区三区| 91国内在线| 欧美亚洲免费在线| 精品蜜桃在线看| 免费观看在线色综合| 136福利第一导航国产在线| 亚洲日本理论电影| 日韩久久精品成人| 成人高清免费观看| 国产欧美日韩电影| 成人拍拍拍在线观看| 国产精品高潮粉嫩av| 精品人伦一区二区三区蜜桃网站| 99久久夜色精品国产亚洲96 | 影音先锋日韩在线| 午夜视频在线瓜伦| 国产一区二区免费在线| 精品精品导航| 手机在线视频你懂的| 亚洲一区二区日韩| 国产毛片在线看| 欧美少妇一区| 亚洲男人天堂2024| 久久香蕉国产线看观看99| 豆花视频一区二区| 伊人永久在线| 精品一卡二卡三卡四卡日本乱码| 欧美一区二区黄色| 成人美女视频在线观看| 国产精品香蕉| 蜜桃麻豆www久久国产精品| 影音先锋男人在线资源| 日韩欧美另类一区二区| 蜜桃视频在线观看免费视频| 亚洲看片网站| 欧美激情视频一区二区三区在线播放 | 极品美女销魂一区二区三区| 日本在线一区二区| 好吊的妞视频这里都有| 国产精品露出视频| 国产丝袜一区视频在线观看| 久久久精品欧美丰满| 91亚洲国产成人久久精品| 国产激情小视频在线| 日韩欧美视频网站| 国产日韩欧美成人| 日韩精品中文字幕一区| 中文字幕免费观看一区| 亚洲美女少妇无套啪啪呻吟| 亚洲高清国产拍精品26u| 水中色av综合| 国产精品一色哟哟| 国产一区香蕉久久| 亚洲精品自拍第一页| 中文字幕一区在线观看| 亚洲综合国产激情另类一区| 国产日韩一区二区三免费高清| 亚洲福利二区| 日本福利视频一区| 亚洲专区国产精品| 亚洲午夜久久久影院| 调教+趴+乳夹+国产+精品| 国产黄色成人av| 正在播放日韩欧美一页| 深夜日韩欧美| 99reav在线| 午夜欧美福利视频| 日本福利一区二区三区| 欧美在线观看视频| 亚洲激情第一页| 亚洲午夜羞羞片| 成人免费看视频| 精品电影一区| 欧美在线关看| 美脚恋feet久草欧美| 日本福利在线观看| 国语对白做受xxxxx在线中国| 蜜桃91精品入口| 日本精品视频在线| 一区二区三区四区精品| 91搞黄在线观看| 久久精品一二三| 免费成人在线视频观看| 中文字幕免费一区二区| 一区中文字幕| 竹内纱里奈兽皇系列在线观看 | 午夜影院在线播放| 日本大片在线观看| 欧美三级午夜理伦三级富婆| 亚洲日本精品一区| 国产精品日韩欧美一区二区| 欧美诱惑福利视频| 在线视频欧美日韩| 精品欧美一区二区三区精品久久 | 精品视频色一区| 国产精品亲子乱子伦xxxx裸| 久久精品噜噜噜成人av农村| 午夜久久影院| 亚洲最好看的视频| 亚洲ww精品| 成人教育av| 自由的xxxx在线视频| 欧美少妇另类| 最新中文字幕av专区| 亚洲欧美激情网| 欧美国产综合在线| 亚洲精品一区二区三| 国产精成人品localhost| 国产精国产精品| 色综合久久悠悠| 日韩一级黄色av| 亚洲丝袜av一区| 亚洲高清免费观看高清完整版| 欧美三级电影网| 欧美视频裸体精品| 亚洲国产精品欧美一二99| 国产精品电影一区二区| 26uuu国产电影一区二区| 成人性生交大片免费看视频在线| 美女诱惑一区二区| 琪琪一区二区三区| 欧美一区=区| 性xx色xx综合久久久xx| 99在线|亚洲一区二区| 欧美三级不卡| 国产精品v一区二区三区| 亚洲精品极品少妇16p| 久久躁狠狠躁夜夜爽| 亚洲性视频大全| 一区二区亚洲视频| 天堂va欧美ⅴa亚洲va一国产| 亚洲在线观看| 日本精品在线观看| 一区二区三区| 亚洲日日夜夜| 五月天色综合| 在线播放一区二区精品视频| 91国内精品白嫩初高生| 首页亚洲中字| 成人3d精品动漫精品一二三| 婷婷亚洲最大| 日韩精品亚洲元码| 激情亚洲综合在线| 日本美女视频一区二区| 国产亚洲在线观看| 国产精品夜夜夜| 久久蜜桃资源一区二区老牛| 国产精品最新自拍| 裸体素人女欧美日韩| 日韩精品高清不卡| 激情偷乱视频一区二区三区| 国产精品中文有码| 成人一级片在线观看| 99在线精品一区二区三区| 久久精品视频在线免费观看| 中国色在线观看另类| 亚洲精品少妇30p| 五月天丁香久久| 在线观看91视频| 欧美v亚洲v综合ⅴ国产v| 亚洲欧美www| 免费av在线一区| 国产成人午夜视频网址| 亚洲影院色无极综合| 欧美裸体网站| 日本a级片在线观看| 久久久噜噜噜www成人网| 欧美xxxx18| 久热av在线| av中文在线资源| 国产高清精品二区| 日韩在线二区| 日韩电影在线一区| 91在线视频观看| 亚洲成人激情综合网| 日韩欧美在线不卡| 欧美国产一区二区三区| 3d蒂法精品啪啪一区二区免费| 性刺激综合网|