国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

一夜之間,大模型像人一樣操控電腦了!Claude 3.5重磅升級,搶先OpenAI

人工智能 新聞
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每項技能上都有改進,并且在許多智能基準測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。

幾個小時前,Claude 3.5 模型迎來了一波大更新。Anthropic 推出了升級版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。

其中,升級版 Claude 3.5 Sonnet 的各項能力全面勝過之前版本,其中代碼能力提升顯著。Claude 3.5 Haiku 的性能則與之前最大模型 Claude 3 Opus 的性能相當,同時在成本和速度上與上一代 Haiku 相近。

最值得關注的是,Claude 3.5 Sonnet 版本號雖未提升,但卻迎來了史詩級大更新:能像人一樣使用計算機了!

最新版本的 Claude 3.5 Sonnet 能夠根據用戶指令移動光標、點擊相應位置以及通過虛擬鍵盤輸入信息,模仿人類與計算機的交互方式。

Anthropic 表示,Claude 3.5 Sonnet 是首個提供「計算機使用」能力公開 beta 測試的前沿 AI 模型,不過其也指出目前該工具還處于實驗階段 —— 有時候會很麻煩且容易出錯。目前這個功能更多地是面向開發者,以便獲得他們的使用反饋。

圖片

目前,「使用計算機」功能已經有了公開測試版,大家可以申請試用。申請表單:https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform

該功能發布后,網友紛紛點贊,都表示迫不及待想要嘗試這個功能;當然也有網友對 Claude 3.5 Sonnet 依然使用原來的名稱表達了深深地不解:「為什么這么大的更新卻連模型版本號都不改一下?」

圖片

并且發布不過幾個小時,就已經有開發者嘗試了 Claude 3.5 Sonnet 的這項新能力。網友 Mckay Wrigley 表示通過 API 使用這項新功能,設置時間不超過 10 分鐘,而這項能力卻能為 AI 開啟無限可能,堪稱 game changer。

圖片

順帶一提,在 Anthropic 更新 Claude 3.5 的同時,熱門 AI 編程工具 Cursor 也已經成功接入 Claude 系列模型。根據許多網友分享的截圖,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!

另外,對于官方博客中缺少的與 OpenAI ο1 模型的性能對比,也已經有研究者搶先完成了。根據研究者 Austin Starks 的實驗,最新版 Claude 3.5 Sonnet 的性能表現優于 OpenAI ο1-mini。他自己也對這一結果深表震驚。

圖片

詳細報告請訪問:https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea

讓 AI 使用計算機有什么用?

為什么說這個功能很重要?我們知道,現代的大量工作都是通過計算機完成的。如果能讓 AI 像人類一樣直接與計算機軟件交互,將解鎖大量當前一代 AI 助手無法實現的應用。

過去幾年,強 AI 已經實現了一個又一個里程碑,舉個例子,現在的強 AI 已經有能力執行復雜的邏輯推理和理解圖像內容。下一個前沿就是使用計算機,AI 模型不必通過定制工具進行交互,而是能夠遵照指示使用幾乎任何軟件。

Anthropic 表示,他們之前在工具使用和多模態方面的工作為這些新的計算機使用技能奠定了基礎。

操作計算機需要查看和解釋圖像的能力 —— 這里的圖像就是指計算機屏幕。它還需要推理能力,以了解以怎樣的方式在什么時間執行特定的操作。整合這些能力后,Claude 便可具備解讀屏幕內容并使用軟件工具執行任務的能力。

該公司舉了個例子:如果用戶是一名開發者,使用的軟件有好幾個,同時也已經給予了 Claude 適當的權限,那么 Claude 就可以查看用戶能看到的屏幕,然后統計其所要移動的垂直和水平像素的數量,從而點擊到正確位置。因此,準確統計像素數量的能力對 Claude 而言至關重要。沒有這項技能,模型就難以發出鼠標指令 —— 類似于模型難以解決「banana 中有多少個 A?」 這樣的問題。

Anthropic 表示,在訓練 Claude 使用計算機方面,僅使用少量簡單軟件(比如一個計算器和一個文本編輯器)進行的訓練就讓 Claude 可以泛化這種能力。這一點讓開發團隊自己都深感驚訝。至于為何使用這樣的簡單軟件,該團隊表示:「出于安全原因,我們并不允許模型在訓練時訪問互聯網。」

再結合 Claude 的其它能力,這種訓練賦予了它非凡的能力,可以將用戶的文本提示詞轉化為一系列邏輯步驟,然后在計算機上采取行動。開發團隊觀察到,如果遇阻,該模型甚至還能自我糾錯并重試任務。

他們表示:「雖然我們在取得初步突破后很快就取得了后續進展,但達到這一目標的過程經歷了大量反復試驗。」該公司的一些研究者指出,讓 Claude 具備使用計算機的能力接近他們剛開始從事該領域時所描繪的 AI 研究的「理想化」過程:不斷迭代和反復回到繪圖板,直到取得進展。

終于,研究獲得了回報。目前,Claude 可以說是當之無愧的 SOTA 模型,其使用計算機的方式與人類相同 —— 即查看屏幕再采取行動。在 OSWorld 這項測試模型使用計算機的能力的評估基準上,Claude 當前的準確度為 14.9%,雖然遠遠不及人類水平(通常為 70-75%),但卻遠高于在此基準上排名第二的 AI 模型(7.8%)。當給予更多的步驟來完成任務時,Claude 得分為 22.0%。

圖片

OSWorld 基準上當前排名前十的模型

確保計算機使用安全

人工智能的每一次進步都會帶來新的安全挑戰。計算機的使用主要是降低人工智能系統應用現有認知技能的障礙,而不是從根本上提高這些技能,因此 Anthropic 對計算機使用的主要關注點是當前的危害,而不是未來的危害。

Anthropic 通過評估計算機的使用是否會增加其《負責任擴展政策》中列出的前沿威脅(frontier threats)的風險來證實這一點。更新后的 Claude 3.5 Sonnet,包括其新的計算機使用技能,仍處于 AI Safety Level 2,也就是說,它不需要比 Anthropic 目前采取的安全措施更高標準的安全措施。

未來的模型可能會帶來災難性的風險,計算機的使用可能會加劇這些風險,因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 認為現在引入計算機使用可能會更好,而模型仍然只需要 AI Safety Level 2 的保障。這意味著可以在風險過高之前開始解決任何安全問題。

因此,Anthropic 的信任與安全團隊對計算機使用模型進行了廣泛的分析,以識別潛在的漏洞。他們發現的一個問題是「提示詞注入」—— 一種網絡攻擊,會輸入惡意指令到人工智能模型,導致其要么覆蓋先前的指令,要么執行偏離用戶原始意圖的意外操作。由于 Claude 可以解讀連接到互聯網的計算機的屏幕截圖,因此它可能會暴露于包含提示詞注入攻擊的內容。

默認情況下,Anthropic 不會使用用戶提交的數據(包括 Claude 收到的任何屏幕截圖)來訓練其生成式 AI 模型。

「計算機使用」的未來

計算機的使用是一種完全不同的人工智能開發方法。到目前為止,LLM 開發人員已經制作了適合模型的工具,生成了自定義環境,人工智能可以使用專門設計的工具來完成各種任務。

現在,Anthropic 的研究者可以讓模型適應工具 —— Claude 可以融入我們日常使用的計算機環境中。他們的目標是讓 Claude 能夠利用現有的計算機軟件,并像人類一樣簡單地使用它們。

研究者構建了一個 API,使 Claude 能夠感知計算機界面并與之交互。該 API 使 Claude 能夠將提示詞翻譯成計算機命令。開發人員可以使用它來自動執行重復性任務、進行測試和 QA 以及進行開放式研究。


研究者并沒有制作專門的工具來幫助 Claude 完成個別任務,而是教它通用的計算機技能,讓它能夠使用為人類設計的各種標準工具和軟件程序。

不過,Anthropic 還有很多工作要做。盡管目前 Claude 處于技術的最前沿,但它使用計算機的速度仍然緩慢且經常出錯。人們在計算機上常規進行的許多操作(如拖動、縮放等)Claude 還無法完成。

對于 Claude 來說,它觀察到的屏幕「翻頁」方式 —— 是通過拍攝屏幕截圖并將它們拼接起來的方式,而不是觀察更細粒度的視頻流。這種方式意味著 Claude 可能會錯過那些短暫的操作或通知。 

甚至在錄制計算機使用演示時,研究者也遇到了一些有趣的錯誤。其中一個錯誤是,Claude 不小心點擊停止了長時間的屏幕錄制,導致所有鏡頭都丟失。另一個錯誤是,Claude 突然中斷了現場的編碼演示,開始瀏覽黃石國家公園的照片。

圖片

圖片

研究者預期對計算機的使用將迅速改進,變得更快、更可靠,并更有助于用戶完成他們想要完成的任務。對于那些軟件開發經驗較少的人來說,實施起來也將變得更加容易。并且在每一個階段,研究人員都將與安全團隊緊密合作,確保 Claude 的新功能更加安全。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索「計算機使用」的各種可能性,執行那些需要幾十個、有時甚至幾百個步驟才能完成的任務。例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機使用和 UI 導航能力,為其 Replit Agent 產品開發一個關鍵功能,該功能可以在構建應用程序時評估這些應用程序。

升級版的 Claude 3.5 Sonnet 現在對所有用戶開放。從今天開始,開發者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「計算機使用」的測試版進行構建。新的 Claude 3.5 Haiku 將在本月晚些時候發布。

圖片

Claude 3.5 Sonnet:行業領先的軟件工程技能

更新版的 Claude 3.5 Sonnet 在行業基準測試中顯示出廣泛的改進,特別是在智能體編碼和工具使用任務上取得了顯著的提升。在編碼方面,其在 SWE-bench Verified 上的性能從 33.4% 提高到 49.0%,得分高于所有公開可用的模型 —— 包括像 OpenAI o1-preview 這樣的推理模型和專為智能體編碼設計的專門系統。它在 TAU-bench 上的表現也有所提升,這是一個智能體工具使用任務,在零售領域的得分從 62.6% 提高到了 69.2%,在更具挑戰性的航空領域則從 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以與其前代相同的價格和速度提供了這些改進。

早期客戶反饋表明,升級版的 Claude 3.5 Sonnet 代表了 AI 驅動編碼的重大飛躍。GitLab 針對 DevSecOps 任務對該模型進行了測試,發現它提供了更強的推理能力(在用例中高達 10%),并且沒有增加延遲,這使其成為驅動多步驟軟件開發流程的理想選擇。Cognition 使用新的 Claude 3.5 Sonnet 進行自主 AI 評估,與前一版本相比,它在編碼、規劃和問題解決方面經歷了顯著的改進。The Browser Company 在用于自動化基于 Web 的工作流程時,注意到 Claude 3.5 Sonnet 的表現超過了他們之前測試過的每一個模型。

Claude 3.5 Haiku:SOTA 技術與性價比和速度的結合

Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每項技能上都有改進,并且在許多智能基準測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在編碼任務上尤其強大。例如,它在 SWE-bench Verified 上的得分為 40.6%,超過了使用公開可用的 SOTA 模型的許多智能體 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

憑借低延遲、改進的指令遵循和更準確的工具使用,Claude 3.5 Haiku 非常適合面向用戶的產品、專門的 sub-agent 任務以及從大量數據(如購買歷史、定價或庫存記錄)中生成個性化體驗。

Claude 3.5 Haiku 將于本月晚些時候通過 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作為僅限文本的模型,隨后將支持圖像輸入。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-26 17:15:40

AI搜索

2015-03-10 10:32:21

蘋果2015MacBook Air

2023-07-19 09:00:00

模型AI

2018-08-08 11:11:28

2021-08-21 15:13:59

手機面板屏幕

2025-12-04 01:01:00

2024-01-15 06:14:05

2018-05-31 21:07:14

工業4.0工業物聯網IIoT

2024-04-03 13:50:00

開源模型

2025-07-30 09:04:01

2020-11-19 14:30:26

iOSSafari翻譯

2017-10-17 14:18:45

2019-03-05 10:03:17

阿里云云廠商硬盤

2018-03-29 13:33:45

2025-06-10 16:19:54

2024-10-23 09:20:00

2023-12-05 09:59:42

人工智能

2025-10-13 07:58:56

2009-11-26 13:31:56

點贊
收藏

51CTO技術棧公眾號

国产精品亚洲欧美一级在线 | 成人av电影免费在线播放| 日韩激情片免费| 成人黄色免费电影| 日本在线播放一区二区三区| 欧美一区在线直播| 欧美sm一区| 欧美色播在线播放| 91欧美视频在线| 成人手机电影网| 欧洲精品一区色| 99久久婷婷| 久久免费视频观看| 国产一区二区主播在线| 欧美大片一区二区| 大胆av不用播放器在线播放 | 国产麻豆成人精品| 99re视频在线播放| 黄色欧美网站| 一区二区三区回区在观看免费视频| 欧美日韩在线精品一区二区三区激情综 | 国产精品伊人日日| 亚洲v天堂v手机在线| 在线成人激情黄色| 影音先锋男人资源在线| 色8久久精品久久久久久蜜| 羞羞网站免费观看| 国产欧美精品一区aⅴ影院| 欧美黄色免费网址| 美女www一区二区| 手机在线观看国产精品| 亚洲一区视频| 欧美一级爽aaaaa大片| 国产日韩欧美一区在线 | 国产精品麻豆99久久久久久| 欧美午夜小视频| 国产精一区二区三区| 一区二区三区四区免费视频| 99国产精品99久久久久久粉嫩| 国产精品一区二区久久久久| 国产不卡一二三区| 国产成人一区二区三区电影| 亚洲bt欧美bt精品777| 5566日本婷婷色中文字幕97| 免费看久久久| 国产69精品99久久久久久宅男| 亚洲一区二区三区中文字幕在线观看 | 日韩国产欧美在线播放| 国语精品免费视频| 亚洲综合日韩| 永久久久久久| 丁香桃色午夜亚洲一区二区三区| 2021国产视频| 99精品视频一区二区三区| 九色在线视频观看| 99xxxx成人网| 日本不卡一区在线| 欧美在线免费看| 国产盗摄女厕一区二区三区| 草草草视频在线观看| 精品成人乱色一区二区| 天堂精品一区二区三区| 国产精品婷婷| 色女人综合av| 国产91高潮流白浆在线麻豆| 国产黄页在线观看| 亚洲欧美日韩国产成人精品影院| 一本色道久久加勒比88综合| 在线免费一区三区| 182tv在线播放| 在线播放国产一区二区三区| 一区二区三区四区视频免费观看| 欧美一区二区影院| 亚洲国产日本| 美女av免费观看| 国产精品电影一区二区三区| 亚洲成av人影片在线观看| 日韩一区二区三区视频| 欧美日韩国产免费一区二区三区| 亚洲无av在线中文字幕| 欧洲在线视频| 日韩亚洲电影在线| 裤袜国产欧美精品一区| 久久噜噜噜精品国产亚洲综合| 国产精品午夜一区二区三区| 国产精品日本一区二区| 国产福利电影一区二区三区| 日本久久精品一区二区| 亚洲1区2区3区4区| 天堂中文在线播放| 久久久久久国产精品美女| 激情文学一区| 国产男女无遮挡| 欧美视频完全免费看| 综合久久伊人| 91久久国产婷婷一区二区| 国内久久婷婷综合| xxav视频| 夜夜嗨av一区二区三区免费区| 三区四区不卡| 91av资源网| 在线成人高清不卡| 欧美电影免费网站| 亚洲一区二区三区免费观看| 亚洲国产美女搞黄色| 日韩成人影音| 国产中文欧美精品| 99在线精品视频| 欧美激情午夜| 91av视频在线播放| 国产乱人伦精品一区二区在线观看 | 久久久久久久爱| 午夜影院日韩| 天天干夜夜干| 日韩一区二区欧美| 一区在线播放| 激情视频网址| 精品国模在线视频| 久久中文精品| 在线观看免费视频一区二区三区| 深夜成人在线观看| 青青草精品视频| 国产在线视频网址| 国产成人精品电影| 久久久久久97三级| 国产资源在线观看入口av| 亚洲综合在线小说| 亚洲一区二区三区小说| 一级毛片精品毛片| 日本人体一区二区| 日韩高清有码在线| 免费精品视频| 黑人与亚洲人色ⅹvideos| 日产日韩在线亚洲欧美| 久久精品综合网| 日韩av大片站长工具| 日韩精品欧美在线| 日本久久精品电影| 97精品国产| 青娱在线视频| 欧美与黑人午夜性猛交久久久| 成人av综合一区| 亚洲成人av观看| 日韩视频 中文字幕| 亚洲福利视频免费观看| 久久综合九色| 日本小视频在线免费观看| 国产一区二区三区奇米久涩 | 国产一线二线三线女| 欧美大片日本大片免费观看| 激情91久久| 免费理论片在线观看播放老| 国产一区欧美二区三区| 精品成人乱色一区二区| 成人在线免费小视频| h短视频大全在线观看| 国产亚洲欧美一级| 午夜精品福利在线| 亚洲美女屁股眼交| 国产一区免费电影| 5566中文字幕一区二区电影| 欧美成人久久| 电影在线一区| 国产一级二级三级精品| 欧美天堂亚洲电影院在线播放| 亚洲成人一区| 91社区在线| 日韩国产在线一区| 精品无人国产偷自产在线| 久久99久久99小草精品免视看| 国产伦久视频在线观看| 青青草综合视频| 欧美成人一二三| 1024精品合集| 中文字幕精品影院| 三级毛片在线免费看| 国产综合欧美在线看| 精品少妇一区二区三区日产乱码 | 欧美高清电影在线看| 精品成人一区二区三区四区| 亚洲激情播播| 中文在线有码| 精品一区二区三区免费毛片| 日韩欧美国产午夜精品| 国内精品免费在线观看| 一个人看的www视频在线免费观看 一个人www视频在线免费观看 | 欧美成人午夜激情在线| 亚洲欧洲性图库| 99精品在线| 欧美四级在线| 日日橹狠狠爱欧美超碰| 国产成人福利网站| 欧美老女人在线| 国产成人免费高清| 日本在线中文字幕一区| 91黄色在线观看| 日韩电影免费观看| 亚洲中文字幕无码av永久| 高清一区二区三区四区五区| 色综合婷婷久久|