「性價(jià)比王者」Claude Haiku 4.5來(lái)了,速度更快,成本僅為Sonnet 4的1/3
距離上次新品發(fā)布僅僅兩周后,Anthropic 又出手了。
最新消息,Anthropic 發(fā)布輕量級(jí)模型 Claude Haiku 4.5,主打「更便宜、更快速」。
據(jù) Anthropic 介紹,Claude Haiku 4.5 的編碼性能可與中高端模型 Claude Sonnet 4(這是 Anthropic 于 5 個(gè)月前發(fā)布的模型)相媲美,但成本更低,每百萬(wàn)輸入 token 的成本為 1 美元,每百萬(wàn)輸出 token 的成本為 5 美元,僅為 Claude Sonnet 4 的三分之一。而推理速度卻提升一倍多。

用 Anthropic 發(fā)言人的話來(lái)說(shuō)就是,「Haiku 4.5 在性能上有了明顯的飛躍,現(xiàn)在基本上和 Sonnet 4 一樣智能,但速度卻快得多,成本卻只有 Sonnet 4 的三分之一。」
不僅如此,從測(cè)試數(shù)據(jù)來(lái)看,Claude Haiku 4.5 在某些任務(wù),甚至超越了 Claude Sonnet 4。比如 computer use 「OSWorld」(一個(gè)在現(xiàn)實(shí)世界計(jì)算機(jī)任務(wù)中測(cè)試人工智能模型的基準(zhǔn)測(cè)試平臺(tái))上,前者得分 50.7%,后者得分 42.2%;數(shù)學(xué)推理(AIME 2025)測(cè)試中,前者借助 Python 工具,成績(jī)高達(dá) 96.3%,后者為 70.5%。

整體來(lái)看,Claude Haiku 4.5 核心面向?qū)崟r(shí)、低延遲的任務(wù)場(chǎng)景,比如聊天助手、客服人員、協(xié)同編程等。這些場(chǎng)景用戶將會(huì)體驗(yàn)到 Claude Haiku 4.5 的高智能、極快速度。而 Claude Code 用戶則會(huì)發(fā)現(xiàn) Claude Haiku 4.5 顯著提升了編碼體驗(yàn)的響應(yīng)速度,包括多智能體項(xiàng)目到快速原型開(kāi)發(fā)設(shè)計(jì)等。

早期客戶的一些體驗(yàn)評(píng)價(jià)也體現(xiàn)了 Claude Haiku 4.5 的能力水平:
比如,Augment Code 的聯(lián)合創(chuàng)始人 Guy Gur-Ari 表示,「Claude Haiku 4.5 達(dá)到了我們意想不到的最佳狀態(tài):接近前沿的編碼質(zhì)量、驚人的速度和成本效益。在 Augment 的內(nèi)部編碼評(píng)估測(cè)試中,Haiku 4.5 的性能達(dá)到了 Sonnet 4.5 的 90%,甚至可以與規(guī)模更大的模型相媲美?!?/span>

Windsurf 的首席執(zhí)行官 Jeff Wang 也表示,「歷史上,模型總是為了質(zhì)量而犧牲速度和成本,而 Haiku 4.5 正在「模糊」這種傳統(tǒng)權(quán)衡的界限:它是一種快速的前沿模型,既保持了成本高效,又預(yù)示了這類模型的發(fā)展方向。」

其實(shí),從測(cè)試數(shù)據(jù)上也不難看出,目前,Claude Sonnet 4.5 仍然是 Anthropic 最好的模型,在各項(xiàng)性能表現(xiàn)上都超過(guò) Claude Haiku 4.5,而 Claude Haiku 4.5 的長(zhǎng)處在于能以更高的成本效益為用戶提供「近乎前沿的性能」。
另外,Anthropic 表示,兩者的配合使用還將為企業(yè)客戶帶來(lái)極大優(yōu)勢(shì):前者可以構(gòu)建前沿多步驟計(jì)劃,而后者則并行完成子任務(wù),「從而支持多智能體系統(tǒng)快速高質(zhì)量地處理復(fù)雜的重構(gòu)、遷移和大型功能構(gòu)建。」
比如,在金融服務(wù)領(lǐng)域,Claude Sonnet 4.5 和 Haiku 4.5 的結(jié)合所帶來(lái)的多智能體架構(gòu),將徹底改變企業(yè)監(jiān)控市場(chǎng)和管理風(fēng)險(xiǎn)的方式。在 Anthropic 的設(shè)想中,Haiku 4.5 將同時(shí)監(jiān)控?cái)?shù)千個(gè)數(shù)據(jù)流 —— 追蹤監(jiān)管變化、市場(chǎng)信號(hào)和投資組合風(fēng)險(xiǎn),而 Sonnet 4.5 則負(fù)責(zé)處理復(fù)雜的預(yù)測(cè)模型和戰(zhàn)略分析。
而對(duì)于研究機(jī)構(gòu)來(lái)說(shuō),分工可以大幅壓縮時(shí)間。比如,Claude Sonnet 4.5 可以協(xié)調(diào)全面的分析,而多個(gè) Haiku 4.5 Agent 則可以并行處理數(shù)十個(gè)來(lái)源的文獻(xiàn)綜述、數(shù)據(jù)收集和文檔合成,根據(jù) Anthropic 的描述,這可能「將數(shù)周的研究壓縮到數(shù)小時(shí)」。
還有一點(diǎn)非常重要的是,Claude Haiku 4.5 不僅速度快、價(jià)格低,而且安全。
Anthropic 表示,他們對(duì) Claude Haiku 4.5 進(jìn)行了一系列詳細(xì)的安全性和一致性評(píng)估,結(jié)果顯示,該模型表現(xiàn)出較低的令人擔(dān)憂的行為發(fā)生率,并且比其前身 Claude Haiku 3.5 的一致性顯著提高。而在自動(dòng)一致性評(píng)估中,Claude Haiku 4.5 的總體偏差行為發(fā)生率也顯著低于 Claude Sonnet 4.5 和 Claude Opus 4.1。
因此,根據(jù)這一指標(biāo),Claude Haiku 4.5 可以堪稱是他們「迄今為止最安全的模型?!?/span>
所以綜合來(lái)看,Claude Haiku 4.5 是目前 Anthropic「更快、性價(jià)比更高、更安全」的模型版本。
目前,Claude Haiku 4.5 已在全球上線,作為 Claude Haiku 3.5 與 Sonnet 4 的「直接替代品」,用戶可通過(guò) Claude 官方平臺(tái)、API 接口,以及亞馬遜 Bedrock、Google Cloud Vertex AI 等云服務(wù)渠道訪問(wèn)使用。
業(yè)界的朋友應(yīng)該感受到了,最近 Anthropic 真是動(dòng)作頻頻,兩個(gè)月內(nèi)接連發(fā)布三大 AI 模型,「太卷了」。
今年 8 月上旬,Anthropic 發(fā)布新模型 Opus 4.1,在編程評(píng)估基準(zhǔn) SWE-Bench Verified 上得分達(dá)到 74.5%,較 Opus 4 的 72.5% 提升兩個(gè)百分點(diǎn)。
緊接著,9 月 30 日,重磅發(fā)布了自詡為「世界上最好的編碼模型」的 Claude Sonnet 4.5。之后就是兩周后的今天,再次帶來(lái)新模型,自己卷自己。
而有意思的是,最近有報(bào)道傳出,Anthropic 到今年年底有望實(shí)現(xiàn) 90 億美元的年化營(yíng)收目標(biāo),此外,更是明年設(shè)定了更激進(jìn)的「小目標(biāo)」:基準(zhǔn)情況下年化營(yíng)收超過(guò) 200 億美元,最佳情況下可達(dá) 260 億美元,相當(dāng)于今年?duì)I收的近兩倍。而據(jù) Anthropic 的發(fā)言人在接受媒體采訪時(shí)透露,Anthropic 本月的年化營(yíng)收正接近 70 億美元……
似乎「自卷」的理由找到了……





































