實測K2-Thinking:我讓AI幫我寫了個Office全家桶! 精華
前兩天Kimi上新了K2 Thinking模型,并且是開源且能思考的Thinking Agent。
經(jīng)過我這兩天的實際使用,K2-thinking在搜索+編程方面能力提升了,但是在實際編程過程中,搜索能力反倒成為一種輕微的負(fù)擔(dān),會出現(xiàn)短暫的卡頓現(xiàn)象,等待時間稍微有點長,消耗的token也降低了不少,我做了3個case,花費也才5塊錢左右。

而且能夠在線編輯,支持基本樣式選擇。
以及word文檔編輯器、excel數(shù)據(jù)處理等等。

也能做出一個英語學(xué)習(xí)平臺(后面會介紹)。
現(xiàn)在就可以在客戶端體驗了,直接按照下面這個方式操作。

現(xiàn)在也可以在Claude code里面使用了。

關(guān)于我的更多體驗,看下面的內(nèi)容。
推理性能:硬撼 HLE 基準(zhǔn)
看Kimi官方的描述,Kimi K2 Thinking 在人類最后的考試(Humanity's Last Exam)中表現(xiàn)崽強,那你可能好奇問了,這個鬼測試到底是什么?
簡單介紹一下。
它是由全球近千名專家聯(lián)合打造的《Humanity’s Last Exam》(HLE)被譽為“人類最后一場閉卷考試”。包含了3000道高難度題目的多模態(tài)基準(zhǔn)測試,不僅挑戰(zhàn)AI的極限,更試圖為技術(shù)發(fā)展軌跡與風(fēng)險治理提供關(guān)鍵標(biāo)尺。
傳統(tǒng)AI測試基準(zhǔn)基本“失效”了,因為有一些模型拿著參考答案去通過基準(zhǔn)測試,沒有辦法保證榜單數(shù)據(jù)是否真實有效,反正是眾說紛紜。
HLE就不太一樣,沒有參考答案,題目完全來源于全球50個國家、500多家機構(gòu)的專家原創(chuàng)題目,難度水平達(dá)到研究生水平。
就說閉卷考試全靠模型自身實力了。
題目涵蓋數(shù)學(xué)、自然科學(xué)、人文等上百學(xué)科,全球頂尖模型(如GPT-4o、Claude 3.5)在HLE上的平均準(zhǔn)確率不足5%,錯誤答案的置信度高達(dá)80%以上,暴露出非常大的幻覺問題。

引用:知乎@北方的郎
然后我找?guī)讉€例子吧。
案例一:帕爾米拉銘文翻譯
這是一個圖形推理題,要求翻譯一張墓碑上的帕爾米拉語銘文。
模型在不聯(lián)網(wǎng)情況下,需要基于已知的知識推理出墓碑銘文的意思。

原提示詞:
Here is a representation of a Roman inscription, originally found on a tombstone. Provide a translation for the Palmyrene script. A transliteration of the text is provided: RGYN? BT ?RY BR ?T? ?BL
翻譯過來就是,???這是一段羅馬銘文的呈現(xiàn),最初發(fā)現(xiàn)于一塊墓碑上。請翻譯帕爾米拉語的銘文。 提供的文本轉(zhuǎn)寫為:RGYN? BT ?RY BR ?T? ?BL??
這難度可不小!圖片語言翻譯,尤其是生僻語言,是非常剛需的場景。
特別是一些跨境電商的老板,怎么能夠及時準(zhǔn)確的翻譯別國語言,是一個難點。
在K2 Thinking 不聯(lián)網(wǎng)的情況下,看看它的推理能力怎么樣。

??,直接十幾秒就搞定了,這種難度的問題基本難不倒它了。

然后讓GPT-5的thinking模式試試。

GPT5-thinking最終給出的結(jié)果非常迷惑,它只給了翻譯,沒有說明中文語境下的理解,而且對于不理解當(dāng)?shù)匚幕娜藖碚f,簡直就是天書。

小結(jié):
翻譯了等于沒翻譯。相比之下,K2-Thinking 的理解和解釋更加直白易懂。
案例二:伯克利物理學(xué)難題
這是加州大學(xué)伯克利分校的凱文教授提出的一個物理學(xué)問題,涉及復(fù)雜的力學(xué)分析。

大概翻譯過來就是:
一個物體放置在水平軌道上,它可以在上面無摩擦地滑動。
它連接在一根剛性、無質(zhì)量的桿的一端,桿的長度為 R。另一端連接著一個質(zhì)量塊。兩個物體的重量均為 W。
系統(tǒng)最初是靜止的,質(zhì)量塊直接位于物體上方。
質(zhì)量塊被給予一個沿軌道方向的無窮小推力。假設(shè)系統(tǒng)設(shè)計得當(dāng),桿可以無阻礙地旋轉(zhuǎn)360度。
當(dāng)桿水平時,它承受的張力為 T_1。當(dāng)桿再次垂直,質(zhì)量塊直接位于物體下方時,它承受的張力為 T_2。
(這兩個量都可能是負(fù)數(shù),這將表明桿處于壓縮狀態(tài)。)
(T_1?T_2)/W 的值是多少?接下來看看它的推理過程,巨長!!!

最終的結(jié)果如下:

讓GPT5-Thinking來做這道題,它用了1分47s。
但是標(biāo)準(zhǔn)模式下,它的答案是錯的。。

只有當(dāng)我開啟了進階思考模式之后,他才會慢吞吞的幫我思考解答,用時3分鐘左右,只能看到其中部分的思考過程。

對于用戶來說,用GPT5-Thinking不同模式會導(dǎo)致不同的答案,但是k2-thinking一次就搞定正確答案,確定就是k2-thinking的思考過程太長,等待時間過久了。
小結(jié):
K2-Thinking 一次就給出了正確答案,而 GPT-5 需要切換到特定模式。K2 的確定性更高,但缺點是思考過程太長,等待時間過久。
案例三:斯坦福化學(xué)難題
第三個是化學(xué)領(lǐng)域的元素問題,是斯坦福大學(xué)的Noah B教授提出的。
這基本是研究生水平以上的問題了(反正我是沒看懂)。

題目可以給大家看一下。
如圖所展示的反應(yīng)是一個熱誘導(dǎo)的周環(huán)級聯(lián)反應(yīng),將起始的七烯轉(zhuǎn)化為內(nèi)安德酸B甲酯。該級聯(lián)反應(yīng)包括三個步驟:兩個電環(huán)化反應(yīng),隨后是一個環(huán)加成反應(yīng)。步驟1和步驟2中涉及的電環(huán)化反應(yīng)類型是什么,步驟3中涉及的環(huán)加成反應(yīng)類型是什么?
請以[nπ]-順旋或[nπ]-反旋的形式給出電環(huán)化反應(yīng)的答案(其中n是參與的π電子數(shù),以及它是順旋還是反旋),以[m+n]的形式給出環(huán)加成反應(yīng)的答案(其中m和n是每個組分上的原子數(shù))。
首先交給k2-thinking,它很快的給出了答案,智商絲毫不亞于研究生水平了。

GPT5-Thinking很快就給出了答案,答案也是準(zhǔn)確的。

但是在我看來,k2-thinking更勝一籌,它的推理過程更加人性化,回答結(jié)果更加契合用戶的心理預(yù)期。
小結(jié):
在這題上,兩者都答對了。但我個人認(rèn)為 K2-Thinking 更勝一籌,它的推理過程更加人性化,回答結(jié)果更契合用戶的心理預(yù)期——我當(dāng)然希望 AI 能把問題解釋得通俗易懂,方便我理解。
搜索+瀏覽總結(jié)
搜索、瀏覽總結(jié)就不用多說,現(xiàn)在大部分的模型都已經(jīng)聯(lián)網(wǎng)了,也有各種不同程度的“深度研究”。
但是面對復(fù)雜問題,非常考驗深度搜索的能力。

但是Kimi K2 Thinking 在OpenAI自己發(fā)布的BrowseComp基準(zhǔn)測試中超過GPT5模型。
在別人擅長的領(lǐng)域擊敗GPT5,爽!
這個模型還能做出多達(dá)上百步的“思考 → 搜索→ 瀏覽網(wǎng)頁 → 思考 → 編程”動態(tài)循環(huán)。。。
你還別說,找難題難為AI,我有辦法。
案例一:復(fù)雜的足球比賽檢索
要求智能體找出在1990年至1994年期間,由巴西裁判執(zhí)法的比賽,其中兩支球隊共收到四張黃牌(每隊兩張),其中三張黃牌不是在上半場發(fā)出的,并且有四次換人,其中一次是在比賽前25分鐘因傷換人。
這完全考驗搜索能力+總結(jié)能力了。答案是:愛爾蘭對羅馬尼亞。
先讓K2 Thinking來秀一下,答案是準(zhǔn)確的。

然后是GPT5-Thinking模型的表現(xiàn)。

小結(jié):
在這塊,我覺得 GPT-5 Thinking 更加優(yōu)秀,它給出的信息更準(zhǔn)確,條理也更清晰。
案例二:全網(wǎng)檢索小眾論文
考驗深度搜索下鉆的能力,那就看看它能不能找到那些特別冷門、小眾的內(nèi)容。
找一篇在2023年6月之前發(fā)表的研究論文,該論文涉及文化傳統(tǒng)、科學(xué)過程和烹飪創(chuàng)新,并由三位作者共同撰寫。其中一位作者是來自西孟加拉邦的助理教授,另一位擁有博士學(xué)位。
答案是《面包制作的基礎(chǔ):面包的科學(xué)》。
K2 Thinking會進行多輪的搜索+思考驗證,不過最終還是沒有找到這篇論文。
不過從側(cè)面可以看到,K2 Thinking是真的進行了思考、推理+驗證。

GPT5-Thinking它確實找到了。

小結(jié):
這局 GPT-5 勝出。不過這可能主要還是信源和網(wǎng)絡(luò)問題,這篇論文在海外發(fā)布,非常小眾。
Agentic 編程
現(xiàn)在其實可以直接在Claude code里面調(diào)用K2 Thinking。
常用的是一個叫 CC-swith的插件,它可以無縫切換多個模型廠商。
直接打開CC-swith,切換到K2 Thinking模型,如下圖,直接本地?zé)o需自己改配置。

然后在首頁切換模型即可。

在vs code打開終端。
輸入???/model?? 即可查看當(dāng)前模型。

現(xiàn)在摁下Tab健就可以開啟思考模式(右下角)。

在開啟思考模式的前提下,我讓它執(zhí)行了兩個復(fù)雜任務(wù)。
案例一:搭建英語學(xué)習(xí)網(wǎng)站
幫我創(chuàng)建一個高中英語的學(xué)習(xí)網(wǎng)站,每天監(jiān)督學(xué)生打卡,每日學(xué)會一個單詞,以及內(nèi)置的課程庫資源等等。
它會一邊思考一邊規(guī)劃任務(wù),然后一邊執(zhí)行。

比如這樣的:

最終它生成了一個自帶數(shù)據(jù)庫、可交互、完成度達(dá)到95%的英語學(xué)習(xí)網(wǎng)站。
如下是平臺首頁速覽:

如下是平臺的課程庫,里面是支持課程檢索(每個課程都是有真實數(shù)據(jù)的)

案例二:創(chuàng)建網(wǎng)頁版 Office 套件
接下來這個工程量就更大了。
我使用Claude skills去創(chuàng)建網(wǎng)頁版的office。
請你使用document-skills創(chuàng)建一個網(wǎng)頁版的office,包含docx,pptx,excel,pdf的基本操作,包含document-skills的技能,能夠完成日常的一些基本操作。
不過,沒有讓我失望,直接幫我搞了一個網(wǎng)頁版的辦公套件。

比如word文檔在線編輯器是這樣的:

以及在線的excel表格編輯器。

肯定少不了演示文稿,也能在線編輯。

還有PDF編輯器。

寫在最后
Kimi K2 Thinking 的 Agentic 編程能力和深度推理能力確實令人印象深刻,尤其是在理解復(fù)雜需求并將其分解執(zhí)行方面。
它生成的答案和代碼完成度(達(dá)到95%)非常高,且在 HLE 測試中展現(xiàn)的“人性化”理解力優(yōu)于 GPT-5 Thinking。
雖然在搜索和編程過程中會有些許卡頓,但考慮到其極高的性價比,K2 Thinking 絕對是目前 AI 領(lǐng)域一個強有力的競爭者。
期待Kimi未來的發(fā)展。
本文轉(zhuǎn)載自??AIGC新知??,作者:絳燁

















