實測K2-Thinking：我讓AI幫我寫了個Office全家桶！精華

發(fā)布于 2025-11-13 00:30

瀏覽

0收藏

前兩天Kimi上新了K2 Thinking模型，并且是開源且能思考的Thinking Agent。

經(jīng)過我這兩天的實際使用，K2-thinking在搜索+編程方面能力提升了，但是在實際編程過程中，搜索能力反倒成為一種輕微的負(fù)擔(dān)，會出現(xiàn)短暫的卡頓現(xiàn)象，等待時間稍微有點長，消耗的token也降低了不少，我做了3個case，花費也才5塊錢左右。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

而且能夠在線編輯，支持基本樣式選擇。

以及word文檔編輯器、excel數(shù)據(jù)處理等等。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

也能做出一個英語學(xué)習(xí)平臺（后面會介紹）。

現(xiàn)在就可以在客戶端體驗了，直接按照下面這個方式操作。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

現(xiàn)在也可以在Claude code里面使用了。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

關(guān)于我的更多體驗，看下面的內(nèi)容。

推理性能：硬撼 HLE 基準(zhǔn)

看Kimi官方的描述，Kimi K2 Thinking 在人類最后的考試（Humanity's Last Exam）中表現(xiàn)崽強，那你可能好奇問了，這個鬼測試到底是什么？

簡單介紹一下。

它是由全球近千名專家聯(lián)合打造的《Humanity’s Last Exam》（HLE）被譽為“人類最后一場閉卷考試”。包含了3000道高難度題目的多模態(tài)基準(zhǔn)測試，不僅挑戰(zhàn)AI的極限，更試圖為技術(shù)發(fā)展軌跡與風(fēng)險治理提供關(guān)鍵標(biāo)尺。

傳統(tǒng)AI測試基準(zhǔn)基本“失效”了，因為有一些模型拿著參考答案去通過基準(zhǔn)測試，沒有辦法保證榜單數(shù)據(jù)是否真實有效，反正是眾說紛紜。

HLE就不太一樣，沒有參考答案，題目完全來源于全球50個國家、500多家機構(gòu)的專家原創(chuàng)題目，難度水平達(dá)到研究生水平。

就說閉卷考試全靠模型自身實力了。

題目涵蓋數(shù)學(xué)、自然科學(xué)、人文等上百學(xué)科，全球頂尖模型（如GPT-4o、Claude 3.5）在HLE上的平均準(zhǔn)確率不足5%，錯誤答案的置信度高達(dá)80%以上，暴露出非常大的幻覺問題。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

引用：知乎@北方的郎

然后我找?guī)讉€例子吧。

案例一：帕爾米拉銘文翻譯

這是一個圖形推理題，要求翻譯一張墓碑上的帕爾米拉語銘文。

模型在不聯(lián)網(wǎng)情況下，需要基于已知的知識推理出墓碑銘文的意思。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

原提示詞：

Here is a representation of a Roman inscription, originally found on a tombstone. Provide a translation for the Palmyrene script. A transliteration of the text is provided: RGYN? BT ?RY BR ?T? ?BL

翻譯過來就是，???這是一段羅馬銘文的呈現(xiàn)，最初發(fā)現(xiàn)于一塊墓碑上。請翻譯帕爾米拉語的銘文。提供的文本轉(zhuǎn)寫為：RGYN? BT ?RY BR ?T? ?BL??

這難度可不小！圖片語言翻譯，尤其是生僻語言，是非常剛需的場景。

特別是一些跨境電商的老板，怎么能夠及時準(zhǔn)確的翻譯別國語言，是一個難點。

在K2 Thinking 不聯(lián)網(wǎng)的情況下，看看它的推理能力怎么樣。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

??，直接十幾秒就搞定了，這種難度的問題基本難不倒它了。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

然后讓GPT-5的thinking模式試試。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

GPT5-thinking最終給出的結(jié)果非常迷惑，它只給了翻譯，沒有說明中文語境下的理解，而且對于不理解當(dāng)?shù)匚幕娜藖碚f，簡直就是天書。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

小結(jié)：
翻譯了等于沒翻譯。相比之下，K2-Thinking 的理解和解釋更加直白易懂。

案例二：伯克利物理學(xué)難題

這是加州大學(xué)伯克利分校的凱文教授提出的一個物理學(xué)問題，涉及復(fù)雜的力學(xué)分析。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

大概翻譯過來就是：

一個物體放置在水平軌道上，它可以在上面無摩擦地滑動。
它連接在一根剛性、無質(zhì)量的桿的一端，桿的長度為 R。另一端連接著一個質(zhì)量塊。兩個物體的重量均為 W。
系統(tǒng)最初是靜止的，質(zhì)量塊直接位于物體上方。
質(zhì)量塊被給予一個沿軌道方向的無窮小推力。假設(shè)系統(tǒng)設(shè)計得當(dāng)，桿可以無阻礙地旋轉(zhuǎn)360度。

當(dāng)桿水平時，它承受的張力為 T_1。當(dāng)桿再次垂直，質(zhì)量塊直接位于物體下方時，它承受的張力為 T_2。
（這兩個量都可能是負(fù)數(shù)，這將表明桿處于壓縮狀態(tài)。）
(T_1?T_2)/W 的值是多少？

接下來看看它的推理過程，巨長！！！

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

最終的結(jié)果如下：

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

讓GPT5-Thinking來做這道題，它用了1分47s。

但是標(biāo)準(zhǔn)模式下，它的答案是錯的。。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

只有當(dāng)我開啟了進階思考模式之后，他才會慢吞吞的幫我思考解答，用時3分鐘左右，只能看到其中部分的思考過程。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

對于用戶來說，用GPT5-Thinking不同模式會導(dǎo)致不同的答案，但是k2-thinking一次就搞定正確答案，確定就是k2-thinking的思考過程太長，等待時間過久了。

小結(jié)：
K2-Thinking 一次就給出了正確答案，而 GPT-5 需要切換到特定模式。K2 的確定性更高，但缺點是思考過程太長，等待時間過久。

案例三：斯坦福化學(xué)難題

第三個是化學(xué)領(lǐng)域的元素問題，是斯坦福大學(xué)的Noah B教授提出的。

這基本是研究生水平以上的問題了（反正我是沒看懂）。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

題目可以給大家看一下。

如圖所展示的反應(yīng)是一個熱誘導(dǎo)的周環(huán)級聯(lián)反應(yīng)，將起始的七烯轉(zhuǎn)化為內(nèi)安德酸B甲酯。該級聯(lián)反應(yīng)包括三個步驟：兩個電環(huán)化反應(yīng)，隨后是一個環(huán)加成反應(yīng)。步驟1和步驟2中涉及的電環(huán)化反應(yīng)類型是什么，步驟3中涉及的環(huán)加成反應(yīng)類型是什么？
請以[nπ]-順旋或[nπ]-反旋的形式給出電環(huán)化反應(yīng)的答案（其中n是參與的π電子數(shù)，以及它是順旋還是反旋），以[m+n]的形式給出環(huán)加成反應(yīng)的答案（其中m和n是每個組分上的原子數(shù)）。

首先交給k2-thinking，它很快的給出了答案，智商絲毫不亞于研究生水平了。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

GPT5-Thinking很快就給出了答案，答案也是準(zhǔn)確的。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

但是在我看來，k2-thinking更勝一籌，它的推理過程更加人性化，回答結(jié)果更加契合用戶的心理預(yù)期。

小結(jié)：
在這題上，兩者都答對了。但我個人認(rèn)為 K2-Thinking 更勝一籌，它的推理過程更加人性化，回答結(jié)果更契合用戶的心理預(yù)期——我當(dāng)然希望 AI 能把問題解釋得通俗易懂，方便我理解。

搜索+瀏覽總結(jié)

搜索、瀏覽總結(jié)就不用多說，現(xiàn)在大部分的模型都已經(jīng)聯(lián)網(wǎng)了，也有各種不同程度的“深度研究”。

但是面對復(fù)雜問題，非常考驗深度搜索的能力。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

但是Kimi K2 Thinking 在OpenAI自己發(fā)布的BrowseComp基準(zhǔn)測試中超過GPT5模型。

在別人擅長的領(lǐng)域擊敗GPT5，爽！

這個模型還能做出多達(dá)上百步的“思考 → 搜索→ 瀏覽網(wǎng)頁 → 思考 → 編程”動態(tài)循環(huán)。。。

你還別說，找難題難為AI，我有辦法。

案例一：復(fù)雜的足球比賽檢索

要求智能體找出在1990年至1994年期間，由巴西裁判執(zhí)法的比賽，其中兩支球隊共收到四張黃牌（每隊兩張），其中三張黃牌不是在上半場發(fā)出的，并且有四次換人，其中一次是在比賽前25分鐘因傷換人。

這完全考驗搜索能力+總結(jié)能力了。答案是：愛爾蘭對羅馬尼亞。

先讓K2 Thinking來秀一下，答案是準(zhǔn)確的。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

然后是GPT5-Thinking模型的表現(xiàn)。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

小結(jié)：
在這塊，我覺得 GPT-5 Thinking 更加優(yōu)秀，它給出的信息更準(zhǔn)確，條理也更清晰。

案例二：全網(wǎng)檢索小眾論文

考驗深度搜索下鉆的能力，那就看看它能不能找到那些特別冷門、小眾的內(nèi)容。

找一篇在2023年6月之前發(fā)表的研究論文，該論文涉及文化傳統(tǒng)、科學(xué)過程和烹飪創(chuàng)新，并由三位作者共同撰寫。其中一位作者是來自西孟加拉邦的助理教授，另一位擁有博士學(xué)位。

答案是《面包制作的基礎(chǔ)：面包的科學(xué)》。

K2 Thinking會進行多輪的搜索+思考驗證，不過最終還是沒有找到這篇論文。

不過從側(cè)面可以看到，K2 Thinking是真的進行了思考、推理+驗證。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

GPT5-Thinking它確實找到了。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

小結(jié)：
這局 GPT-5 勝出。不過這可能主要還是信源和網(wǎng)絡(luò)問題，這篇論文在海外發(fā)布，非常小眾。

Agentic 編程

現(xiàn)在其實可以直接在Claude code里面調(diào)用K2 Thinking。

常用的是一個叫 CC-swith的插件，它可以無縫切換多個模型廠商。

直接打開CC-swith，切換到K2 Thinking模型，如下圖，直接本地?zé)o需自己改配置。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

然后在首頁切換模型即可。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

在vs code打開終端。

輸入???/model?? 即可查看當(dāng)前模型。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

現(xiàn)在摁下Tab健就可以開啟思考模式（右下角）。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

在開啟思考模式的前提下，我讓它執(zhí)行了兩個復(fù)雜任務(wù)。

案例一：搭建英語學(xué)習(xí)網(wǎng)站

幫我創(chuàng)建一個高中英語的學(xué)習(xí)網(wǎng)站，每天監(jiān)督學(xué)生打卡，每日學(xué)會一個單詞，以及內(nèi)置的課程庫資源等等。

它會一邊思考一邊規(guī)劃任務(wù)，然后一邊執(zhí)行。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

比如這樣的：

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

最終它生成了一個自帶數(shù)據(jù)庫、可交互、完成度達(dá)到95%的英語學(xué)習(xí)網(wǎng)站。

如下是平臺首頁速覽：

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

如下是平臺的課程庫，里面是支持課程檢索（每個課程都是有真實數(shù)據(jù)的）

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

案例二：創(chuàng)建網(wǎng)頁版 Office 套件

接下來這個工程量就更大了。

我使用Claude skills去創(chuàng)建網(wǎng)頁版的office。

請你使用document-skills創(chuàng)建一個網(wǎng)頁版的office，包含docx，pptx，excel，pdf的基本操作，包含document-skills的技能，能夠完成日常的一些基本操作。

不過，沒有讓我失望，直接幫我搞了一個網(wǎng)頁版的辦公套件。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

比如word文檔在線編輯器是這樣的：

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

以及在線的excel表格編輯器。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

肯定少不了演示文稿，也能在線編輯。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

還有PDF編輯器。

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！-AI.x社區(qū)

寫在最后

Kimi K2 Thinking 的 Agentic 編程能力和深度推理能力確實令人印象深刻，尤其是在理解復(fù)雜需求并將其分解執(zhí)行方面。

它生成的答案和代碼完成度（達(dá)到95%）非常高，且在 HLE 測試中展現(xiàn)的“人性化”理解力優(yōu)于 GPT-5 Thinking。

雖然在搜索和編程過程中會有些許卡頓，但考慮到其極高的性價比，K2 Thinking 絕對是目前 AI 領(lǐng)域一個強有力的競爭者。

期待Kimi未來的發(fā)展。

本文轉(zhuǎn)載自??AIGC新知??，作者：絳燁

標(biāo)簽

K2-Thinking

Agent

已于2025-11-13 10:40:38修改

贊

回復(fù)

舉報

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

“全家桶”戰(zhàn)士歸來，谷歌自我革命！

51CTO技術(shù)棧 ? 3388瀏覽 ? 0回復(fù)
谷歌Phone的AI全家桶上線了，給所有安卓手機打了個樣

51CTO技術(shù)棧 ? 4686瀏覽 ? 0回復(fù)
AI給《黑神話：悟空》生成了一個宣傳片…看完我沉默了

Crystalcxt ? 4084瀏覽 ? 0回復(fù)
AI自動寫書神器，3個ChatGPT插件讓你輕松賺錢！

ermulong ? 4518瀏覽 ? 0回復(fù)
實測來了！Kimi發(fā)布k1視覺思考模型，實力顛覆K12教育賽道，涌現(xiàn)能力強得可怕，免費可用！網(wǎng)友：國產(chǎn)之光！

51CTO技術(shù)棧 ? 5574瀏覽 ? 0回復(fù)
Google AI發(fā)布Gemini 2.0 Flash Thinking 模型

Halo咯咯 ? 4031瀏覽 ? 0回復(fù)
AI竟然能預(yù)測人生！我試了，結(jié)果讓我詫異.....

AI博物院 ? 1.1w瀏覽 ? 0回復(fù)
9.6K Star防翻車指南：Instructor讓AI輸出錯誤率歸零！

CourseAI ? 3828瀏覽 ? 0回復(fù)
K-LoRA巧用Top-K策略，讓風(fēng)格與主體完美融合

angel ? 4258瀏覽 ? 0回復(fù)
谷歌最強AI全家桶上線！自家主干網(wǎng)絡(luò)都要公開對外用了！黃仁勛站臺，最新TPU性能猛漲3600倍

51CTO技術(shù)棧 ? 2879瀏覽 ? 0回復(fù)
剛剛，騰訊AI殺瘋了！混元全家桶重磅升級，生圖卷到毫秒級！推出首個工業(yè)級AIGC游戲引擎！

51CTO技術(shù)棧 ? 2523瀏覽 ? 0回復(fù)
Kimi K2發(fā)布：1萬億參數(shù)，128K上下文，還能跑17個工具流程？

Halo咯咯 ? 9200瀏覽 ? 0回復(fù)
在 Claude Code + Kimi K2：一個新的 AI 編碼組合

AI取經(jīng)路 ? 4147瀏覽 ? 0回復(fù)
Kimi K2 智能體模型正式亮相！

PyTorch研習(xí)社 ? 7041瀏覽 ? 0回復(fù)
Kimi K2深度解析：萬億參數(shù)大模型的開源標(biāo)桿？

Halo咯咯 ? 6572瀏覽 ? 0回復(fù)
我花12小時深度實測，阿里Qwen-3 Coder被Kimi K2“吊打”！

探索AGI ? 7251瀏覽 ? 0回復(fù)
剛剛，Kimi K2 Thinking發(fā)布，多項能力超越GPT-5

算家計算 ? 500瀏覽 ? 0回復(fù)
Unsloth的Kimi K2 Thinking 本地運行實戰(zhàn)

sbf_2000 ? 1150瀏覽 ? 0回復(fù)
K2-Thinking背后的原生INT4量化的思考

NLP工作站 ? 549瀏覽 ? 0回復(fù)

AIGC新知

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學(xué)堂

實測K2-Thinking：我讓AI幫我寫了個Office全家桶！精華