国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

實測K2-Thinking:我讓AI幫我寫了個Office全家桶! 精華

發(fā)布于 2025-11-13 00:30
瀏覽
0收藏

前兩天Kimi上新了K2 Thinking模型,并且是開源且能思考的Thinking Agent。

經(jīng)過我這兩天的實際使用,K2-thinking在搜索+編程方面能力提升了,但是在實際編程過程中,搜索能力反倒成為一種輕微的負(fù)擔(dān),會出現(xiàn)短暫的卡頓現(xiàn)象,等待時間稍微有點長,消耗的token也降低了不少,我做了3個case,花費也才5塊錢左右。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

而且能夠在線編輯,支持基本樣式選擇。

以及word文檔編輯器、excel數(shù)據(jù)處理等等。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

也能做出一個英語學(xué)習(xí)平臺(后面會介紹)。

現(xiàn)在就可以在客戶端體驗了,直接按照下面這個方式操作。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

現(xiàn)在也可以在Claude code里面使用了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

關(guān)于我的更多體驗,看下面的內(nèi)容。

推理性能:硬撼 HLE 基準(zhǔn)

看Kimi官方的描述,Kimi K2 Thinking 在人類最后的考試(Humanity's Last Exam)中表現(xiàn)崽強,那你可能好奇問了,這個鬼測試到底是什么?

簡單介紹一下。

它是由全球近千名專家聯(lián)合打造的《Humanity’s Last Exam》(HLE)被譽為“人類最后一場閉卷考試”。包含了3000道高難度題目的多模態(tài)基準(zhǔn)測試,不僅挑戰(zhàn)AI的極限,更試圖為技術(shù)發(fā)展軌跡與風(fēng)險治理提供關(guān)鍵標(biāo)尺。

傳統(tǒng)AI測試基準(zhǔn)基本“失效”了,因為有一些模型拿著參考答案去通過基準(zhǔn)測試,沒有辦法保證榜單數(shù)據(jù)是否真實有效,反正是眾說紛紜。

HLE就不太一樣,沒有參考答案,題目完全來源于全球50個國家、500多家機構(gòu)的專家原創(chuàng)題目,難度水平達(dá)到研究生水平。

就說閉卷考試全靠模型自身實力了。

題目涵蓋數(shù)學(xué)、自然科學(xué)、人文等上百學(xué)科,全球頂尖模型(如GPT-4o、Claude 3.5)在HLE上的平均準(zhǔn)確率不足5%,錯誤答案的置信度高達(dá)80%以上,暴露出非常大的幻覺問題。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

引用:知乎@北方的郎

然后我找?guī)讉€例子吧。

案例一:帕爾米拉銘文翻譯

這是一個圖形推理題,要求翻譯一張墓碑上的帕爾米拉語銘文。

模型在不聯(lián)網(wǎng)情況下,需要基于已知的知識推理出墓碑銘文的意思。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

原提示詞:

Here is a representation of a Roman inscription, originally found on a tombstone. Provide a translation for the Palmyrene script. A transliteration of the text is provided: RGYN? BT ?RY BR ?T? ?BL

翻譯過來就是,???這是一段羅馬銘文的呈現(xiàn),最初發(fā)現(xiàn)于一塊墓碑上。請翻譯帕爾米拉語的銘文。 提供的文本轉(zhuǎn)寫為:RGYN? BT ?RY BR ?T? ?BL??

這難度可不小!圖片語言翻譯,尤其是生僻語言,是非常剛需的場景。

特別是一些跨境電商的老板,怎么能夠及時準(zhǔn)確的翻譯別國語言,是一個難點。

在K2 Thinking 不聯(lián)網(wǎng)的情況下,看看它的推理能力怎么樣。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

??,直接十幾秒就搞定了,這種難度的問題基本難不倒它了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

然后讓GPT-5的thinking模式試試。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

GPT5-thinking最終給出的結(jié)果非常迷惑,它只給了翻譯,沒有說明中文語境下的理解,而且對于不理解當(dāng)?shù)匚幕娜藖碚f,簡直就是天書。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

小結(jié):

翻譯了等于沒翻譯。相比之下,K2-Thinking 的理解和解釋更加直白易懂。

案例二:伯克利物理學(xué)難題

這是加州大學(xué)伯克利分校的凱文教授提出的一個物理學(xué)問題,涉及復(fù)雜的力學(xué)分析。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

大概翻譯過來就是:

一個物體放置在水平軌道上,它可以在上面無摩擦地滑動。
它連接在一根剛性、無質(zhì)量的桿的一端,桿的長度為 R。另一端連接著一個質(zhì)量塊。兩個物體的重量均為 W。
系統(tǒng)最初是靜止的,質(zhì)量塊直接位于物體上方。
質(zhì)量塊被給予一個沿軌道方向的無窮小推力。假設(shè)系統(tǒng)設(shè)計得當(dāng),桿可以無阻礙地旋轉(zhuǎn)360度。

當(dāng)桿水平時,它承受的張力為 T_1。當(dāng)桿再次垂直,質(zhì)量塊直接位于物體下方時,它承受的張力為 T_2。
(這兩個量都可能是負(fù)數(shù),這將表明桿處于壓縮狀態(tài)。)
(T_1?T_2)/W 的值是多少?

接下來看看它的推理過程,巨長!!!

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

最終的結(jié)果如下:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

讓GPT5-Thinking來做這道題,它用了1分47s。

但是標(biāo)準(zhǔn)模式下,它的答案是錯的。。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

只有當(dāng)我開啟了進階思考模式之后,他才會慢吞吞的幫我思考解答,用時3分鐘左右,只能看到其中部分的思考過程。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

對于用戶來說,用GPT5-Thinking不同模式會導(dǎo)致不同的答案,但是k2-thinking一次就搞定正確答案,確定就是k2-thinking的思考過程太長,等待時間過久了。

小結(jié):

K2-Thinking 一次就給出了正確答案,而 GPT-5 需要切換到特定模式。K2 的確定性更高,但缺點是思考過程太長,等待時間過久。

案例三:斯坦福化學(xué)難題

第三個是化學(xué)領(lǐng)域的元素問題,是斯坦福大學(xué)的Noah B教授提出的。

這基本是研究生水平以上的問題了(反正我是沒看懂)。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

題目可以給大家看一下。

如圖所展示的反應(yīng)是一個熱誘導(dǎo)的周環(huán)級聯(lián)反應(yīng),將起始的七烯轉(zhuǎn)化為內(nèi)安德酸B甲酯。該級聯(lián)反應(yīng)包括三個步驟:兩個電環(huán)化反應(yīng),隨后是一個環(huán)加成反應(yīng)。步驟1和步驟2中涉及的電環(huán)化反應(yīng)類型是什么,步驟3中涉及的環(huán)加成反應(yīng)類型是什么?

請以[nπ]-順旋或[nπ]-反旋的形式給出電環(huán)化反應(yīng)的答案(其中n是參與的π電子數(shù),以及它是順旋還是反旋),以[m+n]的形式給出環(huán)加成反應(yīng)的答案(其中m和n是每個組分上的原子數(shù))。

首先交給k2-thinking,它很快的給出了答案,智商絲毫不亞于研究生水平了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

GPT5-Thinking很快就給出了答案,答案也是準(zhǔn)確的。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

但是在我看來,k2-thinking更勝一籌,它的推理過程更加人性化,回答結(jié)果更加契合用戶的心理預(yù)期。

小結(jié):

在這題上,兩者都答對了。但我個人認(rèn)為 K2-Thinking 更勝一籌,它的推理過程更加人性化,回答結(jié)果更契合用戶的心理預(yù)期——我當(dāng)然希望 AI 能把問題解釋得通俗易懂,方便我理解。

搜索+瀏覽總結(jié)

搜索、瀏覽總結(jié)就不用多說,現(xiàn)在大部分的模型都已經(jīng)聯(lián)網(wǎng)了,也有各種不同程度的“深度研究”。

但是面對復(fù)雜問題,非常考驗深度搜索的能力。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

但是Kimi K2 Thinking 在OpenAI自己發(fā)布的BrowseComp基準(zhǔn)測試中超過GPT5模型。

在別人擅長的領(lǐng)域擊敗GPT5,爽!

這個模型還能做出多達(dá)上百步的“思考 → 搜索→ 瀏覽網(wǎng)頁 → 思考 → 編程”動態(tài)循環(huán)。。。

你還別說,找難題難為AI,我有辦法。

案例一:復(fù)雜的足球比賽檢索

要求智能體找出在1990年至1994年期間,由巴西裁判執(zhí)法的比賽,其中兩支球隊共收到四張黃牌(每隊兩張),其中三張黃牌不是在上半場發(fā)出的,并且有四次換人,其中一次是在比賽前25分鐘因傷換人。

這完全考驗搜索能力+總結(jié)能力了。答案是:愛爾蘭對羅馬尼亞。

先讓K2 Thinking來秀一下,答案是準(zhǔn)確的。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

然后是GPT5-Thinking模型的表現(xiàn)。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

小結(jié):

在這塊,我覺得 GPT-5 Thinking 更加優(yōu)秀,它給出的信息更準(zhǔn)確,條理也更清晰。

案例二:全網(wǎng)檢索小眾論文

考驗深度搜索下鉆的能力,那就看看它能不能找到那些特別冷門、小眾的內(nèi)容。

找一篇在2023年6月之前發(fā)表的研究論文,該論文涉及文化傳統(tǒng)、科學(xué)過程和烹飪創(chuàng)新,并由三位作者共同撰寫。其中一位作者是來自西孟加拉邦的助理教授,另一位擁有博士學(xué)位。

答案是《面包制作的基礎(chǔ):面包的科學(xué)》。

K2 Thinking會進行多輪的搜索+思考驗證,不過最終還是沒有找到這篇論文。

不過從側(cè)面可以看到,K2 Thinking是真的進行了思考、推理+驗證。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

GPT5-Thinking它確實找到了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

小結(jié):

這局 GPT-5 勝出。不過這可能主要還是信源和網(wǎng)絡(luò)問題,這篇論文在海外發(fā)布,非常小眾。

Agentic 編程

現(xiàn)在其實可以直接在Claude code里面調(diào)用K2 Thinking。

常用的是一個叫 CC-swith的插件,它可以無縫切換多個模型廠商。

直接打開CC-swith,切換到K2 Thinking模型,如下圖,直接本地?zé)o需自己改配置。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

然后在首頁切換模型即可。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

在vs code打開終端。

輸入???/model?? 即可查看當(dāng)前模型。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

現(xiàn)在摁下Tab健就可以開啟思考模式(右下角)。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

在開啟思考模式的前提下,我讓它執(zhí)行了兩個復(fù)雜任務(wù)。

案例一:搭建英語學(xué)習(xí)網(wǎng)站

幫我創(chuàng)建一個高中英語的學(xué)習(xí)網(wǎng)站,每天監(jiān)督學(xué)生打卡,每日學(xué)會一個單詞,以及內(nèi)置的課程庫資源等等。

它會一邊思考一邊規(guī)劃任務(wù),然后一邊執(zhí)行。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

比如這樣的:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

最終它生成了一個自帶數(shù)據(jù)庫、可交互、完成度達(dá)到95%的英語學(xué)習(xí)網(wǎng)站。

如下是平臺首頁速覽:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

如下是平臺的課程庫,里面是支持課程檢索(每個課程都是有真實數(shù)據(jù)的)

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

案例二:創(chuàng)建網(wǎng)頁版 Office 套件

接下來這個工程量就更大了。

我使用Claude skills去創(chuàng)建網(wǎng)頁版的office。

請你使用document-skills創(chuàng)建一個網(wǎng)頁版的office,包含docx,pptx,excel,pdf的基本操作,包含document-skills的技能,能夠完成日常的一些基本操作。

不過,沒有讓我失望,直接幫我搞了一個網(wǎng)頁版的辦公套件。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

比如word文檔在線編輯器是這樣的:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

以及在線的excel表格編輯器。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

肯定少不了演示文稿,也能在線編輯。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

還有PDF編輯器。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

寫在最后

Kimi K2 Thinking 的 Agentic 編程能力和深度推理能力確實令人印象深刻,尤其是在理解復(fù)雜需求并將其分解執(zhí)行方面。

它生成的答案和代碼完成度(達(dá)到95%)非常高,且在 HLE 測試中展現(xiàn)的“人性化”理解力優(yōu)于 GPT-5 Thinking。

雖然在搜索和編程過程中會有些許卡頓,但考慮到其極高的性價比,K2 Thinking 絕對是目前 AI 領(lǐng)域一個強有力的競爭者。

期待Kimi未來的發(fā)展。

本文轉(zhuǎn)載自??AIGC新知??,作者:絳燁

標(biāo)簽
已于2025-11-13 10:40:38修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产一区二区三区四区五区在线 | 99免费精品| 韩国v欧美v日本v亚洲v| 六月婷婷在线视频| 国产欧美一区二区三区米奇| 欧美三级在线播放| 成人伦理视频网站| 欧美日韩一级片在线观看| 久草在线在线| 亚洲一区二区视频| 欧美黑人经典片免费观看| 亚洲国产综合在线看不卡| 国产欧美 在线欧美| 三上悠亚av一区二区三区| 国产精品亚洲产品| 亚洲欧美日韩国产中文在线| 九色91popny| 蜜臀久久99精品久久久久久9 | 最新天堂资源在线资源| 一区二区日韩av| 欧美激情一区二区三区在线视频观看 | 99九九99九九九视频精品| 青娱乐国产91| 亚洲一区中文| 久久99导航| 久久激情视频| 日韩激情视频| 久久尤物视频| 日本一区二区免费看| 日韩国产高清影视| 色乱码一区二区三区熟女| 久久精品国产999大香线蕉| 日韩欧美国产二区| 久久精品国产在热久久| 国产免费色视频| 国产成人午夜电影网| 国产奶头好大揉着好爽视频| 国产精品白丝av| 欧美国产日韩激情| 成人av资源站| 色一情一乱一伦一区二区三区日本| 337p粉嫩大胆噜噜噜噜噜91av| 无码人妻精品一区二区三区66| 国产欧美综合色| 99不卡视频| 偷窥少妇高潮呻吟av久久免费| 天堂资源中文在线| 欧美高清视频不卡网| av免费在线观看网址| 亚洲国产精品国自产拍av秋霞| 高端美女服务在线视频播放| 中日韩午夜理伦电影免费| 伊人久久影院| 成人福利免费观看| 老司机精品视频网站| 国产精品视频网站在线观看| 国产精品美女久久久久久久网站| 黄动漫网站在线观看| 在线观看欧美黄色| 成人欧美一区二区三区的电影| 欧美第一淫aaasss性| 色综合咪咪久久网| 亚洲国产另类久久久精品极度| 99re这里只有精品首页| 中文字幕校园春色| 亚洲高清久久久久久| 亚洲国产欧美国产第一区| 国产欧美 在线欧美| 免费成人你懂的| 国产日韩一区二区在线观看| 香蕉久久一区二区不卡无毒影院 | 免费日韩av| 日韩欧美视频免费在线观看| 国产精品美女www爽爽爽| 能在线看的av| 色99之美女主播在线视频| 人人狠狠综合久久亚洲婷| 亚洲精品一区二区三区四区五区| 国产精品乱人伦中文| 午夜视频在线观看免费视频| 久久久精品国产| 欧美日韩一区自拍| 乱妇乱女熟妇熟女网站| 欧美影院一区二区| 97久久中文字幕| 国产视频一区二区不卡| 97久久精品人人做人人爽| 国产精品久久一区二区三区不卡| 国产性色av一区二区| 婷婷久久国产对白刺激五月99| 一本一道久久a久久综合精品| 亚洲乱码日产精品bd| xxxx视频在线| 国产精品黄视频| 成人性生交大合| 免费在线视频欧美| 91av在线播放| 国产一区二区三区在线观看精品| 中文字幕123| 中文字幕成人精品久久不卡| 91久久视频| 天堂中文av| 久久精品成人一区二区三区| 亚洲在线免费| 在线看片你懂得| 欧美激情视频免费观看| 久久成人羞羞网站| 日本在线免费| 日本一区二区三区在线播放| 99在线精品一区二区三区| xxxx视频在线| 黑人另类av| 精品久久久久久久久久久久久久 | 国产毛片精品| 日本成人在线不卡| 欧美日韩久久久久久| 蜜乳av综合| 欧美伦理片在线观看| 亚洲欧美成人网| 青草av.久久免费一区| jizz在线免费观看| 国产精品大陆在线观看| 久久久综合视频| 欧美人体一区二区三区| 欧美日韩精品久久| 欧美在线三级电影| 希岛爱理av一区二区三区| 欧美高清xxxxxkkkkk| 18性欧美xxxⅹ性满足| 国产区在线观看成人精品| 日本在线啊啊| 日本一区二区三区视频在线观看| 欧美午夜无遮挡| 红桃视频在线观看一区二区| 日本激情视频在线| 久久久久久国产| 中文字幕 久热精品 视频在线| 亚洲精品成a人ⅴ香蕉片| 欧美高清中文字幕| 中文字幕亚洲无线码在线一区| 福利视频网站一区二区三区| 91精品国产66| 成熟老妇女视频| 午夜精品久久久久久久99热浪潮| 国产精品私房写真福利视频| 亚州综合一区| 免费高清在线| 亚洲一区二区三区视频| 色综合久久99| 99视频一区| segui88久久综合9999| 国产盗摄视频在线观看| 日韩av在线网址| 国产在线视频不卡二| 成人免费一区| 久久久久久久少妇| 国产成人综合久久| 色视频欧美一区二区三区| 在线播放日韩| 成人在线高清免费| 免费视频爱爱太爽了| 欧美激情亚洲自拍| 亚洲成人福利片| 亚洲免费播放| 色婷婷综合久久久中字幕精品久久| 九九爱精品视频| 欧美在线视频观看| 日韩欧美黄色动漫| 美女一区二区三区在线观看| 亚洲国产伊人| 91美女在线| 精品国产一区二区三| 日韩精品中文字幕久久臀| 国产午夜精品福利| 一本到12不卡视频在线dvd| 亚洲小说区图片| 国产午夜福利视频在线观看| 国产欧美日韩精品在线观看| 日韩天堂在线观看| 91原创在线视频| 欧美大黑bbbbbbbbb在线| 天天色天天射天天综合网| 日本精品一区在线观看| 91精品久久久久久久久久久| 精品久久国产老人久久综合| 337p粉嫩大胆色噜噜噜噜亚洲| 国产精品一在线观看| 亚洲xxxxxx| 成人免费毛片网| 成人免费在线视频网址| 精品国产sm最大网站| 国产欧美日韩中文久久| 亚洲成人三区| 欧美va在线观看| 桃乃木かなav在线播放| 99re99热| 91久久久久久久久久久| 色久欧美在线视频观看| 性欧美疯狂xxxxbbbb| 精品午夜一区二区三区在线观看|