国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

實測K2-Thinking:我讓AI幫我寫了個Office全家桶! 精華

發(fā)布于 2025-11-13 00:30
瀏覽
0收藏

前兩天Kimi上新了K2 Thinking模型,并且是開源且能思考的Thinking Agent。

經(jīng)過我這兩天的實際使用,K2-thinking在搜索+編程方面能力提升了,但是在實際編程過程中,搜索能力反倒成為一種輕微的負(fù)擔(dān),會出現(xiàn)短暫的卡頓現(xiàn)象,等待時間稍微有點長,消耗的token也降低了不少,我做了3個case,花費也才5塊錢左右。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

而且能夠在線編輯,支持基本樣式選擇。

以及word文檔編輯器、excel數(shù)據(jù)處理等等。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

也能做出一個英語學(xué)習(xí)平臺(后面會介紹)。

現(xiàn)在就可以在客戶端體驗了,直接按照下面這個方式操作。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

現(xiàn)在也可以在Claude code里面使用了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

關(guān)于我的更多體驗,看下面的內(nèi)容。

推理性能:硬撼 HLE 基準(zhǔn)

看Kimi官方的描述,Kimi K2 Thinking 在人類最后的考試(Humanity's Last Exam)中表現(xiàn)崽強,那你可能好奇問了,這個鬼測試到底是什么?

簡單介紹一下。

它是由全球近千名專家聯(lián)合打造的《Humanity’s Last Exam》(HLE)被譽為“人類最后一場閉卷考試”。包含了3000道高難度題目的多模態(tài)基準(zhǔn)測試,不僅挑戰(zhàn)AI的極限,更試圖為技術(shù)發(fā)展軌跡與風(fēng)險治理提供關(guān)鍵標(biāo)尺。

傳統(tǒng)AI測試基準(zhǔn)基本“失效”了,因為有一些模型拿著參考答案去通過基準(zhǔn)測試,沒有辦法保證榜單數(shù)據(jù)是否真實有效,反正是眾說紛紜。

HLE就不太一樣,沒有參考答案,題目完全來源于全球50個國家、500多家機構(gòu)的專家原創(chuàng)題目,難度水平達(dá)到研究生水平。

就說閉卷考試全靠模型自身實力了。

題目涵蓋數(shù)學(xué)、自然科學(xué)、人文等上百學(xué)科,全球頂尖模型(如GPT-4o、Claude 3.5)在HLE上的平均準(zhǔn)確率不足5%,錯誤答案的置信度高達(dá)80%以上,暴露出非常大的幻覺問題。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

引用:知乎@北方的郎

然后我找?guī)讉€例子吧。

案例一:帕爾米拉銘文翻譯

這是一個圖形推理題,要求翻譯一張墓碑上的帕爾米拉語銘文。

模型在不聯(lián)網(wǎng)情況下,需要基于已知的知識推理出墓碑銘文的意思。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

原提示詞:

Here is a representation of a Roman inscription, originally found on a tombstone. Provide a translation for the Palmyrene script. A transliteration of the text is provided: RGYN? BT ?RY BR ?T? ?BL

翻譯過來就是,???這是一段羅馬銘文的呈現(xiàn),最初發(fā)現(xiàn)于一塊墓碑上。請翻譯帕爾米拉語的銘文。 提供的文本轉(zhuǎn)寫為:RGYN? BT ?RY BR ?T? ?BL??

這難度可不小!圖片語言翻譯,尤其是生僻語言,是非常剛需的場景。

特別是一些跨境電商的老板,怎么能夠及時準(zhǔn)確的翻譯別國語言,是一個難點。

在K2 Thinking 不聯(lián)網(wǎng)的情況下,看看它的推理能力怎么樣。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

??,直接十幾秒就搞定了,這種難度的問題基本難不倒它了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

然后讓GPT-5的thinking模式試試。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

GPT5-thinking最終給出的結(jié)果非常迷惑,它只給了翻譯,沒有說明中文語境下的理解,而且對于不理解當(dāng)?shù)匚幕娜藖碚f,簡直就是天書。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

小結(jié):

翻譯了等于沒翻譯。相比之下,K2-Thinking 的理解和解釋更加直白易懂。

案例二:伯克利物理學(xué)難題

這是加州大學(xué)伯克利分校的凱文教授提出的一個物理學(xué)問題,涉及復(fù)雜的力學(xué)分析。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

大概翻譯過來就是:

一個物體放置在水平軌道上,它可以在上面無摩擦地滑動。
它連接在一根剛性、無質(zhì)量的桿的一端,桿的長度為 R。另一端連接著一個質(zhì)量塊。兩個物體的重量均為 W。
系統(tǒng)最初是靜止的,質(zhì)量塊直接位于物體上方。
質(zhì)量塊被給予一個沿軌道方向的無窮小推力。假設(shè)系統(tǒng)設(shè)計得當(dāng),桿可以無阻礙地旋轉(zhuǎn)360度。

當(dāng)桿水平時,它承受的張力為 T_1。當(dāng)桿再次垂直,質(zhì)量塊直接位于物體下方時,它承受的張力為 T_2。
(這兩個量都可能是負(fù)數(shù),這將表明桿處于壓縮狀態(tài)。)
(T_1?T_2)/W 的值是多少?

接下來看看它的推理過程,巨長!!!

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

最終的結(jié)果如下:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

讓GPT5-Thinking來做這道題,它用了1分47s。

但是標(biāo)準(zhǔn)模式下,它的答案是錯的。。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

只有當(dāng)我開啟了進階思考模式之后,他才會慢吞吞的幫我思考解答,用時3分鐘左右,只能看到其中部分的思考過程。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

對于用戶來說,用GPT5-Thinking不同模式會導(dǎo)致不同的答案,但是k2-thinking一次就搞定正確答案,確定就是k2-thinking的思考過程太長,等待時間過久了。

小結(jié):

K2-Thinking 一次就給出了正確答案,而 GPT-5 需要切換到特定模式。K2 的確定性更高,但缺點是思考過程太長,等待時間過久。

案例三:斯坦福化學(xué)難題

第三個是化學(xué)領(lǐng)域的元素問題,是斯坦福大學(xué)的Noah B教授提出的。

這基本是研究生水平以上的問題了(反正我是沒看懂)。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

題目可以給大家看一下。

如圖所展示的反應(yīng)是一個熱誘導(dǎo)的周環(huán)級聯(lián)反應(yīng),將起始的七烯轉(zhuǎn)化為內(nèi)安德酸B甲酯。該級聯(lián)反應(yīng)包括三個步驟:兩個電環(huán)化反應(yīng),隨后是一個環(huán)加成反應(yīng)。步驟1和步驟2中涉及的電環(huán)化反應(yīng)類型是什么,步驟3中涉及的環(huán)加成反應(yīng)類型是什么?

請以[nπ]-順旋或[nπ]-反旋的形式給出電環(huán)化反應(yīng)的答案(其中n是參與的π電子數(shù),以及它是順旋還是反旋),以[m+n]的形式給出環(huán)加成反應(yīng)的答案(其中m和n是每個組分上的原子數(shù))。

首先交給k2-thinking,它很快的給出了答案,智商絲毫不亞于研究生水平了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

GPT5-Thinking很快就給出了答案,答案也是準(zhǔn)確的。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

但是在我看來,k2-thinking更勝一籌,它的推理過程更加人性化,回答結(jié)果更加契合用戶的心理預(yù)期。

小結(jié):

在這題上,兩者都答對了。但我個人認(rèn)為 K2-Thinking 更勝一籌,它的推理過程更加人性化,回答結(jié)果更契合用戶的心理預(yù)期——我當(dāng)然希望 AI 能把問題解釋得通俗易懂,方便我理解。

搜索+瀏覽總結(jié)

搜索、瀏覽總結(jié)就不用多說,現(xiàn)在大部分的模型都已經(jīng)聯(lián)網(wǎng)了,也有各種不同程度的“深度研究”。

但是面對復(fù)雜問題,非常考驗深度搜索的能力。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

但是Kimi K2 Thinking 在OpenAI自己發(fā)布的BrowseComp基準(zhǔn)測試中超過GPT5模型。

在別人擅長的領(lǐng)域擊敗GPT5,爽!

這個模型還能做出多達(dá)上百步的“思考 → 搜索→ 瀏覽網(wǎng)頁 → 思考 → 編程”動態(tài)循環(huán)。。。

你還別說,找難題難為AI,我有辦法。

案例一:復(fù)雜的足球比賽檢索

要求智能體找出在1990年至1994年期間,由巴西裁判執(zhí)法的比賽,其中兩支球隊共收到四張黃牌(每隊兩張),其中三張黃牌不是在上半場發(fā)出的,并且有四次換人,其中一次是在比賽前25分鐘因傷換人。

這完全考驗搜索能力+總結(jié)能力了。答案是:愛爾蘭對羅馬尼亞。

先讓K2 Thinking來秀一下,答案是準(zhǔn)確的。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

然后是GPT5-Thinking模型的表現(xiàn)。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

小結(jié):

在這塊,我覺得 GPT-5 Thinking 更加優(yōu)秀,它給出的信息更準(zhǔn)確,條理也更清晰。

案例二:全網(wǎng)檢索小眾論文

考驗深度搜索下鉆的能力,那就看看它能不能找到那些特別冷門、小眾的內(nèi)容。

找一篇在2023年6月之前發(fā)表的研究論文,該論文涉及文化傳統(tǒng)、科學(xué)過程和烹飪創(chuàng)新,并由三位作者共同撰寫。其中一位作者是來自西孟加拉邦的助理教授,另一位擁有博士學(xué)位。

答案是《面包制作的基礎(chǔ):面包的科學(xué)》。

K2 Thinking會進行多輪的搜索+思考驗證,不過最終還是沒有找到這篇論文。

不過從側(cè)面可以看到,K2 Thinking是真的進行了思考、推理+驗證。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

GPT5-Thinking它確實找到了。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

小結(jié):

這局 GPT-5 勝出。不過這可能主要還是信源和網(wǎng)絡(luò)問題,這篇論文在海外發(fā)布,非常小眾。

Agentic 編程

現(xiàn)在其實可以直接在Claude code里面調(diào)用K2 Thinking。

常用的是一個叫 CC-swith的插件,它可以無縫切換多個模型廠商。

直接打開CC-swith,切換到K2 Thinking模型,如下圖,直接本地?zé)o需自己改配置。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

然后在首頁切換模型即可。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

在vs code打開終端。

輸入???/model?? 即可查看當(dāng)前模型。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

現(xiàn)在摁下Tab健就可以開啟思考模式(右下角)。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

在開啟思考模式的前提下,我讓它執(zhí)行了兩個復(fù)雜任務(wù)。

案例一:搭建英語學(xué)習(xí)網(wǎng)站

幫我創(chuàng)建一個高中英語的學(xué)習(xí)網(wǎng)站,每天監(jiān)督學(xué)生打卡,每日學(xué)會一個單詞,以及內(nèi)置的課程庫資源等等。

它會一邊思考一邊規(guī)劃任務(wù),然后一邊執(zhí)行。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

比如這樣的:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

最終它生成了一個自帶數(shù)據(jù)庫、可交互、完成度達(dá)到95%的英語學(xué)習(xí)網(wǎng)站。

如下是平臺首頁速覽:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

如下是平臺的課程庫,里面是支持課程檢索(每個課程都是有真實數(shù)據(jù)的)

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

案例二:創(chuàng)建網(wǎng)頁版 Office 套件

接下來這個工程量就更大了。

我使用Claude skills去創(chuàng)建網(wǎng)頁版的office。

請你使用document-skills創(chuàng)建一個網(wǎng)頁版的office,包含docx,pptx,excel,pdf的基本操作,包含document-skills的技能,能夠完成日常的一些基本操作。

不過,沒有讓我失望,直接幫我搞了一個網(wǎng)頁版的辦公套件。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

比如word文檔在線編輯器是這樣的:

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

以及在線的excel表格編輯器。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

肯定少不了演示文稿,也能在線編輯。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

還有PDF編輯器。

實測K2-Thinking:我讓AI幫我寫了個Office全家桶!-AI.x社區(qū)

寫在最后

Kimi K2 Thinking 的 Agentic 編程能力和深度推理能力確實令人印象深刻,尤其是在理解復(fù)雜需求并將其分解執(zhí)行方面。

它生成的答案和代碼完成度(達(dá)到95%)非常高,且在 HLE 測試中展現(xiàn)的“人性化”理解力優(yōu)于 GPT-5 Thinking。

雖然在搜索和編程過程中會有些許卡頓,但考慮到其極高的性價比,K2 Thinking 絕對是目前 AI 領(lǐng)域一個強有力的競爭者。

期待Kimi未來的發(fā)展。

本文轉(zhuǎn)載自??AIGC新知??,作者:絳燁

標(biāo)簽
已于2025-11-13 10:40:38修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
亚洲精品一区二区三区婷婷月 | 成人h在线播放| 成人自拍在线| 91久久久亚洲精品| 欧美.www| 一本色道久久综合亚洲二区三区| 91黄色免费观看| 亚洲国产aⅴ精品一区二区| 国产精品自拍偷拍| 色a资源在线| 自拍视频在线网| 日韩一区二区电影| 四虎影视国产精品| 国产精品久久不能| 老司机免费视频一区二区三区| 日韩精品一区二区三区电影| 精品极品在线| 精品久久一区二区三区| 久久精品福利视频| 欧美极品在线观看| 亚洲欧美日韩精品久久久| 亚洲淫片在线视频| 亚洲性图自拍| 亚洲精品女av网站| 另类小说综合欧美亚洲| 免费高清在线| 国产婷婷色综合av蜜臀av| 久久中文字幕一区二区三区| av在线日韩| 成人女性文胸| 国产v亚洲v天堂无码| 亚洲国产日韩a在线播放性色| 国产精品一区电影| 亚洲女爱视频在线| 欧美 日韩 亚洲 一区| 国产麻花豆剧传媒精品mv在线| 悠悠资源网亚洲青| 欧美视频13p| 中文字幕第50页| 国内精品久久久久影院色| 黄色一级视频播放| 欧美国产日韩一二三区| free性亚洲| 精品国产a毛片| 一区三区自拍| 蜜桃麻豆www久久国产精品| av成人影院在线| 欧美日韩国产精品自在自线| 91精品国产高清久久久久久91| 91精品国产自产在线观看永久∴ | 久久99国产精品成人| 中文字幕毛片| 91高潮在线观看| 国产欧美va欧美不卡在线| 国产一区二区三区视频在线| 成人久久一区二区| 国产欧美中文在线| 成人片免费看| 日韩中文字幕视频网| 日本免费高清不卡| 亚洲一区二区精品久久av| 国产精久久久| 国产精品美女黄网| 色又黄又爽网站www久久| 日本亚洲不卡| 男人久久精品| 91亚洲精品在线| 一区二区三区在线看| 亚洲精品v亚洲精品v日韩精品| 无码内射中文字幕岛国片| 麻豆成人综合网| 精产国产伦理一二三区| 奇米四色中文综合久久| 亚洲一区在线视频| 久久99精品久久久久久园产越南| 国产在线自天天| 狠狠色狠狠色综合人人| 色婷婷av一区二区三区之一色屋| 国产一区二区三区久久| 国产高清在线| 色综合久久久久综合体| 蜜桃精品视频在线| www 久久久| 黄色激情网站| 国产伦精品一区二区| 国产黄色大片在线观看| 日本精品二区| 在线一区二区日韩| 国产精品不卡一区二区三区| 日韩 欧美一区二区三区| 97精品国产99久久久久久免费| 激情五月色综合亚洲小说| 国产精品劲爆视频| 欧美日韩亚洲综合| 久久精品国语| 综合久久av| 免费看男男www网站入口在线| 久久av免费一区| 91亚洲va在线va天堂va国| 亚洲男人av在线| 久久久久国产精品麻豆ai换脸| 理论片一区二区在线| 欧美激情区在线播放| 亚洲综合在线免费观看| 久88久久88久久久| 亚洲免费观看高清完整版在线观| 欧美777四色影视在线| 国产肥臀一区二区福利视频| 亚洲美女在线国产| 日韩电影在线免费| 性欧美1819sex性高清| 韩国免费在线视频| 亚洲欧洲国产一区| 九九在线精品视频| 日韩电影免费在线看| 色婷婷成人网| 成人性生交大片免费网站 | 亚洲激情久久| 福利一区二区| 亚洲区欧洲区| 男女视频在线观看| 3dmax动漫人物在线看| 日韩欧美亚洲精品| 久久青青草综合| caoporn国产精品免费公开| 国产成人精品免费在线| 91黄色在线| 高清av电影在线观看| 成人福利在线| 自由色视频.| 日韩毛片在线一区二区毛片| caoporn超碰97| 成人av一级片| 色一情一乱一伦一区二区三区丨 | 久久精品人成| 国产精品极品美女在线观看免费| 99在线免费观看视频| 青青成人在线| 欧美激情论坛| 热久久99这里有精品| 久久久99精品免费观看不卡| 欧美精品日韩| 精品国产乱码久久久久久1区2匹| 亚洲激情婷婷| 青草av.久久免费一区| 成人国产视频在线观看| av中文字幕不卡| 久久精品欧美一区二区三区不卡 | 在线播放 亚洲| 18成人免费观看网站下载| 91精品久久久久久蜜桃| 日本午夜一区二区三区| 亚洲资源在线网| 久久成人福利视频| 韩国一区二区av| 国产字幕中文| 欧美r片在线| av片哪里在线观看| 中文字幕久久精品一区二区| 欧美日韩123| 久久不射网站| ww久久中文字幕| av电影天堂一区二区在线观看| 国产精品视频yy9299一区| 亚洲一区二区三区在线| 亚洲高清久久久| 亚洲永久网站| 午夜综合激情| 日韩精品久久久久久| 日韩精品高清不卡| 欧美国产精品一区二区| 亚洲国产另类av| www.久久撸.com| 久久久久久久国产| 欧美理论一区二区| 先锋影音资源999| 欧美xo影院| 一本久道久久综合狠狠爱| 成人免费毛片片v| 欧美日韩另类在线| 精品福利一区二区三区免费视频| 国产91色在线| 日韩一区二区三区电影在线观看| 伊人久久综合97精品| 欧美怡春院一区二区三区| 欧美一区1区三区3区公司| 日韩欧美亚洲一区| 欧美激情福利| 国产日韩精品视频一区| 国产亚洲美女精品久久久| 国产无套精品一区二区| 情侣黄网站免费看| 免费污视频在线| 亚洲专区一区| 亚洲欧美经典视频| 国产亚洲精品成人av久久ww| 欧美精品成人在线| 5278欧美一区二区三区| 三级在线免费观看| 久久久久久青草|