大模型做表這件事!
看到了一有意思的網站,就是下面這個滿屏奇奇怪怪的表。
這些表都是大模型實時生成的,每分鐘生成一次。
當你打開這個網站 https://clocks.brianmoore.com/ 的時候,看到的結果肯定和我截的這張圖是不一樣的了。
圖片
我觀察了幾次生成的結果,發現其中的 Gemini2.5、 GROK 4、DeepSeek V3.1 和 Kimi k2 的成功率還是挺高的,其他模型基本沒有成功過,包括 GPT-5。
當我寫下這行的時候,我再打開看的時候,GPT-5 變成了下面這個樣子。
圖片
GPT-5 明明能力很強,但是卻連一塊兒表都完成不了,可見任何一個大模型都有短板。
提示詞和token相關性
前兩天 Gemini 3 剛發布的時候,我用 Gemini 3 復刻過一個時鐘,一次成功,而且還原率非常高,按道理這應該不算什么復雜的需求啊。
下面是我在 Gemini 3中做的一個時鐘,效果OK,功能正常。
圖片
同樣的提示詞,我又在 ChatGPT、DeepSeek剛發布的 V3.2、Claude Sonnet 4.5、Kimi 、Qwen 3 Max 中試了一下。
Claude Sonnet 4.5 的效果。
圖片
ChatGPT 效果,當然了,我不是會員,這個是什么版本我不太確定,可能是 4o,但是GPT 確實不太擅長做表。
圖片
Kimi k2 效果,雖然能工作,樣式也過得去,但是復刻肯定達不到,連數字都改了。
圖片
Qwen3-Max 效果,有點差強人意啊。
圖片
DeepSeek 不是剛升級到 v3.2嗎,我看測評分數很高,但是我測了兩遍,效果還是不太好,難道網頁版是降智慧了的?
圖片
以上是在有參考圖的前提下,并且沒有要求 token 數量,可以說是開卷考試了。
經過以上測試,Gemini 3 和 Claude Sonnet 4.5 可以說是不分伯仲,Kimi k2 、 DeepSeek、ChatGPT 勉強完成,而 Qwen-3 沒有完成。
但剛才說到的那個網站的提示詞是公開的,它限制每個模型只允許2000 token以內。
Create HTML/CSS of an analog clock showing ${time}. Include numbers (or numerals) if you wish, and have a CSS animated second hand. Make it responsive and use a white background. Return ONLY the HTML/CSS code with no markdown formatting.
圖片
于是我又測了一遍。
Gemini 3 的效果,可以說是近乎完美。
圖片
Claude Sonnet 4.5 的效果,基本功能有,但是樣式差點以上,還有上面12刻度的位置有點兒減分。
圖片
DeepSeek v3.2 的效果,和 Claude Sonnet 4.5 差不多,為什么12癲刻度都是這樣子呢?
圖片
Kimi k2 的效果,不太樂觀。
圖片
Qwen3-Max 就一言難盡了,它不僅不能直接輸出頁面預覽了,而且我讓他給我源碼,它都給不了,可惜,我沒有API,不過,這網頁版的交互也多少差點意思吧。
圖片
用不加參考圖的提示詞,Gemini 3 仍然最好的,Qwen3最差。



























