国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型也能搞定螺絲釘?!MIT頂會論文讓AI學會工業CAD軟件操作

人工智能 新聞
研究團隊沒有選擇讓 AI 去閱讀枯燥的軟件手冊,而是通過逆向工程,讓機器觀看并學習如何像人類工程師一樣操作 Onshape 這樣的專業 CAD 平臺。

麻省理工學院 (MIT) 團隊在頂會 NeurIPS 2025 發布的 VideoCAD 研究,用 41,000 多個視頻數據證明了當前頂尖大模型在處理專業工程軟件時的無能為力,并給出了從視頻中學習復雜三維交互的解決方案。

當前的人工智能擅長在二維屏幕上聊天、畫圖甚至寫代碼,當面對需要精密操作和三維空間邏輯的工業軟件,它們瞬間變成了文盲。

計算機輔助設計 (CAD) 軟件是現代工業的基石,從手機外殼到航空發動機的設計都離不開它。

這類軟件的操作邏輯與我們習慣的網頁點擊或手機滑動截然不同,它要求用戶在腦海中構建三維模型,并通過數百個菜單、快捷鍵和鼠標動作將其實現在二維屏幕上。

這種長視界 (Long-Horizon)、高精度的交互過程,是目前 AI 智能體難以逾越的鴻溝。

VideoCAD 填補這一空白。

研究團隊沒有選擇讓 AI 去閱讀枯燥的軟件手冊,而是通過逆向工程,讓機器觀看并學習如何像人類工程師一樣操作 Onshape 這樣的專業 CAD 平臺。

精密工程軟件的交互壁壘

要理解 VideoCAD 的價值,得先看清它試圖攻克的堡壘有多堅固。

普通的互聯網應用,無論是點外賣還是刷視頻,其 UI 交互通常是短鏈路的,用戶的每一步操作往往直接對應一個明確的結果,且容錯率極高。點錯了一個按鈕,退回去重選即可。

工業級 CAD 軟件則完全不同。

SolidWorks、Autodesk Inventor 或 PTC Onshape 等平臺,擁有成百上千個工具欄選項。

一個簡單的在立方體上打孔的操作,涉及選擇正確的平面、繪制草圖、定義圓心坐標、設置直徑約束、退出草圖模式、選擇拉伸切除工具、設置深度參數等一系列步驟。

這一連串動作具有極強的依賴性,第一步選錯了平面,后面所有的精細操作都是無用功。

更棘手的是,這些操作發生在一個基于 WebGL 或 OpenGL 的畫布上。

對于 AI 來說,網頁上的按鈕是可以通過文檔對象模型 (DOM) 代碼讀取的文本標簽,但 CAD 畫布只是一堆像素。

要在這里進行操作,AI 必須像人眼一樣,通過視覺判斷哪里是模型的邊緣,哪里是圓心,并輸出精確的 (x, y) 像素坐標。

現有的 AI 訓練數據集,大多集中在安卓手機操作或簡單的網頁瀏覽,根本沒有觸及這種需要深度三維空間理解和像素級精準操控的領域。

VideoCAD 選擇了 Onshape 這個基于瀏覽器的云端 CAD 平臺作為切入點,正是為了在標準化的環境中攻克這一難題。

為了教會 AI 使用 CAD,最直接的方法是找幾千個工程師,錄下他們工作的視頻。這在成本和時間上都是不現實的。

MIT 的研究團隊采用了一種極其巧妙的逆向生成策略,構建了一個自動化工廠來生產數據。

數據的源頭是 DeepCAD,這是一個包含 178,000 個由人類設計師創建的參數化 CAD 模型的數據集。

這些模型本身不僅是最終的三維形狀,還包含了完整的構建歷史 (Construction Sequence)。

研究者關注的是其中最具挑戰性的多重拉伸 (Multi-extrusion) 序列,這類模型涉及多次草圖繪制和實體拉伸,結構復雜,更能體現工業設計的邏輯。

有了設計圖紙,下一步是讓機器表演出來。

研究團隊開發了一套混合自動化框架。

對于菜單點擊、對話框輸入等標準 UI 操作,系統使用 Selenium 技術,直接操控瀏覽器的 DOM 元素;對于畫布上的草圖繪制,則使用 PyAutoGUI 進行像素級的鼠標模擬。

由于 Onshape 并沒有提供公開的繪圖 API,這種模擬必須精確到毫秒和像素。

為了讓生成的數據不僅僅是冷冰冰的機器指令,研究者在自動化腳本中注入了人類靈魂。

真實的工程師在操作時會有猶豫,會有反復確認。

因此,數據生成過程中加入了隨機延遲,在 0.2 到 0.5 秒之間浮動。

在選擇草圖平面時,腳本不會機械地永遠點中心,而是隨機采樣表面上的點。

當遇到難以選中的微小特征時,自動化腳本甚至會執行縮放操作,模擬人類放大視圖以進行精確輸入的行為。

這套系統在 64 個云端虛擬機上日夜不停地運行,以 60 幀/秒的規格錄制全分辨率視頻。

經過一周的運轉,生成了超過 118 天長度的視頻素材。

隨后,系統對這些視頻進行了嚴苛的質量控制。

每一條生成的視頻對應的最終 CAD 模型,都會被渲染成等軸測視圖,并與原始 DeepCAD 模型的渲染圖進行比對。

比對過程使用了 DINOv2 視覺大模型。

實驗發現,常用的 CLIP 模型雖然擅長語義匹配(比如認出這是一把椅子),但在幾何結構的精細對比上表現不佳。

而自監督訓練的 DINOv2 能敏銳地捕捉到形狀的細微差異。

只有當兩者在 DINOv2 特征空間中的余弦相似度超過 0.7 時,這條數據才會被保留。

最終,VideoCAD 提煉出了 41,005 個高質量的樣本,每個樣本都包含了視頻、精確對齊的動作序列以及最終的目標圖像。

數據規模與復雜度的降維打擊

VideoCAD 的發布,讓現有的 UI 交互數據集顯得有些小兒科。

數據規模和任務復雜度是衡量數據集價值的兩個核心維度。

在 VideoCAD 之前,最大的相關數據集 WebLinx 平均每個任務只有 43 個動作,而 VideoCAD 的平均任務長度達到了 186 個動作,是其 4 倍以上。

這意味著 AI 需要在更長的時間跨度內保持記憶和邏輯的一致性。

更深層的差異在于任務的性質。

大多數現有數據集(如 Mind2Web)的任務是信息檢索或表單填寫,AI 只需要識別文本和按鈕。

VideoCAD 是目前極少數要求 AI 進行三維推理的數據集。

AI 不能僅僅依靠 DOM 解析器來作弊,它必須真正看懂屏幕上的幾何圖形。

Onshape 界面平均包含 6,740 個 UI 元素,是普通網頁的 6 倍。

這種高密度的信息環境,加上對像素級坐標操作的硬性要求,迫使模型必須具備極強的視覺感知和決策能力。

動作分布的統計圖表揭示了 CAD 工作的真實面貌。

大量的操作集中在鼠標移動、點擊和鍵盤輸入上,這反映了設計師在繪圖時的精細調整過程。

與那些只需要點擊下一步的任務不同,CAD 建模是一個不斷在二維平面和三維空間之間切換思維的過程。

這種復雜性使得 VideoCAD 成為了檢驗 AI 是否具備真正通用計算機操作能力的試金石。

有了數據,如何讓 AI 學會這些操作?

直接套用通用的視頻理解模型效果并不理想,因為它們往往忽略了 CAD 操作中極強的因果依賴性。

MIT 團隊為此設計了 VideoCADFormer,這是一個基于 Transformer 架構的自回歸模型,專門用于預測長視界的 CAD 動作。

VideoCADFormer 的設計哲學是將視覺感知與動作預測緊密解耦又深度融合。

在每一個時間步,模型會接收兩路視覺信號:當前的 UI 界面截圖和最終的目標 CAD 圖像。

前者告訴模型我現在在哪里,后者告訴模型我要去哪里。

這兩路信號通過 Vision Transformer (ViT) 編碼后,提供了局部進度和全局目標的雙重上下文。

在處理動作序列時,模型并沒有簡單地將歷史動作視為一串文本,而是將其編碼為包含命令類型和具體參數的結構化向量。例如,一個畫圓的動作不僅包含命令本身,還包含圓心的 (x, y) 坐標和半徑參數。

VideoCADFormer 采用了一種雙掩碼機制的 Transformer 解碼器。

因果掩碼保證了模型在訓練時不會偷看未來的動作,而窗口掩碼則強制模型將注意力集中在最近的操作歷史上。

這種設計非常符合 UI 交互的特性:用戶當前的點擊往往緊密依賴于前幾秒的操作,而不需要時刻回顧幾分鐘前的所有細節。

模型的輸出端被設計為兩個獨立的頭,分別負責預測命令類型和具體的參數值。

為了處理連續的屏幕坐標,模型將參數離散化為 1000 個類別進行分類預測。這種設計使得模型能夠像填空一樣,逐步輸出復雜的操作指令。

實驗結果證明了這種專用架構的有效性。

在與 Video Pre-training (VPT) 等行為克隆基線的對比中,VideoCADFormer 取得了壓倒性的優勢。

其命令預測準確率高達 98.08%,參數準確率達到 82.35%。

最令人印象深刻的是,在長度超過 200 步的長序列任務中,VideoCADFormer 依然保持了 85.46% 的完美預測率,而基線模型在這種長距離任務中往往會因為誤差積累而徹底崩潰。

為了驗證模型生成的 CAD 模型在幾何上是否準確,研究者不僅僅比較像素,還將生成的模型在 Onshape 中實際運行出來,并計算其與目標模型的倒角距離 (Chamfer Distance)。

VideoCADFormer 生成的模型在空間結構上與人類設計的原版高度一致,證明它不僅僅是記住了操作步驟,而是真正理解了如何構建三維形狀。

頂尖大模型的集體翻車現場

VideoCAD 不僅是訓練新模型的教材,也是現有大模型的照妖鏡。

研究團隊構建了一個名為 VideoCADQA 的視覺問答基準,專門用來測試 GPT-4、Claude 3.7、Gemini 2.5 等頂尖多模態大模型在三維空間推理上的能力。測試結果令人大跌眼鏡。

在拉伸深度比較這一任務中,模型需要觀看視頻,判斷第二次拉伸操作是否比第一次更深。

這是一個典型的人類工程師一眼就能看出的問題。然而,GPT-4.1 的準確率僅為 18%。這暴露了大模型在理解相對深度和幾何空間關系時的嚴重幻覺。

在拉伸計數任務中,模型需要回答最終物體是由多少次拉伸操作構成的。GPT-4.1 的準確率不到一半,僅為 47%。而在涉及到視頻時序理解的幀排序任務中,以長文本和代碼能力著稱的 Claude 3.7 準確率更是低至 23%。

更進一步的測試是讓這些大模型直接充當 UI 智能體,通過 BrowserGym 接口在 Onshape 中嘗試完成建模任務。

結果是全軍覆沒。

所有的 LLM,無論其在文本生成上多么驚艷,都無法完成任何一個完整的 CAD 構建任務。

它們的主要在于無法將語義指令(畫一個圓)轉化為精確的屏幕坐標。

它們知道要點擊草圖按鈕,但往往點到了旁邊的空白處,或者試圖用代碼選擇器去點擊一個只能通過像素交互的畫布元素。

這表明,目前的通用大模型在具身智能和數字交互方面,距離專業級應用還有巨大的鴻溝。

VideoCAD 揭示了當前 AI 發展的一個重要瓶頸:從紙上談兵到實操落地的跨越。

現在的 AI 可以生成精美的圖片,卻畫不出可供生產的工程圖;可以寫出漂亮的代碼,卻難以操作復雜的開發環境。

VideoCADFormer 展示了一種可能性,即通過觀察人類的操作視頻,AI 可以學習到復雜軟件背后的操作邏輯和空間因果關系。

這種能力一旦成熟,未來的 AI 將不再僅僅是聊天機器人,而是能夠真正協助工程師的副駕駛。

它可以觀察你的設計意圖,自動補全繁瑣的建模步驟;或者在你設計出一半時,預測出你想要的最終形狀并提供操作建議。

這項研究打通了計算機視覺、強化學習和人機交互的界限。

VideoCADFormer 模型還不夠完美,存在對合成數據依賴等局限,但它指明了方向:AI 也是可以通過學習,掌握工業級工具使用的。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2024-03-12 10:36:17

AI大模型人工智能

2021-05-28 10:10:22

AI 數據人工智能

2025-02-10 00:00:10

2024-10-29 21:01:44

2023-08-22 20:48:06

模型釘釘阿里云

2025-12-09 08:52:00

2022-01-04 11:00:15

AI 數據人工智能

2018-07-16 14:19:44

AI銀行人工智能

2024-01-30 13:02:05

AI訓練

2023-12-21 00:48:26

2022-07-12 10:37:08

阿里巴巴達摩院機器學習

2021-09-02 10:15:50

計算平臺MaxCompute 阿里云

2024-08-19 09:42:00

模型MIT

2025-12-12 08:54:00

2023-05-15 09:43:49

模型數據

2025-06-18 09:03:07

2025-03-03 10:00:00

2025-11-03 09:06:00

2025-07-24 08:40:00

點贊
收藏

51CTO技術棧公眾號

欧美精美视频| 美女91在线看| 国产麻豆91精品| 成人午夜电影免费在线观看| 99视频有精品高清视频| 欧美精品一区二区久久久| 国产免费av在线| 91精品视频在线| 97人澡人人添人人爽欧美| 国产精品一二一区| 国产亚洲激情视频在线| 久久精品免费一区二区| 精品国产99| 91精品视频网| 日本在线观看免费| 成人系列视频| 欧美亚洲激情在线| 日韩精品一区二区三区中文 | av成人 com a| 欧美人妖巨大在线| 国模一区二区三区白浆| 中文字幕在线观看日韩| 2023欧美最顶级a∨艳星| 日本电影一区二区| 欧美精品一区二区三区蜜臀| 国产色视频在线播放| 久久精品卡一| 97在线看福利| 玛雅亚洲电影| 日韩欧美亚洲另类制服综合在线| 成人福利视频在| 亚洲天堂中文字幕| 神马影院我不卡| 日本韩国欧美在线观看| 成人国产一区二区三区精品麻豆| 国产精品系列在线播放| 欧美有码在线观看视频| 麻豆av在线免费观看| 亚洲视频一区在线| 精品国产av无码一区二区三区| 精品91在线| 欧美激情一级精品国产| 国产精品无码久久久久| 亚洲精品在线视频| 涩涩在线视频| 日韩亚洲欧美高清| 一级片免费在线观看| 第一福利在线视频| 一本色道久久综合亚洲aⅴ蜜桃| 国产人与zoxxxx另类91| xvideos亚洲| 欧美高清视频在线观看| 2018国产在线| 99精品免费| 美国av在线播放| 欧美ab在线视频| 操91在线视频| 99热在线免费观看| 四虎国产精品免费观看| 日韩精品自拍偷拍| 日韩综合小视频| 久久九九精品99国产精品| 国产天堂av| 99久久精品国产观看| 少妇人妻大乳在线视频| 精品伊人久久久久7777人| 农村寡妇一区二区三区| 欧美日韩亚洲国产精品| 嫩草影院网站在线| 粉嫩嫩av羞羞动漫久久久| 在线精品小视频| 5月丁香婷婷综合| 色国产在线视频| 欧美黄色一区| 亚洲精品一区二区久| 别急慢慢来1978如如2| 久久久天堂av| 波多野结衣家庭教师在线| 成av人片一区二区| 精品嫩草影院久久| 亚洲同志男男gay1069网站| 国产日本欧美一区二区三区在线| 国产精品麻豆成人av电影艾秋| 国产成人欧美在线观看| 国产精品日韩久久久| 精品国产乱码久久久久久蜜柚| 国产精品视频一区二区三区四蜜臂| 精品国产乱码久久久久久免费 | 超碰10000| 日韩国产一区| 国产精品美女网站| 久久久久高清| 日本大胆欧美人术艺术动态| 国产精品高清在线| 国产精品一区二区你懂的| 精精国产xxxx视频在线中文版| 亚洲伦伦在线| 日韩国产高清污视频在线观看| 在线看三级网站视频| 制服视频三区第一页精品| 国产伦理精品| 日韩在线小视频| 日韩不卡一区二区| 国产黄色影视| 日韩最新在线视频| 91一区二区在线| ccyy激情综合| 精品视频久久久久久久| 99热精品在线| 欧美aaa级| 欧美黄色小说| 欧美一级黄色片视频| 高清不卡一区二区三区| 91精品成人久久| 欧美猛男性生活免费| 亚洲三级黄色在线观看| 一本色道久久综合狠狠躁的推荐| 国产精品国产三级国产普通话蜜臀| 国产精品综合二区| 狠狠爱综合网| 欧美特黄不卡| 色老板在线观看| 中国一区二区三区| 久久免费国产精品1| 一本到高清视频免费精品| 国内激情久久| 精品国产导航| 97视频在线观看网站| 国产一区二区三区乱码| 国产精品亚洲自拍| 欧美精品久久99久久在免费线 | 欧美婷婷在线| 3344永久| 伊人久久av导航| 欧美久久久久久久久久久久久 | 亚洲视频 欧洲视频| 主播国产精品| 亚洲国产欧洲综合997久久 | 国产福利电影在线播放| 国产精品一区av| 中文字幕中文字幕一区| 日本午夜免费一区二区| jizz欧美性11| 一区二区三区在线视频111| 日本久久久久久久久久久| 欧美专区亚洲专区| 91浏览器在线视频| 欧美电影免费网站| 黄色一级一级片| 国产欧美一区二区三区在线| 亚洲人成人一区二区在线观看 | 欧美激情一二三区| 97精品国产97久久久久久久久久久久| 成人中文字幕在线| 久久国产精品72免费观看| 天使萌一区二区三区免费观看| 日韩精品一区第一页| 久久天堂成人| 国产麻豆91精品| 国产精品久久久久久久午夜片| 亚洲自拍偷拍麻豆| 91精品蜜臀在线一区尤物| 亚洲欧美在线x视频| 久久激情五月丁香伊人| 国产成人亚洲欧美| 日韩av电影免费在线观看| 亚洲free嫩bbb| 国产一区二区av| 一区二区三区视频观看| 久久天天躁狠狠躁夜夜躁2014| 欧美不卡一区二区| 欧美一区二区久久久| 欧美亚一区二区| 亚洲午夜成aⅴ人片| 亚洲黄色录像片| 精品视频在线看| 精品乱码亚洲一区二区不卡| 欧美在线你懂得| 亚洲综合男人的天堂| 97精品国产露脸对白| 亚洲精品成a人| 午夜伦理精品一区| 国产精品户外野外| 51午夜精品国产| 精品久久久久久久| 免费成人av| 国产激情视频一区二区三区欧美| 成人精品免费网站| 久久噜噜亚洲综合| 欧美人xxxx| 97在线视频免费观看| 久久精品国产99精品国产亚洲性色| 2022中文字幕| 91在线导航| 国产精品黄网站| 另类中文字幕网| 欧美三区在线视频| 久久人人爽人人| 精品视频无码一区二区三区| 在线黄色网页|