国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

你的AI管家可能正在「拆家」?最新研究揭秘家?具?智能體的安全漏洞

人工智能 新聞
上海人工智能實驗室(Shanghai AI Lab)與北京航空航天大學聯手,重磅推出首個專注于具身智能體與家用環境交互過程中安全性的評測基準——IS-Bench!該測試基準創新性地設計了 150+ 個暗藏「安全殺機」的智能家居場景(從沾滿污漬的盤子到被防塵布覆蓋的爐灶),配合貫穿全過程的動態評測框架,全方位考驗 AI 管家的安全素養。

本文由上海 AI Lab 和北京航空航天大學聯合完成。 主要作者包括上海 AI Lab 和上交大聯培博士生盧曉雅、北航博士生陳澤人、上海 AI Lab 和復旦聯培博士生胡栩浩(共同一作)等。 通訊作者為上海 AI Lab 青年研究員劉東瑞、北航教授盛律和上海 AI Lab 青年科學家邵婧。

從 Meta 的 Habitat 3.0 完美復現家庭環境,到 Google 的 SayCan 讓機器人理解復雜的家務指令,再到 Tesla Optimus 曬出的疊衣視頻全網刷屏——現在的基于視覺語言模型(VLM)的家務助手簡直像開了「全能管家」模式,收拾廚房、整理衣物、照顧寵物,樣樣精通!

但先別急著點贊!你有沒有想過,讓這些「智能管家」自由行動,可能像讓三歲小孩玩打火機一樣危險?

為此,上海人工智能實驗室(Shanghai AI Lab)與北京航空航天大學聯手,重磅推出首個專注于具身智能體與家用環境交互過程中安全性的評測基準——IS-Bench!該測試基準創新性地設計了 150+ 個暗藏「安全殺機」的智能家居場景(從沾滿污漬的盤子到被防塵布覆蓋的爐灶),配合貫穿全過程的動態評測框架,全方位考驗 AI 管家的安全素養。

圖片

?? 實驗結果令人警醒:當前 VLM 家務助手的安全完成率不足 40%!這意味著每 10 次任務中就有 6 次可能引發安全隱患——從弄臟食物到點燃毛毯,AI 管家的每個動作都可能讓你的家變成「災難現場」!

從「靜態快照」到「步步追蹤」,IS-Bench 首創具身安全評估新范式

現有評估體系存在致命盲區:傳統的靜態評估模式讓智能體基于固定的環境信息一次性生成所有動作規劃,最終僅根據完成狀態判斷規劃是否安全。

這種「單次決策+終點評判」的范式完全既無法捕捉交互過程中動態演化的風險鏈(如:倒水→液體潑灑→地面濕滑→跌倒風險),也難以模擬環境探索中新發現的風險源(典型場景:開啟櫥柜→發現餐具污染→潛在食品安全問題)。

更嚴重的是,該范式會系統性遺漏關鍵的過程安全隱患,例如,食物接觸污染餐具后,即使后續完成餐具清潔,過程中的污染風險已實質形成——完美的終態結果反而成為安全隱患的「遮羞布」!

IS-Bench 首創具身安全評估的新范式——「交互安全性」,聚焦智能體在持續交互中實時識別與化解動態風險的能力:

  • 交互式場景構建:依托高仿真模擬環境與多輪次任務交互,真實模擬家庭環境中風險的逐漸暴露與動態升級,使安全隱患隨著任務的推進過程自然涌現。
  • 全流程評估體系:摒棄「一錘定音」的結果評判,采用基于決策過程的實時追蹤與分析框架,對智能體每一步操作的安全性進行精細化評估,全面洞察交互流中的風險暴露點。

圖片

三步定制高風險場景,打造家務 Agent 的「照妖鏡」

鑒于模擬器默認場景包含的安全風險有限,IS-Bench 設計了一套系統化的評測場景定制流程(Pipeline),專門用于生成蘊含豐富安全隱患的家務場景:

  • 安全準則提取:從 Behavior-1K [1] 的任務場景中提煉出智能體在家庭環境中必須遵守的核心安全準則。
  • 安全風險注入:通過深度分析任務流程中的潛在危險點,并策略性地引入風險誘導物,將安全風險(特別是動態風險)無縫融入常見的家務場景中。
  • 安全探針部署:精確定義用于檢測交互過程中狀態是否安全的判定標準,并標注在任務過程中觸發安全性評估的關鍵時機。

上述三個核心步驟均采用「GPT 自動生成 + 人工校驗」的雙保險模式,最大程度保證場景設計的合理性與多樣性。所有定制場景均在高仿真模擬器中完成實例化與驗證,嚴格確保任務目標的可達成性以及安全判定條件的可檢測性。

圖片

最終構建的「家居危險百科」場景庫包含 161 個高仿真評測場景,精準復現廚房、客廳、衛生間等家庭事故高發區域,總計嵌入了 388 個安全隱患點——從「倒水時需避開周邊電源」的基礎安全常識,到「金屬制品嚴禁微波加熱」的物理風險警示,再到「消毒劑與食品必須分區存放」的化學危險防范,實現了對 10 大類家庭生活場景安全隱患的全方位覆蓋。

圖片

全流程評測框架,構建交互安全的護城河

圖片

為了實現面向過程的交互安全性評測,IS-Bench 精心打造了一套評測框架:

  • 技能基石與交互驅動:框架預置了 18 項核心基礎技能(Primitive Skills),并構建了與高保真模擬器進行逐步交互的執行代碼框架。
  • 全程實時狀態追蹤:在每一步操作中,智能體基于實時多模態環境感知作出決策;動作執行后,場景狀態與操作歷史即時同步更新,形成持續演進的決策上下文,確保安全評估貫穿始終。
  • 靈活的分級評測機制:支持階梯式難度測試,通過可選注入視覺輔助信息(如物體的邊界框)及層級化安全提示,精準考察智能體在不同難度下的安全決策能力。

家務 Agent 的安全風險比你想象得更大!

評測結果揭示嚴峻挑戰:

  • 安全短板顯著:當前主流基于 VLM 的具身智能體在交互過程中化解安全風險的能力嚴重不足,其任務安全完成率小于 40%。
  • 事前防范更易疏忽:事前防范(pre-caution,如打開爐灶之前要檢查附近是否有可燃物)比事后注意(post-caution,如打開爐灶做完飯之后要注意關閉爐灶)更容易被忽視,智能體僅能正確完成不足 30% 的事前防范措施。
  • 安全與效率的權衡困境:雖然引入安全思維鏈(Safety CoT)提示能將交互安全性平均提升 9.3%,但這顯著犧牲了任務成功率(下降 9.4%),這揭示了提升安全性可能伴隨效率成本。

圖片

核心瓶頸深度解析:當明確展示安全目標時,部分閉源模型的安全完成率實現顯著飛躍(從 <40% 躍升至 >65%),這一現象直指問題本質:交互安全性的核心瓶頸并非規劃執行能力缺陷,而是智能體在風險感知與認知層面的嚴重不足。更值得關注的是,通過提供物品邊界框(BBox)和初始場景描述(IS),智能體的安全意識和事前防范正確率可提升 15% 左右,進一步說明當前系統的安全短板主要源于在物品密集的復雜場景中無法精確識別和注意可能引發安全隱患的物品。

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-02 08:46:00

AgentAI技術

2025-03-13 11:32:23

2018-01-26 10:49:19

2025-08-11 07:30:00

大語言模型AI安全漏洞

2025-02-12 00:00:30

2022-04-06 21:32:07

安全漏洞網絡安全IT

2023-05-29 14:47:46

語音詐騙漏洞人工智能

2017-05-04 15:10:01

漏洞IoT智能燈泡BLE

2025-03-26 07:10:00

Oracle云計算漏洞

2019-05-17 18:10:24

華為云

2025-03-07 10:24:43

2009-02-04 11:24:12

2010-09-24 15:16:15

2018-01-09 09:19:40

2009-02-17 14:07:21

2025-06-19 08:17:34

2023-12-29 15:00:12

漏洞安全人工智能

2023-09-08 00:12:40

2024-03-21 15:05:34

2020-12-11 05:51:58

漏洞網絡攻擊網絡安全
點贊
收藏

51CTO技術棧公眾號

国产精品69毛片高清亚洲| 伊人色综合影院| 午夜电影亚洲| 日韩国产在线一区| 国产一区欧美一区| 国产v亚洲v天堂无码久久久| 亚洲一区二区三区在线播放| 福利在线观看| 亚洲成人av中文字幕| 美女100%一区| 午夜精品视频在线| 首页国产精品| 亚洲一区尤物| 中文字幕人成不卡一区| 在线播放毛片| 久久99亚洲热视| 一区在线免费观看| 欧美韩国日本在线| 欧美亚洲综合一区| 国产精品久久久久久久久久辛辛| 成人h视频在线| 国产91精品久久久久久久网曝门| 国产一级黄色电影| 亚洲福利精品在线| 成人一区二区| www.成人影院| 国产在线拍揄自揄拍无码| 99久久精品国产导航| av激情网站| 亚洲第一av网站| 九九免费精品视频在线观看| 视频一区三区| 综合电影一区二区三区| 久草免费在线色站| 国产精品久久77777| 国产成人av影院| 福利视频在线播放| 97免费视频在线播放| 另类综合日韩欧美亚洲| 国产在线传媒| 久久成年人免费电影| 久久国产精品亚洲77777| 免费看的毛片| 色七七影院综合| 免费一级欧美片在线播放| 成色在线视频| 国产一区二区成人| 亚洲精选一区| 波多野结衣中文字幕在线| 精品国产一区二区三区久久狼5月| 亚洲国产欧美国产综合一区| 免费av高清| 久久成人一区二区| 美女视频黄 久久| 在线中文字幕视频| 97在线看福利| 成人一区二区三区| 亚洲区欧洲区| 成人自拍爱视频| 亚洲精品一二三| 欧美成人一级| 99er在线视频| 亚洲精品国产精品国自产观看浪潮| 欧美在线精品一区| 开心丁香婷婷深爱五月| 久久久久久国产精品三级玉女聊斋| 国产一区二区三区四区五区美女| 日韩大片在线永久免费观看网站| 国产精品直播网红| 中文字幕佐山爱一区二区免费| 国产精品日本一区二区不卡视频 | 国产一区二区在线视频| 国产福利在线观看| 91精品国产综合久久久久久蜜臀 | 国产成人久久久| 中文字幕五月欧美| 高潮按摩久久久久久av免费| 久久久久久人妻一区二区三区| 亚洲电影免费观看高清| 久久精品成人| 制服丝袜在线播放| 性欧美精品一区二区三区在线播放| 91精品久久久久久蜜臀| 亚洲欧美高清| 中文字幕中文字幕在线十八区| 老牛影视免费一区二区| 欧美一区二区三区小说| 久久精品一区| 黄频免费在线观看| 国产情侣第一页| 深夜福利亚洲导航| 2020国产精品久久精品美国| 精品国产亚洲一区二区三区在线| 欧美一级片中文字幕| 欧美激情18p| 亚洲女同ⅹxx女同tv| 欧美一区二区三| 久久电影中文字幕| 麻豆av福利av久久av| 亚洲国产婷婷香蕉久久久久久| 看电视剧不卡顿的网站| 福利精品一区| www.99re.av| 成人激情视频在线观看| 在线观看视频一区| 视频一区在线播放| 最近在线中文字幕| 99免费视频观看| 国产成人精品电影久久久| 丁香五六月婷婷久久激情| 国产综合自拍| 一区二区三区伦理| 国产高清www| 2018国产精品视频| 精品日韩美女的视频高清| 狠狠色丁香久久综合频道| 国产色婷婷在线| 动漫av网站免费观看| 国产成人一区二| 91黄色免费看| 韩国一区二区在线观看| 国产日韩欧美中文在线| 欧美艹逼视频| 日本一区二区三区免费观看| 神马久久桃色视频| 午夜av一区二区| 美女久久久精品| 国产精品巨作av| 春暖花开成人亚洲区| 亚洲小视频在线播放| 国产+成+人+亚洲欧洲| 一本一本久久a久久精品综合麻豆| 日韩黄色免费电影| 亚洲图色一区二区三区| 久色视频在线| 免费高清一区二区三区| 国产精品色悠悠| 亚洲国产精品专区久久| 国产精品久线在线观看| 亚洲女优在线| 任我爽精品视频在线播放| 18视频在线观看| 男人资源网站| 四虎一区二区| 欧洲一区二区视频| 亚洲成人网av| 亚洲精品久久久久久国产精华液| 日本不卡在线视频| 精品一区毛片| 亚洲不卡系列| 国产在线超碰| 午夜免费一区二区| 欧美高清性xxxxhdvideosex| 97欧美精品一区二区三区| 日韩欧美视频在线| 一区二区三区精品视频| 国内外成人在线| 亚洲国产精品成人| 激情不卡一区二区三区视频在线| 在线观看免费网站黄| 亚洲精品乱码久久久久久自慰| 精品视频在线观看| 久久99亚洲精品| 欧美精品一区二区三区四区| 亚洲成人av电影在线| jlzzjlzz亚洲日本少妇| 亚洲综合日本| 欧美成人自拍| 国产欧美自拍一区| 美脚恋feet久草欧美| 在线激情网站| 日本福利小视频| 久久久亚洲精品无码| 欧美二区在线看| 国产精品嫩草视频| 色综合久综合久久综合久鬼88| 日韩精品一区二| 欧美日韩中国免费专区在线看| 久久久不卡网国产精品二区| 日本va欧美va精品发布| 99免费精品| 日韩av系列| 91麻豆精品| 亚洲精品成人图区| 在线播放麻豆| 青春草在线观看| 日本按摩中出| 亚洲黄色小视频在线观看| 少妇大叫太大太粗太爽了a片小说| 久久精品美女| 99久久一区三区四区免费| 国产成人久久久精品一区| 欧美日韩福利视频| 影音先锋欧美精品| 亚洲精品一区二区三区精华液| 色av成人天堂桃色av| 一二三四区精品视频| 国产欧美日韩另类一区| 91玉足脚交白嫩脚丫在线播放| 国产99精品视频|