国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO首頁

AI.x社區(qū)

博客

學(xué)堂

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

戀戀青鳥

LV.1

這個用戶很懶，還沒有個人簡介

帖子 10

聲望 86

關(guān)注 0

粉絲 0

私信

關(guān)注

主帖 10

回帖

可擴(kuò)展性長文本評測集——Ada-LEval 詳細(xì)解讀

長文本評測隨著大模型能夠處理的上下文信息越來越多，達(dá)到百萬級別的詞匯量，人們對于模型長文本能力的研究興趣也隨之增長。司南OpenCompass數(shù)據(jù)集社區(qū)已經(jīng)出現(xiàn)了諸如LEval、LongBench等長文本評測基準(zhǔn)。這些工作基于一些開源自建的數(shù)據(jù)集構(gòu)建樣本，其構(gòu)建評測集上的性能已可以一定程度上反映模型的能力。因此，在長文本評測這一工作里，我們認(rèn)為一個好的長文本評測集應(yīng)該具備以下性質(zhì)：樣本長度可控：測試樣本的上下文長度最好...

2024-11-12 14:54:43 3307瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析

隨著人工智能技術(shù)的迅速發(fā)展，大模型在處理各種復(fù)雜任務(wù)中展示出了卓越的能力。特別是在網(wǎng)絡(luò)安全領(lǐng)域，大模型的應(yīng)用潛力巨大，它們可以幫助自動化處理大量數(shù)據(jù)、識別潛在威脅和提供安全建議。然而，新型大模型層出不窮，要有效利用這些模型，首先必須驗證它們在理解和處理網(wǎng)絡(luò)安全相關(guān)問題上的能力。4月19日凌晨，Meta開源了新一代LLaMa3模型。作為當(dāng)前最受矚目的大語言模型之一，LLaMa3在網(wǎng)絡(luò)安全領(lǐng)域的表現(xiàn)到底怎樣？如何將LL...

2024-08-01 14:12:48 3364瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

NeedleBench 超長文本評測基準(zhǔn)：大語言模型能否在 1000K 長度上檢索推理？

司南團(tuán)隊構(gòu)建了針對大語言模型超長文本能力的中英雙語測試框架——NeedleBench，專門用來壓力測試模型在處理長達(dá)百萬級上下文窗口中的檢索能力和推理能力。論文鏈接：http:arxiv.orgabs2407.11963Part1：為什么需要NeedleBench現(xiàn)在的大語言模型，如最近公開的GPT4o、GLM49B、InternLM2.5等，已經(jīng)擴(kuò)展了它們的上下文窗口，可以處理多達(dá)100萬個token的文本。然而，簡單地通過“NeedleInAHaystack”大海撈針要求LLMs提取關(guān)鍵信息，...

2024-07-30 00:27:22 4782瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

T-Eval：大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024

AIAgent（智能體）作為大模型的重要應(yīng)用模式，能夠通過使用外部工具來執(zhí)行復(fù)雜任務(wù)，完成多步驟的工作流程。為了能全面評估模型的工具使用能力，司南及合作伙伴團(tuán)隊推出了TEval評測基準(zhǔn)，相關(guān)成果論文已被ACL2024主會錄用。查看原文：https:arxiv.orgabs2312.14033?PART1為什么需要TEval？使用了工具的大語言模型有著驚艷的問題解決能力，但是如何評估模型的工具使用能力還有很大的探索空間。現(xiàn)有評估方法通常只關(guān)注模型處理單...

2024-07-16 09:21:09 5784瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評測結(jié)果全公開

5月14日，OpenAI發(fā)布了GPT4o，支持文本、圖像、語音、視頻等多種形式的輸入，大幅提升了推理響應(yīng)的速度，在非英文任務(wù)上具有較大提升，并擁有比現(xiàn)有模型更強(qiáng)的視覺理解能力。我們第一時間對GPT4o模型的圖像文本多模態(tài)能力進(jìn)行了評測。OpenAI官方公布的視覺理解性能基于多模態(tài)大模型開源評測工具VLMEvalKit，我們在OpenVLMLeaderboard中的十二個圖文多模態(tài)評測集上測試了GPT4o的視覺能力。GPT4o(20240513)與此前的GPT4v版本在各...

2024-07-10 09:30:57 1.1w瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

可擴(kuò)展性長文本評測集——Ada-LEval 詳細(xì)解讀

長文本評測隨著大模型能夠處理的上下文信息越來越多，達(dá)到百萬級別的詞匯量，人們對于模型長文本能力的研究興趣也隨之增長。這些工作基于一些開源自建的數(shù)據(jù)集構(gòu)建樣本，其構(gòu)建評測集上的性能已可以一定程度上反映模型的能力。因此，在長文本評測這一工作里，我們認(rèn)為一個好的長文本評測集應(yīng)該具備以下性質(zhì)：樣本長度可控：測試樣本的上下文長度最好是可控的，以便于測量和比較模型在各個上下文長度下的能力變化（若測試集由不...

2024-07-08 07:45:00 3994瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

先放結(jié)論如果你想為你的項目挑選合適的圖文多模態(tài)模型，以下是一些可供參考的模型性能（括號內(nèi)為評測分?jǐn)?shù)）：已測性能最強(qiáng)的閉源模型：GPT4o（海外API模型，69.9）GLM4v（國內(nèi)API模型，60.8）已測位于"參數(shù)量性能"前沿上的開源模型：InternVLv1.5(26B,61.7)MiniCPMLlama3V2.5(8B,58.8)InternLMXComposer27B4KHD(7B,58.8)?MiniInternVL(4B,56.2;2B,49.8)本期的多模態(tài)模型性能榜單1.多模態(tài)大模型評測榜單構(gòu)成更新在4月底，司南多...

2024-07-01 11:12:48 8335瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

Flames 安全評測基準(zhǔn)：大語言模型的對齊效果如何？

Flames是由上海人工智能實驗室和復(fù)旦大學(xué)聯(lián)合構(gòu)建的大語言模型價值對齊評測基準(zhǔn)，包含一個綜合性評測框架、高對抗性中文數(shù)據(jù)集和自動評分模型，囊括Fairness（公平）,Safety(安全)，Morality(道德)，DataProtection（數(shù)據(jù)保護(hù)），以及Legality（合法）五個大維度，F(xiàn)lames名字也來源于此。一、為什么需要Flames？當(dāng)前大語言模型在深層次的價值對齊和無害性方面存在諸多挑戰(zhàn)，高質(zhì)量的評測集可以有效評估模型的價值對齊情況。然而...

2024-05-30 11:07:43 5977瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

ChemBench：大語言模型化學(xué)能力評測數(shù)據(jù)集

ChemBench是上海人工智能實驗室AIforScience團(tuán)隊自建的化學(xué)語言模型評測數(shù)據(jù)集，實現(xiàn)了大模型能力在化學(xué)領(lǐng)域的全面評估。研究團(tuán)隊從互聯(lián)網(wǎng)公開資源中采集并設(shè)計構(gòu)建了4100多道多項選擇題，每個選擇題只有一個正確答案。覆蓋了基于文本的分子生成、名稱轉(zhuǎn)換、性質(zhì)預(yù)測、溫度預(yù)測、分子描述、產(chǎn)率預(yù)測、溶劑預(yù)測、逆合成分析、產(chǎn)物預(yù)測九大化學(xué)任務(wù)。ChemBench評測任務(wù)介紹隨著大語言模型的飛速發(fā)展，一系列特定領(lǐng)域的垂類模型也...

2024-05-28 10:25:26 6176瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

隨著現(xiàn)代大語言模型（LLMs）如OpenAI的ChatGPT和GPT4的出現(xiàn)，LLMs展示了生成類人對話和解決復(fù)雜數(shù)學(xué)難題的非凡能力。從Meta在4月18日發(fā)布Llama38B&70B開始，Qwen開源的首個百B大模型Qwen1.5110B，到深度求索的MoE模型DeepSeekV2，還有近幾日OpenAI放出的大招GPT4o，號稱更低的價格，更強(qiáng)的性能，大家都號稱自己的新模型數(shù)學(xué)能力頂呱呱，但事實真是這樣嗎？如何透明化評測大模型的各項數(shù)學(xué)能力如今成了大家的難題，因為開源數(shù)據(jù)...

2024-05-23 15:02:08 4873瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

獲得成就

已積累 1.2w 人氣

獲得 0 個點(diǎn)贊

獲得 0 次收藏