擠爆服務(wù)器,北大法律大模型ChatLaw火了:直接告訴你張三怎么判
大模型又「爆了」。
昨晚,一個法律大模型 ChatLaw 登上了知乎熱搜榜榜首。熱度最高時達到了 2000 萬左右。
這個 ChatLaw 由北大團隊發(fā)布,致力于提供普惠的法律服務(wù)。一方面當(dāng)前全國執(zhí)業(yè)律師不足,供給遠遠小于法律需求;另一方面普通人對法律知識和條文存在天然鴻溝,無法運用法律武器保護自己。
大語言模型最近的崛起正好為普通人以對話方式咨詢法律相關(guān)問題提供了一個絕佳契機。

目前,ChatLaw 共有三個版本,分別如下:
- ChatLaw-13B,為學(xué)術(shù) demo 版,基于姜子牙 Ziya-LLaMA-13B-v1 訓(xùn)練而來,中文各項表現(xiàn)很好。但是,邏輯復(fù)雜的法律問答效果不佳,需要用更大參數(shù)的模型來解決;
- ChatLaw-33B,也為學(xué)術(shù) demo 版,基于 Anima-33B 訓(xùn)練而來,邏輯推理能力大幅提升。但是,由于 Anima 的中文語料過少,問答時常會出現(xiàn)英文數(shù)據(jù);
- ChatLaw-Text2Vec,使用 93w 條判決案例做成的數(shù)據(jù)集,基于 BERT 訓(xùn)練了一個相似度匹配模型,可以將用戶提問信息和對應(yīng)的法條相匹配。
根據(jù)官方演示,ChatLaw 支持用戶上傳文件、錄音等法律材料,幫助他們歸納和分析,生成可視化導(dǎo)圖、圖表等。此外,ChatLaw 可以基于事實生成法律建議、法律文書。該項目在 GitHub 上的 Star 量達到了 1.1k。
圖片
官網(wǎng)地址:https://www.chatlaw.cloud/
論文地址:https://arxiv.org/pdf/2306.16092.pdf
GitHub 地址:https://github.com/PKU-YuanGroup/ChatLaw
目前,由于 ChatLaw 項目太過火爆,服務(wù)器暫時崩潰,算力已達上限。該團隊正在修復(fù),感興趣的讀者可以在 GitHub 上部署測試版模型。
小編本人也還在內(nèi)測排隊中。所以這里先展示一個 ChatLaw 團隊提供的官方對話示例,關(guān)于日常網(wǎng)購時可能會遇到的「七天無理由退貨」問題。不得不說,ChatLaw 回答挺全的。
圖片
不過,小編發(fā)現(xiàn),ChatLaw 的學(xué)術(shù) demo 版本可以試用,遺憾的是沒有接入法律咨詢功能,只提供了簡單的對話咨詢服務(wù)。這里嘗試問了幾個問題。
圖片

其實最近發(fā)布法律大模型的不只有北大一家。上個月底,冪律智能聯(lián)合智譜 AI 發(fā)布了千億參數(shù)級法律垂直大模型 PowerLawGLM。據(jù)悉該模型針對中文法律場景的應(yīng)用效果展現(xiàn)出了獨特優(yōu)勢。
ChatLaw 的數(shù)據(jù)來源、訓(xùn)練框架
首先是數(shù)據(jù)組成。ChatLaw 數(shù)據(jù)主要由論壇、新聞、法條、司法解釋、法律咨詢、法考題、判決文書組成,隨后經(jīng)過清洗、數(shù)據(jù)增強等來構(gòu)造對話數(shù)據(jù)。同時,通過與北大國際法學(xué)院、行業(yè)知名律師事務(wù)所進行合作,ChatLaw 團隊能夠確保知識庫能及時更新,同時保證數(shù)據(jù)的專業(yè)性和可靠性。下面我們看看具體示例。
基于法律法規(guī)和司法解釋的構(gòu)建示例:

抓取真實法律咨詢數(shù)據(jù)示例:

律師考試多項選擇題的建構(gòu)示例:
圖片
然后是模型層面。為了訓(xùn)練 ChatLAW,研究團隊在 Ziya-LLaMA-13B 的基礎(chǔ)上使用低秩自適應(yīng) (Low-Rank Adaptation, LoRA) 對其進行了微調(diào)。此外,該研究還引入 self-suggestion 角色,來緩解模型產(chǎn)生幻覺問題。訓(xùn)練過程在多個 A100 GPU 上進行,并借助 deepspeed 進一步降低了訓(xùn)練成本。
如下圖為 ChatLAW 架構(gòu)圖,該研究將法律數(shù)據(jù)注入模型,并對這些知識進行特殊處理和加強;與此同時,他們也在推理時引入多個模塊,將通識模型、專業(yè)模型和知識庫融為一體。
該研究還在推理中對模型進行了約束,這樣才能確保模型生成正確的法律法規(guī),盡可能減少模型幻覺。
圖片
一開始研究團隊嘗試傳統(tǒng)的軟件開發(fā)方法,如檢索時采用 MySQL 和 Elasticsearch,但結(jié)果不盡如人意。因而,該研究開始嘗試預(yù)訓(xùn)練 BERT 模型來進行嵌入,然后使用 Faiss 等方法以計算余弦相似度,提取與用戶查詢相關(guān)的前 k 個法律法規(guī)。
當(dāng)用戶的問題模糊不清時,這種方法通常會產(chǎn)生次優(yōu)的結(jié)果。因此,研究者從用戶查詢中提取關(guān)鍵信息,并利用該信息的向量嵌入設(shè)計算法,以提高匹配準(zhǔn)確性。
由于大型模型在理解用戶查詢方面具有顯著優(yōu)勢,該研究對 LLM 進行了微調(diào),以便從用戶查詢中提取關(guān)鍵字。在獲得多個關(guān)鍵字后,該研究采用算法 1 檢索相關(guān)法律規(guī)定。
圖片
實驗結(jié)果
該研究收集了十余年的國家司法考試題目,整理出了一個包含 2000 個問題及其標(biāo)準(zhǔn)答案的測試數(shù)據(jù)集,用以衡量模型處理法律選擇題的能力。
然而,研究發(fā)現(xiàn)各個模型的準(zhǔn)確率普遍偏低。在這種情況下,僅對準(zhǔn)確率進行比較并無多大意義。因此,該研究借鑒英雄聯(lián)盟的 ELO 匹配機制,做了一個模型對抗的 ELO 機制,以便更有效地評估各模型處理法律選擇題的能力。以下分別是 ELO 分?jǐn)?shù)和勝率圖:
圖片
通過對上述實驗結(jié)果的分析,我們可以得出以下觀察結(jié)果
(1)引入與法律相關(guān)的問答和法規(guī)條文的數(shù)據(jù),可以在一定程度上提高模型在選擇題上的表現(xiàn);
(2)加入特定類型任務(wù)的數(shù)據(jù)進行訓(xùn)練,模型在該類任務(wù)上的表現(xiàn)會明顯提升。例如,ChatLaw 模型優(yōu)于 GPT-4 的原因是文中使用了大量的選擇題作為訓(xùn)練數(shù)據(jù);
(3)法律選擇題需要進行復(fù)雜的邏輯推理,因此,參數(shù)量更大的模型通常表現(xiàn)更優(yōu)。
參考知乎鏈接:
https://www.zhihu.com/question/610072848
其他參考鏈接:
https://mp.weixin.qq.com/s/bXAFALFY6GQkL30j1sYCEQ
























