
譯者 | 陳峻
審校 | 重樓
眾所周知,過去那些曾經(jīng)定義和描述了燦爛文化的語言,如今可能只能留存于書面記錄、片段影像、以及少數(shù)傳頌者的記憶中。而人類歷史的每一次更迭,都會導致語言信息的此消彼長,文化知識的重塑。
目前,人工智能(AI)正在被用于研究手稿、音頻檔案和銘文,以重建失傳的語法、詞匯和發(fā)音。其支持者一致認為這是一條復興之路,能夠為人類社區(qū)提供一種與語言遺產(chǎn)重新連接,也可能會產(chǎn)生看似準確,實則不實用、甚至無意義的語言。甚至有人認為,這種機械的靜態(tài)記錄,會讓語言的消失不可逆轉(zhuǎn)。
全球化時代的語言消失
現(xiàn)如今,語言多樣性的下降速度比歷史上任何其他時刻都要快。聯(lián)合國教科文組織曾估算:世界上的7000種語言中,有近40%已瀕臨滅絕。算下來,大約每兩周就有一種語言消失。這種消失不僅僅是系統(tǒng)性、交流層面的消失,也伴隨著與之相關(guān)的觀點、歷史和專業(yè)知識的消失。誠然,傳統(tǒng)的文檔、錄音、口語故事、以及語法解說圖本都可以延續(xù)語言,但是這往往比較慢,也就導致了許多語言在被完全記錄下來之前就消失了。
然而,AI正在改變這種速度。由其加持的高級工具可以比傳統(tǒng)的方法,更快地處理稀有的音頻,識別內(nèi)在的模式,進而重建那些不完整的語言系統(tǒng)。雖然這為留存語言提供了新的方法,但是如果只關(guān)注那些沒有社區(qū)參與、或文化基礎(chǔ)的數(shù)據(jù)保存,結(jié)果很可能只是一個雖然精確、但與日常使用完全脫節(jié)的語言檔案。因此,在現(xiàn)代化世界中,保留語言遺產(chǎn)需要研究人員、技術(shù)專家和人群社區(qū)之間的通力合作,以確保語言的重建既準確又具有文化內(nèi)涵。
AI重建和復興語言
近年來,AI已經(jīng)從一種研究工具演變成為了語言重建的核心驅(qū)動力。機器學習模型,特別是深度神經(jīng)網(wǎng)絡,可以處理那些曾經(jīng)需要付出幾十年學術(shù)努力的任務。此類系統(tǒng)可以分析大量手稿、銘文和音頻記錄的存儲庫,發(fā)現(xiàn)人類研究人員可能無法注意到的模式。
其中,失傳語言重建的技術(shù)通常會結(jié)合兩個互補的階段:第1階段是使用模式識別模型,來檢測留存記錄中的語法、句法和詞匯中的重復結(jié)構(gòu)。第2階段是使用應用生成系統(tǒng),如大語言模型(LLM),來補足第1階段。同時,第1階段的發(fā)現(xiàn)也可以指導第2階段,并允許神經(jīng)模型提出缺失的單詞、短語甚至語音模式。通過利用相關(guān)語言和部分文檔的培訓,這些系統(tǒng)可以生成對應語言和詞句的合理版本。
目前,已有若干真實項目展示了此類方法在實踐中是如何運作的。例如:由AI輔助的研究,以更高的統(tǒng)計準確性模擬了原始印歐語的詞根,從不完整的手稿中重建了古希臘語音,并為瀕危語言創(chuàng)造了現(xiàn)實的語音合成,讓其對應的人群社區(qū)聽到幾十年來從未聽過的發(fā)音。
然而,語言重建也面臨著技術(shù)和文化方面的挑戰(zhàn)。比如,有限的或質(zhì)量差的數(shù)據(jù),可能會導致模型產(chǎn)生幻想,從而生成從未存在過的模式。當然,即使統(tǒng)計準確率很高,這些項目也并不總能反映文化真實性。這就是為什么許多項目需要將算法的輸出,與語言學家、人類學家、以及最重要的是與母語人士的專業(yè)知識相結(jié)合的原因。
同時,自我監(jiān)督學習等新技術(shù)進一步增加了此方面的能力。它們使用的模型可以在不依賴并行翻譯的情況下,從單一語言數(shù)據(jù)中學習到結(jié)構(gòu)規(guī)則,使其更適合那些資源較少的語言。它們在協(xié)作環(huán)境中被使用時,既能保證速度,又能提供規(guī)模,同時還可以保持文化背景的完整性。
可見,只有當技術(shù)與人類合作時,基于AI的重建才會取得成功。也就是說,AI只有與人類社區(qū)專家相輔相成,而非單純?nèi)〈鷷r,才能產(chǎn)生更好的結(jié)果。無聲的記錄才可以再次變成鮮活的口語。
數(shù)字語言保護從靜態(tài)檔案到互動復興的演變
在AI之前,保護瀕危和滅絕語言的努力主要依賴于靜態(tài)的數(shù)字檔案。Rosetta項目和瀕危語言檔案等項目已收集了大量字典、手稿、錄音和文化文物。這些收藏品為學者和社區(qū)提供了寶貴的語言遺產(chǎn)。然而,這些資源在絕大程度上是一種被動式的。學習者只能主動查找單詞或聽錄音,但積極使用或互動練習語言的機會十分有限。這也就限制了他們作為活體形式的語言復興。
相反,AI通過引入互動性和動態(tài)參與的形式,改變了這種情況。現(xiàn)代AI工具,包括聊天機器人、語音助手和翻譯應用,可以使用瀕危或已滅絕的語言與學習者進行說話、傾聽和回應。這些方式使得語言能夠超越被動的參考材料,通過互動體驗成為語言使用者日常生活、教育和文化表達的一部分。
所以說,AI的主要優(yōu)勢在于翻譯和重建。而且,在缺少完整的字典或文本時,AI模型會主動分析相關(guān)語言來填補空缺。例如,如果一種語言的詞匯量損失了30%,AI則可以使用類似的語言或歷史記錄的信息,來建議可能的詞匯。當然,AI也可以重建丟失語言的聲音。通過將古代文本的語音細節(jié)與現(xiàn)代語言知識相結(jié)合,那些由AI生成的聲音,如今已能“說出”蘇美爾語、梵語和古北歐語等語言。這使得學習者和研究人員有機會能夠聽到幾個世紀以來一直沉寂與失傳的語言。
AI驅(qū)動的語言復興面臨的挑戰(zhàn)和道德考慮
AI為復興瀕危和已滅絕的語言提供了新的方法。盡管如此,整個過程中仍然充滿了各種挑戰(zhàn)。有時,AI只能輸出最可能的近似表達,而無法被母語人士所驗證。有時,由AI模型產(chǎn)生的發(fā)音或用法雖然似乎合理,但很可能在真實的歷史或文化上并不準確。這都凸顯了技術(shù)專家、語言學家和語言社區(qū)成員之間密切合作的必要性。這樣的協(xié)作關(guān)系必須確保語言復興的過程既尊重文化遺產(chǎn)又保留歷史真相。下面,我們來具體討論幾類挑戰(zhàn):
- 由AI驅(qū)動的復興可能會創(chuàng)造一種僅存在于數(shù)字世界的語言。畢竟語言不僅僅是詞匯和語法,它也存在于日常使用、社交習慣、以及文化實踐中。如果一種語言是由AI所重建,但沒有人會經(jīng)常使用的話,它就會成為一件靜態(tài)的博物館文物。也就是說,它僅僅在技術(shù)上得到了保留,但在社會上并不活躍。
- 偏見是另一個問題。訓練數(shù)據(jù)通常來自殖民時代的檔案或外部來源。這些可能反映了與真實人群社區(qū)截然不同的觀點。而如果AI從這種有偏見的數(shù)據(jù)中學習,那么很可能會重現(xiàn)那些扭曲的語言版本,進而可能歪曲人群社區(qū)的真實遺產(chǎn)和認同。
- 過度依賴AI工具也可能是一個問題。如果人群社區(qū)完全依賴AI來進行語言教學和維護,那么他們可能會失去通過人與人之間的互動,來傳遞語言意圖的動力。畢竟,口頭傳播和社區(qū)參與對于語言的生存都是至關(guān)重要的。AI應該輔助與支持這樣的流程,而不是取代它們。
- 圍繞所有權(quán)和控制權(quán)的道德問題也不容忽視。許多土著和少數(shù)民族群體將語言視為其文化傳承的核心部分。他們擔心大型科技公司可能會通過AI生成語言的內(nèi)容與方式獲取所有權(quán),特別是如果其語言訓練本身就是基于他們長輩的錄制。因此,為了保護社區(qū)的權(quán)利,語言復興的努力必須從一開始就讓當?shù)厝藚⑴c進來。項目開展的過程中也應該征得群體的明確同意、數(shù)據(jù)主權(quán)、以及文化敏感性。AI應充當合作伙伴與協(xié)助角色,而絕不可取代人類做決定。
讓我們來看兩個例子:在新西蘭,AI工具正在幫助為毛利語創(chuàng)建語言資源。所有的內(nèi)容都需要經(jīng)過毛利語言學家和教育工作者的審查和批準。同樣,在加拿大,AI也在支持因紐特語和克里語等土著語言。他們的社區(qū)使用AI來開發(fā)自己的數(shù)字學習工具,畢竟語言復興的核心仍然是人類教學和文化實踐。
可見,綜合利用AI的處理能力,以及母語人士的文化知識和智慧,將有助于保持語言社區(qū)日常生活中的活力。
小結(jié)
復興瀕危或已滅絕的語言是一項復雜的任務。AI通過提供強大的工具,來加快重建和創(chuàng)建交互式的資源。然而,僅靠技術(shù)并不能完全復興一種語言。真正的復興取決于母語人士、人類社區(qū)和文化習俗。而這些習俗恰恰能每天保持語言的活力。
同時,AI必須作為一個支持性的合作伙伴,而非替代者,以確保語言的復興具有真正的意義和文化價值。可以說正是因為有了技術(shù)專家、語言學家和社區(qū)之間的合作,語言復興過程的準確性、真實性和對遺產(chǎn)的尊重才得以平衡。也正是因為這樣,我們才能突破靜態(tài)檔案的文字保存形式,恢復出鮮活的口語,將我們與過去相聯(lián)系,也豐富我們的未來。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項目實施經(jīng)驗,善于對內(nèi)外部資源與風險實施管控,專注傳播網(wǎng)絡與信息安全知識與經(jīng)驗。
原文標題:AI’s Linguistic Ghosts: Can Machines Revive Dead Languages or Bury Them Forever?,作者:Dr. Assad Abbas
























