国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

我是如何用AI把“請洗手”翻譯成500種語言的?

人工智能
通過使用人類和機器生成的翻譯,可以將關鍵的健康短語翻譯成世界各地的當地語言。

[[322940]]

通過使用人類和機器生成的翻譯,可以將關鍵的健康短語翻譯成世界各地的當地語言。

你可能不知道,目前世界上有 7117 種語言在使用,不是方言,而是在用的語言! 然而,世界上許多數字媒體只能使用幾十種語言,而像谷歌翻譯這樣的翻譯平臺只支持 100 種左右的語言。這樣的現實意味著,由于缺乏及時獲取信息的機會,全世界有數十億人被邊緣化。當前的冠狀病毒(COVID-19)大流行已經讓人痛苦地意識到了這一點,凸顯了將健康相關的短語(如“請洗手wash your hands”或“保持距離”等)即時、快速翻譯成小眾語言的必要性。

為此,我應用了最先進的 AI 技術,用 544 種語言構建出了與“請洗手”相近的短語并進行了統計(我的 GPU 還在運行)。多語言無監督和受監督嵌入Multilingual Unsupervised and Supervised Embeddings(MUSE)方法被用來訓練這 544 種語言和英語之間的跨語言單詞嵌入。然后,這些嵌入方法可以從現有文檔中提取出與目標短語相似的短語。

我與 SIL 國際公司的同事們合作完成了這項工作,他們收集了該短語的更多的人工翻譯結果。這些人工翻譯結果和我的一些機器翻譯結果的組合可以在這個民族語指南頁面上搜索到(機器生成的短語用一個小的機器人圖標表示),更多的翻譯將在生成/收集到的時候加入。

利用現有的語料庫

SIL 國際公司已經完成了 2000 多種語言的語言工作,目前管理著 1600 多個語言項目。因此,當我解決這個特殊的問題時,我知道我們很可能已經多次將“請洗手”和/或類似的短語翻譯成了數百種語言,而這一猜測得到了回報。我很快就從我們的檔案庫中收集到了超過 900 種語言的文檔(主要是完成的貝殼書模板、教材和圣經)。這些文檔中的每一份都有一個英文的對應版本,其中必然包括“請洗手”和/或類似“請洗臉”這樣的短語。此外,這些文檔的質量都很高,并與當地語言社區合作進行了翻譯和檢查。

這是相當多語言的數據集。然而,有兩個問題需要克服。首先,這個數據包含了大多數語言的數千種樣本,這與訓練機器翻譯模型所使用的數百萬個樣本形成了鮮明對比。其次,即使文檔中包含目標語言中的“請洗手”這個短語,我們也不知道這個短語在周圍文本中的確切位置。

我們當然可以利用低資源語言的機器翻譯中的一些最新技巧,但是需要花費一些時間來調整自動化方法,以快速適應每種語言對中的翻譯模型。此外,我們所針對的許多語言都沒有現成的的基線,可以用來比較評估指標(例如 BLEU 評分)。考慮到對冠狀病毒大流行的迫切擔憂,我們希望比這更快一點(盡管我們計劃在將來再來解決這個問題)。

我選擇通過在現有的文檔中尋找短語本身或短語的組件(如“請洗”或“你的手”)來嘗試構建“請洗手”這個短語。為了找到這些成分,我使用 Facebook Research 的多語言無監督和受監督嵌入(MUSE)對每個 {英語、目標語言} 對進行了跨語言cross-lingual嵌入訓練。MUSE 以單語言monolingual的單詞嵌入作為輸入(我使用 fasttext 來生成這些詞),并使用對抗性方法學習了從英語到目標嵌入空間的映射。這個過程的輸出是跨語言cross-lingual的單詞嵌入。

 

一旦產生了跨語言嵌入,我們就可以開始在目標語言文檔中尋找短語組件。結果發現,整個文檔中清楚地使用了“請洗臉”這個短語以及單獨的“手”、“請洗”等詞。對于每一種語言,我都通過 n-gram 搜索我預期該短語會出現的地方(根據其在英語的對應版本中的用法)。使用跨語言嵌入法對 n-gram 進行了矢量化處理,并使用各種距離指標與英語短語的矢量化版本進行了比較。在嵌入空間中,與英文短語“最接近”的 n-gram 被確定為與目標語言匹配。

最后,將與英語對應的成分短語進行組合,生成目標語言中的“請洗手”短語。這種組合方式再次利用了跨語言嵌入,以確保以合適方式組合組件。例如,如果我們在目標語言中匹配“請洗腳”這個短語,就必須將“腳”對應的 n-gram 替換成“手”對應的 n-gram。下面是伯利茲·克里奧爾Belize Kriol英語的一個例子:

 

當然,在這個匹配過程中,會做一些假設,這個過程完全有可能不能產生語法上正確的預測。例如,我假設在大多數語言中,“手”的單詞和“腳”的單詞都是一個字元token長的(字元由空格和標點符號隔開)。當然并非總是如此。這可能會造成類似于“和洗和手你”或類似的瑕疵詞條。希望我們可以克服其中的一些局限性,并在未來擴展這個系統,但是,現在,我們選擇用圖形來強化這個想法。

我們將世界衛生組織的洗手說明改編成了一個 PNG 圖片模板。然后,我們把我們翻譯和生成的短語,用 Bash 和 Go 腳本的組合將其渲染到洗手圖像中。這樣,在文字和圖像中都強調了正確洗手的理念(以防萬一我們生成的翻譯很尷尬)。

結果

到目前為止,我已經能夠訓練出 544 種語言的跨語言嵌入。我使用上述討論過的方法嘗試為所有這些語言構建“請洗手”這個短語。因為我沒有許多語言對的對齊數據,所以我使用了同樣包含“請洗手”成分的單獨的保留文檔來幫助驗證構造短語中的字元。這讓我們對公開發布的翻譯版本有了一些信心(至少它們包含了表示“洗”和/或“手”的信息)。此外,我還將該方法與谷歌翻譯支持的和/或有可用的人工翻譯的語言對進行了比較。以下是來自 Ethnologue 帶有語言統計的翻譯樣本。

語言:意大利語 [Ita]

  • 地點:意大利
  • 人口: 68,000,000
  • 我們的系統: làvati la mani
  • 谷歌翻譯: Lavati le mani

語言:保加利亞語 [bul]

  • 地點:保加利亞
  • 人口:8,000,000
  • 我們的系統:умий ръцете
  • 谷歌翻譯:Измий си ръцете

語言: 荷蘭語 [nld]

  • 地點:荷蘭
  • 人口:24,000,000,000
  • 我們的系統:wast uw handen
  • 谷歌翻譯:Was je handen

語言: Pijin [pis]

  • 地點:所羅門群島
  • 人口: 550,000
  • 我們的系統:wasim han
  • 谷歌翻譯:不支持

語言:Tikar [tik]

  • 地點:喀麥隆
  • 人口:110,000
  • 我們的系統:ɓɔsi fyàʼ
  • 谷歌翻譯:不支持

語言:Waffa [waj]

  • 地點:巴布亞新幾內亞
  • 人口:1,300
  • 我們的系統:yaakuuvaitana nnikiiyauvaa fini
  • 谷歌翻譯:不支持

構造的短語類似于參考翻譯,或者似乎是“請洗手”的另一種說法。例如,在保加利亞語中,我預測為“умий ръцете”,而谷歌翻譯預測為“Измий си ръцете”。 然而,如果我用谷歌翻譯回譯我的預測,我還是會得到“請洗手”。有一些不確定的地方,我無法與參考譯文(例如,所羅門群島的 Pijin [pis])或人類注釋的跨度進行比較,但我仍然可以驗證“洗”(wasim)和“手”(han)分別用在其他必定是談論洗或手的參考文件中。 大約有 15% 的譯文可以用這個方法驗證,我希望在收集參考文獻字典的過程中能進行更多的驗證。

請注意,我最多使用了每種語言中大約 7000 個句子來得到上述譯文,即使是意大利語這樣的高資源語言也是如此。我也不依賴語言對之間的對齊句子。盡管存在這種數據非常稀缺、無監督的情況,但對于兩個系統都支持的語言,我仍然能夠獲得類似于谷歌翻譯的短語。這證明了這種“混合”方法(無監督的單詞嵌入+基于規則的匹配)在將短語翻譯成數據非常少的語言中的潛在用途。

注意:我絕對不是說這是解決冠狀病毒和其他健康相關的信息傳播問題的解決方案。這里仍有很多東西需要探索和正式評估,我們正在為此努力。在很多情況下,這種方法無法幫助構建數百種語言的重要信息資料。但是,我認為,我們所有人都應該嘗試著為當前危機的相關問題制定創造性的解決方案。也許這只是一個非常大的拼圖中的一塊。

你可以在這個民族語言指南上查看經過驗證的譯文加上人工翻譯的完整列表。此外,我們即將以論文的形式對這一系統進行更深入的描述和分析。我們歡迎公眾對翻譯進行反饋,以幫助系統進行微調,最重要的是,確保將健康信息傳遞給世界各地的邊緣化語言社區。

制作自己的洗手海報

我們已經開源了用于渲染復合的腳本和生成洗手海報的代碼。這種方法應該能夠處理幾乎所有的語言和腳本。你可以在海報中添加你自己的“請洗手”的翻譯,以幫助傳播,或者根據自己的本地語境進行翻譯。請務必在社交媒體上以 #WashYourHands 為標簽分享你生成的海報。

培養你的 AI 技能

有很多令人興奮的 AI 問題,可以給世界帶來巨大的影響。如果你想用人工智能解決像上面提到的問題,或者你認為你的企業可能需要開始利用人工智能來做其他事情(供應鏈優化、推薦、客戶服務自動化等),那么不要錯過今年 5 月的AI 課堂培訓活動AI 課堂是一個沉浸式的、為期三天的虛擬培訓活動,適合至少有一定編程經驗和數學基礎知識的人參加。該培訓提供了使用 Python 和開源框架(如 TensorFlow 和 PyTorch)進行現實的 AI 開發的實用基礎知識。完成課程后,學員將有信心開始開發和部署自己的 AI 解決方案。 

責任編輯:龐桂玉 來源: Linux中國
相關推薦

2019-12-05 10:08:39

Python 開發編程語言

2017-07-11 09:46:00

防火墻翻譯安全

2020-06-04 09:22:46

谷歌AI翻譯

2020-04-07 00:26:32

AI語言無監督

2021-08-12 16:30:45

OpenAI人工智能自然語言翻譯

2022-07-07 12:38:58

PlatformsMetaNLLB-200

2020-07-20 17:36:31

英語翻譯開源工具開源

2017-05-02 13:38:51

CSS繪制形狀

2020-10-11 22:05:22

機器翻譯谷歌AI

2019-10-12 13:36:43

機器學習人工智能計算機

2016-11-08 18:53:08

編譯器

2017-03-30 15:40:46

編程語言翻譯家

2021-03-22 11:10:09

Redis架構MQ

2020-10-14 10:29:58

人工智能

2012-07-25 09:15:16

盜版者客戶

2018-12-06 14:41:04

Python GitHub編程語言

2013-12-06 11:14:54

開發者程序員bug

2015-04-14 09:31:10

AWSAWS PaaSSaaS可視化編排

2020-02-11 16:25:47

JavaLinux字符串

2020-10-21 15:24:42

阿里AI翻譯
點贊
收藏

51CTO技術棧公眾號

亚洲电影小说图| 春色校园综合激情亚洲| 久久99久久久久久久久久久| 国产成人精品在线观看| 国产精品蜜月aⅴ在线| 91精品国产综合久久久久久| 日本v片在线免费观看| 亚洲韩国一区二区三区| 好吊妞这里只有精品| 国产欧美1区2区3区| 男人操女人逼免费视频| jizz一区二区| 成人网站免费观看入口| 国产精品1024| 黄色一级片国产| 国产成人免费视频网站| 久久久国内精品| 成人午夜在线免费| 缅甸午夜性猛交xxxx| 不卡欧美aaaaa| 北条麻妃在线一区| 久久精品欧美日韩精品| 一区二区三区网址| 国产精品久久久久影视| 狠狠操夜夜操| 欧美视频国产精品| 久久综合网导航| 亚洲第一福利在线观看| 欧美成人影院| 欧美理论电影在线播放| 久久97久久97精品免视看秋霞| 91av视频在线免费观看| 日韩在线不卡| 国产传媒欧美日韩| 男人的天堂久久精品| 超薄肉色丝袜足j调教99| 91免费看片在线观看| 久草一本av| 欧美美女一区二区| 英国三级经典在线观看| 欧美理论电影在线观看| 日韩欧美视频专区| 欧美一区1区三区3区公司| 国产麻豆视频一区| xxx亚洲日本| 欧美日本在线视频| 国产三级一区| 国产精品丝袜久久久久久不卡| 在线观看视频日韩| 在线观看成人免费| 1024亚洲合集| 黄色在线免费看| 久久艳片www.17c.com| 欧美成人激情| 一区二区不卡在线| 中文字幕在线观看一区| 午夜精品一区| 久久夜色精品国产欧美乱| 在线电影一区二区| 国产玉足脚交久久欧美| 亚洲电影中文字幕在线观看| 性爱视频在线播放| 久久久久亚洲精品| 午夜亚洲性色视频| youjizzxxxx18| 91精品欧美综合在线观看最新| 欧美free嫩15| 91香蕉国产在线观看| 国产大陆精品国产| 在线中文字幕av| 亚洲图片欧美日产| 婷婷综合网站| 国产免费一区二区三区视频| 在线精品观看国产| 136福利精品导航| 欧美日韩在线观看一区| 中文字幕日韩一区| 美女在线视频免费| 国产免费一区二区三区香蕉精| 国产一区二区在线看| 在线国产小视频| 国产一区二区激情| 一区二区亚洲| 99热一区二区| 亚洲精品自产拍| 欧美1区2区| www.国产91| 亚洲无亚洲人成网站77777| 黑丝一区二区三区| 怡红院亚洲色图| 亚洲欧美日韩精品久久奇米色影视 | 欧美xxx在线观看| 国产精品333| 欧美男男青年gay1069videost| 电影一区二区在线观看| 亚洲图片小说在线| 91黄视频在线观看| 欧美亚洲国产日韩| 97成人在线免费视频| 欧美成人在线直播| 亚洲春色h网| 国产精品国三级国产av| 制服丝袜中文字幕一区| 欧美综合久久| 污污网站免费观看| 久久精品国产一区| 韩国v欧美v亚洲v日本v| 五月婷婷在线视频| 波多野结衣成人在线| 亚洲成av人片在线| 亚洲黄页网站| 五月天电影免费在线观看一区| 日韩网站免费观看高清| 国产一区二区三区高清播放| 午夜影院免费在线| 久久久婷婷一区二区三区不卡| 色天天综合久久久久综合片| 日本一区二区免费高清| 女人黄色片免费| 欧美在线视频一区二区| 国产精品美女久久久久av爽李琼| 美女精品视频在线| 丁香婷婷激情网| 久久久久久久久久久免费| 久久免费电影网| 永久免费观看精品视频| av动漫在线看| 欧美国产视频日韩| 国产精品欧美一区喷水| 韩国精品福利一区二区三区| 日韩亚洲在线视频| 午夜精品一区二区三区在线播放| 国产亚洲精品aa| 岛国精品一区| 成人3d漫画免费无遮挡软件| 日韩av免费在线播放| 亚洲午夜精品网| 亚洲精品二区三区| 日本免费中文字幕在线| 日韩一二三区不卡在线视频| 亚洲成人在线视频播放| 国产精品自产自拍| 国产电影一区| va中文字幕| 91人成网站www| 欧美精品色综合| 国产九九精品| 小视频免费在线观看| av在线播放亚洲| 7777kkkk成人观看| 午夜激情一区二区| 日韩亚洲国产精品| 伊人久久国产| 超碰在线97免费| 成人激情视频在线播放| 欧美日韩国产综合草草| 国产乱色国产精品免费视频| 欧美h版在线观看| 一本大道香蕉8中文在线视频| 久久久福利视频| 最近2019免费中文字幕视频三| 中文无字幕一区二区三区| 日韩视频在线观看| 青草在线视频| 国产精品亚洲二区在线观看| 国产精品永久免费观看| 欧美www视频| 久久久久九九视频| 欧美日韩色图| 国产一线二线在线观看 | 热国产热中文视频二区| 国产欧美精品一区二区三区| 亚洲码在线观看| 国产精品毛片久久久久久久| 91成人观看| 毛片免费看不卡网站| 蜜桃一级网站.| 亚洲精品一区二区三区蜜桃久 | 69堂精品视频在线播放| 人猿泰山h版在线观看| 久久伦理网站| 欧美理论片在线观看| 色综合一个色综合| 国模少妇一区二区三区| 欧美日韩123| 激情图片在线观看高清国产| 国产精品免费成人| 久久精品日产第一区二区三区乱码| 日韩在线视频中文字幕| 一本到高清视频免费精品| 懂色一区二区三区免费观看| 成久久久网站| 91大神在线观看线路一区| 中文字幕不卡| 国产精品久久中文字幕| 99久久国产免费免费| 欧美成人免费网| 日韩欧美国产一二三区| 亚洲激情网站免费观看| 国产成人精品亚洲午夜麻豆|