人工智能已經(jīng)離我們?cè)絹碓浇?/h1>
很久以前科學(xué)家們就意識(shí)到,語音和文字信號(hào)進(jìn)入大腦后,會(huì)共享一部分處理路徑,正如你聽有歌詞的歌時(shí)很容易干擾你的閱讀。而相關(guān)的探索,可以追溯到一百多年前一個(gè)年輕人的意外發(fā)現(xiàn)。
1874年,卡爾·韋尼克正在著名神經(jīng)病理學(xué)家西奧多·梅內(nèi)特手下學(xué)習(xí)。他記錄下兩位奇特的病人。他們好像患有某種語言表達(dá)障礙,但癥狀和典型的表達(dá)性失語癥截然不同:他們說話寫字其實(shí)都很流暢,但凈是些胡言亂語。韋尼克最終將這種癥狀(現(xiàn)稱感覺性失語癥)歸因于顳葉后部和頂部的腦損傷。它破壞了病人的語言理解能力,所以患者常常說著寫著就忘了:“我要說啥來著?現(xiàn)代科學(xué)家們?cè)诘赜^察大腦活動(dòng)的過程中,最后都佐證了大腦中語音-文本“匯合區(qū)”的存在,這些區(qū)域同時(shí)負(fù)責(zé)著對(duì)語音和文本的理解。
在觀看外語電影時(shí),我們看著字幕也能很流暢的把電影看完,這里的字幕就涉及語音翻譯技術(shù),把源語言的聲音翻譯成目標(biāo)語言(如你的母語)的文本。
然而對(duì)于計(jì)算機(jī)而言,語音和文本的表達(dá)形式大不相同。文本通常只是幾十個(gè)符號(hào),但語音都是連續(xù)的聲音波形,長(zhǎng)度可以達(dá)到百萬之巨。即使是說一個(gè)詞,由誰來說、在什么環(huán)境中、何種語境下說,聽起來也會(huì)大相徑庭。此外,語音與文本的編碼方式也不同。文本單詞由詞根和詞綴構(gòu)成。而語音則包含著一系列的語素,輔以輕重和抑揚(yáng)頓挫。
對(duì)人類來說輕而易舉的事情,人工智能來做卻可能難上加難。文本和語音的差異之大,在文本處理方面的研究碩果累累時(shí),語音上的表現(xiàn)卻落后不少。要想彌合差距,就需要統(tǒng)一理解語音和文本,就像我們的大腦那樣。
現(xiàn)在我們研究人工智能時(shí)就已經(jīng)開始從解剖學(xué)和神經(jīng)學(xué)中獲取靈感來優(yōu)化模型,人工智能已經(jīng)離我們?cè)絹碓浇?/p>


























