国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

未來,我們將如何進行信息搜索?

原創 精選
人工智能
在新的搜索的環境下,未來智能搜索技術都將會呈現出哪些特征呢?

嘉賓 | 竇志成

整理 | 張鋒

策劃 | 徐杰承

搜索引擎自誕生之初到現在已經有二十多年,其形式和架構一直沒有發生很大改變。伴隨著互聯網技術的持續發展,未來的搜索環境將變得愈加復雜多樣,用戶獲取信息的方式也會發生很多的變化,自然語言、語音、視覺等多種輸入形式勢必會取代簡單的關鍵詞;答案、高階知識、分析結果、生成內容等多種模態內容輸出將取代簡單結果列表;在交互方式上也可能會從單輪檢索過渡到多輪自然語言交互。

那么在新的搜索的環境下,未來智能搜索技術都將會呈現出哪些特征呢?日前,在51CTO主辦的在??AISummit全球人工智能技術大會??上,中國人民大學高瓴人工智能學院副院長竇志成老師通過主題演講——《下一代智能搜索技術》,為廣大聽眾分享了新一代智能搜索技術的發展趨勢及核心特征,同時就交互式、多模態、可解釋搜索、及以大模型為中心的去索引化搜索等技術做出了詳盡分析。本文將竇志成老師的演講內容進行了編輯整理,希望能給大家帶來一些新的啟發:

未來搜索的主要特征

我們認為未來的搜索可能會有至少這五個方面的特征:

  • 對話式,人和搜索引擎是通過自然語言進行多輪交互的一種方式。
  • 個性化,會根據不同用戶的需求反饋不同的結果,而不是千篇一律、千人一面的為所有人反饋相同的結果。
  • 多模態,返回的內容和輸入的方式可能不僅僅局限于用文本來作為媒介或者是途徑。
  • 富知識,搜索返回的信息不僅僅是一個結果列表的形式,可能是有各種不同的展示的形式,以各種知識、實體的方式展示。
  • 去索引倒排索引或稠密索引的方式也迫切需要產生很大的變化。

對話式

現在使用的搜索引擎普遍采用的模式是在一個框里面輸入一兩個詞進行搜索。未來的搜索則可能是我們與搜索引擎采用對話的方式進行交互。

在傳統的搜索引擎采用的關鍵詞檢索方式,我們希望把所有要找的信息核心都通過關鍵詞描述出來,即我們假設單個查詢能夠完整、準確地表達這個信息的需求。但在表達一個較為復雜的信息時,關鍵詞其實是很難滿足需求的。而對話式搜索可以通過多輪交互來充分表達信息需求,比較符合人和人在交流的時層層遞進的信息交互方式。

想要到達這種交互式搜索,會給系統或算法帶來很大的挑戰,需要讓搜索引擎從多輪的自然語言交互中準確理解用戶的意圖,同時也要把理解出的意圖與用戶想要的信息做好匹配。

相比于傳統的關鍵詞搜索,對話式搜索需要更復雜的查詢理解(例如需要解決當前查詢中的省略,共指等問題),以還原用戶的真實搜索意圖。最簡單的方式是將歷史查詢全部拼接起來,使用預訓練語言模型進行編碼。

簡單的拼接對話方式雖然簡單,但可能會引入噪聲,并不是所有的歷史查詢都對于理解當前查詢是有幫助的,所以我們只選出和它有依賴關系的上下文,這樣也能解決長度的問題。

對話式檢索模型COTED

基于以上思想,我們提出了對話式稠密檢索的模型COTED,其主要包括如下三部分:

1、通過識別對話查詢中的依賴關系,來去除對話中的噪聲,進而更好地預測用戶的意圖。

2、基于對比學習的數據增強(模仿各種噪聲情況)和去噪損失函數,有效讓模型學會忽略無關的上下文,把它和最終匹配的損失函數聯合,做多任務的學習。

3、通過課程學習的方式來降低模型多任務學習的學習難度,最終提升模型性能。

然而,夠用于對話式搜索模型訓練的數據實際上是非常有限的,在有限的少樣本情況下,對話式搜索的模型訓練是非常困難的。

如何解決這個問題?出發點就是能否把搜索引擎日志遷移去做對話式搜索引擎的訓練。在這個思想上,把大規模的web搜索的日志轉換成對話式搜索日志,然后在轉換之后的數據上訓練對話式搜索的模型。但這種方法也同時伴隨著兩個很明顯的問題:

一是傳統的web搜索采用關鍵詞搜索的方式,對話式搜索是自然語言對話的方式,查詢形式是不一樣的,無法直接遷移使用。二是查詢本身就會存在很多噪聲,需要對搜索日志里面的用戶數據做一些清洗、過濾、轉換,才能用在對話式搜索里面。

對話式搜索訓練模型ConvTrans

為了解決這些問題,我們做了對話式搜索訓練模型ConvTrans,并實現了以下功能。

首先,以圖的方式對傳統的web搜索引擎中的日志進行了組織,通過查詢與查詢、查詢與文檔之間建立聯系構建了圖。在圖的基礎上,使用了一個基于T5的兩階段查詢改寫的模型,將一個關鍵詞的查詢改寫成一個問題的形式。經過改寫之后,圖中每個查詢都會用自然語言來表達新的查詢,再設計一個采樣的算法,從圖上做隨機游走,生成對話的會話,之后基于這個數據來訓練對話的模型。

實驗顯示,用這種自動生成的訓練數據來訓練的對話式搜索模型,能夠和使用昂貴的人造或者人工標注的數據達到同樣的效果,且隨著自動生成的訓練數據規模的增大,性能也會持續提升。這種方法使我們基于大規模搜索日志進行訓練對話式搜索模型成為了可能。

對話式搜索模型雖然在搜索上已經走了一大步,但這種對話方式仍然是被動的,搜索引擎一直被動的接受用戶的輸入,根據輸入來返回結果,搜索引擎沒有主動地去問用戶你到底要找什么。但在人和人的交流過程中,當你被問一個問題的時候,有時候你會主動地來反問一些問題來做澄清。

比如必應搜索里面,如果Query是“Headaches”,頭疼。它會問你“What do want to know about this medical condition”“你想知道關于這個疾病的什么事”,比如說是它的癥狀、還是治療、還是診斷、還是成因或者誘因。因為Headaches本身是非常寬泛的一個Query,在這種情況下,系統希望能夠進一步澄清你想找到哪里的信息。

這里面臨兩個問題,第一是候選項,就是想讓用戶去澄清到哪個具體的項。第二是澄清問題,搜索引擎主動反過來問用戶的這個問題。而核心詞是澄清問題里面最至關重要的一部分。

在這方面的探索,第一是通過查詢日志和知識庫去給定一個查詢的時候,能夠生成一些澄清的候選項。第二,基于規則可以通過搜索的結果來預測這個澄清問題的一些核心詞。同時也標注一些數據,通過有監督的模型來做這種文本標簽的分類。第三,進一步在這個標注數據的基礎上訓練端到端的生成模型。

個性化

個性化指的是未來的搜索將以用戶為核心。現在的搜索引擎,不管是誰來查,返回都是同樣的結果。而這并不能滿足用戶的特定化信息需求。

現在的個性化搜索采用的模式,首先通過用戶歷史學習用戶熟悉的知識信息,對查詢進行個性化實體消歧。其次,通過消歧后的查詢實體增強個性化匹配。

此外我們在基于產品品類構建用戶的多興趣模型方面也做了探索,假設用戶可能有自己在所有品類上的一些品牌(規格、型號)傾向性,但是這個傾向性不能簡單的通過一兩個向量來去刻畫。應該根據用戶購物的歷史,構建知識圖譜,通過知識圖譜針對不同品類學習不同的興趣,最終做更精準的個性化搜索的結果推送。

也可以用同樣的個性化方法去做聊天機器人,核心思想就是通過用戶歷史對話,學習用戶個性化興趣和語言模式,訓練個性化對話模型,可以模仿(代理)用戶說話。

多模態

現在的搜索引擎在處理多模態信息的時候,其實有相當多的局限性的。未來用戶獲取的信息可能不僅僅是一些文字、網頁,可能還包括圖片、視頻以及更復雜的結構信息。所以未來的搜索引擎在多模態信息獲取上還有很多工作需要做。

現在的搜索引擎在理解或者是做跨模態檢索時,即給出一個文本的描述,去找它對應的圖片的時候,做得還是有很多缺陷的。類似的搜索如果遷移到手機上,局限性就會更大。

所謂的多模態就是語言、要找的圖像、圖片、視頻等模態,映射到統一的一個空間上,這就意味著可以通過文字去找圖片,圖片去找文字,圖片去找圖片等。

對此,我們做了大規模多模態的預訓練模型——文瀾。其重點是基于海量的互聯網圖片和附近文字的弱監督相關性貢獻的信息訓練出來的。采用雙塔模式,最后訓練的是一個圖片的編碼器和文本的編碼器,這兩個編碼器通過端到端匹配的優化學習過程,讓最終的表示向量能夠映射到統一空間中,而不是把圖片的細粒度和文字的細粒度拼接在一起。

這種跨模態的檢索能力,其實不只是端到端給用戶使用web搜索引擎時提供了更多的空間,同時也可以支撐很多應用,例如創作,不管是社交媒體還是文創類,都可以用它來支撐。

富知識

現在的搜索引擎普遍檢索的主體還是網頁,而未來搜索引擎處理的單元不僅僅是網頁,應該是以知識為處理的單位,包括返回的結果也應該是高階的知識,而不是一個一個頁面的列表形式。很多時候用戶其實想通過搜索引擎來完成一些復雜的信息需求,故而希望搜索引擎幫助分析結果,而不是讓人來一個一個去分析。

基于此想法我們構建了分析引擎,相當于是在搜索引擎的基礎上,能提供深度的文本分析,幫助用戶高效、快捷地獲取高階知識。幫助用戶完成對大規模文檔的閱讀和理解,并對其中所包含的關鍵信息和知識進行抽取、挖掘、匯總,最終通過交互式的分析過程,讓用戶對挖掘到的高階知識進行瀏覽和分析,進而為用戶提供決策支持。

例如用戶希望找霧霾相關的信息,可以直接輸入“霧霾”。富知識模式與傳統的搜索引擎返回的結果不同,可能返回一個時間軸,告訴用戶關于霧霾的信息在時間軸上的分布等情況,還會總結出關于霧霾的子話題有哪些、機構有哪些、人物有哪些。當然它也可以像搜索引擎一樣提供詳細的結果的列表。

這種可以直接提供分析,而且是交互式分析的能力,能夠更好地幫助用戶獲取復雜信息的能力。提供給用戶的東西不再是簡單的搜索結果列表。當然這種交互式的多維知識分析,只是一種展示方式,以后還可以做更多的方式,比如我們現在正在做的一件事情就是從檢索到生成(有理有據的)內容。

去索引

現在的搜索引擎廣泛采用以索引為核心的分階段方式,從大量互聯網的網頁爬回所需內容后構建Index,也就是倒排的索引或稠密的向量索引。用戶的Query來之后,先要做召回,在召回的結果基礎上再做精細化排序。

這個模式有很多弊端,因為要分階段,如果一個階段上出了問題,例如在召回階段沒有找到想要的結果,它排序階段做得再好,也不可能返回很好的結果。

在未來的搜索引擎中,這種結構有可能是會被打破的。全新的想法是使用一個大的模型來取代現在的索引的模式,所有的查詢都可以通過模型來滿足。這就不再需要使用索引了,而是直接通過這種模型反饋想要的結果。

在這個基礎上,可以直接提供結果列表,也可以直接提供用戶所需的答案,甚至答案還可以是圖像,將各模態更好的融合在一起。去掉索引,直接通過模型來反饋結果,就意味著這個模型能夠直接return或者直接返回文檔的標識符,文檔標識符是一定要嵌入到模型中的,構建以模型為中心的搜索。

總結

現在的搜索引擎廣泛采用關鍵詞為輸入,文檔列表為輸出的這種簡單模式。在滿足人們復雜信息獲取需求方面,已經存在了一些問題。未來的搜索引擎將會是對話式的、是個性化的、是以用戶為中心的、是能夠破除千人一面的。同時能夠處理多模態的信息,能夠處理知識、能夠返回知識。在架構上,未來也一定會突破現有的采用倒排索引或者稠密向量索引的這種以索引為核心的模式,逐步過渡到以模型為核心的模式。

?

嘉賓介紹

竇志成中國人民大學高瓴人工智能學院副院長,北京智源人工智能研究院“智能信息檢索與挖掘”方向項目經理。2008加入微軟亞洲研究院,從事互聯網搜索的相關工作,培養了豐富的信息檢索技術研發經驗。2014年開始在中國人民大學任教,主要研究方向為智能信息檢索和自然語言處理。曾獲國際信息檢索大會(SIGIR 2013)最佳論文提名獎,亞洲信息檢索大會(AIRS 2012)最佳論文獎,全國信息檢索學術會議(CCIR 2018、CCIR 2021)最佳論文獎。擔任SIGIR 2019的程序委員會主席(短文),信息檢索評測會議NTCIR-16程序委員會主席,中國計算機學會大數據專家委員會副秘書長等職務。近兩年主要關注個性化和多樣化搜索排序、交互式和對話式搜索模型、面向信息檢索的預訓練方法、搜索和推薦模型的可解釋性、個性化產品搜索等。

責任編輯:徐杰承 來源: 51CTO
相關推薦

2018-05-23 16:00:10

2020-10-28 07:09:13

內網信息收集

2020-10-26 08:24:09

內網信息收集滲透測試

2021-12-06 11:57:48

無人駕駛智能技術

2021-08-12 11:29:27

物聯網人工智能IoT

2013-09-13 11:20:55

云資源云計算趨勢

2021-06-08 08:07:37

6G網絡5G

2019-04-19 14:16:49

云端云計算公共云

2017-09-18 11:49:07

互聯網

2023-08-09 06:58:11

人工智能搜索引擎算法

2017-01-16 15:17:10

AR玩具游戲

2020-12-08 13:36:18

智慧城市解決方案基礎設施

2021-07-09 11:17:13

首席信息官技術發展企業管理者

2020-03-29 20:03:25

5G網絡技術

2019-02-28 05:35:47

物聯網購物IOT

2023-03-14 14:43:40

邊緣計算物聯網

2023-04-13 07:24:56

2022-12-27 18:51:42

無人機人工智能智能建筑

2015-04-21 16:09:46

2019-12-18 13:53:47

物聯網開發系統
點贊
收藏

51CTO技術棧公眾號

精品国产乱码久久久久久天美| 日韩一级黄色片| 欧美极品一区二区| 日韩精品一区二区三区中文字幕| 欧美在线观看视频在线| 天天影视综合色| 韩国一区二区三区| 成人欧美视频在线| 精品国产一区二区三区不卡蜜臂| 国产婷婷色综合av蜜臀av| 尤物视频免费在线观看| 亚洲国产精品黑人久久久| 日韩欧美三级电影| 欧美大片专区| 国产精品久久久久高潮| 亚洲国产中文在线| 在线成人激情视频| 天堂成人av| 欧美性受xxxx黑人xyx性爽| baoyu777.永久免费视频| 不卡欧美aaaaa| 天堂av免费看| 玖玖视频精品| 国产成人精品日本亚洲11| 欧美久久综合网| 97久久久免费福利网址| 成人av集中营| 精品久久久久久久一区二区蜜臀| 国产免费av高清在线| 亚洲成人午夜影院| 日本调教视频在线观看| 亚洲欧美一区二区久久| 欧美大尺度做爰床戏| 国产欧美一区二区精品性色 | 国产一级做a爰片久久| 高清视频一区二区| 路边理发店露脸熟妇泻火| 麻豆国产欧美日韩综合精品二区| 日韩在线电影一区| 麻豆精品蜜桃视频网站| 亚洲视频精品一区| 激情综合网av| 日韩视频在线观看视频| 国产精品自拍在线| 日本中文字幕亚洲| 久久你懂得1024| 天美星空大象mv在线观看视频| 国产欧美日韩精品在线| 91亚洲免费视频| 亚洲男人的天堂网| 最新av免费在线| 色香蕉久久蜜桃| www国产在线观看| 亚洲精品丝袜日韩| 国产成人免费视频网站视频社区| 久久久久久尹人网香蕉| 国产欧美一区| 国产精品乱码视频| 免费看黄色91| 国产一二三区在线播放| 国产欧美精品一区| 中文字幕一区二区三区域| 精品国产鲁一鲁一区二区张丽| se在线电影| 亚洲精品国精品久久99热一 | 午夜精品福利一区二区三区av| 一本大道香蕉久在线播放29| 在线观看日韩毛片| 怡红院av在线| 国产一区二区三区久久精品 | 久久不射网站| 一本一道综合狠狠老| 日本免费中文字幕在线| 亚洲第一网站男人都懂| av在线不卡精品| 久久99精品国产99久久6尤物| 久久新电视剧免费观看| 日本理论片午伦夜理片在线观看| 一区二区三区天堂av| 波多野结衣在线观看一区二区三区| 国产小视频免费| 一区二区三区鲁丝不卡| 在线a人片免费观看视频| 国产精品进线69影院| 日本福利片在线| 亚洲大胆人体在线| 欧美重口另类| 美乳视频一区二区| 欧美国产97人人爽人人喊| av一本在线| 久久av在线看| av成人毛片| 中文字幕资源网在线观看| 国产又黄又大又粗视频| 亚洲一区在线观看视频| 在线免费观看污| 欧美肥婆姓交大片| 一区二区国产在线观看| 99热成人精品热久久66| 欧美性猛交xxxx免费看| 成人精品电影在线| 国产福利久久| 国产高清一区在线观看| 久久99精品久久久久久国产越南| 日本xxxxxxxxxx75| 欧美亚洲禁片免费| a级日韩大片| 亚洲国产午夜伦理片大全在线观看网站 | 亚洲欧美中文字幕| 日韩电影二区| 免费国产黄色网址| 在线播放中文字幕一区| 成人在线超碰| 在线观看三级网站| 在线观看欧美黄色| 日本天堂在线观看| 激情四房婷婷| 亚洲成人精品电影在线观看| 亚洲一区二区三区精品视频| 国产主播一区二区| 丁香花高清电影在线观看完整版| 亚洲女人被黑人巨大进入al| 亚洲经典一区| 另类小说第一页| 国产视频久久久| 亚洲午夜一区| 伦理电影国产精品| 久久精品最新地址| 麻豆精品蜜桃视频网站| 国产黄色在线播放| 国产精品444| 成人激情av网| 麻豆福利在线观看| 电影午夜精品一区二区三区| 国产精品国产三级国产普通话99 | 亚洲最大综合网| 亚洲男人天天操| 免费看的黄色欧美网站| 男裸体无遮挡网站| 不卡av电影院| 国产·精品毛片| 美女网站在线看| 麻豆av一区二区| 欧美色图一区二区三区| 亚洲高清资源在线观看| 欧美婷婷六月丁香综合色| 好男人看片在线观看免费观看国语| 中日韩美女免费视频网站在线观看| 日韩精品色哟哟| 成人影院在线观看| 久热这里只精品99re8久| 欧美日韩精品欧美日韩精品一| 欧美aaaa视频| 最近最新中文字幕在线| 91久久精品国产91性色| 亚洲妇熟xx妇色黄| 日韩欧美中文| 日韩资源在线| 成人永久免费| 欧美日韩免费视频| 亚洲一区一卡| 日韩电影免费网站| 国产精品一级在线| 91大片在线观看| 国产视频一区在线播放| 天堂成人娱乐在线视频免费播放网站| 视频免费在线看| 久草资源在线| 成人影院在线视频| 欧美精品一区二区三区免费播放| 美女一级全黄| 在线影院av| 国产中文字幕在线观看| 999在线视频| www久久久| 精品一区二区精品| 97se亚洲国产综合在线| 久久一本综合频道| 成人精品国产福利| 91亚洲午夜精品久久久久久| 日本一区二区久久| 色哦色哦哦色天天综合| 国产盗摄视频一区二区三区| 影音先锋久久| 欧美嫩在线观看| 中文字幕久久久| 国产精品18毛片一区二区| 亚洲а∨精品天堂在线| 国内在线免费视频| 国内高清免费在线视频| 国内自拍欧美| 国产91在线观看丝袜| 亚洲风情在线资源站| 97久久精品人人澡人人爽| 午夜精品福利视频网站| 最近免费中文字幕视频2019| 热re99久久精品国产66热| 国产肉体ⅹxxx137大胆| 蝌蚪视频在线播放| 亚洲盗摄视频|