国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

500W數(shù)據(jù),20Wqps分詞檢索,架構(gòu)如何設(shè)計(jì)?

精選
開(kāi)發(fā) 架構(gòu)
本文通過(guò)一個(gè)典型的,短文本分詞搜索的問(wèn)題,簡(jiǎn)單聊聊自己的經(jīng)驗(yàn)。

作者 | KG沈劍

?有水友提問(wèn):

沈哥,我們有個(gè)業(yè)務(wù),類似于“標(biāo)題分詞檢索”,并發(fā)量非常大,大概20W次每秒,數(shù)據(jù)量不是很大,大概500W級(jí)別,而且數(shù)據(jù)不會(huì)頻繁更新,平均每天更新一次,請(qǐng)問(wèn)有什么好的方案么?

這是一個(gè)典型的,短文本分詞搜索的問(wèn)題,簡(jiǎn)單聊聊自己的經(jīng)驗(yàn)。

常見(jiàn)的文本檢索方案有哪些?

(1) 數(shù)據(jù)庫(kù)LIKE法?

將標(biāo)題數(shù)據(jù)存放在數(shù)據(jù)庫(kù)中,使用like來(lái)查詢,方案非常簡(jiǎn)單,能支持簡(jiǎn)單的模糊搜索,但不支持分詞。

畫外音:顯然不適用于本例。

(2) 數(shù)據(jù)庫(kù)全文檢索法?

將標(biāo)題數(shù)據(jù)存放在數(shù)據(jù)庫(kù)中,建立全文索引來(lái)檢索,方案依然簡(jiǎn)單,利用了數(shù)據(jù)庫(kù)的能力,不用額外開(kāi)發(fā),但性能較低。

畫外音:本例的并發(fā)肯定扛不住。?

(3) 開(kāi)源方案索引外置法

搭建lucene,solr,ES等開(kāi)源搜索工具,建立索引,支持分詞,支持?jǐn)?shù)據(jù)量和吞吐量的水平擴(kuò)展。

該方案能夠很好的滿足本例的需求。但是,殺雞焉用牛刀,本例有一些業(yè)務(wù)特性:文本短,更新不頻繁,如果利用好這兩個(gè)特點(diǎn),能有更巧妙的方案。

畫外音:任何脫離業(yè)務(wù)的架構(gòu)設(shè)計(jì),都是耍流氓。?

針對(duì)“更新不頻繁”的特性,可以使用“分詞+DAT”方案。

畫外音:分詞就不多說(shuō)了。

什么是DAT??

DAT是double array trie的縮寫,是trie樹(shù)的一個(gè)變體優(yōu)化數(shù)據(jù)結(jié)構(gòu),它在保證trie樹(shù)檢索效率的前提下,能大大減少內(nèi)存的使用,經(jīng)常用來(lái)解決檢索,信息過(guò)濾等問(wèn)題。

畫外音:更具體的,可以Google一下“DAT”,DAT的缺點(diǎn)是,需要提前建立索引,索引不能實(shí)時(shí)更新。

為什么用trie樹(shù)的變種DAT,是否可以直接使用trie樹(shù)呢??

trie樹(shù)的優(yōu)點(diǎn)是,索引可以實(shí)時(shí)更新;不足是,占用內(nèi)存非常大。

本例索引無(wú)需實(shí)時(shí)更新,無(wú)法利用trie樹(shù)的優(yōu)點(diǎn)。但是,如果300W短文本建立好trie樹(shù)內(nèi)存能裝下,則可以使用trie樹(shù),否則只能使用DAT。

普及,什么是trie樹(shù)??

trie樹(shù),又稱單詞查找樹(shù),經(jīng)常用于搜索引擎詞頻統(tǒng)計(jì),短文本檢索,輸入法輸入提示等。

畫外音:什么數(shù)據(jù)結(jié)構(gòu)適合什么業(yè)務(wù)場(chǎng)景,一定要爛熟于胸。

它的特點(diǎn)是,能利用字符串的公共前綴來(lái)減少查詢時(shí)間,最大限度地減少無(wú)謂的字符串比較,其查詢時(shí)間復(fù)雜度只與樹(shù)的高度有關(guān),與查詢數(shù)據(jù)量級(jí)無(wú)關(guān),因此查詢效率非常高。

畫外音:“時(shí)間復(fù)雜度與查詢數(shù)量級(jí)無(wú)關(guān)”這個(gè)太屌了。

圖片

例如:上面的trie樹(shù)就能夠表示{and, as, at, cn, com}這樣5個(gè)標(biāo)題的集合,可以用來(lái)做這5個(gè)字符串的詞頻統(tǒng)計(jì),或者檢索。

畫外音:檢索時(shí),節(jié)點(diǎn)存儲(chǔ)命中該item的doc_list<doc_id>。

分詞之后,是不是需要多次掃描trie樹(shù)? 

是的。

分詞之后,每個(gè)item都要掃描一次trie樹(shù),得到的doc_list<doc_id>的交集,就是最終命中每個(gè)item的檢索結(jié)果。

針對(duì)“短文本”“500W數(shù)據(jù)”“不頻繁更新”這些特性,還能使用“分詞+內(nèi)存hash”方案。

這個(gè)方案需要先對(duì)索引進(jìn)行初始化:對(duì)所有短文本進(jìn)行分詞,以詞的hash為key,doc_id的集合為value。

查詢的過(guò)程也很簡(jiǎn)單:?對(duì)查詢字符串進(jìn)行分詞,對(duì)每個(gè)分詞進(jìn)行hash,直接查詢hash表格得到doc_list<doc_id>,再對(duì)每個(gè)分詞的檢索結(jié)果進(jìn)行交集。

舉個(gè)栗子進(jìn)行說(shuō)明。

例如:

  • doc1 : 我愛(ài)北京
  • doc2 : 我愛(ài)到家
  • doc3 : 到家美好

先對(duì)短文本進(jìn)行分詞:

  • doc1 : 我愛(ài)北京 -> 我,愛(ài),北京
  • doc2 : 我愛(ài)到家 -> 我,愛(ài),到家
  • doc3 : 到家美好 -> 到家,美好

對(duì)分詞進(jìn)行hash,建立hash表:

  • hash(我) -> {doc1, doc2}
  • hash(愛(ài)) -> {doc1, doc2}
  • hash(北京) -> {doc1}
  • hash(到家) -> {doc2, doc3}
  • hash(美好) -> {doc3}

這樣,所有短文本初始化完畢,與trie樹(shù)類似,查詢時(shí)間復(fù)雜度與文本數(shù)據(jù)量也沒(méi)有關(guān)系。

畫外音:只與被分詞后有多少數(shù)據(jù)量,即hash桶個(gè)數(shù)有關(guān)。

查詢的過(guò)程是這樣的:

假如用戶輸入“我愛(ài)”,分詞后變?yōu)閧我,愛(ài)},對(duì)各個(gè)分詞的hash進(jìn)行內(nèi)存檢索:

  • hash(我)->{doc1, doc2}
  • hash(愛(ài))->{doc1, doc2}

然后進(jìn)行合并,得到最后的查找結(jié)果是{doc1, doc2}。

這個(gè)方法的優(yōu)點(diǎn)是,純內(nèi)存操作,能滿足很大的并發(fā),時(shí)延也很低,占用內(nèi)存也不大,實(shí)現(xiàn)非常簡(jiǎn)單快速,而且冗余索引很容易水平擴(kuò)展。

畫外音:做索引高可用也不難,建立兩份一樣的hash索引即可。

它的缺點(diǎn)也很明顯,索引全內(nèi)存,沒(méi)有落地,還是需要在數(shù)據(jù)庫(kù)中存儲(chǔ)固化的短文本數(shù)據(jù),如果內(nèi)存數(shù)據(jù)全丟失,數(shù)據(jù)恢復(fù)起來(lái)會(huì)比較慢。

總結(jié)?

短文本,高并發(fā),支持分詞,不用實(shí)時(shí)更新的檢索場(chǎng)景,可以使用:

  • ES,殺雞用牛刀;
  • 分詞+DAT(trie);
  • 分詞+內(nèi)存hash;

等幾種方式解決。

思路比結(jié)論重要,希望大家有收獲。?

責(zé)任編輯:趙寧寧 來(lái)源: 架構(gòu)師之路
相關(guān)推薦

2025-11-19 09:05:38

2024-10-05 00:00:20

Element開(kāi)源項(xiàng)目

2025-09-23 07:08:40

2023-06-30 07:19:25

電源供電顯卡

2025-09-29 09:49:26

2011-04-28 09:36:22

海量數(shù)據(jù)存儲(chǔ)

2011-11-01 11:01:47

優(yōu)派投影機(jī)

2011-08-09 20:16:43

投影機(jī)評(píng)測(cè)

2015-07-20 16:55:58

2021-05-11 07:39:58

跳槽談薪工作

2023-06-29 07:22:11

功率12V電腦

2011-06-02 14:51:00

SQL Server

2020-07-29 09:54:35

帖子中心數(shù)據(jù)架構(gòu)

2011-11-25 13:45:42

優(yōu)派投影機(jī)

2022-11-09 10:15:26

2019-10-25 15:50:06

MySQL數(shù)據(jù)庫(kù)命令

2013-03-20 13:35:12

數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)設(shè)計(jì)

2011-10-18 22:07:46

優(yōu)派投影儀

2023-08-08 14:49:12

2021-12-30 09:50:35

數(shù)據(jù)泄露漏洞信息安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩专区中文字幕| 日韩在线视频中文字幕| 300部国产真实乱| 欧美 日韩 国产一区二区在线视频| 亚洲精品久久久久久久久久久 | 在线这里只有精品| 国产九色porn网址| 97精品电影院| 成年在线观看视频| 奇米一区二区三区av| 97中文在线观看| 91高清一区| 91久久精品视频| 国产电影一区二区在线观看| 国产欧美一区二区| 99精品网站| 亚洲在线视频观看| 亚洲黄网站黄| 青青草国产精品| 免费久久99精品国产| 亚洲免费不卡| 久久国产精品一区二区| 无码免费一区二区三区免费播放 | 韩日精品在线| av一区二区三区免费| 中国成人一区| 国产二区不卡| 国产日韩亚洲| 久久精品ww人人做人人爽| 影音先锋久久精品| 免费国产一区二区| 首页国产欧美日韩丝袜| 一区二区视频在线播放| 国产精品亚洲专一区二区三区| 日本免费成人网| 久久综合九色综合97婷婷女人| 久热免费在线观看| 亚洲婷婷综合久久一本伊一区| 性视频在线播放| 色综合久久久久综合99| 粉嫩av在线播放| 欧美日韩在线电影| 国产黄大片在线观看| 亚洲国产日韩欧美在线动漫| 91av一区| 日韩暖暖在线视频| 午夜性色一区二区三区免费视频| 精品国产乱码久久久久| 国内精品写真在线观看 | 狠狠色狠狠色综合系列| 国产白丝袜美女久久久久| 亚洲欧洲av在线| 你懂的在线播放| 亚洲激情国产精品| 人人爱人人干婷婷丁香亚洲| 国产精品丝袜一区二区三区| 亚洲欧美激情诱惑| 日韩久久一级片| 日本韩国欧美在线| 在线日本欧美| 国产欧美中文字幕| 久久草av在线| a视频免费看| 欧美一区二区三区四区视频| 国产精品久久久久久吹潮| 国产成+人+综合+亚洲欧洲 | 成人有码视频在线播放| 青青草成人在线观看| 男女视频一区二区三区| 91久久国产综合久久| 日韩中文在线播放| 国产精品久久二区| 看国产成人h片视频| 国产精品v日韩精品v在线观看| 在线观看91精品国产入口| 91欧美精品| 成人av免费看| 久久久久久免费毛片精品| 国产露出视频在线观看| 精品国内自产拍在线观看| 欧美久久99| 日韩av在线综合| 91精品麻豆日日躁夜夜躁| 视频一区日韩精品| 亚洲v国产v在线观看| 亚洲私人黄色宅男| 这里有精品可以观看| 91日本在线视频| 中文字幕精品综合| 日本不良网站在线观看| 国产精品夜色7777狼人| 国产大陆a不卡| 视频一区二区三区国产| 久久精品福利视频| 激情亚洲成人| 高清一级毛片视频| 日韩亚洲精品电影| 日本成人在线不卡视频| 久久精品色图| 国产成人精品网站| 久久久av毛片精品| 免费在线观看一区| 视频一区国产精品| 在线观看视频一区二区| 亚洲欧美成人vr| 久久久久久久午夜| 日韩精品视频在线| 国产精品久久久免费| 中文在线a√在线8| 热久久免费视频精品| 国产拍欧美日韩视频二区| 欧美人体一区二区三区| 欧美成人dvd在线视频| 色婷婷av一区| 久久亚洲成人| 男女午夜视频在线观看| 久久琪琪电影院| 久久精品人人做人人爽97| 亚州欧美在线| 日本毛片在线免费观看| 亚洲免费电影在线观看| 免费在线看成人av| 怡红院在线播放| 日本免费一区二区三区| 日韩一级成人av| 日韩福利电影在线观看| 日韩欧美一起| 一区二区免费在线观看| 精品久久久久一区| 美女在线视频一区| 中文字幕伦理免费在线视频| 久久久久久久久久久一区| 欧美日韩免费视频| 亚洲美女啪啪| 欧美人与禽性xxxxx杂性| 秋霞久久久久久一区二区| 日韩一区二区三区视频在线| 亚洲另类视频| 高清电影在线免费观看| 制服国产精品| 在线午夜精品自拍| 91视频一区二区三区| 999色成人| 成人网址大全| 国产精品r级在线| 亚洲国产精品麻豆| 欧美性感美女一区二区| 午夜视频在线免费| 国产在线视频欧美一区二区三区| 51精品国自产在线| 精品一区二区影视| 国产精品99久久久久久董美香| 亚洲精品无码久久久久久| 51精品在线观看| 精品久久久久久亚洲精品| 91久久夜色精品国产九色| 牛牛在线精品视频| 欧美 日本 亚洲| 国产精品高潮视频| 欧美日韩国产大片| 国产老女人精品毛片久久| 日韩一区二区三区高清在线观看| av电影免费| 国产在线一区二区三区欧美| 精品亚洲国产成av人片传媒 | 成人自拍在线| 中文字幕在线资源| 亚洲高清在线观看一区| 精品国产欧美成人夜夜嗨| 亚洲人成网站影音先锋播放| 欧美破处大片在线视频| 福利写真视频网站在线| 日本a视频在线观看| 国产成+人+综合+亚洲欧洲| 欧美日韩在线播放一区| 国产91综合网| 亚洲日本三级| 国产精品剧情| 欧美aⅴ在线观看| 114国产精品久久免费观看| 日韩精品在线观看一区| 中文一区在线播放| 国产一区导航| 亚洲精品高潮| 日本激情在线观看| 男女视频一区二区三区| 国产精品免费视频一区二区| 日韩在线一区二区三区免费视频| 午夜电影一区二区| 国内精品久久久久影院一蜜桃| 亚洲欧美日本伦理| 啊啊啊久久久| 色网视频在线| 精品一区二区三区无码视频| 成人精品久久一区二区三区| 中文字幕在线亚洲| 欧美天天综合网| 国产精品久久久99| 国产在线不卡一区| 欧美精品一卡|