国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

構(gòu)建一個(gè)完全本地的語音激活的實(shí)用RAG系統(tǒng) 原創(chuàng)

發(fā)布于 2025-2-24 08:35
瀏覽
0收藏

本文將探討如何構(gòu)建一個(gè)RAG系統(tǒng)并使其完全由語音激活。

RAG(檢索增強(qiáng)生成)是一種將外部知識(shí)用于額外上下文以饋入到大語言模型(LLM),從而提高模型準(zhǔn)確性和相關(guān)性的技術(shù)。這是一種比不斷微調(diào)模型可靠得多的方法,可以改善生成式AI的結(jié)果。

傳統(tǒng)上,RAG系統(tǒng)依賴用戶文本查詢來搜索矢量數(shù)據(jù)庫。然后將檢索到的相關(guān)文檔用作生成式AI的上下文輸入,生成式AI負(fù)責(zé)生成文本格式的結(jié)果。然而,我們可以進(jìn)一步擴(kuò)展RAG系統(tǒng),以便能夠接受和生成語音形式的輸出。

本文將探討如何構(gòu)建一個(gè)RAG系統(tǒng)并使其完全由語音激活。

構(gòu)建一個(gè)完全由語音激活的RAG系統(tǒng)

我在本文中假設(shè)讀者對(duì)LLM和RAG系統(tǒng)已有一定的了解,因此不會(huì)進(jìn)一步解釋它們。

要構(gòu)建具有完整語音功能的RAG系統(tǒng),我們將圍繞三個(gè)關(guān)鍵組件來構(gòu)建它:

  • 語音接收器和轉(zhuǎn)錄
  • 知識(shí)庫
  • 音頻文件響應(yīng)生成

總的來說,項(xiàng)目工作流程如下圖所示:

構(gòu)建一個(gè)完全本地的語音激活的實(shí)用RAG系統(tǒng)-AI.x社區(qū)

如果你已準(zhǔn)備好,不妨開始準(zhǔn)備這個(gè)項(xiàng)目成功所需要的一切。

首先,我們不會(huì)在這個(gè)項(xiàng)目中使用Notebook IDE,因?yàn)槲覀兿M鸕AG系統(tǒng)像生產(chǎn)系統(tǒng)一樣工作。因此,應(yīng)該準(zhǔn)備一個(gè)標(biāo)準(zhǔn)的編程語言IDE,比如Visual Studio Code(VS Code)。

接下來,我們還想為項(xiàng)目創(chuàng)建一個(gè)虛擬環(huán)境。你可以使用任何方法,比如Python或Conda。

python -m venv rag-env-audio

準(zhǔn)備好虛擬環(huán)境后,我們安裝本教程所需的所有庫。

pip install openai-whisper chromadb sentence-transformers sounddevice numpy scipy PyPDF2 transformers torch langchain-core langchain-community

如果你可以訪問GPU,也可以下載PyTorch庫的GPU版本。

pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118

一切準(zhǔn)備就緒后,我們將開始構(gòu)建一個(gè)語音激活的RAG系統(tǒng)。要注意的是,包含所有代碼和數(shù)據(jù)集的項(xiàng)目存儲(chǔ)庫位于該存儲(chǔ)庫中:???https://github.com/CornelliusYW/RAG-To-Know/tree/main/RAG-Project/RAG-Voice-Activated。??

我們首先使用以下代碼導(dǎo)入所有必要的庫和環(huán)境變量。

import os
import whisper
import chromadb
from sentence_transformers import SentenceTransformer
import sounddevice as sd
import numpy as np
from scipy.io.wavfile import write
from sklearn.metrics.pairwise import cosine_similarity
from transformers import AutoModelForCausalLM, AutoTokenizer
from langchain_text_splitters import RecursiveCharacterTextSplitter  
import torch

AUDIO_FILE = "user_input.wav"
RESPONSE_AUDIO_FILE = "response.wav"  
PDF_FILE = "Insurance_Handbook_20103.pdf"  
SAMPLE_RATE = 16000
WAKE_WORD = "Hi"  
SIMILARITY_THRESHOLD = 0.4  
MAX_ATTEMPTS = 5

將對(duì)各自代碼中使用的所有變量進(jìn)行解釋。現(xiàn)在,暫且保持原樣。

在導(dǎo)入所有必要的庫之后,我們將為RAG系統(tǒng)設(shè)置所有必要的函數(shù)。我將逐個(gè)分析,這樣你就能理解我們的項(xiàng)目中發(fā)生了什么。

第一步是創(chuàng)建一項(xiàng)功能來記錄輸入語音,并將語音轉(zhuǎn)錄成文本數(shù)據(jù)。我們將使用??聲音設(shè)備庫???用于記錄語音,使用?OpenAI Whisper??用于音頻轉(zhuǎn)錄。

# For recording audio input.
def record_audio(filename, duration=5, samplerate=SAMPLE_RATE):
    print("Listening... Speak now!")
    audio = sd.rec(int(duration * samplerate), samplerate=samplerate, channels=1, dtype='float32')
    sd.wait()  
    print("Recording finished.")
    write(filename, samplerate, (audio * 32767).astype(np.int16))

# Transcribe the Input audio into text 
def transcribe_audio(filename):
    print("Transcribing audio...")
    model = whisper.load_model("base.en")
    result = model.transcribe(filename)
    return result["text"].strip().lower()

上述函數(shù)將成為接受和返回作為文本數(shù)據(jù)的語音的基礎(chǔ)。我們將在這個(gè)項(xiàng)目中多次使用它們,所以請(qǐng)牢記這一點(diǎn)。

我們將為RAG系統(tǒng)創(chuàng)建一個(gè)入口功能,準(zhǔn)備好接受音頻的功能。在下一段代碼中,我們?cè)谑褂肳AKE_WORD(喚醒詞)訪問系統(tǒng)之前創(chuàng)建一個(gè)語音激活函數(shù)。這個(gè)喚醒詞可以是任何內(nèi)容,你可以根據(jù)需要進(jìn)行設(shè)置。

上述語音激活背后的想法是,如果我們錄制的轉(zhuǎn)錄語音與喚醒詞匹配,RAG系統(tǒng)就會(huì)被激活。然而,如果轉(zhuǎn)錄需要完全匹配喚醒詞,這將是不可行的,因?yàn)檗D(zhuǎn)錄系統(tǒng)很有可能生成不同格式的文本結(jié)果。為此我們可以使轉(zhuǎn)錄輸出實(shí)現(xiàn)標(biāo)準(zhǔn)化。然而我想使用嵌入相似度,這樣即使喚醒詞的組成略有不同,系統(tǒng)仍然會(huì)被激活。

# Detecting Wake Word to activate the RAG System
def detect_wake_word(max_attempts=MAX_ATTEMPTS):

    print("Waiting for wake word...")
    text_embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
    wake_word_embedding = text_embedding_model.encode(WAKE_WORD).reshape(1, -1)

    attempts = 0
    while attempts = SIMILARITY_THRESHOLD:
            print(f"Wake word detected: {WAKE_WORD}")
            return True
        attempts += 1
        print(f"Attempt {attempts}/{max_attempts}. Please try again.")
    print("Wake word not detected. Exiting.")
    return False

通過結(jié)合WAKE_WORD和SIMILARITY_THRESHOLD變量,我們將最終獲得語音激活功能。

接下來,不妨使用PDF文件構(gòu)建知識(shí)庫。為此,我們將準(zhǔn)備一個(gè)函數(shù),用于從該文件中提取文本并將其分割成塊。

def load_and_chunk_pdf(pdf_file):
    from PyPDF2 import PdfReader
    print("Loading and chunking PDF...")
    reader = PdfReader(pdf_file)
    all_text = ""
    for page in reader.pages:
        text = page.extract_text()
        if text:
            all_text += text + "\n"

    # Split the text into chunks
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=250,  # Size of each chunk
        chunk_overlap=50,  # Overlap between chunks to maintain context
        separators=["\n\n", "\n", " ", ""]      
     )
    chunks = text_splitter.split_text(all_text)
    return chunks

你可以將塊大小替換成你想要的。沒有使用確切的數(shù)字,所以用它們進(jìn)行試驗(yàn),看看哪個(gè)是最好的參數(shù)。

然后來自上述函數(shù)的塊被傳遞到矢量數(shù)據(jù)庫中。我們將使用??ChromaDB??矢量數(shù)據(jù)庫和?SenteceTransformer??來訪問嵌入模型。

def setup_chromadb(chunks):
    print("Setting up ChromaDB...")
    client = chromadb.PersistentClient(path="chroma_db")
    text_embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

    # Delete existing collection (if needed)
    try:
        client.delete_collection(name="knowledge_base")
        print("Deleted existing collection: knowledge_base")
    except Exception as e:
        print(f"Collection does not exist or could not be deleted: {e}")

    collection = client.create_collection(name="knowledge_base")

    for i, chunk in enumerate(chunks):
        embedding = text_embedding_model.encode(chunk).tolist()
        collection.add(
            ids=[f"chunk_{i}"],
            embeddings=[embedding],
            metadatas=[{"source": "pdf", "chunk_id": i}],
            documents=[chunk]
        )
    print("Text chunks and embeddings stored in ChromaDB.")
    return collection
Additionally, we will prepare the function for retrieval with the text query to ChromaDB as welll
def query_chromadb(collection, query, top_k=3):
    """Query ChromaDB for relevant chunks."""
    text_embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
    query_embedding = text_embedding_model.encode(query).tolist()
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=top_k
    )

    relevant_chunks = [chunk for sublist in results["documents"] for chunk in sublist]
    return relevant_chunks

然后,我們需要準(zhǔn)備生成功能來完成RAG系統(tǒng)。在本例中,我將使用托管在HuggingFace中的??Qwen -1.5-0.5B-Chat模型?。你可以根據(jù)需要調(diào)整提示和生成模型。

def generate_response(query, context_chunks):

    device = "cuda" if torch.cuda.is_available() else "cpu"
    model_name = "Qwen/Qwen1.5-0.5B-Chat"
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype="auto",
        device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # Format the prompt with the query and context
    context = "\n".join(context_chunks)
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": f"Use the following context to answer the question:\n\nContext:\n{context}\n\nQuestion: {query}\n\nAnswer:"}
    ]

    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )

    model_inputs = tokenizer(
        [text],
        return_tensors="pt",
        padding=True,
        truncation=True
    ).to(device)

    # Generate the response
    generated_ids = model.generate(
        model_inputs.input_ids,
        attention_mask=model_inputs.attention_mask,
        max_new_tokens=512,
        pad_token_id=tokenizer.eos_token_id
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    return response

最后,令人興奮的地方在于使用文本到語音模型將生成的響應(yīng)轉(zhuǎn)換成音頻文件。就本例而言,我們將使用托管在HuggingFace中的??Suno Bark模型?。在生成音頻之后,我們將播放音頻響應(yīng)以完成整條管道。

def text_to_speech(text, output_file):
    from transformers import AutoProcessor, BarkModel
    print("Generating speech...")

    processor = AutoProcessor.from_pretrained("suno/bark-small")
    model = BarkModel.from_pretrained("suno/bark-small")

    inputs = processor(text, return_tensors="pt")

    audio_array = model.generate(**inputs)
    audio = audio_array.cpu().numpy().squeeze()

    # Save the audio to a file
    write(output_file, 22050, (audio * 32767).astype(np.int16))
    print(f"Audio response saved to {output_file}")
    return audio

def play_audio(audio, samplerate=22050):
    print("Playing response...")
    sd.play(audio, samplerate=samplerate)
    sd.wait()

這就是完成完全由語音激活的RAG管道需要的所有功能。不妨把它們結(jié)合在一起,形成連貫有序的結(jié)構(gòu)。

def main():
    # Step 1: Load and chunk the PDF
    chunks = load_and_chunk_pdf(PDF_FILE)

    # Step 2: Set up ChromaDB
    collection = setup_chromadb(chunks)

    # Step 3: Detect wake word with embedding similarity
    if not detect_wake_word():
        return  # Exit if wake word is not detected

    # Step 4: Record and transcribe user input
    record_audio(AUDIO_FILE, duration=5) 
    user_input = transcribe_audio(AUDIO_FILE)
    print(f"User Input: {user_input}")

    # Step 5: Query ChromaDB for relevant chunks
    relevant_chunks = query_chromadb(collection, user_input)
    print(f"Relevant Chunks: {relevant_chunks}")

    # Step 6: Generate response using a Hugging Face model
    response = generate_response(user_input, relevant_chunks)
    print(f"Generated Response: {response}")

    # Step 7: Convert response to speech, save it, and play it
    audio = text_to_speech(response, RESPONSE_AUDIO_FILE)
    play_audio(audio)

    # Clean up
    os.remove(AUDIO_FILE)  # Delete the temporary audio file

if __name__ == "__main__":
    main()

我已將整個(gè)代碼保存在一個(gè)名為app.py的腳本中,我們可以使用以下代碼激活系統(tǒng)。

python app.py

自己嘗試一下,你將獲得可用于審閱的響應(yīng)音頻文件。

這就是構(gòu)建帶有語音激活的本地RAG系統(tǒng)所需的全部內(nèi)容。你可以為系統(tǒng)構(gòu)建一個(gè)應(yīng)用程序并將其部署到生產(chǎn)環(huán)境中,進(jìn)一步完善項(xiàng)目。

結(jié)論

構(gòu)建具有語音激活的RAG系統(tǒng)涉及一系列先進(jìn)的技術(shù)以及協(xié)同工作如同一個(gè)模型的多個(gè)模型。本項(xiàng)目利用檢索和生成函數(shù)來構(gòu)建RAG系統(tǒng),通過幾個(gè)步驟嵌入音頻功能,增添另一層。我們打下基礎(chǔ)后,就可以根據(jù)需求進(jìn)一步完善項(xiàng)目。

原文標(biāo)題:?Creating a Useful Voice-Activated Fully Local RAG System??,作者:Cornellius Yudha Wijaya

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
激情婷婷丁香| 国产福利一区视频| 亚洲视频精品在线| 中文字幕av一区二区三区高| 欧美激情在线精品一区二区三区| 99视频在线观看地址| 欧美视频在线第一页| 成人久久久精品乱码一区二区三区| 日韩漫画puputoon| 日本欧美亚洲| 亚洲丰满在线| 国模私拍一区二区三区| 欧美亚洲综合在线| 成人夜色视频网站在线观看| 日韩美女一区二区三区在线观看| av资源一区| 99不卡视频| 午夜精品一区二区在线观看| 97av视频在线| 欧美一区二区精品在线| 中文字幕成人av| 在线亚洲自拍| 超碰精品在线观看| 免费在线看a| 亚洲色精品三区二区一区| 99精彩视频在线观看免费| 亚洲国产中文字幕久久网| 亚洲欧美国产77777| 免费一级欧美片在线观看| 超碰97久久国产精品牛牛| www在线免费观看视频| 亚洲污视频在线观看| 欧美日韩精品免费观看| 亚洲2020天天堂在线观看| 日韩欧美一区二区视频| 成人免费在线播放视频| 久久se精品一区精品二区| 欧美日韩中文一区二区| 五月激情久久| 在线观看完整版免费| 日本成人黄色网址| 黄色a级在线观看| 亚洲综合一区二区不卡| 久久手机免费视频| 欧美日韩国产另类不卡| 国产精品女主播在线观看| 久久99精品久久久久久国产越南 | 国产成人综合精品| 日韩高清免费观看| 欧美日韩亚洲精品内裤| 久久综合狠狠综合久久激情| 久久精品在线| 久久免费大视频| 日韩一级淫片| 日韩精品极品| 91亚洲欧美| 国产在线传媒| 美女黄色片视频| 成人一区二区av| 精品无码久久久久国产| 国产精品91久久| 欧美久久精品一级黑人c片 | 久久网站热最新地址| 水野朝阳av一区二区三区| 99久久婷婷| 欧美wwwwww| 99综合久久| 亚洲天堂一区二区| 国产美女av在线| 污污软件在线观看| 国产国产人免费人成免费视频| 国产黄页在线观看| 免费在线国产精品| www.成人三级视频| 国产精品视频网| 91国内免费在线视频| 日韩中文av在线| 亚洲乱码国产乱码精品精| 日韩视频国产视频| 欧美亚洲动漫制服丝袜| 亚洲国产日日夜夜| 自拍偷拍国产精品| 91色|porny| 激情久久久久久久久久久久久久久久| 在线成人av| 午夜日韩在线| 91精品91| 欧美a级一区| 66国产精品| 国产精品成人av| 久久精品99久久无色码中文字幕| aiai久久| 成人春色在线观看免费网站| 国产精品99久久免费| 色综合一区二区日本韩国亚洲| 激情黄产视频在线免费观看| heyzo高清在线| av最新在线| 国产乱码午夜在线视频| 欧美性受ⅹ╳╳╳黑人a性爽| 亚洲卡一卡二| 美女av在线免费看| 欧美特大特白屁股xxxx| 涩涩涩在线视频| 丁香高清在线观看完整电影视频| 久久香蕉av| av岛国在线| 成人影院大全| 全球最大av网站久久| 国语自产精品视频在线看抢先版结局| 色综合视频一区二区三区日韩| 国产精品字幕| 亚洲一区二区三区久久久| 91视频成人| 国产精品日韩精品在线播放 | 久久久.com| 中文幕一区二区三区久久蜜桃| 国产精品高潮呻吟久久| 亚洲三级久久久| 亚洲一区二区三区中文字幕| 亚洲永久精品国产| 欧美日韩精品在线播放| 在线免费av一区| 日韩精品一区二区三区中文精品| 亚洲电影第1页| 亚洲欧洲一区| 国产精品初高中精品久久| 亚洲视频国产| 久久夜精品香蕉| 久久成人精品电影| 91产国在线观看动作片喷水| 国产精品久久久91| 亚洲一区二区免费在线| 99久久一区三区四区免费| 乱色588欧美| 激情六月天婷婷| 九九热免费精品视频| 狠狠干夜夜操| 精彩国产在线| 欧美大胆的人体xxxx| 久久久人成影片一区二区三区在哪下载| 国产高清日韩| 青青草成人影院| 国产视频亚洲| 国产高清在线精品| 日韩综合一区二区三区| 尤物国产在线观看| 亚洲成人影院少妇| 宅男网站在线免费观看| 国产 日韩 欧美一区| 激情亚洲另类图片区小说区| 亚洲国产成人精品女人| 人人超碰91尤物精品国产| 成人黄色大片在线观看| 亚洲精品乱码久久久久久| 在线观看成人免费视频| 亚洲精品自拍视频| 欧美亚洲在线播放| 国产亚洲成aⅴ人片在线观看| 天堂在线免费av| 欧美日韩极品在线观看一区| 主播国产精品| 亚洲精品中文字幕av| 国产精品久久观看| 视频一区二区三区中文字幕| 成人免费精品视频| 一区二区日韩电影| 久久国产高清| 欧美日韩dvd| 成人深夜视频在线观看| 男女男精品视频网| 国产亚洲成av人在线观看导航| 欧美日韩国产一区中文午夜| 亚洲国产精品久久久久秋霞不卡| 久久久久久中文| 国内成+人亚洲| 国产免费黄色av| 男人的天堂在线视频| 成人h在线观看| 欧美ab在线视频| 成人听书哪个软件好| 亚洲高清视频在线| 欧美喷水一区二区| 美女av一区二区三区| 国产精品av一区| 草草草在线视频| 自拍视频在线| 91成人短视频| 日韩中文字幕区一区有砖一区 | 午夜久久久久久久久| 亚洲欧美专区| 亚洲不卡1区| 久久综合久久99| 亚洲麻豆国产自偷在线| 亚洲精品一线二线三线| 人妖精品videosex性欧美| 一区二区日本伦理| 情趣网站视频在线观看| 欧美激情护士| 一区二区三区毛片免费|