Eng 繁中 日本語 한국어 简中

AI 驅動的語音聊天

主要功能

  • 選項可以使用 OpenAI、本地或遠程的文本生成 WebUI 作為 AI 服務
  • 內建的 TTS 引擎將 AI 生成的訊息轉換為語音
  • 內建的嘴型同步自動動畫角色的臉部當他們說話
  • 內建的語音識別將你的聲音轉換為文本並發送給 AI
  • 提供超過 900 種英語語音可供選擇,每個角色可以擁有自己獨特的聲音

限制

  • 語音引擎僅支援 Windows。其他平台仍然可以使用語音識別來講話,但回應將僅為文本。

AI 服務

有多種選項可用作 AI 服務以賦予角色智能。我們將在下方討論每個選項的優缺點。

OpenAI (ChatGPT)

目前這是最智能的選擇。

優點:

  • 聰明
  • 快速
  • 成本效益高(與其他遠程選項相比)

缺點:

  • 受限

設置: 要在 DanceXR 中使用 OpenAI 服務,您需要一個 OpenAI API 密鑰。

  • 註冊並登錄您的 OpenAI 賬戶。
  • 點擊頁面右上角的個人資料圖標。
  • 選擇“查看 API 密鑰”以打開 API 頁面。
  • 點擊“創建新祕密密鑰”,當它顯示出來時複製密鑰。請記住,密鑰 僅會在此顯示一次,您無法稍後檢索完整的密鑰,因此請勿丟失。
  • 打開 DanceXR,然後從聊天菜單中點擊配置圖標。
  • 前往 AI 服務,並將密鑰粘貼到“OpenAI API 密鑰”框中。
  • 然後在“AI 服務”下拉菜單中選擇“OpenAI (ChatGPT)”,您應該可以開始使用。
  • 在聊天設置中,您可以選擇想要使用的模型。

本地運行 LLM (LM Studio, OobaBooga, Ollama)

如果您的計算機足夠強大,您也可以本地運行 LLM。例如,最新的 Llama3 8b 應該足以進行角色扮演。我們已經測試了 OobaBooga、LM Studio 和 Ollama,它們在 DanceXR 中表現良好。

請記住 AI 領域正在迅速發展,新工具和模型隨時都會推出。這裡的建議是根據我們寫作時所知道的,當您閱讀時可能會過時。隨意探索自己的選項。DanceXR 應能與任何支持 OpenAI API 規範的 LLM 工具配合使用。

優點:

  • 私密性,沒有任何信息被發送出去,一切都在本地進行。
  • 您可以選擇任何模型運行,甚至是未經審查的模型。
  • 免費

缺點:

  • 不如在線模型智能
  • 需要一些設置
  • 在本地運行 LLM 可能非常耗資源,尤其是如果您打算在同一台計算機上同時運行 DanceXR 和 LLM。

設置: 目前如果您不想使用命令行工具,LM Studio 是更好的選擇。 對於 LM Studio,您可以按照這裡的指示進行操作:

  • 從他們的網站 https://lmstudio.ai/ 下載並安裝 LM Studio
  • 在 LM Studio 中選擇並下載一個 LLM 模型。目前我們建議使用 Llama3 8b。
  • 切換到聊天標籤並加載您下載的模型。
  • 前往“本地服務器”標籤並單擊“啟動伺服器”。注意端口號(默認為 1234)。

對於 OobaBooga,您可以遵循這裡的指示:

  • 按照這裡的指示下載和安裝 https://github.com/oobabooga/text-generation-webui
  • 要使 WebUI 能夠與 DanceXR 配合工作,您需要開啟 API。為此,打開 CMD_FLAGS.txt 文件並添加“–listen –api”,然後重新啟動它。
  • 一旦運行,轉到模型標籤並下載一個模型,如果您還沒有的話。
  • 我們建議使用這兩個模型之一: https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ (7b,更容易運行) https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ (13b,更智能)
  • 刷新模型列表並加載它。默認端口號是 5000。

Ollama 的設置: Ollama 提供了一種簡單的方法,以最少的設置運行本地 AI 模型。

  • 從他們的網站下載並安裝 Ollama:https://ollama.ai/
  • 打開 Ollama 應用並下載您選擇的模型。
  • 在 DanceXR 中,從 AI 服務中選擇“Ollama” -> 選擇服務。
  • 在“模型名稱”框中輸入模型名稱。例如,“llama2-7b-chat”。
  • 您現在應該能夠使用 Ollama 作為您的 AI 後端。

DanceXR 的配置:

  • 在 DanceXR 中,從 AI 服務中選擇“本地 WebUI” -> 選擇服務
  • 輸入服務器 URL 和端口號。例如“http://127.0.0.1:1234”(LM Studio)或“http://127.0.0.1:5000”(OobaBooga)。

使用遠程服務如 Runpod 運行 WebUI

有些服務允許您租用 GPU 並運行 AI 模型。Runpod 就是其中之一。他們提供了 WebUI 的模板,比本地運行更容易設置。

優點:

  • 快速且容易
  • 可以自由選擇任何您想要運行的模型。甚至是那些在您本地 GPU 上無法運行的模型。

缺點:

  • 比 OpenAI 略貴
  • 每次運行都需要下載模型。但這通常只需幾分鐘。

設置:

  • 從“社區雲”中選擇一個 GPU 並點擊“部署”。3080ti 應該足以運行 13b 模型。這每小時花費 26 美分。
  • 從模板下拉菜單中選擇“RunPod TheBloke LLMs”。
  • 一旦運行,點擊連接,它將給您 WebUI 和 API 的鏈接,複製 API 的 URL 並粘貼到 DanceXR 的“遠程 WebUI URL”框中。
  • 點擊 WebUI 鏈接,然後轉到模型標籤下載模型。
  • 我們建議使用這兩個模型之一: https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ (7b,更容易運行) https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ (13b,更智能)
  • 刷新模型列表並加載它。

改進本地模型的提示

DanceXR 現在包含改進的提示技術,以增強交談質量,尤其是在使用較小的本地模型時。這確保了更好的回應和更具吸引力的互動。

聊天控制

模板

模板驅動 AI 模型為每個角色生成聊天消息。您可能會認為這很複雜,但實際上非常簡單。您可以打開聊天/模板文件夾以打開默認模板以查看其工作原理。

基本上就像告訴某人用簡單的文本為您做某些事情。您可以修改默認模板並保存為不同的名稱,以查看這將如何影響聊天內容。例如,您可以在其中添加環境的描述,以設置聊天的場景。

在 DanceXR 中,前往聊天設置 -> 模板以選擇您創建的模板。

角色

角色源自演員模型的名稱。例如“春小町 玫瑰花 牛蒡髮型 B 側馬尾”,“春小町”將被解釋為角色名稱,其餘部分“玫瑰花 牛蒡髮型 B 側馬尾”將用作她服裝的描述。

如果角色著名,語言模型可能對該角色有一定的了解,因此它有時會知道他們是誰以及他們的行為方式,特別是當您使用 OpenAI 時。

在角色設置中,您可以輸入角色的描述和個性,這將大大影響他們在聊天中的行為。例如,您可以通過將他們描述為“服從且渴望取悅”來將驕傲自大的角色改變為服從的角色。

“玩家”在技術上也是一個角色,您可以更改名稱、描述和個性,為自己變成您想要的人物。

個性

角色設置還有一個個性下拉選單。這使您可以使用從 TavernAI 等 AI 角色扮演程序下載的角色。這些角色通常以 PNG 格式提供。PNG 圖像的元數據包含角色的描述。

使用這個在線角色編輯器將 PNG 角色轉換為 JSON 格式 https://zoltanai.github.io/character-editor/

然後將 JSON 放入“聊天/個性”文件夾中,它們將出現在角色設置中的個性下拉選單中。完成後,個性的描述將覆蓋角色描述。

聊天記錄

每次生成新內容時,聊天記錄都會發送給 AI,以保持上下文。如果您想切換到不同的場景或主題,請先清除歷史,以便 AI 不會受到先前聊天上下文的影響。您還可以使用此功能來操控環境並驅動聊天。例如,如果您在訊息中描述某事的發生,AI 將繼續該上下文。

請注意,一旦達到提示限制,最舊的訊息將被忽略,而不包含在上下文中。因此,AI 可能會忘記歷史過於久遠的事情。

在聊天介面中,您可以單擊聊天訊息旁邊的圖標來操控聊天記錄。選項包括:

  • 重新生成:刪除所有下面的消息並讓 AI 重新生成此消息
  • 重寫:接管該消息並自己重寫。當您這樣做時,您需要保持名稱和冒號在消息前面不變,否則系統將不知道這條消息來自誰。
  • 重播:從此消息重播聊天記錄
  • 刪除條目:刪除這條消息
  • 移除上方:刪除這條消息上方的所有消息
  • 移除下方:刪除這條消息下方的所有消息

溫度

該值控制 AI 模型在生成聊天消息時的自由度。就像圖像生成一樣,使用相同的輸入,每次生成可能會略有不同,而溫度控制它的變化幅度。

存在懲罰和頻率懲罰

增加這些數值以減少 AI 生成重複內容的機會。

最多生成標記和最大提示長度

LLMs 有標記限制,超出此限制的內容將無法正確生成。

自動生成和為玩家生成

開啟“自動生成下一個”允許 AI 在計時器到期時自動生成下一條消息。

開啟“為玩家生成”允許 AI 為玩家生成消息。

文本轉語音

附加語音

DanceXR 使用名為 Piper 的 TTS 引擎。您可以在這裡收聽和下載其他語音模型以在 DanceXR 中使用。

https://rhasspy.github.io/piper-samples/

下載後,將其放入 chat\voices\piper 文件夾中。請記住,onnx 和 onnx.json 文件都是必需的。

語音管理器

內建的語音模型包含超過 900 種不同的聲音。默認情況下,我們僅啟用前 20 種。因為 900 種對用戶來說太多了。要啟用其他語音,請轉到語音 -> 語音管理器,從列表中選擇一種聲音,聽取並選中“選擇”以允許它添加到語音列表中。

您可以選擇不同的聲音來為系統、玩家和每個角色提供。

語言匹配和回退

AI 模型可以生成不同語言的消息。但語音模型無法。DanceXR 會嘗試判定消息的語言,如果它與所選語音的語言不匹配,啟用語音設置中的“回退”將允許其選擇語音列表中匹配該語言的不同聲音。

在 1.5.1 更新中引入的新設置允許選擇聊天語言,除了默認的“自動”模式之外。自動模式將和以前一樣行為,努力從文本內容本身判斷語言。但如果您在聊天語言設置中選擇了一種語言,則將用於聊天消息和語音。

請記住,提示消息對 GPT 模型在決定生成回應的語言時有更大的影響。如果您選擇除英語以外的語言,最好還更新提示模板以包含您所選語言的本地文本。

語音轉文本

內建的 Whisper 模型可以將您的聲音轉換為文本,然後發送給 AI。共有兩種模式:手動和自動。

手動模式

手動模式意味著您單擊麥克風按鈕,開始錄音,完成後再次單擊,音頻將被處理,然後結果將發送給 AI。

自動模式

自動模式意味著當聊天閒置(角色未在講話)時將自動開始錄音,實時處理音頻,然後在您講話結束時發送。然而有時並不非常智能。

對於低端設備,將音頻處理為文本可能需要一些時間。因此,不建議在 Android 和 Quest 上使用自動模式。

鍵位綁定

在輸入設置中,您可以分配一個按鈕來切換麥克風狀態,因此您可以控制錄音而無需進入 UI。默認情況下,它綁定到右手控制器菜單按鈕。

重置配置和角色設置

所有內容都保存在您的內容庫的聊天文件夾中。隨意刪除聊天文件夾以重置所有內容為默認設置。