AI 驅動的語音聊天

主要功能

選項可以使用 OpenAI、本地或遠程的文本生成 WebUI 作為 AI 服務
內建的 TTS 引擎將 AI 生成的訊息轉換為語音
內建的嘴型同步自動動畫角色的臉部當他們說話
內建的語音識別將你的聲音轉換為文本並發送給 AI
提供超過 900 種英語語音可供選擇，每個角色可以擁有自己獨特的聲音

限制

語音引擎僅支援 Windows。其他平台仍然可以使用語音識別來講話，但回應將僅為文本。

AI 服務

有多種選項可用作 AI 服務以賦予角色智能。我們將在下方討論每個選項的優缺點。

OpenAI (ChatGPT)

目前這是最智能的選擇。

優點:

聰明
快速
成本效益高（與其他遠程選項相比）

缺點:

受限

設置： 要在 DanceXR 中使用 OpenAI 服務，您需要一個 OpenAI API 密鑰。

註冊並登錄您的 OpenAI 賬戶。
點擊頁面右上角的個人資料圖標。
選擇“查看 API 密鑰”以打開 API 頁面。
點擊“創建新祕密密鑰”，當它顯示出來時複製密鑰。請記住，密鑰 僅會在此顯示一次，您無法稍後檢索完整的密鑰，因此請勿丟失。
打開 DanceXR，然後從聊天菜單中點擊配置圖標。
前往 AI 服務，並將密鑰粘貼到“OpenAI API 密鑰”框中。
然後在“AI 服務”下拉菜單中選擇“OpenAI (ChatGPT)”，您應該可以開始使用。
在聊天設置中，您可以選擇想要使用的模型。

本地運行 LLM (LM Studio, OobaBooga, Ollama)

如果您的計算機足夠強大，您也可以本地運行 LLM。例如，最新的 Llama3 8b 應該足以進行角色扮演。我們已經測試了 OobaBooga、LM Studio 和 Ollama，它們在 DanceXR 中表現良好。

請記住 AI 領域正在迅速發展，新工具和模型隨時都會推出。這裡的建議是根據我們寫作時所知道的，當您閱讀時可能會過時。隨意探索自己的選項。DanceXR 應能與任何支持 OpenAI API 規範的 LLM 工具配合使用。

優點:

私密性，沒有任何信息被發送出去，一切都在本地進行。
您可以選擇任何模型運行，甚至是未經審查的模型。
免費

缺點:

不如在線模型智能
需要一些設置
在本地運行 LLM 可能非常耗資源，尤其是如果您打算在同一台計算機上同時運行 DanceXR 和 LLM。

設置： 目前如果您不想使用命令行工具，LM Studio 是更好的選擇。對於 LM Studio，您可以按照這裡的指示進行操作：

從他們的網站 https://lmstudio.ai/ 下載並安裝 LM Studio
在 LM Studio 中選擇並下載一個 LLM 模型。目前我們建議使用 Llama3 8b。
切換到聊天標籤並加載您下載的模型。
前往“本地服務器”標籤並單擊“啟動伺服器”。注意端口號（默認為 1234）。

對於 OobaBooga，您可以遵循這裡的指示：

按照這裡的指示下載和安裝 https://github.com/oobabooga/text-generation-webui
要使 WebUI 能夠與 DanceXR 配合工作，您需要開啟 API。為此，打開 CMD_FLAGS.txt 文件並添加“–listen –api”，然後重新啟動它。
一旦運行，轉到模型標籤並下載一個模型，如果您還沒有的話。
我們建議使用這兩個模型之一： https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ (7b，更容易運行) https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ (13b，更智能)
刷新模型列表並加載它。默認端口號是 5000。

Ollama 的設置： Ollama 提供了一種簡單的方法，以最少的設置運行本地 AI 模型。

從他們的網站下載並安裝 Ollama：https://ollama.ai/
打開 Ollama 應用並下載您選擇的模型。
在 DanceXR 中，從 AI 服務中選擇“Ollama” -> 選擇服務。
在“模型名稱”框中輸入模型名稱。例如，“llama2-7b-chat”。
您現在應該能夠使用 Ollama 作為您的 AI 後端。

DanceXR 的配置：

在 DanceXR 中，從 AI 服務中選擇“本地 WebUI” -> 選擇服務
輸入服務器 URL 和端口號。例如“http://127.0.0.1:1234”（LM Studio）或“http://127.0.0.1:5000”（OobaBooga）。

使用遠程服務如 Runpod 運行 WebUI

有些服務允許您租用 GPU 並運行 AI 模型。Runpod 就是其中之一。他們提供了 WebUI 的模板，比本地運行更容易設置。

優點：

快速且容易
可以自由選擇任何您想要運行的模型。甚至是那些在您本地 GPU 上無法運行的模型。

缺點：

比 OpenAI 略貴
每次運行都需要下載模型。但這通常只需幾分鐘。

設置：

從“社區雲”中選擇一個 GPU 並點擊“部署”。3080ti 應該足以運行 13b 模型。這每小時花費 26 美分。
從模板下拉菜單中選擇“RunPod TheBloke LLMs”。
一旦運行，點擊連接，它將給您 WebUI 和 API 的鏈接，複製 API 的 URL 並粘貼到 DanceXR 的“遠程 WebUI URL”框中。
點擊 WebUI 鏈接，然後轉到模型標籤下載模型。
我們建議使用這兩個模型之一： https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ (7b，更容易運行) https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ (13b，更智能)
刷新模型列表並加載它。

改進本地模型的提示

DanceXR 現在包含改進的提示技術，以增強交談質量，尤其是在使用較小的本地模型時。這確保了更好的回應和更具吸引力的互動。

聊天控制

模板

模板驅動 AI 模型為每個角色生成聊天消息。您可能會認為這很複雜，但實際上非常簡單。您可以打開聊天/模板文件夾以打開默認模板以查看其工作原理。

基本上就像告訴某人用簡單的文本為您做某些事情。您可以修改默認模板並保存為不同的名稱，以查看這將如何影響聊天內容。例如，您可以在其中添加環境的描述，以設置聊天的場景。

在 DanceXR 中，前往聊天設置 -> 模板以選擇您創建的模板。

角色

角色源自演員模型的名稱。例如“春小町玫瑰花牛蒡髮型 B 側馬尾”，“春小町”將被解釋為角色名稱，其餘部分“玫瑰花牛蒡髮型 B 側馬尾”將用作她服裝的描述。

如果角色著名，語言模型可能對該角色有一定的了解，因此它有時會知道他們是誰以及他們的行為方式，特別是當您使用 OpenAI 時。

在角色設置中，您可以輸入角色的描述和個性，這將大大影響他們在聊天中的行為。例如，您可以通過將他們描述為“服從且渴望取悅”來將驕傲自大的角色改變為服從的角色。

“玩家”在技術上也是一個角色，您可以更改名稱、描述和個性，為自己變成您想要的人物。

個性

角色設置還有一個個性下拉選單。這使您可以使用從 TavernAI 等 AI 角色扮演程序下載的角色。這些角色通常以 PNG 格式提供。PNG 圖像的元數據包含角色的描述。

使用這個在線角色編輯器將 PNG 角色轉換為 JSON 格式 https://zoltanai.github.io/character-editor/

然後將 JSON 放入“聊天/個性”文件夾中，它們將出現在角色設置中的個性下拉選單中。完成後，個性的描述將覆蓋角色描述。

聊天記錄

每次生成新內容時，聊天記錄都會發送給 AI，以保持上下文。如果您想切換到不同的場景或主題，請先清除歷史，以便 AI 不會受到先前聊天上下文的影響。您還可以使用此功能來操控環境並驅動聊天。例如，如果您在訊息中描述某事的發生，AI 將繼續該上下文。

請注意，一旦達到提示限制，最舊的訊息將被忽略，而不包含在上下文中。因此，AI 可能會忘記歷史過於久遠的事情。

在聊天介面中，您可以單擊聊天訊息旁邊的圖標來操控聊天記錄。選項包括：

重新生成：刪除所有下面的消息並讓 AI 重新生成此消息
重寫：接管該消息並自己重寫。當您這樣做時，您需要保持名稱和冒號在消息前面不變，否則系統將不知道這條消息來自誰。
重播：從此消息重播聊天記錄
刪除條目：刪除這條消息
移除上方：刪除這條消息上方的所有消息
移除下方：刪除這條消息下方的所有消息

溫度

該值控制 AI 模型在生成聊天消息時的自由度。就像圖像生成一樣，使用相同的輸入，每次生成可能會略有不同，而溫度控制它的變化幅度。

存在懲罰和頻率懲罰

增加這些數值以減少 AI 生成重複內容的機會。

最多生成標記和最大提示長度

LLMs 有標記限制，超出此限制的內容將無法正確生成。

自動生成和為玩家生成

開啟“自動生成下一個”允許 AI 在計時器到期時自動生成下一條消息。

開啟“為玩家生成”允許 AI 為玩家生成消息。

文本轉語音

附加語音

DanceXR 使用名為 Piper 的 TTS 引擎。您可以在這裡收聽和下載其他語音模型以在 DanceXR 中使用。

https://rhasspy.github.io/piper-samples/

下載後，將其放入 chat\voices\piper 文件夾中。請記住，onnx 和 onnx.json 文件都是必需的。

語音管理器

內建的語音模型包含超過 900 種不同的聲音。默認情況下，我們僅啟用前 20 種。因為 900 種對用戶來說太多了。要啟用其他語音，請轉到語音 -> 語音管理器，從列表中選擇一種聲音，聽取並選中“選擇”以允許它添加到語音列表中。

您可以選擇不同的聲音來為系統、玩家和每個角色提供。

語言匹配和回退

AI 模型可以生成不同語言的消息。但語音模型無法。DanceXR 會嘗試判定消息的語言，如果它與所選語音的語言不匹配，啟用語音設置中的“回退”將允許其選擇語音列表中匹配該語言的不同聲音。

在 1.5.1 更新中引入的新設置允許選擇聊天語言，除了默認的“自動”模式之外。自動模式將和以前一樣行為，努力從文本內容本身判斷語言。但如果您在聊天語言設置中選擇了一種語言，則將用於聊天消息和語音。

請記住，提示消息對 GPT 模型在決定生成回應的語言時有更大的影響。如果您選擇除英語以外的語言，最好還更新提示模板以包含您所選語言的本地文本。

語音轉文本

內建的 Whisper 模型可以將您的聲音轉換為文本，然後發送給 AI。共有兩種模式：手動和自動。

手動模式

手動模式意味著您單擊麥克風按鈕，開始錄音，完成後再次單擊，音頻將被處理，然後結果將發送給 AI。

自動模式

自動模式意味著當聊天閒置（角色未在講話）時將自動開始錄音，實時處理音頻，然後在您講話結束時發送。然而有時並不非常智能。

對於低端設備，將音頻處理為文本可能需要一些時間。因此，不建議在 Android 和 Quest 上使用自動模式。

鍵位綁定

在輸入設置中，您可以分配一個按鈕來切換麥克風狀態，因此您可以控制錄音而無需進入 UI。默認情況下，它綁定到右手控制器菜單按鈕。

重置配置和角色設置

所有內容都保存在您的內容庫的聊天文件夾中。隨意刪除聊天文件夾以重置所有內容為默認設置。