Eng 繁中 日本語 한국어 简中

AI 強化語音聊天

關鍵功能

  • 選擇使用 OpenAI、本地或遠端文字生成 WebUI 作為 AI 服務
  • 內建 TTS 引擎,將 AI 生成的訊息轉換為語音
  • 內建的口型同步功能,自動為角色說話時動畫化其面部表情
  • 內建語音辨識,將您的語音轉換為文字並發送至 AI
  • 包含超過 900 種英文聲音可供選擇,每個角色都可以擁有自己獨特的聲音

限制

  • 語音引擎僅支援 Windows。在其他平台上,您仍然可以使用語音辨識進行交流,但回應將僅為文字。

    ## AI 服務

    有各種選擇可用作 AI 服務,以賦予您的角色智能。我們將在下面討論每個選項的優缺點。

OpenAI(ChatGPT)

這是目前最智能的選擇。

優點:

  • 聰明
  • 快速
  • 成本效益(與其他遠程選項相比)

缺點:

  • 審查

設置: 要使用 OpenAI 服務與 DanceXR,您需要一個 OpenAI API 金鑰。

  • 註冊並登錄您的 OpenAI 帳戶。
  • 點擊頁面右上角的個人資料圖標。
  • 選擇“查看 API 金鑰”以打開 API 頁面。
  • 點擊“創建新的秘密金鑰”,並在出現時複製金鑰。請記住,該金鑰只會在此顯示一次,您無法稍後檢索完整金鑰,因此不要遺失。
  • 打開 DanceXR,並從聊天菜單中點擊配置圖標。
  • 轉到 AI 服務,並在“OpenAI API 金鑰”框中粘貼您的金鑰。
  • 然後在“AI 服務”下拉菜單中選擇“OpenAI(ChatGPT)”,然後您應該可以開始使用了。
  • 在聊天設置中,您可以選擇要使用的模型。

OobaBooga 文本生成 WebUI

如果您的電腦性能足夠強大,此選項允許您在本地運行大型語言模型(LLM)。7b 或 13b 模型應該足夠用於聊天。

優點:

  • 隱私,不會發送任何內容,一切都在本地進行。
  • 您可以使用不經審查的模型進行不適於未成年人的內容。
  • 免費

缺點:

  • 不像 OpenAI 模型那樣聰明
  • 需要一些設置
  • 如果 VRAM 不足,可能會變得非常緩慢。特別是當您同時運行 DanceXR 時,系統可能會將 LLM 推送到虛擬 VRAM 中,這將破壞其性能。

設置:

  • 按照這裡的說明下載並安裝 https://github.com/oobabooga/text-generation-webui
  • 要使 WebUI 與 DanceXR 配合工作,您需要打開 API。要做到這一點,打開 CMD_FLAGS.txt 文件,並在其中添加“–listen –api”,然後重新啟動它。
  • 一旦運行,轉到模型選項卡,如果您還沒有模型,請下載一個模型。
  • 我們建議使用以下兩個模型之一:https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ(7b,更容易運行)https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ(13b,更聰明)
  • 刷新模型列表並加載它。
  • 在 DanceXR 中,從 AI 服務 -> 選擇服務 中選擇“本地 WebUI”。
  • 默認 URL(http://127.0.0.1:5000)應該有效,除非您的設置需要不同的端口或 URL。

使用 Runpod 等遠程服務運行 WebUI

有一些服務允許您租用 GPU 並運行 AI 模型。 Runpod 就是其中之一。他們有一個 WebUI 的模板,比在本地運行更容易設置。

優點:

  • 快速且簡單
  • 自由選擇要運行的任何模型。甚至可以選擇在本地 GPU 上無法運行的模型。

缺點:

  • 比 OpenAI 貴一些
  • 每次運行模型都需要下載。但這應該只需要幾分鐘。

設置:

  • 從“社區雲”中選擇一個 GPU,然後點擊“部署”。3080ti 應該足夠運行 13b 模型。每小時需要 26 美分。
  • 從模板下拉菜單中選擇“RunPod TheBloke LLMs”。
  • 運行後,點擊連接,它將為您提供 WebUI 和 API 的鏈接,將 API 的 URL 複製並粘貼到 DanceXR 的“遠程 WebUI URL”框中。
  • 點擊 WebUI 鏈接,然後轉到模型選項卡下載一個模型。
  • 我們建議使用以下兩個模型之一:https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ(7b,更容易運行)https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ(13b,更聰明)
  • 刷新模型列表並加載它。

    ## 聊天控制

模板

模板是驅動 AI 模型為每個角色生成聊天消息的基礎。你可能會認為它很複雜,但實際上它非常簡單。您可以打開 chat/templates 文件夾,打開默認模板,看看它是如何工作的。

基本上就像是用純文本告訴某人為您做某些事情。您可以修改默認模板,另存為不同的名稱,看看它如何影響聊天內容。例如,您可以在其中添加環境的描述,為聊天設定情景。

在 DanceXR 中,轉到聊天設置 -> 模板,選擇您創建的模板。

角色

角色是從演員模型的名稱派生的。例如,“小春花束卡特莉亞髮B側馬尾”,“小春”將被解釋為角色名稱,“花束卡特莉亞髮B側馬尾”將被用作她服裝的描述。

如果角色是眾所周知的,語言模型可能對角色有一些了解,因此有時候知道他們是誰以及他們的行為方式,尤其是當您使用 OpenAI 時。

在角色設置中,您可以輸入角色的描述和個性,這將大大影響他們在聊天中的行為。例如,您可以通過描述他們為“服從且渴望取悅”來將一個驕傲和傲慢的角色改變為服從。

“玩家”在技術上也是一個角色,您可以為自己更改名稱、描述和個性,成為您喜歡的任何人。

人物

角色設置還有一個 Persona 下拉菜單。這允許您使用從像 TavernAI 這樣的 AI 角色扮演程序中下載的角色。這些通常以 PNG 格式提供。png 圖像的元數據包含角色的描述。

使用此在線角色編輯器將 png 角色轉換為 json 格式 https://zoltanai.github.io/character-editor/

然後將 json 放入“chat/personas”文件夾中,它們將出現在角色設置中的 Persona 下拉菜單中。完成後,Persona 的描述將覆蓋角色描述。

聊天歷史

每次生成新內容時,聊天歷史都會發送給 AI,以保持上下文。如果您想切換到不同的情景或話題,請先清除歷史,以便 AI 不受先前的聊天上下文影響。您還可以使用此功能來操縱環境並推動聊天。例如,如果您在消息中描述了某件事情發生,AI 將繼續在該上下文中進行。

請注意,一旦達到提示限制,最舊的消息將被忽略並不包含在上下文中。因此,AI 可能會忘記過於遙遠的歷史。

在聊天界面中,您可以點擊聊天消息旁邊的圖標來操縱聊天歷史。選項包括:

  • 重新生成:刪除下面的所有消息,讓 AI 重新生成此消息
  • 重寫:接管消息並自行重寫。當您這樣做時,您需要保持消息前面的名稱和冒號不變,否則系統將不知道這條消息來自誰。
  • 重播:從此消息重播聊天歷史
  • 刪除條目:刪除此消息
  • 刪除上面:刪除此消息上面的所有消息
  • 刪除下面:刪除此消息下面的所有消息

溫度

這些值控制 AI 模型在生成聊天消息時的自由度。就像圖像生成一樣,使用相同的輸入,每次生成可能略有不同,而溫度控制了它可以變化的程度。

存在懲罰和頻率懲罰

增加這些值以減少 AI 生成重複內容的機會。

最大生成標記和最大提示長度

LLM 有標記限制,超出此限制的內容將無法正確生成。

自動生成和為玩家生成

打開“自動生成下一條”以允許 AI 在計時器到期時自動生成下一條消息。

打開“為玩家生成”以允許 AI 為玩家生成消息。

## 文字轉語音

額外語音

DanceXR 使用一個名為 Piper 的 TTS 引擎。在這裡,您可以聆聽並下載額外的語音模型,以在 DanceXR 中使用。

https://rhasspy.github.io/piper-samples/

下載後,將它們放入 chat\voices\piper 資料夾中。請記住,必須同時存在 onnx 和 onnx.json 檔案。

語音管理器

內建的語音模型包含超過 900 種不同的語音。默認情況下,我們只啟用前 20 種。因為 900 種對用戶來說太多了。要啟用其他語音,請前往聊天設置中的「語音」->「語音管理器」,從列表中選擇一種語音,聆聽並勾選「選擇」以將其添加到語音列表中。

您可以為系統、播放器和每個角色選擇不同的語音。

語言匹配和回退

AI 模型可以生成不同語言的消息。但語音模型不能。DanceXR 將嘗試確定消息的語言,如果它與所選語音的語言不匹配,則在語音設置中啟用「回退」將允許它選擇與語音列表中匹配的不同語音。

在 1.5.1 更新中引入的新設置允許選擇聊天語言,除了默認的「自動」模式。自動模式將與以前完全相同,它會嘗試從文本內容本身確定語言。但如果您在聊天語言設置中選擇其中一種語言,它將用於聊天消息和語音。

請記住,提示消息對於 GPT 模型在生成回應時決定使用的語言具有更高的影響力。如果您選擇的語言不是英語,最好也將提示模板更新為所選語言的本地文本。

語音轉文字

內建的 Whisper 模型可以將您的語音轉換為文字,然後發送到 AI。有 2 種模式,手動和自動。

手動模式

手動模式意味著您點擊麥克風按鈕,它開始錄製,一旦完成,再次點擊它,音頻將被處理,結果將被發送到 AI。

自動模式

自動模式意味著當聊天處於閒置狀態時(角色不說話),它將自動開始錄製,即時處理音頻,然後在您講話結束時發送它。但有時它並不是非常智能。

對於低端設備,處理音頻到文字可能需要一些時間。因此,不建議在 Android、Quest 上使用自動模式。

鍵綁定

在輸入設置中,您可以分配一個按鈕來切換麥克風狀態,這樣您就可以在不進入 UI 的情況下控制錄製。默認情況下,它分配給右手控制器的菜單按鈕。

重置配置和角色設置

一切都保存在您的內容庫的 chat 資料夾中。隨時刪除 chat 資料夾以將一切重置為默認值。