AI 強化語音聊天
Eng | 繁中 | 日本語 | 한국어 | 简中 |
AI 強化語音聊天
關鍵功能
- 選擇使用 OpenAI、本地或遠端文字生成 WebUI 作為 AI 服務的選項
- 內建 TTS 引擎,將 AI 生成的訊息轉換為語音
- 內建的口型同步功能,可在角色說話時自動動畫化角色的面部
- 內建語音識別,將您的語音轉換為文字並發送給 AI
- 包含超過 900 種英文聲音可供選擇,每個角色都可以擁有自己獨特的聲音
限制
- 語音引擎僅支援 Windows。在其他平台上,您仍然可以使用語音識別進行交談,但回應僅為文字。
AI 服務
有各種選項可用作 AI 服務,為您的角色提供智能。我們將在下面討論每個選項的優缺點
OpenAI(ChatGPT)
這是目前最智能的選項。
優點:
- 智能
- 快速
- 成本效益高(與其他遠端選項相比)
缺點:
- 審查
設置: 要在 DanceXR 中使用 OpenAI 服務,您需要一個 OpenAI API 金鑰。
- 註冊並登錄您的 OpenAI 帳戶。
- 點擊頁面右上角的個人資料圖標。
- 選擇“查看 API 金鑰”以打開 API 頁面。
- 點擊“創建新的秘密金鑰”,並在顯示時複製金鑰。請記住,該金鑰僅在此處顯示一次,您無法稍後檢索完整金鑰,因此請勿遺失。
- 打開 DanceXR,從聊天菜單中點擊配置圖標。
- 轉到 AI 服務,並將金鑰粘貼到“OpenAI API 金鑰”框中。
- 然後在“AI 服務”下拉菜單中選擇“OpenAI(ChatGPT)”,然後您應該可以開始使用。
- 在聊天設置中,您可以選擇要使用的模型。
在本地運行 LLM(LM Studio、OobaBooga 等)
如果您的計算機性能足夠,您也可以在本地運行 LLM。例如,最新的 Llama3 8b 應該足夠用於角色扮演。我們已經測試了 OobaBooga 和 LM Studio,它們與 DanceXR 配合良好。
請注意,AI 領域發展非常迅速,新工具和模型不斷推出。這裡的建議是基於我們在撰寫時所知的情況,當您閱讀時可能已經過時。請隨意探索您自己的選擇。DanceXR 也應該與任何支持 OpenAI API 規範的 LLM 工具一起使用。
優點:
- 隱私,不會發送任何信息,一切都在本地進行。
- 您可以選擇運行任何模型,包括未經審查的模型。
- 免費
缺點:
- 不像在線模型那樣智能
- 需要一些設置
- 在本地運行 LLM 可能需要大量資源。特別是如果您計劃在同一台機器上運行 DanceXR 和 LLM。
設置: 目前,如果您不想使用命令行工具,LM Studio 是一個更好的選擇。 對於 LM Studio,您可以按照這裡的說明進行操作:
- 從他們的網站 https://lmstudio.ai/ 下載並安裝 LM Studio。
- 在 LM Studio 中選擇並下載一個 LLM 模型。目前我們建議使用 Llama3 8b。
- 切換到聊天選項卡並加載您下載的模型。
- 轉到“本地服務器”選項卡,並點擊“啟動服務器”。請注意端口號(默認為 1234)。
對於 OobaBooga,您可以按照這裡的說明進行操作:
- 按照這裡的說明下載並安裝 https://github.com/oobabooga/text-generation-webui
- 要使 WebUI 與 DanceXR 配合工作,您需要打開 API。為此,打開 CMD_FLAGS.txt 文件並在其中添加“–listen –api”,然後重新啟動。
- 一旦運行,轉到模型選項卡,如果您尚未擁有模型,則下載一個模型。
- 我們建議使用以下兩個模型之一:https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ(7b,更容易運行)https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ(13b,更智能)
- 刷新模型列表並加載它。默認端口號為 5000。
DanceXR 中的配置:
- 在 DanceXR 中,從 AI 服務 -> 選擇服務 中選擇“本地 WebUI”。
- 輸入服務器 URL 和端口號。例如“http://127.0.0.1:1234”(LM Studio)或“http://127.0.0.1:5000”(OobaBooga)。
使用 Runpod 等遠程服務運行 WebUI
有一些服務允許您租用 GPU 並運行 AI 模型。Runpod 就是其中之一。他們提供了一個 WebUI 模板,比在本地運行更容易設置。
優點:
- 快速且簡單
- 自由選擇要運行的任何模型。甚至可以選擇那些在本地 GPU 上無法運行的模型。
缺點:
- 比 OpenAI 稍微昂貴
- 每次運行模型都需要下載。但這應該只需要幾分鐘。
設置:
- 從“社區雲”中選擇一個 GPU,然後點擊“部署”。3080ti 應該足夠運行 13b 模型。每小時費用為 26 美分。
- 從模板下拉菜單中選擇“RunPod TheBloke LLMs”。
- 一旦運行,點擊連接,它將為您提供 WebUI 和 API 的鏈接,將 API 的 URL 複製並粘貼到 DanceXR 中的“遠程 WebUI URL”框中。
- 點擊 WebUI 鏈接,然後轉到模型選項卡以下載模型。
- 我們建議使用以下兩個模型之一:https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ(7b,更容易運行)https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ(13b,更智能)
- 刷新模型列表並加載它。
聊天控制
模板
模板是驅動 AI 模型為每個角色生成聊天訊息的內容。您可能認為它很複雜,但實際上它非常簡單。您可以打開 chat/templates 文件夾以查看默認模板的工作方式。
基本上就像告訴某人以純文本的方式為您執行某些操作。您可以修改默認模板並另存為不同名稱,以查看它如何影響聊天內容。例如,您可以在其中添加環境描述,以設置聊天情境。
在 DanceXR 中,轉到聊天設置 -> 模板,以選擇您創建的模板。
角色
角色源自演員模型的名稱。例如,“小春花束卡特莉亞側馬尾”,“小春”將被解釋為角色名稱,“花束卡特莉亞側馬尾”將用作她的服裝描述。
如果角色是眾所周知的,語言模型可能對角色有一些了解,因此有時候知道他們是誰以及他們的行為方式,尤其是當您使用 OpenAI 時。
在角色設置中,您可以輸入角色的描述和個性,這將大大影響他們在聊天中的行為。例如,您可以通過將其描述為“服從且樂於助人”來將一個驕傲和傲慢的角色改變為服從。
“玩家”在技術上也是一個角色,您可以為自己更改名稱、描述和個性,成為您喜歡的任何人。
人物
角色設置還有一個 Persona 下拉菜單。這允許您使用從像 TavernAI 這樣的 AI 角色扮演程序中下載的角色。這些通常以 PNG 格式提供。png 圖像的元數據包含角色的描述。
使用此在線角色編輯器將 png 角色轉換為 json 格式 https://zoltanai.github.io/character-editor/
然後將 json 放入“chat/personas”文件夾中,它們將出現在角色設置中的 Persona 下拉菜單中。完成後,Persona 的描述將覆蓋角色描述。
聊天歷史
每次生成新內容時,聊天歷史都會發送給 AI,以保持上下文。如果您想切換到不同的情境或話題,請先清除歷史,以便 AI 不受先前聊天上下文的影響。您也可以使用此功能來操控環境並推動聊天。例如,如果您在消息中描述了某事發生,AI 將繼續該上下文。
請注意,一旦達到提示限制,最舊的消息將被忽略並不包含在上下文中。因此,AI 可能會忘記過於遙遠的歷史事件。
在聊天界面中,您可以點擊聊天消息旁邊的圖標來操控聊天歷史。選項包括:
- 重新生成:刪除下面的所有消息,讓 AI 重新生成此消息
- 重寫:接管消息並自行重寫。當您這樣做時,您需要保留消息前面的名稱和冒號,否則系統將不知道這條消息來自誰。
- 重播:從此消息重新播放聊天歷史
- 刪除條目:刪除此消息
- 刪除上面:刪除此消息上面的所有消息
- 刪除下面:刪除此消息下面的所有消息
溫度
此值控制 AI 模型在生成聊天消息時的自由度。就像圖像生成一樣,對於相同的輸入,每次生成可能略有不同,而溫度控制它可以變化的程度。
存在懲罰和頻率懲罰
增加這些值以減少 AI 生成重複內容的機會。
最大生成令牌和最大提示長度
LLM 有令牌限制,超出此限制的內容將無法正確生成。
自動生成和為玩家生成
打開“自動生成下一個”以允許 AI 在計時器結束時自動生成下一條消息。
打開“為玩家生成”以允許 AI 為玩家生成消息。
文字轉語音
附加聲音
DanceXR 使用一個名為 Piper 的 TTS 引擎。在這裡,您可以收聽並下載其他聲音模型以在 DanceXR 中使用。
https://rhasspy.github.io/piper-samples/
下載後,將它們放入 chat\voices\piper 文件夾中。請注意,onnx 和 onnx.json 文件都是必需的。
聲音管理器
內建的聲音模型包含超過 900 種不同的聲音。默認情況下,我們僅啟用前 20 種。因為 900 種對用戶來說太多了。要啟用其他聲音,請轉到聲音 -> 聲音管理器,從聊天設置中的列表中選擇一種聲音,收聽它,並勾選“選擇”以將其添加到聲音列表中。
您可以為系統、玩家和每個角色選擇不同的聲音。
語言匹配和回退
AI 模型可以生成不同語言的訊息。但語音模型無法。DanceXR 將嘗試確定訊息的語言,如果與所選聲音的語言不匹配,則在聲音設置中啟用“回退”將允許它選擇與聲音列表中匹配的不同聲音。
1.5