AI 动力语音聊天

主要功能

可选择使用OpenAI、本地或远程文本生成WebUI作为AI服务
内置TTS引擎，将AI生成的消息转换为语音
内置口型同步，当角色说话时自动为其面部进行动画
内置语音识别，将您的语音转换为文本并发送给AI
包含超过900种英文语音可供选择，每个角色都可以拥有自己独特的声音

限制

语音引擎仅适用于Windows。在其他平台上，您仍然可以使用语音识别进行对话，但回复仅为文本。

AI 服务

有各种选项可用作AI服务，为您的角色赋予智能。我们将在下面讨论每个选项的优缺点

OpenAI（ChatGPT）

这是目前最智能的选项。

优点：

聪明
快速
成本效益高（与其他远程选项相比）

缺点：

被审查

设置： 要在DanceXR中使用OpenAI服务，您需要一个OpenAI API密钥。

注册并登录您的OpenAI帐户。
单击页面右上角的个人资料图标。
选择“查看API密钥”以打开API页面。
单击“创建新的秘密密钥”，并在显示时复制密钥。请记住，该密钥仅在此处显示一次，您无法稍后检索完整密钥，因此不要丢失。
打开DanceXR，单击聊天菜单中的配置图标。
转到AI服务，并将密钥粘贴到“OpenAI API密钥”框中。
然后在“AI服务”下拉菜单中选择“OpenAI（ChatGPT）”，然后您就可以开始使用了。
在聊天设置中，您可以选择要使用的模型。

本地运行LLM（LM Studio，OobaBooga等）

如果您的计算机性能足够强大，还可以在本地运行LLM。例如，最新的Llama3 8b应该足够用于角色扮演。我们已经测试了OobaBooga和LM Studio，并且它们与DanceXR配合良好。

请注意，AI领域发展非常迅速，新工具和模型不断涌现。这里的建议是基于我们在撰写时所知的情况，当您阅读时可能已经过时。请随时探索您自己的选择。DanceXR也应该与任何支持OpenAI API规范的LLM工具一起使用。

优点：

隐私，不会发送任何内容，一切都在本地进行。
您可以选择任何要运行的模型，包括未经审查的模型。
免费

缺点：

不如在线模型聪明
需要一些设置
在本地运行LLM可能会消耗大量资源。特别是如果您计划在同一台机器上同时运行DanceXR和LLM。

设置： 目前，如果您不想使用命令行工具，LM Studio是一个更好的选择。对于LM Studio，您可以按照这里的说明操作：

从他们的网站https://lmstudio.ai/下载并安装LM Studio。
在LM Studio中选择并下载一个LLM模型。目前我们建议使用Llama3 8b。
切换到聊天选项卡并加载您下载的模型。
转到“本地服务器”选项卡，然后单击“启动服务器”。请注意端口号（默认为1234）。

对于OobaBooga，您可以按照这里的说明操作：

按照这里的说明下载并安装https://github.com/oobabooga/text-generation-webui
要使WebUI与DanceXR配合工作，您需要打开API。为此，请打开CMD_FLAGS.txt文件并在其中添加“–listen –api”，然后重新启动。
一旦运行，转到模型选项卡，如果您尚未拥有模型，请下载一个模型。
我们建议使用以下两个模型之一：https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ（7b，更容易运行）https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ（13b，更聪明）
刷新模型列表并加载它。默认端口号为5000。

DanceXR中的配置：

在DanceXR中，从AI服务->选择服务中选择“本地WebUI”。
输入服务器URL和端口号。例如“http://127.0.0.1:1234”（LM Studio）或“http://127.0.0.1:5000”（OobaBooga）。

使用Runpod等远程服务运行WebUI

有一些服务允许您租用GPU并运行AI模型。Runpod就是其中之一。他们有一个WebUI的模板，比在本地运行更容易设置。

优点：

快速且简单
自由选择要运行的任何模型。甚至可以选择那些在本地GPU上无法运行的模型。

缺点：

比OpenAI稍微昂贵
每次运行模型都需要下载。但这应该只需要几分钟。

设置：

从“社区云”中选择一个GPU，然后单击“部署”。3080ti应该足够运行一个13b模型。每小时费用为26美分。
从模板下拉菜单中选择“RunPod TheBloke LLMs”。
一旦运行，单击连接，它将为您提供WebUI和API的链接，将API的URL复制并粘贴到DanceXR中的“远程WebUI URL”框中。
单击WebUI链接，然后转到模型选项卡以下载一个模型。
我们建议使用以下两个模型之一：https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ（7b，更容易运行）https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ（13b，更聪明）
刷新模型列表并加载它。

聊天控制

模板

模板是驱动AI模型为每个角色生成聊天消息的内容。您可能认为它很复杂，但实际上它非常简单。您可以打开chat/templates文件夹以查看默认模板的工作方式。

基本上就像在纯文本中告诉某人为您做某些事情。您可以修改默认模板并另存为不同名称，以查看它如何影响聊天内容。例如，您可以在其中添加环境描述，以设置聊天的情景。

在DanceXR中，转到聊天设置->模板以选择您创建的模板。

角色

角色源自演员模型的名称。例如，“小春花束卡特莉亚发型B侧马尾辫”，“小春”将被解释为角色名称，“花束卡特莉亚发型B侧马尾辫”将被用作她的服装描述。

如果角色是众所周知的，语言模型可能对角色有一些了解，因此有时会知道他们是谁以及他们如何行事，尤其是当您使用OpenAI时。

在角色设置中，您可以输入角色的描述和个性，这将极大地影响他们在聊天中的行为。例如，您可以通过简单地描述他们为“顺从且乐于助人”来将一个骄傲和傲慢的角色改变为顺从的角色。

“玩家”在技术上也是一个角色，您可以更改名称、描述和个性，成为您喜欢的任何人。

人物

角色设置还有一个Persona下拉菜单。这允许您使用从AI角色扮演程序（如TavernAI）下载的角色。这些通常以PNG格式提供。PNG图像的元数据包含角色的描述。

使用此在线角色编辑器将PNG角色转换为json格式https://zoltanai.github.io/character-editor/

然后将json放入“chat/personas”文件夹中，它们将出现在角色设置中的Persona下拉菜单中。完成后，Persona的描述将覆盖角色描述。

聊天历史

每次生成新内容时，聊天历史都会发送给AI，以保持上下文。如果要切换到不同的情景或主题，请首先清除历史记录，以便AI不受先前聊天上下文的影响。您还可以使用此功能来操纵环境并推动聊天。例如，如果您在消息中描述了发生的事情，AI将继续在该上下文中进行。

请注意，一旦达到提示限制，最旧的消息将被忽略并不包含在上下文中。因此，AI可能会忘记太久以前的事情。

在聊天界面中，您可以单击聊天消息旁边的图标来操纵聊天历史。选项包括：

重新生成：删除下面的所有消息，让AI重新生成此消息
重写：接管消息并自己重写。当您这样做时，您需要保留消息前面的名称和冒号，否则系统将不知道这条消息来自谁。
重播：从此消息重新播放聊天历史
删除条目：删除此消息
删除上方：删除此消息上方的所有消息
删除下方：删除此消息下方的所有消息

温度

此值控制AI模型在生成聊天消息时的自由度。就像图像生成一样，使用相同的输入，每次生成可能略有不同，而温度控制了它可以变化的程度。

存在惩罚和频率惩罚

增加这些值以减少AI生成重复内容的机会。

最大生成令牌和最大提示长度

LLM有令牌限制，超过此限制的内容将无法正确生成。

自动生成和为玩家生成

打开“自动生成下一个”以允许AI在计时器结束时自动生成下一条消息。

打开“为玩家生成”以允许AI为玩家生成消息。

文本转语音

附加语音

DanceXR使用一个名为Piper的TTS引擎。在这里，您可以收听和下载其他语音模型以在DanceXR中使用。

https://rhasspy.github.io/piper-samples/

下载后，将它们放入chat\voices\piper文件夹中。请注意，onnx和onnx.json文件都是必需的。

语音管理器

内置语音模型包含超过900种不同的语音。默认情况下，我们仅启用前20种。因为900种对用户来说太多了。要启用其他语音，请转到聊天设置中的Voice->Voice Manager，从列表中选择一种语音，收听它并选中“Selected”以允许将其添加到语音列表中。

您可以为系统、玩家和每个角色选择不同的语音。

语言匹配和回退

AI模型可以生成不同语言的消息。但语音模型不能。DanceXR将尝试确定消息的语言，如果与所选语音的语言不匹配，则在语音设置中启用“Fallback”将允许其选择与语音列表中匹配的不同语音。

1.5.1更新中引入的新设置允许选择聊天语言，除了默认的“自动”模式。自动模式将与以前完全相同，它尝试从文本内容本身确定语言。但如果您在聊天语言设置中选择了一种语言，则将用于聊天消息和语音。

请注意，提示消息对GPT模型在生成响应时决定使用何种语言具有更高的影响力。如果选择的语言不是英语，最好还更新提示模板，使用您选择的语言的本地文本。

语音转文本

内置的Whisper模型可以将您的语音转换为文本，然后发送给AI。有两种模式，手动和自动。

手动模式

手动模式意味着您单击麦克风按钮，开始录制，完成后再次单击它，音频将被处理，结果将被发送给AI。

自动模式

自动模式意味着当聊天处于空闲状态（角色不说话）时，它将自动开始录制，即时处理音频，然后在您说完后发送。但有时它并不是很聪明。

对于性能较低的设备，处理音频转换为文本可能需要一些时间。因此，不建议在Android和Quest上使用自动模式。

按键绑定

在输入设置中，您可以分配一个按钮来切换麦克风状态，这样您就可以在不进入UI的情况下控制录制。默认情况下，它分配给右手控制器的菜单按钮。

重置配置和角色设置

一切都保存在您内容库的chat文件夹中。随时删除chat文件夹以将一切重置为默认设置。