Eng 繁中 日本語 한국어 简中

AI搭載音声チャット

DanceXR は、2026.5 リリースで導入された専用のローカル AI バックエンド DanceXR Operator により、より完成度の高いローカル AI チャットワークフローをサポートするようになりました。Operator はゲームと並行してローカルサーバーとして動作し、外部オンラインサービスに依存せずに AI 会話、ロールプレイ、キャラクターボイス機能の基盤を提供します。

DanceXR で最新の AI チャット体験を使いたい場合、現在の推奨構成は Operator です。

主な機能

  • DanceXR Operator を専用のローカル AI バックエンドとして推奨
  • シーン情報、記憶、複数ターン履歴を利用した長時間のロールプレイセッション
  • AI 生成メッセージを音声に変換する TTS サポート
  • 話すときにキャラクターの顔を自動的にアニメーションする内蔵リップシンク
  • 音声をテキストに変換して AI に送る内蔵音声認識
  • 各キャラクターに異なる話し方を持たせられる複数言語・複数音声サポート

制限事項

  • 一部の音声機能はプラットフォームとバックエンド構成に依存します。音声出力が利用できないプラットフォームでも、AI の応答はテキストで表示できます。

AIサービス

DanceXR は現在、ローカル AI チャットバックエンドに重点を置いています。推奨オプションは DanceXR Operator ですが、必要に応じて手動構成のローカルバックエンドも利用できます。

DanceXR Operator

DanceXR Operator は DanceXR 専用のローカル AI バックエンドです。ゲームと並行してローカルサーバーとして動作し、音声合成と大規模言語モデルのチャットを統一 API の背後にまとめることで、ローカルの 1 つのサービスから AI 会話、ロールプレイ、キャラクターボイス機能を提供します。

Operator は 2026.5 リリースで導入された新しい AI チャットスタックの中核です。自分のゲーミング PC 上でモデル管理と音声パイプラインをローカルに処理し、より長く、よりシーンに根ざしたキャラクターインタラクションの安定した基盤を提供します。

利点:

  • DanceXR 向けに設計されている
  • 自分のハードウェア上でローカル動作する
  • 1 つのバックエンドで AI チャット、ロールプレイ、キャラクターボイスを扱える
  • シーン認識と継続性が必要な複数ターン会話に向いている

欠点:

  • DanceXR フォルダーの横にローカルインストールが必要
  • パフォーマンスはハードウェアと選択するモデルに依存する

設定:

  • DanceXR フォルダーの横に Operator をインストールします。詳しい手順は DanceXR Operator の機能ページを参照してください。
  • DanceXR で AI Chat を有効にし、利用可能な場合は Operator をバックエンドとして選択します。
  • 推奨フォルダー構成にインストールされていれば、Operator は DanceXR と一緒に自動起動でき、モデル管理や TTS 管理のためのローカル Web インターフェースも利用できます。

2026.5 の AI チャット改善

最新の AI チャットスタックでは、特に Operator 利用時に効果が大きい改善がいくつか入っています。

  • 環境認識: キャラクターは時間、照明、ステージ状況などのシーン情報をより一貫して使えます。
  • 記憶と継続性: 複数ターン履歴、意図追跡、セッション永続化、メモリ圧縮により会話が自然につながりやすくなりました。
  • インタラクションフローの改善: プロンプト処理、話者ターン、起動時挙動、状態表示が長時間セッション向けに調整されています。
  • TTS 挙動の改善: 音声品質、言語サポート、フォールバック挙動が改善されました。

ローカルでLLMを実行(LM Studio, OobaBooga, Ollama)

コンピュータが十分に強力であれば、ローカルで LLM を実行することもできます。例えば、最新の Llama3 8b はロールプレイングに十分です。OobaBooga、LM Studio、および Ollama をテストしましたが、DanceXR とよく機能します。

これらの方法は、手動でカスタム構成を組みたい場合には引き続き有効ですが、現在では主な推奨経路ではなく、Operator の代替手段という位置付けです。

AI の分野は非常に速く発展しており、新しいツールやモデルが常に登場しています。ここでの推奨は、執筆時点での知識に基づいており、あなたが読むときには古くなっているかもしれません。独自のオプションを探索してみてください。DanceXR は互換性のあるチャット API を公開するローカル LLM ツールで動作するはずです。

利点:

  • プライバシー、何も送信されず、すべてがローカルで発生する。
  • 実行するモデルを選ぶことができ、検閲されていないものも含まれる。
  • 無料

欠点:

  • オンラインモデルほどスマートではない
  • やや設定が必要
  • LLM をローカルで実行するのは非常にリソースを消費する可能性があり、DanceXR と LLM を同じマシンで実行しようとする場合は特に重くなります。

設定: 現在、LM Studio はコマンドラインツールを操作したくない場合は良い選択です。 LM Studio に関しては、こちらの手順に従ってください:

  • https://lmstudio.ai/ から LM Studio をダウンロードしてインストールする。
  • LM Studio 内で LLM モデルを選択してダウンロードします。現時点では Llama3 8b の使用をお勧めします。
  • チャットタブに切り替えて、ダウンロードしたモデルをロードします。
  • 「ローカルサーバー」タブに移動し、「サーバーを開始」をクリックします。ポート番号に注意してください(既定は 1234)。

OobaBooga については、こちらの手順に従ってください:

  • https://github.com/oobabooga/text-generation-webui をダウンロードしてインストールします。
  • WebUI が DanceXR と機能するように API を有効にする必要があります。これを行うには、CMD_FLAGS.txt ファイルを開いて「–listen –api」を追加し、その後再起動します。
  • 実行中になったら、モデルタブに移動し、まだ持っていない場合はモデルをダウンロードします。
  • 次の 2 つのモデルのうちの 1 つを使用することをお勧めします: https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GPTQ (7b, 実行が簡単) https://huggingface.co/TheBloke/Nous-Hermes-Llama2-GPTQ (13b, スマート)
  • モデルリストを更新してロードします。デフォルトのポート番号は 5000 です。

Ollama の設定: Ollama は、最小限の設定でローカル AI モデルを実行する簡単な方法を提供します。

  • https://ollama.ai/ から Ollama をダウンロードしてインストールします。
  • Ollama アプリを開いて、お好きなモデルをダウンロードします。
  • DanceXR で「AIサービス」から「Ollama」を選択します。
  • 「モデル名」ボックスにモデル名を入力します。例えば、「llama2-7b-chat」。
  • これで Ollama を AI バックエンドとして使用できるようになります。

DanceXR の設定:

  • DanceXR で「AIサービス」から「ローカルWebUI」を選択します。
  • サーバーの URL とポート番号を入力します。例えば「http://127.0.0.1:1234」(LM Studio)または「http://127.0.0.1:5000」(OobaBooga)。

ローカルモデルのための改善されたプロンプト

DanceXR は、特に小さなローカルモデルを使用する際に会話の質を向上させるための改善されたプロンプト技術を含んでいます。これにより、より良い応答と魅力的な対話を確保します。

チャットコントロール

テンプレート

テンプレートは、AI モデルが各キャラクターのチャットメッセージを生成するためのものです。複雑に思えるかもしれませんが、実際には非常に簡単です。chat/templates フォルダーを開いて、デフォルトテンプレートを確認するとその動作が分かります。

基本的に、誰かに特定のことをしてもらうために平易なテキストで伝えているようなものです。デフォルトテンプレートを修正して別の名前で保存すると、それがチャットの内容にどのように影響するかを確認できます。例えば、チャットのシナリオを設定するために環境の説明を追加できます。

DanceXR では、チャット設定 -> テンプレートに移動して、作成したテンプレートを選択します。

キャラクター

キャラクターは、アクターモデルの名前から導き出されます。例えば「Koharu Bouquet Cattleya Hair B Side Ponytail」の場合、「Koharu」はキャラクター名として解釈され、残りの「Bouquet Cattleya Hair B Side Ponytail」は彼女の衣装の説明として使用されます。

言語モデルは、キャラクターがよく知られている場合、そのキャラクターに関する知識を持っていることがあるため、使用しているモデルによっては、彼らが誰でどのように振る舞うかを理解できる場合があります。

キャラクター設定ではキャラクターの説明や性格を入力でき、それがチャットでの振る舞いに大きく影響します。例えば、誇り高く傲慢なキャラクターを「従順で喜んで応じる」と説明するだけで、従順なキャラクターに変更することができます。

「プレイヤー」も技術的にはキャラクターであり、自分自身の名前、説明、性格を変更して好きなキャラクターになることができます。

ペルソナ

キャラクター設定にはペルソナのドロップダウンがあります。これにより、TavernAI のような AI ロールプレイプログラムからダウンロードしたキャラクターを使用できます。これらは通常 PNG 形式で提供されます。PNG 画像のメタデータにはキャラクターの説明が含まれます。

オンラインのキャラクターエディターを使用して、png キャラクターを json 形式に変換します:https://zoltanai.github.io/character-editor/

次に、その json を「chat/personas」フォルダーに配置すると、キャラクター設定のペルソナドロップダウンに表示されます。それを行うと、ペルソナの説明がキャラクターの説明を上書きします。

チャット履歴

チャット履歴は、新しいコンテンツを生成するたびに AI に送信され、コンテキストを維持します。別のシナリオやトピックに切り替えたい場合は、最初に履歴をクリアして、AI が以前のチャットコンテキストに影響されないようにします。これを使用して、環境を操作し、チャットを促進することもできます。たとえば、メッセージ内で何かが起こったことを説明すると、AI はそのコンテキストを続けます。

プロンプトの制限に達すると、最古のメッセージが無視され、コンテキストに含まれないことに注意してください。そのため、AI は履歴の中で非常に古い事柄を忘れる可能性があります。

新しい Operator ベースのワークフローでは、複数ターン履歴、セッション永続化、メモリ圧縮をより有効に使えるため、会話が長くなってもロールプレイの一貫性を保ちやすくなっています。

チャットインターフェースでは、チャットメッセージの横にあるアイコンをクリックしてチャット履歴を操作できます。オプションには以下が含まれます:

  • 再生成: すべてのメッセージを削除し、AI にこのメッセージを再生成させる
  • 書き換え: メッセージを占有し、自分で書き換える。これを行う場合、名前とコロンをメッセージの前に保持する必要があります。そうしないと、システムはこのメッセージの送信者が誰かわからなくなります。
  • 再生: このメッセージからチャット履歴を再生する
  • エントリ削除: このメッセージを削除する
  • 上を削除: このメッセージの上のすべてのメッセージを削除する
  • 下を削除: このメッセージの下のすべてのメッセージを削除する

温度

この値は、AI モデルがチャットメッセージを生成する際の自由度を制御します。画像生成と同様に、同じ入力であっても生成時に多少異なることがあります。温度は、どれだけ変化できるかを制御します。

プレゼンスペナルティと頻度ペナルティ

これらの値を上げることで、AI が重複したコンテンツを生成する可能性を減少させます。

最大生成トークンと最大プロンプト長

LLM にはトークン制限があり、制限を超えるコンテンツは正しく生成されません。

自動生成とプレイヤーのための生成

「自動生成次」をオンにすると、タイマーが切れたときに AI が自動的に次のメッセージを生成します。

「プレイヤーのための生成」をオンにすると、AI がプレイヤーのためにメッセージを生成します。

テキストから音声へ

追加の声

DanceXR は Piper という TTS エンジンを使用しています。ここでは、DanceXR で使用するための追加の音声モデルを聴いてダウンロードできます。

https://rhasspy.github.io/piper-samples/

ダウンロードしたら、それらを chat\voices\piper フォルダーに置いてください。onnx と onnx.json の両方のファイルが必要であることに注意してください。

音声マネージャー

組み込みの音声モデルには 900 以上の異なる声が含まれています。デフォルトでは、最初の 20 の声だけが有効になっています。900 はユーザーが選ぶには多すぎるためです。他の声を有効にするには、チャット設定から「音声」->「音声マネージャー」に移動し、リストからいずれかの声を選択して聴き、「選択」をチェックして音声リストに追加できるようにします。

システム、プレイヤー、各キャラクターに異なる声を選ぶことができます。

言語のマッチングとフォールバック

AI モデルは異なる言語のメッセージを生成できますが、音声モデルはできません。DanceXR はメッセージの言語を判断し、選択した音声言語と一致しない場合、音声設定で「フォールバック」を有効にすると、音声リスト内で言語に一致する異なる音声を選択できます。

1.5.1 アップデートで導入された新しい設定では、デフォルトの「自動」モードに加え、チャット言語の選択が可能です。この自動モードは、テキストコンテンツ自体から言語を判断しようとします。ただし、チャット言語設定で言語のいずれかを選択すると、それがチャットメッセージと音声の両方に使用されます。

プロンプトメッセージは、言語モデルが応答言語を決める際に強い影響を持つことに注意してください。英語以外の言語を選ぶ場合は、選んだ言語のネイティブテキストでプロンプトテンプレートも更新することをお勧めします。

音声からテキストへ

組み込みの Whisper モデルは、あなたの声をテキストに変換し、次に AI に送信します。手動と自動の 2 つのモードがあります。

手動モード

手動モードは、マイクボタンをクリックすると録音を開始し、完了したら再度クリックして音声を処理し、結果を AI に送信することを意味します。

自動モード

自動モードは、チャットがアイドル状態(キャラクターが話していない)になると自動的に録音を開始し、リアルタイムで音声を処理し、あなたが話し終わったら送信します。ただし時々スマートではありません。

低スペックのデバイスの場合、音声をテキストに処理するのには時間がかかる場合があります。したがって、自動モードは Android や Quest には推奨されません。

キーバインディング

入力設定で、マイクの状態を切り替えるボタンを割り当てることができ、UI に入らずに録音を制御できます。デフォルトでは、右手のコントローラーメニューボタンに割り当てられています。

設定とキャラクター設定のリセット

すべてはあなたのコンテンツライブラリのチャットフォルダーに保存されます。気軽にチャットフォルダーを削除してすべてをデフォルトにリセットしてください。