音声対話の仕組み
音声対話処理
一般的に音声対話を実現するためには、
音声対話の流れ
1. ユーザーの声を拾って、音を文字列に変換する
2. 1.で認識した文字列から、応答を選択・作成する
3. 2.の応答を音声にして再生する。
という一連の処理が必要になります。
ACUAH は、この一連の処理を以下の3つの対話方法から選んで設定する事ができます。
対話方法
- 対話シナリオ(Scenario)
- LLM
- LLM Function calling
それぞれの対話方法について後述しますが、ACUAHでは対話方法により、音声対話、機能の実行、学習、親愛度・感情値の変化 という点で違いがあります。
| 対話方法 | 音声対話 | 応答音声(録音音声) | 応答音声(音声合成) | 機能の実行 | 学習 | 親愛度・感情値の変化 |
|---|---|---|---|---|---|---|
| 対話シナリオ(Scenario) | △ | ○ | × | ○ | ○ | ○ |
| LLM | ○ | × | ○ | × | × | × |
| LLM Function calling | ○ | × | ○ | ○ | ○ | ○ |
○:可能・あり △:可能・あり(制限あり) ×:不可能・なし
ユーザーご自身のキャラクターとの音声対話イメージから、対話方法を選択・設定してみてください。
- 話しかける言葉に制限があるが、録音音声を楽しみたい場合や機能を正確に実行させたい場合 は 「対話シナリオ(Scenario)」
- AIを使用した 音声対話だけを楽しみたい場合 は 「LLM」
- AIの良さを活かしながら機能の実行もさせてみたい場合 には 「LLM Function calling」
音声認識について
- ACUAHは スマートフォンのOS(Android, iOS)が標準で搭載する デバイスローカル版の音声認識エンジンを利用しています。
多言語対応について
- ACUAHの音声認識エンジンは スマートフォンOSのシステム言語設定に依存しています。
- 日本語以外の言語でキャラクターに話しかけたい場合は、スマートフォンのシステム言語設定を変更 してください。
- 対話方法が「LLM」、「LLM Function calling」で、キャラクターの音声を日本語以外の言語にする場合には Microsoft Azure AI Speech のAPIキーが必要です。詳細は、Voice APIについて を参照してください。
設定例
ACUAHのキャラクターとAI(LLM)を使った英会話を楽しみたい場合
- スマートフォンのシステム言語を"英語(en-US)"等に変更する。(ACUAHは起動すると英語版として動作します。)
- 取得したMicrosoft Azure AI Speech の APIキーを設定する。
- キャラクターの音声として英語の音声("en-US-AnaNeural"等)を設定する。