语音交互
仓库地址
功能说明
-
该功能包含音频处理节点和语音大模型节点,大模型使用 Qwen2.5-1.5B,ASR 基于 SensorVoice 实现,TTS 与 KWS 基于 Sherpa-onnx 框架实现。
-
除了默认的持续对话模式外,还支持关键词唤醒模式,即 “一唤醒一对话”,用户可通过 “你好地瓜” 唤醒后进行一轮对话,或通过 “你好地瓜+问题内容” 直接进行对话。检测到 “你好地瓜” 后,灯光会闪烁。可通过 audio_io.launch.py 中的
continuous_wake_mode切换。 -
除默认的语音对话功能外,还支持语音控制。但该功能会增加大量额外的 prompt,功能加载时间较久。配置参考 qwen_llm.launch.py 中的
enable_function_call,启动后可通过如 “举起右手”、“右手举到最高”、“站起来”、“坐下” 等命令进行控制。 -
由于语音处理节点的初始化时间较久,该节点在开机后自动启动,按钮仅控制大语言模型节点的开启关闭,但两个节点会互相等待开启再进行工作。
-
功能结构图:
