跳到主要内容

语音交互

仓库地址

功能说明

  1. 该功能包含音频处理节点和语音大模型节点,大模型使用 Qwen2.5-1.5B,ASR 基于 SensorVoice 实现,TTS 与 KWS 基于 Sherpa-onnx 框架实现。

  2. 除了默认的持续对话模式外,还支持关键词唤醒模式,即 “一唤醒一对话”,用户可通过 “你好地瓜” 唤醒后进行一轮对话,或通过 “你好地瓜+问题内容” 直接进行对话。检测到 “你好地瓜” 后,灯光会闪烁。可通过 audio_io.launch.py 中的 continuous_wake_mode 切换。

  3. 除默认的语音对话功能外,还支持语音控制。但该功能会增加大量额外的 prompt,功能加载时间较久。配置参考 qwen_llm.launch.py 中的 enable_function_call,启动后可通过如 “举起右手”、“右手举到最高”、“站起来”、“坐下” 等命令进行控制。

  4. 由于语音处理节点的初始化时间较久,该节点在开机后自动启动,按钮仅控制大语言模型节点的开启关闭,但两个节点会互相等待开启再进行工作。

  5. 功能结构图: 功能结构图