背景
我在查看当前项目时,好像没有找到音源跟随 / 声源定位相关的实现。
硬件规格里提到 CoreS3 有双麦克风,StackChan 本体也有 yaw/pitch 舵机,所以我在想是否可以利用麦克风阵列估计说话人的方向,然后让头部自动转向声源。
想实现的功能
希望实现一个基础的音源跟随功能:
- 检测到有人说话时,判断声源大致来自左侧、右侧或正前方
- 根据估计出的方向驱动 yaw 舵机转头
- 在设备自己播放声音时,避免被扬声器回声误触发
- 最好能和现有 AI Agent / Avatar 模式结合
想请教的问题
- 目前这个项目里是否已经有相关实现,只是我没有找到?
- 有人基于 StackChan 或 CoreS3 做过类似实践吗?
- 使用当前硬件做音源跟随是否可行?
- 如果可行,实际效果大概如何?例如方向判断精度、延迟、抗噪声和抗回声能力。
- 当前音频输入链路里第二路输入更适合作为物理双麦输入,还是主要作为 AEC/reference 使用?
可能的实现方向
我初步理解可能需要:
- 从音频 codec/I2S 获取两个真实麦克风通道
- 使用 VAD 判断有效人声片段
- 使用 TDOA / GCC-PHAT 或 ESP-SR/AFE 中可用的能力估计水平角度
- 将角度映射到 yaw 舵机运动
- 加入置信度、死区、平滑和限速,避免头部抖动
- 在 TTS/扬声器播放时结合 AEC 或暂停跟随
如果维护者或社区里有人尝试过,希望能分享一下可行性、推荐方案和实际效果。
背景
我在查看当前项目时,好像没有找到音源跟随 / 声源定位相关的实现。
硬件规格里提到 CoreS3 有双麦克风,StackChan 本体也有 yaw/pitch 舵机,所以我在想是否可以利用麦克风阵列估计说话人的方向,然后让头部自动转向声源。
想实现的功能
希望实现一个基础的音源跟随功能:
想请教的问题
可能的实现方向
我初步理解可能需要:
如果维护者或社区里有人尝试过,希望能分享一下可行性、推荐方案和实际效果。