Skip to content

[Feature Request] 支持音源跟随 / sound source following #70

@xuruiray

Description

@xuruiray

背景

我在查看当前项目时,好像没有找到音源跟随 / 声源定位相关的实现。

硬件规格里提到 CoreS3 有双麦克风,StackChan 本体也有 yaw/pitch 舵机,所以我在想是否可以利用麦克风阵列估计说话人的方向,然后让头部自动转向声源。

想实现的功能

希望实现一个基础的音源跟随功能:

  • 检测到有人说话时,判断声源大致来自左侧、右侧或正前方
  • 根据估计出的方向驱动 yaw 舵机转头
  • 在设备自己播放声音时,避免被扬声器回声误触发
  • 最好能和现有 AI Agent / Avatar 模式结合

想请教的问题

  1. 目前这个项目里是否已经有相关实现,只是我没有找到?
  2. 有人基于 StackChan 或 CoreS3 做过类似实践吗?
  3. 使用当前硬件做音源跟随是否可行?
  4. 如果可行,实际效果大概如何?例如方向判断精度、延迟、抗噪声和抗回声能力。
  5. 当前音频输入链路里第二路输入更适合作为物理双麦输入,还是主要作为 AEC/reference 使用?

可能的实现方向

我初步理解可能需要:

  • 从音频 codec/I2S 获取两个真实麦克风通道
  • 使用 VAD 判断有效人声片段
  • 使用 TDOA / GCC-PHAT 或 ESP-SR/AFE 中可用的能力估计水平角度
  • 将角度映射到 yaw 舵机运动
  • 加入置信度、死区、平滑和限速,避免头部抖动
  • 在 TTS/扬声器播放时结合 AEC 或暂停跟随

如果维护者或社区里有人尝试过,希望能分享一下可行性、推荐方案和实际效果。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions