[Feature Request] 支持音源跟随 / sound source following

## 背景

我在查看当前项目时，好像没有找到音源跟随 / 声源定位相关的实现。

硬件规格里提到 CoreS3 有双麦克风，StackChan 本体也有 yaw/pitch 舵机，所以我在想是否可以利用麦克风阵列估计说话人的方向，然后让头部自动转向声源。

## 想实现的功能

希望实现一个基础的音源跟随功能：

- 检测到有人说话时，判断声源大致来自左侧、右侧或正前方
- 根据估计出的方向驱动 yaw 舵机转头
- 在设备自己播放声音时，避免被扬声器回声误触发
- 最好能和现有 AI Agent / Avatar 模式结合

## 想请教的问题

1. 目前这个项目里是否已经有相关实现，只是我没有找到？
2. 有人基于 StackChan 或 CoreS3 做过类似实践吗？
3. 使用当前硬件做音源跟随是否可行？
4. 如果可行，实际效果大概如何？例如方向判断精度、延迟、抗噪声和抗回声能力。
5. 当前音频输入链路里第二路输入更适合作为物理双麦输入，还是主要作为 AEC/reference 使用？

## 可能的实现方向

我初步理解可能需要：

- 从音频 codec/I2S 获取两个真实麦克风通道
- 使用 VAD 判断有效人声片段
- 使用 TDOA / GCC-PHAT 或 ESP-SR/AFE 中可用的能力估计水平角度
- 将角度映射到 yaw 舵机运动
- 加入置信度、死区、平滑和限速，避免头部抖动
- 在 TTS/扬声器播放时结合 AEC 或暂停跟随

如果维护者或社区里有人尝试过，希望能分享一下可行性、推荐方案和实际效果。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature Request] 支持音源跟随 / sound source following #70

背景

想实现的功能

想请教的问题

可能的实现方向

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Feature Request] 支持音源跟随 / sound source following #70

Description

背景

想实现的功能

想请教的问题

可能的实现方向

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions