关于F0作为显式输入维度的建议

我注意到当前项目下并没有显式将Pitch作为输入维度，这里使用WaNet FastU2++作为ASR模型，但是其设计本身被设计为说话人不相关，最大化 encoder 输出与音素/字符之间的互信息，同时最小化与其他变量（说话人、音高、信道）的互信息。

但是在VC的实际使用过程中非常重要的一环就是男声变女声，女声变男声，在RVC这类变声软件中，Pitch也是作为显式的输入加入的。

我不确定直接将Pitch显式地加入Encoder，Decoder中是否是一个好的选择，我想知道你们是否有考虑过这种想法或者有在实验室中直接测试过这种做法，如果可以的话，我改进后可以提交PR