微软刚刚发布了 VibeVoice(开源) 这个 AI 可以将文本转换为 90 分钟、最多 4 人声的播客。 带有自然的停顿、情感,甚至唱歌。 6 个精彩示例 + 代码: 1. 自发的唱歌
71