微軟剛剛發布了 VibeVoice(開源) 這個 AI 可以將文本轉換為 90 分鐘、最多 4 人聲的播客。 帶有自然的停頓、情感,甚至唱歌。 6 個精彩示例 + 代碼: 1. 自發的唱歌
74