今天给大家介绍的是一款语音克隆大模型OpenVoice。OpenVoice由Myshell开发,上个月发布的,目前在github上已经有13.4k了,相当火爆。

语音克隆目前做得好商业化产品是Heygen,国内暂无法体验。OpenVoice对标Heygen,采用的开源许可是:创意共享署名-非商业性4.0国际许可证(Creative Commons Attribution-NonCommercial 4.0 International Public License),禁止商业使用。

OpenVoice有以下特点:

  1. 音色克隆:用户可以上传一段短音频,OpenVoice根据参考音频的音色,以及给定的文本提示词,以及指定的语气风格,生成短音频。

    声音风格控制:OpenVoice 允许用户对声音的多个方面进行细粒度控制,如情感、口音、节奏、停顿和语调。

    零样本跨语言克隆:生成的语音的语言和参考语音的语言都不需要出现在大规模说话者多语言训练数据集中。

以下是我的一些实测体验:

安装后的用户界面(一个基于Gradio的demo):

图片

加载模型后,占用显存大约4GB。

测试一下生成的效果,声音大概能像个80%,但有点奇怪的口音

总结来说,在英文方面效果比较好,中文口音有点奇怪,和生成语音的TTS引擎有一些关系。生成的长度有一些限制,200个字符以内。英文支持多种内格,但中文只支持默认风格。目前才是第一次发布的版本,相信未来还会有许多能力的提升。

图片

最后再简单说一说它生成的原理。

图片

用户提供的文本内容以及风格参数,由基础Speaker TTS模型先生成一段间频,然后再和用户提供的参考音频,通过合成模型进行合成,模拟音色。我的理解比较有限,想要了解更多,可以去官网或github上找更多的资料。

根据这个原理,如果能自己训练基础Speaker TTS模型,或者使用第三方的TTS模型,再由OpenVoice进行合成,应该能达到更好的效果。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐