一天一款大模型-语音克隆大模型OpenVoice

总结来说，在英文方面效果比较好，中文口音有点奇怪，和生成语音的TTS引擎有一些关系。用户提供的文本内容以及风格参数，由基础Speaker TTS模型先生成一段间频，然后再和用户提供的参考音频，通过合成模型进行合成，模拟音色。根据这个原理，如果能自己训练基础Speaker TTS模型，或者使用第三方的TTS模型，再由OpenVoice进行合成，应该能达到更好的效果。：用户可以上传一段短音频，Open

weixin_47233946

302人浏览 · 2025-04-01 22:50:36

weixin_47233946 · 2025-04-01 22:50:36 发布

今天给大家介绍的是一款语音克隆大模型OpenVoice。OpenVoice由Myshell开发，上个月发布的，目前在github上已经有13.4k了，相当火爆。

语音克隆目前做得好商业化产品是Heygen，国内暂无法体验。OpenVoice对标Heygen，采用的开源许可是：创意共享署名-非商业性4.0国际许可证（Creative Commons Attribution-NonCommercial 4.0 International Public License），禁止商业使用。

OpenVoice有以下特点：

音色克隆：用户可以上传一段短音频，OpenVoice根据参考音频的音色，以及给定的文本提示词，以及指定的语气风格，生成短音频。

声音风格控制：OpenVoice 允许用户对声音的多个方面进行细粒度控制，如情感、口音、节奏、停顿和语调。

零样本跨语言克隆：生成的语音的语言和参考语音的语言都不需要出现在大规模说话者多语言训练数据集中。

以下是我的一些实测体验：

安装后的用户界面（一个基于Gradio的demo)：

加载模型后，占用显存大约4GB。

测试一下生成的效果，声音大概能像个80%，但有点奇怪的口音

总结来说，在英文方面效果比较好，中文口音有点奇怪，和生成语音的TTS引擎有一些关系。生成的长度有一些限制，200个字符以内。英文支持多种内格，但中文只支持默认风格。目前才是第一次发布的版本，相信未来还会有许多能力的提升。

最后再简单说一说它生成的原理。

用户提供的文本内容以及风格参数，由基础Speaker TTS模型先生成一段间频，然后再和用户提供的参考音频，通过合成模型进行合成，模拟音色。我的理解比较有限，想要了解更多，可以去官网或github上找更多的资料。

根据这个原理，如果能自己训练基础Speaker TTS模型，或者使用第三方的TTS模型，再由OpenVoice进行合成，应该能达到更好的效果。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

平板选大屏：2025年最大平板屏幕TOP5推荐！

若追求屏幕尺寸与AI功能的前沿融合,荣耀MagicPad 3的165Hz护眼大屏、12450mAh青海湖电池及免费AI PPT等创新,使其成为当前“大屏AI化”的引领者。2025年的平板市场迎来一波“大屏革命”,13英寸以上的超大屏搭配旗舰性能与AI赋能,彻底模糊了平板与笔记本的界限。作为首款“AI全场景赋能”的平板,MagicPad 3从护眼、续航到交互,重新定义了大屏平板的体验上限。整合AI离

MCP技术社区

2025年计算机行业选择分析报告

工业和信息化部、中央网信办等四部门联合印发《国家人工智能产业综合标准化体系建设指南（2024版）》，提出到2026年，我国人工智能产业标准与产业科技创新的联动水平持续提升，新制定国家标准和行业标准50项以上，引领人工智能产业高质量发展的标准体系加快形成。传统的初级编码岗位和一些过时技术栈面临被淘汰的风险。从板块表现来看，截至2025年2月7日收盘，计算机指数较年初上涨11.01%，同期沪深300指

MCP技术社区

通义灵码2.5来袭！MCP 功能直接让开发效率提升300%（附实战案例）

通义灵码2.5是阿里云推出的AI编码助手，以智能协作为核心，深度融合开发全流程。其三大升级点包括：编程智能体实现任务自主规划、MCP工具生态支持自然语言生成SQL、记忆进化系统个性化适配开发者习惯。通过自然语言即可完成数据库操作、代码生成与优化，大幅提升开发效率。此外，还具备工程级变更管理、多文件协同编辑及版本控制功能，适用于多种IDE环境，为企业提供安全高效的开发解决方案。