VALL-E X 可以通过仅使用未曾见过的说话者的 3 秒录音作为声学提示,合成高质量的个性化语音,即使是对于一位母语讲者,也可以在另一种语言中执行。此实现支持三种语言(英语、中文、日语)的零尝试、单语 / 跨语言文本到语音功能。

使用教程

1.上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。

2.模型将用您的音频提示相同的声音合成给定文本的语音。

3.该模型还倾向于保留您给定语音的情感和声学环境。

版权声明:原创作品,未经允许不得转载,否则将追究法律责任。
本站资源有的自互联网收集整理,如果侵犯了您的合法权益,请联系本站我们会及时删除。
本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
本文链接:壹码资源网https://www.yimazy.com/122448.html
许可协议:《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权