微软的新人工智能VALL-E可以用3秒的音频模拟任何人的声音[微软]?

2024-01-30 生活百科 By:开发百科
导读1月10日消息:微软研究人员宣布了一种名为VALL-E的新文本转语音人工智能模型,当给它一个三秒钟的音频样本时,它便可以模拟一个人的声音。一旦它学会了一种特定的声音,VALL-E就可以合成这个人说任何话的音频——而且

1月10日消息:微软研究人员宣布了一种名为VALL-E的新文本转语音人工智能模型,当给它一个三秒钟的音频样本时,它便可以模拟一个人的声音。一旦它学会了一种特定的声音,VALL-E就可以合成这个人说任何话的音频——而且是以一种试图保留说话者的情绪语调的方式。

这是文本语音系统朝着更自然的声音迈出的重要一步。它的创造者推测,VALL-E可用于高质量的文本转语音应用、语音编辑,在这种情况下,一个人的录音可以从文本记录中进行编辑和修改(让他们说一些他们原来没有说过的话),当与GPT-3等其他生成性人工智能模型相结合时,还可以进行音频内容创作。

微软称VALL-E为「神经编解码语言模型」,它建立在一项名为EnCodec的技术之上,Meta在2022年10月宣布了这项技术。与其他通常通过操纵波形合成语音的文本到语音方法不同,VALL-E从文本和声音提示中生成离散的音频编解码码。它基本上分析了一个人的声音,通过EnCodec将该信息分解成离散的组件,并使用训练数据来匹配它所「知道」的那个声音如果在三秒钟的样本之外说其他短语会是什么声音。

微软在一个由Meta组建的名为LibriLight的音频库上训练VALL-E的语音合成能力。它包含了6万小时的英语语音,来自7000多名发言者,大部分来自LibriVox公共领域的有声读物。

VALL-E示例网站:https://valle-demo.github.io/

展开全文
猜你感兴趣
干挂面面条该怎么做焖面呢?

干挂面面条该怎么做焖面呢?

1、食材:干面条、豆角少量、香菇、油2匙、盐10克、料

03-23 0万阅读
银耳泡发要多久呢?

银耳泡发要多久呢?

银耳的冷水泡发时间为3-4个小时,才能让银耳慢慢吸水,

03-23 0万阅读
牛油果口感呢?

牛油果口感呢?

牛油果的味道很独特,牛油果果肉很柔软,吃起来像乳酪

03-23 0万阅读
绿豆沙冰该怎么做呢?

绿豆沙冰该怎么做呢?

1、准备食材:绿豆50g、白砂糖适量。 2、绿豆用清水洗

03-23 0万阅读
正宗蒜蓉酱制作方法呢?

正宗蒜蓉酱制作方法呢?

1、食材:蒜300克、油30克、盐2克、蔬菜精1克。 2、干

03-22 0万阅读
竹叶青和雀舌的区别呢?

竹叶青和雀舌的区别呢?

1、产地不同:竹叶青产于四川省峨眉山一带。雀舌茶产于

03-22 0万阅读
什么是活珠子鸡蛋呢?

什么是活珠子鸡蛋呢?

活珠子是南京的特产,属金陵小吃,是当鸡蛋即将孵成一

03-22 0万阅读
蚕该怎么吐丝呢?

蚕该怎么吐丝呢?

1、蚕宝宝会变得安静,不再吃桑叶,身体开始变得发亮。

03-22 0万阅读
厚切酸奶该怎么做成的呢?

厚切酸奶该怎么做成的呢?

厚切酸奶是依靠快速制冰的原理,将酸奶凝固成块状或者

03-22 0万阅读
牛油果没熟能不能吃呢?

牛油果没熟能不能吃呢?

牛油果没熟可以吃,但未熟透的牛油果口感不太好,吃起

03-22 0万阅读