Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

2023-08-03 20:57:28 来源: 开源中国

【资料图】

Facebook 母公司 Meta宣布开源文本生成音乐工具 Audiocraft，该工具可以帮助用户根据文本提示创作音乐和音频。

Meta 表示，这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频，或更复杂的音乐，适用于游戏开发、社交、视频配音等业务场景。

根据官网的介绍，MusicGen 接受过 Meta 拥有的和特别授权的音乐训练，可以从文本提示生成音乐，而 AudioGen 接受过公共音效训练，可从文本提示生成音频，比如模拟狗叫或脚步声；再加上 EnCodec 编解码器的改进版本，用户可以更高效率地生成更高质量的音乐。

总结就是，Audiocraft 由 MusicGen、AudioGen 和 EnCodec 三个模型组合而成：

MusicGen是一个文本生成音乐的自回归语言模型，大约使用了40万份文本描述和元数据的录音，总计2万小时的授权音乐进行训练。可通过文本自动生成摇滚、流行、重金属、RPA等类型音乐。 AudioGen是一个文本生成音频的自回归语言模型，具备分离音频功能，例如，可识别背景声、说话声和物体发出的声音等。这有助于仅使用文本生成音频时，更准确贴近用户的目标音乐。 EnCodec是一个高保真音频、音乐的压缩和解压器，可以用最小的体积尽可能还原原始音乐，这对于打造高质量音频模型来说至关重要。EnCodec由编码器、量化器和解码器三大块组成。 编码器，通过获取未压缩的数据，并将其转换为更高维度和更低帧速率的表示。 量化器，将编码器生成的“表示”压缩到目标大小，同时保留最重要的信息来重建原始信号。 解码器，将压缩信号转换回，与原始信号尽可能相似的波形。因为在低比特率下不可能进行完美的重建，所以，使用了鉴别器来提高音频生成样本的质量。

关键词：

Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

您可能也感兴趣:

今日热点

华厦眼科：8月2日融资买入1290.94万元，融资融券余额7506.88万元

异地就医更加便捷

国贤府再续热销传奇，7月套面金三冠王

更多

更多

排行

最近更新

今日要闻

Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

您可能也感兴趣:

今日热点

华厦眼科：8月2日融资买入1290.94万元，融资融券余额7506.88万元

异地就医更加便捷

国贤府再续热销传奇，7月套面金三冠王

为您推荐

清泉街社区为退役老兵举办“八一”建军节志愿服务活动

川金诺：公司正在积极研发电子级磷酸，暂无相关产品

定位 B 级猎装 SUV 比亚迪宋 L 预告图曝光

通讯地址是现住址吗 通讯地址和现住地址有什么区别

更多

更多

排行

最近更新

今日要闻

通讯地址是现住址吗通讯地址和现住地址有什么区别