首页 > Python资讯 博客日记
Meta 发布开源 文本自动生成音乐 工具 AudioCraft
2023-08-03 15:21:38Python资讯围观135次
Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。
Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。
根据官网的介绍,MusicGen 接受过 Meta 拥有的和特别授权的音乐训练,可以从文本提示生成音乐,而 AudioGen 接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声;再加上 EnCodec 编解码器的改进版本,用户可以更高效率地生成更高质量的音乐。
总结就是,Audiocraft 由 MusicGen、AudioGen 和 EnCodec 三个模型组合而成:
MusicGen 是一个文本生成音乐的自回归语言模型,大约使用了 40 万份文本描述和元数据的录音,总计 2 万小时的授权音乐进行训练。可通过文本自动生成摇滚、流行、重金属、RPA 等类型音乐。
AudioGen 是一个文本生成音频的自回归语言模型,具备分离音频功能,例如,可识别背景声、说话声和物体发出的声音等。这有助于仅使用文本生成音频时,更准确贴近用户的目标音乐。
EnCodec 是一个高保真音频、音乐的压缩和解压器,可以用最小的体积尽可能还原原始音乐,这对于打造高质量音频模型来说至关重要。EnCodec 由编码器、量化器和解码器三大块组成。
编码器,通过获取未压缩的数据,并将其转换为更高维度和更低帧速率的表示。
量化器,将编码器生成的 “表示” 压缩到目标大小,同时保留最重要的信息来重建原始信号。
解码器,将压缩信号转换回,与原始信号尽可能相似的波形。因为在低比特率下不可能进行完美的重建,所以,使用了鉴别器来提高音频生成样本的质量。
标签:
上一篇:Python列表max()方法
下一篇:Python列表list()方法
相关文章
最新发布
- Python淘宝书籍图书销售数据爬虫可视化分析大屏全屏系统 开题报告
- Python中NumPy库提供的函数——np.random.randn的基本用法
- 从静态到动态化,Python数据可视化中的Matplotlib和Seaborn
- 爬虫实战+数据分析:全国消费支出分析及未来预测
- aardio封装库) sunny抓包工具的使用
- Python广东广州二手房源爬虫数据可视化分析大屏全屏系统 开题报告
- AttributeError: ‘DataFrame‘ object has no attribute ‘iteritems‘解决方案【Bug已解决-Python】
- Microsoft SQL Server 编写汉字转拼音函数
- 用python复制粘贴excel指定单元格(可保留格式)
- 【头歌-Python】Python第一章作业(初级)
点击排行
- PyPy JIT编译器背后的奥秘(揭开PyPy高性能Python的编译优化技术)
- Python数字ceil()方法
- PyCharm:提升Python开发效率的强大IDE工具
- Numba:无缝将Python代码编译为机器代码的利器(让你的Python程序跑的飞快!Numba高效编译的6大技巧)
- 彻底理解Global Interpreter Lock,解锁Python多线程编程(为什么Python多线程速度这么慢)
- Ruff更新到v0.0.281(Rust 编写的高性能 Python 代码分析工具)
- 8月16日魔珐科技发布了三款超写实3D虚拟人产品掀起AIGC「新工业革命」
- PyPy与CPython扩展库的兼容性问题及优化方案 (揭秘PyPy如何与C扩展无缝衔接,5个兼容性要点让你易如反掌)