索尼人工智能研究院(Sony AI)发布的音效生成基础模型
项目介绍
Woosh是专为音效生成(Sound Effects)优化的多模态生成式 AI 模型套件,旨在为音频研究社区提供高质量的开源基座模型,支持文本到音频(T2A)和视频到音频(V2A)两大核心任务。
🧩 核心模块组成
Woosh-AE:音频编码器/解码器
| 特性 | 说明 |
|---|---|
| 功能 | 高质量潜在空间编码与解码,为生成模型提供压缩表示 |
| 采样率 | 48 kHz,支持高保真音频重建 |
| 压缩比 | 约 3.75×,在保留细节的同时显著降低计算负载 |
| 优势 | 相比 Stable Audio Open 等基线,在频谱重建和听感质量上表现更优 |
Woosh-CLAP:文本 – 音频对齐模型
| 特性 | 说明 |
|---|---|
| 功能 | 多模态对比学习,实现文本描述与音频片段的语义对齐 |
| 作用 | 为扩散模型提供精准的文本条件引导(token latents) |
| 架构 | 基于 RoBERTa 文本编码器 + 音频编码器,支持零样本泛化 |
Woosh-Flow / Woosh-DFlow:文本→音频生成
| 模型 | 类型 | 特点 |
|---|---|---|
| Woosh-Flow | 原始潜在扩散模型(LDM) | 支持无条件/文本条件生成,生成质量高 |
| Woosh-DFlow | 蒸馏加速版 | 推理速度提升 3-5×,6 步采样即可输出,适合实时交互 |
✅ 典型生成内容:引擎轰鸣雨声雷鸣门轴吱呀人群欢呼激光音效等影视/游戏常用音效
Woosh-VFlow / Woosh-DVFlow:视频→音频生成
| 模型 | 输入 | 输出 | 核心能力 |
|---|---|---|---|
| Woosh-VFlow | 8 秒视频 + 可选文本 | 同步音频 | 基于视频帧特征 + 文本双重条件,生成时空对齐的音效 |
| Woosh-DVFlow | 同上(蒸馏版) | 同上 | 推理加速,保持音画同步精度 |
应用场景示例:
- 为无声视频自动添加环境音、动作音效(如脚步声、风声、掌声)
- 支持仅视频条件(OV 模式)或视频+文本联合条件
技术亮点
🔹专注音效领域
不同于通用音乐/语音生成模型,Woosh 针对短时长、高动态、强瞬态的音效数据专门优化,对冲击声、机械声、自然声等类别表现突出。
🔹蒸馏加速推理
通过知识蒸馏技术,将原始扩散模型步数从 50+ 压缩至 6 步,在几乎不损失质量的前提下实现秒级生成,适合交互式应用。
🔹模块化设计
各组件(AE/CLAP/Flow/VFlow)可独立使用或灵活组合,便于研究者进行迁移学习、模块替换或轻量化部署。
🔹多基准评估验证
在公开数据集(如 AudioSet、Freesound)及索尼内部测试集上,多项指标(CLAP Score、FAD、MOS)达到或超越 Stable Audio Open、TangoFlux、MM-Audio 等开源方案。
整合包特点
- 英伟达8G显卡即可愉快玩耍
- 生成音效速度极快
- 人气高就继续开发
下载(扫码)
下载地址
本站资源大多来自网络,如有侵犯权益请联系管理员,我们会第一时间审核删除。站内资源仅供学习测试,未经许可禁止商用,请在24小时内删除。
遇到付费内容?升级终身VIP即可全站免费畅享所有资源,可以联系我的微信进行开通。
大海聊天 QQ 3群:478065589









子比主题美化
精品源码资源 

暂无评论内容