索尼开源AI模型 Woosh 一句话生成音效「一键AI整合包」

AI
AI文摘 此内容由AI根据文章内容自动生成
AI Summary

索尼人工智能研究院(Sony AI)发布的音效生成基础模型

项目介绍

Woosh是专为音效生成(Sound Effects)优化的多模态生成式 AI 模型套件,旨在为音频研究社区提供高质量的开源基座模型,支持文本到音频(T2A)和视频到音频(V2A)两大核心任务。

🧩 核心模块组成

Woosh-AE:音频编码器/解码器

特性说明
功能高质量潜在空间编码与解码,为生成模型提供压缩表示
采样率48 kHz,支持高保真音频重建
压缩比约 3.75×,在保留细节的同时显著降低计算负载
优势相比 Stable Audio Open 等基线,在频谱重建和听感质量上表现更优

Woosh-CLAP:文本 – 音频对齐模型

特性说明
功能多模态对比学习,实现文本描述与音频片段的语义对齐
作用为扩散模型提供精准的文本条件引导(token latents)
架构基于 RoBERTa 文本编码器 + 音频编码器,支持零样本泛化

Woosh-Flow / Woosh-DFlow:文本→音频生成

模型类型特点
Woosh-Flow原始潜在扩散模型(LDM)支持无条件/文本条件生成,生成质量高
Woosh-DFlow蒸馏加速版推理速度提升 3-5×,6 步采样即可输出,适合实时交互

✅ 典型生成内容:
引擎轰鸣雨声雷鸣门轴吱呀人群欢呼激光音效等影视/游戏常用音效

Woosh-VFlow / Woosh-DVFlow:视频→音频生成

模型输入输出核心能力
Woosh-VFlow8 秒视频 + 可选文本同步音频基于视频帧特征 + 文本双重条件,生成时空对齐的音效
Woosh-DVFlow同上(蒸馏版)同上推理加速,保持音画同步精度

应用场景示例:

  • 为无声视频自动添加环境音、动作音效(如脚步声、风声、掌声)
  • 支持仅视频条件(OV 模式)或视频+文本联合条件

技术亮点

🔹专注音效领域
不同于通用音乐/语音生成模型,Woosh 针对短时长、高动态、强瞬态的音效数据专门优化,对冲击声、机械声、自然声等类别表现突出。

🔹蒸馏加速推理
通过知识蒸馏技术,将原始扩散模型步数从 50+ 压缩至 6 步,在几乎不损失质量的前提下实现秒级生成,适合交互式应用。

🔹模块化设计
各组件(AE/CLAP/Flow/VFlow)可独立使用或灵活组合,便于研究者进行迁移学习、模块替换或轻量化部署。

🔹多基准评估验证
在公开数据集(如 AudioSet、Freesound)及索尼内部测试集上,多项指标(CLAP Score、FAD、MOS)达到或超越 Stable Audio Open、TangoFlux、MM-Audio 等开源方案。

整合包特点

  1. 英伟达8G显卡即可愉快玩耍
  2. 生成音效速度极快
  3. 人气高就继续开发

下载(扫码)

二维码
夸克网盘(扫码下载)
二维码
全部资源合集

下载地址

© 版权声明
THE END
点赞5分享
及时反馈~ 抢沙发

请登录后发表评论

    暂无评论内容