DeepSeek 在昨晚发布了最新的 DeepSeek-R1 模型,性能比肩行业标杆 OpenAI o1,并且采用宽松的 MIT 授权,可以商业使用,允许模型蒸馏。

省流版
1️⃣ 采用 MIT 授权,允许模型蒸馏。
2️⃣ 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版(如图1)
3️⃣ 蒸馏小模型超越 OpenAI o1-mini
DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
什么是模型蒸馏?
模型蒸馏(Model Distillation)是一种深度学习中的技术,旨在通过将大型复杂模型(通常称为教师模型)的知识转移到较小的简单模型(称为学生模型)中,从而实现模型的压缩和性能提升。
- 教师模型:这是一个经过充分训练的大型模型,通常在某个任务上表现优异,但计算资源消耗较大。
- 学生模型:这是一个较小的模型,设计上更轻量化,适合在资源有限的环境中运行。
DeepSeek-R1 在哪?
DeepSeek-R1 在 GitHub 发布,并且模型文件已经可以从 HuggingFace 下载。
App 与网页
目前在 DeepSeek 官网和 App,打开“深度思考”模式,就可以调用最新版 DeepSeek-R1 完成各类推理任务了。这种采用 MIT 授权,免费让所有人使用的模型,才属于全人类的瑰宝。
本站资源大多来自网络,如有侵犯权益请联系管理员,我们会第一时间审核删除。站内资源仅供学习测试,未经许可禁止商用,请在24小时内删除。
遇到付费内容?升级终身VIP即可全站免费畅享所有资源,可以联系我的微信进行开通。
大海聊天 QQ 3群:478065589








子比主题美化
精品源码资源 

暂无评论内容