国产大模型DeepSeek-V 3开源:6710亿参数自研MoE,性能和GPT
国产大模型DeepSeek-V3开源:6710亿参数自研 MoE,性能和 GPT-4o 不分伯仲
2024年12月27日 09:2
“深度求索”官方公众号昨日(12 月 26 日)发布博文,宣布上线并同步开源 DeepSeek-V3 模型,用户可以登录官网 chat.deepseek.com,与最新版 V3 模型对话。
援引博文介绍,DeepSeek-V3 是一个 6710 亿参数的专家混合(MoE,使用多个专家网络将问题空间划分为同质区域)模型,激活参数 370 亿,在 14.8 万亿 token 上进行了预训练。
多项评测成绩超越 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,性能比肩 GPT-4o 和 Claude-3.5-Sonnet 等世界顶尖闭源模型。
该模型在知识、长文本、代码、数学和中文等方面均取得显著进步,尤其在算法代码和数学方面表现突出,生成速度提升至 60 TPS,相比 V2.5 提升了 3 倍。
官方开源了原生 FP8 权重,并提供 BF16 转换脚本,方便社区适配和应用。SGLang、LMDeploy、TensorRT-LLM 和 MindIE 已支持 V3 模型推理。
DeepSeek-V3 更新上线的同时,DeepSeek 还调整了 API 服务价格,模型 API 服务定价也将调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
官方还决定为全新模型设置长达 45 天的优惠价格体验期:即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务价格仍然会是大家熟悉的每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元,已经注册的老用户和在此期间内注册的新用户均可享受以上优惠价格。
新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
“垃圾外卖”背后推手:批量复制门店,加盟狂揽2000万
手机应用偷听用户投放广告,有哪些法律问题?
裁员风波背后,海康威视的触顶挑战
山姆新品价格跳水109元降到19.9元 网友:难吃一股馊饭味
《鱿鱼游戏》第二季开播
理想汽车人事变动!李想直接管销售服务业务,马东辉接替沈亚楠任总裁
2024年度央企十大国之重器投票:歼35A、华为打造700亿参数大模型入围
Lululemon Q3营收同比增长28% Q4指引不及预期
好市多 Q1营收不及预期 净销售额同比增8%
女子吃1米糖葫芦长出巨大胃结石:食用山楂过量
SEC建议:美国公司应向投资者披露对加密资产市场的风险敞口
2024十大艰难行业出炉:游戏行业位列第八 全年裁员人数近2万
三星电子第三季度晶圆代工全球市占率15.5%
2024年最惨创业赛道,近20万家门店“无一生还”
大众追尾自燃起火负全责!小米SU7车主回应:人都安全 车子挺硬摄像头都没坏
女网红自驾游拿无人区救命粮喂狗遭吐槽!快手、抖音出手封禁账号
零跑花费200万为5000名工程师拍了张大合照:每人脸上痘痘都看得清
我国氢氧旋转爆震火箭发动机长时热试验成功
第一批买「护眼灯」的中产,已经近视了
电池衰减故障致保时捷Taycan趴窝!车主:4S店拒绝三包 让我自费43万维修
一年亏损近15万元!上汽飞凡R7车主卖车:原价37万元 现只卖7.5万
曝小米15首周销量是REDMI K80两倍 大量苹果用户换机
稳居50万以上车型销量榜首!问界M9上市一年大定破20万台