DeepSeek-V4-Pro

DeepSeek-V4-Pro版输入（缓存命中）为1元，输入（缓存未命中）12元，输出24元。

文章

具体来看，基于DeepSeek-V4-Pro模型，在8K输入场景，升腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS，基于DeepSeek-V4-Flash模型，8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。

文章

4月24日，众智FlagOS宣布，对DeepSeek-V4两个模型进行全量适配，已经完成DeepSeek-V4-Flash在8款以上AI芯片上的全量适配与推理部署，包括海光、沐曦、华为升腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等，同时正在推进DeepSeek-V4-Pro模型在多个芯片的迁移适配，后续即将开源。

文章