模型
描述
这说明在真实环境里,模型是能被快速调出来、真的能干活的。
文章
但拉到一起做比较,模型是感知得到这0.4差距的——矛盾就这么来了。
文章
分类
模型
在完成同样任务的基准测试中,京东的模型在正确率略优于市面上其他开源模型的情况下,消耗的Token只有对方的四分之一或五分之一。
文章
4月2日,美国AI机器人公司GeneralistAI(以下简称“Generalist”)推出了GEN-1模型,该模型将各类简易物理操作任务平均成功率从64%提升至99%,被视为机器人学习规模化发展的最新里程碑。
文章
智谱发布GLM-5V-Turbo模型:编程告别纯文本一张图片就能生成代码2026年04月02日08:51快科技快科技4月2日消息,智谱正式发布面向视觉编程打造的GLM-5V-Turbo多模态Coding基座模型。
文章
Gemma4模型可处理文本、视觉和音频方面的各种任务。
文章
Gemma4模型提供4种参数大小:E2B、E4B、31B和26BA4B。
文章
Gemma4模型旨在在各种规模下提供前沿性能,目标部署场景涵盖移动设备和边缘设备(E2B、E4B)到消费类GPU和工作站(26BA4B、31B)。
文章
下表详细列出了使用各种大小的Gemma4模型版本运行推理所需的大致GPU或TPU内存。
文章
加载Gemma4模型所需的大致GPU或TPU内存,具体取决于参数数量和量化级别。
文章
谷歌展示了一些Gemma4的模型能力,比如测试它检测和指向GUI元素的能力:「图像中查看配方元素的边界框是什么?
文章
据悉,即日起,悟空会员用户在v0.9.20及更高版本中,可抢先使用Qwen3.6-Plus模型。
文章
阿里Qwen3.6-Plus模型发布,编码智能体能力全面跃升2026年04月02日12:41IT之家IT之家4月2日消息,阿里今日宣布推出Qwen3.6-Plus模型,现已通过阿里云百炼API开放调用,相较于前代模型实现了全方位的能力跃升。
文章
主要研究方向为强化学习、世界模型和机器人学习,重点关注融合学习、规划与控制的方法,以实现鲁棒且可扩展的真实世界机器人智能。
文章
于是,一个关键问题是:如何让世界模型能够理解多机器人系统的联合动力学?
文章
通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。
文章
与密集型310亿参数模型相比,该模型几乎与40亿参数模型一样快,因此是快速推理的绝佳选择。
文章
曝国行版苹果AppleIntelligence不止撤回推送,下载到本地的模型也会被删除2026年04月01日17:35IT之家IT之家4月1日消息,今年3月31日凌晨,AppleIntelligence在国内意外上线,但因为苹果尚未获得监管部门批准,随后将其下线。
文章
硅谷巨头套壳中国模型,马斯克下场抓包2026年04月01日09:22长安街知事MD2026年的第一季度,科技圈就贡献了一出“套壳抓包名场面”。
文章
六倍帧生成降临:游戏帧数起飞2026年04月01日11:34快科技快科技4月1日消息,NVIDIA推送了DLSS4.5的下半部分更新,包括DLSS动态多帧生成、更激进的5倍和6倍帧生成倍率,以及全新的增强帧生成模型(目前处于Beta阶段)。
文章
用心脏模型构建虚拟患者群体,复现一款已获批二尖瓣修复器械的关键临床试验。
文章
这一平台让团队能够直接根据患者的核磁、CT、血压、超声心动图数据,定制专属心脏模型,实现影像与仿真的无缝对接。
文章
随后数年,基于虚拟心脏模型的科研证据评估方法逐步成型。
文章
3月30日,据Readhub报道,在KimiK2.5模型发布仅一个月后,月之暗面的年度经常性收入(ARR)已正式突破1亿美金大关。
文章
3月30日,界面新闻记者从知情人士处独家获悉,3月初,在KimiK2.5模型发布一个月之后,月之暗面ARR(年度经常性收入)突破1亿美金。
文章
我去年也发了一些智能体模型,我觉得反响不如我的预期。
文章
试一下不好,他就会觉得你发布的智能体模型不好。
文章
今天,昆仑万维正式发布的Matrix-Game3.0模型,在数据、模型和推理三个层面完成了一次全新技术升级。
文章
首先,昆仑万维正式发布Matrix-Game3.0模型:物理仿真驱动下的实时交互式世界模型创新实践。
文章
当一个中国模型不仅快速追赶,而且在性能和成本上都实现了极强的竞争力时,这种心理落差让他们下意识地选择了视而不见。
文章
换句话说,一个模型的突破,会向下拉动整个产业链。
文章
NVIDIA还引入了一个名为"PresetB"的帧生成模型,利用部分游戏引擎提供的额外UI缓冲区来更智能地渲染界面元素,减少准星闪烁等伪影。
文章
在Generalist看来,GEN-1模型的一个核心突破在于训练数据的路径不同。
文章
”他同时补充称,公司也会继续托管其他公司开发的模型。
文章
近日,国内AI大模型领军企业阶跃星辰(Stepfun)正式发布了全新的Step3.5Flash系列模型。
文章
ICLR2026|世界模型卡在多机器人协作?
文章
工具
可以说,将来的模型工具和应用必须适配这样的框架和协议才能够有效使用。
文章
它的成功可以向我们展示哪些技术已经相对成熟(例如基座模型的工具调用和执行能力),同时也能暴露出当前还缺失哪些技术(例如系统的可靠性、记忆模型的迁移能力、以及端云协同目前的不成熟)。
文章
展望
定价
用来跑大模型推理,能产生500万Token,按照国内模型定价可以卖到10元,按照OpenAI定价可以上百元。
文章
大小
这些模型的大小各异,因此可部署在从高端手机到笔记本电脑和服务器的各种环境中,从而让更多人能够使用最先进的AI。
文章
处理
AI令牌是生成式人工智能模型处理的数据单位。
文章
传统混合情景:模型处理基于现有半导体的典型组合,该组合参照了高德纳咨询公司的预测数据进行评估。
文章
合并
在尝试平衡模型合并与提升后训练数据质量和多样性的过程中,团队并未把所有事情都做对,结果往往是在两个方向上都表现平庸:“思考”行为变得嘈杂、冗余或不够果断,而“指令”行为则变得不够清晰、不够可靠,且比商业用户实际想要的成本更高。
文章
厂商
另一方面,独立大模型厂商在生产或提供Token时,同样需要依赖云厂商提供的大量算力支持。
文章
因此,腾讯云的Agent既可以基于自研混元模型,也可以调用其他主流大模型厂商的能力,这些都会成为其收入来源。
文章
这反而让一个头部模型厂商应有的轮廓线条变得清晰而简单:研发最好的基座模型、提供周全的API算力服务方案、建立完善的开发者生态并形成飞轮效应——这也是如今Anthropic已然踏出的一条可供验证的路径。
文章
综合这三个维度,大模型厂商对参数规模或Benchmark分数的竞赛已阶段性式微,更加比拼对真实AI任务的完成效率与质量——这直接牵引了智谱等在内的模型厂商对技术路线的调整。
文章
这种变化开始重塑行业的竞争逻辑,本质上有利于模型厂商寻求更好的生存状态,通过能力差异和使用深度放大自身价值,并借规模效应摊薄成本,不必长期囿于低价竞争的劣势环境中。
文章
包含
26BA4B中的「A」表示「有效参数」,与模型包含的参数总数相对。
文章
刚刚
Google最强小模型刚刚发布,手机也能跑2026年04月03日09:00爱范儿「开放」和「开源」,并非一字之差。
文章
内部计算
抑或,探索–利用的本质,其实蕴含在模型的内部计算过程之中?
文章
港理工&上海AILab的研究人员进一步将问题“向内推进”,把目光从输出层转向模型的内部计算。
文章
内部
但这一思路忽略了一个更根本的事实:Token只是模型内部隐层状态在解码过程中的压缩表达,不可避免地丢失了部分计算信息,而非推理本身。
文章
ReLaX将这套隐层演化看作一个“随机动力学系统”:模型内部状态会随着推理逐步变化,而采样温度、top-p、top-k等随机扰动则像水流中掀起的涟漪,推动隐层状态偏离原轨迹。
文章
仅仅在输出层制造、放大token生成的随机性,往往无法真正解锁模型内部探索潜力,关键是:只有当模型的内部动力学模式足够丰富,这些微小扰动才能被放大成多样的latent轨迹,从而产生有效探索。
文章
他们发现,大模型的推理过程并不是简单的序列生成,而可以从动力学的视角来理解:其本质是隐层状态在高维空间中的连续演化,这一过程承载了模型内部的计算逻辑。
文章
然而,核心难题在于:如何捕捉大模型内部高维、复杂的非线性动力学?
文章
简而言之,DSD是对大模型内部“思维多样性”的量化:它不仅反映了内部计算的复杂性,也为探索-利用的策略优化提供了明确方向。
文章
内存
微调开销:微调Gemma模型的内存要求远高于标准推理。
文章
公司
2025年,智谱全年收入超7.24亿元,同比增长132%,是国内收入规模最大的大模型公司;
文章
从这一意义上看,智谱的竞争并不局限于国内同行,而是进入全球基座模型公司的同一赛道。
文章
在传统视角下,大模型公司的估值往往依赖于PS(市销率)或市研率等指标。
文章
由此,价格战、算力成本与竞争态势的多重挤压,使得模型公司如何赚钱从一个远期问题变得更加迫切需要一个答案。
文章
在很长一段时间内,行业对中国大模型公司商业层面上的质疑,仍多数停留在一个相对静态的判断上:收入模式难以规模化,也难以建立稳定的利润结构。
文章
智谱已照此构建出一个清晰的自身定位:一家以模型能力为核心壁垒、以API为产品形态、以开发者生态为增长引擎的基座模型公司——这正是过去两年由Anthropic在全球范围内验证过的路径。
文章
智谱成为国内收入规模最大的大模型公司,跑通了MaaS盈利模式
文章
智谱成为国内收入规模最大的大模型公司,跑通了MaaS盈利模式智谱成为国内收入规模最大的大模型公司,跑通了MaaS盈利模式_东方财富网
文章
价格
当年5月,字节跳动以0.0008元/千tokens的价格掀起大模型价格战,随后阿里云跟进,宣布通义千问最高降价97%,彼时通义千问GPT-4级主力模型Qwen-Long输入价格从0.02元/千tokens降至0.0005元/千tokens。
文章
混元系列模型价格也有调整,TencentHY2.0Instruct模型输入价格从0.0008元/千tokens上涨为0.004505元/千tokens,输出价格从0.002元/千tokens上涨为0.01113元/千tokens。
文章
专为
针对设备端进行了优化-较小的模型专为在笔记本电脑和移动设备上高效本地执行而设计。
文章
上限
“这一定是个大趋势,但要和真机采集形成很好的配比,这个数据策略会决定模型的上限。
文章
“过度谄媚”
他们提醒,AI模型“过度谄媚”是一个“安全问题”,需要对其进行监管,应以更严格的标准来防止道德层面不安全的模型泛滥。
文章
“开悟”
2025年是商汤夯实基础、全面驱动商业化的一年,那么展望未来,商汤手中还握有两张极具潜力的王牌——国产世界模型“开悟”(Kairos-SenseNova)与NEO融合多模态模型架构。
文章
Veo3.1Lite
谷歌DeepMind于2026年3月31日正式发布了其迄今为止最具性价比的视频生成模型Veo3.1Lite。
文章
Qwen3.6-Plus
4月2日,阿里官方正式发布了新一代大语言模型Qwen3.6-Plus。
文章
新浪科技讯,阿里发布千问新一代大语言模型Qwen3.6-Plus。
文章
阿里发布编程模型Qwen3.6-Plus,持续发力AI前景几何?
文章
Qwen3.5-Omni
通义实验室昨晚正式发布全新多模态大模型Qwen3.5-Omni。
文章
阿里发布新一代全模态大模型Qwen3.5阿里发布新一代全模态大模型Qwen3.5-Omni
文章
MiMo-V2-Flash
据了解,去年4月,小米开源首个为推理而生的大模型——XiaomiMiMo,同年12月,小米发布并开源自研大模型MiMo-V2-Flash。
文章
GLM-5-Turbo
此外,智谱独创的Slime框架实现异步强化学习效率革命,配合自研算法让模型从超1万个真实软件工程环境高效学习,支撑起全球首款OpenClaw基座模型GLM-5-Turbo的诞生。
文章
GLM-5
智谱旗舰基座模型GLM-5发布后24小时内,即获得字节跳动TRAE、阿里巴巴Qoder、腾讯CodeBuddy、美团CatPaw、快手万擎、百度智能云及WPSOffice等头部平台产品的官方接入。
文章
EchoZ-1.0
UniPatAI构建了一套完整的预测智能基础设施,Echo,包含动态评测引擎、面向未来事件的训练范式和预测专用模型EchoZ-1.0。
文章
API调用量整体增加
1)模型原厂:DeepSeek新一代模型有望与其他国产模型携手,驱动中国AI加速走向世界,同时模型训推进一步降本,更廉价的tokens驱动全球大模型API调用量整体增加。
文章
1、模型原厂:DeepSeek新一代模型有望与其他国产模型携手,驱动中国AI加速走向世界,同时模型训推进一步降本,更廉价的tokens驱动全球大模型API调用量整体增加。
文章