登录

英伟达推出LocateAnything,主打AI高速、高精度检测对象


速读:英伟达昨日(5 月 29 日)发布博文,宣布携手香港理工大学、南京大学等。
2026年05月30日 10:3

IT之家 5 月 30 日消息,英伟达昨日(5 月 29 日)发布博文,宣布携手香港理工大学、南京大学等, 推出 LocateAnything 模型,主打高速、高精度检测对象。

该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。

NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能“看见”还不够,还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计,让视觉语言检测更适合即时交互任务。

LocateAnything 提出 Parallel Box Decoding(并行框解码),把边界框或点作为固定长度原子单元,在 1 步内预测 x1、y1、x2、y2。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:

团队还构建 LocateAnything-Data,包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位,显著扩展训练场景。

在单张 NVIDIA H100 GPU 上,LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second(每秒框数),超过 Qwen3-VL 的 1.1 BPS,也高于 Rex-Omni 的 5.0 BPS。

高精度任务中,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1,高于 Rex-Omni 的 20.7;ScreenSpot-Pro 平均 F1 达 60.3;DocLayNet 和 M6Doc 分别达 76.8 与 70.1。

英伟达 it之家 AI

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

“不好看就退票”服务,能救电影院吗?

微信封禁自家“兄弟”红包,打的什么牌?

华住,比携程还会捞金?

诺基亚首款微聊手机“诺基亚 200 4G”上市:可与微信小程序视频通话,199 元

诺基亚突然上新!首款微聊手机诺基亚200 4G发布:能连微信视频通话 到手199元

终于要降了!6月4日24时油价将调整:加一箱油预计少花11元

黄仁勋被粉丝偶遇追着抢买单 当场拒绝:我比较有钱 不用请我

蓝色起源“新格伦”火箭发射台上突发爆炸!官方致歉回应

英伟达、腾讯、阿里、华为、金茉亮相“亚洲CES”BEYOND国际科技创新博览会,共话科技创新

铁路新规 6 月 1 日起实施:违规乘车拒不补票将限制购票,学生票优惠区间可线上调整

vivo S60系列正式发布:田曦薇代言 主打4K Live原相机

山顶矿泉水1元1瓶:人工搬运无人售卖 网友直呼良心景区

京东生鲜,放了一根长长长长长长线

主题:英伟达|高精度检测对象|高于Rex-Omni