登录

微软MAI系列AI模型训练数据曝光,“仅商业授权”说法存在出入


速读:微软MAI系列AI模型训练数据曝光,“仅商业授权”说法存在出入2026年06月06日12:35IT之家IT之家6月6日消息,科技媒体TheDecoder昨日(6月5日)发布博文,报道称微软最新发布的MAI系列AI模型部分使用未获授权的开放网络数据训练,与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。
2026年06月06日 12:35

IT之家 6 月 6 日消息,科技媒体 The Decoder 昨日(6 月 5 日)发布博文,报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练, 与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。

IT之家此前报道,在宣传 MAI 系列模型时,微软号称“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据”。

不过根据官方披露的 MAI 技术论文,这些模型并非只依赖商业授权数据,还部分包括 Common Crawl 在内的开放网络数据,这与微软此前对外强调的“企业级、干净且商业授权数据”表述存在明显落差。

从论文描述看,微软采用的是“公开可得数据”与“授权的人类生成数据”的混合方案,同时覆盖授权语料与互联网公开内容。

在网络数据获取方式上,微软称其使用自有爬虫,并遵守 Robots Exclusion Protocol(机器人排除协议, robots.txt )以及相关元标签和 HTML 控制项。

不过该媒体指出争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。

关键词 :

微软 网络数据 it之家 AI

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

陌陌母公司挚文季报图解:营收24亿净利降19% 唐岩刚获派息超8000万

风口上的AI短剧人,如履薄冰

“不好看就退票”服务,能救电影院吗?

别忘了最后一道大题写个“解”:空白即为零分 非常可惜

全球首个 华为、国家电网联合打造端到端光通信网

内存厂商10倍利润的好日子不会太长:年中见顶 全靠中国厂商发力

华为云CEO:我们没办法用万国牌 韬定律给大家带来信心

4万亿美元 美国AI三巨头集体上市“抢钱”

追觅俞浩内部发言回应外界传闻:精力必须100%放在技术研发和产品上

摩根士丹利:预计到 2040 年,SpaceX 收入将达 3.4 万亿美元

全新梅赛德斯-奔驰纯电GLC SUV开启预售

不想亏钱、只求安稳?2026年稳健理财清单,普通人直接照抄

中国汽车首次跻身韩国进口车市场前三 比亚迪单一品牌超越日本品牌整体销量

特斯拉陶琳介绍车窗内层玻璃厚度降至 1.1 毫米,小米雷军转发称 YU7 和新 SU7 也是

硬刚特斯拉!蔚来沈斐:乐道能耗、智驾性能双碾压Model Y

蔚来副总裁马麟质疑理想 L9 与蔚来 ES9 底盘实测对比:期待理想公司官方证实视频真实性

全新奔驰纯电 GLC SUV 车型开启预售:复古盾格栅、680km 续航,34.9 万元起

二手油车价格崩盘!车商崩溃哭诉:一个月狂跌3万 根本卖不动

长城魏牌全新高山 7 加高版 6 月中旬发布:底盘加高 30 毫米,魏建军为新车全网征名

抹黑比亚迪后遭起诉!博主怂了:我当地平均月薪只有2000 愿意注销账号求原谅

喜茶这一杯限定饮品你喝到了吗?

电车是否该交养路费引争议 人民日报:汽车迭代利益格局变动 产业转型有时间差 切忌拉踩引战

从巅峰13万辆跌去近80%!本田公布5月中国汽车销量 同比下降48.7%

主题:网络数据