微软MAI系列AI模型训练数据曝光,“仅商业授权”说法存在出入
IT之家 6 月 6 日消息,科技媒体 The Decoder 昨日(6 月 5 日)发布博文,报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练, 与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。
IT之家此前报道,在宣传 MAI 系列模型时,微软号称“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据”。
不过根据官方披露的 MAI 技术论文,这些模型并非只依赖商业授权数据,还部分包括 Common Crawl 在内的开放网络数据,这与微软此前对外强调的“企业级、干净且商业授权数据”表述存在明显落差。
从论文描述看,微软采用的是“公开可得数据”与“授权的人类生成数据”的混合方案,同时覆盖授权语料与互联网公开内容。
在网络数据获取方式上,微软称其使用自有爬虫,并遵守 Robots Exclusion Protocol(机器人排除协议, robots.txt )以及相关元标签和 HTML 控制项。
不过该媒体指出争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。
关键词 :
微软 网络数据 it之家 AI



新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

陌陌母公司挚文季报图解:营收24亿净利降19% 唐岩刚获派息超8000万
风口上的AI短剧人,如履薄冰
“不好看就退票”服务,能救电影院吗?
别忘了最后一道大题写个“解”:空白即为零分 非常可惜
全球首个 华为、国家电网联合打造端到端光通信网
内存厂商10倍利润的好日子不会太长:年中见顶 全靠中国厂商发力
华为云CEO:我们没办法用万国牌 韬定律给大家带来信心
4万亿美元 美国AI三巨头集体上市“抢钱”
追觅俞浩内部发言回应外界传闻:精力必须100%放在技术研发和产品上
摩根士丹利:预计到 2040 年,SpaceX 收入将达 3.4 万亿美元
全新梅赛德斯-奔驰纯电GLC SUV开启预售
不想亏钱、只求安稳?2026年稳健理财清单,普通人直接照抄
中国汽车首次跻身韩国进口车市场前三 比亚迪单一品牌超越日本品牌整体销量
特斯拉陶琳介绍车窗内层玻璃厚度降至 1.1 毫米,小米雷军转发称 YU7 和新 SU7 也是
硬刚特斯拉!蔚来沈斐:乐道能耗、智驾性能双碾压Model Y
蔚来副总裁马麟质疑理想 L9 与蔚来 ES9 底盘实测对比:期待理想公司官方证实视频真实性
全新奔驰纯电 GLC SUV 车型开启预售:复古盾格栅、680km 续航,34.9 万元起
二手油车价格崩盘!车商崩溃哭诉:一个月狂跌3万 根本卖不动
长城魏牌全新高山 7 加高版 6 月中旬发布:底盘加高 30 毫米,魏建军为新车全网征名
抹黑比亚迪后遭起诉!博主怂了:我当地平均月薪只有2000 愿意注销账号求原谅
喜茶这一杯限定饮品你喝到了吗?
电车是否该交养路费引争议 人民日报:汽车迭代利益格局变动 产业转型有时间差 切忌拉踩引战
从巅峰13万辆跌去近80%!本田公布5月中国汽车销量 同比下降48.7%
主题:网络数据