登录

机器人“疯狂”抓取开放数据,研究人员如何应对?


速读:机器人“疯狂”抓取开放数据,研究人员如何应对? 因此,他们主张制定新规并建立技术系统以限制机器人对数据库的访问。 开放获取知识库联盟(COAR)去年6月发布的一项调查发现。 还有不少担忧AI工具不会注明引用的数据,而且机器人似乎正在绕过隐私保护,抓取敏感的个人数据。
作者:许悦 来源:中国科学报 发布时间:2026/6/10 15:29:3

机器人“疯狂”抓取开放数据,研究人员如何应对?

研究人员还要继续将研究数据在网上公开发布吗?据《自然》报道,如今,虚拟机器人正例行挖掘开放获取数据库和科学出版物,以训练人工智能(AI)工具,有些则通过分析和组合数据集,以比人类更快的速度产出新的论文和研究结果。这使得上述问题成为一些研究人员争论的焦点。

一些研究人员认为,自动化的研究对科学发展有益,如加速新药物靶点的发现。这意味着研究数据应该开放。另一些人则指出,有证据表明机器人抓取复杂数据集可能产生低质量研究和AI垃圾内容,同时导致患者信息等敏感数据被提取。因此,他们主张制定新规并建立技术系统以限制机器人对数据库的访问。

“无论你是支持还是反对AI,上述问题值得每个人思考。”加拿大卡尔顿大学的Andrea Howard说。

可以明确的是,AI抓取行为非常普遍。开放获取知识库联盟(COAR)去年6月发布的一项调查发现,超90%的成员机构遭遇过机器人抓取,其中大多数至少每周都会遇到一次异常的机器人高频活动。通常,这种抓取是为了给AI模型提供训练数据。同时,这些数据还被用于完全由AI模型产出的新研究成果。

“一个巨大的变化是自动化流程能以极快的速度和规模穷尽一个数据集所能回答的研究问题。”澳大利亚麦考瑞大学的Miri Forbes说,“这压缩了研究人员剩余的工作空间。”

上个月,Forbes在社交媒体平台Bluesky上发起了一场关于开放数据共享的讨论。回应意见不一。“自由分享信息意味着放弃控制,并接受它可能被用于任何目的,包括我不喜欢的。”还有网友指出,“作为一个科学共同体,我们需要解决这个问题,不能让人们害怕被AI抢先”。还有不少担忧AI工具不会注明引用的数据,而且机器人似乎正在绕过隐私保护,抓取敏感的个人数据。

比利时鲁汶大学的Olivia Kirtley说,一项研究发现,公开可用的大语言模型能够识别出约1/4曾参与对AI工具看法的访谈项目的人,而受访者的信息原本已被匿名化处理。

然而,非营利组织ASAPbio的执行董事Katie Corker表示,仅仅将数据集封锁在反机器人墙之后,并不能实现科学利益的最大化。ASAPbio致力于推动生物学领域开放科学和预印本交流。

“如果我们纯粹以理想中的科学家的视角来思考,目标应该是公开分享研究数据,并用它们做出改善人类生活的研究成果。”Corker说,而且如果纳税人为收集这些数据的研究买单了,那么研究人员是否应该反对这些数据被公开使用,就值得商榷了。

目前,一些研究数据库的运营者已经在制定规则,以控制机器人对数据集的访问和抓取。例如,全球学术文献数据库OpenAlex和生物医学和生命科学文献数据库Europe PMC仅允许用户通过其应用程序编程接口访问数据。这意味着用户需向数据库所有者申请才能访问,并且仅通过授权接口传输数据。其他数据库,如英国生物样本库,则通过禁止将参与者级别的数据整合到公开可用的生成式AI模型中,来保障患者身份安全。

“知识库需要采取更多措施保护数据,增强反抓取措施。”今年初担任心理学预印本服务器PsyArXiv审核主席的Kirtley说。

相关论文信息:https://doi.org/10.48550/arXiv.2601.05918

主题:抓取|开放|研究人员