登录

国家队出手,破解AI育种“看不见的难题”


速读:“兵马未到粮草先行”,数据是AI育种的“粮草”,也是首要须解决的问题。 然而,随着智能时代的来临,一个看不见的难题正制约着南繁的未来:强大的人工智能(AI)给育种科学家带来了巨大的想象空间,但农业数据分散、质量参差不齐、标准不一,无法形成高质量的数据集,AI育种难以落地。 吹响AI育种数据集结号。 吹响AI育种数据的集结号,崖州湾国家实验室的底气来自于“繁-未来农业智能枢纽”。 而实现这一目标的当务之急,就是要构建一个全国性的农业数据网络枢纽。
作者:赵广立 来源:中国科学报 发布时间:2025/11/25 17:07:22

国家队出手,破解AI育种“看不见的难题”

每年9月到次年5月,数以千计的育种专家都会如候鸟般飞往北纬18度的海南三亚。他们来这里的使命,是希望让各地都能用上在南繁基地加速培育的良种。据统计,中国超过80%的新品种,都经过在南繁的选育。

然而,随着智能时代的来临,一个看不见的难题正制约着南繁的未来:强大的人工智能(AI)给育种科学家带来了巨大的想象空间,但农业数据分散、质量参差不齐、标准不一,无法形成高质量的数据集,AI育种难以落地。

“我们迫切需要一个统一的平台,将所有数据汇集在一起,并自动生成高质量的数据用于智能分析。”对于数据问题给AI育种带来的制约,在近日于三亚召开的2025年植物表型组学国际研讨会上,崖州湾国家实验室高级科学家袁晓辉一语道破。

这正是崖州湾国家实验室联手华为发布“繁-未来农业智能枢纽”的初衷。为了推动AI赋能育种加快落地,他们围绕“建立高质量种业数据集”做起了文章。

“繁-未来农业智能枢纽”发布仪式。 本文图片均由2025年植物表型组学国际研讨会提供

吹响AI育种数据集结号

种子是农业的芯片。当前我国虽然育种品种数量世界第一,但同质化严重,不少品种仅是针对主流品种的微小改良,缺乏革命性突破。更严峻的是,中国的主流育种方式仍停留于“经验育种”,这种方式往往周期长达8~10年,成功率和有效普及率却不足1%。

作为中国农业领域唯一的国家级实验室,崖州湾国家实验室的使命是创制重大战略性品种,弥补缺口。袁晓辉表示,实验室未来将充分运用人工智能、大数据等技术手段,搭建精准设计与智能育种平台,提高育种效率和成功率。而实现这一目标的当务之急,就是要构建一个全国性的农业数据网络枢纽。

“兵马未到粮草先行”,数据是AI育种的“粮草”,也是首要须解决的问题。

“(AI育种)最大的挑战就是数据,”崖州湾国家实验室副主任陈凡说,农业数据有不同的形式——农业地理类型不同、环境各异,每个区域都有不同的结构,数据结构、质量以及数据可访问性上都存在差异。基于这些客观因素,“我们希望通过一个智能枢纽来实现海量数据的统一化,实现农业数据‘可用’的目标。”

换言之,在崖州湾国家实验室和华为共同推进的“AI+育种”行动计划中,AI-Ready是核心目标。只有实现了这个目标后,才能继续将AI-Ready的数据用于精准设计和智能选育中。

不仅崖州湾国家实验室,国内诸多团队都对这一问题洞若观火。目前,吉林农业大学、武汉理工大学、中国农业科学院、中国农业大学、之江实验室、华中农业大学等都已经加入到构建农业数据网络枢纽的队伍之中。

“几天前,我们成功地从崖州湾国家实验室和吉林农业大学的数据中心收集了数据。这是我国第一次实现跨区域农业数据的统一视图。”袁晓辉说:“随着越来越多院校的加入,我们期待逐步构建农业数据的‘星链网络’。”

袁晓辉。

育种数据AI-Ready的幕后

吹响AI育种数据的集结号,崖州湾国家实验室的底气来自于“繁-未来农业智能枢纽”。

时间拨回到2025年植物表型组学国际研讨会召开的400多天前。以陈凡、袁晓辉等为代表的10多位科学家,就联手华为数据存储产品线副总裁袁远带领的100多名工程师,围绕“繁-未来农业智能枢纽”开启了联合攻关。

这400多个日夜,这支跨领域团队重点做了什么?

“首先是数据工程。”袁远告诉《中国科学报》:“即便你收集了所有数据,但如何把数据转化成语料库,这并不容易。需要清理数据、标记数据,还将数据转换为不同的格式。”

在这一环节,他们提出了数据工程的“FAIR原则”:数据可视(Findable)、可访问(Accessible)、可互操作(Interoperable)、可重复使用(Repeatable)。遵循这一原则,所有采集的数据都可变成符合文件规范的数据。

接下来是模型工程。袁远对记者说,精准设计和智能育种这类应用,无法直接使用DeepSeek、Gemini等成熟的基础大模型,需要开发行业专用模型。如何实现?这就要用专业行业数据来优化、“调教”模型,同时要兼顾数据权重平衡模型的计算。

这还没完。袁远说,对于不同行业的人来说,还面临着将行业模型转化为实际应用这一道关。“这需要相应的工具来帮助实现模型应用,比如需要做一些数据精炼等。”

在应对上述挑战的过程中,华为提供了一个三层架构的“AI数据湖”解决方案。

袁远介绍说,三层架构中,底层是数据存储层,提供一个低成本、高性能、高扩展性的数据存储动态基座,每TB数据的功耗只有0.25瓦;中间层是基于华为DME(Omni-Dataverse)技术的AI数据管理平台,可实现跨地域、跨设备的数据调度、流动与管理;上层则提供一站式的AI工具链,这些工具将帮助人们把数据转化为语料库,实现模型的开发,将模型转化成智能应用。

主题:数据|农业|崖州湾国家实验室|农业数据|AI育种