一根甘蔗“甜”了世界:糖度涨一点产业增亿级
全世界80%的糖来源于甘蔗。甘蔗是如何仅凭一根光溜溜直挺挺的茎秆击败众多植物诱人的果实或块茎,而成为人类的天然“糖罐子”的?
5月27日,《自然》杂志在线发表的论文显示,做到这一点,甘蔗不仅经历了上百万年的进化“修炼”,更重要的是在近代栽培过程中完成了一次改变历史的杂交,从而迅速在全球扩展,占领了“撒糖王者”的地位。
中国热带农业科学院热带生物技术研究所副研究员王俊刚团队与中国农业科学院深圳农业基因组研究所研究员张兴坦团队领衔,联合国内十余家单位共同完成了这项研究。他们自主开发出成套分析工具,首次成功构建了栽培甘蔗“蔗王”POJ2878的全染色体完整基因组,并揭示了甘蔗从野生植物驯化为全球最主要产糖作物的遗传密码。
中国科学院分子植物科学卓越创新中心研究员、中国科学院院士何祖华说,其意义不仅在于破解甘蔗“高糖密码”,更在于为多倍体作物精准设计育种提供了可推广的新范式,体现了我国热带作物基因组学研究的原创能力与国际引领水平。
论文审稿人指出,这是对该领域一项实质性且令人振奋的贡献,经过适当完善后,有望成为甘蔗生物学和比较基因组学领域的基础性资源。
两个世界的碰撞:种甘蔗的和算碱基的
论文第一作者王俊刚与甘蔗结缘,差不多是20年前的事了。
那时候甘蔗连完整的参考基因组都没有,想在几百万条碎片里把一个全长基因拼出来,王俊刚曾经花了硕士三年的全部精力。“克隆一个基因,本质上就是‘手搓’,拼得慢、拼得苦,还经常拼错。”王俊刚说。
甘蔗很甜,但甘蔗基因组解析不是一般的苦。它的基因组约10 Gb,是人类基因组大小的3倍多;基因组含有10至12套染色体、超过100亿个碱基对;更要命的是,它是同源—异源混合的非整倍多倍体,染色体基数大、拷贝数多、大片段序列高度重复。在早期技术背景下,测出来的读段(reads)根本不知道该放回哪条染色体上——就像几十本几乎相同的“天书”被撕碎了混在一起,要重新拼图复原每一页、每一本。
2005年前后,他开始独立的科研生涯,做甘蔗种质资源和功能基因挖掘。
“那时我就对甘蔗的糖分积累机制感兴趣。”王俊刚做的,就是靠种质资源收集、性状调查、转录组分析和艰苦的功能验证,一点点锚定跟糖分积累有关的候选通路。但当时的他,并不知道自己找到的SUT2基因后来在“蔗王”基因组里再度出现,并成为关键的储糖基因。
论文通讯作者张兴坦是从另一端走近甘蔗的。他一直关注复杂基因组算法工具开发——比如解决多倍体高杂合高重复基因组的单倍型分型组装问题。他做过榕树、茶树、菊花这类基因组“麻烦户”,开发了一系列算法工具。
然而甘蔗是另一个量级的“基因组怪兽”,张兴坦说为了填甘蔗这个坑,他们必须重新开发一套更有效的算法。
2022年,位于海南的热带作物生物育种全国重点实验室筹建,二人由此认识。张兴坦团队有算法和算力框架,王俊刚团队有十多年积累的种质材料、表型数据和生物学问题。
“那段时间我们俩负责撰写实验室相关作物的科研规划,一有时间就在一起讨论甘蔗研究的问题。”王俊刚说。他们的目标很明确:不是为了发文章而测序列,是要给产业一个能用、敢用的遗传操作系统——让育种家以后找基因像查字典一样轻松。
蔗王:一部活着的甘蔗血统史
POJ2878,在这个看似档案编号的名字里,POJ指的是荷属东印度(今印度尼西亚)爪哇东部试验站,它诞生于20世纪初荷兰殖民时期的爪哇糖业研究体系;2878则是1912~1921年间配制的甘蔗组合里的编号。王俊刚把POJ2878叫做“初代蔗王”。
20世纪初,全球甘蔗产业被花叶病和倒伏反复碾压,旧品种大面积崩溃。在热带地区,甘蔗也会结出果实和种子。育种家开始思考,能不能用杂交手段把野生甘蔗的抗逆性导入栽培甘蔗?于是就有了高贵化育种——使用抗逆性、宿根性强的割手密作为抗性供体,使用高糖、粗茎的高贵种作为汇交亲本,二者杂交以后再多代回交得到稳定的品种。
这一大胆的杂交手段育成了POJ2878。随后,它以极强的抗逆性、高糖和宿根性横扫产区,在爪哇一度占到种植面积的95%。1930~1950年代迅速扩散到非洲、美洲、大洋洲以及亚洲各国,逐渐成为多个国家和地区甘蔗杂交选育的第一代核心亲本。在我国系谱清楚的甘蔗品种里,绝大多数都能一路回溯到初代蔗王。
“蔗王现在已经不是大田里的主栽品种了,而是作为种质资源保存在种质圃里。”王俊刚说,蔗王是第一个对甘蔗产业产生巨大影响的优势品种,把它作为研究对象,就是想搞清楚甘蔗的糖到底存在哪儿。
答案是茎秆里的薄壁细胞——就是你啃甘蔗时那些柔软、透亮、汁水充盈的细胞,它们像一排排小玻璃罐沿维管束堆叠排列,细胞越大,能够储存的蔗糖就越多,含糖量也就越高。木质部导管和韧皮部筛管负责运输糖,而薄壁细胞负责储存糖。你啃完甘蔗吐出来的渣,主要是维管纤维骨架;你吸到的甜汁,就是薄壁细胞释放的储存液。
他们对300份甘蔗材料做了茎秆横切面制片,在显微镜下数薄壁细胞的数量、量细胞的直径,观察它们围绕维管束的排布模式,再把这套细胞形态学数据与基因型关联起来。
有了细胞学的基础,他们接下来就要在甘蔗的几十万个基因里寻找那个关键基因:先开发合适的工具,再画出精细的基因“地图”。
从算法突破到基因定位
“我的三个研究生,一人完成一套核心算法。”张兴坦说,这项工作的技术核心,是把多倍体的三座大山——组装难(基因属于哪个染色体)、表达计算难(每个拷贝表达多少)、关联分析难(哪个变异表达哪个性状)——逐一工程化解决。团队对应开发了三套核心算法流程,即基因组分型挂载、等位基因特异性定量、基于k-mer单倍型感知的关联策略。
在甘蔗这个多倍体里,高度相似的同源拷贝让主流比对软件“晕菜”——读段会错误落到别的拷贝上,造成表达量系统性偏估。论文共同第一作者、如今就读中国农业大学博士生的陈晓承担的是等位基因表达定量算法难题。
一天深夜,她再次坐在电脑前,一狠心,把几十万条基因的比对深度做了可视化,一屏一屏翻,最后抓住了一条规律:错误比对的深度曲线呈现先升后平再降的特征,而正确唯一比对的深度分布是平的、均一的。等位基因表达定量算法因此打通。
论文审稿人说,针对如此复杂基因组所开发的新型组装策略既令人振奋,又具有重要意义,确实为应对复杂多倍体基因组的挑战提供了极具前景的方法。
完成了蔗王118条染色体的基因组图谱后,他们对来自全球19个主要产区的981份甘蔗材料进行了系统重测序,其中包括78份热带种、290份野生割手密种和613份杂交栽培品种。结果发现,超过95%的现代甘蔗品种与POJ2878共享大规模基因组片段。这证明蔗王是现代甘蔗栽培种的奠基者。
论文审稿人指出:“这是目前最大、最难攻克的具有重要农业价值的植物基因组。新基因组组装的质量之高以及论文表述之清晰,都令我印象深刻。”
再来关注薄壁细胞里的高表达基因,他们找到了SUT2这个控制薄壁细胞大小的关键基因,首次在分子层面证实,糖分运输效率越高,储糖细胞就越大,甘蔗也就更甜。而这个基因恰恰是王俊刚的老朋友。
他早年在功能基因挖掘里就关注过这条蔗糖转运通路,用转基因过表达等手段做过验证。所以当新基因组分型+群体关联分析再一次把信号聚集到同一个基因上时,他感觉“众里寻他千百度。蓦然回首,那人却在,灯火阑珊处”——这条长路没白走。
2024年春节除夕夜,论文在返修关键窗口。张兴坦、王俊刚、李晓峰、陈帅等人不在饭桌旁与家人团聚,而在各自办公室开着远程协作改稿。直到夜里十一点半左右才中断一会儿,到张兴坦家匆匆扒了顿年夜饭,然后又各回各的办公室继续改稿。
“那时候我们只想把它做成。”张兴坦说,甘蔗长期被基因组学界当成又脏又难、不碰为妙的雷区。尽管近几年甘蔗基因组重要研究成果陆续发表,但此前的研究有的只拿到几十条染色体,有的即使完成了接近百条染色体,但其中还有大量基因嵌合、分型不清,这让使用者心里没底。
而他们的工作完成了现代杂交栽培种全染色体尺度的分型基因组——十组基本染色体以及各同源拷贝,相当于可以逐条染色体追踪的家谱。
基于此,他们把甘蔗的演化路径拆解为三个关键阶段:野生种的自然选择、栽培种(热带种)的早期驯化,以及后来的高贵化育种。
在野生甘蔗的演化中,自然选择留下了大批与抗逆、适应相关的基因,让野生甘蔗获得更强的抗逆能力,得以从起源地逐步扩展到更广泛的区域。在热带种驯化过程中,甘蔗的遗传轨迹发生转变,一大批与糖分合成、转运、代谢相关的基因被强烈选择;开花基因受到抑制,甘蔗变得“不开花、只长糖”,把更多能量集中用于糖分积累。而在后续长期人工改良中,更多控制糖分合成、蔗糖运输、细胞大小与生物量的关键基因被不断富集,这些基因协同作用,让现代甘蔗的产糖能力达到前所未有的水平。
1%的糖分,20亿元的产业
全球甘蔗种植面积近4亿亩,每年甘蔗产量19亿吨。甘蔗是我国第一大热带作物,国内常年种植面积2000万亩左右,年产量超亿吨,国内80%以上的食糖都由甘蔗提供。
王俊刚算过一笔账,如果能通过基因组设计把甘蔗糖分相关效率整体抬升1个百分点,仅广西一个产区每年就能多产出价值20亿元级的糖,且无需增加任何种植成本。更重要的是,掌握了基因组的“数字资产”,意味着我国在糖料种源上实现了自主可控。
如今,甘蔗有了染色体水平的分型框架,研究者就能把关键农艺性状(糖分、株高、茎径、抗性)锚定到具体区间、具体单倍型、具体拷贝数状态。王俊刚说,下一步要做的事很明确:把这套系统接上基因组选择模型,让亲本配组从经验走向预测——缩短周期、降低试错成本。
这包括搞清楚甘蔗茎秆里的薄壁细胞到底在哪个窗口期开始生长、哪些因子决定它扩容积还是缩容积;把分型框架做成育种者可操作的工具链,争取尽快培育出适合机械化收获的理想株型。
据悉,该项成果相关技术已经应用于指导甘蔗杂交育种。新培育筛选的5份新种质,其糖分比现有主栽品种提高了2个百分点,每亩产量超过10吨,后续有望获得突破甘蔗新品种,助农增收,稳定食糖供给。
“这套多倍体作物基因组学分析新范式不只服务于甘蔗,小麦、棉花、马铃薯、甘薯、油茶,甚至鸟足兰等花卉……凡是拷贝多、杂合度高的作物,我们开发的三套核心算法可直接或改造后应用于这些作物。”张兴坦说,技术范式的革新有望突破传统多倍体研究中“组装难、定量难、关联分析难”的三大瓶颈,推动多倍体基因组研究从“碎片化描述”进入“系统解析”阶段,并为小麦、棉花、马铃薯等国家战略物资作物的分子设计育种提供技术支撑,加速优异等位基因的挖掘与利用。
何祖华希望该成果能够尽快落地,形成新质生产力,支撑甘蔗产业高质量发展,同时要加强与国内外甘蔗科研机构合作,促进甘蔗基础研究领域取得重大原创性的突破。
相关论文信息:https://doi.org/10.1038/s41586-026-10576-7