一根甘蔗“甜”了世界:糖度涨一点产业增亿级
一根甘蔗“甜”了世界:糖度涨一点产业增亿级
全世界80%的糖来源于甘蔗。甘蔗是如何仅凭一根光溜溜直挺挺的茎秆击败众多植物诱人的果实或块茎,而成为人类的天然“糖罐子”的?
5月27日,《自然》杂志在线发表的论文显示,做到这一点,甘蔗不仅经历了上百万年的进化“修炼”,更重要的是在近代栽培过程中完成了一次改变历史的杂交,从而迅速在全球扩展,占领了“撒糖王者”的地位。

甘蔗“林”受访者供图。
中国热带农业科学院热带生物技术研究所副研究员王俊刚团队与中国农业科学院深圳农业基因组研究所研究员张兴坦团队领衔,联合国内十余家单位共同完成了这项研究。他们自主开发出成套分析工具,首次成功构建了栽培甘蔗“蔗王”POJ2878的全染色体完整基因组,并揭示了甘蔗从野生植物驯化为全球最主要产糖作物的遗传密码。
中国科学院分子植物科学卓越创新中心研究员、中国科学院院士何祖华说,其意义不仅在于破解甘蔗“高糖密码”,更在于为多倍体作物精准设计育种提供了可推广的新范式,体现了我国热带作物基因组学研究的原创能力与国际引领水平。
论文审稿人指出,这是对该领域一项实质性且令人振奋的贡献,经过适当完善后,有望成为甘蔗生物学和比较基因组学领域的基础性资源。
两个世界的碰撞:种甘蔗的和算碱基的
论文第一作者王俊刚与甘蔗结缘,差不多是20年前的事了。
那时候甘蔗连完整的参考基因组都没有,想在几百万条碎片里把一个全长基因拼出来,王俊刚曾经花了硕士三年的全部精力。“克隆一个基因,本质上就是‘手搓’,拼得慢、拼得苦,还经常拼错。”王俊刚说。

王俊刚在甘蔗材料田间观测性状。受访者供图
甘蔗很甜,但甘蔗基因组解析不是一般的苦。它的基因组约10 Gb,是人类基因组大小的3倍多;基因组含有10至12套染色体、超过100亿个碱基对;更要命的是,它是同源—异源混合的非整倍多倍体,染色体基数大、拷贝数多、大片段序列高度重复。在早期技术背景下,测出来的读段(reads)根本不知道该放回哪条染色体上——就像几十本几乎相同的“天书”被撕碎了混在一起,要重新拼图复原每一页、每一本。
2005年前后,他开始独立的科研生涯,做甘蔗种质资源和功能基因挖掘。
“那时我就对甘蔗的糖分积累机制感兴趣。”王俊刚做的,就是靠种质资源收集、性状调查、转录组分析和艰苦的功能验证,一点点锚定跟糖分积累有关的候选通路。但当时的他,并不知道自己找到的SUT2基因后来在“蔗王”基因组里再度出现,并成为关键的储糖基因。
论文通讯作者张兴坦是从另一端走近甘蔗的。他一直关注复杂基因组算法工具开发——比如解决多倍体高杂合高重复基因组的单倍型分型组装问题。他做过榕树、茶树、菊花这类基因组“麻烦户”,开发了一系列算法工具。
然而甘蔗是另一个量级的“基因组怪兽”,张兴坦说为了填甘蔗这个坑,他们必须重新开发一套更有效的算法。

王俊刚(左)和张兴坦在甘蔗地。受访者供图
2022年,位于海南的热带作物生物育种全国重点实验室筹建,二人由此认识。张兴坦团队有算法和算力框架,王俊刚团队有十多年积累的种质材料、表型数据和生物学问题。
“那段时间我们俩负责撰写实验室相关作物的科研规划,一有时间就在一起讨论甘蔗研究的问题。”王俊刚说。他们的目标很明确:不是为了发文章而测序列,是要给产业一个能用、敢用的遗传操作系统——让育种家以后找基因像查字典一样轻松。
蔗王:一部活着的甘蔗血统史
POJ2878,在这个看似档案编号的名字里,POJ指的是荷属东印度(今印度尼西亚)爪哇东部试验站,它诞生于20世纪初荷兰殖民时期的爪哇糖业研究体系;2878则是1912~1921年间配制的甘蔗组合里的编号。王俊刚把POJ2878叫做“初代蔗王”。
20世纪初,全球甘蔗产业被花叶病和倒伏反复碾压,旧品种大面积崩溃。在热带地区,甘蔗也会结出果实和种子。育种家开始思考,能不能用杂交手段把野生甘蔗的抗逆性导入栽培甘蔗?于是就有了高贵化育种——使用抗逆性、宿根性强的割手密作为抗性供体,使用高糖、粗茎的高贵种作为汇交亲本,二者杂交以后再多代回交得到稳定的品种。

甘蔗花穗。受访者供图
这一大胆的杂交手段育成了POJ2878。随后,它以极强的抗逆性、高糖和宿根性横扫产区,在爪哇一度占到种植面积的95%。1930~1950年代迅速扩散到非洲、美洲、大洋洲以及亚洲各国,逐渐成为多个国家和地区甘蔗杂交选育的第一代核心亲本。在我国系谱清楚的甘蔗品种里,绝大多数都能一路回溯到初代蔗王。
“蔗王现在已经不是大田里的主栽品种了,而是作为种质资源保存在种质圃里。”王俊刚说,蔗王是第一个对甘蔗产业产生巨大影响的优势品种,把它作为研究对象,就是想搞清楚甘蔗的糖到底存在哪儿。
答案是茎秆里的薄壁细胞——就是你啃甘蔗时那些柔软、透亮、汁水充盈的细胞,它们像一排排小玻璃罐沿维管束堆叠排列,细胞越大,能够储存的蔗糖就越多,含糖量也就越高。木质部导管和韧皮部筛管负责运输糖,而薄壁细胞负责储存糖。你啃完甘蔗吐出来的渣,主要是维管纤维骨架;你吸到的甜汁,就是薄壁细胞释放的储存液。

甘蔗试验田。受访者供图
他们对300份甘蔗材料做了茎秆横切面制片,在显微镜下数薄壁细胞的数量、量细胞的直径,观察它们围绕维管束的排布模式,再把这套细胞形态学数据与基因型关联起来。
有了细胞学的基础,他们接下来就要在甘蔗的几十万个基因里寻找那个关键基因:先开发合适的工具,再画出精细的基因“地图”。
从算法突破到基因定位
“我的三个研究生,一人完成一套核心算法。”张兴坦说,这项工作的技术核心,是把多倍体的三座大山——组装难(基因属于哪个染色体)、表达计算难(每个拷贝表达多少)、关联分析难(哪个变异表达哪个性状)——逐一工程化解决。团队对应开发了三套核心算法流程,即基因组分型挂载、等位基因特异性定量、基于k-mer单倍型感知的关联策略。
在甘蔗这个多倍体里,高度相似的同源拷贝让主流比对软件“晕菜”——读段会错误落到别的拷贝上,造成表达量系统性偏估。论文共同第一作者、如今就读中国农业大学博士生的陈晓承担的是等位基因表达定量算法难题。
一天深夜,她再次坐在电脑前,一狠心,把几十万条基因的比对深度做了可视化,一屏一屏翻,最后抓住了一条规律:错误比对的深度曲线呈现先升后平再降的特征,而正确唯一比对的深度分布是平的、均一的。等位基因表达定量算法因此打通。
论文审稿人说,针对如此复杂基因组所开发的新型组装策略既令人振奋,又具有重要意义,确实为应对复杂多倍体基因组的挑战提供了极具前景的方法。
完成了蔗王118条染色体的基因组图谱后,他们对来自全球19个主要产区的981份甘蔗材料进行了系统重测序,其中包括78份热带种、290份野生割手密种和613份杂交栽培品种。结果发现,超过95%的现代甘蔗品种与POJ2878共享大规模基因组片段。这证明蔗王是现代甘蔗栽培种的奠基者。
论文审稿人指出:“这是目前最大、最难攻克的具有重要农业价值的植物基因组。新基因组组装的质量之高以及论文表述之清晰,都令我印象深刻。”
再来关注薄壁细胞里的高表达基因,他们找到了SUT2这个控制薄壁细胞大小的关键基因,首次在分子层面证实,糖分运输效率越高,储糖细胞就越大,甘蔗也就更甜。而这个基因恰恰是王俊刚的老朋友。
他早年在功能基因挖掘里就关注过这条蔗糖转运通路,用转基因过表达等手段做过验证。所以当新基因组分型+群体关联分析再一次把信号聚集到同一个基因上时,他感觉“众里寻他千百度。蓦然回首,那人却在,灯火阑珊处”——这条长路没白走。
2024年春节除夕夜,论文在返修关键窗口。张兴坦、王俊刚、李晓峰、陈帅等人不在饭桌旁与家人团聚,而在各自办公室开着远程协作改稿。直到夜里十一点半左右才中断一会儿,到张兴坦家匆匆扒了顿年夜饭,然后又各回各的办公室继续改稿。