针对分子设计育种科研痛点,重塑基因功能发现科研范式
作物育种的核心是精准改造基因组以优化农艺性状。为实现这一目标,必须系统理解基因与性状的关系,特别是基因通过何种分子机制调控性状形成。长期以来,基因功能研究只能依赖人类专家的经验积累,因而面临着周期长、研究效率难以提升的瓶颈。
以水稻育种为例,自2005年水稻全基因组测序完成以来,全球已投入大量资金用于其基因功能研究。但根据“丰登”大语言模型对全球文献的系统分析,目前仍有约90%的水稻基因功能尚未明确;玉米、大豆等主要作物的未知功能基因比例更高。这表明人工主导的传统研究模式难以满足现代育种需求,亟需借助人工智能等前沿技术推动研究范式的智能化转型。
为破解“基因–性状”知识整合难、关联预测能力弱以及实验设计高度依赖专家经验等瓶颈问题,联合研发团队基于“丰登”大语言模型研发了可进行自主科学发现的科研智能体。为了让“基因科学家”具备分子科学家的思维逻辑,联合研发团队首先利用“丰登”大语言模型开展了两方面工作:首先,整合全球学术论文、专业著作和实验数据等多源信息,构建“基因—性状—环境”三维知识图谱;进而建立全球首个作物基因功能研究推理链数据库,汇聚30万条“假设—实验—结论”标准格式的数据链条,形成可复用的“科研路径图谱”。该数据库是当前覆盖范围最广、结构最完备的作物基因研究数据资源之一。
通过对上述数据的系统性学习,“基因科学家”具备了三项核心科研能力:
知识总结归纳:围绕“基因调控哪些性状”以及“性状关联哪些基因”等关键问题,自动整合全球作物研究领域98%以上相关文献,构建“基因–性状–环境”关联图谱,破解知识整合难题;
基因–性状关联预测:突破传统依赖序列同源性的推理方式,基于知识图谱对基因–性状及基因–环境关系进行非线性建模,自主实现全基因组范围的关键基因筛选;
实验推理与设计优化:模拟专家推理过程,自动完成从假设提出、实验设计到结果分析的完整科研流程,构建高效、可扩展的基因功能发现体系。
大幅提升科研效率 自主发现功能基因
为系统评估智能体的核心能力,研究团队选取了水稻、玉米等数十个未报道功能基因,除具体实验操作外,知识归纳总结、性状关联预测与研究方案路线规划等科研决策环节均由智能体完成。测试结果显示,“基因科学家”在知识整合、功能推断与实验设计等环节表现突出,多项量化指标优于国际主流OpenManus智能体与DeepSeek-R1语言模型。
智能体生物育种知识总结能力评测
在水稻研究中,智能体成功生成多轮实验方案,科研人员依据方案开展实验,发现了多个基因的新功能。例如,一个此前未被报道的基因可通过调控植物激素平衡影响株高,另有多个基因被证实与光合效率密切相关。在玉米研究中,智能体精准预测出多个与株高、穗位等关键农艺性状紧密相关的候选基因,相关结论与连续三年独立开展的田间试验验证结果高度一致。
作为首个生物育种领域的自主科学发现系统,“基因科学家”高通量基因功能挖掘能力和系统化科研路径建构能力标志着作物分子设计育种的进入了新阶段,为推动我国种业科技创新和高质量发展提供坚实支撑。未来,该系统将在保障粮食安全、加快优良品种选育等国家战略领域发挥更大作用,助力我国加快实现种业科技的创新突破与跨越发展。
欢迎国内外生物育种科研工作者交流合作,联系方式:
上海人工智能实验室 :dongnanqing@pjlab.org.cn
崖州湾国家实验室:yangfan@yzwlab.cn
中国农业大学:wangxq2@cau.edu.cn
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1