2022年5月5日,我校计算机与通信工程学院陈健生教授与清华大学生命科学学院副教授李雪明、电子工程系教授沈渊团队的最新合作成果在《自然•通讯》(Nature Communications)杂志以“EPicker is an exemplar-based continual learning approach for knowledge accumulation in cryoEM particle picking”为题在线发表。该论文提出了一种小样本范例驱动的持续学习方法在冷冻电镜图像蛋白质颗粒挑选中的应用,通过在颗粒挑选过程中不断学习新的知识来扩展模型准确检测生物大分子的能力。
EPicker的网络框架和持续学习的示意图
近年来,深度学习逐渐成为冷冻电镜图像处理流程中颗粒挑选的常用方法。只需要标注数据集中部分显微图像上的目标样本用于训练神经网络,最终得到的模型就能够在全部的显微图像上挑选出此类目标样本。然而,现有基于深度学习的颗粒挑选方法无法在新数据训练中动态地向模型中积累新的知识,在新样本上被训练后,虽然能够在最新数据上获得良好性能,但是往往无法保持其在旧数据上的颗粒挑选精度,这种问题被称为灾难性遗忘。尽管合并新旧数据集重新从零开始训练网络可以避免灾难性遗忘的发生,但在用户量较大时,由于数据隐私性和存储空间的限制,单独的用户往往无法获得全部的旧训练数据。此外,现有的冷冻电镜设施每天都在产生海量的新数据,不断合并数据集训练网络不仅效率极低,还阻碍了实时地学习新数据。因此需要发展一种持续学习的技术,在持续的应用过程中,让深度神经网络能够不断地学习和积累新数据中的新特征,不断地增强对生物样本图像识别能力。这对于对发展现代化的自动化冷冻电镜系统具有非常重要的意义。
通过不断学习并与环境或者其他主体交互来不断获取和优化自身的知识,这种能力被称为持续学习能力,将短期记忆转化为长期记忆,并赋予了生命体感知和理解外界的能力。参照人类的学习系统,冷冻电镜系统也应当能够处理连续的信息,适应数据域间的变化,学习到处理新数据的方法,并维持长期的记忆。为了在学习过程中避免灾难性遗忘的发生,人类大脑利用海马体系统和皮质系统实现学习新事物和记忆旧事物的平衡。其中,海马体系统具有较强的适应能力和泛化能力,能够快速学习新的信息;皮质系统则可以快速整合海马体学习到的新信息并将某些特定的记忆进行长期的存储。类比于人类的大脑,冷冻电镜系统也可以利用海马体和皮质系统的机制完成模型的持续学习过程。
针对现有方法的不足之处并借鉴脑认知机制,研究团队设计了一种基于持续学习的颗粒挑选算法,能够在训练神经网络的过程中不断积累新的颗粒挑选知识,提高通用模型的颗粒挑选能力。该算法通过设计双路网络结构(图1)和融合知识蒸馏、历史回放、正则化、稀疏标注方法,将新样本的知识不断积累到通用模型中去的同时,不会遗忘旧知识。这很好解决了模型在新数据上训练后无法挑选旧数据样本的问题。其中,双路网络的训练过程模仿了人类大脑海马体系统的学习过程,而历史回放方法则模仿了皮质系统的记忆过程。基于这些算法,研究团队开发了一个名为EPicker的新软件系统。为了进一步扩展方法的适用范围,团队针对广泛的生物对象设计了相应的挑选算法,包括挑选囊泡和纤维等多种不同的生物对象,支持有偏和无偏的颗粒挑选方式以满足用户的不同需求等等。通过在具有代表性和挑战性的数据集上进行大量实验,并与目前较为流行的颗粒挑选方法进行对比,验证了EPicker的有效性和优越性(图2)。实验结果表明,EPicker可以通过高效、高度自动化的持续学习过程得到精度高、召回高且泛化能力强的蛋白质颗粒挑选结果。
不同方法的蛋白质颗粒挑选结果比较
清华大学生命科学学院副教授李雪明、清华大学电子工程系教授沈渊和陈健生同为本文的共同通讯作者。论文的第一作者,清华大学电子工程系2019级硕士研究生张馨予,为陈健生教授在清华大学电子工程系工作时指导的研究生。本工作获得了科技部重点研发计划,国家自然科学基金委,北京市结构生物学高精尖创新中心,北京市生物结构前沿研究中心,生命科学联合中心和北京信息科学与技术国家研究中心等的资金支持。
(供图:计通学院)
(责编:高晨萱)