北大学者将 Transformer 模型带入单细胞分析领域能给出多层次的生物学解 WWW.CUNMAO.NET

　　2017 年，谷歌公司推出 Transformer 模型，这是是一种采用自注意力机制的深度学习模型，并促成了当下大火的 GPT 等预训练模型的发展。

　　自诞生以来，Transformer 已被用于多个领域，生命科学领域当然也不例外。前不久，大学定量生物学中心 / 生命科合中心韩敬东教授将 Transformer 引入单细胞组分析领域中，解决了领域内长期以来缺乏可解释性的难题。

　　研究中，他们研发出一款名为 TOSICA 的模型，数十分钟即可完成百万级数据的细胞类型注释，它能在不提供批次信息的前提下，准确且快速地学习并参考数据集中的分类标准，从而针对新数据自动地进行细胞类型标注，并能提供一个弱批次效应的、可解释的隐变量低维空间，以及建立高分辨率的细胞低维表示。

　　对于单细胞分析领域一直缺少的可解性，这款模型提供了一种新的技术支持。目前，TOSICA 模型的软件包与指导手册均已开源（）。

　　论文评审专家表示：（作者们）在一个已经相对拥挤的领域仍然做出了改进。其所采用的注意力机制相当有趣，且提供了多数深度学习模型不能提供的可解释性。并认为这款模型将 Transformer 带入了单细胞分析领域，（是一个）非常有雄心并且意义重大的研究。

　　韩敬东教授担任通讯作者，该校生命科合中心 2018 级博士研究生陈嘉伟、以及 2021 级博士研究生徐浩为共同一作。

　　在应用前景上，TOSICA 模型可被直接推广到科研人员手中，将他们从人工标注中解放出来，同时还能够给出多层次的生物学解释。

　　另外，通过效仿 Transformer 在其他领域的应用，借助 TOSICA 模型也可以共建一个模型分享社区，也可以让具备硬件能力的实验室来对模型进行训练，并将训练之后的模型共享给其他课题组，从而用于直接预测。同时，TOSICA 模型在方便学界交流的同时，还有利于分类标准的统一。

　　地球上一切的生命活动，由中心的信息传递决定。而测序——是一项可以帮助人类获取体内信息的技术。该技术也催生了 20 世纪最伟大的三项科学计划之一的人类基因组计划。

　　2009 年，单细胞测序技术的面世，让人类得以在单个细胞水平上观察生命活动。和测序数据相伴相生的，则是各种分析工具。

　　在单细胞组测序的发展早期，测序通量一般只有数百个，最多能有上千个细胞，每个细胞里有数千甚至上万的基因表达量信息。

　　在传统分析方法里，人们先是利用线性和非线性的降维手段，将高维信息降低到低维空间，然后在低维空间中对细胞进行聚类。这时，相似的细胞会被归为一类。

　　然后，再通过比较类与类之间的差异基因，借此得到不同细胞簇的标志基因，最后结合已有知识对细胞身份进行识别。

　　为了方便使用，学界将上述流程进行集成和标准化，推出了两大著名软件包：Seurat 和 Scanpy。使用时只需改动一些参数，就能轻易得到分析结果。不过，在操作时依然需要用户自己去结合相关知识，以便进行细胞身份的标注。

　　伴随着测序能力的提升，新出现的数据集规模往往达到十万乃至百万级别。鉴于测序技术的普及，经常出现不同课题组开展相同实验的情况。这给当前的分析工具提出了如下挑战：

　　其二，在相同的实验里，由于不同实验室设置的参数不同，得到的结果也不尽相同。尤其在一些细胞亚群的注释上，同一种细胞往往会出现被不同实验室首次发现的情况，并被冠以不同的名称。当没有权威专家参与时，人们很难对细胞类型进行命名，这既浪费了资源也不利于学界交流；

　　其四，受制于当前的技术现状，由于人为操作或机器原因，不同数据集之间可能存在差异，并经常和和生物学差异混合在一起，这也被称作批次效应。因此，在使用传统分析方法时，需要通过额外操作来去除批次效应，只有这样才能集合不同数据并进行比较。但是，在去除批次效应时，也会受到实验人员自身经验和偏好的影响，因此必须平衡好批次效应的去除、以及真实生物学差异的保留。

　　但从本质来看，细胞类型注释是一个简单的重复性劳动。如果能将科研人员从这一苦差事中解救出来，就能让他们把精力用在更重要的事上。

　　在协助人类的生产生活上，人工智能是被运用最多的技术之一。从机器学习、深度学习，学界已经进行了诸多尝试。

　　起初，科学家尝试使用支持向量机、决策树这些传统的机器学习算法来做分类问题，并在前些年取得了不错的。后来，学界尝试通过计算新数据和已有数据之间的相似性，来辅助细胞类型的注释。

　　很多方法直到今天依然凑效。但是，随着神经网络的兴起，研究者们也开始思考，神经网络能否为单细胞分析领域注入新的活力？

　　在当前的单细胞分析领域里，比较主流的神经网络仍然是 Autoencoder 框架，它是一种非常聪明的自监督降维算法，可以将高维原始表达逐步经过非线性的特征抽取（Encoder 过程），实现在低维隐变量空间里的表达，然后再根据低维空间信息经过生成式模型（Decoder 过程），借此去还原原来的高维空间。

　　这时，将新数据的低维空间和参考数据的低维空间加以对齐，即可观察未知细胞周围参考细胞的身份，进而就能预测未知细胞的身份。

　　src=图 Autoencoder 原理示意：X 是原始输入，z 是富集信息降维后的隐变量，X~ 是经过 Autoencoder 后生成的和原始输入维度一致的输出，且尽可能与原始输入一致（来源：韩敬东课题组）

　　首先，在模型的 Encoder 过程中，信息被以非线性的方式进行整合。所以，在最终的低维隐变量空间，每一个维度都有可能接收来自全部原始维度的信息。

　　然而，这些信息的来源并不明确，所以隐变量空间并不具备可解释性，这也是目前大多数单细胞分析工具始终无法克服的难题。

　　其次，隐变量空间包含的信息必须足够完整，以便能对原始信息进行还原。所以，隐变量空间其实和原始空间一样，包括了生物学信息和批次效应信息。然而，理想的隐变量空间并不应该包含批次信息，只有这样才够对齐不同批次。因此，多数 Autoencoder 模型必须提供批次信息，才能让模型学会主动忽略批次信息。

　　再次，理论来讲把模型做大、做深，将有利于算力的提升，但这会增加对于硬件的要求，也可能会抬高计算成本。

　　基于此，在调研各类模型框架之后，该团队发现生物学界对于 Transformer 并不陌生，但是单细胞领域至今仍未涉足 Transformer。

　　Transformer 基于多头注意力机制，最早出现在自然语言处理领域，它能通过注意力来获取全局信息。

　　在自然语言处理领域中，每个句子由多个词的 Token 进行表示，Transformer 通过学习 Token 之间的注意力（可以理解为一种相关性），来学习句子的结构和语义。

　　而后，Transformer 又进军计算机视觉领域（Computer Vision，CV），大有和 CV 领域传统的卷积神经网络分庭抗礼之势态。再后，它甚至席卷到生物界，比如 AlphaFold2 的出现就惊艳了一众结构生物学家。

　　那么，韩敬东课题组为什么会关注 Transformer？事实上在 CV 领域，也存在分类的问题。因此，科学家们为 Transformer 增加了 Class Token（CLS）。

　　在使用时，CLS 和代表某一张图片的 Patch Token 一起送入模型，并在处理过程中掌握图片信息，这些信息最终被用于分类。

　　于此同时人们发现，提取 CLS 对于其他 Token 的注意力之后，并将其展示在图片上，就能勾勒出到底图片中的哪些区域，对于分类是最重要的。

　　并且，当 Transformer 在处理对象时，用于表示对象的特征维度，始终是不变的。所以，一旦对较低维度的细胞表征予以确认，在 Transformer 的处理过程中，对象的维度就不会再改变。并且对于分类来说，只要提取 CLS 的注意力，就能找出那些重要的特征维度。

　　相比基因所能提供的信息，生物学通和调节子可以提供层次更高的、且具有生物学意义的信息。在降维的编码过程中，比起基于全连接网络的模型，生物学通和调节子所提供的信息，会让模型更加稀疏、更加有效。

　　基于此，该团队设计了一个 Mask Embed 层，先使用通或其他生物学集合，来提取高维基因空间中的信息，即从使用数万个基因来表示细胞、变成使用数百个通（Pathway Token）表示细胞，而后送入 Transformer 训练成为一个分类模型，提取 CLS 对于 Pathway Token 的注意力并以此作为细胞的低维表示。

　　但是，由于队列采样的时间不统一，经常要在每次出现新数据之后，再将所有数据全部整合、从头分析，耗时且费力。

　　为此，他们尝试了不少市面上的工具，然而效果却都不尽人意。期间，课题组也发现 Autoencoder 在这一领域隐隐占据主导地位。

　　他们心想不如自己开发一个工具。这时，组里学生就开始向计算机专家们广泛取经。出发点主要有两个：避开 Autoencoder、以及提供可解释性。

　　几名实验室看到 Attention map 那张图的时候都很激动，一时间觉得迎来了曙光。而关键问题在于如何进行降维处理——毕竟很难保留全部的基因维度。

　　不过，他们还是做出了第一版 TOSICA 模型，结果发现就算模型做得不够大，也能实现不错的准确性。而后，该团队又利用专家知识来设计 Mask Embed 层，不仅进一步提高了准确性，且在可解释性上更加具有生物学意义。

　　在模型的命名上，课题组原本想借鉴 Transformer 在其他领域的命名方式，例如在视觉领域就叫做 Vision Transformer（ViT）。那么，在单细胞领域是不是可以叫 scTrans？

　　鉴于本次模型可以执行细胞类型注释的 Transfer 功能，名字中带上 Trans 也显得十分契合。

　　但是，他们觉得还是不够朗朗上口，也不像 Seurat 听起来富有艺术性—— Seurat 的开发者认为 Seurat 在绘制单细胞聚类图上的小点时，和法国点彩画家乔治 · 修拉（Georges Seurat）用点作画时一样美妙，于是用这位画家的名字来给模型命名。

　　考虑到此，韩敬东课题组在给模型命名时，也想向人名、或向某些具有现实意义的双关语方向靠拢，然而一直没有好的想法。

　　然后上网一查，在 Urban dictionary 上真的有这个词，译为‘星球上最美好的生物’。What a coincidence！这个名字就这么敲定了。韩敬东说。

　　另据悉，从 Transformer 在文本 - 图像领域的来看，它在处理多模态任务上的优势已经得到了充分证明。

　　未来，该团队也考虑将 TOSICA 模型应用到单细胞多组学任务上。另外，其还将借鉴一些优秀的自监督学习训练方法，让 TOSICA 模型无需对标签进行学习。在可解释性上，他们希望 TOSICA 模型可以主动优化专家知识，以期为学界带来新的生物学见解。