密苏里大学许东教授和俄亥俄州立大学马勤教授的团队发表在Nature Communications上的一篇文章 “scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses”。单细胞RNA测序 (scRNA-seq) 被广泛应用于揭示组织、生物和复杂疾病的异质性和动力学,但其分析仍面临多个重大挑战,包括测序的稀疏性和基因表达的复杂差异模式。本文提出了scGNN (单细胞图神经网络),为scRNA-seq分析提供了一个无假设的深度学习框架。这个框架用图神经网络来表达和聚集细胞间的关系,并使用左截断的混合高斯模型来建模异质基因表达模式。scGNN集成了三种迭代多模态自动编码器,其在四个scRNA-seq基准数据集上的基因插补和细胞聚类性能优于现有工具。在一项阿尔茨海默症研究中,从死后脑组织中提取13214个单核,scGNN成功地阐明了疾病相关的神经发育和差异机制。scGNN为基因表达和细胞间关系的有效表达提供了帮助。它也是一个强大的可以应用于一般的scRNA-Seq分析的框架。
单细胞RNA测序 (scRNA-seq) 技术可在单个细胞中进行转录组的基因表达测量,这对于识别细胞类型簇,根据轨迹拓扑推断细胞群体的排列以及在表征复杂疾病中的细胞异质性时突出体细胞克隆结构是必不可少的。但scRNA-seq分析仍然具有挑战性,因为它的数据分布复杂且不确定,具有很高的“dropout”率。一些现有方法,例如Phenograph,MAGIC和Seurat使用K级最近邻 (KNN) 图来建模细胞之间的关系。但是,这样的图形表示可能会过度简化全局的复杂细胞和基因关系。最近,新兴的图神经网络 (GNN) 通过在深度学习体系结构中传播近邻信息来解释卷积图中的节点关系。与用于scRNA-seq分析的其他自编码器通过重建自己的输入来揭示scRNA-seq数据的有效表示相比,图自编码器的独特功能在于能够学习图拓扑的低维表示并在整个图的全局视图中训练节点关系。
本文提出了一个多模态框架scGNN (单细胞图神经网络) ,用于从scRNA-seq中建模异质细胞-细胞关系及其潜在的复杂基因表达模式。scGNN通过基于基因表达和转录调控信息的拓扑抽象,训练低维特征向量来表示细胞之间的关系。scGNN有三个独特的特征:(i) scGNN利用带有多模式自编码器的GNN来构建和聚集细胞之间的关系,提供一个无假设的框架来推导生物学上有意义的关系。该框架不需要为基因表达数据或“dropout”事件假定任何统计分布或关系。(ii) 在构建细胞图时,对细胞类型特异性的调节信号进行建模,对scRNA-seq数据采用左截断混合高斯 (LTMG) 模型。这可以提高信噪比,以嵌入生物学上有意义的信息。(iii) 自底向上的细胞关系由动态修剪的GNN细胞图表示。整个图可以通过池化在学习图上嵌入图中的所有节点来表示。可以将图嵌入作为低维、耐噪声的特征来保持细胞图的拓扑关系。在恢复基因表达值的自编码器训练中,将衍生的细胞间关系作为正则化器。
以scRNA-seq生成的基因表达矩阵为输入。LTMG可以将输入的基因表达数据转换为离散化的调节信号,作为特征自编码器的正则化器。特征自编码器学习输入的维度表示作为嵌入,并在其上构造和修剪细胞图。图自编码器学习拓扑图嵌入的细胞图,用于细胞类型聚类。每种细胞类型的细胞都有一个单独的簇式自编码器来重建基因表达值。该框架将重构后的表达式作为一个新的输入迭代,直到收敛。最后,特征自编码器通过学习到的细胞图上的细胞间关系对预处理后的原始表达矩阵进行正则化,得到插补后的基因表达值 (图1)。
- 图1 scGNN的流程结构
3.1 scGNN可以有效地插补scRNA-seq数据,准确地预测细胞簇
为了评估scGNN的插补和细胞聚类性能,本文选择了四个具有黄金标准的细胞类型标签的scRNA-seq数据集 (Chung,Kolodziejczy,Klein,Zeisel) 作为基准数据集。通过将一些非零项随机转化为零来模拟“dropout”。实验计算了三个指标 (中位L1距离,余弦相似度以及RMSE) 来比较scGNN与九种插补方法的性能。在“dropout”率为10%和30%时,scGNN插补效果最好。而scGNN的余弦相似度评分在10%的“dropout”中排名第一,在30%的概率中排名第三 (图2a)。此外,scGNN可以恢复由于scRNA-seq稀疏性而在原始表达数据中丢失的潜在基因间关系。例如,两个多能性外胚层基因对,Ccnd3与Pou5f1以及Nanog与Trim28,在原始数据中相关性较低,但在经过scGNN插补后相关性变强 (图2b)。
scGNN还可以放大差异表达基因 (DEGs) 信号的倍数变化 (FC) (图2c)。本实验还利用其他插补工具比较了插值前后DEG信号的变化。使用Klein数据和Zeisel数据中第1天细胞的原始表达值和scGNN插补的表达值对DEG的logFC评分进行比较。其差异性信号在插补后被增强。结果表明,scGNN可以准确地恢复表达值,捕捉真实的基因间关系,增加DEG信号,且不会引入额外的噪声。
- 图2 插补性能比较
除了人工模拟“dropout”的基准数据集,本文继续评估scGNN和9个插补工具在相同两个数据集上的聚类性能。使用10个指标系统地评估预测的细胞标签,包括调整后的兰德指数 (ARI) 等 (图3a)。通过UMAP可视化细胞聚类结果,与其他9种工具相比,使用scGNN时,可以观察到同一簇内细胞更接近,不同簇之间更分离 (图3b)。随着胚胎干细胞发育,表达模式显示出异质性。在Klein的时间序列数据中,scGNN恢复了一个原始数据不能很好地显示的复杂结构,即从第1天到第7天细胞发育的一条排列良好的轨迹路径 (图3c)。
在此基础上,为了说明在scGNN中使用图自编码器和簇自编码器的意义,本实验进行了消融试验来绕过每个自编码器,并比较了Klein数据集上的ARI结果(图3d)。其中GA-表示去除图自编码器的结果,CA-表示去除聚类自编码器的结果,AG表示使用框架中所有基因后的结果。结果显示,除去这两个自编码器中的任何一个都会显著降低scGNN在细胞聚类精度方面的性能。
- 图3 细胞聚类和轨迹评估
为了进一步证明scGNN的能力,本实验将其应用于在6个AD (阿尔兹海默症) 和6个对照大脑中收集的13,214个单核的scRNA-seq数据集 (GSE138852)。scGNN识别出10个细胞簇 (图4a)。这10个细胞簇中的6个少突胶质细胞亚簇在AD患者 (Oligos 2、3、4) 和健康对照者 (Oligos 1、5、6) 之间的比例不同 (图4b)。然后将这6个少突胶质细胞亚簇组合成一个簇来检测DEGs。由于scGNN可以显著增加原始数据集中的真实信号,DEG模式更加明确。在所有的DEGs中,确认了22个基因为细胞类型特异性基因 (图4c)。此外,一项生物途径富集分析显示,与所有五种细胞类型的细胞相比,AD细胞中有几种高度阳性的富集 (图5d)。
为了研究AD相关神经发育的调控机制,实验将scGNN插补的矩阵应用于IRIS3 (来自scRNA-seq的整合细胞类型特异性调控的服务器),并在5种细胞类型中鉴定出21种细胞类型特异性调控 (CTSR) (图4e)。不足为奇的是,实验发现了一些与AD相关的转录因子 (TFs) 和靶基因,这些转录因子和靶基因已经被发现参与了AD的发展进程。其中SP2就是一种常见的TF,可在少突胶质细胞和星形胶质细胞中发现。此外,在所有细胞簇中都发现了调节神经元突触功能的SP3 TF。这一发现为发现SP3在AD研究中的作用提供了方向。
- 图4 基于scGNN的阿尔茨海默氏病数据集 (GSE138852) 分析