图卷积网络集成多组学数据分类新算法——MOGONET( 二 )

MOGONET的网络架构
MOGONET 在标签空间（label space）将组学特异性学习与多组学集成分类相结合。具体来说， MOGONET 先使用余弦距离构建了每种组学数据的加权样本相似性网络，再利用图卷积网络（GCN）进行单个组学的特征初始预测，以去除数据中噪声和冗余特征，生成对所属标签的初始预测。每个特定于组学的图卷积神经网络被训练使用组学特征和由组学数据生成的相应样本的相似性网络来执行类预测。与全连通网络相比， GCN 算法充分利用了组学特征和相似网络描述的样本间的相关性，从而获得了更好的分类性能。

本文插图
图1. MOGONET 的网络架构
除了直接连接每个组学数据类型的标记分布外， MOGONET可利用每个组学特定 GCN 产生的初始预测，构造反映组学标记相关性的交叉组学发现张量。 VCDN 通过在高层标签空间中探索不同组学数据类型之间的潜在相关性，可以有效地整合来自每个组学特定网络的初始预测，实现有效的多组学集成。 MOGONET 是第一个利用 GCNs 进行组学数据学习的有监督的多组学综合方法。 MOGONET 作为一个端到端的模型，所有的网络都可联合训练的。其网络架构如下：
MOGONET的预测准确，且可找到生物标志物

本文插图
图2.
使用MOGONET ，基于单个或多个组学，在三种不同数据集ROSMAP（阿兹海默）LGG （神经胶质瘤）和 BRAC（乳腺癌）上的分类表现
上图展示了多组学分类的性能提升，不论使用那种评价指标，代表三种数据集合的绿柱子都是最高的。

本文插图
图3. 超参数K的不同取值下分类效果的折线图
好的分类方法，对于超参数取值改变时，性能不会显著对比，上图分布对比了在LGG和BRAC数据集上，当MOGONET中最重要的超参数K从2变为10时， MOGONET表现相对稳定，且始终优于其它方法。
除此之外， MOGONET的另一特性是其能够从多组学数据的众多特征中，精准地找出那些能够让不同标签的数据区分出来的特征，这被称为生物标志物。例如在阿兹海默症的数据集中，可以找出那些基因的改变，会导致阿兹海默症的发生，从而为药物研发，疾病早筛提供知识依据。
郭瑞东 | 作者
邓一雪 | 编辑
商务合作及投稿转载｜swarma@swarma.org◆ ◆ ◆
搜索公众号：集智俱乐部
加入“没有围墙的研究所”