基于多组学数据与覆盖性、排斥性结合的癌症驱动基因识别 - 机器学习与生物医学大数据实验室

本项目的研究内容可以概括为：“集成多组学数据，包括体细胞突变数据，基因表达数据，基因本体（GO），KEGG 的人类信号通路，蛋白质序列以及 PPI 网络数据，通过深层次的数学分析和模型构建突破多组学数据集成的计算瓶颈，进而设计高效、准确的算法，实现在大规模癌症数据上的应用”。

研究目标：

研究目标一设计出整合多组学数据的统计模型，最大限度的利用已知信息，加权 PPI网络；

研究目标二设计对当前癌症突变数据的大规模搜索算法，并实现对有交互作用的不同候选基因集合的搜索和分析；

研究目标三设计准确刻画癌症突变数据覆盖度和排斥均匀性的数学指标，实现对突变数据组合性质的深度刻画；

研究目标四将算法应用到癌症患者的体细胞突变数据进行算法的测试和改进，并进一步应用到其它癌症相关的数据中，发现与癌症密切相关的驱动突变基因和信号通路。

研究内容：

1）加权 PPI 网络和关键基因集构建的算法我们将基于 GO 基因注释信息计算基因语义相似性，基于 KEGG 的人类信号通路数据计算基因通路相似性；基于蛋白质序列的数字特征给出蛋白质序列相似性;基于人类多个组织的全基因组基因表达数据计算基因表达相似性。基于上述四个相似性矩阵设计一种加权打分模型，构建新的加权 PPI网络。我们从基因表达数据矩阵筛选与癌症相关的信息基因子集作为关键基因集并按权重降序排列关键基因。

2）数学模型构建、算法设计与分析
我们将组合最优化中的算法思想引入到利用癌症多组学数据预测癌症驱动信号通路的研究中，以期望对多组学数据集成问题的内在算法瓶颈进行准确刻画。我们将驱动突变信号通路的预测问题转化成经典的组合优化问题。我们要求每个基因集合中的基因除了具有高覆盖性与互斥性，其表达数据还应具有相关性，每个基因所表达的蛋白具有较强的作用相关性。另外，我们将设计一个的指标来准确刻画候选基因集合满足高覆盖度和强互斥性的程度，并寻找使该指标达到较大目标值的基因集合，这些基因集合中很可能包含与癌症产生与发展密切相关而至今未被发现的驱动突变信号通路。我们新引进的新指标将从本质上克服之前度量方法的缺陷，同时相比于一些统计的度量方法更加易于计算，满足了癌症数据的大规模搜索以及结合多组学数据研究的需要。另外，为了利用 PPI信息进一步提高预测精度、确保搜索到的基因集合具有实质上的功能相关性，我们对加权 PPI网络中以每一个关键基因为中心的局部网络进行搜索。将所搜范围限制在大量的局部网络上，既可降低各个搜索的难度，又可保证搜索到的基因集合具有功能相关性。各个搜索是相互独立的，可以适用于并行计算。这些相互独立的搜索为发现众多未知驱动信号通路提供了可能。
3）设计覆盖度和排斥均匀性的数学指标
我们将设计合理评估基因集合排斥性的组合学指标，使得基因集合中的每个
基因显著地贡献于其整体排斥性指标。对一个基因集合，其突变排斥性决定于
每一个病人在其中发生突变的数量。一个基因集合中单个基因的排斥比定义为
只在该基因而不在该集合其它基因发生突变的病人数量占所有在该基因发生突变的病人数量之比。基因集合的整体的排斥性指标 Ex 被定义为基因集合中所有
基因排斥比的平均值。显然，新定义的基因集合的排斥性指标能更好地评估候选基因集合的排斥性。基因集合的覆盖度指标 Cov 被定义为在基因集合上发生
突变的病人数量占所有病人数量之比。继而，评价基因集合的覆盖性与排斥性的综合指标 CovEx 被定义为该基因集合覆盖度指标与排斥性指标的乘积。经过
新指标筛选之后的候选基因集合将具有更好的性质，可作为分析驱动信号通路的坚实基础。