哈尔滨工业大学

生物网络分析实践报告

学生姓名:荆树吉

学号: 25S103248

学院: 计算机科学与技术学院

指导教师:李杰

2026年 6 月 5 日

实验三:基因集富集分析

实验目的

用于判断预先定义的基因集合在两种生物学状态(如表型)之间是否存在具有统计学显著性的一致差异。

实验内容

使用GSEA客户端进行基因富集分析,并完成图片和数据的整理

实验步骤

算法的要求与实验步骤不同

实验的步骤比较简单

  1. 下载对应的数据,分别为kegg-20.gmt,对应数据的20个基因通路。

2.phenotype 对应为69个个体的表型。

  1. probe.gct对应为对应的基因的基因表达谱。

直接输入到对应的位置即可

1.上传文件

img

图 1 文件上传

2.填写对应的参数

img

图 2 参数填写与调整

将对应的最小的通路的参数的限制调整为10

因为有一个通路是14个基因,这样的设置就可以访问到所有的通路。

img

图 3 实际详细参数

上面为参数列表

实验算法:

实验的算法为GSEA算法:

  1. 数据准备与预处理

输入数据:基因表达矩阵(样本 × 基因)、表型标签(如肿瘤 / 正常、处理 / 对照)、基因集数据库(如 MSigDB)

数据标准化:消除批次效应,确保样本间可比性

基因过滤:去除低表达或无变异性基因,减少噪声

  1. 基因排序(关键步骤)

计算每个基因与表型的关联分数(如 Signal2noise、t 检验统计量、log2FC)

img

图 4 全部基因的FC表达值

上图就是一个例子其中有全部的17589个基因的表达值按降序排列

按关联分数降序排列所有基因,生成排序列表 L,顶部为与表型正相关基因,底部为负相关基因

  1. 计算富集分数(ES)

定义基因集 S(如某通路基因),沿排序列表 L 进行随机游走统计:

遇到 S 中基因:分数增加,增量与基因关联分数成正比(加权)

遇到非 S 基因:分数减少,减量为固定值(1/(总基因数 - 基因集大小))

ES = 随机游走过程中最大偏离零值的峰值,反映基因集在排序两端的富集程度

ES>0:基因集倾向于在列表顶部(上调);ES<0:倾向于在底部(下调)

  1. 评估显著性(Nominal p 值)

通过置换检验生成零分布:随机打乱样本表型标签,重复计算 ES,构建无富集情况下的 ES 分布

Nominal p 值 = 零分布中绝对值≥观察 ES 的比例,评估富集的统计学显著性

  1. 标准化富集分数(NES)

对 ES 进行标准化,消除基因集大小和关联分数分布的影响

NES = 观察 ES / 零分布 ES 的均值,使不同基因集间的富集程度可直接比较

  1. 多重检验校正(FDR q 值)

计算计算FDR(False Discovery Rate),控制假阳性率,避免多重假设检验导致的错误结论

FDR q 值 = 估计的假阳性概率,通常设定q<0.25为显著富集标准

实验环境

软件 GSEA 4.0.3

实验数据

1.下载对应的数据分别为kegg-20.gmt,对应为数据的20个基因通路。

2.phenotype 对应为69个个体的表型。

3.probe.gct对应为基因的基因表达谱。

实验结果及分析:

1.强表达相关性

全部的强表达的分布图

img

图 5 全部强表达的分布图

img

图 6 强表达示例HSA04610通路

对应的这个通路在前面的对应的基因表达值比较大的部分的分布比较富集

img

图 7 HSA04610 ES值

实际的ES值的分布在对应的比较正常的部分,HSA04610 通路显著富集于 Nor 正常样本(基因整体上调),富集结果可信、统计学显著。

img

图 8 HSA04610 表达值热图

可以明显看到,前面几个强表达的基因与正常个体密切相关,而后面的基因就没有明显的强弱表达区别。

2.弱表达相关性

全部的弱表达通路分布图

img

图 9 全部弱表达的分布图

img

图 10 弱表达示例 HSA03460 通路

对应的这个通路在前面的对应的基因表达值比较小的部分的分布比较富集

img

图 11 弱表达示例HSA03460通路

HSA03460 通路在 Tur 组显著上调富集,GSEA 富集结果具有统计学意义。

img

图 12 HSA03460 表达值热图

可以明显看到,大部分表达的基因与癌症个体密切相关,弱表达对应的就是比较支持癌症的相关基因表达。

3.总结

img

图 13 基因表达蝴蝶图

上面的蝴蝶图可以显出对应的正向和反向的表达的对应的排序曲线,对应的排名要比假设的更加明显,证明这样的相关性的表示是更具统计学意义的。

img

图 14 全部20个通路的基因表达值热图

以上就是在20个通路中全部的基因在个体中的表达强度

  1. 上半部分基因簇(续)

Tur 组(左侧灰色样本):大片红色 → 这类基因在 Tur 组整体显著上调、高表达

Nor 组(右侧黄色样本):大片蓝紫色 → 这类基因在 Nor 组整体显著下调、低表达

  1. 下半部分基因簇

Tur 组(左侧灰色样本):大片深蓝色 → 这类基因在 Tur 组整体显著下调、低表达

Nor 组(右侧黄色样本):大片红色 → 这类基因在 Nor 组整体显著上调、高表达

整体的相关性表达

img

图 15 全部基因表达相关性分布

左侧(0~8000 位次):Y 轴全为正值,分值从 2.5 平滑下降趋近于 0,代表近半数基因在 Nor 组整体上调富集,越靠前的基因和 Nor 的表达相关性越强;

右侧(8155~17589 位次):Y 轴全为负值,分值从 0 持续下降至 - 2.5,代表超过半数基因在 Tur 组整体上调富集,越靠后的基因和 Tur 的表达相关性越强;

整体偏向:Tur 上调相关基因在数量、积分面积上略多于 Nor(Tur:52.5%,Nor:47.5%),提示全局转录组层面,Tur 组(疾病 / 处理)整体基因上调趋势更强。

img

图 16 全部通路表达显著性分布

对于全部的20个通路来说,5个通路是弱表达,即与对应的癌症密切相关;另外15个通路则是强表达,与正常人密切相关,但对应的中间几个部分实际上并不具备显著性。

附件-实验三程序和数据

代码和数据如附件所示。