image-20260106212102225

End-to-end target discovery with GWAS and PheWAS(19号染色体微缩版)

1.实验介绍

本实验源于End-to-end target discovery with GWAS and PheWAS | Research Analysis Platform的端对端的基因组靶点发现,以缺血性心脏病作为表型示例。分析的第一步时建立病例组和对照组。之后对于队列的样本数据进行筛选。之后对于基因组数据,芯片数据和插补数据及逆行清洗处理。接着展开局部部分的GWAS分析,并采用连锁不平衡聚类方法整合出显著的关联变异位点。最后针对每个变异位点进行表型关联分析(PheWAS)

image-20260106222407942

数据

基因组数据

采用了两种基因组数据:芯片数据(array data)和插补数据(imputed data)。在处理连锁不平衡现象时仅用了插补数据.

表型数据

首先选择缺血性心脏病作为目标表型(ICD-10编码I20-I25),同时为样本质量控制检索了以下字段:

为提高统计效能,并减少假阳性可能,GWAS和PheWAS使用了以下的协变量

2.创建队列

创建好队列,就可以用于后续分析(GWAS),本分析所采用的表型比较简单,但实际上可能包含多个字段。

首先,使用队列浏览器创建选定的队列。通过在字段41270中选择具有I20-I25缺血性心脏病的参与者,创建了”ischemic_cases”队列。 “ischemic_controls”队列通过在”ischemic_cases”中使用”队列比较:非”选项创建。最终形成包含57,383例”ischemic_cases”和445,027例”ischemic_controls”的样本。

UI界面

1.在RAP中,请点击”管理”选项卡下的目标数据集。如下方图片所示,点击数据集名称即可进入队列浏览器页面。

image-20260106224123340

2.然后,点击“添加筛选器”按钮。在搜索栏中输入“缺血性心脏病”(ischaemic heart disease),并选择“诊断 - ICD10”(数据字段为41270)。点击“添加队列筛选器”确认选择。

image-20260106224246636

3.在“包含以下任何一项”Includes any of的模态提示框中,输入“I20-I25 缺血性心脏病”(I20-I25 Ischaemic heart disease)并选择该选项。然后点击“应用筛选器”(Apply Filter )按钮

4.命名队列。在此示例中,队列名为“ischemic_cases”(注:示例队列名称采用美式拼写,但提及特定UKB数据字段时将使用英式拼写)

创建对照组

1.要创建对照组,请点击“+”按钮(鼠标悬停提示:“比较/合并队列”(Compare/combine cohort))。

image-20260106224553113

2.从下拉菜单中选择“不在缺血病例中”选项,并应用此筛选条件。

image-20260106224925531

3.命名并保存该队列。在此示例中,”ischemic_cases”队列包含57,383个样本,而”ischemic_controls”队列包含445,027个样本。(病例组和对照组都需要进行保存,以便在对应的个体质量控制进行)

样本质量控制

样本清理可降低数据噪声,提高全基因组关联分析结果的准确性。例如,通过检查性别不一致和性染色体非整倍体,可排除可能的样本混淆和基因分型错误。通过仅选择单一人群(白人英国人),最大限度地减少了群体亚结构的影响。为验证表型与基因型的关联性,在选择用于计算主成分分析的样本时,仅选取了非亲属参与者的样本。

概述

样本质量控制的代码可在gwas-phenotype-samples-qc.ipynb中找到。使用dx extract_dataset将每个队列的表型数据提取为表格。随后,根据以下标准筛选样本

-
Sex and genetic sex are the same性别与遗传性别相同

  • Participant has White British ancestry参与者具有白人英国血统
  • Not sex chromosome aneuploidy 非性染色体非整倍体
  • Participant was used to calculate PCA (only non-relatives were included)使用参与者数据计算PCA(仅包含非亲属个体)

过滤后,”缺血病例”组和”缺血对照”组分别保留了38,197个和298,886个样本。

表型插值示例

质量控制后,协变量作为全基因组关联分析流程的一部分进行了插补。协变量及上述笔记本代码对数据进行清理的操作摘要如下:

-
Age high blood pressure diagnosed in participant (2966) field 参与者(2966)高血压确诊年龄字段

  • The code combines all instances and create the hypertension boolean variable该代码将所有实例合并,并创建高血压布尔变量。
  • Participant ever smoked 参与者是否曾吸烟
    • The code makes all missing values as 0该代码将所有缺失值设为0。
  • Participant body mass index (BMI), HDL cholesterol, direct LDL参与者体重指数(BMI)、高密度脂蛋白胆固醇、直接低密度脂蛋白
    • The code replaces missing values by mean for that variable该代码用该变量的均值替换缺失值。

table contained 38,197 cases and 298,886 controls. 随后,表型数据与可获得插补数据的样本列表进行了合并。最终生成的表格包含38,197例病例和298,886例对照。

样本质量控制代码

get_qc_02get_qc_01

get_qc_03

get_qc_04

get_qc_05

get_qc_06

get_qc_07

get_qc_08