End-to-end target discovery with GWAS and PheWAS(19号染色体微缩版)

1.实验介绍

本实验源于End-to-end target discovery with GWAS and PheWAS | Research Analysis Platform的端对端的基因组靶点发现，以缺血性心脏病作为表型示例。分析的第一步时建立病例组和对照组。之后对于队列的样本数据进行筛选。之后对于基因组数据，芯片数据和插补数据及逆行清洗处理。接着展开局部部分的GWAS分析，并采用连锁不平衡聚类方法整合出显著的关联变异位点。最后针对每个变异位点进行表型关联分析（PheWAS）

数据

基因组数据

采用了两种基因组数据：芯片数据（array data）和插补数据（imputed data）。在处理连锁不平衡现象时仅用了插补数据.

表型数据

首先选择缺血性心脏病作为目标表型（ICD-10编码I20-I25），同时为样本质量控制检索了以下字段：

31 - Sex
22001 - Genetic sex 22001 - 遗传性别
22006 - Genetic ethnic grouping22006 - 基因族裔分组
22019 - Sex chromosome aneuploidy22019 - 性染色体非整倍体
22020 - Used in genetic principal components22020 - 用于遗传主成分分析

为提高统计效能，并减少假阳性可能，GWAS和PheWAS使用了以下的协变量

31 - Sex
2966 - Age high blood pressure diagnosed (not used in PheWAS)2966 - 高血压确诊年龄（未用于PheWAS）
21022 - Age at recruitment21022 - 招募时的年龄
23104 - Body mass index (BMI)23104 - 身体质量指数（BMI）
20160 - Ever smoked 20160 - 曾经吸过烟
30760 - HDL cholesterol (not used in PheWAS)30760 - 高密度脂蛋白胆固醇（未用于苯丙酮尿症基因组关联研究）
30780 - LDL direct (not used in PheWAS)30780 - LDL直接检测（未用于苯丙酮尿症关联分析）
22009 - Genetic principal components22009 - 遗传主成分分析

2.创建队列

创建好队列，就可以用于后续分析(GWAS),本分析所采用的表型比较简单，但实际上可能包含多个字段。

首先，使用队列浏览器创建选定的队列。通过在字段41270中选择具有I20-I25缺血性心脏病的参与者，创建了”ischemic_cases”队列。 “ischemic_controls”队列通过在”ischemic_cases”中使用”队列比较：非”选项创建。最终形成包含57,383例”ischemic_cases”和445,027例”ischemic_controls”的样本。

UI界面

1.在RAP中，请点击”管理”选项卡下的目标数据集。如下方图片所示，点击数据集名称即可进入队列浏览器页面。

2.然后，点击“添加筛选器”按钮。在搜索栏中输入“缺血性心脏病”（ischaemic heart disease），并选择“诊断 - ICD10”（数据字段为41270）。点击“添加队列筛选器”确认选择。

3.在“包含以下任何一项”Includes any of的模态提示框中，输入“I20-I25 缺血性心脏病”(I20-I25 Ischaemic heart disease)并选择该选项。然后点击“应用筛选器”(Apply Filter )按钮

4.命名队列。在此示例中，队列名为“ischemic_cases”（注：示例队列名称采用美式拼写，但提及特定UKB数据字段时将使用英式拼写）

创建对照组

1.要创建对照组，请点击“+”按钮（鼠标悬停提示：“比较/合并队列”（Compare/combine cohort））。

2.从下拉菜单中选择“不在缺血病例中”选项，并应用此筛选条件。

3.命名并保存该队列。在此示例中，”ischemic_cases”队列包含57,383个样本，而”ischemic_controls”队列包含445,027个样本。（病例组和对照组都需要进行保存，以便在对应的个体质量控制进行）

样本质量控制

样本清理可降低数据噪声，提高全基因组关联分析结果的准确性。例如，通过检查性别不一致和性染色体非整倍体，可排除可能的样本混淆和基因分型错误。通过仅选择单一人群（白人英国人），最大限度地减少了群体亚结构的影响。为验证表型与基因型的关联性，在选择用于计算主成分分析的样本时，仅选取了非亲属参与者的样本。

概述

样本质量控制的代码可在gwas-phenotype-samples-qc.ipynb中找到。使用dx extract_dataset将每个队列的表型数据提取为表格。随后，根据以下标准筛选样本

-
Sex and genetic sex are the same性别与遗传性别相同

Participant has White British ancestry参与者具有白人英国血统
Not sex chromosome aneuploidy 非性染色体非整倍体
Participant was used to calculate PCA (only non-relatives were included)使用参与者数据计算PCA（仅包含非亲属个体）

过滤后，”缺血病例”组和”缺血对照”组分别保留了38,197个和298,886个样本。

表型插值示例

质量控制后，协变量作为全基因组关联分析流程的一部分进行了插补。协变量及上述笔记本代码对数据进行清理的操作摘要如下：

-
Age high blood pressure diagnosed in participant (2966) field 参与者（2966）高血压确诊年龄字段

The code combines all instances and create the hypertension boolean variable该代码将所有实例合并，并创建高血压布尔变量。
Participant ever smoked 参与者是否曾吸烟
- The code makes all missing values as 0该代码将所有缺失值设为0。
Participant body mass index (BMI), HDL cholesterol, direct LDL参与者体重指数（BMI）、高密度脂蛋白胆固醇、直接低密度脂蛋白
- The code replaces missing values by mean for that variable该代码用该变量的均值替换缺失值。

table contained 38,197 cases and 298,886 controls. 随后，表型数据与可获得插补数据的样本列表进行了合并。最终生成的表格包含38,197例病例和298,886例对照。