LD_clumping(连锁不平衡性聚类)
1.连锁不平衡性定义连锁不平衡性(linkage disequilibrium)是指 **不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)**的关联。 两个基因座互相独立不相关,即连锁平衡 linkage equilibrium 的状态。 **常用的指标:**D’, r2(相关系数,correlation coefficient)【更常用】 当D’=0,r2=0时,处于完全连锁平衡状态 当D’=1,r2=1时,处于完全连锁不平衡状态。 其中,从0-1之间的度量越高,LD越高,如果两个位点连锁,连锁程度也越高。 对应的连锁不平衡性越明显,说明对应位置的相关性就越强,他们就越可能在同一种表型中发挥相似的作用。 2.LD_clumping的定义LD clumping(连锁不平衡修剪)是全基因组关联分析(GWAS)中常用的步骤,用于筛选与目标表型关联最强的独立SNP,同时移除与其高度连锁(即存在强LD)的冗余SNP。 算法原理: 索引SNP选择:从GWAS结果中筛选p值小于--clump-p1的SNP,按p值升序...
KVM环境配置
山东大学 计算机科学与技术 学院云计算技术 课程实验报告 学号: 姓名: 班级: 202000130199 荆树吉 20数据 实验题目:虚拟化技术练习三KVM 实验学时:2 实验日期: 2023.4.8 实验目的:在Linux环境下,熟悉KVM虚拟化环境。 具体包括:了解KVM虚拟化环境的配置和部署,完成实验环境及实验工具的熟悉,撰写实验报告。 硬件环境:联网的计算机一台 软件环境:Linux 实验步骤与内容:一.先决条件要运行带有2 GB以上RAM的guest虚拟机,对应的虚拟环境必须拥有64位主机系统 再继续安装之前,要确保对应的ubundu虚拟机支持KVM虚拟化,系统应具有VT-x(vmx)的Intel处理器或具有AMD-V(svm)技术的AMD处理器。 以下grep命令以验证您的处理器支持硬件虚拟化: grep -Eoc ‘(vmx|svm)’ /proc/cpuinfo 如果CPU支持硬件虚拟化,则该命令将输出一个大于零的数字,即CPU核心的数量。否则,如果输出是,0则表示CPU不支持硬件虚拟化。比如我对应的输...
GWAS及其可视化
Association testOverview Genetic modelsTo test the association between a phenotype and genotypes, we need to group the genotypes based on genetic models. There are three basic genetic models: 为了测试表型和基因型之间的关联,我们需要根据遗传模型对基因型进行分组。有三种基本的遗传模型: Additive model (ADD)加法模型(ADD) Dominant model (DOM)主导模型(DOM) Recessive model (REC)隐性模型(REC) info “Three genetic models”信息“三种遗传模型” For example, suppose we have a biallelic SNP whose reference allele is A and the alternative allele is G. 例如,假设我们有一个双等位基...
GWAS数据的介绍
样本数据集来自1000个基因组项目第3阶段第5版的504名EAS个体 -CHB:中国北京的汉族人-JPT:日本东京的日本人-CHS:南方汉族-CDX:中国西双版纳的中国傣族-KHV:金在胡志明市,越南 Url: http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ Genome build: human_g1k_v37.fasta (hg19) 基因组构建:人类_g1k_v37.fasta(hg19) 基因型数据处理 Selected only autosomal variants Split multi-allelic variants Variants were normalized Remove duplicated variants Selected only SNP (ATCG) Selected 2% rare SNPs (plink --mac 2 --max--maf 0.01 --thin 0.02) Selected 15% common SNPs (plink --maf 0.01 --...
端到端实验chr19的微缩版
End-to-end target discovery with GWAS and PheWAS(19号染色体微缩版)1.实验介绍本实验源于End-to-end target discovery with GWAS and PheWAS | Research Analysis Platform的端对端的基因组靶点发现,以缺血性心脏病作为表型示例。分析的第一步时建立病例组和对照组。之后对于队列的样本数据进行筛选。之后对于基因组数据,芯片数据和插补数据及逆行清洗处理。接着展开局部部分的GWAS分析,并采用连锁不平衡聚类方法整合出显著的关联变异位点。最后针对每个变异位点进行表型关联分析(PheWAS) 数据基因组数据采用了两种基因组数据:芯片数据(array data)和插补数据(imputed data)。在处理连锁不平衡现象时仅用了插补数据. 表型数据首先选择缺血性心脏病作为目标表型(ICD-10编码I20-I25),同时为样本质量控制检索了以下字段: 31 - Sex 22001 - Genetic sex 22001 - 遗传性别 22006 - Genetic eth...
Docker环境配置
山东大学 计算机科学与技术 学院云计算技术 课程实验报告 学号:202000130199 姓名: 荆树吉 班级: 20 数据 实验题目:虚拟化技术练习四Docker 实验学时:2 实验日期: 2023.4.15 实验目的:熟悉Docker虚拟化环境。 具体包括:了解Docker虚拟化环境的配置和部署,完成实验环境及实验工具的熟悉,包括使用官方镜像运行容器,以及借助官方镜像构建、运行自己的镜像和容器,撰写实验报告。 硬件环境: 联网的计算机一台 软件环境:.15.0-69-generic #76~20.04.1-Ubuntu SMP Mon Mar 20 15:54:19 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux 实验步骤与内容: 了解Docker虚拟化环境的配置和部署sudo apt-get -y install docker.io 安装完成后执行 docker,表明安装成功。 sudo docker pull ubuntu 安装完成之后默认会启动docker服务,如果没有启动和正常服务一样启动就好 ...
deeplearning 鱼与熊掌可以兼得
鱼与熊掌兼得(deeplearning的好处)一.两难境地在deep learning过程中,对应的参数量过多,可能会造成过拟合的现象,而相反的,参数量过少有可能获得不了比较良好的效果,这让我们进入了两难的境地。 二.piecewise linear(分段线性曲线回顾)分段线性曲线可以看作常数项加上一系列的Z形函数。 而对应的hard sigmoid的一段函数又可以有对应的两端RELU函数进行组合表示。 三.是否深度学习表现更加优异 可以看到,随着对应的深度学习的层数增加对应的语音识别的错误率也有所降低。 那么瘦高的神经网络,和矮胖的神经网络哪个更好。 若采取同样的参数量,这里两种神经网络那个更加的优秀。 如图所示,采用相同的参数量,对应的更深的神经网络的表现要明显的优于矮胖的神经网络。 甚至到最后矮胖的神经网络随着参数的增多,对应的实验效果变得不那么优秀,甚至出现了倒退的行为。 四.为什么我们需要更深的神经网络。的确一层的神经网络可以拟合出任何的函数,但是利用深度学习网络对于效果的提升更加具有效率。例如:逻辑元器件进行组合,采用更深的 组合可以减少器件的数量。在编程的过...
CNN
CNN的主要流程①规格化图片在运行训练过程之前们需要将所有的图片scale成大小一样的对应图片,最终cross entropy越小越好,对应的误差也就越小。 模型的输入是对应的图片是一个三维矩阵,对应的前两位是对应的像素点的位置。而第三维是对应的rgb的一个3元数组,经过三维方向的拉直,形成一个可以用来训练的向量集合。 对应的机器和人都是会产生差异的,人和机器都是去寻找对应的图片中生物的特征之后就将这样的特征与人们所熟知的生物特征进行比对,形成结论,但是有可能出现错误。 例如如上的图片,无论是人还是机器都会将其识别成一个鸟类:乌鸦,但是实际上这是一只猫,一只黑猫 ②分区观察自己的小范围去判断特征,这是每一个neuron所作的事情。 将对应的小范围进行拉直,作为输入,之后利用多层的运算形成最终的判断。对应的范围的属性与分布是可以根据实际情况进行灵活调整的。多个范围之间可以进行重叠,亦可以两个神经元去守备同一块的范围,非正方形的范围也是可取的。理论上对应的范围也是可以不相连的。但是实际的图像识别中很难利用的上 ③最经典的设计对应的所有的channel都参与识别但是对应的小区域...
虚拟机网络配置和共享文件夹
山东大学 计算机科学与技术 学院云计算技术 课程实验报告 学号:202000130199 姓名: 荆树吉 班级: 20数据 实验题目:虚拟化技术练习一VMware 实验学时:2 实验日期: 实验目的:在Linux环境下,熟悉VMware虚拟化环境。 具体包括:了解VMware虚拟化环境的配置和部署,并配置网络连接,使其能够与本地计算机互相通信;在虚拟机中创建一个共享文件夹,使得本地计算机能够访问该共享文件夹,撰写实验报告。 硬件环境: 联网的计算机一台 软件环境: Linux 实验步骤与内容: 1. 安装VWware Workstation 官方正版VMware下载(16 pro):我用的是阿里云盘传输下载,速度较快 下载Linux系统镜像,来源同上 安装:选一下安装地址,一直下一步即可。 新建虚拟机 现在我们就相当于买电脑,先把电脑配置整好。什么cpu啊内存条啊硬盘啊什么乱七八糟的,先不着急装系统。 Linux版本选的是GenOS7 64位。 一路默认 地址选在D盘 安装操...
Linux环境基本操作练习
山东大学实验报告 1山东大学 计算机科学与技术 学院云计算技术 课程实验报告学号:202000130199 |姓名:荆树吉 | 班级:20数据 实验题目:Linux环境基本操作练习实验学时:2实验日期: 2023.2.25实验目的:在Linux环境下,熟悉基本的文件操作和命令 具体包括:了解Linux,浏览文件、创建文件、安装一个程序、了解Python、C++等常用编程环境 硬件环境:计算机一台 软件环境:Linux 实验步骤与内容:1.了解linuxLinux,全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯·本纳第克特·托瓦兹于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发,是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux有上百种不同的发行版,如基于社区开发的debian、archlinux,和基于商业开...

