JSJ-0513

发表于2026-03-15|生物信息分析|GWAS

样本数据集来自1000个基因组项目第3阶段第5版的504名EAS个体 -CHB：中国北京的汉族人-JPT：日本东京的日本人-CHS：南方汉族-CDX：中国西双版纳的中国傣族-KHV：金在胡志明市，越南 Url: http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ Genome build: human_g1k_v37.fasta (hg19) 基因组构建：人类_g1k_v37.fasta（hg19）基因型数据处理 Selected only autosomal variants Split multi-allelic variants Variants were normalized Remove duplicated variants Selected only SNP (ATCG) Selected 2% rare SNPs (plink --mac 2 --max--maf 0.01 --thin 0.02) Selected 15% common SNPs (plink --maf 0.01 --...

端到端实验chr19的微缩版

发表于2026-03-15|生物信息分析|PheWAS

End-to-end target discovery with GWAS and PheWAS(19号染色体微缩版)1.实验介绍本实验源于End-to-end target discovery with GWAS and PheWAS | Research Analysis Platform的端对端的基因组靶点发现，以缺血性心脏病作为表型示例。分析的第一步时建立病例组和对照组。之后对于队列的样本数据进行筛选。之后对于基因组数据，芯片数据和插补数据及逆行清洗处理。接着展开局部部分的GWAS分析，并采用连锁不平衡聚类方法整合出显著的关联变异位点。最后针对每个变异位点进行表型关联分析（PheWAS）数据基因组数据采用了两种基因组数据：芯片数据（array data）和插补数据（imputed data）。在处理连锁不平衡现象时仅用了插补数据. 表型数据首先选择缺血性心脏病作为目标表型（ICD-10编码I20-I25），同时为样本质量控制检索了以下字段： 31 - Sex 22001 - Genetic sex 22001 - 遗传性别 22006 - Genetic eth...

Docker环境配置

发表于2026-03-15|云计算|Docker

山东大学计算机科学与技术学院云计算技术课程实验报告学号：202000130199 姓名：荆树吉班级： 20 数据实验题目：虚拟化技术练习四Docker 实验学时：2 实验日期： 2023.4.15 实验目的：熟悉Docker虚拟化环境。具体包括：了解Docker虚拟化环境的配置和部署，完成实验环境及实验工具的熟悉，包括使用官方镜像运行容器，以及借助官方镜像构建、运行自己的镜像和容器，撰写实验报告。硬件环境: 联网的计算机一台软件环境：.15.0-69-generic #76~20.04.1-Ubuntu SMP Mon Mar 20 15:54:19 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux 实验步骤与内容：了解Docker虚拟化环境的配置和部署sudo apt-get -y install docker.io 安装完成后执行 docker，表明安装成功。 sudo docker pull ubuntu 安装完成之后默认会启动docker服务，如果没有启动和正常服务一样启动就好 ...

deeplearning 鱼与熊掌可以兼得

发表于2026-03-15|机器学习|deeplearning

鱼与熊掌兼得（deeplearning的好处）一.两难境地在deep learning过程中，对应的参数量过多，可能会造成过拟合的现象，而相反的，参数量过少有可能获得不了比较良好的效果，这让我们进入了两难的境地。二.piecewise linear(分段线性曲线回顾)分段线性曲线可以看作常数项加上一系列的Z形函数。而对应的hard sigmoid的一段函数又可以有对应的两端RELU函数进行组合表示。三.是否深度学习表现更加优异可以看到，随着对应的深度学习的层数增加对应的语音识别的错误率也有所降低。那么瘦高的神经网络，和矮胖的神经网络哪个更好。若采取同样的参数量，这里两种神经网络那个更加的优秀。如图所示，采用相同的参数量，对应的更深的神经网络的表现要明显的优于矮胖的神经网络。甚至到最后矮胖的神经网络随着参数的增多，对应的实验效果变得不那么优秀，甚至出现了倒退的行为。四.为什么我们需要更深的神经网络。的确一层的神经网络可以拟合出任何的函数，但是利用深度学习网络对于效果的提升更加具有效率。例如：逻辑元器件进行组合，采用更深的组合可以减少器件的数量。在编程的过...

CNN

发表于2026-03-15|机器学习|CNN卷积神经网络

CNN的主要流程①规格化图片在运行训练过程之前们需要将所有的图片scale成大小一样的对应图片，最终cross entropy越小越好，对应的误差也就越小。模型的输入是对应的图片是一个三维矩阵，对应的前两位是对应的像素点的位置。而第三维是对应的rgb的一个3元数组，经过三维方向的拉直，形成一个可以用来训练的向量集合。对应的机器和人都是会产生差异的，人和机器都是去寻找对应的图片中生物的特征之后就将这样的特征与人们所熟知的生物特征进行比对，形成结论，但是有可能出现错误。例如如上的图片，无论是人还是机器都会将其识别成一个鸟类：乌鸦，但是实际上这是一只猫，一只黑猫 ②分区观察自己的小范围去判断特征，这是每一个neuron所作的事情。将对应的小范围进行拉直，作为输入，之后利用多层的运算形成最终的判断。对应的范围的属性与分布是可以根据实际情况进行灵活调整的。多个范围之间可以进行重叠，亦可以两个神经元去守备同一块的范围，非正方形的范围也是可取的。理论上对应的范围也是可以不相连的。但是实际的图像识别中很难利用的上 ③最经典的设计对应的所有的channel都参与识别但是对应的小区域...

虚拟机网络配置和共享文件夹

发表于2026-03-15|云计算|VM

山东大学计算机科学与技术学院云计算技术课程实验报告学号：202000130199 姓名：荆树吉班级： 20数据实验题目：虚拟化技术练习一VMware 实验学时：2 实验日期：实验目的：在Linux环境下，熟悉VMware虚拟化环境。具体包括：了解VMware虚拟化环境的配置和部署，并配置网络连接，使其能够与本地计算机互相通信；在虚拟机中创建一个共享文件夹，使得本地计算机能够访问该共享文件夹，撰写实验报告。硬件环境：联网的计算机一台软件环境： Linux 实验步骤与内容： 1. 安装VWware Workstation 官方正版VMware下载（16 pro）：我用的是阿里云盘传输下载，速度较快下载Linux系统镜像，来源同上安装：选一下安装地址，一直下一步即可。新建虚拟机现在我们就相当于买电脑，先把电脑配置整好。什么cpu啊内存条啊硬盘啊什么乱七八糟的，先不着急装系统。 Linux版本选的是GenOS7 64位。一路默认地址选在D盘安装操...

Linux环境基本操作练习

发表于2026-03-15|云计算|linux 操作

山东大学实验报告 1山东大学计算机科学与技术学院云计算技术课程实验报告学号：202000130199 |姓名：荆树吉 | 班级：20数据实验题目：Linux环境基本操作练习实验学时：2实验日期： 2023.2.25实验目的：在Linux环境下，熟悉基本的文件操作和命令具体包括：了解Linux，浏览文件、创建文件、安装一个程序、了解Python、C++等常用编程环境硬件环境：计算机一台软件环境：Linux 实验步骤与内容：1.了解linuxLinux，全称GNU/Linux，是一种免费使用和自由传播的类UNIX操作系统，其内核由林纳斯·本纳第克特·托瓦兹于1991年10月5日首次发布，它主要受到Minix和Unix思想的启发，是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。Linux有上百种不同的发行版，如基于社区开发的debian、archlinux，和基于商业开...

Hello World

发表于2026-03-14

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment

自注意力机制

发表于2025-10-24|机器学习|自注意力机制

自注意力机制自注意力（Self-Attention）机制是一种特殊的注意力机制，它允许模型在处理一个序列时，考虑到序列中每个元素与其他所有元素的关系。这种机制可以帮助模型更好地理解序列中的上下文信息，从而更准确地处理序列数据。 (序列数据是一种数据类型，其中的元素存在特定的顺序。每个元素都有特定的位置，且位置之间的顺序关系对于数据的含义和处理方式有重要影响）在自注意力机制中，模型会计算序列中每个元素与其他所有元素的关联度（或称为权重）。这些权重反映了元素之间的相互关系，比如在语言模型中，它们可以反映词与词之间的语义关联度。（比如机器翻译） 1举例：以"the 2022 Beijing Winter Games"为例，当模型处理"Games"这个词时，通过自注意力机制，它可以考虑到"2022"、"Beijing"和"Winter"这些词的信息。这样，模型就能理解到"Games"在这里并不是指一般的"游戏"，而是指特定的"比赛&quo...