transformer
一、背景1. 序列到序列模型 1)语音辨识**输入输出关系:**输入声音信号(t帧特征向量),输出对应文字(n个字),t与n无固定比例关系。 **典型案例:**台语语音辨识系统(1500小时乡土剧训练数据)。 **技术特点:**直接端到端训练,跳过音标转换等中间步骤(”硬train一发”方法)。 2)机器翻译**长度关系:**输入句子长度n与输出句子长度n’由模型动态决定。 中英案例:“机器学习”(4字)→”machine learning”(2词),非固定1/2比例(可长可短)。 3)语音翻译(语音辨识复合机器翻译)**特殊价值:**适用于无文字语言(全球7000+语言中过半无文字系统)。 **实现方式:**直接建立语音到目标语言文字的映射,避免传统ASR+MT串联方案。 4)台语语音辨识应用案例 **数据来源:**YouTube乡土剧(台语音频+中文字幕对齐数据)。 **技术挑战:**背景⾳乐/噪声干扰(直接忽略处理);字幕与语音不完全对齐(仍可训练);跳过台罗拼音中介步骤(端到端训练);强行训练。 **典型错误:**倒装句处理困难(”我有帮厂长拜托” v...
MACHINE
Final ProjectTeam Info English Name Chinese Name ID Jing Shuji 荆树吉 202000130199 Zeng Junhao 曾俊豪 202000130222 Dataset1: Bank Marketing(classification)Assignment1Background Based on the classic marketing dataset of banks, the user characteristics and the current status of bank deposit business are analyzed to formulate bank marketing strategies. Major domestic banks and Internet wealth management institutions can learn from the marketing of bank deposit products.These data are ...
无标题
Principle and Applications of Artificial IntelligenceChapter 0 Introduction to AI 2025秋ContentsPreface 引子1 What is AI?2 AI-Model:Agents-Environments& The Structure of Agents3 Applied AI (应用)4 AI Progress5 AI:SOTA—大模型时代6 Reasoning & InferenceSummaryReferencesIntroduction to AIIntroduction to AI Preface(引子)回顾历史:10+年前我国学者的认识• 2008年,我国学者在回顾中国人工智能发展过程时写道(王飞跃等,2008):• 人工智能的发展一直流传着各种说法,诸如• 人工智能不热门了,走下坡路了• 要被其他学科取代了• 在国外的人工智能研究都申请不到基金资助了• 这些都是毫无根据的!人工智能是一门几乎在所有方面都具有重要应用的技术4我国学者当时对于人工智能发展的观点 ...
PLINK工具用于数据的质量控制QC
PLINK basics(PLINK基础)In this module, we will learn the basics of genotype data QC using PLINK, which is one of the most commonly used software in complex trait genomics. (Huge thanks to the developers: PLINK1.9 and PLINK2)用PLINK解决基因数据的质量控制问题 Table of Contents Preparation PLINK 1.9 & 2 installation Download genotype data PLINK tutorial Calculate the missing rate and call rate Calculate allele frequency Hardy-Weinberg equilibrium exact test Applying filters LD-Pruning Calculate the inbree...
PheWAS
PheWAS R语言包示例代码运行1.R环境配置(VSCODE)安装vscode(默认已经安装)安装R:安装链接https://cran.r-project.org/mirrors.html,采用国内的清华镜像站 选取第一个清华的镜像站 选取适合自己电脑的版本 下载成功 下载成功后安装的硬盘一般默认C盘,但是不要选择装在C盘,例如我就装在D盘。 2.VSCODE上安装R语言的相关插件 如果对于编辑的界面有要求可以选择安装R LSP Client插件和Radian的编辑器,(暂时安装不成功,略过) 3.测试 建立一个.R的文件,直接编译运行即可 绘图结果: 2.R环境的PheWAS的代码运行下载对应的PheWAS的安装包The PheWAS R package is designed to provide an accessible interface to the phenome wide association study. PheWAS R软件包旨在为全表型关联研究提供一个可访问的界面。 可以使用devtools包安装PheWAS包。在R中执行以下代码将帮助您开始...
PCA在GWAS中的应用
Principle component analysis (PCA)PCA aims to find the orthogonal directions of maximum variance and project the data onto a new subspace with equal or fewer dimensions than the original one. PCA旨在找到最大方差的正交方向,并将数据投影到一个维度等于或小于原始维度的新子空间上。 info “Steps of PCA” example “A simple illustration of PCA” Source data: 12cov = np.array([[6, -3], [-3, 3.5]])pts = np.random.multivariate_normal([0, 0], cov, size=800) The red arrow shows the first principal component axis (PC1) and the blue arrow...
openVZ
山东大学 计算机科学与技术 学院云计算技术 课程实验报告 学号:202000130199 姓名: 荆树吉 班级: 20数据 实验题目:操作系统虚拟化 OpenVZ 实验学时:2 实验日期: 2023.4.18 实验目的:在Linux环境下,熟悉OpenVZ虚拟化。 具体包括:自行了解OpenVZ虚拟化技术,完成实验环境及实验工具的熟悉,包括安装和配置OpenVZ,了解如何创建容器等,撰写实验报告。 硬件环境: 联网的计算机一台 软件环境:Linux 实验步骤与内容:1.添加源vim /etc/apt/sources.list.d/openvz.list 写入下面内容保存 如果需要,可以视情况改动注释. deb http://download.openvz.org/debian wheezy main # deb http://download.openvz.org/debian wheezy-test main 2.导入key后更新wget http://ftp...
(hexo github)搭建云平台
山东大学实验报告3-1山东大学 计算机科学与技术 学院云计算技术 课程实验报告 学号:202000130199 |姓名:荆树吉 | 班级:20数据 实验题目:利用云平台搭建个人博客 **实验学时:2|实验日期: 2023.3.15 实验目的:熟悉个人博客系统的搭建。具体包括:参考方案:注册Github账号,搭建Hexo环境并实现个人博客搭建,撰写实验报告。 硬件环境: 联网的计算机一台 **软件环境:Windows ** 实验步骤与内容: • 1.安装Git• **windows:**到git官网上下载.exe文件,Download git,安装选项还是全部默认,只不过最后一步添加路径时选择Use Git from the Windows Command Prompt,这样我们就可以直接在命令提示符里打开git了。• 2.安装Node.js• windows:下载稳定版或者最新版都可以Node.js,安装选项全部默认,一路点击Next。最后安装好之后,按Win+R打开命令提示符,输入node -v和npm -v,如果出现版本号,那...
nlp05
实验5 词向量1.One-hot编码实验1.1 实验介绍One-hot编码也称之为独热编码,是NLP里的经常在预处理数据的时候使用的技术。通常是需要将离散型特征或者标签用One-hot编码。比如房价预测中,出现房屋朝向的特征,一共有南、东南、西南、东、东北、北、西北和西8个方向,那么这样的离散特征是需要One-hot编码的,比如“南”的one-hot编码为[1,0,0,0,0,0,0,0],“东南”的One-hot编码为[0,1,0,0,0,0,0,0]…依此类推。 1.2 实验要求12x=['体育', '军事', '娱乐', '教育', '文化', '时尚', '科技', '财经']onehot_encode(x) 编写onehot_encode函数,生成效果如下: 提示:可以使用sklearn.preprocessing中的OneHotEncoder 1.3 思考题从one-hot编码结果来看,one-hot编码的...
