首页WIN11问题当孟德尔遇上GWAS。。。

当孟德尔遇上GWAS。。。

时间2022-11-13 00:15:03发布分享专员分类WIN11问题浏览232

Hivcf是什么文件 ,大家好,我是晨曦

今天这期推文是我们孟德尔随机化分析系列推文的新起点vcf是什么文件 ,前两期推文我们已经大致了解了孟德尔随机化分析(MR分析)的总体流程,尽管整体的分析流程比较固化,但是其中的一些细节还有难点依旧值得我们讨论和学习,如果在进行MR分析的时候遇到了以下问题,那么请关注随后几期的MR分析教程,相信会让各位小伙伴对于MR分析有更深入的理解:

1.从哪里获取数据vcf是什么文件 ?

2.使用什么R包进行分析vcf是什么文件 ?

3.工具变量的选择有什么技巧vcf是什么文件 ?

4.混杂因素如何校正vcf是什么文件 ,以及在文章书写的时候究竟需要如何描述?

好vcf是什么文件 ,那么本期推文是MR分析系列教程的第一期,我们终点关注如何获取数据,因为在MR分析中数据是核心,如果我们没有数据那么其实一切都是纸上谈兵|镜花水月而已

那么vcf是什么文件 ,我们开始吧~

一、MR分析数据库介绍

首先推荐给大家的第一个GWAS数据库就是——IEU OpenGWAS project (mrcieu.ac.uk)

优点:可以和TwoSampleMR包完美配合vcf是什么文件 ,十分方便

缺点:数据部分时间有点oldvcf是什么文件 ,而且大部分我们感兴趣的数据其实不能通过R包进行完美下载

当孟德尔遇上GWAS。。。

那么vcf是什么文件 ,第二个GWAS数据库是——UK Biobank —Neale lab

优点:数据全面、整理有条理

缺点:UKbiobank是英国数据库vcf是什么文件 ,但是貌似完整版是需要花钱注册的(UKB数据使用费用分为三档,分别是3000英镑/6000英镑/9000英镑),我们这里使用的其实是2018年有UKbiobank分享出来的数据,这个数据是免费且不需要注册的,所以数据时间上可能会有点滞后,但是也还好,因为不像是测序数据,一般来说大批量的GWAS数据普通课题组是无法承担的

当孟德尔遇上GWAS。。。

随后vcf是什么文件 ,第三个GWAS数据库是——FinnGen-tutkimushanke vie suomalaiset löytöretkelle genomitietoon | FinnGen

优点:数据较新、包括新型冠状病毒的GWAS数据、而且页面布局超级好看vcf是什么文件 !!

当孟德尔遇上GWAS。。。

当然还有很多的GWAS数据库vcf是什么文件 ,请注意,MR分析其实依靠的就是GWAS数据,但是GWAS数据并不是只有MR分析这一种分析思路,所以当我们掌握了MR分析之后,也可以去开展其它的GWAS分析流程

而且网络还有很多总结好的GWAS数据库vcf是什么文件 ,这里晨曦只是展示了自己比较常用的,更多的数据库,各位小伙伴可以在网络上进行检索就可以找到更多总结好的教程

二、数据读取

那么vcf是什么文件 ,下面我们通过IEU数据库来展示两种数据读取的方式,使用IEU数据库来进行演示,一方面这个数据库有配套的R包可以做到完美配合,一方面就是这个数据库上也有不能通过配套R包进行完美配合,但是可以下载的GWAS数据

其实简单来说就是在线方式和本地方式两种数据获取方式的演示

本地方式

假设:BMI和急性心肌梗死是否具有因果关系vcf是什么文件 ,即BMI升高会不会导致急性心肌梗死的发病率增加

这个主题会一直持续到本次系列推文结束vcf是什么文件 ,我们这期主要涉及到获取数据的内容

第一步:获取暴露因素的GWAS数据vcf是什么文件 ,打开IEU数据库搜索相关GWAS数据

直接在IEU的搜索栏中搜索相关疾病即可vcf是什么文件 ,这里有有一个细节,就是我们搜索的关键词尽可能不要太狭窄,其实就是和文献检索一个道理,先保证查全,再靠人工实现查准

当孟德尔遇上GWAS。。。

然后我们就可以看到上面这个界面vcf是什么文件 ,这个时候需要注意GWAS ID,我们可以很清楚的知道,上面这些GWAS数据都是来自于UKbiobank的,所以这些数据我们无法通过配套的R包直接获得,然后我们随便点击一个GWAS ID

当孟德尔遇上GWAS。。。

然后重点看我标志箭头的地方vcf是什么文件 ,VCF文件就是我们需要下载的GWAS全部数据文件,然后这个数据的时间是2018年,这里晨曦想要提出一个疑问:为什么是2018年呢?

回答:因为目前网络上vcf是什么文件 ,免费,开源,贡献的UKbiobank数据都是截至在2018年的,后续更新的数据需要注册且缴纳一定费用

这里晨曦建议vcf是什么文件 ,如果我们暴露因素选择是欧洲人,那么我们的终点结局也需要选择欧洲人,尽可能做到人种的统一,同时我们的疾病组尽量保证在大于1000人以上,如果太少,除非必须,否则晨曦就不建议使用这个GWAS数据了

三、数据信息

然后这里我们点击Download VCF就可以下载这个数据集vcf是什么文件 ,然后我们通过下面代码就可以在R中打开

#准备工作

library(TwoSampleMR)

library(tidyverse)

library(vcfR)

#读取VCF文件data <- vcfR::read.vcfR("ukb-b-453.vcf.gz")data

然后我们可以看到这个VCF对象里面有三部分数据vcf是什么文件 ,然后我们这里简单查看一下每一个部分的数据

meta <- data.frame(data@meta)meta

然后我们可以知道meta信息里存放的是注释信息vcf是什么文件 ,也就是每一个变量是什么意思

在前面的推文中我们提到过vcf是什么文件 ,我们想要进行MR分析需要必须的信息包括:

1.SNP ID :通常是rs开头vcf是什么文件 ,但是如果遇到不是的时候,我们可以通过查询网络看看可不可以互换

2.Effect allele(alternative allele):效应位点

3.Other allele(reference allele):其它位点

4.Beta(OR):如果是连续型变量就是Betavcf是什么文件 ,如果是二分类变量就是OR,代表突变究竟有益还是有害

5.Standard error:置信区间

6.Pvalue :SNP位点是否具有统计学意义

那么很显然这个meta信息就是帮助我们理解变量究竟是什么含义的vcf是什么文件 ,因为有可能变量代表某个含义但是写法不一样,所以需要单独注释出来,这就是meta信息存在的意义

fix< -data.frame( data@ fix) fix

很显然vcf是什么文件 ,fix信息就是SNP矩阵,但是有些信息却是我们不需要的,我们还需要查看剩下的信息

REF:reference allele(Other allele)

ALT:alternative allele(Effect allele)

gt<- data.frame(data@gt) gt

gt信息包含的就是一些统计学的信息vcf是什么文件 ,通过查询meta信息我们可以知道每一个信息的含义

ES:Effect size(其实就是beta值)

SE:置信区间(标准误)

LP:-log10 p-value

AF:EAF(效应位点突变频率)

四、数据处理与分析

然后既然我们已经明确了上述信息都是代表什么vcf是什么文件 ,那么我们就可以把数据进行合并和删除,整理成MR分析需要的样子

肯定有很多小伙伴不明白这些信息具体是什么意思vcf是什么文件 ,这个因为涉及到遗传学的一些知识,而且如果一定要问晨曦这些变量的具体含义,晨曦也不是十分的理解,但是我们只需要知道我们需要这些信息来进行后续的分析,如果真的没有到时候在进行相关的网络搜索即可

#读取数据data <- vcfR::read.vcfR( "ukb-b-453.vcf.gz") meta <- data.frame(data@meta)fix <- data.frame(data@fix)gt<- data.frame(data@gt)

#整理数据fix <- data.frame(data@fix[, 1: 5]) fix <- fix %>% dplyr:: select(ID,ALT,REF,everything) gt<- data.frame(data@gt[, 2]) beta <- as.numeric(unlist(strsplit(as.character( gt$data.gt... 2.), split= ":"))[se q(1,nrow(gt)* 5, 5)]) se <- as.numeric(unlist(strsplit(as.character( gt$data.gt... 2.), split= ":"))[se q(2,nrow(gt)* 5, 5)]) p <- as.numeric(unlist(strsplit(as.character( gt$data.gt... 2.), split= ":"))[se q(3,nrow(gt)* 5, 5)])

MR_data <- data.frame(beta = beta,se = se,adjpvalue = p)MR_data$pvalue <- 10^(MR_data$adjpvalue) MR <- cbind(fix,MR_data)rownames(MR) <- NULLcolnames(MR)[ 1] <- "SNP"colnames(MR)[c( 2, 3)] <- c( "Effect_allele", "Other_allele") MR#write.csv(MR, file="exposure.csv")

然后这样我们就得到了暴露因素和工具变量之间的GWAS数据vcf是什么文件 ,然后我们需要选择工具变量和暴露因素具有强相关性,那么原始P值需要小于5×10-8且LD<0.001,最好在计算一个F大于10(但是有的文献并没有计算这个,而是单纯拿前面两条进行筛选),关于工具变量的选择条件(MR分析的三大假设)会专门出一期推文来进行讲解

那么到这里我们通过下载数据并整理成R包需要的方式就结束了vcf是什么文件 ,然后我们需要使用TwoSampleMR包进行分析

myocardial_exposure_clump < -read_exposure_data(filename= "exposure.csv", sep= ",", snp_col= "SNP", beta_col= "beta", se_col= "se", effect_allele_col= "Effect_allele", other_allele_col= "Other_allele", clump= TRUE)

这样我们就成功把本地文件转换成了TwoSampleMR包需要的格式vcf是什么文件 ,然后后续就可以直接使用TwoSampleMR包配套的可视化代码以及分析流程

至此vcf是什么文件 ,本地文件导入R并转换成TwoSampleMR包需要的输入数据格式流程结束

那么接下来我们来演示一下直接使用TwoSampleMR包对接IEU数据库vcf是什么文件 ,其实只需要下面一句代码即可:

exposure_dat<-extract_instruments( "ieu-a-2") #提取工具变量-暴露因素

至此vcf是什么文件 ,获取GWAS数据以及如何整理就给各位小伙伴介绍到了这里,当然很多数据库其实可能数据彼此不一样,但是我们只需要掌握这个整理的大概流程,接下来遇到别的不一样的数据,耐心整理,如果实在不行那就舍弃掉,相信看完今天的推文,各位小伙伴就可以从容应对后续各种各种的GWAS数据了

那么vcf是什么文件 ,本期推文到这里就结束了~

我是晨曦vcf是什么文件 ,我们下期再见QAQ

参考教程:

1.TwoSampleMR-R教程 两样本孟德尔随机化(原来真的就是这么简单……) 野柚子__的博客-CSDN博客 两样本孟德尔随机化

2. 读取GWAS结果的vcf格式文件

— END—

撰文丨晨 曦

排版丨三叶虫

编辑丨三叶虫

欢迎大家关注解螺旋生信频道-挑圈联靠公号~

爱资源吧版权声明:以上文中内容来自网络,如有侵权请联系删除,谢谢。

孟德尔GWAS孟德尔GWASvcf是什么文件
制作u盘启动盘哪个软件好 请问文件名后缀为.vcf的文件是什么文件啊,