备注:Linux系统,目前只需将以下分析工作形成pipeline,做成打包程序(以下多数内容我们已经掌握分析方法)。如果有能力做其他相关分析,可详谈。项目制,价格根据内容详谈
16S rRNA 基因测序数据分析
一、原始数据处理
1. 拆分(demultiplex):将barcode从reads上去掉;
2. 质量控制(quality control):
1)过滤reads尾部质量值20以下的碱基,设置50bp的窗口,如果窗口内的平均质量值低于20,从窗口开始截去后端碱基,过滤质控后50bp以下的reads,去除含N碱基的reads;
2)根据PE reads之间的overlap关系,将成对reads拼接(merge)成一条序列,最小overlap长度为10bp;
3)拼接序列的overlap区允许的最大错配比率为0.2,筛选不符合序列;
4)根据序列首尾两端的barcode和引物区分样品,并调整序列方向,barcode允许的错配数为0,最大引物错配数为2;
(美吉使用软件:FLASH、Trimmomatic)
3.去除嵌合体(chimeric sequence)
4.去除Chloroplast-Mitochondria-unknown-Archaea-Eukaryota
5.OUT聚类
SILVA v132
二、后续分析
1. α多样性分析
多样性:Shannon指数,Inverse Simpson指数
丰富度:sobs, ace chao
均匀度:Shannoneven, Simpsoneven
2.稀释曲线
3.物种组成分析
柱状图,Venn图,Heapmap图 (vegan)
4.β多样性:
距离计算方法:Bray-Curtis, Euclidean,weighted/unweighted UniFrac
Ordination: PCA, PCoA, NMDS
统计方法:Anosim, PERMANOVA(Adonis), PLS-DA
5.差异物种
LEfSe
6.代谢通路预测
7.Network网络分析