目录

RNA-Seq

教程

流程

https://bioconductor.org/packages/release/BiocViews.html#___GeneExpressionWorkflow
Raw Data: Fastq (.gz) →

  1. QC: FastQC
  2. Filter
  3. Alignment: STAR
  4. Count
  5. Cluster
  6. Heatmap
  7. Differential

1 QC

FastQC

apt install fastqc

fastqc --noextract RawData/I409/I409_1.fq.gz -o results/1_initial_qc/ 

2 Alignment

基因组注释数据

Alignment Indexing

https://registry.opendata.aws/jhu-indexes/

对齐工具

HISAT2

https://daehwankimlab.github.io/hisat2/download/ * https://notebook.community/ssjunnebo/pathogen-informatics-training/Notebooks/RNA-Seq/genome-mapping

hisat2-build -p 32 fasta/Rattus_norvegicus.mRatBN7.2.dna.toplevel.fa hisat_index
hisat2 -x hisat_index/hisat_index -1 I409/I409_1.fq.gz -2 I409/I409_2.fq.gz -S I409.sam -p 32

STAR

2.7.10b

apt install rna-star

# 创建索引,索引文件创建一次即可. 需要从Ensembl下载对应物种的Fasta文件和GTF文件。
STAR --runMode genomeGenerate --genomeDir star_index --genomeFastaFiles fasta/* --sjdbGTFfile gtf/* --runThreadN 14

# 运行分析
STAR --genomeDir star_index --readFilesIn filtered/sample_filtered.fq --outSAMtype BAM SortedByCoordinate --quantMode GeneCounts --runThreadN 14

STAR --genomeDir star_index --readFilesIn rna4/RawData/I409/I409_1.fq --outSAMtype BAM SortedByCoordinate --quantMode GeneCounts --runThreadN 14

kallisto

# bat
kallisto bus [arguments] FASTQ-files

kallisto quant -i rattus_index_ki/transcriptome.idx -o reads.kallisto_quant -t 64 --fusion --pseudobam --genomebam --gtf gtf\Rattus_norvegicus.mRatBN7.2.109.gtf rna4\RawData\I409\I409_1.fq.gz rna4\RawData\I409\I409_2.fq.gz

3 Count

featureCounts -p -M -O -T 32 -a gtf/Rattus_norvegicus.mRatBN7.2.109.gtf -o output.txt data.sam [bam]

Splicing

rMATS

剪接事件

SE (Skipped Exon), MXE (Mutually Exclusive Exons), A5SS (Alternative 5' Splice Site), A3SS (Alternative 3' Splice Site), RI (Retained Intron)

计数方法

如果需要更精准的剪接事件识别,建议使用 JC。如果希望尽可能多地检测到所有的剪接事件,可以考虑 JCEC。

txt

ID:剪接事件的唯一标识符。
GeneID:发生剪接事件的基因的标识符(基因名称或基因 ID)。
chr:发生剪接事件的染色体位置。
strand:基因的链信息(正链或负链)。
longExonStart_0base 和 longExonEnd:选择的较长外显子的起始和终止位置。
shortES 和 shortEE:选择的较短外显子的起始和终止位置。
flankingES 和 flankingEE:两侧剪接外显子的位置。
ID:剪接事件的 ID 编号。
IncFormLen 和 SkipFormLen:包含和跳过该外显子的转录本的长度。
ICJ 和 SCJ(Inclusion Junction Counts / Skipping Junction Counts):代表包含和跳过该剪接事件的 reads 数目。
IncLevel1 / IncLevel2:代表在两组样本中该剪接事件的包含水平(Ψ值)。
IncLevelDiff:两组样本间的剪接差异值(ΔΨ,Inclusion Level Difference)。
PValue 和 FDR:用于判断剪接事件是否显著差异的 P 值和 FDR(假发现率)。