通過單分子測序進行玉米和高粱間的比較轉錄組分析
A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing
DOI:10.1101/gr.227462.117
Genome Research 2018
1. 主要數據
選取玉米B73自交系14天的根、莖、葉和種子等組織,以及v8時期的葉耳,r1時期的花粉,授粉20天后的胚、胚乳和果皮,R1時期的絲,最深處的苞片。高粱BTx623 14天的根、莖、葉和種子等組織,授粉20天后的胚、胚乳和果皮,開花期123三個時期的花序。所有的組織都進行了超過10個個體的三個生物學重復的混池測序。
所有Illumina和Pacbio Iso-Seq都上傳到ArrayExpress (https://www.ebi.ac.uk/arrayexpress/), 數據編號為E-MTAB-5957,E-MTAB-5915, 和E-MTAB-5956.
2. 主要分析流程
a. 基礎分析包括Illumina 數據RNA-seq,Pacbio數據比對,利用Pacbio數據鑒定lncRNA,以及Pacbio isoform的功能注釋和Wang 等*(2016)采用的方法一致。
* Wang B, Tseng E, Regulski M, Clark TA, Hon T, Jiao Y, Lu Z, Olson A, Stein JC, Ware D. 2016. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nat Commun 7: 11708.
b. 單拷貝基因和倍增基因的鑒定:基于Ensembl Compara gene tree 的流程,以高粱基因作為古老基因進行鑒定,在玉米和高粱中都只有一個直系同源基因的為單拷貝基因,如果在高粱中有一個而玉米種有兩個直系同源基因,那么玉米中的直系同源基因被認為倍增基因。cleavage sites (CSs) c. 可變聚腺苷酸化(Alternative polyadenylation,APA) 分析: 提取每個轉錄本的3'UTR中切割位點(cleavage sites, CS)上游50nt的序列,并使用SignalSleuth2對從1-40nt上游CS區域poly(A)基序進行掃描以鑒定靠近上游的元件(near upstream element, NUE)基序。來自每個組織的前10個基序用于物種之間和組織之間的比較。 為了測量聚腺苷酸化的組織特異性,我們將兩個物種間的11種組織種結束位置相聚5nt之間的所有全長轉錄本聚集在一起,并按照基因位點對不同組織在不同poly(A)位點的轉錄本進行分組。
d. 無義介導的衰變(Nonsense-mediated decay, NMD)候選的鑒定:為了確定可變剪切是否產生含有過早終止密碼子并且可能被NMD降解的全長轉錄本,我們首先通過EMBOSS預測每個全長轉錄本的最長ORF并計算出終止密碼子和最后一個外顯子結合點之間的距離。如果一個全長轉錄本的距離> 50 nt,而另一種<50 nt,然后AS事件被認為是產生了NMD候選。 e. Ka/Ks 值計算:對于每種生物,在同源基因組中隨機挑選至少基于BLASTPe值≤10-5的直系同源蛋白對,然后選擇BLASTP評分最高的直系同源蛋白進行進一步分析。 使用Clustal W 2.0蛋白質序列的比對,并Pal2Nal將蛋白質序列比對轉換為相應的密碼子比對。 根據Nei-Gojobori算法,使用KaKs_Calculator1.2計算Ka / Ks值。 f. 轉錄進化年齡指數(transcriptome age index, TAI)和轉錄分化指數(transcriptome divergence index, TDI)計算:
TAI和TDI是進化年齡和序列分化的加權平均值。計算公式如下:
其中s =每個組織,n=分析的基因總數。低PS值對應于進化上的舊基因,因此低TAI值對應進化上的舊轉錄組。同樣,高PS值對應于進化上的年輕基因,因此高TAI值對應于進化上年輕的轉錄組。通過類比,我們簡單地通過用Ka / Ks代替上述方程中代替psi來引入發育階段的轉錄組發散指數TDIs,計算公式如下:
因此,低或高Ka / Ks值比分別對應于保守或分化基因,因此低或高的TDI值對應于分別是保守或分化的轉錄組。