NEWS
新聞資訊
|
小白輕松入門GWAS:從數據準備到可視化結果在群體重測序的文章中,我們經常看到利用GWAS篩選候選基因。 那么,什么是GWAS?GWAS如何進行分析?需要準備哪些數據?有哪些可視化結果?這些都是新人常常疑惑的問題。本期,我們將與大家探討全基因組關聯分析(GWAS)。 GWAS是一種統計學的研究方法。它可用于在許多不同人群中識別與特定疾病或生物學特征相關的基因變異。這種方法通過比較患有特定疾病的個體與不患病的個體的基因組,來尋找與疾病風險相關的基因標記,特別適合復雜疾病。而在農業和生物多樣性研究中,GWAS被用來識別影響作物產量、抗病性、生長速度以及其他農藝性狀的基因。此外,GWAS也應用于動物,幫助我們理解疾病機制和遺傳性狀,這對于畜牧業和寵物繁育同樣有重要價值。
應用方向 在重測序分析中,將測序數據比對到參考基因組上后,會進行變異檢測;而變異類型主要有單核苷酸變異(SNP)、插入缺失(Indel)、拷貝數變異(CNV)和結構變異(SV)等變異類型。GWAS是基于SNP的關聯分析,所以我們先了解下SNP。 SNP的概念 單核苷酸多態性(Single Nucleotide Polymorphisms,SNPs)是指在基因組的特定位置上,單個核苷酸(A、T、C或G)發生變異,導致不同個體之間在該位置上的堿基不同。這種變異是最常見的遺傳多態性形式,大約平均每1000個堿基中就有一個多態位點。 假設我們有兩個DNA序列: 參考序列:...AAGCTATGC... 變異序列:...AAGCTGTGC... 在這個例子中,參考序列中的堿基“A”被變異序列中的堿基“G”所取代,這就是一個SNP。SNPs可以出現在基因組的任何位置,包括編碼區、非編碼區、調控區等。根據其位置和性質,SNPs可以分為以下幾類: 通過改變轉錄因子結合位點的構象來調節基因表達; 可能改變信使核糖核酸(mRNA)的翻譯初始化和轉錄穩定性; 可能產生剪接改變、外顯子跳躍,并調節核輸出、轉錄速率和轉錄穩定性; 可能導致一個氨基酸取代另一個氨基酸,也稱為非同義多態性,這可能產生蛋白質結構修飾;外顯子區域除了非同義多態性,還有同義編碼SNP,同義編碼SNP本身不會改變蛋白質序列,因為并不是所有密碼子的改變都會改變氨基酸序列,但這并不意味著這部分的SNP就對表型沒有影響。蛋白質翻譯存在密碼子偏好性,也有可能會導致表型變化。 可能改變轉錄穩定和mRNA的定位。
圖:單核苷酸多態性(SNPs)根據其位置而產生的功能效應[1] SNPs是基因組中最常見的遺傳變異形式,通過影響蛋白質功能、基因表達等機制,對個體的表型產生重要影響。研究SNPs具有廣泛的意義,不僅在醫學領域推動疾病研究和個性化醫療的發展,還在農業領域促進作物和動物育種、提高生產效率、保護遺傳多樣性等方面發揮重要作用。同時,SNPs研究在進化生物學、生態學和群體遺傳學等基礎研究領域也具有重要價值。 了解完SNP,我們再來看看GWAS的分析流程,它是如何將SNP信息和表型數據結合起來的,尋找關聯位點。 以植物為例,GWAS流程如下: (1) 選擇合適的群體,收集表型信息 (2) 高通量測序,基因分型 (3) GWAS關聯分析 (4) 整合分析 (5) 候選基因挖掘及功能驗證
圖:植物中GWAS的流程示意圖[2]
在農學上,研究要求較大的樣本規模,以確保統計效力,并且樣本應具有良好的代表性,覆蓋目標群體的遺傳多樣性。常見的群體有自然群體、遺傳群體。
選擇合適的群體后,我們需要準備兩個數據:表型數據和基因型數據。
談起表型數據,我們先來了解下GWAS的表型性狀。 GWAS中的表型性狀可以分為三類:數量性狀、質量性狀和分級性狀。 數量性狀是指可以用數字值來描述的性狀,例如:
這些性狀可以通過測量獲得連續的數字值,通常遵循正態分布或近似正態分布。一般由多基因控制,能夠測量得到具體數值,受環境影響大。所以,盡量保證樣本材料在相同或盡可能一致的環境條件下培育或養殖。這樣的控制可以幫助我們更精準地識別出基因對性狀的影響,減小環境變量帶來的噪音。 與數量性狀相反,其無法用固定數值表示,而是表現出一種狀態,例如:
質量通常是由一個或少數幾個基因控制的,表現為離散的、可區分的類別,例如豌豆的花色或人類的血型。這類性狀無法用具體數值衡量,但可以用分類變量表示,比如用0、1等標識不同類別。為了確保分析的準確性和統計效能,建議在采集樣本時盡量保證各類別的樣本數量相近。 分級性狀是介于質量性狀和數量性狀之間的一類性狀,表現為有序的類別,但這些類別之間的差異不是連續的。例如,抗病性可以分為低、中、高三類。分級性狀通常由多基因控制,并且可能受到環境因素的影響。例如:
這些性狀可以用數字值(0、1、2等)來描述,但具有明確的等級或順序,比如將疾病嚴重程度分為輕度(1)、中度(2)和重度(3)。 表型數據通常是一個數據框(如下圖),行表示個體樣本,列表示不同的表型。舉個例子:選取了1000個小麥樣本作為研究對象,這些樣本來自不同的品種和地理位置。我們關注的是小麥的株高性狀,這是一個數量性狀,可以用厘米來衡量。 表型數據參考模板如下:
表型數據參考模板
基因型是指一個個體在某個特定基因位點上所擁有的等位基因的組合。每個基因位點可以有不同的等位基因,這些等位基因是由父母各自傳遞的一個單倍體組成。
基因型數據的參考模板 SNP_ID:SNP標識符,通常以"rs"開頭,后跟一個唯一的數字。 CHR:染色體編號,表示SNP所在的染色體。 BP:堿基對位置,表示SNP在染色體上的位置。 A1:等位基因1,表示SNP的參考等位基因。 A2:等位基因2,表示SNP的替代等位基因。 Sample1,Sample2,Sample3,...:每個樣本的基因型,使用兩個等位基因的組合表示(如AA,AG,GG)。 前期數據準備好,我們就需要利用相關軟件(比如PLINK或GCTA等,我們使用的是GCTA)進行GWAS分析,找到與目標表型相關的候選位點。GWAS的初步結果通常會給出一個表格結果,如下圖:
GWAS結果 CHR:染色體編號,通常用阿拉伯數字表示。 SNP:單核苷酸多態性,也稱為遺傳變異,沒有通用名留空。 POS:基因組物理位置,以堿基對(bp)為單位。 A1:SNP上的第一個等位基因,通常選擇出現頻率較高的那個。 A2:SNP上的第二個等位基因,通常選擇出現頻率較低的那個。 N:屬于該種類型等位基因的樣本數 AF1:SNP上的第一個等位基因頻率 BETA: 擬合參數 SE:每個等位基因貢獻效應值的標準誤差 P:顯著性水平,表示該SNP與性狀是否相關的統計顯著性程度,通常以科學計數法表示。 PVE:該位點表型變異解釋百分比。 結果表格中列出來一些結果:染色體信息、SNP、基因組位置、等位基因信息、出現等位基因的樣本數、第一個等位基因頻率,還有相應的P值(通過統計檢驗計算)。我們主要關注P值。P值(p-value)是一個重要的統計指標,用于評估某個基因變異(通常是單核苷酸多態性,SNP)與研究的性狀或疾病之間關聯的顯著性。P值越小,表示SNP與表型的關聯性越強。 GWAS中有三個非常典型的可視化結果圖:曼哈頓圖、QQ圖和LD-Block圖。
GWAS可視化結果[2]
因其形似曼哈頓摩天大樓,故俗稱為曼哈頓圖。本質上它是一個散點圖,一種用于展示GWAS結果的常用可視化工具。在曼哈頓圖中,橫軸表示基因組的染色體位置,按照染色體的順序排列,每個染色體用不同的顏色表示。縱軸表示-log10(P),通常越高表示關聯越顯著。因此,曼哈頓圖的縱軸可以幫助研究人員快速識別基因組中具有顯著關聯的區域。 圖中還會設置一條閾值線(下圖虛線,通常設置為P<5×10-8),超過閾值線的點表示相應變異位點與目標性狀顯著相關。在實際研究中,關鍵顯著的點會被認為是候選位點,之后會對相關位點的基因進行功能驗證。此外,GWAS分析中如果是數量性狀的話,曼哈頓圖有成簇的顯著性位點會更佳,單一位點可能存在假陽性。
曼哈頓圖
QQ圖(quantile-quantile plot),也叫做分位圖,是判斷GWAS分析結果假陽性、假陰性的重要指標。它用于評估觀察到的P值分布與期望的P值分布之間的差異。 · 分析原理: QQ圖通過將觀察到的P值的負對數(-log10 P)與期望的P值的負對數進行比較,來評估觀察結果是否與期望一致。具體步驟如下: 1. 排序P值:將所有SNP的P值從小到大排序。 2. 計算期望P值:假設沒有任何真實關聯(即所有SNP的P值均服從均勻分布),計算每個排序位置的期望P值。 3. 繪制圖表:在圖表上繪制觀察到的P值(y軸)對期望P值(x軸)的點。 如果觀察到的P值與期望P值一致,點將沿對角線(y=x)分布。這表示沒有系統性偏差,所有的顯著性結果都是隨機的。如果偏離對角線,存在2種情況:向上偏離,點在對角線之上,表示觀察到的P值比期望的更小,表明存在顯著的關聯信號;向下偏離,點在對角線之下,可能表明存在系統性偏差,如群體結構或技術誤差。下圖示例QQ圖末端翹起表明研究的表型和基因型之間是存在顯著相關的自然選擇作用。
QQ圖
LD-Block圖(Linkage Disequilibrium Block圖)用于展示SNP之間的連鎖不平衡(LD)關系。在GWAS中,如果只分析單個SNP與疾病或性狀的關聯,可能會忽略掉由多個相互作用的SNPs共同影響的效果。連鎖不平衡是指在群體中,某些基因變異組合比預期的獨立分布更頻繁地一起遺傳。我們可以理解為多個SNP一起組團發揮作用,調控表型。在染色體上,一組高度連鎖的基因變異形成一個連鎖不平衡區塊(LD Block)。這些區塊內的變異通常一起遺傳。 LD-Block圖通常以三角形矩陣呈現,顯示SNPs之間的LD關系,圖中常用不同的顏色表示LD強度。深色調(如紅色)表示較強的LD(即值高),淺色調(如白色)表示較弱的LD。
LD-Block圖 通過全基因組關聯研究(GWAS),我們能夠深入了解基因與復雜性狀和疾病之間的關聯,為個性化醫療、疾病預防和治療提供科學依據。GWAS在農業科學中的應用也同樣重要。通過GWAS,我們可以識別與作物產量、抗病性、耐逆性等重要農藝性狀相關的基因,推動作物育種和農業生產的進步。GWAS幫助我們更好地理解植物和動物的遺傳基礎,從而提高農業生產效率、增強作物和牲畜的抗病能力、優化農產品質量。作為一家提供基因組學服務的公司,我們擁有豐富的GWAS分析經驗,能夠為您提供高質量的分析服務。如果您有GWAS相關分析需求,歡迎聯系我們~
項目咨詢
[1] Ruiz-Ballesteros, A.I.; Meza-Meza, M.R.; Vizmanos-Lamotte, B.; Parra-Rojas, I.; de la Cruz-Mosso, U. Association of Vitamin D Metabolism Gene Polymorphisms with Autoimmunity: Evidence in Population Genetic Studies. Int. J. Mol. Sci. 2020, 21, 9626.https://doi.org/10.3390/ijms21249626 [2] Wang W., Guo W., Le L., Yu J., Wu Y., Li D., Wang Y., Wang H., Lu X., Qiao H., Gu X., Tian J., Zhang C., and Pu L. (2023). Integration of high-throughput phenotyping, GWAS, and predictive models reveals the genetic architecture of plant height in maize. Mol. Plant. 16, 354–373. 了 解 更 多 { 往 期 精 彩 回 顧 } 精選合集,歡迎收藏喲! 精選合集,歡迎收藏喲!
|













