天津科技大學(xué)喬長晟教授等:高產(chǎn)聚蘋果酸黑色素短梗霉CGMCC18996全基因組組裝注釋及關(guān)鍵蛋白分析
2023-12-16作者:來源:責(zé)任編輯:食品界
字體A+AA-
聚蘋果酸(PMLA)是以蘋果酸為唯一單體的均聚高分子聚合物,屬于聚酯類聚合物,具有高生物相容性、高水溶性、生物可吸收性、化學(xué)可衍生性、可降解性和無免疫原性等多種優(yōu)良性能,在生物醫(yī)藥、食品和生物材料領(lǐng)域具有潛在的應(yīng)用前景。研究表明產(chǎn)黑色素短梗霉(Aureobasidium melanogenum)是一種具有較強(qiáng)產(chǎn)PMLA能力的類酵母真菌,對該菌種進(jìn)行基因組測序及組裝可為改造菌種,提高產(chǎn)量提供理論依據(jù)。
天津科技大學(xué)生物工程學(xué)院的王舸楠、李佳謙、喬長晟*等通過PacBio Sequel II及Illumina NovaSeq 6000測序平臺(tái)對高產(chǎn)PMLA產(chǎn)黑色素短梗霉基因組進(jìn)行測序,通過不同組裝軟件對測序的下機(jī)文件進(jìn)行組裝及優(yōu)化;結(jié)合轉(zhuǎn)錄組數(shù)據(jù)對組裝結(jié)果進(jìn)行基因結(jié)構(gòu)注釋。之后對基因組注釋結(jié)果進(jìn)行不同數(shù)據(jù)庫的功能注釋,同時(shí)分析PMLA合成關(guān)鍵蛋白。通過這種方法,期望得到適合于基因組分析以及后續(xù)分子生物學(xué)實(shí)驗(yàn)的高質(zhì)量基因組,為產(chǎn)黑色素短梗霉的開發(fā)利用提供一定生物信息學(xué)參考,并同時(shí)為其他類似物種的基因組組裝提供思路。
1 通過二代測序數(shù)據(jù)進(jìn)行基因組預(yù)組裝 基于Illumina NovaSeq 6000測序平臺(tái)對產(chǎn)黑色素短梗霉基因組進(jìn)行測序,共得到35.85 Gb×2的雙端測序結(jié)果。且該測序平臺(tái)得到的raw reads具有較高的質(zhì)量評分(Q>35)。之后,選取質(zhì)控后clean reads進(jìn)行后續(xù)的組裝實(shí)驗(yàn)。 不同k-mer長度對產(chǎn)黑色素短梗霉clean reads進(jìn)行組裝結(jié)果見表1,組裝結(jié)果顯示,產(chǎn)黑色素短梗霉基因組大小約為44 Mb。其中,在k-mer長度為127時(shí)得到N50值為908694,L50值為14,基因組覆蓋度為121.2×。基于該結(jié)果可以判斷該菌基因組長度理論值在44 Mb左右;且隨著k-mer長度的增加,N50值增大,L50值減小;若繼續(xù)增大k-mer值會(huì)進(jìn)一步優(yōu)化組裝參數(shù)。但由于SPAdes軟件進(jìn)行組裝的k-mer值最大為127,這可能是考慮到繼續(xù)加大k-mer值對測序深度要求較高,從而提高測序成本。

2 三代測序組裝結(jié)果及基因組結(jié)構(gòu)注釋
基于PacBio平臺(tái)的單分子測序共產(chǎn)生46 Gb大小的bam基因組測序文件,轉(zhuǎn)換為fasta文件后,根據(jù)二代組裝結(jié)果設(shè)置基因組大小為44 Mb進(jìn)行組裝。各組裝軟件組裝結(jié)果如表2所示,其中,選用Canu組裝的最優(yōu)結(jié)果通過quickmerge軟件與其他組裝結(jié)果進(jìn)行融合,并結(jié)合二代測序文件進(jìn)行基因組糾正(polish),在刪除重復(fù)contigs后的最終組裝結(jié)果見表3。

結(jié)合轉(zhuǎn)錄組測序文件進(jìn)行基因組結(jié)構(gòu)注釋共注釋出15684 個(gè)基因,并找到基因編碼區(qū)與氨基酸預(yù)測區(qū),因結(jié)合轉(zhuǎn)錄組測序文件進(jìn)行結(jié)構(gòu)注釋,這些基因可能包含有可變剪切和重復(fù)注釋的結(jié)構(gòu),會(huì)增加注釋出的基因數(shù)目。因此,進(jìn)行功能注釋和基因名稱注釋后需刪除重復(fù)的基因名;最終,共獲得6202 個(gè)基因注釋結(jié)果。
3 GO、KEGG、COG以及antiSMASH次級(jí)代謝注釋結(jié)果
對注釋出的6202 個(gè)基因進(jìn)行GO、KEGG與COG數(shù)據(jù)庫注釋,結(jié)果如圖1所示。其中,COG注釋結(jié)果顯示大部分基因與碳水化合物轉(zhuǎn)運(yùn)及代謝、氨基酸轉(zhuǎn)運(yùn)代謝、轉(zhuǎn)錄后修飾、RNA加工及修飾有關(guān)。KEGG注釋結(jié)果顯示大部分基因所處代謝通路與核糖體、過氧化物體、RNA轉(zhuǎn)運(yùn)有關(guān)。GO注釋結(jié)果顯示大部分基因與RNA、過氧化物體以及線粒體有關(guān)。最終,antiSMASH次級(jí)代謝物預(yù)測結(jié)果共發(fā)現(xiàn)4 個(gè)非核糖體肽合成酶(NRPS)基因簇、5 個(gè)一類聚酮合酶(pks)基因簇、3 個(gè)β-內(nèi)酯類合成基因簇以及7 個(gè)萜類合成基因簇,其中1 個(gè)一類pks基因簇和黑色素合成有關(guān)(相關(guān)性100%),1 個(gè)一類pks基因簇與黑麥酮酸類化合物合成有關(guān)(相關(guān)性18%)。
4 產(chǎn)黑色素短梗霉菌體透射電鏡結(jié)果 如圖2所示,在低產(chǎn)組中菌株具有較大細(xì)胞核(N)以及周圍存在的具有雙層膜結(jié)構(gòu)線粒體(M),在高產(chǎn)組中出現(xiàn)了類似乙醛酸循環(huán)體的圓形結(jié)構(gòu),提示黑色素短梗霉中可能存在有乙醛酸循環(huán)途徑。
5 PMLA合成相關(guān)基因結(jié)構(gòu)預(yù)測
在對基因結(jié)構(gòu)與基因名注釋后,找到PCKA、MASY的蛋白質(zhì)序列,其晶體結(jié)構(gòu)預(yù)測結(jié)果如圖3、4所示,其中,PCKA、MASY與PDB上傳晶體結(jié)構(gòu)(PCKA:1YLH,MASY:3CUZ)進(jìn)行比對,結(jié)果顯示預(yù)測的蛋白結(jié)構(gòu)與PDB數(shù)據(jù)庫中序列比對結(jié)果基本一致,氨基酸比對結(jié)果中序列與其晶體結(jié)構(gòu)中小分子配體的結(jié)合位點(diǎn)也具有較高的一致性。同時(shí)蛋白的保守作用位點(diǎn)如PCKA中86R、140V、146G、287G、288D、289D,MASY中440C、275C、276G、277R、278W在比對結(jié)果中一致。 結(jié)合基因組及轉(zhuǎn)錄組測序結(jié)果可以組裝并注釋出質(zhì)量較高的基因組。本研究通過三代測序(Pacbio sequel II平臺(tái))、二代測序(Illumina NovaSeq 6000)平臺(tái)對產(chǎn)黑色素短梗霉基因組進(jìn)行測序,因三代組裝需要預(yù)估基因組大小,因此,首先通過二代數(shù)據(jù)進(jìn)行基因組預(yù)組裝共得到44 Mbp基因組大小。之后考察了不同組裝軟件對產(chǎn)黑色素短梗霉基因組的組裝效果,在一般的默認(rèn)選項(xiàng)下,Canu軟件得到了較好的組裝效果。對該組裝結(jié)果通過二代數(shù)據(jù)修正并去重后得到包含26 個(gè)contigs、N50為2204220、GC值為50.09%、大小為42 Mb的較高質(zhì)量基因組組裝結(jié)果。通過轉(zhuǎn)錄組數(shù)據(jù)對該組裝結(jié)果進(jìn)行結(jié)構(gòu)注釋,共找到6202 個(gè)基因。產(chǎn)黑色短梗霉屬于出芽短梗霉的亞種,其在不同環(huán)境中也會(huì)呈現(xiàn)出酵母狀與菌絲體狀的不同形態(tài)。將基因組組裝與注釋結(jié)果與酵母和絲狀真菌的模式生物基因組進(jìn)行比較;其中釀酒酵母(Saccharomyces cerevisiae)基因組大小為12.15 Mb,編碼6016 個(gè)蛋白,GC含量為38.15%;構(gòu)巢曲霉基因組大小為30.30 Mb,編碼10008 個(gè)蛋白,GC含量為50.10%。因此,產(chǎn)黑色素短梗霉基因組組成更偏向構(gòu)巢曲霉,且本實(shí)驗(yàn)室先前通過無參轉(zhuǎn)錄組注釋發(fā)現(xiàn)很多與構(gòu)巢曲霉同源的基因。因構(gòu)巢曲霉是絲狀真菌的模式生物,該結(jié)果提示產(chǎn)黑色素短梗霉可能同樣適用構(gòu)巢曲霉的分子轉(zhuǎn)化方法。
本研究通過Illumina NovaSeq 6000平臺(tái)對產(chǎn)黑色素短梗霉進(jìn)行了大約35 GB下機(jī)文件大小的高通量測序,該測序量的測序深度較大,理論測序深度為1000×。通過二代組裝軟件進(jìn)行組裝后,最終組裝出N50值為908694的基因組,該結(jié)果僅達(dá)到三代測序組裝結(jié)果N50的41.4%,因此,考慮到組裝結(jié)果以及建庫與測序成本,三代測序進(jìn)行組裝輔以二代測序進(jìn)行基因組修正的測序方法更具有性價(jià)比。 通過COG、KEGG與GO數(shù)據(jù)庫注釋結(jié)果表明,產(chǎn)黑色素短梗霉中基因表達(dá)主要位于核糖體、線粒體以及過氧化物體等細(xì)胞器中,其中,有研究表明線粒體中的三羧酸循環(huán)、乙醛酸循環(huán)體中的乙醛酸循環(huán)以及細(xì)胞質(zhì)中的還原性三羧酸途徑與PMLA的生物合成有關(guān)。功能注釋結(jié)果中出現(xiàn)了大量與過氧化物體有關(guān)的基因,而能夠產(chǎn)生蘋果酸的乙醛酸循環(huán)體也屬于一類過氧化物體。因此,該結(jié)果說明在產(chǎn)黑色素短梗霉中可能存在乙醛酸循環(huán)體。實(shí)驗(yàn)室先前研究發(fā)現(xiàn)乙醛酸體中的MASY可通過乙醛酸途徑生成蘋果酸,相比于線粒體中存在的蘋果酸/天冬氨酸穿梭體系,乙醛酸循環(huán)體中蘋果酸可能可以直接通過單層乙醛酸體膜進(jìn)入細(xì)胞質(zhì)中而被非核糖體肽合成酶(NRPS)聚合成PMLA 。透射電鏡結(jié)果也顯示,在加入CaCO3的高產(chǎn)PMLA組中,菌體內(nèi)部出現(xiàn)了較多的圓形細(xì)胞器,提示菌體中存在乙醛酸循環(huán)體的可能。antiSMASH注釋結(jié)果表明在產(chǎn)黑色素短梗霉中存在4 個(gè)NRPS基因簇,該結(jié)果也同樣反映出NRPS蛋白聚合蘋果酸形成PMLA的可能性。同時(shí),注釋出的與黑色素合成的pks基因簇可解釋該菌種在生長過程中逐漸變黑的現(xiàn)象。 實(shí)驗(yàn)室先前研究表明,PCKA、MASY和NRPS基因在PMLA高產(chǎn)組中發(fā)生了較大幅度的上調(diào)。因此,通過對基因組注釋得到的PCKA和MASY的編碼區(qū)進(jìn)行了蛋白結(jié)構(gòu)預(yù)測,并將預(yù)測結(jié)果與PDB上已有的晶體結(jié)構(gòu)進(jìn)行比對。比對結(jié)果表明,蛋白預(yù)測結(jié)果與已有晶體結(jié)構(gòu)基本吻合,且保守結(jié)構(gòu)域相似,提示預(yù)測蛋白與其他菌株中已存在蛋白可能具有相似的功能。PCKA是糖異生途徑的限速酶,一般情況下催化草酰乙酸轉(zhuǎn)化為磷酸烯醇式丙酮酸,但有研究表明PCKA在真菌細(xì)胞質(zhì)中可反向催化磷酸烯醇式丙酮酸生成草酰乙酸。而細(xì)胞質(zhì)中的草酰乙酸會(huì)進(jìn)一步轉(zhuǎn)化為PMLA的前體物質(zhì)蘋果酸。MASY可催化乙醛酸循環(huán)中的第二部反應(yīng),將乙醛酸轉(zhuǎn)化為蘋果酸,而乙醛酸體的單層膜結(jié)構(gòu)可能使蘋果酸被動(dòng)運(yùn)輸進(jìn)入細(xì)胞質(zhì),進(jìn)而被細(xì)胞質(zhì)中存在的NRPS蛋白聚合成為PMLA。本實(shí)驗(yàn)沒有對NRPS蛋白預(yù)測的原因是因?yàn)槠浒被嵝蛄休^長(5000 aa左右),軟件無法預(yù)測,其次是在PDB上還沒有找到近似的蛋白晶體結(jié)構(gòu),比對較為困難。 本研究對產(chǎn)黑色素短梗霉進(jìn)行二代、三代基因組測序并組裝得到最優(yōu)組裝結(jié)果,后通過轉(zhuǎn)錄組數(shù)據(jù)對基因組進(jìn)行結(jié)構(gòu)注釋,將得到的結(jié)構(gòu)注釋結(jié)果進(jìn)行不同數(shù)據(jù)庫的功能注釋。同時(shí)對產(chǎn)黑色素短梗霉進(jìn)行了透射電鏡拍攝,電鏡結(jié)果提示菌株中存在乙醛酸循環(huán)體結(jié)構(gòu),該結(jié)構(gòu)可能與PMLA合成有關(guān),最終,實(shí)驗(yàn)通過對PMLA合成相關(guān)的PCKA和MASY蛋白進(jìn)行結(jié)構(gòu)預(yù)測并與PDB上已有電鏡結(jié)果進(jìn)行比對。發(fā)現(xiàn)產(chǎn)黑色素短梗霉中這兩種蛋白與PDB上已有晶體結(jié)構(gòu)基本一致,且這兩種蛋白功能最終都與蘋果酸代謝有關(guān)。本實(shí)驗(yàn)結(jié)果可為產(chǎn)黑色短梗霉菌株的PMLA代謝提供一定的參考,相關(guān)的測序下機(jī)文件以及組裝的基因組文件已上傳至國家生物信息中心(PRJCA011444),為后續(xù)的菌株開發(fā)利用提供基礎(chǔ)。 本文《高產(chǎn)聚蘋果酸黑色素短梗霉CGMCC18996全基因組組裝注釋及關(guān)鍵蛋白分析》來源于《食品科學(xué)》2023年44卷第16期213-219頁,作者:王舸楠,李佳謙,李雨桐,陳世偉,王淑賢,趙廷彬,賈士儒,喬長晟。DOI:10.7506/spkx1002-6630-20220906-059。