美國(guó)麻省理工學(xué)院化學(xué)家們利用生成式人工智能(AI)技術(shù),開(kāi)發(fā)出一種可快速預(yù)測(cè)三維基因組結(jié)構(gòu)的新模型。新模型能在幾分鐘內(nèi)預(yù)測(cè)出數(shù)千種結(jié)構(gòu),速度遠(yuǎn)超現(xiàn)有的實(shí)驗(yàn)分析方法。研究成果發(fā)表于最新一期《科學(xué)進(jìn)展》雜志。
人體每個(gè)細(xì)胞都含有相同的遺傳序列,但每個(gè)細(xì)胞只表達(dá)其中一部分基因。這種細(xì)胞特異性的基因表達(dá)模式確保了不同類型細(xì)胞之間的差異,而這些表達(dá)模式部分取決于遺傳物質(zhì)的三維結(jié)構(gòu)。
新模型名為ChromoGen,旨在從底層DNA序列出發(fā),預(yù)測(cè)三維基因組結(jié)構(gòu)。它包括兩個(gè)組成部分,第一部分是一個(gè)深度學(xué)習(xí)模型,能夠“讀取”基因組,分析編碼在DNA序列和染色質(zhì)可訪問(wèn)性數(shù)據(jù)中的信息;第二部分是一個(gè)生成式AI模型,經(jīng)過(guò)訓(xùn)練后能夠預(yù)測(cè)出物理上準(zhǔn)確的染色質(zhì)構(gòu)象。
訓(xùn)練該模型所用的數(shù)據(jù)集包括超過(guò)1100萬(wàn)個(gè)染色質(zhì)構(gòu)象,這些數(shù)據(jù)來(lái)源于對(duì)16個(gè)人類B淋巴細(xì)胞系單細(xì)胞進(jìn)行的實(shí)驗(yàn)。
ChromoGen模型能有效地捕捉序列—結(jié)構(gòu)關(guān)系,為每段DNA序列生成多種可能的結(jié)構(gòu)。這是因?yàn)镈NA是一種非常無(wú)序的分子,同一個(gè)DNA序列可以產(chǎn)生許多不同的構(gòu)象。這種方法不僅大大加速了三維基因組結(jié)構(gòu)的預(yù)測(cè)過(guò)程,也為深入研究基因組的三維組織如何影響細(xì)胞的基因表達(dá)模式和功能提供了有力工具。
這一突破性技術(shù)有望幫助科學(xué)家更快地理解基因調(diào)控機(jī)制,促進(jìn)疾病治療和生物技術(shù)領(lǐng)域的進(jìn)步。
(責(zé)任編輯:華康)