【文獻分享】依據基於大型語言模型嵌入的蛋白質的 k 均值聚類來探索同源性檢測_語言模型

文章目錄

  • 介紹
  • 代碼
  • 參考

介紹

從序列信息中推斷蛋白質的同源性對於理解物種進化以及實現能力註釋的轉移至關重要。除了基於相似性的方法外,還構建了多種利用不同方式表示蛋白質素材的機器學習方式。

在這裏,大家使用具有生物學導向的大型語言模型來表示蛋白質,並對嵌入的信息應用 k 均值聚類來提取同源關係。儘管我們的方法缺乏其他工具的靈敏度,但我們對於檢測 n:m 親緣關係的檢測精度更高。此外,我們成功地從頭構建了完整的親緣同源組,這凸顯了將大型語言模型與聚類算法結合用於蛋白質數據分析的不斷增長的潛力。

Inferring protein homology from sequence information is essential for understanding species evolution and enabling functional annotation transfer. Besides similarity-based methods, several machine learning approaches have been developed using various ways of representing protein data.

Here, we represent proteins with a biologically oriented large language model and apply k-means clustering to the embedded data to extract homology relationships. Although our approach lacks the sensitivity of other tools, we obtain better precision for the detection of n:m orthologs. Furthermore, we successfully reconstruct full orthologous groups from scratch, highlighting the growing potential of using large language models in combination with clustering algorithms for the analysis of protein data.

解析蛋白質的功能是生物學中的一項基本任務。然而,確定蛋白質功能的實驗方法通常資源消耗大、成本高,並且難以擴展到整個基因組。為了應對這一挑戰,已經開發出了計算方法,能夠直接從氨基酸序列中推斷出功能信息。這些手段利用序列比較,假設相似的序列很可能具有相似的功能。這種比較可以應用於單個蛋白質對之間,或者用於根據共享的相似性將蛋白質分組,而無需限制組的大小。當序列相似性源於共同的進化起源時,這些蛋白質被稱為同源體。不同物種之間的同源體,即所謂的同源基因,尤其有價值,緣於它們通常在不同物種中具有相同的功能。這使得它們對於將功能註釋從已充分研究的物種轉移到研究較少的物種至關重要(庫寧 2005 年)。對於細菌而言,基於同源性搜索的實際註釋覆蓋率在 14%到 98%之間(洛布等人 2020 年),整個細菌蛋白質組的平均值為 79%。對於瘧原蟲中的惡性瘧原蟲(Plasmodium falciparum)而言,利用這種技術可以對其 98%的基因進行註釋(斯坦比斯等人,2016 年)。
基於序列相似性的同源性識別依賴於能夠檢測氨基酸組成中保守模式的工具。最初,這些工具基於 BLAST 算法(阿爾特施爾等人,1990 年),該算法利用局部比對。例如,PSI-BLAST(阿爾特施爾,1997 年)特別適用於進行同源性檢測的兩兩比較。它與其他方法(如 Li 等人 2003 年中的馬爾可夫聚類)結合利用,創建了 OrthoMCL-DB,這是一個大型的同源蛋白質組數據庫。此外,針對諸如檢測遠程同源物(具有小於 30%的序列一致性)等特定挑戰,已經通過隱馬爾可夫模型(索丁 2005 年,雷默特等人 2012 年)來解決,這些模型適用於進化距離較大的物種。儘管存在困難,但蛋白質的序列編碼其結構和功能所需的所有信息這一基本原則(安芬森 1973 年)表明,這些關係仍然可以被揭示出來。
近來,基於機器學習的無比對方法已成為進行同源性檢測的強大替代手段。例如,DeepSeqProt(大衞和哈蘭奇 2023 年)採用編碼器-解碼器神經網絡來構建同源蛋白質的簇。這些手段中的許多都利用蛋白質序列的數值表示,即嵌入,而非直接比較氨基酸組成,將序列信息編碼到高維空間中。哈馬姆西等人(2024 年)使用多個變換器編碼層來創建序列的 512 維表示,並計算每對蛋白質之間的餘弦距離以尋找遠程同源體。羅森等人(2024 年)利用 ESM 嵌入模型(裏維斯等人 2021 年)創建蛋白質的 1280 維表示,並應用改進的 k 均值算法來創建相似蛋白質的簇,從中可以提取同源對。SonicParanoid2(科森蒂諾等人 2024 年)使用 Doc2Vec 嵌入生成具有高準確性和速度的同源組。總的來説,近期針對蛋白質開發的大型語言模型取得了顯著進展,例如 SeqVec(海辛格澤等人,2019 年)、ProtT5(埃爾納加爾等人,2022 年)或 ESM(裏維斯等人,2021 年),這些模型有望提升蛋白質的表示能力並實現更精細的分析。
在本研究中,大家探索如何通過將蛋白質嵌入大型語言模型中來優化聚類操控,以在整個動物界中實現最佳的同源性檢測效果。具體而言,我們採用了與 ESM 嵌入模型相關的 k 均值聚類算法。此流程見於羅森等人(2024 年)的研究中;然而,他們的重點並非在於同源性檢測,而且諸如聚類數量等關鍵參數並未經過系統的優化。在此,我們展示瞭如何依據根據數據集大小增加聚類數量來優化此解決方案以用於同源性檢測。我們比較了在檢索同源對和創建完整同源組方面的性能,與基於 BLAST 的方式(OrthoMCL)、SonicParanoid2(這是兩項任務的最新技術)以及專門針對組創建的 DeepSeqProt 進行比較。我們優化後的流程在特定數據集上實現了高精度,儘管靈敏度有所降低,並且在組創建方面接近了最先進的性能。這些研究結果表明,這種方法是現有技巧的一種很有前景的替代方案,並且可以通過進一步改進來增強其在同源性檢測中的實用性。

代碼

https://github.com/ThomasGTHB/OrthoLM【文獻分享】依據基於大型語言模型嵌入的蛋白質的 k 均值聚類來探索同源性檢測_語言模型_02

參考

  • Exploring homology detection via k-means clustering of proteins embedded with a large language model
  • https://github.com/ThomasGTHB/OrthoLM