Ein internationales Forscherteam der Universität Luxemburg, des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin und von Google DeepMind hat ein neues Machine-Learning-Foundationmodell entwickelt, das in der Lage ist, Moleküle aller Art, zum Beispiel große, komplexe biologische Moleküle mit quantenmechanischer Genauigkeit zu simulieren. Die neue Methode, SO3LR genannt, kombiniert neueste Entwicklungen im Design neuronaler Netze mit physikalischen Gesetzen und wurde mit einem speziell kuratierten Datensatz von vier Millionen unterschiedlichen Molekülstrukturen trainiert.
Damit ist dieses Modell nicht nur in der Lage, große Biomoleküle, wie zum Beispiel Proteine, Zuckermoleküle oder Zellmembranen, zu modellieren, sondern kann auch unterschiedlichste Moleküle simulieren, ohne dass es neu trainiert werden muss. Dieses universell einsetzbare Modell ebnet damit den Weg für eine zukünftig beschleunigte Medikamentenentwicklung und ein tieferes Verständnis der Molekularbiologie.
Die Studie ist nun in der renommierten Fachzeitschrift Journal of the Amercian Chemical Society veröffentlicht:
Molekulardynamik (MD)-Simulationen ermöglichen es, das Verhalten von Molekülen zu verstehen und vorherzusagen. Sie erlauben die Beschreibung molekularer Wechselwirkungen über die Zeit und liefern Einblicke in deren Struktur, Dynamik und Funktion. Die exakte Simulation der Interaktion von großen Biomolekülen könnte es zum Beispiel ermöglichen, neue Medikamente zu entwickeln, ohne vorher zeit-, material- und kostenintensive Experimente durchführen zu müssen.
Die Verbesserung der Genauigkeit und Anwendbarkeit dieser Simulationen hat eine lange Tradition in der computergestützten Physik und Chemie. Seit Jahrzehnten stehen Forschende dabei vor einem fundamentalen Zielkonflikt: Die Methoden waren entweder schnell, aber nur näherungsweise und nicht auf verschiedene Moleküle übertragbar, oder extrem genau, jedoch rechnerisch außerordentlich aufwändig und teuer. Dieser Zielkonflikt beschränkte die hochpräzisen Simulationen bisher auf kleine Systeme mit wenigen Hundert Atomen. Große und komplexe Biomoleküle oder Proteine können jedoch viele zehntausend Atome enthalten.
KI-basierter Ansatz adaptiert für große biomedizinische Systeme
In den letzten Jahren haben KI-basierte Modelle begonnen, diese Lücke zwischen näherungsweisen (klassischen) Methoden und hochgenauen (quantenmechanischen) Methoden zu überbrücken. Trotz großer Fortschritte blieben zwei zentrale Herausforderungen: die Skalierbarkeit dieser Ansätze auf Biomoleküle realistischer Größe und die universelle Modellierung in einem einzigen Modell.
Das größte Hindernis für die Anwendung bisheriger Modelle für große und komplexe Moleküle war bislang die fehlende Berücksichtigung quantenmechanischer Effekte über große Abstände hinweg. Einfach gesagt: Atome in einem Molekül wechselwirken nicht nur mit ihren unmittelbaren Nachbarn, sondern auch mit weit entfernten Atomen. Je größer das Molekül, desto wichtiger werden gerade diese Fernwirkungen. Ohne diese langreichweitigen Wechselwirkungen wäre das Leben, wie wir es kennen, nicht möglich, da Biomoleküle nicht funktionsfähig wären.
Ein hybrider Ansatz bewältigt eine Vielzahl von Herausforderungen
Das neue Modell SO3LR überwindet diese Herausforderungen. Den Forschenden gelang dies, indem sie für das Design von SO3LR einen hybriden Ansatz verfolgten: Die komplexe Aufgabe der Berechnung quantenmechanischer Wechselwirkungen zwischen Atomen wird dazu in zwei komplementäre Komponenten aufgeteilt. Ein schnelles und hochgenaues Machine-Learning-Modell lernt die komplexen quantenmechanischen Vielteilchen-Wechselwirkungen auf kurzen und mittleren Distanzen. Parallel beschreiben universelle, physikalisch fundierte Gleichungen exakt die paarweisen Interaktionen über große Distanzen.
‟ Verlässliche Simulationen im biomolekularen Maßstab hängen von diesen langreichweitigen Interaktionen ab, daher sind diese im Design von SO3LR verankert.”

Doctoral researcher
„So kann unser Modell seine starke Lernkapazität darauf konzentrieren, die komplexen Quanteneffekte zu erfassen, die traditionellen Modellen bisher entgehen“, ergänzt Thorben Frank, Postdoc am BIFOLD-Institut.
Die zweite Herausforderung, die es zu lösen galt, war die universale Anwendbarkeit eines Modells auf unterschiedlichste Moleküle. Um das zu erreichen, erstellte das Team einen umfangreichen und vielfältigen Datensatz aus über 4 Millionen sorgfältig kuratierten Molekülstrukturen, mit dem SO3LR lernte, die große Vielfalt an Molekülen in der Natur akkurat zu beschreiben. Damit kann dieses Modell erstmals verschiedenste große Moleküle simulieren – ohne vorab neu trainiert werden zu müssen.
Um die Leistungsfähigkeit von SO3LR zu demonstrieren, führte das Forschungsteam eine Reihe anspruchsvoller Simulationen für alle vier Haupttypen von Biomolekülen durch, die in der Natur vorkommen. So simulierten sie etwa große Proteine in einer expliziten Wasserumgebung, darunter das pflanzliche Crambin-Protein und ein komplexes Glykoprotein. Darüber hinaus untersuchten sie eine Lipid-POPC-Doppelschicht, ein Modellsystem für menschliche Zellmembranen. „Der entscheidende Durchbruch mit SO3LR liegt in der Universalität. Statt für jedes neue Molekül einen langwierigen Prozess aus Datengenerierung und anschließendem Training durchlaufen zu müssen, stellen wir ein einziges, direkt einsetzbares Modell bereit. Dies erspart Forschenden die zeit- und rechenintensiven Vorbereitungsschritte und erlaubt das direkte Testen von Hypothesen mit quantenmechanischer Genauigkeit“, sagt Prof. Klaus-Robert Müller, BIFOLD Co-Direktor.
‟ SO3LR stellt einen entscheidenden Schritt in diese Richtung dar. Durch die Verbindung von Machine Learning mit physikalischen Prinzipien öffnen wir die Tür zur Modellierung realistischer biologischer Prozesse mit quantengenauer Präzision – mit tiefgreifenden Auswirkungen auf das molekulare Verständnis von Gesundheit und Krankheit sowie auf die Entwicklung der nächsten Generation von Medikamenten”
Full professor in Theoretical Condensed Matter Physics