Künstliche Intelligenz entschlüsselt das Universum der Proteine

Strukturelle Aufklärung: AlphaFold und das Protein Universe Atlas

Mit AlphaFold hat Künstliche Intelligenz die Proteinforschung revolutioniert. Die KI wurde mit Daten trainiert, die Wissenschaftlerinnen und Wissenschaftler in mehr als 50 Jahren zusammengetragen haben. Im Jahr 2023 konnte man mithilfe dieser Technologie die Strukturen von etwa 215 Millionen Proteinen prognostizieren und damit Einblicke in nahezu das gesamte Proteinuniversum erhalten.

Ein Forschungsteam um Dr. Joana Pereira und Prof. Torsten Schwede am Biozentrum der Universität Basel hat auf dieser Grundlage den Protein Universe Atlas entwickelt. Dieses interaktive Netzwerk umfasst 53 Millionen Proteine, deren Struktur AlphaFold mit hoher Qualität modelliert hat. Durch den Einsatz von Deep Learning entdeckten die Forschenden 290 neue Proteinfamilien und sogar eine bisher unbekannte Art der Proteinfaltung, die der Form einer Blume ähnelt. Die Ergebnisse wurden in Nature veröffentlicht.

Simulierte Evolution: KI entwirft neuartige Proteine

Das KI-Modell ESM3 der Firma EvolutionaryScale hat einen Code für ein bisher unbekanntes Protein namens esmGFP entwickelt, das in der Natur erst nach geschätzten 500 Millionen Jahren evolutionärer Entwicklung entstanden wäre. Der Code weist nur zu 58 Prozent Übereinstimmung mit dem am nächsten liegenden bekannten fluoreszierenden Protein auf und würde 96 verschiedene genetische Mutationen erfordern. Diese Fähigkeit, funktionale Proteine außerhalb des von der Evolution erforschten Raums zu erzeugen, könnte die Entwicklung neuer Medikamente beschleunigen. Live Science berichtete über diese Entwicklung.

Räumliche Analyse: Von Deep Visual Proteomics bis C-COMPASS

Während AlphaFold Strukturen vorhersagt, konzentriert sich die räumliche Proteomik darauf, zu verstehen, wo sich Proteine innerhalb von Zellen befinden und wie sie mit ihrer Umgebung interagieren.

Deep Visual Proteomics am Max Delbrück Center

Dr. Fabian Coscia leitet am Max Delbrück Center die Arbeitsgruppe Spatial Proteomics. Er entwickelte Deep Visual Proteomics, eine Methode, die Massenspektrometrie mit Mikroskopie, Künstlicher Intelligenz und Robotik kombiniert. Dies erlaubt es erstmals, innerhalb genau ausgewählter Zellen – etwa im Umfeld von Tumoren – Tausende Proteine umfassend zu vermessen. Ein Deep-Learning-Algorithmus erstellt aus digitalisierten Gewebeproben detaillierte Karten, auf denen Tumorzellen, Immunzellen und gesundes Gewebe unterschieden werden können. Die Messgenauigkeit der Massenspektrometrie ist dabei so hoch, wie wenn man bei einem Jumbojet feststellen würde, dass ein Vögelchen auf einem Flügel gelandet ist. 2023 erhielt Coscia einen ERC Starting Grant über 1,5 Millionen Euro zur Weiterentwicklung dieser Technologie. Mehr Informationen bietet das Coscia Lab.

C-COMPASS: Proteine und Lipide kartieren

Forscher von Helmholtz Munich, dem Deutschen Zentrum für Diabetesforschung und der Universität Bonn entwickelten das Tool C-COMPASS, das räumliche Proteomik und Lipidomik vereinfacht. Die Software nutzt neuronale Netzwerke, um mehrere subzelluläre Proteinlokalisationen vorherzusagen und mit Gesamtproteomdaten zu kombinieren. Besonderheit: Die benutzerfreundliche Oberfläche ermöglicht reproduzierbare Analysen auch ohne Programmierkenntnisse. In Studien mit humanisiertem Lebergewebe unter verschiedenen Stoffwechselbedingungen konnten so erstmalig räumliche Veränderungen von Lipiden bei metabolischen Störungen identifiziert werden. Die Publikation erschien in Nature Methods.

Von der Forschung zur Anwendung: Softwareplattformen und Start-ups

Die wissenschaftlichen Durchbrüche finden zunehmenden Eingang in kommerzielle und nutzerfreundliche Plattformen.

MSAID: KI-gestützte Proteinerkennung

Die TUM-Ausgründung MSAID entwickelte eine Cloud-basierte KI-Plattform mit dem Suchalgorithmus CHIMERYS. Da allein der Mensch aus mehr als 20.000 verschiedenen Proteinen besteht, ist die Analyse komplexer Proben mit rein menschlichen Fähigkeiten nicht mehr möglich. Der Ansatz gleicht Messergebnisse aus Massenspektrometern mit einem „Peptid-Register“ ab, in dem KI-generierte Muster hinterlegt sind – vergleichbar mit der Identifikation von Fingerabdrücken. Dies ermöglicht es, Proteine in komplexen Proben wie Gewebe und Plasma substanziell besser zu identifizieren und deren Mengen präziser zu bestimmen. Analysen, die sonst mehrere Wochen dauern, können so in wenigen Tagen durchgeführt werden. Die Plattform erfüllt ISO-Standards und ist GDPR-konform. Details zur Arbeit finden sich in der Journal of Proteome Research-Publikation.

Interpretierbare KI am Hasso-Plattner-Institut

Wissenschaftler des Hasso-Plattner-Instituts (HPI) unter Leitung von Professor Bernhard Renard stellten AHLF (Ad hoc learning of fragmentation) vor, ein Deep-Learning-Modell, das auf knapp 20 Millionen Datenpunkten trainiert wurde. Das System verbessert die Phosphopeptid-Identifizierungen um bis zu 15 Prozent gegenüber herkömmlichen Methoden. Ein entscheidender Vorteil ist die Interpretierbarkeit: Im Gegensatz zu vielen anderen Ansätzen ist AHLF keine „Blackbox“, sondern zeigt transparent, wie es Muster in Massenspektren erkennt. Die Studie wurde in Nature Machine Intelligence veröffentlicht.

Vom Genom zur personalisierten Medizin

KI-gestützte Analysen erschließen nicht nur Proteine, sondern auch das genetische Fundament von Krankheiten.

Genetische Risiken und Biomarker

Prof. Eleftheria Zeggini erforscht am Helmholtz Institute for Translational Genomics, wie Risiken für komplexe Krankheiten wie Diabetes, Osteoarthritis und Adipositas aus der DNA-Sequenz vorhergesagt werden können. KI-Algorithmen identifizieren Genvarianten, die mit Krankheiten assoziiert sind, sowie Biomarker für Prognosen des Krankheitsverlaufs. Diese Informationen ermöglichen frühzeitige Interventionen und die Neuzweckbestimmung bereits vorhandener Medikamente.

Nicht-codierende DNA und Zellatlanten

Prof. Julien Gagneur und seine Forschungsgruppe am Lehrstuhl für Computational Molecular Medicine der TUM entwickeln Algorithmen, die aus Sequenzdaten vorhersagen, wie Mutationen zu fehlerhaften Genprodukten führen. Dabei fokussieren sie sich auf nicht-codierende DNA-Sequenzen, die 98 bis 99 Prozent des Genoms ausmachen und als Regulatoren der Genexpression wirken.

Prof. Fabian Theis am Helmholtz Munich Computational Health Center nutzt unüberwachtes maschinelles Lernen, um aus Einzelzell-Sequenzierungsdaten Zellatlanten menschlicher Organe zu erstellen. Diese dienen der Identifizierung biochemischer Marker zur Diagnose von Stoffwechselkrankheiten und der Entwicklung präziserer Arzneimittel mit weniger Nebenwirkungen.