Lesedauer: 4 Minuten

Wie kann man chemische Strukturen maschinenlesbar machen?

Jenaer Forschungsteam entwickelt KI-Tool

Es gibt sie immer noch: Dinge, die Menschen besser können als die Künstliche Intelligenz (KI) – noch. Aber die Entwicklung schreitet weiter voran. Es geht darum, die KI zu befähigen, diese Dinge künftig auch zu erledigen. Auch Wissenschaftlerinnen und Wissenschaftler aus Thüringen befassen sich derzeit damit. Sie haben ihre Arbeit jüngst einen Fachbeitrag in einem internationalen renommierten Fachmagazin vorgestellt.

Chemische Strukturen

Das Team um Prof. Dr. Christoph Steinbeck (r.) und Prof. Dr. Achim Zielesny hat das KI-Tool DECIMER.ai entwickelt, das Forschende weltweit nutzen können. | Foto: Anne Günther/FSU

Transformation

Im Kern geht es darum, wie chemische Strukturen in maschinenlesbare Codes transformiert werden können. Dazu haben Forschende der Universität Jena, der Westfälischen Hochschule und der Universität Prag eine Plattform entwickelt. Sie bedienen sich dabei künstlicher neuronaler Netzwerke. Damit haben sie ein Werkzeug geschaffen, mit dem diese Informationen aus wissenschaftlichen Veröffentlichungen automatisiert in Datenbanken eingespeist werden können.

Bislang war das im Wortsinne Handarbeit und damit zeitaufwendig. In der aktuellen Ausgabe des Fachmagazins „Nature Communications“ stellt das Team um Prof. Dr. Christoph Steinbeck und Prof. Dr. Achim Zielesny die neueste Version ihres Tools DECIMER.ai vor. Forschende sollen sie weltweit nutzen können.

Wer sich an den eigenen Chemieunterricht erinnert, weiß es: Wie chemische Verbindungen aufgebaut sind, aus welchen Atomen sie bestehen, wie diese räumlich angeordnet und miteinander verbunden sind, wird in sogenannten Strukturformeln dargestellt. Aus einer solchen kann man unter anderem ableiten, welche Moleküle miteinander reagieren können und welche nicht. Ebenso wie sich komplexe Verbindungen synthetisieren lassen oder welche Naturstoffe eine therapeutische Wirkung haben könnten, weil sie mit Zielmolekülen in Zellen zusammenpassen.

Die Darstellung von Molekülen als Strukturformeln wurde im 19. Jahrhundert entwickelt. Bis heute wird sie in jedem Chemie-Lehrbuch genutzt. Doch was die chemische Welt für Menschen intuitiv erfassbar macht, ist für eine Software nur eine Ansammlung schwarzer und weißer Pixel. „Um die Informationen aus Strukturformeln in Datenbanken nutzbar zu machen, die automatisiert durchforstet werden können, müssen sie in einen maschinenlesbaren Code übersetzt werden“, erläutert Christoph Steinbeck, Professor für Analytische Chemie, Chemieinformatik und Chemometrie der Uni Jena.

Aus einem Bild wird ein Code

Genau das kann die Künstliche Intelligenz „DECIMER“, die das Team um Prof. Steinbeck und seinen Kollegen Prof. Zielesny von der Westfälischen Hochschule entwickelt hat. DECIMER steht für „Deep Learning for Chemical Image Recognition“. Dabei handelt es sich um eine Open-Source-Plattform, die für jedermann im Internet frei verfügbar ist. Sie kann in einem normalen Internetbrowser genutzt werden. Dort lassen sich wissenschaftliche Artikel, die chemische Strukturformeln enthalten, einfach per „drag and drop“ hochladen. Dann beginnt die KI sofort ihre Arbeit.

Prof. Steinbeck erklärt das Verfahren: „Als erstes wird das gesamte Dokument nach Abbildungen durchsucht.“ Danach identifiziere der Algorithmus die enthaltene Bildinformation und klassifiziere diese danach, ob es sich um eine chemische Strukturformel oder irgendein anderes Bild handelt. Die erkannten Strukturformeln werden schließlich in den chemischen Strukturcode übersetzt oder in einem Struktureditor dargestellt, so dass sie weiterbearbeitet werden können. „Dieser Schritt ist der Kern des Projektes und die eigentliche Leistung“, macht Steinbeck deutlich.

Praktisches Beispiel: Koffein

Auf diese Weise wird zum Beispiel aus der chemischen Strukturformel für das Molekül Koffein der maschinenlesbare Strukturcode: CN1C=NC2=C1C(=O)N(C(=O)N2C)C Dieser lässt sich anschließend direkt in eine Datenbank hochladen und mit weiteren Informationen zum jeweiligen Molekül verknüpfen.

Für die Entwicklung von DECIMER haben die Forschenden moderne KI-Methoden genutzt. Dabei kamen ihnen Technologien zugute, die sich erst in jüngster Zeit etabliert haben und zum Beispiel auch in den aktuell viel diskutierten Large Language Models (wie ChatGPT) verwendet werden. Um seine KI zu trainieren, hat das Team aus den heute rund 450 Millionen bereits vorhandenen maschinenlesbaren Datenbanken Strukturformeln erzeugt und als Trainingsdaten genutzt. Neben Forschenden nutzen bereits auch Firmen das KI-Tool. Sie übertragen damit beispielsweise aus Patentschriften Strukturformeln in Datenbanken.

Ein asiatisches Brettspiel als Ideengeber

Auf die Idee, eine KI für die Dekodierung chemischer Abbildungen zu entwickeln, sind Steinbeck und Zielesny vor einigen Jahren gekommen. Die beiden Chemiker interessierten sich für die Entwicklung von KI-Methoden im Zusammenhang mit dem jahrtausendealten asiatischen Brettspiel Go. 2016 verfolgten sie, wie Millionen Menschen weltweit das spektakuläre Turnier zwischen dem damals besten Go-Spieler der Welt, dem Südkoreaner Lee Sedol, und der Computersoftware „AlphaGo“, was die Maschine 4:1 für sich entschied.

„Das war ein Paukenschlag, der uns gezeigt hat, wie mächtig KI sein kann“, erinnert sich Steinbeck. Bis dahin galt es praktisch als undenkbar, dass es ein Algorithmus mit der menschlichen Kreativität und Intuition in diesem Spiel aufnehmen kann. „Als wenig später eine KI quasi übermenschliche Spielstärke entwickelte, indem sie nicht – wie noch AlphaGo – aufwendig mit unzähligen Verläufen von menschlichen Spielen trainiert wurde, sondern einfach dadurch, dass das System immer wieder gegen sich selbst spielte und dabei seine Spiel – weise optimierte, wurde uns klar, dass diese neuen Methoden mit genügend Trainingsdaten auch andere sehr komplexe Probleme lösen können. Das wollten wir für unseren Forschungsbereich nutzen.“

Wissenschaftliche Informationen nachhaltig nutzbar machen

Steinbeck und sein Team hoffen mit DECIMER irgendwann sämtliche für sie interessante chemische Literatur, zurück bis in die 1950er Jahre, maschinell lesen und in offene Datenbanken übersetzen zu können. Denn das vorhandene Wissen nachhaltig zu sichern und der wissenschaftlichen Gemeinde weltweit zur Verfügung zu stellen, ist ein zentrales Anliegen von Steinbeck, der auch Sprecher der Nationalen Forschungsdateninfrastruktur für die Chemie ist. (tl)

Das KI-Tool DECIMER ist verfügbar unter: Decimer.ai

Share This