Nervenheilkunde 2023; 42(09): 591-601
DOI: 10.1055/a-2050-0768
Schwerpunkt

Künstliche Intelligenz in der Neurologie

Anwendungen, Algorithmen, AnforderungenArtificial intelligence in neurologyApplications, algorithms, requirements
Tim L. T. Wiegand
1   cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, LMU Klinikum, Ludwig-Maximilians-Universität München
1   cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, LMU Klinikum, Ludwig-Maximilians-Universität München
1   cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, LMU Klinikum, Ludwig-Maximilians-Universität München
,
Laura I. Velezmoro
3   LMU AIM, Ludwig-Maximilians-Universität München
4   Klinik und Poliklinik für Strahlentherapie und Radioonkologie, LMU Klinikum, Ludwig-Maximilians-Universität München
,
Leonard B. Jung
1   cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, LMU Klinikum, Ludwig-Maximilians-Universität München
2   Psychiatry Neuroimaging Laboratory, Department of Psychiatry, Brigham and Women’s Hospital, Harvard Medical School, Boston
3   LMU AIM, Ludwig-Maximilians-Universität München
,
Felix Wimbauer
3   LMU AIM, Ludwig-Maximilians-Universität München
5   Computer Vision Group, School of Computation, Information and Technology, Technische Universität München
,
Konstantinos Dimitriadis
6   Neurologische Klinik und Poliklinik, LMU Klinikum, Ludwig-Maximilians-Universität München
9   ‡ geteilte Letztautorenschaft
,
Inga K. Koerte
1   cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, LMU Klinikum, Ludwig-Maximilians-Universität München
2   Psychiatry Neuroimaging Laboratory, Department of Psychiatry, Brigham and Women’s Hospital, Harvard Medical School, Boston
7   Graduate School of Systemic Neurosciences, Ludwig-Maximilians-Universität München
8   Department of Psychiatry, Massachusetts General Hospital, Harvard Medical School, Boston
9   ‡ geteilte Letztautorenschaft
› Institutsangaben
 

ZUSAMMENFASSUNG

Künstliche Intelligenz (KI) kann große Datenmengen verarbeiten und interpretieren und birgt daher großes Potenzial für die Neurologie. Viele neurologische Erkrankungen erfordern umfangreiche multimodale Diagnostik und personalisierte Therapiekonzepte, die durch KI automatisiert bzw. optimiert werden können. Hinter der KI verbergen sich komplexe Algorithmen. Ziel dieser Arbeit ist es, einen Überblick über Grundbegriffe, Algorithmen und Anwendungen der KI in der Neurologie zu vermitteln.

Es existiert eine Vielzahl an KI-Modellen. Besonders leistungsstark sind neuronale Netze und Transformer. Neuronale Netze können durch die Verarbeitung statischer Eingabedaten, z. B. von radiologischen Bildern, Verdachtsdiagnosen oder Prognoseeinschätzungen abgeben. Ihre Funktionsweise basiert auf einer großen Anzahl kleiner Recheneinheiten, den Neuronen, die zu Netzen angeordnet sind. Transformer hingegen können sequenzielle Daten wie Text verarbeiten und somit, z. B. basierend auf Anamnesegesprächen, Verdachtsdiagnosen ausgeben oder Befundberichte formulieren. Sie berechnen hierzu die Beziehung der einzelnen Textsegmente zueinander, sodass diese bei der Verarbeitung berücksichtigt werden können.

Ein grundlegendes Verständnis der Anwendungen und Funktionsweisen der KI, aber auch der Herausforderungen und Limitationen ist für den erfolgreichen Einsatz in der neurologischen Forschung und Praxis entscheidend.


#

ABSTRACT

Artificial intelligence (AI) can process and interpret large amounts of data and thus shows great potential in neurology. Many neurological diseases require extensive multimodal diagnostics and personalized therapy that can be automated or optimized by AI. AI comprises complex algorithms. This article aims to provide an overview of the basic terminology, algorithms, and applications of AI in neurology.

There is an increasingly large number of different AI models. Currently, neural networks and transformers are particularly powerful. Neural networks can, for example, provide diagnostic or prognostic assessments by processing static input data such as radiological images. They use many small computational units, neurons, arranged into networks. Transformers can process and output sequential data such as text. They can thus, for example, provide tentative diagnoses or formulate reports of findings based on anamnesis interviews. Transformers calculate the relationship of the individual text segments to each other so that these can be considered during processing.

A basic understanding of the applications and functionality of AI, but also of the challenges and limitations, is crucial for its successful use in neurological research and practice.


#

Grundlagen

Durch ihre Fähigkeit, große Datenmengen zu verarbeiten und zu interpretieren, hat die Künstliche Intelligenz (KI) in fast alle Bereiche der Medizin Einzug gehalten. Auch für die neurologische Gesundheitsversorgung wird der KI ein großes Potenzial zugeschrieben [1]. Viele neurologische Erkrankungen erfordern umfangreiche multimodale Diagnostik und personalisierte Therapiekonzepte, die durch KI automatisiert bzw. optimiert werden können. Ein grundlegendes Verständnis der Anwendungen und Funktionsweisen der KI, aber auch der Herausforderungen und Limitationen ist für den erfolgreichen Einsatz in der neurologischen Forschung und Praxis entscheidend.

In diesem Übersichtsartikel geben wir zunächst eine allgemeine Einführung in die KI und definieren wichtige Grundbegriffe zu den Teilbereichen der KI und den zugrunde liegenden Lernprozessen. Anschließend wird erläutert, welche Daten sich für die Verarbeitung durch KI-Modelle eignen und wie sie in die Modelle eingespeist werden können. Es folgen ausführlichere Erklärungen der Anwendungen von Funktionsweisen von neuronalen Netzen und Transformern als 2 besonders leistungsfähigen KI-Modellen. Abschließend werden einige Herausforderungen der Nutzung von KI in der Neurologie kurz beschrieben.

Künstliche Intelligenz und ihre Teilbereiche

Neben dem Begriff „Künstliche Intelligenz“ haben sich weitere Begriffe etabliert, die z. T. synonym für KI verwendet werden, jedoch Teilbereiche der KI darstellen ([ Abb. 1a ]). Da sich die englische Terminologie in vielen Fällen auch im deutschen Sprachgebrauch durchgesetzt hat, werden wir auch in diesem Artikel häufig die etablierte englischsprachige Nomenklatur verwenden und lediglich auf die deutschen Übersetzungen verweisen.

Zoom Image
Abb. 1 a Abgrenzung der Begriffe „künstliche Intelligenz“, „machine learning“ und „deep learning“. b Abgrenzung der Begriffe „supervised learning“, „unsupervised learning“ und „reinforcement learning“.
  • Künstliche Intelligenz: Unter diesem Begriff werden gemeinhin all jene Algorithmen subsummiert, die biologischer Intelligenz ähneln bzw. diese nachahmen. KI umfasst damit eine große Anzahl an Algorithmen von simpler Logik, über Regressionen, bis hin zu komplexen neuronalen Netzen. Die KI weist große Überschneidungen mit dem Feld der Statistik auf, die ebenfalls zur Entdeckung von Zusammenhängen und dem Treffen von Vorhersagen genutzt wird.

  • Machine learning (maschinelles Lernen): Hierbei handelt es sich um einen Teilbereich der KI, der Algorithmen umfasst, die in der Lage sind, anhand von Daten selbstständig zu lernen und sich anzupassen. Das bedeutet, dem Algorithmus müssen keine ausdrücklichen Anweisungen gegeben werden, wie die gegebenen Daten verarbeitet werden sollen. Machine-learning-Algorithmen sind meist etwas komplexere KI-Algorithmen wie z. B. support vector machines, Random-forest-Modelle oder neuronale Netze. Sie lernen bspw. medizinische Eingabedaten wie radiologische Bilder zu verarbeiten und eine Diagnose auszugeben.

  • Deep learning (tiefes Lernen): Hierbei handelt es sich wiederum um einen Teilbereich des machine learnings, der umfangreiche („tiefe“) neuronale Netze umfasst. Sie können besonders komplexe Aufgaben lösen und weisen z. B. eine höhere Präzision bei der Befundung radiologischer Bilder auf. Sie gehören damit zu den zukunftsträchtigsten KI-Algorithmen.


#

Lernprozesse der KI

Es lassen sich verschiedene Lernprozesse der Algorithmen differenzieren. Sie beeinflussen wiederum, für welche neurologischen Anwendungsbereiche sich Algorithmen eignen ([ Abb. 1b ]).

  • Supervised learning (überwachtes Lernen): Hierbei handelt es sich um Algorithmen, die mittels exakt beschriebener Eingabedaten lernen, um diese Beschreibungen anschließend selbstständig generieren zu können. Die Beschreibungen der Eingabedaten werden „label“ genannt. Soll ein KI-Algorithmus aus dem Bereich supervised learning bspw. maligne Raumforderungen in Schädel-Magnetresonanztomografie (MRT)-Bildern erkennen, wird der Algorithmus anhand befundeter Bilddaten trainiert. Diese Trainingsdaten bestehen aus den MRT-Bildern sowie den labels, also den Beschreibungen, ob (und ggf. auch wo) jeweils eine maligne Raumforderung vorliegt oder nicht. Der Algorithmus lernt anhand dieser Beschreibungen zwischen MRT-Bildern mit und ohne Malignomen zu unterscheiden [2]. Die Qualität der label ist hierbei entscheidend, da der Algorithmus anhand dieser lernt.

  • Unsupervised learning (unüberwachtes Lernen): Es umfasst Algorithmen, die ohne label lernen. Solche Algorithmen erkennen selbst Muster und Zusammenhänge in den Daten. Ein typisches Beispiel sind Cluster-Algorithmen, die Gruppen von ähnlichen Datenpunkten identifizieren und so bspw. anhand klinischer Merkmale oder genetischer Marker Subgruppen neuropsychiatrischer oder -genetischer Erkrankungen identifizieren [3], [4].

  • Reinforcement learning (verstärkendes Lernen): Hierbei erlernt der Algorithmus Strategien, die Belohnungen nach sich ziehen bzw. Bestrafung vermeiden. Das Training erfolgt ebenfalls nicht anhand gelabelter Daten, sondern durch das Ausprobieren verschiedener Handlungsmöglichkeiten (z. B. Bewegungen der Gelenke eines chirurgischen Roboterarms), um positive Ergebnisse zu erzielen (z. B. eine chirurgische Prozedur zu meistern). Reinforcement learning ist besonders geeignet für die Verarbeitung von „Real-time“-Daten aus kontinuierlichen Messungen und Sensoren. Neurologische Anwendungen für reinforcement learning bestehen somit in Robotern wie bspw. für die (Neuro-)Chirurgie [5] oder in klinischen decision support systems wie etwa in der neurologischen Intensivmedizin [6], [7].


#
#

Daten

Statische und sequenzielle Daten

Die Wahl des geeigneten KI-Modells hängt maßgeblich davon ab, ob einzelne statische oder sequenzielle Daten verarbeitet werden sollen. Statische Daten weisen keine zeitliche Abfolge auf und können somit einzeln in einen Algorithmus eingespeist werden. Beispiele für statische Daten sind klinische Scores, Laborwerte und radiologische oder histologische Bilder. Sequenzielle Daten weisen hingegen eine zeitliche Abfolge auf. Beispiele sind Texte, Sprachaufnahmen oder Elektroenzephalografie (EEG)-Aufzeichnungen.


#

Dateiformate und Einschleusen in Algorithmen

Für jede Art Daten existieren meist mehrere Dateiformate. Ein Bild kann z. B. als JPEG oder PNG gespeichert sein. In der Radiologie üblich ist das Dateiformat DICOM (Digital Imaging and Communications in Medicine). Je nachdem, ob etablierte Standards existieren oder Gerätehersteller eigene Dateiformate verwenden, sind unterschiedliche Verarbeitungsschritte notwendig, um die Daten in einen KI-Algorithmus einzuspeisen. In der klinischen Praxis übliche Dateiformate wie DICOM enthalten meist neben der eigentlichen Kerndatei (bspw. dem Bild) zusätzliche Informationen zur untersuchten Person, dem Aufnahmezeitpunkt, technischen Spezifikationen u. a. Häufig wird jedoch nur das eigentliche Bild in ein KI-Modell eingespeist. Im Kern handelt es sich bei Bildern um Tabellen mit Zahlenwerten, die die Farbwerte jedes Pixels im Bild repräsentieren. Schwarz-weiß-Bilder stellen 2-dimensionale Tabellen bzw. Matrizen dar, wobei die Zahlenwerte den Graustufen der Pixel entsprechen ([ Abb. 2a ] links). Für Farbbilder existieren verschiedene Farbräume. Im RGB-(Rot-Grün-Blau)-Farbraum bestehen Bilder aus 3-dimensionalen Tabellen bzw. Tensoren mit 3 Schichten für jeden Farbanteil ([ Abb. 2a ] rechts). Auf diese Weise lassen sich statische Dateien wie Bilder in Form von Zahlenwerten in KI-Algorithmen einspeisen.

Zoom Image
Abb. 2 a Einzelnes Schwarz-weiß-Bild (links) sowie Farbbild (rechts) als Beispiele statischer Eingabedaten. Die Zahlenwerte jedes Pixels können als Vektoren, Matrizen bzw. Tensoren dargestellt und verarbeitet werden. b Textabschnitt als Beispiel sequenzieller Eingabedaten. Der Text kann in tokens zerlegt werden. Diese können als Vektoren dargestellt werden, die zusätzlich die semantische Nähe der tokens zueinander abbilden (embeddings).

Sequenzielle Daten müssen für viele KI-Algorithmen in vordefinierte Zeitfenster oder Segmente aufgeteilt werden. Ein Text wird dabei in einzelne Einheiten aufgeteilt, die als tokens bezeichnet werden. Tokens können Wörter, Zeichen oder Wortbestandteile sein. Ihnen werden spezifische Zahlenwerte zugewiesen, die ihre semantische Nähe zueinander abbilden ([ Abb. 2b ]). Für diese Zahlenrepräsentation der tokes werden oft eigene Algorithmen verwendet. Das Ergebnis wird als embedding bezeichnet. Die embeddings stellen oft 1-dimensionale Tabellen bzw. Vektoren dar. Die Zahlendarstellungen können nun ebenfalls in KI-Algorithmen eingespeist werden.


#

Trainings-, Validierungs- und Testdaten

Um ein leistungsstarkes KI-Modell zu entwickeln, werden je nach Art des Modells und Komplexität der Anwendung häufig große Mengen an Daten benötigt. Der verfügbare Datensatz wird für viele Anwendungen in 3 Teile unterteilt.

  • Trainingsdaten: Sie werden verwendet, um ein KI-Modell zu trainieren. Dies bedeutet, dass das mathematische Modell anhand der Trainingsdaten zunehmend verfeinert wird, bis es zu den Trainingsdaten passt. Mittels der Trainingsdaten passt ein Regressions-Algorithmus bspw. die Regressionsgerade so an, dass sie optimal durch die Punktewolke verläuft, also der Abstand zwischen Regressionsgerade und Datenpunkten minimal ist. Meist wird der größte Teil des Datensatzes, bspw. 70 %, für das Training verwendet.

  • Validierungsdaten: Sie dienen dazu, die Leistung verschiedener trainierter Modelle zu vergleichen. So können während des Entwicklungsprozesses bspw. mehrere Varianten neuronaler Netze, die alle mit denselben Trainingsdaten trainiert wurden, verglichen werden und das Modell mit der besten Leistung ausgewählt werden. Häufig werden ca. 10–20 % des Datensatzes hierzu verwendet.

  • Testdaten: Der verbleibende Teil des Datensatzes wird für die finale Bewertung der Leistung des Modells genutzt. Hierzu müssen Daten verwendet werden, die der Algorithmus nicht kennt, die also weder für Training noch Validierung verwendet wurden. Der Testdatensatz soll einen Eindruck der Modell-Leistung in der Realität vermitteln. Hierzu werden ca. 10–20 % der Daten verwendet.


#
#

Modelle

Es existiert eine große Anzahl verschiedener KI-Algorithmen. Sie unterscheiden sich u. a. darin, ob sie statische oder sequenzielle Eingabedaten akzeptieren und ob sie statische oder sequenzielle Ausgaben produzieren. Im Folgenden werden die KI-Algorithmen neuronale Netze sowie Transformer als 2 moderne und besonders leistungsstarke Algorithmen näher beschrieben.

Neuronale Netze

Neuronale Netze eignen sich für die Verarbeitung statischer Eingabedaten, z. B. demografische Daten, klinische Befunde, medizinische Bilder und Laborwerte, und können basierend hierauf statische Ausgaben wie Verdachtsdiagnosen oder Prognoseeinschätzungen generieren [8]. Insbesondere große neuronale Netze aus dem Bereich deep learning können sehr leistungsstark sein und sich für neurologische Fragestellungen eignen. Bei der Analyse neuroradiologischer Aufnahmen liefern neuronale Netze hilfreiche Informationen, z. B. Angaben zur 3-dimensionalen Ausdehnung eines Tumors oder Hinweise auf auffällige Areale in einem Bild [9]. Auch genetische Daten können von neuronalen Netzen verarbeitet werden, um etwa Risikofaktoren für neurologische Erkrankungen zu identifizieren oder Vorhersagen zur Krankheitsentwicklung zu treffen [10], [11].

Der Aufbau und die Funktionsweise künstlicher neuronaler Netze orientiert sich an biologischen neuronalen Netzen im Gehirn. Künstliche Neurone sind die funktionellen Einheiten, die zu großen Netzwerken verknüpft sind. Ein künstliches Neuron erhält mehrere Eingabewerte x ([ Abb. 3a ]). Diese Eingabewerte repräsentieren Informationen oder Signale, die von anderen Neuronen oder externen Quellen stammen. Jeder Eingabewert weist ein Gewicht w auf, das seine Bedeutung oder Stärke in Bezug auf das Ergebnis des Neurons angibt. Die Eingabewerte x werden mit ihren Gewichten w multipliziert. Die Ergebnisse werden zu einem Zahlenwert addiert, der in eine Aktivierungsfunktion eigesetzt wird. Sie berechnet, wie stark ein nachfolgendes Neuron aktiviert wird. Es gibt eine Vielzahl unterschiedlicher Aktivierungsfunktionen. Sie ermöglichen es, komplexe, nicht lineare Zusammenhänge zu modellieren.

Zoom Image
Abb. 3 a Aufbau eines einzelnen künstlichen Neurons. Der input x wird zunächst gewichtet, d. h. mit den Gewichten w multipliziert. Die gewichteten Eingaben werden summiert (Σ) und in die Aktivierungsfunktion f(x) eingesetzt (vergleichbar mit einem Aktionspotenzial). Hierdurch entsteht der output ŷ, der wiederum den input für nachfolgende Neurone darstellt. b Ein beispielhaftes neuronales Netz mit 2 hidden layern mit jeweils 3 Neuronen.

Mehrere Neurone können zu einem neuronalen Netz angeordnet werden ([ Abb. 3b ]), das grundsätzlich beliebig viele Schichten und Neurone pro Schicht aufweisen kann. Die erste Schicht wird als input layer (Eingabeschicht) bezeichnet. Sie erhält die Eingabedaten (z. B. ein Röntgenbild). Es folgen die hidden layer (versteckte Schichten), in denen die Eingabe mit Gewichten und Aktivierungsfunktionen weiterverarbeitet wird. Am Ende des Netzes folgt das output layer (Ausgabeschicht), das die finale Ausgabe (z. B. die Verdachtsdiagnose oder Klassifikation „gesund“ vs. „krank“) ausgibt.

Mithilfe der linearen Algebra können die beschriebenen Rechenschritte kompakt gebündelt durchgeführt werden. Die Eingabe entspricht bspw. einem Vektor, der die Zahlenwerte jedes Pixels des Röntgenbilds enthält ([ Abb. 2a ] links). Die Gewichte können in Matrizen angeordnet werden. Sie werden initial bspw. zufällig festgelegt und während des Trainingsprozesses optimiert. Eingabe-Vektoren und Gewichts-Matrizen können multipliziert und die Ergebnisse in die Aktivierungsfunktionen eingesetzt werden. Diese Berechnungen lassen sich mit jeder zusätzlichen Schicht beliebig oft wiederholen. Zusätzliche Schichten erlauben komplexere Modellierungen und ggf. eine bessere Modell-Leistung, erfordern jedoch auch mehr Rechenleistung. Die finale Ausgabe entspricht ebenfalls einem Vektor. Soll das Netz zwischen einem pathologischen und einem unauffälligen Röntgenbild unterscheiden, kann die Klassifikation „krank“ z. B. durch einen Zahlenwert nahe 1 und „gesund“ durch einen Zahlenwert nahe 0 repräsentiert werden. Dieser gesamte Rechenprozess von Eingabe bis Ausgabe wird als forward pass bezeichnet.

Der Trainingsprozess eines neuronalen Netzes wird analog auch backward pass genannt. Hierzu wird zunächst eine Fehlerfunktion berechnet. Sie beschreibt den Fehler des Modells, also den Unterschied der aktuellen Ausgabe des Modells zur korrekten Ausgabe. Die korrekte Ausgabe entspricht dem label der Eingabedaten, also bspw. dem Zahlenwert 0, wenn es sich bei dem Trainings-Röntgenbild um ein unauffälliges Bild handelt. Wird die Fehlerfunktion minimiert, sinkt der Unterschied zwischen der Modell-Ausgabe und der korrekten Klassifikation. Die einzigen Variablen, die hierzu angepasst werden können, sind die Gewichte (Eingabe und Aktivierungsfunktionen sind vorbestimmt). Der backward pass nutzt demnach ein mathematisches Verfahren, das die Gewichte des Netzes schrittweise so anpasst, dass die Fehlerfunktion minimiert wird. Dieses Verfahren heißt gradient descent (Gradientenabstieg).

Eine spezielle Form der neuronalen Netze, die besonders für die Verarbeitung von Bildern geeignet ist, sind convolutional neural networks (CNNs) [12]. Sie verarbeiten mehrere benachbarte Pixel auf einmal. Hierdurch können Zusammenhänge zwischen benachbarten Pixeln berücksichtigt und Muster besser erkannt werden.


#

Transformer

Transformer eignen sich für die Verarbeitung sequenzieller Daten wie Text. Sie wurden 2017 erstbeschrieben [13] und bilden den Kern von Software wie ChatGPT (Chat Generative Pretrained Transformer) [14] der Firma OpenAI oder BERT (Bidirectional Encoder Representations from Transformers) [15] und PaLM (Pathways Language Model) [16] der Firma Google.

Eine Vielzahl medizinischer Anwendungen von Transformern scheint möglich. Jüngste Veröffentlichungen zeigten, dass ChatGPT die deutschen [17] und US-amerikanischen [18] medizinischen Staatsexamina bestehen und somit komplexe medizinische Fragestellungen beantworten kann. Transformerbasierte Sprachmodelle können neue medizinische Datenpunkte vor dem Hintergrund riesiger Mengen verfügbarer Literatur interpretieren. Somit können sie potenziell die Diagnosestellung unterstützen oder individualisierte Therapieempfehlungen abgeben [19]. Auch Texte können von Transformern verarbeitet und zusammengefasst werden, um z. B. bei Neuaufnahmen einen schnellen Überblick über die bisherige Krankengeschichte zu vermitteln [20]. Transformer können zudem strukturierte und eloquente Texte formuliere und damit u. a. die zeitaufwendige medizinische Dokumentation vereinfachen [21], [22].

Eine erste Besonderheit der Funktionsweise der Transformer ist die Art der Texteingabe. Während ältere Algorithmen wie etwa recurrent neural networks (RNNs, rekurrente neuronale Netze) lediglich ein token nach dem anderen verarbeiten können, verarbeiten Transformer die gesamte Texteingabe auf einmal. Der Textabschnitt wird in tokens unterteilt und diese zu input embeddings weiterverarbeitet ([ Abb. 2b ]). Hinzu kommen Informationen zur Position der tokens im Eingabetext. Diese optimierten Vektor-Repräsentationen der tokens werden nun parallel in den ersten Abschnitt des Transformers eingespeist, den encoder (Kodierer; [ Abb. 4 ]). Die Aufgabe des encoders besteht darin, den Eingabetext zu „verstehen“, bevor im decoder (Dekodierer) eine Ausgabe produziert wird. In der Praxis werden mehrere encoder- und mehrere decoder-Blöcke hintereinandergeschaltet, um komplexere Berechnungen zu ermöglichen.

Zoom Image
Abb. 4 Vereinfachte Darstellung einer Transformer-Architektur mit einem encoder- und einem decoder-Block. Das Modell erhält als Eingabetext eine kurze Fallvignette und erstellt schrittweise einen Ausgabetext mit einer Verdachtsdiagnose. Der Eingabetext wird zunächst in tokens umgewandelt, d. h. in Wortbestandteile unterteilt, die als Zahl bzw. Vektor ausgedrückt werden und Informationen zur Position der Wortbestandteile im Satz enthalten. In den attention-Blöcken wird die Beziehung der tokens zueinander berechnet. Diese optimierten Zahlenrepräsentationen von Wortbestandteilen können genutzt werden, um mittels neuronalen Netzen das nächste möglichst sinnvolle Wort auszugeben. Die Abbildung zeigt den Zustand des Modells, in dem es im vergangenen Zyklus das Wort „Verdachtsdiagnose“ ausgegeben hat und im jetzigen Zyklus das Wort „Migräne“ ausgibt.

Die zweite Besonderheit und der Kern der Transformer sind die Self-attention-Module [13]. Sie verwenden eine mathematische Formel, die für jeden token die Beziehung zu allen einzelnen token der Textsequenz (allen anderen und sich selbst) berechnet. Diese Beziehungen werden auch als attention bezeichnet und als Gewicht ausgedrückt. Ein höheres attention-Gewicht beschreibt eine stärkere Beziehung eines tokens zu einem anderen, z. B. bezieht sich der Artikel „Die“ stark auf „Patientin“ und wenig auf die anderen tokens ([ Abb. 4 ]). Die Funktionsweise der attention-Module ist komplex. Für besonders Interessierte folgt nun eine ausführlichere Erläuterung.

Zoom Image

dim = Dimensionalität des key-Vektor

Die Variablen-Bezeichnungen der Formel sind der Suchmaschinensprache entlehnt. Hierbei bezeichnet „query“ eine Suchmaschinenanfrage (z. B. nach einem Bild in einer Datenbank). „keys“ sind Kodierungen der einzelnen Elemente der Datenbank (vergleichbar mit den Namen oder Kurzbeschreibungen der Bilddateien). „Value“ sind die Elemente selbst (z. B. die Bilder). Es soll das Element (value) ausgegeben werden, für das die Anfrage (query) am besten zur Kodierung (key) passt. Hierzu werden die Anfrage (query) und alle Kodierungen (keys) hinsichtlich ihrer Ähnlichkeit verglichen. Je ähnlicher die query und ein bestimmter key sind, desto stärker wird das Element (value), das zu dem key gehört, gewichtet, und desto eher wird es letztlich ausgegeben (also z. B. ein spezifisches Bild nach einer Datenbankanfrage).

Im Kontext der Transformer bezeichnet „value“ das Textelement bzw. den token, für den die attention-Gewichte bzw. Beziehungen zu allen einzelnen Textelementen bzw. tokens berechnet werden soll. Die Gewichte berechnen sich durch den Vergleich der query- und key-Vektoren. Mathematisch gelingt dies über ein Skalarprodukt aus query und keys, also einer Multiplikation der Vektoren. „Query“ ist ein Anfrage-Vektor, der der Kodierung des keys eines values ähneln kann/soll. „Keys“ sind Kodierungen in Form von Vektoren für jeden einzelnen token. Query und die keys werden meist zufällig initialisiert und während des Trainings des Modells optimiert, um eine bestmögliche Gewichtung der values zu bewerkstelligen. Die Gewichte werden anschließend skaliert und auf Zahlenwerte zwischen 0 und 1 normalisiert. Abschließend wird jedes Gewicht mit den value-Vektoren multipliziert.

Die Ausgabe eines attention-Moduls sind nun noch weiter verbesserte Vektordarstellungen der tokens, die neben den initialen input embeddings und Positionskodierungen auch Informationen zur Beziehung zu anderen Wörtern im Text enthalten. Auf diese Weise werden Zusammenhänge zwischen selbst weit entfernen Textabschnitten berücksichtigt. Der attention-Mechanismus wird parallel für unterschiedliche Aspekte und Arten der Beziehungen durchgeführt, um unterschiedliche Facetten zu berücksichtigen. Im encoder durchwandern die token-Vektoren zunächst ein attention-Modul. Die resultierenden attention-Vektoren werden anschließend in einem klassischen neuronalen Netz-Modul weiter optimiert und danach in den decoder eingeschleust.

Transformer geben Schritt für Schritt weitere Wörter aus, bis ein ganzer Ausgabetext entsteht. In jedem Zyklus erhält der decoder hierzu die zuletzt erzeugte Modellausgabe als Eingabe. In unserem Beispiel entspräche dies dem zuletzt ausgegebenen Wort („Verdachtsdiagnose“; [ Abb. 4 ]). Wie beim encoder, wird diese letzte Modellausgabe zunächst in embeddings und anschließend in einem attention-Modul in attention-Vektoren umgewandelt. Im nun folgenden attention-Modul laufen die attention-Vektoren des zuletzt ausgegebenen Textabschnitts sowie der initialen Texteingabe zusammen. Die Ausgabe dieses attention-Moduls sind schließlich attention-Vektoren, die die Beziehung jedes Worts der initialen Eingabe zur letzten Ausgabe darstellen. Es folgt ein weiteres neuronales Netz-Modul, das die Umwandlung der Vektoren in Text vorbereitet. Die finale Ausgabe des Models eines Zyklus ist vereinfacht beschrieben eine Wahrscheinlichkeitsverteilung über alle Wörter im Wörterbuch. Das Wort mit der höchsten Wahrscheinlichkeit wird ausgegeben (in unserem Fall „Migräne“). Auf diese Weise gibt der Transformer mit jedem Zyklus ein weiteres Wort aus, bis ein Ausgabetext als Antwort auf den Eingabetext entstanden ist.


#
#

Anforderungen für die KI in der Neurologie

Die Anwendungsmöglichkeiten von KI in der Neurologie sind breit. Es existieren leistungsstarke Modelle, die nahezu jede Form von Daten verarbeiten und auswerten können. Jedoch bestehen weiterhin einige Herausforderungen für die Nutzung von KI in Klinik und Forschung:

  • Menge und Qualität der Daten: Für viele Anwendungen sind große Mengen Trainingsdaten notwendig mit Hunderten bis Tausenden Datenpunkten. Gerade für seltenere Erkrankungen ist dies oft nicht zu bewerkstelligen. Zudem ist die Qualität der Trainingsdaten entscheidend. Sie sollten eine breite Palette von Szenarien abdecken und repräsentativ für die Eingabedaten der realen Welt sein. Unterschiede hinsichtlich Alter, Ethnizität, Krankheitsmanifestation etc. können zu einer reduzierten Leistungsfähigkeit der Algorithmen in der Praxis führen, also z. B. zu fehlerhaften Klassifikationen radiologischer Bilder. Die Daten sollten frei von Artefakten, Ausreißern und Rauschen sein. Beim supervised learning müssen zudem die label zuverlässig sein, also die Beschreibungen der Daten anhand derer der Algorithmus lernt.

  • Infrastruktur: Die notwendige technische Infrastruktur aus Software zur strukturierten Erfassung von Daten, Servern zur Speicherung der Daten, Rechenleistung zur Verarbeitung der Daten sowie entsprechenden Verknüpfungen existieren vielerorts noch nicht. Hinzu kommen Anforderungen an die Expertise der Anwender zur erfolgreichen Nutzung von KI und insbesondere der Interpretation der Ausgaben.

  • Erklärbarkeit: Zwar können KI-Modelle „intelligente“ Ausgaben wie Verdachtsdiagnosen und Prognoseabschätzungen liefern, diese Ausgaben jedoch oft nicht näher erklären oder begründen. Ein wichtiges Forschungsfeld ist daher die explainable AI (xAI, erklärbare KI). Sie entwickelt Methoden, um die Ausgaben der KI-Algorithmen besser zu erklären, z. B. indem zusätzlich zur reinen Bildklassifikation die vermeintliche Auffälligkeit farbig markiert wird. Somit kann die Ausgabe bzw. Entscheidung des Modells besser nachvollzogen werden.

  • Ethische und juristische Anforderungen: Der Einsatz von KI in der Medizin erfordert sorgfältige ethische und juristische Abwägung, z. B. hinsichtlich Datenschutz, Sicherheit und der sachgemäßen Anwendung von KI-Algorithmen, oder der Haftung bei Fehlern. Die Zulassungsverfahren sind daher oft langwierig und kostenintensiv. Haftungsfragen sind in vielen Fällen nicht hinreichend geklärt [23].

FAZIT FÜR DIE PRAXIS

KI weist großes Potenzial in der Neurologie auf, da sie sowohl Forschungsanwendungen als auch eine Vielzahl diagnostischer und therapeutischer Prozesse unterstützen bzw. automatisieren kann. Die Art der Eingabedaten und gewünschten Ausgaben beeinflusst die Auswahl des KI-Modells. Neuronale Netze eignen sich besonders für die Verarbeitung statischer Daten, Transformer für die Verarbeitung sequenzieller Daten. Die Anforderungen an die Datenmenge und -qualität, die IT-Infrastruktur, die Erklärbarkeit der Ergebnisse sowie die ethischen und rechtlichen Bestimmungen sind hoch und erfordern eine kontinuierliche Weiterentwicklung. Bis das volle Potenzial der KI in der Neurologie ausgeschöpft werden kann, wird es deshalb noch einige Zeit dauern.

GLOSSAR
  • Algorithmus: Handlungsvorschrift bzw. Sammlung von Handlungsvorschriften zur schrittweisen (mathematischen) Lösung eines Problems

  • Attention: Methode, um die Beziehung zwischen verschiedenen Teilen sequenzieller Eingabedaten zu berücksichtigen

  • Deep learning (tiefes Lernen): Teilbereich der künstlichen Intelligenz und des machine learning mit umfangreichen neuronalen Netzen, die besonders komplexe Aufgaben lösen können

  • Embedding: Zahlenrepräsentation von tokens, die zusätzliche Informationen wie z. B. zur semantischen Nähe der tokens enthalten kann

  • Gradient descent (Gradientenabstiegsverfahren): Methode, die genutzt wird, um Algorithmen aus dem Bereich machine learning, z. B. neuronale Netze zu trainieren, indem der Fehler des Modells als Funktion ausgedrückt wird, die schrittweise minimiert wird

  • Künstliche Intelligenz: Algorithmen, die biologischer Intelligenz ähneln bzw. diese nachahmen

  • Künstliche neuronale Netze: Algorithmen aus den Bereichen künstliche Intelligenz bzw. machine learning, die biologischen neuronalen Netzen ähneln und zur Verarbeitung von Informationen und dem Lernen aus Daten verwendet werden

  • Label: Exakte Beschreibungen bzw. „Beschriftungen“ der Daten, meist durch Menschen

  • Machine learning (machinelles Lernen): Teilbereich der künstlichen Intelligenz mit Algorithmen, die anhand von Daten selbstständig lernen und sich anpassen, ohne dass explizit vorgegeben wird, wie die Daten verarbeitet werden sollen

  • Modell: Repräsentation bzw. Abbildung der Realität, z.B. mithilfe einer mathematischen Formel

  • Reinforcement learning (verstärkendes Lernen): Lernen durch Belohnung und Bestrafung

  • Supervised learning (überwachtes Lernen): Lernen anhand exakt beschriebener Eingabedaten (labels), um diese Beschreibungen anschließend selbstständig generieren zu können

  • Testdaten: Anteil der verfügbaren Daten, die genutzt werden, um die Leistung eines Modells abschließend zu beurteilen

  • Token: Einteilung sequenzieller Daten wie Text in diskrete (endliche) Einheiten wie Wörter oder Wortteile, die meist durch Zahlenwerte bzw. Vektoren repräsentiert werden

  • Trainingsdaten: Anteil der verfügbaren Daten, die genutzt werden, um ein Modell zu trainieren und dessen Leistung zu verbessern

  • Transformer: Moderne Algorithmen aus dem Bereich künstliche Intelligenz bzw. machine learning, die u. a. einen attention-Mechanismus nutzen, um sequenzielle Daten zu verarbeiten und auszugeben

  • Unsupervised learning (unüberwachtes Lernen): Lernen bzw. Mustererkennung ohne exakt beschriebene Eingabedaten (labels)

  • Validierungsdaten: Anteil der verfügbaren Daten, die genutzt werden, um die Leistung verschiedener bereits trainierter Modelle zu vergleichen


#

Wissenschaftlich verantwortlich

Wissenschaftlich verantwortlich gemäß CME-Zertifizierungsbedingungen für diesen Beitrag ist Prof. Dr. med. Inga K. Körte, München.


#
#

Interessenkonflikt

Erklärung zu finanziellen Interessen

Forschungsförderung erhalten: nein; Honorar/geldwerten Vorteil für Referententätigkeit erhalten: nein; Bezahlter Berater/interner Schulungsreferent/Gehaltsempfänger: nein; Patent/Geschäftsanteile/Aktien (Autor/Partner, Ehepartner, Kinder) an Firma (Nicht-Sponsor der Veranstaltung): ja; Patent/Geschäftsanteile/Aktien (Autor/Partner, Ehepartner, Kinder) an Firma (Sponsor der Veranstaltung): nein.

Erklärung zu nicht finanziellen Interessen

Dr. Koerte ist Professorin an der Ludwig-Maximilians-Universität München (bezahlte Stelle). Sie ist europäische Herausgeberin des Journal of Neurotrauma (unbezahlte Stelle) und Vizepräsidentin der European Neurotrauma Organization (unbezahlte Stelle). Sie erhält Forschungsgelder von den National Institutes of Health, dem Europäischen Forschungsrat und dem deutschen Bundesministerium für Forschung und Bildung. Sie erhält Mittel für eine Forschungsstudie über sportbedingte Gehirnerschütterungen von Abbott Inc. Das Klinikum der Ludwig-Maximilians-Universität erhielt Spenden für ihre Forschung von der Schatt-Stiftung und von Mary Ann Liebert Inc. Sie erhält Tantiemen für Buchkapitel, die von Thieme veröffentlicht werden. Ihr Ehepartner ist Angestellter bei Siemens und sie hält daher Aktienoptionen bei Siemens und Siemens Healthineers.


Korrespondenzadresse

Tim L. T. Wiegand
cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie
Psychosomatik und Psychotherapie
Ludwig-Maximilians-Universität
St. Vinzenz-Haus
Nußbaumstr. 5
80336 München
Deutschland   

Publikationsverlauf

Artikel online veröffentlicht:
04. September 2023

© 2023. Thieme. All rights reserved.

Georg Thieme Verlag KG
Rüdigerstraße 14, 70469 Stuttgart, Germany


Zoom Image
Abb. 1 a Abgrenzung der Begriffe „künstliche Intelligenz“, „machine learning“ und „deep learning“. b Abgrenzung der Begriffe „supervised learning“, „unsupervised learning“ und „reinforcement learning“.
Zoom Image
Abb. 2 a Einzelnes Schwarz-weiß-Bild (links) sowie Farbbild (rechts) als Beispiele statischer Eingabedaten. Die Zahlenwerte jedes Pixels können als Vektoren, Matrizen bzw. Tensoren dargestellt und verarbeitet werden. b Textabschnitt als Beispiel sequenzieller Eingabedaten. Der Text kann in tokens zerlegt werden. Diese können als Vektoren dargestellt werden, die zusätzlich die semantische Nähe der tokens zueinander abbilden (embeddings).
Zoom Image
Abb. 3 a Aufbau eines einzelnen künstlichen Neurons. Der input x wird zunächst gewichtet, d. h. mit den Gewichten w multipliziert. Die gewichteten Eingaben werden summiert (Σ) und in die Aktivierungsfunktion f(x) eingesetzt (vergleichbar mit einem Aktionspotenzial). Hierdurch entsteht der output ŷ, der wiederum den input für nachfolgende Neurone darstellt. b Ein beispielhaftes neuronales Netz mit 2 hidden layern mit jeweils 3 Neuronen.
Zoom Image
Abb. 4 Vereinfachte Darstellung einer Transformer-Architektur mit einem encoder- und einem decoder-Block. Das Modell erhält als Eingabetext eine kurze Fallvignette und erstellt schrittweise einen Ausgabetext mit einer Verdachtsdiagnose. Der Eingabetext wird zunächst in tokens umgewandelt, d. h. in Wortbestandteile unterteilt, die als Zahl bzw. Vektor ausgedrückt werden und Informationen zur Position der Wortbestandteile im Satz enthalten. In den attention-Blöcken wird die Beziehung der tokens zueinander berechnet. Diese optimierten Zahlenrepräsentationen von Wortbestandteilen können genutzt werden, um mittels neuronalen Netzen das nächste möglichst sinnvolle Wort auszugeben. Die Abbildung zeigt den Zustand des Modells, in dem es im vergangenen Zyklus das Wort „Verdachtsdiagnose“ ausgegeben hat und im jetzigen Zyklus das Wort „Migräne“ ausgibt.
Zoom Image