Osteologie 2025; 34(04): 256-264
DOI: 10.1055/a-2717-5826
Originalarbeit

KI zur automatisierten vBMD- und Fragilitätsanalyse des proximalen Femurs an CT-Scans

AI for Automated vBMD and Fragility Assessment of the Proximal Femur in CT Scans

Authors

  • Nicolai Raphael Krekiehn

    1   Sektion Biomedizinische Bildgebung (SBMI), Intelligent Imaging Lab (i²Lab), Universitätsklinikum Schleswig-Holstein, Campus Kiel, Klinik für Radiologie und Neuroradiologie, Kiel, Germany
  • Stefan Bartenschlager

    2   Department of Medicine III, Friedrich-Alexander University of Erlangen-Nürnberg, University Hospital Erlangen, Erlangen, Germany
    3   Institute of Medical Physics (IMP), Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Erlangen, Germany
  • Ronald Seidel

    1   Sektion Biomedizinische Bildgebung (SBMI), Intelligent Imaging Lab (i²Lab), Universitätsklinikum Schleswig-Holstein, Campus Kiel, Klinik für Radiologie und Neuroradiologie, Kiel, Germany
  • Oliver Chaudry

    2   Department of Medicine III, Friedrich-Alexander University of Erlangen-Nürnberg, University Hospital Erlangen, Erlangen, Germany
    3   Institute of Medical Physics (IMP), Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Erlangen, Germany
  • Sigurdur Sigurdsson

    4   Kopavogur, Icelandic Heart Association, Kópavogur, Iceland
  • Vilmundur Gudnason

    4   Kopavogur, Icelandic Heart Association, Kópavogur, Iceland
    5   Department of Medicine, University of Iceland, Reykjavík, Iceland
  • Jan-B Hövener

    1   Sektion Biomedizinische Bildgebung (SBMI), Intelligent Imaging Lab (i²Lab), Universitätsklinikum Schleswig-Holstein, Campus Kiel, Klinik für Radiologie und Neuroradiologie, Kiel, Germany
  • Klaus Engelke

    2   Department of Medicine III, Friedrich-Alexander University of Erlangen-Nürnberg, University Hospital Erlangen, Erlangen, Germany
    3   Institute of Medical Physics (IMP), Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Erlangen, Germany
  • Claus-C Glüer

    1   Sektion Biomedizinische Bildgebung (SBMI), Intelligent Imaging Lab (i²Lab), Universitätsklinikum Schleswig-Holstein, Campus Kiel, Klinik für Radiologie und Neuroradiologie, Kiel, Germany

Fundref Information

Bundesministerium für Bildung und Forschung — http://dx.doi.org/10.13039/501100002347; ARTEMIS / 01EC1908A

 

Zusammenfassung

Hintergrund

Osteoporotische Hüftfrakturen sind mit hoher Morbidität und Mortalität verbunden. Die nebenbefundliche Routineanalyse klinischer CT-Scans im Hinblick auf Frakturrisiko (opportunistisches Screening) könnte Präventionsbedarf frühzeitig aufdecken, bislang fehlt jedoch ein frei verfügbares vollautomatisches Verfahren zur Bestimmung der volumetrischen Knochendichte (vBMD) des proximalen Femurs.

Methoden

Es wurde die open source KI TotalSegmentator mit zwei eigenen KI-Modellen kombiniert, um sowohl das proximale Femur als auch ein Kalibrierphantom zu segmentieren und daraus einen vBMD vollautomatisch zu berechnen. Die Güte der KI vBMD Messungen wurde an 1070 Hüft QCT-Scans der AGES Studie durch den Vergleich mit dem semi-automatischen Goldstandard MIAF ermittelt. Zur ersten Prüfung der Eignung wurden 289 klinische CT-Scans (ARTEMIS Studie) bzgl. der Vorhersage inzidenter Hüftfrakturen analysiert.

Ergebnisse

Die KI HU vBMD Werte korrelierten eng mit den MIAF vBMD Werten (r=0,88–0,97); nach Kalibrierung betrug die Korrelation r=0,96 bei einem Bias von 1,6 mg/cm³ (integral) und 21,9 mg/cm³ (trabekuläre) und RMS-Fehlern von 15,1 mg/cm³ (integral) und 9,8 mg/cm³ (trabekulär). Die prädiktive Güte für Hüftfrakturen (AUC 0,771–0,836) lag signifikant (p<0,031) über dem Basismodell aus Alter und Geschlecht (AUC=0,641).

Schlussfolgerungen

Die entwickelte KI ermöglicht eine vollautomatische, schnelle und kalibrierte Bestimmung der vBMD am proximalen Femur direkt aus klinischen CT-Scans und erlaubt die Vorhersage des Hüftfrakturrisikos. Die positiven Ergebnisse aus dieser ersten Prädiktionsstudie müssen jedoch in einem unabhängigen und größeren Datensatz überprüft werden. Damit eröffnet sich die Möglichkeit, Risikopatienten/-innen im Rahmen des opportunistischen Screenings zu identifizieren und präventive Maßnahmen früher einzuleiten.


Abstract

Background

Osteoporotic hip fractures are associated with high morbidity and mortality. Opportunistic screening by incidental analysis of routine clinical CT scans for fracture risk could reveal the need for prevention at an early stage. However, a freely available fully automated method for determining volumetric bone mineral density (vBMD) of the proximal femur is still lacking.

Methods

The open-source AI tool TotalSegmentator was combined with two in-house AI models to segment both the proximal femur and a calibration phantom, enabling fully automated vBMD calculation. The accuracy of AI vBMD measurements was evaluated in 1070 hip QCT scans from the AGES study by comparison with the semi-automated gold standard MIAF. For an initial assessment of suitability, 289 clinical CT scans (ARTEMIS study) were analyzed regarding prediction of incident hip fractures.

Results

AI HU vBMD values correlated closely with MIAF vBMD values (r=0.88–0.97). After calibration, correlation was r=0.96 with a bias of 1.6 mg/cm³ (integral) and 21.9 mg/cm³ (trabecular), and RMS errors of 15.1 mg/cm³ (integral) and 9.8 mg/cm³ (trabecular). Predictive performance for hip fractures (AUC 0.771–0.836) was significantly higher (p<0.031) than the baseline model of age and sex (AUC=0.641).

Conclusions

The developed AI enables fully automated, rapid, and calibrated assessment of proximal femur vBMD directly from clinical CT scans and allows prediction of hip fracture risk. The positive results of this first prognostic study, however, need to be confirmed in independent and larger datasets. This approach offers the potential to identify at-risk patients in opportunistic screening and to initiate preventive measures at an earlier stage.


Einleitung

Osteoporotische Frakturen stellen ein erhebliches Gesundheitsrisiko dar, insbesondere Hüftfrakturen, welche mit einer erhöhten Morbidität, Mortalität sowie einer verminderten Lebensqualität assoziiert sind [1]. Der demographische Wandel führt zu einer kontinuierlichen Zunahme der Betroffenenzahl, was Prävention und frühzeitige Risikoabschätzung zu den zentralen Herausforderungen macht. Knochenmineraldichte (BMD) gilt als einer der stärksten Prädiktoren für osteoporotisch bedingte Frakturen [2], [3].

Während DXA-basierte BMD-Messungen in der klinischen Praxis als Standard etabliert sind, erlauben moderne Computertomographie (CT)-basierte Verfahren eine detailliertere Analyse der Knochenstruktur und -dichte, insbesondere die Unterscheidung zwischen integraler und trabekulärer Knochendichte [4]. Um aus den gemessenen CT-Werten (Hounsfield Units HU) BMD-Werte (mg/cm³) zu berechnen, werden die Patienten bei der klassischen QCT auf einem sogenannten Kalibrierphantom gescannt, das Einsätze mit Materialien bekannter BMD enthält. Das ist beim sogenannten opportunistischen Screening nicht der Fall. Hier werden bereits vorhandene CT-Scans aus der klinischen Routine benutzt, die i.a. ohne Phantom erstellt wurden. Diese Bilddaten bieten eine vielversprechende Möglichkeit, Patienten mit hohem Frakturrisiko frühzeitig zu identifizieren – ohne zusätzliche Strahlenbelastung (welche bei CT höher wäre als bei DXA) oder Kosten [5], [6].

Ein wesentliches Hindernis für die breite Anwendung dieser Ansätze liegt bislang in der fehlenden Automatisierbarkeit. Die segmentbasierte volumetrische BMD-Messung (vBMD) am proximalen Femur (prox. Femur) ist mit erheblichem manuellem Aufwand verbunden und erfordert spezialisierte Software sowie erfahrenes Personal. Dies limitiert eine Umsetzung im Alltag – insbesondere im Rahmen opportunistischer Untersuchungen.

Semi-automatisierte Software wie QCT Pro (Mindways Software Inc., Austin, TX, USA), VirtuOst (O.N. Diagnostics) oder das Forschungsframework Medical Image Analysis Framework (MIAF) [7] bieten zwar eine detaillierte Analyse, sind jedoch häufig proprietär. Beispielsweise müssen für VirtuOst die CT-Daten extern übertragen werden, was die Integration in klinische Routinen erheblich erschwert.

In den letzten Jahren wurden daher vermehrt KI-gestützte Ansätze zur automatisierten Segmentierung des prox. Femurs und anschließenden BMD-Bestimmung auf CT-Daten entwickelt.

Zwar berichten viele Studien über hohe Genauigkeiten bei der Segmentierung, jedoch bestehen erhebliche Einschränkungen hinsichtlich der klinischen Anwendbarkeit: Häufig ist der zugrunde liegende Code nicht öffentlich verfügbar [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], die Modelle sind an spezielle Arten von CT-Scans gebunden (z. B. nano-CT an Kadavern, low-Dose CT) [11], [17] oder die klinische externe Validierung – insbesondere hinsichtlich des Frakturrisikos – ist nicht durchgeführt worden [9], [11], [12], [13], [14], [15], [16], [17], [18], [19]. Das open-source Software von Uemura et al. [18] entspricht am ehesten unseren Anforderungen, beschränkt sich allerdings auf die projizierte BMD. Zudem ist es nicht voll-automatisch und damit ungeeignet für opportunistisches Screening.

Eine bemerkenswerte Ausnahme stellt der TotalSegmentator (TS) [20] dar – eine robuste, frei verfügbare Open-Source Software auf Basis des nnU-Net Frameworks [21], das derzeit über 117 anatomische Strukturen in CT- und MRT-Daten segmentieren kann. Aufgrund seiner hohen Verbreitung (>1200 Zitierungen) und aktiven Community stellt es einen praxistauglichen Baustein für automatisierte Analysen dar. Allerdings liefert TS lediglich Segmentierungen des gesamten Femurs, nicht spezifisch des prox. Anteils und da die CT-Daten auch nicht kalibriert sind, ist unklar, inwieweit hiermit eine Frakturrisikoabschätzung durchgeführt werden kann.

Mit der vorliegenden Arbeit möchten wir diese Lücke schließen und den Funktionsumfang der Software erweitern:

Wir präsentieren eine vollautomatische Pipeline zur vBMD-Bestimmung des gesamten prox. Femurs (KI vBMD) aus beliebigen klinischen CT-Scans – einschließlich Segmentierung, vBMD-Berechnung und Frakturrisikoabschätzung.

Hierzu kombinieren wir den TS mit zwei eigens entwickelten KIs: einerseits einem auf das proximale Femur, andererseits einem auf das Kalibrierungsphantom, spezialisierte Segmentierungsmodell (nnU-Net).

Ziel dieser Studie ist es, (1) die Genauigkeit unserer KI vBMD-Berechnung mit etablierten Referenzmethoden zu vergleichen und (2) deren prognostische Aussagekraft hinsichtlich inzidenter Hüftfrakturen im Rahmen eines opportunistischen Screenings zu evaluieren.


Material

Wir verwendeten drei verschiedene Datensätze ([Tab. 1]):

Tab. 1 Informationen über die Datensätze. Anzahl bzw. Mittelwert±Standardabweichung oder Median, Minimum, Maximum.

Datensatz

Total Segmentator

AGES

ARTEMIS

Anzahl CT Scans

1228

1070

288

Frauen [% Anteil]

510 (41,5%)

661 (61,8%)

101 (35,1%)

Alter [Median, Min-Max]

65 (18–98)

75 (66–93)

65 (59–85)

MIAF vBMD [mg/cm3]

243±50

AI HU [HU]

306±61

351±82

Inzidente Hüftfrakturen [% Anteil]

11 (3,8%)

  1. TotalSegmentator[1] (Schweiz) für das Training einer eigenen KI zur Segmentierung des prox. Femurs.

  2. Age/Gene-Environment Susceptibility (AGES) Reykjavik Kohorten Studie (Island) [22] als unabhängiger Testdatensatz für die Übereinstimmung unsere KI vBMD Messung mit dem Goldstandard einer klassischen Bildverarbeitung mittels MIAF (Medical Image Analysis Framework, Version 7.1.0, Klaus Engelke, FAU Erlangen).

  3. Daten des Universitätsklinikums Schleswig-Holstein (UKSH) nebst einer Patientenbefragung im Rahmen der BMBF geförderten ARTEMIS Studie (ARTEMIS – Künstliche Intelligenz bei muskuloskelettalen Erkrankungen, Deutschland) als unabhängiger Testdatensatz für die Hüftfrakturrisikovorhersage.

KI Training: TotalSegmentator Daten

Für unsere Experimente verwendeten wir sowohl die TS Software (Version 2.7.0) [20], also auch den dazugehörigen CT-Datensatz1. Dieser umfasst 1228 klinische CT-Scans mit Masken von bis zu 117 unterschiedlichen Anatomien pro Scan. Wir haben die Software genutzt, um das Femur, zum Zwecke quantitativer Analysen auf verschiedensten CT-Scans zu maskieren (segmentieren). Mit den Daten, haben wir selbst eine KI trainiert, welche nur das proximale Femur, anstelle des gesamten Femur, segmentierte.


Übereinstimmung mit Goldstandard QCT: AGES Studiendaten

Das erste Anwendungsgebiet für unsere KI vBMD Messung waren quantitative CT-Scans der Hüfte (QCT), also spezielle CT-Scans, bei denen zu Kalibrierungszwecken auch ein unter den Studienteilnehmer*innen gelegtes Knochendichtephantom mit aufgenommen wurde, zur quantitativen Messung der Knochendichte. Für die Übereinstimmung mit MIAF Daten verwendeten wir Daten (n=1070 QCT-Scans) der AGES Studie [22].


Frakturprädiktion: ARTEMIS Studiendaten

Das zweite Anwendungsgebiet war das vollautomatische opportunistische Screening zwecks Risikoabschätzung für inzidente Hüftfrakturen an diversen klinischen CT-Scans. Dazu verwendeten wir einen im Rahmen des ARTEMIS Projektes erhobenen klinischen Datensatz am UKSH. Dieser besteht aus klinischen CT-Scans und retrospektiver Selbstauskunft der Patienten via Fragebogen über den inzidenten Frakturstatus (Hüfte, Wirbel) seit Bildgebung (Follow-up mindestens 10 Jahre nach Bildgebung). Von über 1800 identifizierten Patienten konnten 289 in die Studie eingeschlossen werden. Für diese Patienten lagen sowohl der beantwortete Fragebogen vor, als auch ein klinischer CT-Scan, welcher das proximale Femur beinhaltete. 11 Patienten hatten eine inzidente Hüftfraktur nach dem CT-Scan und 16 eine Wirbelfraktur erlitten. Ein positives Ethikvotum der Ethikkommission der Medizinischen Fakultät der Christian-Albrechts-Universität zu Kiel (AZ: D 596/22) liegt vor.

Im Rahmen dieser Veröffentlichungen haben wir nur die Vorhersage der Hüftfrakturinzidenz getestet. Hierfür wurden die Fragen „Hatten Sie in den letzten Jahren einen Knochenbruch?“ und „Wenn ja, wo? Hüfte? Wirbelsäule? Andere?“ an die Studienteilenehmer gestellt. Da die Befragung zur Wirbelkörperfrakturinzidenz im Selbstbericht von sehr großen Unsicherheiten geprägt ist und die Fallzahlen zu gering sind, als dass sich fehlerhafte Selbstberichte herausmitteln würden, haben wir auf eine Analyse der Wirbelkörperfrakturinzidenz hier verzichtet.



Methoden

KI Training: TotalSegmentator & AGES Studiendaten

Proximale Femur Masken für KI Training

Um auch proximale Femora Masken in klinischen CT-Scans (opportunistisches Screening) zu erzeugen, haben wir eine eigene KI an von uns dafür modifizierten TS-Masken (n=1040) mit Hilfe des nnUNet Frameworks (Version 2.4) [21] trainiert. Für das Training wurden die ursprünglichen TS Femur-Masken entlang der axialen Achse manuell gekürzt. Es wurde der Bereich unterhalb (distal) der axialen Schnittbild-Ebene des Trochanter minor entfernt. Es wurden beide KIs auf die klinischen CT-Scans (ARTEMIS Daten) angewendet. In der Anwendung wurde zunächst mit TS der rechte oder linke Femur identifiziert und dann mit unserer KI das proximale Femur segmentiert.


Phantom Masken für KI Training

Die AGES QCT-Scans enthalten Kalibrier-Phantome, um die HU CT-Werte in physikalische Dichten (Masse pro Volumen) umzurechnen. Diesen Vorgang haben wir ebenfalls mit Hilfe einer selbst trainierten KI automatisiert. Dazu haben wir in 50 QCT-Scans manuell Masken des Phantoms erstellt. Mit dem nnUNet Framework [21] haben wir eine KI trainiert, welche die Phantome in den restlichen 1020 QCT-Scans segmentierte. Dadurch ist es uns möglich vollautomatisch die kalibrierte Knochendichte in mg/cm³ (KI vBMD) zumessen, sofern ein Phantom im CT-Scan enthalten ist.


Verfügbarkeit der KI

Die Modelle, sowie eine Anleitung zur Verwendung haben wir über ein GitHub Repository bereitgestellt[2].



Übereinstimmung mit Goldstandard QCT: AGES Studiendaten

TS Masken

Die KI HU vBMD wurde berechnet, indem der Mittelwert der CT-Werte der Voxel, welche in der Maske enthalten sind, gebildet wurde. Mit dem TS [20] haben wir vollautomatisch Masken von Femora (links und rechts) in QCT-Scans von Probanden:innen der AGES Studie erzeugt. Die TS Software konnte nur Femora, keine separaten proximal Femora Masken erzeugen. Die QCT-Scans in der AGES Studie sind so erstellt worden, dass diese in etwa das proximale Femur enthalten (siehe [Abb. 1], die Länge vom Schaft variierte). Daher haben wir die TS Masken direkt analysiert, ohne weiteres Prozessieren. Bei klinischen CT-Scans ist dieses Vorgehen jedoch nicht möglich, da diese unterschiedlich große Femorabereiche beinhalten. In solchen Fällen wird unsere KI zur gezielten Segmentierung des prox. Femur verwendet.

Zoom
Abb. 1 Schnittbilder eines quantitative Computertomographie Scans der Hüfte aus der AGES Studie mit Segmentierung des Femurs (rot) und einer 3D Darstellung der Segmentierung. Die roten Linien zeigen die Masken M0–M7 nach Entfernung von 0–7 Schichten der Oberfläche der Maske (isotrope Erosion, 1x1x1 mm3 Voxelgröße). Am Trochanter Major ist ein Osteophyt zu sehen, welcher in die Maske eingeschlossen wurde.
Fig. 1 Slice images of a quantitative computed tomography scan of the hip from the AGES study with segmentation of the femur (red) and a 3D rendering of the segmentation. The red outlines indicate the masks M0–M7 after removal of 0–7 layers from the mask surface (isotropic erosion, 1×1×1 mm3 voxel size). An osteophyte at the greater trochanter is visible, which was included in the mask.

Erosion

Um ausgehend von Masken des integralen Knochens (Kortex und Spongiosa) zunehmend zentral spongiöse Volumina zu definieren und um Randeffekte zu reduzieren, wurden alle Voxel (Voxelgröße 1×1×1 mm³) der Oberfläche (26er Nachbarschaft) der Maske entfernt (Erosion, [Abb. 1], rote Linien im Schnittbild). Letztendlich entstanden so die acht Masken M0–M7; null- bis siebenfach erodierte Masken.


vBMD Berechnung und Korrelation

Unser vollautomatisch gemessener KI HU vBMD basiert zunächst auf dem Mittelwert der CT-Werte in HU innerhalb der von TS erstellten Masken M0 bis M7. Diese Werte wurden durch unsere automatische KI-basierte Segmentierung des Kalibrierungsphantom (Fa. Imaga Analysis, USA) auf Knochendichte kalibriert (KI vBMD in mg/cm³).

Das etablierte MIAF-Verfahren basiert im Gegensatz zu unserem KI Verfahren auf einer semi-automatische, von Expert:innen der Medizinphysik Erlangen durchgeführten, Analyse. Sowohl für die Kalibrierung als auch für die anatomischen Regionen, wobei zusätzlich Subregionen innerhalb des prox. Femurs bestimmt werden. Diese Methode gilt als besonders akkurat und ist als Goldstandard für Knochendichtemessungen in QCT-Studien anerkannt [7], [23], [24], [25]. Mit beiden Methoden wurden vBMD an der AGES Studie gemessen und korreliert.

Um vergleichbare Werte zu den vollautomatischen TS Masken des kompletten Femurs zu erzeugen, verwendeten wir die Subregion „Total“ und „Head“ aus den MIAF Analysen. „Total“ beinhaltet das gesamte proximale Femur bis auf den Femurkopf, während „Total+Head“ zusätzlich den Femurkopf enthält und somit per Definition den TS Masken gleicht. In MIAF wurde für die Maske „Head“, aufgrund der dünnen Kortikalis des Femurkopfs, keine trabekuläre (trab) Messregion erstellt, nur eine integrale (int). Wir erzeugten aus den MIAF Analysen folgende drei vBMD Messungen für das jeweils linke proximale Femur, welche wir mit unseren acht Versionen der TS Maske (M0–M7) verglichen: „int Total“, „trab Total“ und „int Total+Head“.

Um den Aufwand der Analysen mit MIAF zu reduzieren, wurden nur Werte des linken prox. Femurs erzeugt, während die KI auch die rechten Femora analysiert hat.



Frakturprädiktion: ARTEMIS Studiendaten

Abschätzung des Frakturrisikos

Die KI HU vBMD Werte aus unseren KI proximal Femur Masken (M0 – M7) wurden an bisher ungesehenen klinischen CT-Scans des unabhängigen ARTEMIS Datensatzes gemessen. Pro Patienten haben wir den niedrigeren (von linkem und rechtem prox. Femur) KI HU vBMD Wert verwendet.

Für die Modellierung der Hüftfrakturinzidenz haben wir logistische Regressionsmodelle mit den unabhängigen Variablen KI HU vBMD, Alter und Geschlecht verwendet. Basierend darauf wurde ein Vergleich mit einem Referenzmodell durchgeführt, das lediglich Alter und Geschlecht enthielt. Die Modelle wurden für jeden Erosions-Schritt (M0–M7) berechnet und als Metriken für die Charakterisierung von Prädiktionskraft und Güte des Modell-Fits die Area Under the Curve (AUC) der Receiver Operating Characteristic (ROC) Kurve bestimmt und der Log Likelihood Ratio (LLR) Test [26] analysiert.



Knochendichte Auswertung

Um die Güte der vollautomatisch bestimmten KI HU vBMD und KI vBMD zu bewerten, wurden zwei Experimente durchgeführt.

  1. Korrelation mit klassischen vBMD Messungen (MIAF) an Daten der AGES Studie.

  2. Test für opportunistisches Screening: Vorhersage des inzidenten Hüftfrakturrisikos auf Basis von KI HU vBMD aus klinischen CT-Scans.



Ergebnisse

Korrelation

Unkalibrierter KI HU vBMD

Die KI HU vBMD und MIAF vBMD der AGES Daten korrelierten mit r=0,88 (M0 vs. „trab Total“) bis r=0,974 (KI M5 vs. „trab Total“, [Abb. 2]). Dabei war die Korrelation für die Messregion „int Total+Head“ am stärksten für die M0 Maske (r=0,970), aber nur geringfügig kleiner für die M1 Maske (r=0,969) (schwarze durchgezogene Linie). Die Korrelationen dieser M0- und M1-Masken mit Ergebnissen der MIAF Messregion „int Total“ waren ebenfalls in der gleichen Größenordnung von r=0,963 (rote durchgezogene Linie). Die MIAF-Messregion „trab Total“ war ebenso hochgradig mit Messungen innerhalb von KI-Masken korreliert, hier am besten für die Masken M4 (r=0,972) und M5 (r=0,974), siehe rote gestrichelte Linie.

Zoom
Abb. 2 Korrelation der vBMD bestimmt mit AI (M0–M7, x-Achse) und MIAF (Total, Head, siehe Legende) Masken an 1070 QCT-Scans. Jeder Punkt stellt eine Korrelation zwischen einer AI und einer MIAF Maske da.
Fig. 2 Correlation of vBMD determined with AI (M0–M7, x-axis) and MIAF (Total, Head, see legend) masks in 1070 QCT scans. Each point represents a correlation between one AI mask and one MIAF mask.

Deutlich ist der Trend zu erkennen, dass ohne bzw. bei wenigen Erosions-Schritten (M0, M1) die Korrelation zu integralen MIAF Masken am stärksten ist (durchgezogene Linien sinken von links nach rechts), während mehrfach erodierte Masken zu KI HU vBMD Werten führen, welche am stärksten mit denen der trabekulären MIAF Messregion korrelieren (gestrichelte Linie steigt von links nach rechts bis zu einem Maximum bei M4, M5 an).


Kalibrierter KI vBMD

Die Korrelation von kalibrierten KI vBMD Daten versus MIAF ist mit r=0,961 ähnlich zu denen der KI HU vBMD Daten. Der RMS Fehler der Korrelation von KI vBMD Werten liegt bei 15,1 mg/cm3 für die M1 Maske im Vergleich zu MIAF „int Total+Head“, sowie 9,8 mg/cm3 für M5 Masken im Vergleich zu MIAF „trabe Total“.

Im Bland-Altman Plot ([Abb. 3]) zeigt sich ein Bias von 1,6 mg/cm3 und eine Standardabweichung von 15,4 mg/cm3 für die M1 Maske im Vergleich zu MIAF „int Total+Head“, sowie ein Bias von 21,9 mg/cm3 und einer Standardabweichung von 9,8 mg/cm3 für die M5 Maske im Vergleich zu MIAF „trab Total“.

Zoom
Abb. 3 Bland-Altman-Diagramm zwischen den kalibrierten AI vBMD und MIAF vBMD. Links: AI M1 gegen MIAF „int Total+Head“, Rechts: AI M5 gegen MIAF „trab Total“. Der Mittelwert der Abweichung ist durch eine rote, sowie das 1,96 SD Intervall durch eine graue gestrichelte Linie dargestellt.
Fig. 3 Bland–Altman plot between calibrated AI vBMD and MIAF vBMD. Left: AI M1 vs. MIAF “int Total+Head.” Right: AI M5 vs. MIAF “trab Total.” The mean difference is shown as a red line, and the 1.96 SD interval as a gray dashed line.


Abschätzung des Frakturrisikos

Im opportunistischen Screening haben wir klinische CT-Scans (ARTEMIS) von 289 Patienten mit unserer KI analysiert. Da die Scans kein Kalibrierungs-Phantom enthielten, haben wir nur den KI HU vBMD der prox. Femora gemessen und nicht den KI vBMD. Zusammen mit Alter und Geschlecht ergaben sich AUCs für die KI HU vBMD Werte im Bereich von 0,771 bis 0,836, mit nur geringer Variabilität über die Anzahl von Erosions-Schritten ([Abb. 4]). Der Spitzenwert von AUC=0,836 für die M2 Maske war signifikant größer als die AUC von 0.641 einer Prädiktion allein auf der Basis von Alter und Geschlecht (DeLong Test [27], p<0,031). Auch der LLR-Test [26] zeigt, dass das Modell mit KI HU vBMD das Frakturrisiko signifikant besser abschätzt, als das Modell ohne diesen Prädiktor (p<0,00053).

Zoom
Abb. 4 AUC von logistischen Regressions Modellen für verschiedene Endpunkte (Legende), ohne AI vBMD (Baseline, links) und mit AI vBMD auf Basis von unterschiedlich vielen Erosions-Schritten (M0–M7).
Fig. 4 AUC of logistic regression models for different endpoints (see legend), without AI vBMD (baseline, left) and with AI vBMD based on varying numbers of erosion steps (M0–M7).


Diskussion

KI vBMD

Unsere Ergebnisse zeigen, dass es mit unserer KI möglich ist, den vBMD (in HU und mg/cm³) des gesamten prox. Femurs abzuschätzen und dabei eine sehr hohe Korrelation zu dem Goldstandard (MIAF) vBMD zu erreichen. Daraus folgt jedoch nicht, dass HU-Werte im Allgemeinen als Ersatz für BMD-Werte verwendet werden können – insbesondere nicht bei variierenden Röhrenspannungen (kV) – da bei unterschiedlichen kV-Einstellungen für dasselbe Material unterschiedliche HU Werte gemessen werden. In unserem Fall gibt es keine Diskrepanz zwischen HU und mg/cm3, da in der AGES Studie derselbe Scanner mit derselben kV für alle Scans verwendet wurde.

Die beobachteten Unterschiede zwischen KI vBMD und MIAF vBMD lassen sich unter anderem durch die Verwendung unterschiedlich großer Segmentierungsmasken erklären. In den AGES-Daten wurde als KI ausschließlich der TS eingesetzt, wodurch stets das vollständige, im Scan sichtbare Femur segmentiert wurde. Obwohl dies typischerweise dem prox. Femur entspricht, variiert die Ausdehnung distal des Trochanter minor zwischen den QCT-Scans. Diese Variation wird in MIAF manuell bereinigt, im vollautomatischen TS-Verfahren nicht.

Weitere Unterschiede ergaben sich zudem durch den Einschluss von Osteophyten in die KI-Masken ([Abb. 1], koronale Ansicht, z. B. am Trochanter major): Während sie in der vollautomatisch erzeugten Maske M0 eingeschlossen sind, werden sie in der semi-automatischen MIAF-Maske gezielt manuell entfernt. In der TS-Analyse reduziert sich ihr Einfluss durch die sequentielle Erosion (M1–M7), sodass mehrfach erodierte Masken keine osteophytären Anteile enthalten. Dennoch zeigen sich sehr hohe Korrelationen mit MIAF vBMD bereits bei M0 Masken, was darauf hinweist, dass der Einfluss der Osteophyten auf die Korrelation, zumindest im AGES Kollektiv, insgesamt gering ist.

MIAF verwendet defnierte Masken für die integrale und trabekuläre BMD Messung. Die erodierten KI Masken (M0 bis M7) korrelieren unterschiedlich stark mit den verschiedenen MIAF Masken ([Abb. 2]). Kein und einmal erodierte Masken (M0, M1) schätzen den integralen, häufiger erodierte Masken (M4, M5) den trabekulären sehr gut ab. Für trabekuläre Maske ergibt sich ein höherer systematischer Unterschied (Bias) von 21,9 mg/cm3 in den BMD-Werten zwischen MIAF und KI, als bei integralen Masken (1,6 mg/cm3). Dies liegt daran, dass bei den trabekulären Masken der KI der Femurkopf enthalten ist, in den MIAF Masken nicht. Bei den integralen Masken sind bei KI und MIAF der Femurkopf enthalten.

Die Standardabweichungen in den Differenzen zu MIAF vBMD von 15,4 mg/cm3 (integral) und 9,8 mg/cm3 (trabekulär) führen zu einem 95% Konfidenz-Intervall von±30,2 mg/cm3 bzw.±19,1 mg/cm3, wobei der Streuung für kleine vBMD Werte geringer ist als für große ([Abb. 3]).

Eine Abweichung von 1,6 mg/cm3 ist sehr gering und belegt die Anwendbarkeit unserer Methode zur Bestimmung der integralen vBMD. Der Fehler bei der trabekulären Messung von 21,9 mg/cm3 ist zu berücksichtigen, wenn die Ergebnisse unserer KI-Methode mit QCT-Referenzdaten oder dem Schwellenwert von 80 mg/cm3 für Osteoporose [28] verglichen werden. Für unseren Ansatz müsste der entsprechende Schwellenwert daher höher sein, aber ein spezifischer Schwellenwert müsste in größeren Studien evaluiert werden, bevor er in der klinischen Praxis angewendet werden kann.


Inzidentes Frakturrisiko

Der KI HU vBMD erreicht nicht nur hohe Korrelationen im Vergleich zum klassischen vBMD auf QCT-Scans, sondern liefert auch in einem ersten Test eine signifikante Vorhersage zur Hüftfrakturrisikoabschätzung auf klinischen CT-Scans.

Da unser klinischer Datensatz unbalanciert ist und eine geringe Fallzahl an inzidenten Hüftfrakturen enthält erhalten wir weite Konfidenz-Intervalle bzgl. der AUC ([Abb. 4] rote Fläche). Dies schränkt unsere Vergleichbarkeit mit AUCs aus anderen Studien ein. Dennoch haben wir die signifikante Verbesserung der AUC bei Verwendung des KI HU vBMD (in HU) gegenüber dem Risiko-Modell ohne KI HU vBMD gezeigt, zusätzlich gestützt durch den LLR Test.

Dass die Vorhersage trotz kleinem Datensatz signifikant ist und vor allem, dass mit AUCs von über 0,8 (höchste 0,836) ein Niveau erreicht wird, dass dem großer Prädiktionsstudien (AUC zwischen 0,78 und 0,86) entspricht [29] [30] [31] zeigt die grundsätzliche Fähigkeit, das Hüftfrakturrisiko über unseren KI HU vBMD durch opportunistisches Screening abzuschätzen. So lassen sich Risikopatienten frühzeitig identifizieren und Behandlungsentscheidungen für mehr Patienten rechtzeitig einleiten. Ein Vergleich mit DXA, dem klinischen Goldstandard zur Frakturrisikoabschätzung, war nicht möglich, da diese Daten nicht erhoben wurden.

Da, wie im klinischen ARTEMIS Datensatz, in der klinischen Praxis unterschiedliche kV Protokolle eingesetzt werden, ist eine Kalibrierung zur Optimierung der Diagnostik und Prognostik notwendig, da nur hierüber die Indikationsschwellen mit ausreichender Genauigkeit bestimmt werden können, insbesondere im einzelnen Patienten. Dabei könnte man die klinischen CT-Scans ohne vorhandenes Kalibrierphantom intern kalibrieren, so wie es bereits für Wirbelkörper gemacht wurde [32].

Eine detaillierte Analyse bzgl. der verschiedenen KI HU vBMD Varianten durch das Erodieren der Maske (M0–M7) zeigt keinen statistisch signifikanten Unterschied. Dennoch lässt sich folgender Trend erkennen: Mit Ausnahme der Maske M0 ohne Erosion (integrale Region) sind die übrigen Masken M1–M7 weitgehend gleichwertig. Allerdings haben wir in dieser Studie nur das gesamte proximale Femur betrachtet, keine Subregionen, wie z. B. den Schenkelhals. Informationen über die Verteilung der Knochendichte in verschiedenen Bereichen des prox. Femurs mag die Frakturrisikoinformation noch verbessern.



Zusammenfassung

Zusammenfassend zeigen unsere Ergebnisse, dass die vorgestellte vollautomatische Pipeline zur Bestimmung der volumetrischen Knochendichte am prox. Femur eine sehr gute Übereinstimmung mit vBMD Ergebnissen eines QCT Goldstandard erreicht, insbesondere für integrale vQCT. Für trabekuläre vBMD ist die Korrelation mit dem QCT Goldstandard zwar ähnlich hoch, aber ein Bias müsste bei der Interpretation Berücksichtigung finden. In einer ersten retrospektiven Studie zur Hüftfrakturrisikoabschätzung mit einem Studiendesign analog zum opportunistischen Screening von 289 klinischen CT-Datensätzen verbesserten die KI HU vBMD Messungen die Vorhersage des inzidenten Hüftfrakturrisikos signifikant gegenüber einem Basismodell aus Alter und Geschlecht. Die positiven Ergebnisse aus dieser ersten Prädiktionsstudie müssen jedoch ein einem unabhängigen und größeren Datensatz überprüft werden.

Künftige Arbeiten sollten größere und repräsentative Kollektive untersuchen und validierte Kalibrierungsverfahren einsetzen. Auch die Robustheit der Ergebnisse an kortikalen und trabekulären Messregionen in Bezug auf variierende Scanparameter sollte weiter untersucht werden.

Insgesamt unterstreicht die Studie das Potenzial von KI‑gestützten CT‑Analysen, über eine Abschätzung der vBMD im Rahmen von opportunistischem Screening, Hochrisikopatienten frühzeitig zu identifizieren, was die Implementation und die Evaluierung von darauf aufbauenden Präventionsstrategien ermöglichen würde.



Interessenkonflikt

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.

1 https://zenodo.org/records/10047292


2 https://github.com/SBMI-kiel/ProxFemurvBMD



Korrespondenzadresse

Nicolai Raphael Krekiehn
University Hospital Schleswig-Holstein, Campus Kiel, Clinic for Radiology and Neuroradiology
Section Biomedical Imaging (SBMI), Intelligent Imaging Lab (i²Lab)
Am Botanischen Garten 14
24118 Kiel
Germany   
Phone: 04318805832   

Publication History

Received: 09 August 2025

Accepted after revision: 06 October 2025

Article published online:
14 November 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany


Zoom
Abb. 1 Schnittbilder eines quantitative Computertomographie Scans der Hüfte aus der AGES Studie mit Segmentierung des Femurs (rot) und einer 3D Darstellung der Segmentierung. Die roten Linien zeigen die Masken M0–M7 nach Entfernung von 0–7 Schichten der Oberfläche der Maske (isotrope Erosion, 1x1x1 mm3 Voxelgröße). Am Trochanter Major ist ein Osteophyt zu sehen, welcher in die Maske eingeschlossen wurde.
Fig. 1 Slice images of a quantitative computed tomography scan of the hip from the AGES study with segmentation of the femur (red) and a 3D rendering of the segmentation. The red outlines indicate the masks M0–M7 after removal of 0–7 layers from the mask surface (isotropic erosion, 1×1×1 mm3 voxel size). An osteophyte at the greater trochanter is visible, which was included in the mask.
Zoom
Abb. 2 Korrelation der vBMD bestimmt mit AI (M0–M7, x-Achse) und MIAF (Total, Head, siehe Legende) Masken an 1070 QCT-Scans. Jeder Punkt stellt eine Korrelation zwischen einer AI und einer MIAF Maske da.
Fig. 2 Correlation of vBMD determined with AI (M0–M7, x-axis) and MIAF (Total, Head, see legend) masks in 1070 QCT scans. Each point represents a correlation between one AI mask and one MIAF mask.
Zoom
Abb. 3 Bland-Altman-Diagramm zwischen den kalibrierten AI vBMD und MIAF vBMD. Links: AI M1 gegen MIAF „int Total+Head“, Rechts: AI M5 gegen MIAF „trab Total“. Der Mittelwert der Abweichung ist durch eine rote, sowie das 1,96 SD Intervall durch eine graue gestrichelte Linie dargestellt.
Fig. 3 Bland–Altman plot between calibrated AI vBMD and MIAF vBMD. Left: AI M1 vs. MIAF “int Total+Head.” Right: AI M5 vs. MIAF “trab Total.” The mean difference is shown as a red line, and the 1.96 SD interval as a gray dashed line.
Zoom
Abb. 4 AUC von logistischen Regressions Modellen für verschiedene Endpunkte (Legende), ohne AI vBMD (Baseline, links) und mit AI vBMD auf Basis von unterschiedlich vielen Erosions-Schritten (M0–M7).
Fig. 4 AUC of logistic regression models for different endpoints (see legend), without AI vBMD (baseline, left) and with AI vBMD based on varying numbers of erosion steps (M0–M7).