Rofo
DOI: 10.1055/a-2594-7085
Quality/Quality Assurance

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters

Bewertung der diagnostischen Genauigkeit von ChatGPT-4.0 bei der Klassifikation multimodaler muskuloskelettaler Läsionen: eine vergleichende Studie mit menschlichen Auswertern

Authors

  • Wolfram A. Bosbach

    1   Department of Nuclear Medicine, Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland
    2   Department of Diagnostic, Interventional and Paediatric Radiology (DIPR), Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland (Ringgold ID: RIN27210)
  • Luca Schoeni

    1   Department of Nuclear Medicine, Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland
    2   Department of Diagnostic, Interventional and Paediatric Radiology (DIPR), Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland (Ringgold ID: RIN27210)
  • Claus Beisbart

    3   Institute of Philosophy, University of Bern, Bern, Switzerland
    4   Center for Artificial Intelligence in Medicine, University of Bern, Bern, Switzerland
  • Jan F. Senge

    5   Department of Mathematics and Computer Science, University of Bremen, Bremen, Germany (Ringgold ID: RIN9168)
    6   Dioscuri Centre in Topological Data Analysis, Mathematical Institute PAN, Warsaw, Poland
  • Milena Mitrakovic

    2   Department of Diagnostic, Interventional and Paediatric Radiology (DIPR), Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland (Ringgold ID: RIN27210)
  • Suzanne E. Anderson

    2   Department of Diagnostic, Interventional and Paediatric Radiology (DIPR), Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland (Ringgold ID: RIN27210)
    7   Sydney School of Medicine, University of Notre Dame Australia, Darlinghurst Sydney, Australia (Ringgold ID: RIN523002)
  • Ngwe R. Achangwa

    1   Department of Nuclear Medicine, Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland
  • Eugen Divjak

    8   University of Zagreb School of Medicine, Department of Diagnostic and Interventional Radiology, University Hospital “Dubrava”, Zagreb, Croatia
  • Gordana Ivanac

    8   University of Zagreb School of Medicine, Department of Diagnostic and Interventional Radiology, University Hospital “Dubrava”, Zagreb, Croatia
  • Thomas Grieser

    9   Department of Diagnostic and Interventional Radiology, University Hospital Augsburg, Augsburg, Germany (Ringgold ID: RIN39694)
  • Marc-André Weber

    10   Institute of Diagnostic and Interventional Radiology, Pediatric Radiology and Neuroradiology, University Medical Center Rostock, Rostock, Germany
  • Martin H. Maurer

    11   Department of Diagnostic and Interventional Radiology, Carl von Ossietzky Universität Oldenburg, Oldenburg, Germany
  • Hatice Tuba Sanal

    12   Radiology Department, University of Health Sciences, Gülhane Training and Research Hospital, Ankara, Turkey
    13   Department of Anatomy, Ankara University Institute of Health Sciences, Ankara, Türkiye
  • Keivan Daneshvar

    2   Department of Diagnostic, Interventional and Paediatric Radiology (DIPR), Inselspital, Bern University Hospital, University of Bern, Bern, Switzerland (Ringgold ID: RIN27210)

Abstract

Purpose

Novel artificial intelligence tools have the potential to significantly enhance productivity in medicine, while also maintaining or even improving treatment quality. In this study, we aimed to evaluate the current capability of ChatGPT-4.0 to accurately interpret multimodal musculoskeletal tumor cases.

Materials and Methods

We created 25 cases, each containing images from X-ray, computed tomography, magnetic resonance imaging, or scintigraphy. ChatGPT-4.0 was tasked with classifying each case using a six-option, two-choice question, where both a primary and a secondary diagnosis were allowed. For performance evaluation, human raters also assessed the same cases.

Results

When only the primary diagnosis was taken into account, the accuracy of human raters was greater than that of ChatGPT-4.0 by a factor of nearly 2 (87% vs. 44%). However, in a setting that also considered secondary diagnoses, the performance gap shrank substantially (accuracy: 94% vs. 71%). Power analysis relying on Cohen’s w confirmed the adequacy of the sample set size (n: 25).

Conclusion and Key Points

The tested artificial intelligence tool demonstrated lower performance than human raters. Considering factors such as speed, constant availability, and potential future improvements, it appears plausible that artificial intelligence tools could serve as valuable assistance systems for doctors in future clinical settings.

Key Points

  • ChatGPT-4.0 classifies musculoskeletal cases using multimodal imaging inputs.

  • Human raters outperform AI in primary diagnosis accuracy by a factor of nearly two.

  • Including secondary diagnoses improves AI performance and narrows the gap.

  • AI demonstrates potential as an assistive tool in future radiological workflows.

  • Power analysis confirms robustness of study findings with the current sample size.

Citation Format

  • Bosbach WA, Schoeni L, Beisbart C et al. Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters. Rofo 2025; DOI 10.1055/a-2594-7085

Zusammenfassung

Ziel

Neue künstliche Intelligenz (KI)-Werkzeuge haben das Potenzial, die Produktivität in der Medizin erheblich zu steigern und gleichzeitig die Behandlungsqualität aufrechtzuerhalten oder sogar zu verbessern. In dieser Studie wollten wir die aktuelle Fähigkeit von ChatGPT-4.0 zur präzisen Interpretation multimodaler muskuloskelettaler Tumorfälle evaluieren.

Materialien und Methoden

Wir erstellten 25 Fälle, die jeweils Bilder aus Röntgenaufnahmen, Computertomografie, Magnetresonanztomografie oder Szintigrafie enthielten. ChatGPT-4.0 wurde mit der Klassifikation jedes Falls anhand einer sechsoptionalen, zweiauswahlbasierten Frage beauftragt, wobei sowohl eine primäre als auch eine sekundäre Diagnose erlaubt waren. Zur Leistungsbewertung analysierten menschliche Beurteiler dieselben Fälle.

Ergebnisse

Wurde nur die primäre Diagnose berücksichtigt, war die Genauigkeit der menschlichen Beurteiler fast doppelt so hoch wie die von ChatGPT-4.0 (87% vs. 44%). In einem Szenario, das auch sekundäre Diagnosen berücksichtigte, verringerte sich die Leistungslücke jedoch deutlich (Genauigkeit: 94% vs. 71%). Eine Power-Analyse basierend auf Cohens w bestätigte die Angemessenheit der Stichprobengröße (n = 25).

Schlussfolgerung und Kernaussagen

Das getestete KI-Werkzeug zeigte eine geringere Leistung als menschliche Beurteiler. Angesichts von Faktoren wie Geschwindigkeit, ständiger Verfügbarkeit und potenziellen zukünftigen Verbesserungen erscheint es jedoch plausibel, dass KI-Werkzeuge in zukünftigen klinischen Umgebungen als wertvolle Assistenzsysteme für Ärzte dienen könnten.

Kernaussagen

  • ChatGPT-4.0 klassifiziert muskuloskelettale Fälle anhand multimodaler Bildgebungsdaten.

  • Menschliche Beurteiler übertreffen die KI bei der primären Diagnosestellung mit nahezu doppelter Genauigkeit.

  • Die Berücksichtigung sekundärer Diagnosen verbessert die KI-Leistung und verringert die Leistungsdifferenz.

  • KI zeigt Potenzial als unterstützendes Werkzeug in zukünftigen radiologischen Arbeitsabläufen.

  • Eine Power-Analyse bestätigt die Aussagekraft der Studienergebnisse bei gegebener Stichprobengröße.



Publication History

Received: 09 January 2025

Accepted after revision: 18 April 2025

Article published online:
03 June 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany