Evidenzbasierte Methoden nehmen einen immer höheren Stellenwert in der Medizin ein. Systematische Übersichtsarbeiten und Metaanalysen sind in der evidenzbasierten Medizin (EbM) von großer Bedeutung, da sie die höchste Stufe der Evidenz darstellen [1]. Systematische Übersichtsarbeiten zeichnen sich durch eine definierte Fragestellung, systematisches Vorgehen in der Literaturrecherche, der Datenextraktion, der qualitativen Bewertung der eingeschlossenen Studien und dem Darstellen der Ergebnisse aus. Eine Metaanalyse ergänzt diese Schritte durch das quantitative Zusammenfassen der Studiendaten [2]. Aufgrund ihres hohen Stellenwerts werden systematische Übersichtsarbeiten vermehrt zurate gezogen, wenn neue Leitlinien erstellt werden [3]
[4]
[5]
[6]
[7]. Ein weiterer Vorteil von systematischen Übersichtsarbeiten besteht darin, sich mit ihrer Hilfe innerhalb kurzer Zeit einen umfassenden Überblick über den aktuellen Stand der Forschung und die neuesten Ergebnisse zu verschaffen [8]
[9], dies kann sich ansonsten aufgrund der Flut an publizierten wissenschaftlichen Arbeiten schwierig gestalten [10]. Somit stellen systematische Übersichtsarbeiten für den praktizierenden Arzt eine wichtige Informationsquelle dar. Aufgrund der Anwendung von systematischen Übersichtsarbeiten in den genannten verantwortungsvollen Bereichen ist eine hohe Qualität dieser Arbeiten von enormer Bedeutung.
Für die Bewertung von klinischen Studien, die in systematischen Übersichtsarbeiten oder Metaanalysen aufgenommen werden, gibt es bereits Werkzeuge. Zum Beispiel das weitverbreitete QUADAS-Werkzeug (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews) [11]
[12], mit dessen Hilfe die Qualität von diagnostischen Genauigkeitsstudien eingeschätzt werden kann [11]. Das QUADAS-Werkzeug wurde bereits in einem vorherigen Editorial vorgestellt [13], nun möchten wir solch ein Werkzeug für die Beurteilung der methodischen Qualität von systematischen Übersichtsarbeiten und Metaanalysen präsentieren. Während die Einhaltung der ebenfalls bereits vorgestellten PRISMA-Checkliste ein hohes Maß an Berichtsqualität garantiert [4]
[14], kann mit dem AMSTAR-Werkzeug die methodische Qualität, also die Art und Weise der Durchführung einer systematischen Übersichtsarbeit, beurteilt werden [15]. Dieses Editorial möchte somit einen weiteren Beitrag dazu leisten, den Leser über die in der Radiologie wichtigen diagnostischen Studien [16]
[17]
[18]
[19]
[20] und Metaanalysen zur diagnostischen Genauigkeit zu informieren [4]
[13]
[21]
[22]
[23].
AMSTAR
Im Jahr 2007 veröffentlichten Shea et al. die Publikation „Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews“ [15], in der sie das aus 11 Fragen („Items“) zur methodischen Qualität von systematischen Übersichtsarbeiten bestehende AMSTAR-Werkzeug vorstellten. Shea et al. entwickelten AMSTAR aus bereits bestehenden Qualitätsbeurteilungsinstrumenten und fügten neue, durch Expertenmeinung gewonnene Aspekte hinzu. Die Notwendigkeit für die Erstellung eines neuen Werkzeugs ergab sich aus zwei Gründen. Erstens wurden die vorhandenen Werkzeuge aufgrund ihrer Länge und komplizierten Anwendbarkeit zu wenig genutzt [15]. Zweitens gab es neue methodische Erkenntnisse, die in den älteren Werkzeugen noch nicht berücksichtigt worden waren [15].
Entwicklung des AMSTAR-Werkzeugs
Entwicklung des AMSTAR-Werkzeugs
Die Erstellung des neuen Werkzeugs erfolgte in zwei aufeinanderfolgenden Schritten. Zuerst wurde ein Fragenpool aus dem „Overview Quality Assessment Questionnaire“ (OQAQ) [24], der 10 Punkte beinhaltete, und einer von Sacks et al. entworfenen Checkliste [25], die 24 Punkte beinhaltete, gebildet [15]. Dieser Fragenpool wurde noch um drei neuere methodische Entwicklungen berücksichtigende Punkte erweitert [15]. Diese drei Punkte werden an dieser Stelle kurz erläutert. Die erste Frage nach dem Publikationsstatus der Studien bezieht sich auf den Einschluss von grauer, das heißt nicht veröffentlichter, Literatur, wie zum Beispiel Dissertationen, Meeting und Conference Abstracts in die Suche. Mit dem zweiten Punkt, dem Sprachstatus, soll erfasst werden, ob nur englischsprachige oder auch anderssprachige Studien mit eingeschlossen werden. Die dritte und letzte Frage greift die Erfassung des Vorliegens von Publikationsbias auf. Die somit 37 Punkte umfassende Checkliste wurde von 2 Wissenschaftlern an einem Pool von 99 Übersichtsarbeiten zur methodischen Qualitätsbeurteilung angewendet [15]. Die Übersichtsarbeiten bestanden aus 52 Cochrane-Übersichtsarbeiten (www.cochrane.org) und aus einer Datenbank für systematische Übersichtsarbeiten und Metaanalysen von Moher et al. [26]. Nicht englischsprachige Artikel wurden übersetzt und von allen Artikeln wurden die Autoren, Institutionen und das Journal unkenntlich gemacht (Verblindung) [15]. Mithilfe einer explorativen Faktorenanalyse wurden diejenigen Hauptkomponenten, die der 37 Punkte umfassenden Checkliste zugrunde liegen, identifiziert und einer Faktorenrotation ausgesetzt [15]. Fragen mit einer geringen Faktorladung (Korrelation der Variablen mit dem Faktor) von < 0,50 wurden entfernt [15]. Durch eine Faktorenanalyse ist es möglich, eine größere Anzahl von Variablen auf eine kleinere Anzahl von Variablen zu reduzieren, die zuverlässige Messgrößen darstellen. In einem zweiten Schritt wurde eine 11-köpfige internationale Expertenkommission im Bereich von Qualitätsbewertung und systematischen Übersichtsarbeiten, bestehend aus Klinikern, Methodikern, Epidemiologen und Reviewern gebildet, die mithilfe einer nominalen Gruppentechnik [27] beschlossen, welche Punkte, die bei der Faktoranalyse identifiziert wurden, in den abschließenden Entwurf aufgenommen werden sollten [15]. Die nominale Gruppentechnik erlaubte es den einzelnen Teilnehmern zuerst, ihre Ideen einzeln aufzuschreiben, diese wurden dann der Reihe nach von einem Moderator zusammengetragen („round robin format“) [15]. Anschließend hatte jedes Mitglied die Möglichkeit, seine Bewertung abzugeben, über welche darauf folgend diskutiert wurde [15]. Die Bewertungen der Gruppe wurden statistisch zusammengefasst, um eine kollektive Gruppenbewertung zu erhalten [15]. Eine separate Frage zur Publikationssprache wurde bei der Faktorenanalyse identifiziert, jedoch einigte sich die Gruppe aufgrund des kontroversen Wissenschaftsstands darauf, diesen Punkt unter Publikationsbias mit aufzunehmen [15]. Die einzelnen Fragen wurden beschrieben und eine Vorversion wurde an die gesamte Gruppe für letzte Änderungen verschickt [15]. Die somit ermittelte und endgültige Version von AMSTAR bestand aus einem Fragenkatalog mit 11 Fragen [15].
Validierung des AMSTAR-Werkzeugs
Validierung des AMSTAR-Werkzeugs
Noch im gleichen Jahr wurde ein weiterführender Artikel von Shea et al. veröffentlicht, in dem das AMSTAR-Werkzeug extern validiert wurde [28]. Es wurde eine zufriedenstellende Übereinstimmung der Ergebnisse zwischen den bewertenden Personen (Interrater-Reliabilität), Konstruktvalidität (das Werkzeug misst das, was es messen soll) im Vergleich zu einem weiteren Bewertungswerkzeug [29] und Reliabilität des Gesamtscores (Zuverlässigkeit; Stabilität der Ergebnisse bei erneuter Auswertung) festgestellt [28]. Die Reliabilität zeigte sich durch exzellente Cohen’s-Kappa- (0,84) und Pearsons-R-Werte (0,96) [28]. 2009 wurden abermals Übereinstimmung, Konstruktvalidität, Reliabilität und Ausführbarkeit des Werkzeugs bemessen und für gut befunden [30]. Drei Fragen wurden in diesem Zuge in ihrer Wortwahl modifiziert [30].
Verwendungsmöglichkeiten für AMSTAR
Verwendungsmöglichkeiten für AMSTAR
Das AMSTAR-Werkzeug [15] bietet dem Leser systematischer Übersichtsarbeiten die Möglichkeit, diese in ihrer methodischen Qualität, d. h. der Art ihrer Durchführung, zu bewerten und somit die Validität der Ergebnisse der Arbeit besser abschätzen zu können. Die 11 Fragen können mit „Ja“, „Nein“, „Kann nicht beantwortet werden“ oder „Nicht anwendbar“ beantwortet werden [15]. „Kann nicht beantwortet werden“ wird gewählt, wenn der Punkt zwar relevant ist, aber vom Autor nicht beschrieben wurde [30]. „Nicht anwendbar“ wird gewählt, wenn der Punkt nicht relevant ist, z. B. wenn das Poolen von Daten abgefragt wird, was in der entsprechenden Arbeit jedoch nicht durchgeführt wurde [30].
Das AMSTAR-Werkzeug [15] fragt die einzelnen Arbeitsschritte zur Erstellung einer systematischen Übersichtsarbeit detailliert ab, bei denen es, je nach Durchführung, zu Verzerrungen (Bias) in der Aussage der systematischen Übersichtsarbeit kommen kann. Zum Beispiel durch den Ausschluss von grauer Literatur bei dem Festlegen von Einschlusskriterien. Die Fragen sind mit der Zeit durch Notizen ergänzt worden, die dem Leser eine Orientierung zur Punktevergabe geben (http://amstar.ca/Amstar_Checklist.php). Das Werkzeug kann dem Autor dazu dienen, methodische Fehler zu vermeiden, oder dem Leser helfen, diese aufzudecken. Wir haben die originalen 11 AMSTAR-Fragen in deutscher Übersetzung und inklusive erklärender Bemerkungen in der [Tab. 1] zusammengefasst. Im Gegensatz zu anderen Beurteilungswerkzeugen, bei denen ein Summenscore nicht erwünscht ist [31], kann dieser bei AMSTAR erhoben werden und der Gesamtabschätzung einer jeden Übersichtsarbeit dienen [30]. Die Antwortmöglichkeit „Ja“ wird mit einem Punkt bewertet, alle anderen Antwortmöglichkeiten werden mit 0 Punkten bewertet. Der Gesamtscore errechnet sich durch die Addition der vergebenen Punkte [30]. Allerdings ist es ausschließlich Metaanalysen möglich, die Gesamtpunktzahl zu erlangen [30], da die Frage 9 das Poolen von Daten betrifft, welches in systematischen Übersichtsarbeiten nicht angewendet wird. Für systematische Übersichtsarbeiten muss in dieser Frage „Nicht anwendbar“ angegeben werden. Deswegen können nur Metaanalysen alle 11 Punkte erreichen.
Tab. 1
AMSTAR – Werkzeug zur Bewertung der methodischen Qualität von systematischen Übersichtsarbeiten (aus dem Englischen übersetzt, Originaltext siehe http://amstar.ca/Amstar_Checklist.php).
Nr.
|
AMSTAR-Frage
|
Bemerkung
|
1.
|
Wurde ein 'a priori' Design benutzt?
Die wissenschaftliche Fragestellung und die Einschlusskriterien sollten festgelegt worden sein, bevor die Übersichtsarbeit durchgeführt wurde.
|
Vermeidung einer nachträglichen Anpassung und dem Vorenthalten von Daten.
|
2.
|
Gab es eine zweifache Studienauswahl und Datenextraktion?
Es sollten mindestens zwei unabhängige Auswerter die Datenextraktion vollzogen haben und eine Konsensusprozedur zur Klärung von Unstimmigkeiten sollte erfolgt sein.
|
Stellt sicher, dass die Studienauswahl und Datenextraktion objektivierbar ist.
|
3.
|
Wurde eine ausführliche Literatursuche durchgeführt?
Mindestens zwei elektronische Datenbanken sollten durchsucht worden sein. Die Arbeit muss den abgedeckten Suchzeitraum und die Datenbanken, die durchsucht wurden, enthalten (z. B. Central, EMBASE und MEDLINE). Schlüsselwörter und/oder MeSH-Begriffe müssen angegeben und, soweit durchführbar, sollte die Suchstrategie zur Verfügung gestellt worden sein. Alle Suchen sollten durch aktuelle Quellen, Übersichtsarbeiten, Lehrbücher, spezialisierte Register oder das Befragen von Experten auf dem spezifischen Gebiet und durch die Sichtung der Referenzlisten der gefundenen Studien ergänzt worden sein.
|
Die gefundene Literatur kann je nach Suchstrategie und Ihrer Ausführlichkeit stark variieren. Die Suche sollte für den Leser reproduzierbar sein. Eine Anleitung für die Dokumentation einer Suchstrategie wird demnächst publiziert [39].
|
4.
|
Wurde der Publikationsstatus als Einschlusskriterium benutzt (Stichwort: graue Literatur)?
Die Autoren sollten angeben, dass sie nach Berichten unabhängig vom Publikationstyp gesucht haben. Die Autoren sollten angeben, ob unpublizierte Primärarbeiten und welche Sprachen aus der systematischen Übersichtsarbeit ausgeschlossen wurden.
|
Der Einschluss von unveröffentlichter Literatur hat einen maßgeblichen Einfluss auf die Ergebnisse von systematischen Übersichtsarbeiten [40]
[41].
|
5.
|
Wurde eine Liste mit ein- und ausgeschlossenen Studien zur Verfügung gestellt?
Eine Liste von ein- und ausgeschlossenen Studien sollte verfügbar sein.
|
Den Anmerkungen der Autoren nach sollten die ausgeschlossenen Studien zumindest referenziert sein.
|
6.
|
Wurden die Charakteristika der eingeschlossenen Studien zur Verfügung gestellt?
Die Originaldaten der Studien bezüglich Studienteilnehmer, -interventionen und -ergebnisse sollten in aggregierter Form, z. B. einer Tabelle, zur Verfügung gestellt worden sein. Die Spannweite der Charakteristika, z. B. Alter, ethnische Herkunft, Geschlecht, relevante sozioökonomische Daten, Krankheitsstatus, -dauer, -schweregrad oder andere Erkrankungen, aller analysierten Studien sollten angegeben worden sein.
|
Der Leser sollte einen Überblick über die Studien erhalten und die Ergebnisse der Arbeit im Kontext der eingeschlossenen Patienten (z. B. Prävalenz, Alter der Patienten) betrachten können. Diese Faktoren können die Ergebnisse beeinflussen.
|
7.
|
Wurde die wissenschaftliche Qualität der Studien bewertet und dokumentiert?
‘A priori’ Bewertungsmethoden sollten angegeben worden sein (z. B. für Effektivitätsstudien, wenn der Autor sich entschieden hat, nur randomisierte, doppelblinde, placebokontrollierte Studien einzuschließen oder eine verborgene Zuweisung der Probanden als Einschlusskriterium gewählt worden ist); für andere Studientypen sind alternative Aspekte relevant.
|
Die Qualität der eingeschlossenen Studien kann mithilfe von Beurteilungswerkzeugen bewertet werden, wie z. B. mit QUADAS für diagnostische Genauigkeitsstudien [11]
[12]. Es sollte angegeben werden, wie jede einzelne Studie abgeschnitten hat.
|
8.
|
Wurde die wissenschaftliche Qualität der eingeschlossenen Studien bei der Formulierung der Schlussfolgerungen angemessen berücksichtigt?
Die Ergebnisse der methodischen Strenge und wissenschaftlichen Qualität sollten in der Analyse und den Schlussfolgerungen der Übersichtsarbeit berücksichtigt worden und ausdrücklich beim Formulieren von Empfehlungen erwähnt worden sein.
|
Die Qualität der Studien beeinflusst die Validität der Studienergebnisse maßgeblich. Aus diesem Grund ist die Qualität der eingeschlossen Studien auch mitbestimmend für die Ergebnisse der systematischen Übersichtsarbeit.
|
9.
|
War die angewandte Methodik zur Zusammenfassung der Studienergebnisse adäquat?
Für die zusammengefassten Ergebnisse sollte ein Test durchgeführt worden sein, um sicherzustellen, dass die Studien kombinierbar waren und um ihre Homogenität zu beurteilen (Chi-Quadrat-Homogenitätstest, I2). Falls Heterogenität vorliegt, ist ein Random-Effects-Modell anzuwenden und/oder die klinische Angemessenheit des Zusammenfassens ist zu berücksichtigen (Ist es überhaupt sinnvoll, zusammen zu fassen?).
|
siehe Text
|
10.
|
Wurde die Wahrscheinlichkeit für das Vorliegen von Publikationsbias beurteilt?
Eine Beurteilung von Publikationsbias sollte aus einer Kombination von grafischen Hilfsmitteln (z. B. Funnel Plot) und statistischem Test (z. B. Regressionstest nach Egger) bestehen.
|
siehe Text
|
11.
|
Wurde angegeben, ob ein Interessenkonflikt vorlag?
Potenzielle Quellen der Unterstützung sollten sowohl in der systematischen Übersichtsarbeit als auch in den eingeschlossenen Studien eindeutig angegeben worden sein.
|
Bekelman et al. [42] zeigten einen direkten Zusammenhang zwischen durch pharmazeutische Firmen finanzierte Studien und deren Ergebnissen. Finanzierung kann folglich die Ergebnisse von Artikeln beeinflussen.
|
Abschließend möchten wir drei Fragen des AMSTAR-Werkzeugs, die unserer Meinung nach einen besonders wichtigen Stellenwert haben, beispielhaft näher ausführen.
Beispielerläuterungen zu 3 ausgewählten Fragen des AMSTAR-Werkzeugs
Beispielerläuterungen zu 3 ausgewählten Fragen des AMSTAR-Werkzeugs
Zu Frage 1: Wurde ein 'a priori' Design benutzt?
In den Notizen der Autoren wird verlangt, dass ein Protokoll, eine Einwilligung der Ethikkommission oder vorab publizierte Forschungsziele vorliegen müssen. Das ‘a priori’ Design ermöglicht dem Leser, nachzuvollziehen, ob Veränderungen des Protokolls erfolgten. Die Transparenz und Qualität der systematischen Übersichtsarbeiten sollen dadurch erhöht werden. Allerdings stellen immer noch wenige Autoren solch ein Protokoll zur Verfügung [32]. Bei systematischen Übersichtsarbeiten für die Cochrane Library erscheint ein Protokoll mit Titel vorab (www.cochrane.de/de/systematische-uebersichtsarbeiten#protocol). Eine weitere Möglichkeit ist die Registrierung einer systematischen Übersichtsarbeit bei PROSPERO (www.crd.york.ac.uk/PROSPERO/).
Zu Frage 9: War die angewandte Methodik zur Zusammenfassung der Studienergebnisse adäquat?
Die in einer Metaanalyse eingeschlossenen Studien können sich in Bezug auf ihre Patientenkollektive, Interventionen und Endpunkte (klinische Heterogenität) als auch das Studiendesign und die Qualität (methodische Heterogenität) unterscheiden [23]. Um dies zu testen, sollten die Studien z. B. mithilfe des I²-Tests statistisch auf Heterogenität überprüft werden [33]
[34]. Im Unterschied zum Cochran‘s Q ist I² unabhängig von der Studienanzahl. Abhängig vom Ergebnis der Heterogenitätsprüfung (Werte < 25 % werden als niedrige, < 50 % als moderate und > 75 % als hohe Heterogenität angesehen) sollte das passende statistische Modell zum Kombinieren der Studienergebnisse ausgewählt werden. Bei homogener Studienlage kann ein Fixed-Effects-Modell verwendet werden, bei vorliegender Heterogenität muss diese berücksichtigt und es sollte ein Random-Effects-Modell angewandt werden [35]
[36].
Zu Frage 10: Wurde die Wahrscheinlichkeit für das Vorliegen von Publikationsbias beurteilt?
Diese sollte aus einer Kombination von grafischen Hilfsmitteln (z. B. Funnel Plot [37]) und statistischem Test (z. B. Regressionstest nach Egger [37]) bestehen [15]. Publikationsbias beschreibt den Effekt, dass tendenziell vor allem größere Studien mit signifikanten Ergebnissen publiziert werden. Wenn nun ausschließlich diese in die Metaanalyse aufgenommen würden, wäre das Gesamtergebnis verzerrt, das heißt die Effektgröße würde überschätzt [38]. Ob Publikationsbias vorhanden ist, kann mithilfe von unterschiedlichen Methoden überprüft werden. Bei einem Funnel Plot wird auf der X-Achse die Effektgröße gegen die Studiengröße auf der Y-Achse aufgetragen. Eine Asymmetrie des Funnel Plots weist daraufhin, dass Publikationsbias vorliegt. Auf der statistischen Ebene kann die Anwesenheit von Publikationsbias z. B. mit dem Egger’s-Test überprüft werden [37].
Schlussfolgerung
Das AMSTAR-Werkzeug [15] bietet dem Leser eine übersichtliche und sinnvoll strukturierte Möglichkeit, die Qualität einer systematischen Übersichtsarbeit zu bewerten und somit die vorliegenden Ergebnisse in ihrer Relevanz zu beurteilen. Autoren systematischer Übersichtsarbeiten können sich bei der Erstellung an die einzelnen Punkte von AMSTAR halten und somit eine solide methodische Qualität der eigenen Arbeiten gewährleisten.