Schlüsselwörter Evidenzbasierte Medizin - Gesundheitspolitik - Strukturkonservatismus - Innovation - Unsicherheit - Entscheidung
Einleitung und Problemstellung
Einleitung und Problemstellung
Ein Leitbild moderner Gesundheitspolitik ist die Gestaltung des Gesundheitssystems
als lernendes System [1 ]
[2 ] , das an Versorgungszielen, wie zum
Beispiel am triple aim, am quadruple aim oder am quintruple aim orientiert ist [3 ]
[4 ]
[5 ]
[6 ] . Das Konzept eines lernenden
Gesundheitssystems setzt voraus, dass Produkt-, Prozess- und Strukturinnovationen
getestet und nach erfolgreicher Evaluation – auf der Basis der EbM-Methoden – in die
Fläche ausgerollt und praktiziert werden, bis weitere Evaluationen anzeigen, dass
aufkommende neue Versorgungsformen besser sind als die alten Formen. Es mehren sich
jedoch die Zeichen, in Deutschland und anderen Ländern, dass das Prinzip des
lernenden Systems zwar bei Produktinnovationen gut funktioniert, aber weniger bei
Prozessinnovationen und fast gar nicht bei Strukturinnovationen [7 ]
[8 ]
[9 ] .
Es gibt verschiedene gute Erklärungen für dieses Implementierungsdefizit wie etwa
langsame Akzeptanz trotz hohem Patientennutzen, externe disruptive Faktoren oder
träge Verhaltensänderungen aufgrund von Gewohnheiten. [9 ]
[10 ]
[11 ]
[12 ] . Wir möchten in diesem Beitrag eine
zusätzliche Erklärung für das Implementierungsdefizit vorschlagen. Wir stellen die
These auf, dass wir es deshalb mit einer schleppenden Implementierung von
Strukturinnovationen zu tun haben, weil das EbM-Instrumentarium, zwar sehr gut zur
Evaluation von Produktinnovationen (z. B. neue Medikamente) geeignet ist, aber nur
bedingt zur Bewertung von Strukturinnovationen. Wir zeigen in diesem Beitrag, dass
sich aus dem ungewollten Zusammenspiel aus einem über die Zeit deutlich veränderten,
nun v. a. theoretischen EbM-Verständnis und gesundheitspolitischer Vorsicht und
Trägheit ein systematischer Strukturkonservatismus resultiert. Ein
Strukturkonservatismus ist gegeben, wenn die Strukturen des Gesundheits- und
Versorgungssystems ein starkes Beharrungsvermögen aufweisen und gegenüber
Strukturinnovationen weitgehend resistent sind. Strukturkonservatismus ist ein
emergentes Phänomen und nicht nur das Ergebnis einer Bewegung, die die bestehende
Ordnung der Versorgung und damit die vorherrschenden Interessen und
Machtverhältnisse bewahren will.
Der von uns diagnostizierte Strukturkonservatismus äußert sich darin, dass es
Strukturinnovationen, auch wenn sie mit hoher Wahrscheinlichkeit wirksam sind,
dennoch systematisch schwer haben, sich gegen die etablierten Strukturen
durchzusetzen. Wir beleuchten in diesem Beitrag nur die Rolle der Wissenschaft am
Zustandekommen dieses Problems und schlagen verschiedene Problemlösungen vor. Aus
unserer Sicht benötigen wir eine stärkere Strukturierung des Verhältnisses zwischen
Wissenschaft, Politik und Praxis im Gesundheitssystem. Sie soll es ermöglichen, die
Empfehlungen aus der Wissenschaft und die Entscheidungen der Politik rationaler und
zugleich pragmatischer zu gestalten [13 ] .
Es geht gerade in einer Zeit multipler Krisen und Herausforderungen im
Gesundheitssystem, die eine Reorganisation und Weiterentwicklung der strukturellen,
organisatorischen Ebene dringend erforderlich machen (Fachkräftemangel,
demographischer Wandel, Rückstand bei digitaler Transformation), darum, in der
Praxis und Gesundheitspolitik handlungsfähig zu sein und dies auf einem
praktikablen Höchstmaß an Evidenzbasierung.
Das grundlagenwissenschaftliche Prinzip der besten Evidenz: Sinn, Ursprung und
Anwendungsbereiche
Das grundlagenwissenschaftliche Prinzip der besten Evidenz: Sinn, Ursprung und
Anwendungsbereiche
Die klassische, ursprüngliche EbM hat die „bestverfügbare Evidenz“ gefordert und
nicht die höchste Evidenz, weil sie streng anwendungsbezogen war und weil die
Begründer der EbM selbst Praktiker waren [14 ] . Fester Bestandteil und primäres Ziel dieser ersten Generation der
EbM-Vertreter war es, klinische Epidemiologie und evidenzbasierte Medizin als
Ressourcen für die Anwendung von Evidenz bei der Behandlung von Patient:innen durch
Health Professionals [15 ] zu betrachten.
Das Ziel dieser, wie wir sie bezeichnen wollen,
“anwendungsorientierten EbM”
ist “to achieve the integration of research results in clinical
practice“, dafür „ EBM proposes a formal set of rules to help
clinicians interpret and apply evidence” [16 ] . Kliniker müssen täglich gemeinsam mit
Patient:innen sehr viele Entscheidungen treffen, für die sie auch unmittelbar
verantwortlich sind. In der klinischen Patientenversorgung sind Entscheidungen immer
aktive Prozesse, d. h. auch die Entscheidung, eine Therapie unverändert zu lassen
oder keine Therapie einzuleiten, ist eine Entscheidung und muss aktiv und
unmittelbar begründet und kommuniziert werden. Dies sind wichtige Unterschiede zur
Art, dem Anlass und der Kommunikation von auf struktureller, regulatorischer oder
organisatorischer Ebene stattfindenden EbM-basierten Entscheidungen.
Im Gegensatz dazu sind die Vertreter der zweiten EbM-Generation, die Vertreter der
"theoretischen EbM", selbst keine Praktiker mehr (z. B. NICE und IQWiG) und daher
nicht mehr mit der Situation konfrontiert, unmittelbare, manchmal auch pragmatische
Entscheidungen treffen zu müssen. Sie behandeln keine Patient:innen und müssen daher
auch keine Kompromisse zwischen Praxis und der reinen EbM-Methodenlehre eingehen.
Sie tragen damit auch keine unmittelbare Verantwortung für Entscheidungen, die auf
der Basis ihrer Regeln gefällt werden. Das ursprünglich pragmatische und
ermöglichende EbM-Konzept der ersten EbM-Generation wurde von der zweiten
EbM-Generation zu einem theoretisch reinen EbM-Konzept ausgebaut, mit höchsten
wissenschaftlichen Ansprüchen. Diese Ansprüche und Kriterien stammen aus der
Perspektive der Grundlagenforschung, die ausschließlich nach einer absoluten
Wahrheit über die Natur und ihre Funktionsweise sucht, unabhängig von praktischen
Konsequenzen oder Anwendungen in der Praxis. Diese zweite Generation vertritt ein
Konzept, das man als „pure EbM“ oder „theoretische EbM“ bezeichnen könnte. Kern
dieses Konzepts ist die Forderung an Studien, die theoretisch beste Evidenz zu
erbringen [17 ]
[18 ] . Ein Beispiel dafür ist die
Forderung, dass starken evidenzbasierten Empfehlungen Meta-Analysen mehrerer
doppelblinder, vergleichender randomisierter Parallelgruppenstudien mit engem
95%-Konfidenzintervall zugrunde liegen müssen [19 ]
[20 ] . Anders als beim ursprünglichen
EbM-Konzept, in dem Entscheidungen neben der Studienevidenz gleichwertig die
praktische klinische Erfahrung und die Patientenpräferenz zugrunde zu legen waren,
ist in der theoretischen EbM einzig und allein die Studienevidenz die
Empfehlungsgrundlage, unabhängig vom Kontext und der damit verbundenen Möglichkeit,
diesen theoretisch bestmöglichen Evidenzgrad aus Studien zu erreichen.
Die Entwicklung, die die EbM-Idee genommen hat, kann man soziologisch als den
Prozess der Verselbständigung einer Idee interpretieren, in deren Verlauf sich ein
eigenes funktionales Teilsystem entwickelt hat, ein Teilsystem mit eigenen
Institutionen (z. B. NICE und IQWiG). Dieses funktionale Teilsystem hat sich von dem
„Mutter“-System (hier: klinische Praxis) emanzipiert und sich auch weitgehend von
Außeneinflüssen abgeschottet, wie es für solche verselbständigten funktionalen
Teilsysteme – sogenannte autopoietische Systeme – durchweg beobachtbar ist [21 ] .
Hinzu kommt, dass sich die ursprünglich pragmatische Idee so verselbständigt hat,
dass die „theoretische EbM“ auf alle möglichen Formen der Innovationen
unterschiedslos angewandt wird („One size fits all“-Prinzip). Bei der Anwendung
dieses „One size fits all“-Prinzips wird übersehen, dass das dabei zum Tragen
kommende Prinzip der theoretisch besten Evidenz bei bestimmten Konstellationen und
Rahmenbedingungen, wie sie z. B. sehr oft bei Strukturinnovation gegeben sind, nicht
mehr wirklich greift. Aus dem praktikablen (clinical decision making),
multidimensional integrierenden (Integration von interner Evidenz, externer Evidenz
und Patientenpräferenz) und dialektischen (shared decision making mit Vergleich
mehrerer Behandlungsmöglichkeiten) wurde ein praxisfernes Grundsatzgebilde, das fast
schon dogmatisch, immer reflexartig und ohne Kontextbezug die theoretisch
bestmögliche Evidenz fordert. Dies ist aus Sicht der Grundlagenforschung
verständlich, führt jedoch oft in der Endkonsequenz dazu, dass Handlungsunfähigkeit
in Situationen entsteht, in denen die theoretisch höchste Evidenz nicht erbracht
werden kann. Zwischen der ersten Generation der EbM-Vertreter und der zweiten
Generation bestehen entscheidende Unterschiede, die unseres Erachtens in der
wissenschaftlichen Gemeinschaft noch nicht kritisch aufgearbeitet wurden und der
Grund für vielfältige Entscheidungsdilemmata im heutigen Gesundheitswesen sind.
Die evidenzbasierte Medizin ist sowohl in ihrer ursprünglichen als auch in ihrer
heutigen Form eine bewährte Methode zur Reduktion der Komplexität (eine
randomisierte kontrollierte Studie reduziert multikausale Zusammenhänge auf einen
Faktor) sowie zur Verringerung der Empfehlungsunsicherheit und der
Entscheidungsunsicherheit. Im Idealfall vermindert die Anwendung des EbM-Ansatzes
die Unsicherheit bei Entscheidungen auf ein sehr niedriges Niveau. In diesem Fall
dient die Wissenschaft der Politik als vermeintlich sicherer Wahrheitslieferant und
Zweifelbeseitiger, weil durch die Randomisierung Confounding ausgeschlossen werden
kann (hohe interne Validität). Andererseits kann jedoch die Übertragbarkeit von
Forschungsergebnissen auf die komplexe Realität aufgrund der geringeren externen
Validität (Generalisierbarkeit) eingeschränkt sein.
Dem Problem der geringen externen Validität ist die erste EbM Generation durch
Integration des Erfahrungs- und Kontextwissens des Behandlers und der
Patientenpräferenz begegnet – beide Dimensionen spielen beim heutigen „puren EbM“
keine Rolle mehr.
Im Kern strebt eine evidenzbasierte Medizin, die die theoretisch bestmögliche Evidenz
fordert, an, die Restunsicherheit auf der Seite der Wissenschaftler:innen und der
Entscheidungsträger:innen auf ein theoretisches Minimum zu reduzieren. Dies
geschieht, indem durch geeignete Studienplanung und Methoden alle alternativen
Möglichkeiten der Erklärung ausgeschlossen werden können (hohe interne Validität).
Unterstützt wird die zweite Generation der EbM-Vertretenden vor allem von den
Grundlagenwissenschaften, auf denen diese Form der evidenzbasierten Medizin beruht,
allen voran die klinische Epidemiologie, die mit Hilfe statistischer und
biometrischer Methoden Kausalzusammenhänge zwischen Expositionen
(Umweltexpositionen, Verhalten, Soziodemographie, Interventionen) und
(gesundheitsbezogenen) Zuständen/Ergebnissen/Outcomes beschreiben möchte.
Die Feststellung, dass Epidemiologie und Statistik im Kern Grundlagenwissenschaften
und keine anwendungsorientierten Wissenschaften sind [22 ] , ist für unsere Argumentation zentral.
Die Grundlagenwissenschaften streben generell nach reiner Erkenntnis und kausaler
Wahrheit und müssen dazu das gesamte Arsenal an Methoden und Verfahren anwenden, um
zur reinen Erkenntnis zu gelangen. Diese Methoden und Verfahren vereinigen sich – im
Falle von Interventionen – in den Kriterien der theoretisch bestmöglichen Evidenz.
Wichtig ist zu sehen, dass die Vertretenden dieser Grundlagenfächer eine Studie aus
rein akademischen, theoretischen Gründen kritisieren müssen, wenn sie nicht der
theoretisch besten Form der Evidenz genügt. Sie bewegen sich damit lediglich und in
legitimer Weise in ihrem Wissenschaftssystem und versuchen von dort aus nach
absoluter Wahrheit zu streben. Es steht das critical appraisal und nicht mehr das
praktische decision making im Vordergrund. Leit- und Vorbild der EbM community der
zweiten Generation ist der absolut kritische Methodiker und nicht der Entscheider in
medizinischer oder politischer Praxis. Das autopoietische System „theoretische EbM“
kümmert sich in diesem Fall nicht um die Folgen, die dies für das Politiksystem und
die Praxis hat. Das ist auch nicht ihre Aufgabe.
Eine dieser Folgen ist die – meist unbeabsichtigte – Hemmung der Innovation, der
Innovationskraft und der Innovationskultur im Gesundheitssystem. Damit unterstützt
die Grundlagenwissenschaft – meist ungewollt – den im Gesundheitssystem vorhandenen
Strukturkonservatismus, wenn sie ihn nicht sogar mitproduziert. Wir haben es hier
dann mit dem Phänomen der „unanticipated consequences of purposive social
action“
[23 ] oder mit den „unintended
consequences“ in komplexen Systemen zu tun [24 ]
[25 ]
[26 ] . Anders als
Grundlagenwissenschaftler:innen müssen Anwendungsforschende wie zum Beispiel
Versorgungsforschende in diesem Punkt weiter denken und die Folgen einer Strategie
der wissenschaftlichen Reinheit mitbedenken [27 ] . Dies tun sie, indem sie von der Disziplinarität zur
Transdisziplinarität schreiten.
Das Prinzip der theoretisch besten Evidenz stößt bei Strukturinnovationen an
seine Grenzen
Das Prinzip der theoretisch besten Evidenz stößt bei Strukturinnovationen an
seine Grenzen
Produktinnovationen sind materielle oder immaterielle Neuerungen wie z. B. neue
Medikamente, Hilfsmittel und Gesundheit-Apps. Produkte bestehen meist „aus einem
Produktkern, dem vom Kunden wahrgenommenen Produktäußeren sowie unterschiedlichen
Zusatzleistungen“ [28 ] . Bei den
Prozessinnovationen handelt es sich um Neuerungen im Bereich der Abläufe im
Gesundheitssystem. Diese Verfahrensinnovationen können sich auf die Makroebene, wie
zum Beispiel die Versorgungskette bei Schlaganfall, die Mesoebene, wie zum Beispiel
klinikinterne Behandlungspfade bei Schlaganfall, und die Mikroebene, wie zum
Beispiel die Strukturierung der partizipativen Entscheidungsfindung bei Brustkrebs,
beziehen.
Bei den Strukturinnovationen handelt es sich um Neuerungen bei den
Gesundheitssystemstrukturen (Makroebene, z. B. Einführung von Versorgungsleveln,
Ablösung von Fachabteilungen durch Leistungsgruppen), bei den
Organisationsstrukturen (Mesoebene, z. B. verpflichtende Ausstattung im Sinne von
Strukturqualität, Konzentration der Versorgung auf zertifizierte Zentren) oder bei
den Interaktionsstrukturen (Mikroebene, z. B. Veränderung der
Entscheidungsstrukturen). Konkret können Strukturinnovationen definiert werden als
„neuartige Veränderungen in der Aufbau- und Ablauforganisation eines Unternehmens,
die von dem Unternehmen bisher noch nicht umgesetzt worden sind“ [29 ] ). Ein Beispiel für eine
Strukturinnovation auf der Makro- und Mesoebene ist die bundesweite Einführung von
zertifizierten Krebszentren [30 ]
[31 ]
[32 ]
[33 ]
[34 ]
[35 ] .
Die Unterscheidung zwischen diesen drei Innovationstypen ist für unsere Fragestellung
deshalb relevant, weil diese Typen mit unterschiedlichen Graden der Evaluierbarkeit
und vor allem der Erfüllbarkeit der Kriterien der theoretisch besten Evidenz
einhergehen. So eignen sich Produktinnovationen in oft idealer Form dazu, die
Prinzipien der theoretisch besten Evidenz anzuwenden. Die Evaluation von
Produktinnovationen, vor allem von pharmazeutischen Innovationen, kann im Idealfall
so durchgeführt werden, dass alle Kriterien, die für die theoretisch beste Evidenz
gefordert werden, erfüllt werden, so dass Statistiker:innen, Biometriker:innen oder
Epidemiolog:innen keinen Einwand mehr haben und für sie alle Zweifel über die
Wirksamkeit der Innovation beseitigt sind. Bei den Prozessinnovationen sieht dies
nicht mehr ganz so positiv aus, vor allem dann, wenn es um Prozesse auf der Makro-
und Mesoebene geht. Prozesse auf der Interaktionsebene stellen so etwas wie
„minimal-invasive Interventionen“ dar, die am ehesten noch mit Hilfe klassischer
Experimente evaluiert werden können. Bei der Evaluation von Strukturinnovationen
stößt das Prinzip der theoretisch besten Evidenz jedoch ganz augenscheinlich in
mehreren Aspekten an seine Grenzen, wie im Folgenden gezeigt werden soll.
Eingeschränkte Manipulierbarkeit
Ein zentrales Merkmal von RCTs und CRTs als Sonderformen von Experimenten ist
die Manipulierbarkeit der unabhängigen Variable [36 ]
[37 ] in Form einer willkürlich
geplanten Intervention [37 ] .
Strukturinnovationen als unabhängige Variable sind jedoch in der Realität nur
begrenzt manipulierbar. Strukturinnovationen verändern auf der Makroebene
gesellschaftliche Versorgungsstrukturen, auf der Mesoebene
Organisationsstrukturen und auf der Mikroebene Interaktionsstrukturen. Das
Prinzip der Manipulierbarkeit ist vor allem auf der Mikroebene anwendbar und
stellt dort weniger ein Problem dar als auf der Meso- und Makroebene. Dort
werden der experimentellen Manipulierbarkeit starke, pragmatische Grenzen
gesetzt.
Widerstand gegen Wandel
Beim Widerstand gegen Wandel handelt es sich um Formen des kollektiven
Widerstands gegen geplante Strukturänderungen. Strukturen sind – weit mehr als
Prozesse und Produkte – mit Interessen, Ressourcen und Macht verbunden [9 ] und können daher Interessenkonflikte
und Machtkämpfe auslösen und letztlich zu Widerstand gegen Wandel führen [38 ]
[39 ] . Der Hintergrund dafür ist, dass
Strukturinnovation nicht in einem luftleeren Raum stattfinden, sondern auf
bereits vorhandene Strukturen treffen und diese entweder entlasten, ergänzen
oder gar ersetzen sollen. Da bei Ersatzinnovationen für die Share- und
Stakeholder:innen (z. B. Mitarbeitende; Aktionäre) am meisten auf dem Spiel
steht, tritt bei diesen Akteuren Widerstand gegen Wandel besonders häufig auf
[9 ] . Dieser Widerstand gegen
Wandel kann auch dann gegeben sein, wenn keine Machtinteressen im Spiel sind,
sondern die Akteure lediglich an Gewohnheiten, eingespielten Routinen oder
aufeinander abgestimmtes Sicherheitshandeln - oft aus vermeintlich guten Gründen
– festhalten wollen.
Aufbaukosten und -zeit
Ein weiterer Aspekt der begrenzten Manipulierbarkeit von Strukturinnovation ist,
dass man sie – selbst wenn alle Stakeholder bereit zum Wandel sind – zeitlich
und aufwandstechnisch nicht flexibel manipulieren kann, d. h. nicht einfach
einschalten kann. Der Aufbau von Strukturen kostet Zeit und Geld [9 ] . Mitunter vergehen mehrere Jahre
bis bestehende materielle und immaterielle Versorgungsstrukturen umgewandelt und
wieder neu eingespielt sind oder neue Versorgungsstrukturen so aufgebaut wurden,
dass sie ihre volle Wirkung entfalten. Die finanziellen Kosten des Auf- oder
Umbaus von Versorgungsstrukturen kommen hinzu. All dies macht den Um- oder
Neubau von Versorgungsstrukturen zu singulären Ereignissen mit hohen materiellen
und immateriellen Kosten und hohem Zeitaufwand (z. B. im Vergleich zu
Tierexperimenten oder psychologischen Experimenten).
Rückabwicklungskosten: imaginäre und reale
Neben der Initiierung und Aktivierung einer Strukturinnovation stellt – nach
einem durchgeführten Experiment – der Abbau einer nicht erfolgreich evaluierten
Strukturinnovation ein nicht zu vernachlässigendes Problem dar. Ein Medikament
kann leicht wieder abgesetzt werden, eine Strukturinnovation weniger,
insbesondere, wenn diese damit verbunden war, dass neue Organisationen oder
Organisationseinheiten, neue Gebäude, neue Einrichtungen und neue Apparate
geschaffen wurden und in die Entwicklung des Personals (z. B.
Qualifizierungsmaßnahmen) und der Organisationen (z. B. Organisationsberatung;
Teamentwicklung) investiert wurde. Die Antizipation einer möglichen
Rückabwicklung von Strukturen nach einer negativen Evaluation muss und kann die
Entscheidung, an einem Experiment mit Strukturinnovationen teilzunehmen,
beeinflussen. Wurde das Strukturexperiment dennoch durchgeführt und ist es
negativ ausgegangen, können einer Rückabwicklung oft Eigeninteressen der
Beteiligten im Wege stehen, die am neuen Zustand festhalten wollen (z. B.
Mitarbeitende wollen weiter in den neuen Strukturen beschäftigt sein).
Ein noch kritischer Fall ist gegeben, wenn eine Strukturinnovation nicht darin
besteht, eine neue Struktur zu schaffen, sondern eine alte abzuschaffen. Ein
solcher Fall wäre zum Beispiel gegeben, wenn ein Kreiskrankenhaus in einer
ländlichen Region geschlossen und durch ein ambulantes Versorgungsnetz ersetzt
wird. Endet das Experiment negativ, kann das geschlossene Kreiskrankenhaus
schwerlich wiedereröffnet werden. Strukturinnovationen sind somit in der Regel
nicht an- und absetzbar, wie es Produktinnovationen sind.
Komplexität
Eine weitere Grenze der Evaluierbarkeit von Strukturinnovationen auf theoretisch
bestem Evidenzniveau (Meta-Analyse mehrerer doppelblinder, vergleichender
randomisierter Parallelgruppenstudien mit engem 95%-Konfidenzintervall)
, wie sie von der theoretischen EbM der zweiten Generation gefordert wird [19 ] , ist dann gegeben, wenn es sich um
komplexe Interventionen handelt. Die ursprünglich für individuelle
Behandlungsentscheidungen im klinischen Kontext entwickelte Evidenzbasierte
Medizin ist für Entscheidungen auf Populationslevel allenfalls für einfache,
stabile Interventionen (z. B. Arzneimittel, Medizinprodukte,
Patientenschulungen) eine geeignete Methode, um Entscheidungsunsicherheit durch
Anwendung des Prinzips der Randomisierung auf Individualniveau maximal zu
minimieren. Einfach bedeutet hier, dass die Intervention aus einer
Wirkkomponente besteht und nicht aus mehreren. Die grundlagenorientierte,
theoretische EbM der zweiten Generation stößt jedoch an ihre Grenzen bei
komplexen Interventionen, bei denen es um Interventionen mit mehreren
Einflussfaktoren, mehreren Akteuren, mehreren Systemkomponenten und systemischen
Wechselwirkungen geht. Diese Grenze der idealtypischen Evaluierbarkeit ergibt
sich aus der Tatsache, dass komplexe medizinische Innovationen Interventionen
darstellen, die oft mehrere Systemtypen betreffen (technisches System,
Körpersystem, psychisches System und soziales System). Bei systemischen
Zusammenhängen müssen auch die – beabsichtigen oder unbeabsichtigten – positiven
oder negativen Nebenwirkungen betrachtet werden, um ein ganzheitliches Bild über
die Folgen einer zu treffenden Entscheidung zu bekommen und so abschätzen zu
können, was eine isolierte Einzelentscheidung in der Gesamtheit bewirkt.
Die Umweltdynamik und der EbM-lag
Das Prinzip der theoretisch besten Evidenz stößt generell an seine Grenzen bei
sich dynamisch entwickelnden Anwendungsbereichen und dies in zwei typischen
Fällen.
Im ersten Fall geht es um ganz neue Bedrohungen (zum Beispiel COVID-19). In
diesem Fall ist die EbM zu Beginn eines Ereignisses nicht geeignet, Wissen für
die Entscheidungstragenden zur Verfügung zu stellen [40 ] . Aus diesem Grund versuchen
neuerdings die EbM-Vertreter der, wie wir sie nennen wollen, dritten Generation
den Prozess der Wissensgenerierung und -systematisierung zu beschleunigen, etwa
durch rapid reviews und living guidelines [41 ]
[42 ]
[43 ]
[44 ] . Dies wurde als „organic turn“
der EbM bezeichnet [45 ] oder als
pragmatische Wende [46 ] . Doch selbst
die Beschleunigung der Abläufe ändert nichts am grundsätzlichen Dilemma von EbM
in hochdynamischen Situationen, nämlich, dass es einen „EbM-lag“ gibt [47 ] . Wir definieren EbM-lag als den
Zeitraum zwischen dem Auftreten einer Innovation und dem Vorliegen von
systematischen Reviews über RCTs und von Meta-Analysen über die Wirksamkeit
dieser Innovation in Bezug auf einen spezifischen primären Outcome [47 ] .
Der andere typische Fall ist gegeben, wenn sich die Technologien, die im Rahmen
einer neuen Versorgungsstruktur angewendet werden, rasant weiterentwickeln [48 ]
[49 ]
[50 ] . Wenn heute eine
Versorgungsstruktur unter Nutzung von ChatGPT 4.0 entwickelt wird, kann es sein,
dass erst in einem Jahrzehnt ein systematisches Review zu dieser
KI-technisierten Struktur vorliegt. Bis dahin wird es vielleicht schon die
ChatGPT in der Version 10.0 geben oder diese Technologie wurde gar aufgegeben
und durch eine andere ersetzt. Das systemische Review zu dieser Technologie ist
dann veraltet. Gerade digitale Technologien veralten typischerweise schnell und
damit überholt sich auch das dazu gesammelte CRT- und EbM-Wissen. Damit ergibt
sich durch die digitale Transformation auch eine neue Schwäche der EbM in Bezug
auf Produktinnovationen wie Digitale Gesundheitsanwendungen (DIGA) oder anderer
Gesundheitstechnologien. Beide oben genannten Fälle sind vom EBM-lag betroffen,
die in einigen Artikeln über EBM implizit thematisiert wird [50 ]
[51 ] . Ogburn hat Mitte des letzten
Jahrhunderts festgestellt, dass die Kultur (z. B. gesetzliche Regelungen)
regelmäßig hinter dem technologischen Fortschritt herhinkt und bezeichnete dies
als cultural lag. Wir definieren EBM-Lag als die Zeit, die zwischen dem
Aufkommen der Versorgungsinnovation und der Veröffentlichung von systematischen
Übersichten, Meta-Analysen und (lebenden) Leitlinien zur Wirksamkeit dieser
Versorgungsinnovation verstreicht. Wie bereits erwähnt, können Beschleunigungs-
und Flexibilisierungsversuche (organic turn) diesen Rückstand nicht grundlegend
ändern [45 ] .
Begrenzte Randomisierbarkeit von Strukturinnovationen und mangelnde
Evaluationskultur
Evidenzbasierte Medizin ist ein guter Ansatz zur Generierung von Evidenz in
einer Evaluationskultur in der Forschende und Praktiker bereit sind, sich – im
Falle von Strukturinnovationen – auf zum Beispiel clusterrandomisierte
Experimente [52 ] oder auf
Stepped-wedge-Designs [53 ]
einzulassen, um langfristig als (Solidar)Gemeinschaft durch Erkenntniszuwachs zu
gewinnen. Das Kernproblem ist dabei die Randomisierung von Individuen,
Arztpraxen, Kliniken oder gar Regionen oder (Bundes)Ländern zu einer
Interventions- oder Kontrollgruppe. Die Randomisierung ist das
Kernelement des Prinzips der theoretisch besten Evidenz, da sie für bekannte und
auch für unbekannte Confounder kontrolliert, was keine andere Methode (Matching,
Adjustierung, Restriktion) in dem notwendigen Ausmaß vermag [50 ] . Das Kernelement Randomisierung
ist jedoch bei Strukturinnovationen nur schwer oder gar nicht anzuwenden –
insbesondere in nicht-staatlichen Gesundheitssystemen.
Die erste Grenze bezüglich der Randomisierung besteht, wenn eine
evaluationsaverse Kultur in der Zielpopulation und in der Versorgungspraxis
gegeben ist [54 ] . Man findet in
diesem Fall eine Kultur vor, in der sich die Untersuchten dagegen wehren, Objekt
der Untersuchung zu sein und oder in einem Experiment das „Versuchskaninchen zu
spielen“. Die zweite Grenze ergibt sich daraus, dass die hohen Kosten und der
Sach- und Zeitaufwand der Erstellung einer Strukturinnovation dazu führt, dass
die Manipulierbarkeit der unabhängigen Variablen nur bedingt gegeben ist. In
diesem Fall wird eine Strukturinnovation in einer Gesundheitsorganisation
eingeführt, weil sie Teil eines Experiments ist und nicht, weil ein selbst
durchgeführter Strategieentwicklungsprozess innerhalb der Organisation zu dem
Schluss geführt hat, dass diese Strukturinnovation die richtige zukünftige
Struktur für die Organisation ist („Not-invented here“Problem). In einem
Experiment wird die freie Entscheidung über die Gestaltung der zukünftigen
Versorgungsstruktur durch eine Entscheidung von außen (z. B. der Wissenschaft)
ersetzt. Dadurch entsteht Widerstand gegen Experimente. Folglich lassen sich
kaum soziale Einheiten (Kreise, Länder, Organisationen, Kliniken) finden, die
diese Mühen auf sich nehmen, wenn sie „nur“ und per Zufall Teil der
Kontrollgruppe sind (die laut Forschungshypothese typischerweise schlechtere
Versorgungsoutcomes bewirken als die Interventionsgruppe).
Eine Randomisierung ist auch schwierig bis unmöglich, wenn bereits etablierte
Strukturinnovationen vorhanden sind. Bei bereits bestehenden Innovationen im
Bereich der Versorgungsstrukturen ist meist eine historisch gewachsene Struktur
gegeben, bei der eine Randomisierungen per se nicht mehr möglich ist und
Selektionseffekte bereits zum Tragen kamen. In einer historisch gewachsenen
Versorgungsstruktur können zwar auch gute Evaluationsdesigns zur Anwendung
kommen, diese erreichen jedoch in keinem Fall die Stufe der theoretisch besten
Evidenz, so dass sie den „puren“ EbM-Kriterien theoretisch bester Evidenz
prinzipiell nicht genügen können.
Die Verfassung des Gesundheitssystems
Das Prinzip der theoretisch höchsten Evidenz stößt – wie ausgeführt – an seine
Grenzen bei teuren, aufwendigen sowie macht- und interessenstangierenden
Strukturinnovationen. Diese entziehen sich der Evaluierung nach dem theoretisch
besten Evidenzprinzip vor allem in nicht-staatlichen Gesundheitssystemen.
Strukturinnovationen können – will man theoretisch beste Evidenz – nur dann
richtig evaluiert werden, wenn man nach der Testung des Prototyps die
Weiteranwendung stoppt und sie erst freigibt, wenn zum Beispiel eine
clusterrandomisierte Studie durchgeführt wurde und auf dieser oder einer anderen
Basis die prinzipielle Wirksamkeit bestätigt oder widerlegt wurde. Bei
Strukturinnovationen setzt dies eine Zwangsrandomisierung voraus.
Ein Beispiel, bei dem klar wird, dass ein randomisiertes Design praktisch
unmöglich ist, ist die Einführung von Leistungsgruppen anstatt der derzeitigen
Fachabteilungen, wie sie für die Krankenhausreform in Deutschland diskutiert
wird [55 ] . Ideal wäre – nimmt man das
Beispiel Deutschland – eine dreiarmige randomisierte Studie, die die einzelnen
Bundesländer durch ein Losverfahren entweder das „64 Leistungsgruppen“-Konzept
(Strukturintervention A), das „128 Leistungsgruppen“-Konzept
(Strukturintervention B), oder das bisherige Fachabteilungskonzept
(Kontrollgruppe) zuordnet [55 ] .
Abgesehen von der möglicherweise kritischen Akzeptanz einer solchen Studie von
Seiten der Politik und der Bevölkerung wäre die Power des Designs sehr
wahrscheinlich zu gering, um mittelgroße Effekte zu zeigen. Nach dem Cochrane
Risc of Bias Tool [56 ] hätte die
Studie auch ein hohes Biasrisiko, weil sie nicht gegenüber den Bundesländen und
der Bevölkerung verblindet/maskiert durchgeführt werden kann.
Eine solche nach EbM-Maxime „ideale“ Vorgehensweise wäre – wenn überhaupt – nur
in zentralistischen, staatlichen Systemen denkbar, nicht jedoch in dezentralen,
marktförmigen und freiheitlich orientierten Gesundheitssystemen. Eine
freiwillige Randomisierung wäre bei Meso-Level Interventionen, etwa auf
Organisationslevel (Krankenhäuser), zwar auch in dezentralen Gesundheitssystemen
möglich, doch diese zieht – neben dem Problem der Verblindung – eine Reihe von
weiteren Bias Problemen mit sich (z. B. Motivations- und Willingness to
Change-Bias).
Strukturkonservatismus als unintendierte Folge der Anwendung des Prinzips der
theoretisch besten Evidenz
Wir können festhalten, dass die Evaluation von Strukturinnovationen in der Regel
nicht den Ansprüchen der „puren“ EbM an theoretisch bester Evidenz genügen kann.
Diese Perspektive und Haltung orientiert sich an dem Falsifikationsprinzip von
Popper [57 ] und wird durch die
klassische Testtheorie gerechtfertigt [58 ] . Durch die Verwendung klassischer Signifikanztests [59 ] möchten Forschende im Kern den
Fehler 1. Art (falsch positiv-Fehler) vermeiden [60 ] . Diese Form des wissenschaftlichen
Vorgehens ist per se und gewollt strukturkonservativ. Das Alte soll nur vom
Neuen abgelöst werden, wenn das Neue alle Kriterien der Zweifelsfreiheit
erfüllt. Erst dann wird die Alternativhypothese angenommen.
Folglich werden neue Strukturen nicht einführt bzw. das alte nicht abschafft,
auch wenn das Neue mit sehr hoher Wahrscheinlichkeit (aber eben nicht höchster
Sicherheit) besser ist als das Alte. In Politik und Praxis führt dieses
strukturkonservative Vorgehen der „puren EbM“ dazu, dass das Neue von der
Wissenschaft systematisch benachteiligt wird. Damit wird aber der Fehler 2. Art
wahrscheinlicher. Es gibt Argumente, die dafür sprechen, dass dieser Fehler 2.
Art (falsch negativ-Fehler) weitaus problematischer sein kann als der Fehler 1.
Art [60 ] . So führen Fiedler und
Kollegen aus: „ we show that the failure to assertively generate and test
alternative hypotheses can lead to dramatic theoretical mistakes, which
cannot be corrected by any kind of rigor applied to statistical tests of the
focal hypotheses “ [60 ] . Die
meist unintendierte Folge dieser wissenschaftlichen Vorsichtsstrategie zur
Vermeidung des Fehlers der ersten Art für die Gesundheitsversorgung ist, dass
der in der Praxis und Gesundheitspolitik vorherrschende Strukturkonservatismus
von der Wissenschaft bzw. genauer von der klassischen, konservativ vorgehenden
Testtheorie innerhalb der Wissenschaft unterstützt, wenn nicht gar auf Dauer
(mit-)erzeugt wird.
Tatsächlich ist die klassische Signifikanztesttheorie notwendig bei Medikamenten,
wo man z. B. nicht riskieren will, dass ein neues Medikament schlechter ist als
das – geprüft gute – alte Medikament. Allerdings wird dieses
Falsifikationsprinzip auch bei Medikamenten nur dann angewandt, wenn es bereits
gute, getestete Alternativen gibt, wie in der heutigen Medizin für alle häufigen
Erkrankungen meist der Fall ist. Wenn es jedoch keine Alternative gibt, dann
weicht die Medizin auch bei Medikamenten von dem EbM Prinzip der höchsten
Evidenz ab – siehe Orphan Drug Zulassung (fiktiver Zusatznutzen).
Bei Strukturinnovationen jedoch führt die Anwendung des Falsifikationsprinzips
kombiniert mit dem Vorgehen der „puren“ EbM dazu, dass Strukturinnovationen
zwangsläufig als unsicher oder zweifelhaft wirksam eingestuft werden und
folglich keine starken Empfehlungen erhalten. Dieses Ergebnis ist für die
Interessengruppen im Gesundheitswesen, die aus verschiedenen Interessen heraus –
Machtinteressen, Interesse am Ressourcenerhalt, Trägheit, Veränderungsmüdigkeit
[9 ] – am Status Quo festhalten,
ein willkommenes Verfahren. Es erlaubt ihnen, an ihren bisherigen Strukturen
festzuhalten und nichts ändern zu müssen. Dies wäre nicht ohne Weiteres als
negativ zu bewerten, wenn das Bestehende sich früher ebenfalls einem empirischen
Test unterziehen musste bevor es in die Versorgung eingeführt wurde. Dies ist
jedoch bei Versorgungsstrukturen in der Regel nicht der Fall. Sie sind meist
historisch gewachsen und haben sich – im besten Fall – bewährt, ohne jedoch bei
der Einführung in die Praxis ähnlich streng evaluiert worden zu sein wie es bei
der Evaluation heutiger Strukturinnovationen aus Sicht der
grundlagenorientierten „puren EbM“ der Fall sein müsste. Dieses Problem ist ein
spezifisches Problem der Strukturinnovationen, da Produktinnovationen wie neue
Medikamente in der heutigen Zeit meist schon gegen eine bestehende, früher auf
Wirksamkeit getestete Alternative getestet werden können. Bei
Strukturinnovationen ist jedoch der Umstand gegeben, dass etwas bisher
Ungeprüftes mit etwas Neuem verglichen wird, das im Gegensatz dazu höchste
statistische Anforderungen erfüllen muss. Dadurch werden Strukturinterventionen
gegenüber Produktinnovationen systemimmanent benachteiligt.
Dieser Mechanismus ist nicht folgenlos. Wenn es zum Beispiel eine politische
Notwendigkeit und Dringlichkeit gibt, die Versorgungsstrukturen an neue
gesellschaftliche Gegebenheiten anzupassen, ist oft in der Politik zu
beobachten, dass nicht der Versuch unternommen wird, wissenschaftliche
Empfehlungen und politische sowie praktische Entscheidungen systematisch aus
Studienevidenz abzuleiten. Es ist vielmehr oft zu beobachten, dass die
Entscheidungstragenden eher Experten vertrauen oder gar direkt und selbständig –
ohne Rückgriff auf Experten oder Studienevidenz - politisch entscheiden, damit
Politik handlungsfähig bleibt und Handlungsfähigkeit zeigt [44 ]
[61 ] . Beispiele sind Anpassungen der
Versorgungsstrukturen und Prozesse während der Corona-Pandemie oder Regelungen
zum Entlassmanagement [44 ] . Unter
Entscheidungsdruck agiert die Gesundheitspolitik oft unabhängig von der
evidenzbasierten Wissenschaft – meist aufgrund fehlender oder strittiger
höchster Evidenz. In diesem Fall kommt die Politik auch ohne dieses
Evidenzwissen der „puren“ EbM aus. Es muss jedoch aus unserer Sicht einen
Mittelweg geben zwischen der Option A einer erfolgten, aber
nicht-evidenzbasierten Entscheidung und der Option B des gescheiterten Versuchs,
eine Entscheidung zu treffen, weil man Zweifel hat, ob die theoretisch beste
Evidenz erreicht wurde. Wir werden im Folgenden einen solchen Kompromiss
vorschlagen
Maßnahmenkatalog zur Überwindung des Strukturkonservatismus
Maßnahmenkatalog zur Überwindung des Strukturkonservatismus
Wir stellen aus Sicht der anwendungsbezogenen Versorgungsforschung einen
Maßnahmenkatalog vor, der aufeinander aufbauende Maßnahmen vorsieht, die miteinander
im Sinne eines Programms in Beziehung gesetzt werden können. Zusammen genommen
bilden sie das Grundgerüst eines handlungsleitenden Evidenzprogramms für
Strukturinnovationen.
Wir schlagen folgenden Algorithmus für das Vorgehen vor:
Rahmenbedingungen für methodische Kompromisse bewusstmachen und Konsequenzen
für Studiendesign/Studienprogramm und für Empfehlungsstärke ableiten
Theoretisch und praktisch beste Evidenzniveau a priori festlegen mit Bezug
auf die Stukturinnovation und deren Kontextfaktoren
Rapid Review oder Scoping Review durchführen und Stand der Theorie
integrieren, um die best-verfügbare Evidenz zu bestimmen.
Unterschied zwischen bestverfügbarem und praktisch besterreichbarem
Evidenzniveau darstellen, inklusive der jeweiligen
Entscheidungsunsicherheit
Entscheider mit der (Evidenz-)Situation konfrontieren und gemeinsam
Forschungsprogramm vereinbaren.
A) Wenn eine evidenzbasierte Entscheidung angestrebt ist und genügend Zeit
ist, dann sollte das Forschungsprogramm abgearbeitet und die Ergebnisse den
politischen Entscheidern vorgelegt werden.
B) Wenn keine Zeit ist, das Forschungsprogramm durchzuführen, dann
sollte unter Würdigung der best-verfügbaren Evidenz, des Theoriestands und
auch einer Modellierung/Auswirkungsanalyse entschieden und
Entscheidungstransparenz hergestellt werden.
1. Schritt: Methodische Kompromisse bewusstmachen und Konsequenzen für
Studiendesign und für Empfehlungsstärke ableiten
Es gibt auf dem Makro- und dem Meso-Level des Gesundheits- und
Versorgungssystems verschiedene Rahmenbedingungen, die je nach Gesundheitssystem
mehr oder weniger ausgeprägt sind und die Kompromisse in Bezug auf die praktisch
besterreichbare Evidenz erforderlich machen. Die wichtigsten Rahmenbedingungen
sind im dritten Abschnitt dieses Beitrags beschrieben worden, wie etwa erfolgte
Teil-Implementierung und mangelnde Akzeptanz des Randomisierungsprinzips.
Mögliche und legitime Gründe für notwendige Kompromisse bei der
Evidenzgenerierung und -bewertung und die daraus folgenden konkreten
methodischen Kompromisse müssten in der Forschungscommunity möglichst a priori
konsentiert und standardisiert aufbereitet werden. Diese Kompromisse könnte man
dann weiter ausführen und ausführlich beschreiben, wie bestmöglich damit
umgegangen werden kann. [Tab. 1 ] soll
einen Einblick darüber geben, wie dies aussehen kann, wie also Schritt 1
umgesetzt werden kann. Sie erhebt nicht den Anspruch auf Vollständigkeit und
soll lediglich die Diskussion über dieses Thema anregen.
Tab. 1 Hindernisse und Herausforderungen bei der Generierung
der theoretisch höchsten Evidenz und Konsequenzen für Studiendesign
und Entscheidungsunsicherheit.
Hindernisse/Herausforderungen bei der Generierung der
theoretisch höchsten Evidenz (ausgewählte Fälle)
Beispiel
Resultierende Limitation/ Risk of Bias (Beispiele)
Vorgeschlagene Strategien zur bestmöglichen Bewältigung von
Barrieren/Herausforderungen im Studiendesign (Beispiele)
Konsequenzen für Interpretation, Unsicherheitsbewertung und
Entscheidungsfindung
Komplexität der Intervention
Peer Review bei Diagnosestellung und Indikationsstellung
(z. B. multidisziplinäre Tumorboards)
Der kausale Effekt verschiedener Interventionskomponenten
kann nicht ermittelt werden
Beurteilung der Qualität und Vollständigkeit der
Interventionskomponenten unter gleichzeitiger qualitativer
Beschreibung möglicher Zusammenhänge
Die Grad der Unsicherheit ist nicht erhöht. Die Kausalität
einzelner Komponenten kann nicht bestimmt werden (ist aber
möglicherweise nicht relevant)
Instabilität der Intervention (über die Zeit)
Digitale Gesundheitsinnovationen (basierend auf KI-Methoden,
einschließlich Aktualisierungen im Zuge des technologischen
Fortschritts)
Die bewertete Intervention ist zum Zeitpunkt der
systematischen Überprüfung nicht mehr gültig.
Strategien des Organic Turns und des agilen EbMs EBM: Rapid
Reviews, Verwendung hochwertiger Theorien und
EBM+-Studien
Vorläufige Unsicherheit akzeptieren; Verwendung einer
Szenariomethode zur Projektion möglicher
Zukunftsszenarien
Latenz zwischen der Einführung und der vollen Wirkung der
Intervention
Qualitätssicherungsprogramme in Krankenhäusern
Fehlklassifikationsbias (z. B. aufgrund einer teilweise
eingeführten Intervention); Bias in Richtung des
Nulleffekts
Anlaufphase einplanen, um sicherzustellen, dass die zu
untersuchende Intervention ihre volle Wirkung entfaltet
(kann mehrere Jahre dauern)
Der tatsächliche Effekt der Intervention kann größer sein als
der in der Studie bewertete Effekt; Überwachung der
Auswirkungen im Verlauf des Studiums und später; eine
Mischung aus summativen und formativen Bewertungen
Randomisierung ist aus ethischen Gründen nicht möglich
Hohe a priori Wahrscheinlichkeit, dass die Intervention
überlegen ist (z. B. Erstbehandlung von Krebs in
zertifizierten Zentren 1 )
Confounding aufgrund bekannter und unbekannter Determinanten
des Ergebnisses im Zusammenhang mit der Intervention (jedoch
nicht im Kausalpfad)
Berücksichtigung aller möglichen/bekannten Störfaktoren auf
Patienten-, Anbieter- und regionaler Ebene im
Studiendesign
Berücksichtigung der Wahrscheinlichkeit eines residuellen
Confounding oder eines Confounding durch nicht gemessene
Determinanten, um die Studienergebnisse und die damit
verbundenen Empfehlungen für die praktische
Entscheidungsfindung qualitativ zu verändern
Randomisierung ist aus kulturellen und politischen Gründen
nicht möglich.
Interventionen auf Meso- und Makroebene in dezentralen
Gesundheitssystemen
Randomisierung ist aus rechtlichen Gründen nicht möglich
Pflege-geführte Krankenstationen in Deutschland
Unmöglichkeit, die Intervention zu maskieren/ gegenüber den
Studienteilnehmenden zu verblinden
Gilt im Allgemeinen für Strukturinterventionen auf Meso- und
Makroebene
a) Kontamination der Kontrollgruppe → Bias zugunsten des
Nulleffekts (H0) b) Hawthorne effect 2 →
Bias zugunsten der Alternativhypothese (H1)
Reduzierung der Wettbewerbsanstrengungen in der
Kontrollgruppe, Verwendung einer historischen
Kontrollgruppe, Verwendung von CRT, Verwendung von
Strategien zur Reduzierung des Hawthorne-Effekts
Der tatsächliche Effekt der Intervention kann a) größer sein
als der in der Studie bewertete Effekt oder b) auf lange
Sicht kleiner sein (vom Avantgarde- zum Routineeffekt)
Datenschutzbestimmungen machen eine valide Auswertung
relevanter Outcome-Daten unmöglich
Ursachenspezifische Mortalität im Zusammenhang mit Eingriffen
in die Gesundheitsstruktur in Deutschland
Der Effekt der Intervention auf diesen Endpunkt kann nicht
beurteilt werden.
Berücksichtigung verfügbarer Surrogat- Ergebnisse und
alternativer Outcomes
Basierung der Empfehlungen auf Surrogat-Ergebnissen;
(langfristig ggf. Änderung der
Datenschutzbestimmungen)
Eingeschränkte Power aufgrund begrenzter
Beobachtungseinheiten (gilt v. a. für Interventionen auf
Makroebene)
Reorganisation der Gesundheitsplanung auf Bundes- und
Landesebene
Falsch negatives Studienergebnis
Anwendung von Simulations-/Modellierungsmethoden basierend
auf Studienergebnissen und hochwertigen Theorien
Wenn die Effektgröße moderat bis groß ist und Simulationen
und hochwertige Theorien die Wirksamkeit unterstützen,
können starke Empfehlungen gegeben werden, auch wenn die
statistische Signifikanz nicht bestimmt werden kann.
Legende: 1
[31 ]
[63 ]
[64 ]
2
[65 ]
[66 ]
2. Schritt: Theoretisch und praktisch bestes Evidenzniveau a priori
festlegen
Wir schlagen vor, drei Evidenzniveaus zu unterscheiden
theoretisch beste Evidenz (höchste theoretisch mögliche Evidenz)
praktisch beste Evidenz (unter den gegebenen Kontextbedingungen
bestmögliche Evidenz)
bestverfügbare Evidenz (derzeit beste vorliegende Evidenz)
Unter theoretisch bester Evidenz verstehen wir Evidenz auf dem theoretisch und
prinzipiell höchstmöglichen Niveau, und zwar unabhängig von den gegebenen
Rahmenbedingungen. Es handelt sich um das in einer idealen Experimentierwelt
höchsterreichbare Niveau. Dieses theoretisch höchste Evidenzniveau zeichnet sich
dadurch aus, dass es über ihm kein weiteres Evidenzniveau gibt. Die höchste
Evidenz ist gegeben, wenn es bis auf den Faktor „Intervention“ keine alternative
Erklärung für das empirische Ergebnis gibt.
Die theoretisch höchste Evidenz ist erreicht, wenn zu einer Strukturinnovation
eine Meta-Analyse mehrerer doppelblinder, vergleichender
(cluster-)randomisierter Parallelgruppenstudien mit engem
95%-Konfidenzintervall vorliegen
[19 ]
[20 ] . Es ist notwendig, die
theoretisch beste Evidenz jeweils zu beschreiben und sich als Idealziel vor
Augen zu führen. Dies ist sinnvoll, um festzulegen und zu dokumentieren, was in
einer idealen Welt, wo die Macht des Faktischen nicht gegeben ist, methodisch
getan werden müsste, damit eine Entscheidung mit geringster Unsicherheit
empfohlen werden kann.
Die praktisch beste Evidenz ist dagegen die unter praktischen Gegebenheiten und
Rahmenbedingungen höchst erreichbare Evidenz. Zu den Rahmenbedingungen zählen
politische, ökonomische, soziale, ethische, psychologische, gesetzliche,
datenschutzrechtliche und organisationale Rahmenbedingungen. Diese legen die
Grenzen fest innerhalb derer die Planung des Studiendesigns erfolgen kann.
Aufgrund dieser Beschränkungen kann die praktisch bestmögliche Evidenz sehr weit
entfernt sein von der theoretisch bestmöglichen Evidenz. Dies ist insbesondere
bei Strukturinnovationen regelmäßig der Fall. Haben wir es zum Beispiel mit
einer Strukturinnovationen in einem staatlichen Gesundheitssystem zu tun, kann
die bestmögliche Evidenz – wie oben bereits erläutert – eher an die höchste
Evidenz herangeführt wurde als in einem freiheitlichen Gesundheitssystem, weil
dies im Prinzip angeordnet werden kann. Dennoch bleiben selbst in staatlichen
Gesundheitssystemen deutliche Grenzen für die Evaluierbarkeit von
Strukturinnovationen bestehen, wenn man nach der theoretisch besten Evidenz
strebt.
Die theoretisch beste Evidenz wie auch die praktisch beste Evidenz sollten sich
nie ausschließlich auf eine Studie beziehen. Die durchgeführten Studien (z. B.
Innovationsexperimente) müssen einer Replikation unterworfen werden und auch die
erneuten Tests bestehen (s. [Abb. 1 ]
).
Abb. 1 Unterscheidung dreier wichtiger Evidenzniveaus.
Der Begriff bestverfügbare Evidenz wird hier im Sinne von Sackett [62 ] gebraucht, wobei nicht – wie bei
Sackett – die Ärzt:innen, sondern die politischen Entscheidungsträger:innen im
Zentrum der Definition stehen. Evidenzbasierte Gesundheitsgestaltung beinhaltet
die gewissenhafte, explizite und umsichtige Nutzung aktuell bester Evidenz bei
praktischen und politischen Entscheidungen im Gesundheitsmanagement und in der
Gesundheitspolitik über die Versorgung bestimmter Patientengruppen. Die Praxis
der evidenzbasierten Gesundheitsgestaltung bedeutet die Integration kollektiver
klinischer und gesundheitsbezogener Fachkenntnisse mit den besten verfügbaren
externen klinischen und gesundheitsbezogenen Erkenntnissen aus systematischer
Forschung.
Dieses bestverfügbare Evidenzniveau ist je nach Forschungsstand mehr oder weniger
weit entfernt von der praktisch besten Evidenz und damit noch weiter entfernt
von der theoretisch besten Evidenz. Die bestverfügbare Evidenz kann definiert
werden als die Evidenz, die a) im Normalfall Wissenschaftler:innen bei der
Anfertigung der Empfehlung und Entscheidungsträger:innen beim Treffen der
Entscheidung in Form eines systematischen Reviews oder einer Evidenzsynthese zur
Verfügung steht und die b) in zeitlichen Notfällen den Wissenschafler:innen und
Entscheidungstragenden nach Scannen aller zur Verfügung stehenden systematischen
Reviews und Primärstudien zur Verfügung steht . Diese bestverfügbare Evidenz ist
– bei aller potentiellen Schwäche – besser als eine rein politische
Entscheidung, die aus der Not heraus ohne Evidenzgrundlage ad hoc entschieden
wird, um handlungsfähig zu sein oder Handlungsfähigkeit zu demonstrieren.
3. Schritt: Rapid oder Scoping Review durchführen und Theorie
integrieren
Bei politisch dringend gebotenen Anpassungen der Gesundheitsversorgung an sich
schnell wandelnde Rahmenbedingungen sollte die bestverfügbare Evidenz
beispielsweise anhand eines Rapid Reviews oder Scoping Reviews zur Fragestellung
aufbereitet werden. Diese Übersichtsarbeiten sollten auch dazu beitragen,
festzustellen, ob Reviews über den Stand a) der mechanistischen Studien und b)
der theoretischen Arbeiten zu dieser Frage vorhanden sind [67 ]
[68 ]
[69 ]
[70 ] .
Dabei kann es hilfreich sein, den in einer anderen Arbeit dargestellten
Dreischritt aus Theorie, EbM+und EbM anzuwenden [45 ] . Es geht dabei um a) die
Verwendung von Theorien zur Identifizierung theoretisch kausaler Mechanismen und
zur Planung von Interventionen (Phase 1), b) die Verwendung des EBM+-Verfahrens
zur empirischen Identifizierung kausaler Mechanismen und zur weiteren
Spezifizierung der Intervention (Phase 2) und c) die Durchführung von
EBM-Studien auf hohem Niveau in Bezug auf die Intervention (Phase 3). Im Rahmen
dieses Dreischritts vermitteln Theorien im ersten Schritt eine
Orientierung über die Versorgungswelt und reduzieren dadurch Komplexität und
zeigen auch auf, was die möglichen Nebenwirkungen von Strukturinnovationen sein
können. Weiter können Theorien es ermöglichen, Ansatzpunkte für Interventionen
abzuleiten und damit die Treffsicherheit von Interventionen zu erhöhen.
Zusätzlich können Theorien dabei helfen, Phänomene und ihre Zusammenhänge zu
erklären. Der zweite Schritt besteht darin, den EbM+-Ansatz anzuwenden.
Dies ist ein Ansatz „which systematically considers mechanistic evidence
(studies which aim to explain which factors and interactions are responsible for
a phenomenon) on a par with probabilistic clinical and epidemiological studies’
[69 ] . Wenn es darum geht,
Wirkmechanismen aufzudecken, sollten unter anderem auch nicht-randomisierte
Verfahren und Methoden zur Anwendung kommen, so lange sie dazu beitragen, die
vorhandene Kausalmechanismen und -ketten aufzudecken [69 ] . Im dritten Schritt werden die
mechanistischen Studien durch (cluster-)randomisierte, experimentelle Studien
ergänzt, so dass der klassische EbM-Ansatz zur Anwendung kommt [45 ] . Ein Review der Reviews zu diesen
drei Schritten anzufertigen, würde helfen, die bestverfügbare Evidenz schnell
für Entscheidungsträger:innen aufzubereiten.
4. Schritt: Unterschied zwischen bestverfügbarem und praktisch höchst
erreichbarem Evidenzniveau darstellen
Viele Versorgungsforschende werden behaupten, dass ihre Studie die bestmögliche
Evidenz im Sinne der praktisch höchst erreichbaren Evidenz hervorgebracht hat.
Andere werden dem widersprechen wollen und andere Maßstäbe ansetzen. Eine Lösung
dieses potentiell auftretenden Problems besteht darin, die bestmögliche Evidenz
in der scientific community im Konsens vorab festzulegen, und zwar für jede
typische Konstellation von Rahmenbedingungen separat. Denn für jede
Konstellation aus Innovationstyp und Rahmenbedingung gibt es eine jeweils
gültige praktisch höchste Evidenz (bestmögliche Evidenz). Um eine einheitliche
spätere Bewertung der vorliegenden oder der zu generierenden Evidenz zu
gewährleisten und Interessenkonflikte bei der Interpretation der
Studienergebnisse zu vermeiden, sollten daher für jeden Innovationstyp und jede
typische Rahmenbedingung die Kriterien für die praktisch höchste Evidenz vorab
festgelegt werden. Eine beispielhafte allgemeine Leitfrage lautet: Welche
Evidenz ist bei Strukturinnovationen bestmöglich erreichbar in einem
nicht-staatlichen Gesundheitssystem bei restriktiven Datenschutzbestimmungen?
Die Antwort auf diese Frage hängt vom Kontext, der strukturellen Intervention
und der konkreten Forschungsfrage ab. [Tab.
1 ] enthält einige Strategien zum Umgang mit gegebenen Einschränkungen,
um die theoretisch beste Evidenz für verschiedene Szenarien zu liefern.
Diese Evidenzstufe müsste durch eine legitimierte Gruppe festlegt werden. Diese
hätte zu klären, welche typische Konstellationen von Rahmenbedingungen in der
Regel gegeben sind und wie die bestmögliche Evidenz für jede dieser typischen
Konstellationen zu definieren ist. Diese bestmögliche Evidenz sollte als
Leitziel vorab festgelegt werden, z. B. von Forschungsförderern, damit sich die
Projekte in ihrer Studienplanung daran orientieren können.
Im Rahmen der a priori Festlegung des Anforderungskatalogs an die praktisch beste
Evidenz für eine typische Konstellation von Rahmenbedingungen (unter
Praxisbedingungen) wäre die Gegenüberstellung mit der theoretisch besten Evidenz
(unter Idealbedingungen) wünschenswert. Die Unterschiede zwischen den beiden
Evidenzkategorien können als Grundlage dafür dienen, die für die notwendigen
Kompromisse ursächlichen Rahmenbedingungen zu spezifizieren (z. B. Datenschutz,
Datenverfügbarkeit, keine Akzeptanz/Möglichkeit der Randomisierung, zu wenige
Beobachtungseinheiten, etc.). Daraus könnten wiederum Bedarfe zur Änderung der
Rahmenbedingungen (politisch) begründet werden.
5. Schritt: Entscheider mit der (Evidenz-)Situation konfrontieren und
gemeinsam ein Forschungsprogramm vereinbaren
Bei Anwendungsforschung, der es nicht in erster Linie um absolute
Wahrheitsfindung geht, ist das Bestreben, das praktisch höchst erreichbare
Evidenzniveau tatsächlich zu erreichen nur dann gerechtfertigt, wenn die
politischen Entscheider tatsächlich gewillt sind, eine evidenzbasierte
Entscheidung zu treffen bzw. der Evidenz eine wichtige Rolle beim Entscheiden
zuzubilligen.
Ein weiterer Lösungsvorschlag von uns beinhaltet daher die Idee, dass die
Versorgungsforschung als anwendungsbezogene Wissenschaft sich zum Phänomen der
Restunsicherheit bei Erkenntnissen öffentlich bekennt und trotzdem klare
Empfehlungen abgibt. Die Grundlage hierfür ist das Bekenntnis der Wissenschaft
und der Versorgungsforschung zur Empfehlung unter Unsicherheit. Es geht darum,
vom Streben nach letzter Sicherheit abzulassen und mutiger mit Empfehlungen zu
sein. Ziel könnte es sein, den wahrscheinlichen Nutzen und Schaden von einer zu
bewertenden Strukturintervention zu bestimmen und mit dem Nutzen und Schaden des
Status quo zu vergleichen. So werden auf der Basis eines a priori festgelegten
wissenschaftlichen Prozesses, das (unvermeidliche) Restrisiko, das mit der
Beibehaltung bestehender Strukturen eingegangen wird, ebenso den
Entscheidungsträger:innen kommuniziert wie das Restrisiko, das mit der
Einführung neuer Strukturen gegeben sein wird. Die politischen
Entscheidungsträger:innen sollten dann im Gegenzug möglichst transparent machen,
warum sie sich für oder gegen die Einführung neuer Strukturen entschieden haben.
Es sollte also immer eine politisch zu verantwortende, aktive Entscheidung
gegeben sein – auch wenn der Status quo beibehalten wird. In Abwandlung des
Theorems von Watzlawick [71 ] ist eine
Nicht-Entscheidung auch eine Entscheidung.
Restrisiko-Management
Das angesprochene Restrisiko besteht darin, eine positive oder negative
Empfehlung zu einer Einführung einer Strukturinnovation abzugeben, obwohl
aufgrund der praktischen Restriktionen eine Differenz zwischen der
theoretisch besterreichbaren und der bestverfügbaren Evidenz besteht, die
letztlich Grundlage der Empfehlung ist. Das Risiko besteht für die
Wissenschaftstreibenden darin, dass sie mit ihrer Empfehlung „daneben
liegen“ können. Aber das Risiko, dass dem so ist, wird umso geringer, je
mehr Evidenz für die positive oder negative Empfehlung vorhanden ist.
Umgekehrt gilt: Je weiter die bestverfügbare Evidenz von der theoretisch
besten Evidenz entfernt ist, desto höher ist das Restrisiko, das der
Wissenschaftler bei einer positiven oder negativen Empfehlung eingeht. Zudem
gilt: je höher dieses Restrisiko ist, desto größer ist die
Entscheidungsunsicherheit der politischen und praktischen
Entscheidungstragenden und damit das Restrisiko, eine falsche Entscheidung
zu treffen. Aber auch hier gilt, besser auf der Basis bestverfügbarer
Evidenz ein kleines Restrisiko eingehen als im Streben nach höchster
Sicherheit nichts zu entscheiden, weil die dafür notwendige höchste Evidenz
fehlt.
Aufgabe der Versorgungsforschung als grundlagenorientierte
Anwendungsforschung ist es daher, hinsichtlich praktischer Empfehlungen ein
wissenschaftsinternes Restrisikomanagement zu betreiben und in Hinblick auf
die Politikberatung Daten und Evidenzen, aber auch Instrumente, Methoden und
Theorien zu liefern, die es den Entscheidungstragenden möglich macht, das
Restrisiko, das sie bei einer positiven oder negativen Entscheidung
eingehen, zu kennen und einzuschätzen, damit sie eine informierte
Entscheidung treffen können.
Systematisches Monitoring
Ein wichtiges Element des empfehlungs- und entscheidungsbezogenen
Risikomanagements ist es, die möglichen Folgen der politischen und
praktischen Entscheidung durch ein „systematisches Monitoring“ der
Wirksamkeit und Folgewirkungen von Versorgungsinnovationen zu erfassen.
Vorbilder dazu gibt es im Public Health-Bereich. Dabei könnte es hilfreich
sein, Prinzipien des Gesundheitscontrollings zu übernehmen [72 ] . In diesem Rahmen können
versorgungsnahen Daten sehr sinnvoll und nutzbringend eingesetzt werden
[73 ]
[74 ] .
Wie das Restrisiko-Management basiert das systematische Monitoring auf dem
Gedanken der Akzeptanz von Unsicherheit und gleichzeitig auf dem Bekenntnis,
die bestmögliche Evidenz als pragmatisches Ziel zu formulieren, an dem die
Empfehlungsstärke kalibriert wird. Das Monitoring ist zwar bei jeder
Abweichung von der theoretisch höchst erreichbaren Evidenz angebracht und
sinnvoll. Es ist aber vor allem dann notwendig und indiziert, wenn die
bestverfügbare Evidenz von der praktisch besterreichbaren Evidenz abweicht.
Das Monitoring muss dann auch auf Aspekte fokussieren, die aus der
Gegenüberstellung der bestverfügbaren und praktisch bestmöglichen Evidenz
hervorgehen.
Auf dieser Grundlage kann sowohl die Wissenschaft als auch die Politik und
die Praxis a posteriori lernen, und zwar ob ein Restrisiko gegeben war, in
welchem Umfang und hinsichtlich welcher Folgen. Und diese Akteure können
auch vorausschauend lernen, wie sie Restrisiken in Zukunft besser
einschätzen können. Vor allem aber hilft das Monitoring dabei, ein
Finetuning nach erfolgten Lernprozessen zu starten, so dass die negativen
Folgen einer (leichten) Fehlentscheidung schnell erkannt und behoben bzw.
abgemildert werden können. Die Kombination aus evidenzbasierter Medizin und
lernbasierte Medizin ist die beste Basis für das Entstehen eines „lernenden
Gesundheitssystems“.
Systemische Folgenabschätzung durch „structural innovation
assessment“
Das Folgenmonitoring kann zusätzlich dadurch systematisch genutzt werden,
dass diese integriert wird in eine systemische Folgenabschätzung. Dabei
sollten die Grundprinzipien des systemischen Denkens berücksichtigt werden.
Grundlage dafür ist eine systemische Analyse der Auswirkungen der Einführung
und Nicht-Einführung einer Maßnahme. Im Kern geht es um die Herausarbeitung
der beabsichtigten und der nicht beabsichtige Konsequenzen absichtsvollen
Handelns [70 ]
[75 ]
[76 ]
[77 ]
[78 ]
[79 ] . Diese könnten in Form von
„Wenn-Dann“-Kausalbeziehungen dargestellt werden, so dass die verschiedenen
Wirkungsketten und ihre Querbeziehungen genauer herausgearbeitet werden
können. Diese systemische Kausalanalyse könnte aus drei Schritten bestehen:
Hauptwirkungsanalyse: Durchführung einer interventionsbezogenen
Kausalanalyse bzgl. der ausgewählten Hauptwirkung (primärer
Outcome);
Nebenwirkungsanalyse: Durchführung einer interventionsbezogenen
Kausalanalyse bzgl. der beabsichtigten und unbeabsichtigten
Nebenwirkungen und Nah- und Fern-Folgewirkungen;
Translation: Vermittlung des Wenn-Dann-Wissens über die Haupt- und
Nebenwirkungen an die Entscheidungstragenden in Politik und Praxis
mittels eines ganzheitlichen Innovationsfolgenabschätzungsberichts
(structural innovation assessment report) in Anlehnung an die
früheren Technikfolgenabschätzungsberichte (TA) [80 ] . Dies bedeutet, sie
müssten weitaus systemischer und breiter ausgerichtet sein als es
zum Beispiel bei einer Vielzahl der Health Technology Berichte in
der Regel der Fall ist [81 ]
[82 ] . Diese unerwünschte
Enge in der Ausrichtung zeichnet aber gerade oft auch neuere
HTA-Berichte [83 ] aus.
Schritt 6: Politik und Praxis entscheiden situativ und flexibel unter dem
Leitprinzip der praktisch höchst erreichbaren Evidenz
Wir unterscheiden zwei Zustände bzw. Situationen: Es besteht genügend Zeit oder
es besteht nicht genügend Zeit, die Entscheidung basierend auf der bestmöglichen
Evidenz vorzubereiten.
6 A: Wenn eine evidenzbasierte Entscheidung angestrebt wird und genügend Zeit
bleibt, dann sollte das bestmögliche Forschungsprogramm abgearbeitet werden und
die Ergebnisse den politisch Entscheidungstragenden vorgelegt werden. Diese
müssten sich dann in jedem Fall dazu äußern und erklären, ob und wie die nun
vorliegende bestmögliche Evidenz in die Entscheidung einfließt. Wird sie nicht
berücksichtigt, dann wären die politischen Entscheidungstragenden verpflichtet,
die konkreten Gründe zu benennen und durch Belege zu untermauern, warum die
bestverfügbare Evidenz nicht genutzt und somit politisch anders entschieden
wurde. In diesem Fall müsste die wissenschaftliche Gemeinschaft – und die
EbM-community insbesondere – diese Entscheidung als politische Entscheidung
akzeptieren. Es handelt sich dann jedoch um eine Entscheidung, die nach bestem
Wissen und Gewissen von Seiten der Wissenschaft informiert wurde (informierte
politische Entscheidung). In diesem Fall hat die Wissenschaft ihren „Job“ gut
gemacht und stößt hier an die Grenze ihrer Wirkungsmacht. Die
Gesundheitspolitiker wären dann allerdings auch für die im Structural Innovation
Assessment Report aufgezeigten Haupt- und Nebenfolgen verantwortlich (zu
machen), falls diese dann – wie von der Wissenschaft vorhergesagt – tatsächlich
eintreten.
6 B: Wenn keine Zeit ist, das Forschungsprogramm zur Erlangung der bestmöglichen
Evidenz durchzuführen, dann sollte unter Würdigung der bestverfügbaren Evidenz,
der bestverfügbaren Theorien und auch einer Modellierung/Auswirkungsanalyse
entschieden werden. Dabei sollte das Restrisiko bei der Entscheidung und die
damit verbundene Entscheidungsunsicherheit konkret benannt werden. Es ist
wichtig in diesem Fall Entscheidungstransparenz herzustellen.
Fazit: Zurück zu Sackett – auch im Falle von Strukturinnovationen
Fazit: Zurück zu Sackett – auch im Falle von Strukturinnovationen
Die Ausführungen haben gezeigt, dass wir in der evidenzbasierten Gesundheitspolitik –
wenn es um Strukturinnovationen geht – von der Maximalforderung nach theoretisch
bester Evidenz Abstand nehmen sollten. Es sollte die Maxime von Sackett angestrebt
werden, indem bestverfügbares Evidenzwissen mit dem Erfahrungswissen und dem Wissen
über den Gegenstand (bei Sackett: die Patient:innen; hier: das Gesundheitssystem mit
seinen Rahmenbedingungen) kombiniert wird, um die beste Policy-Entscheidung treffen
zu können. Dieses „Zurück zu Sackett“ bedeutet auch, dass aktiv in der
Gesundheitspolitik Entscheidungen getroffen werden MÜSSEN – so wie Ärzte
(idealerweise gemeinsam mit Patient:innen) tagtäglich entscheiden müssen. Auch die
Entscheidung, keine Änderung der Versorgungsstrukturen vorzunehmen, muss als aktive
politische Entscheidung gewertet und die Konsequenzen politischen Entscheidern
zugeschrieben werden. Auch wenn man nicht handelt, verhält man sich und ist
verantwortlich.
Dies muss allerdings mit dem Streben verbunden sein, das bestverfügbare Wissen, falls
es noch nicht auf dem Niveau der praktisch besten Evidenz ist, auf Dauer an das
vorab definierte bestmögliche Wissen, also an das praktisch beste Evidenzniveau,
heranzuführen. Beides sollte auf das Leitprinzip der theoretisch besten Evidenz
ausgerichtet werden. Hierbei muss man sich bewusst sein, dass das faktisch
unerreichbare Niveau der theoretisch besterreichbaren Evidenz zwar Leitidee, aber
kein konkreter Maßstab sein darf. Das Ziel ist es vielmehr, der Innovation eine
angemessene Chance zur Realisierung zu geben. Da mit der Entscheidung für eine
Innovation Unsicherheit verbunden ist, ist es angeraten, die Wirksamkeit bzgl. der
Haupt- und Nebenwirkungen über ein systematisches Monitoring zu überwachen. Damit
wird überprüft, ob die abgeschätzten Haupt- und Nebenwirkungen wie vorhergesagt
eingetreten sind oder nicht und welche in unbeabsichtigter Weise eintreten. Je nach
Ergebnis kann die Praxis und die Gesundheitspolitik gegensteuern. Auf dieser
Grundlage ist ein lernendes Gesundheitssystem implementierbar, das auf Evaluation
und Monitoring gleichermaßen setzt und so einen bewussten Kurs hält zwischen
Strukturkonservatismus und Innovationswagnis.