Subscribe to RSS
DOI: 10.1055/a-0781-8967
Propensity-Score-Methoden zur Schätzung von Behandlungseffekten: Eine Chance für die rehabilitative Versorgungsforschung
Propensity Score Methods to Estimate Treatment Effects: An Opportunity for Rehabilitation Service ResearchKorrespondenzadresse
Publication History
Publication Date:
15 February 2019 (online)
- Zusammenfassung
- Einleitung
- Randomisierte kontrollierte Studien in der rehabilitativen Versorgungsforschung
- Behandlungseffekte
- Propensity-Score-Methoden
- Propensity-Score-Methoden im Vergleich
- Propensity-Score-Methoden vs. Regressionsmodelle
- Beispiele aus der rehabilitativen Versorgungsforschung
- Kernbotschaft
- Literatur
Zusammenfassung
Die randomisierte kontrollierte Studie ist der Goldstandard zur Überprüfung der Wirksamkeit einer Intervention. Sie ermöglicht eine unverzerrte Schätzung des Behandlungseffekts, da die Zuweisung zu den Behandlungsarmen zufällig erfolgt und damit unabhängig von Patientenmerkmalen oder vorangehenden Maßnahmen der Patientenversorgung. Unterschiede im Zielkriterium können kausal auf die Behandlung zurückgeführt werden. In Beobachtungsstudien erfolgt die Zuweisung in Interventions- und Kontrollgruppe nicht zufällig. Die Zuweisung ist vielmehr mit Patientenmerkmalen assoziiert, für die eine Wirkung auf das Zielkriterium nicht ausgeschlossen werden kann. Effektschätzer aus Beobachtungsstudien müssen deshalb als verzerrt gelten. Methodische Ansätze, die den Propensity Score nutzen, berücksichtigen diese Gruppenunterschiede bei der Analyse von Beobachtungsdaten. Der Propensity Score ist die aufgrund beobachteter Variablen bedingte Wahrscheinlichkeit, die Behandlung zu erhalten. Mittels Propensity-Score-Matching können so balancierte Stichproben von behandelten und unbehandelten Personen gebildet werden. Zur Darstellung der Behandlungseffekte können dieselben absoluten Effektmaße genutzt werden wie in randomisierten kontrollierten Studien.
#
Abstract
The randomized controlled trial is the gold standard to validate the efficacy of an intervention. Randomized treatment assignment in intervention and control group independent of patient characteristics or previous measures of patient care allows one to estimate unbiased treatment effects. Differences in outcomes can be attributed causally to the treatment. In observational studies treatment assignment is not randomized in intervention and control group. Instead, the assignment is influenced by patient characteristics. This could lead to biased estimates of treatment effects. Statistical approaches based on the propensity score take into account the group differences in observational data. The propensity score is the probability of treatment assignment conditional on observed variables. By means of propensity-score-matching balanced samples of treated and control subjects can be formed. To express treatment effects, the same statistical approaches can be used as those in randomized controlled trials.
#
Schlüsselwörter
Randomisierte kontrollierte Studien - Beobachtungsstudien - Behandlungseffekte - rehabilitative Versorgungsforschung - Propensity-Score-MatchingKey words
randomized controlled trial - observational studies - average treatment effect - rehabilitation service research - Propensity-Score-MatchingEinleitung
Die randomisierte kontrollierte Studie ist der Goldstandard bei der Überprüfung der Wirksamkeit von Therapien. Durch die zufällige Zuweisung der Teilnehmer zu den Behandlungsarmen können Verzerrungen durch Konfundierung und Störfaktoren vermieden werden [1]. Wenn sich Interventions- und Kontrollgruppe nicht systematisch voneinander unterscheiden, lassen sich Ergebnisse nach der Behandlung kausal auf die Behandlung zurückführen (hohe interne Validität). In manchen Settings sind randomisierte kontrollierte Studien allerdings nicht möglich oder nur mit erheblichen Zugeständnissen an die Generalisierbarkeit und Repräsentativität der Ergebnisse (externe Validität) umsetzbar.
Sind randomisierte kontrollierte Studien nicht verfügbar oder umsetzbar, können Beobachtungsstudien zur Schätzung von Interventionseffekten genutzt werden. Unter Beobachtungsstudien verstehen wir in unserem Beitrag, in Anlehnung an Glasziou und Kollegen [2], Studien, in denen die Zuteilung zu den zu vergleichenden Gruppen nicht nach dem Zufallsprinzip durchgeführt wurde (nicht-randomisierte kontrollierte Studien) [3]. Aufgrund der fehlenden Randomisierung können sich Teilnehmer der Interventions- und Kontrollgruppe systematisch voneinander unterscheiden. Dies erhöht das Risiko einer verzerrten Schätzung des Behandlungseffekts. Befunde aus Beobachtungsstudien gelten im Vergleich zu randomisierten kontrollierten Studien daher als schwächere Belege oder Nachweise der Wirksamkeit einer Maßnahme (Evidenz) [3].
Der Beitrag gliedert sich in 3 Teile. Erstens werden mögliche Grenzen randomisierter kontrollierter Studien diskutiert, wenn Behandlungseffekte in der rehabilitativen Versorgung zu schätzen sind. Zweitens werden Propensity-Score-Methoden vorgestellt und ein Vergleich der Methoden gegenüber Regressionsmodellen vorgenommen. Drittens werden 2 aktuelle Anwendungen in der rehabilitativen Versorgungsforschung beschrieben.
#
Randomisierte kontrollierte Studien in der rehabilitativen Versorgungsforschung
Rehabilitative Versorgungsforschung untersucht die Umsetzung rehabilitativer Leistungen in der realen Versorgungspraxis unter Alltagsbedingungen. Versorgungsforschung hat dabei verschiedene Funktionen. Neben der Beschreibung und Erklärung der Versorgung sowie der Entwicklung und Begleitung von Versorgungskonzepten kommt der Versorgungsforschung in diesem Zusammenhang auch eine Belegfunktion zu [4]. In ihrer Belegfunktion soll Versorgungsforschung klären, ob eine bestimmte Strategie wirksam ist. Diese Wirksamkeitsprüfung kann absolut (Nachsorge vs. keine Nachsorge [5]) oder relativ sein (ambulant vs. stationär [6]). Auch in der rehabilitativen Versorgungsforschung ist die randomisierte kontrollierte Studie der Goldstandard zur Analyse von Interventionseffekten. Als nahezu gleichwertig gelten außerdem clusterrandomisierte Studien, in denen Versorgungseinheiten (z. B. Rehabilitationseinrichtungen oder Patientengruppen mit gleichem Startdatum der Rehabilitation) zu Interventions- und Kontrollgruppe randomisiert werden [7]. Im Rahmen relativer Wirksamkeitsnachweise haben randomisierte kontrollierte Studien wichtiges Wissen generiert. So ist heute bekannt, dass die medizinisch-beruflich orientierte Rehabilitation berufliche Teilhabechancen im Vergleich zur herkömmlichen medizinischen Rehabilitation verbessert [8] [9]. Weiterhin wissen wir, dass interdisziplinär konzipierte und aktivierende Patientenschulungen Krankheitswissen und Bewältigungskompetenzen besser vermitteln können als die klassischen vortragsgestützten Patientenschulungen [10]. Randomisierte kontrollierte Studien wurden auch zur Überprüfung der absoluten Wirksamkeit medizinischer Rehabilitation durchgeführt. In diesen Studien wurden Personen mit und ohne Rehabilitation verglichen, um zu prüfen, ob sich die Ergebnisse nach der Rehabilitation kausal auf die Rehabilitation zurückführen lassen. Jäckel et al. [11] testeten 1990 die Wirksamkeit der medizinischen Rehabilitation mit einem Wartekontrollgruppendesign. Hüppe et al. [12] haben einen weiteren methodischen Ansatz für die Durchführung randomisierter kontrollierter Studien in der rehabilitativen Versorgungsforschung entwickelt. Versicherte mit muskuloskelettalen Beschwerden wurden identifiziert und randomisiert einer Interventions- und Kontrollgruppe zugewiesen. Die Interventionsgruppe erhielt eine aktive Beratung mit dem Ziel einer Rehabilitationsantragsstellung, während die Kontrollgruppe eine solche Beratung nicht erhielt. Nach 6 und 12 Monaten wurden die Effekte auf Arbeitsunfähigkeitsdauer und Berentungen sowie subjektive Gesundheit gemessen [12].
Die methodischen Ansätze zeigen, dass absolute Wirksamkeitsprüfungen mittels randomisierter kontrollierter Studien in der Rehabilitationsforschung möglich sind, aber auch ihre Grenzen haben. Bspw. ist mit einem Wartekontrollgruppendesign die Abbildung langfristiger Unterschiede zwischen den untersuchten Gruppen schwierig. Bei der Bewertung rehabilitativer Strategien sind jedoch Beobachtungszeiträume anzustreben, die deutlich über einem Jahr liegen, um bspw. eine Reduzierung von Erwerbsminderungsrenten nachweisen zu können. Außerdem unterscheiden sich die eingeschlossenen Teilnehmer oftmals wesentlich von den in der realen Versorgung tatsächlich erreichten Personen, was die externe Validität der Ergebnisse beeinträchtigt [13] [14] [15]. Personen, die erst durch eine aktive Beratung eine Rehabilitation beantragen, unterscheiden sich wahrscheinlich von den Personen, die auch ohne eine solche aktive Beratung den Weg in die Rehabilitation bewältigen. Zudem liefern randomisierte kontrollierte Studien eher robuste Aussagen über die generelle Wirksamkeit einer Intervention unter idealen Studienbedingungen (Efficacy) als über die Wirksamkeit einer Intervention in der realen Versorgung (Effectiveness). Für rehabilitative Versorgungsforschung ist Letzteres aber von mindestens gleichrangigem Interesse.
#
Behandlungseffekte
In randomisierten kontrollierten Studien ist aufgrund der Randomisierung eine unverzerrte Schätzung des Behandlungseffekts möglich. Dafür werden die mittleren Ergebnisse der beiden untersuchten Gruppen zueinander in Beziehung gesetzt. Bei kontinuierlichen Outcomes ist dies die Mittelwertdifferenz, bei dichotomen Outcomes können relative Risiken, Odds Ratios und absoluten Risikodifferenzen bestimmt werden [16]. Zur verständlichen Kommunikation des Nutzens und Schadens einer Intervention kann, als Kehrwert der absoluten Risikoreduktion, die Number needed to treat (NNT) angeben werden. Die NNT ist die Zahl von Personen, die behandelt werden muss, damit bei einer zusätzlichen Person das gewünschte Ereignis eintritt.
Im Vergleich zur randomisierten kontrollierten Studie ist in Beobachtungsstudien die Zuweisung zu den Behandlungsbedingungen nicht zufällig. Dies führt zu systematischen Gruppenunterschieden. Eine unverzerrte Schätzung des durchschnittlichen Behandlungseffekts ist durch den direkten Vergleich beider Behandlungsgruppen nicht möglich. Unter bestimmten Bedingungen kann mit den in diesem Beitrag beschriebenen Ansätzen jedoch auch mit Beobachtungsdaten eine unverzerrte Schätzung erreicht werden.
Die Schätzung von Behandlungseffekten kann auf unterschiedliche Arten erfolgen. In der Praxis haben sich v. a. der Average Treatment Effect (ATE) und der Average Treatment Effect for the Treated (ATT) etabliert [17]. Der ATE entspricht dem kausalen Behandlungseffekt, wenn die Gesamtpopulation (z. B. alle Personen mit Rückenschmerzen) von Nicht-Behandlung auf Behandlung wechselt. Der ATT bestimmt den durchschnittlichen kausalen Behandlungseffekt der Personen, die tatsächlich an der Behandlung teilgenommen haben (z. B. alle Personen mit Rückenschmerzen, die an einer medizinischen Rehabilitation teilgenommen haben). Je nach Forschungskontext ist zu entscheiden, ob der ATE oder der ATT als Behandlungseffekt von Interesse ist. In randomisierten kontrollierten Studien stimmen die beiden Maße aufgrund der Randomisierung überein [18] [19]. In Beobachtungsstudien können die Maße jedoch deutlich voneinander abweichen, da sich die tatsächlich erreichte Population von der Gesamtpopulation meist klar unterscheidet.
#
Propensity-Score-Methoden
Der Propensity Score ist die durch beobachtete Variablen bedingte Wahrscheinlichkeit, eine Maßnahme zu erhalten [20] [21]. Mögliche Variablen, die den Zugang zur Rehabilitation beeinflussen, sind z. B. Geschlecht, das Ausmaß der Einschränkungen und die durch den Hausarzt erfahrene Information über die Möglichkeit rehabilitativer Leistungen. In randomisierten kontrollierten Studien ist der Propensity Score bekannt und durch das Studiendesign definiert. Bei einer Eins-zu-eins-Randomisierung entspricht der Propensity Score jeder Person in der Interventions- und Kontrollgruppe dem Wert 0,5. Für geclusterte Datenstrukturen, wie sie in clusterrandomisierten Studien vorkommen, wurden Spezifizierungen zur Schätzung des Propensity Scores entwickelt [22]. In Beobachtungsstudien ist der Propensity Score nicht bekannt, kann jedoch anhand der beobachteten Daten geschätzt werden. Zur Schätzung des Behandlungseffekts mittels Propensity Score wird ein Zwei-Schritt-Verfahren angewandt:
-
Schritt: Der Propensity Score wird mit einem logistischen Regressionsmodell geschätzt [23]. Hierbei werden die zugeteilte Bedingung (Kontroll- oder Interventionsgruppe) als abhängige Variable und die beobachteten Personenmerkmale aus einer Befragung oder aus administrativen Daten als unabhängige Variablen in das Modell aufgenommen [24]. Der Propensity Score kann so für jede einzelne Person berechnet werden. Bei der Wahl der Kovariaten sollten sowohl theoretisch plausible Variablen als auch bivariate Zusammenhänge von Merkmalen mit dem Zielkriterium berücksichtigt werden. Entsprechende Strategien zur Modellspezifikation sind bei Guo und Fraser [21] aufgeführt.
-
Schritt: Nach Schätzung des Propensity Scores wird in einem nächsten Schritt der Behandlungseffekt berechnet. Für die Schätzung des Behandlungseffekts gibt es vier Methoden, die im Folgenden dargestellt sind.
Propensity-Score-Matching
Beim Propensity-Score-Matching werden behandelte und unbehandelte Personen, die einen gleichen oder minimal abweichenden Propensity Score aufweisen, miteinander gematcht. Beim klassischen Matching wird ein „Zwilling“ pro Person identifiziert, der genauso alt ist, das gleiche Geschlecht, Arbeitsunfähigkeitsdauer usw. aufweist. Je mehr Variablen berücksichtigt werden, desto schwieriger wird das Matching. Bei 16 binären Merkmalen ergibt sich ein Möglichkeitsspielraum von 216, also insgesamt 65536 Möglichkeiten. Im Vergleich dazu basiert das Propensity-Score-Matching auf dem eindimensionalen Propensity Score. Mittels Propensity-Score-Matching kann der ATT bestimmt werden [17]. Am häufigsten wird ein Eins-zu-eins-Matching durchgeführt. Jeder behandelten Person wird eine unbehandelte Person mit demselben Propensity Score zugeteilt [23]. Alternativ können auch mehrere unbehandelte Personen ausgewählt werden (Eins-zu-N-Matching) [25]. Das Propensity-Score-Matching gewährleistet balancierte Stichprobenwerte von behandelten und unbehandelten Personen in allen Variablen, die für die Schätzung des Propensity Scores genutzt wurden. Daraufhin kann der Behandlungseffekt durch den direkten Vergleich der Outcomes von behandelten und unbehandelten Personen bestimmt werden. Durch die balancierten Stichproben können Behandlungseffekte mit denselben Maßen berichtet werden, wie wir sie in randomisierten kontrollierten Studien verwenden [23]. Verschiedene Softwarepakete ermöglichen ein Propensity-Score-Matching. In Stata können die Prozeduren teffects und psmatch2 genutzt werden. In SPSS und R wurden ebenfalls entsprechende Module entwickelt [26].
#
Stratifizierung auf Basis des Propensity Scores
Die Stratifizierung anhand des Propensity Scores charakterisiert sich durch ein gröberes Matching. Die Personen werden anhand ihres Propensity Scores in Subgruppen kategorisiert. Ein übliches Vorgehen ist hierbei die Einteilung der gesamten Datenmenge in fünf gleich große Teile, d. h., es werden die Quintile des Propensity Scores bestimmt [23]. In jeder Schicht haben behandelte und unbehandelte Personen annähernd gleiche Propensity Scores und somit balancierte Stichprobenkennwerte. Die Idee entspricht einer Metaanalyse eines Sets gut balancierter nicht-randomisierter kontrollierter Studien. Mittels direktem Vergleich der Outcomes kann der Behandlungseffekt in den einzelnen Schichten geschätzt werden. Die so erhaltenen Behandlungseffekte können im nächsten Schritt metaanalytisch zusammengefasst werden [17].
#
Inverse Probability of Treatment Weighting mittels Propensity Score
Bei der Inverse Probability of Treatment Weighting (IPTW)-Schätzung werden den Personen statistische Gewichte, basierend auf dem Propensity Score, zugeordnet. Die IPTW-Schätzung ist vergleichbar mit der Gewichtung von Stichproben zur Gewährleistung der Repräsentativität für eine bestimmte Population [27]. Das statistische Gewicht wird durch die tatsächliche Behandlungsbedingung und den Kehrwert des Propensity Scores (PS) definiert. Dies bedeutet, dass behandelte Personen das Gewicht [1/PS-1] und unbehandelte Personen das Gewicht [1/PS] erhalten. Intuitiv kann dieser Ansatz wie folgt erklärt werden: Eine behandelte Person mit niedrigem Propensity Score erhält ein hohes Gewicht, weil sie mit Blick auf die ursprüngliche Gesamtstichprobe in der Behandlungsgruppe unterrepräsentiert ist. Bei der Analyse des Behandlungseffekts werden die Personen mit ihren Gewichten berücksichtigt.
#
Adjustierung der Kovariaten durch den Propensity Score
Die vierte Methode zur Schätzung des Behandlungseffekts ist die regressionsbasierte Adjustierung der Kovariaten durch den Propensity Score. Hierbei werden das Zielkriterium als abhängige und die Indikatorvariable (Intervention oder Kontrolle) sowie der Propensity Score als unabhängige Variablen in ein Regressionsmodell aufgenommen. Der Behandlungseffekt ist dadurch für den Propensity Score adjustiert und somit für alle Variablen, auf denen der Propensity Score basiert [23]. Je nach Skalenniveau der Zielgröße wird ein lineares (kontinuierliches Outcome) bzw. ein logistisches Modell (dichotomes Outcome) angewandt.
#
#
Propensity-Score-Methoden im Vergleich
Werden die methodischen Ansätze wie in [Tab. 1] verglichen, so wird deutlich, dass Propensity-Score-Matching, Stratifizierung und die IPTW-Schätzung sich in einem Punkt gegenüber der regressionsbasierten Adjustierung durch den Propensity Score unterscheiden. Diese Methoden ähneln eher dem Design einer randomisierten kontrollierten Studie ([Tab. 1]). Es werden zunächst vergleichbare Gruppen gebildet, bevor der Behandlungseffekt geschätzt wird. Mittels Propensity-Score-Matching und der IPTW-Schätzung können die erhobenen Merkmale in Interventions- und Kontrollgruppe explizit dargestellt und auf eine balancierte Verteilung geprüft werden. Simulationsstudien zeigen, dass zur Eliminierung systematischer Unterschiede in den Stichprobenkennwerten zwischen behandelten und unbehandelten Personen das Propensity-Score-Matching derzeit das favorisierte Verfahren ist [23] [28] [29] [30].
Propensity-Score-Methoden |
Herkömmliche Regressions-adjustierung |
||||
---|---|---|---|---|---|
PS-Matching |
Stratifizierung auf Basis des PS |
IPTW-Schätzung |
Adjustierung durch den PS |
||
Methode ähnelt dem Design einer randomisierten kontrollierten Studie |
+ |
± |
+ |
– |
– |
Transparente Beurteilung, ob die Stichprobenmerkmale balanciert sind |
+ |
± |
+ |
– |
– |
Konfundierende Merkmale werden, wenn erhoben, balanciert |
+ |
+ |
+ |
+ |
+ |
Methode nutzt gesamtes Datenmaterial (kein Ausschluss von Personen) |
– |
+ |
+ |
+ |
+ |
Methode führt zu robusterer Schätzung bei Personen mit extremem PS |
+ |
+ |
– |
+ |
+ |
Methode eignet sich, wenn das Ereignis im Vergleich zur Behandlung selten ist |
+ |
+ |
+ |
– |
– |
Average Treatment Effect |
– |
+ |
+ |
+ |
+ |
Average Treatment Effect for the Treated |
+ |
± |
± |
– |
– |
PS=Propensity Score; IPTW=Inverse Probability of Treatment Weighting; +=ja oder kann bestätigt, geschätzt werden; ±= teilweise oder kann zu Teilen bestätigt, unter bestimmten Voraussetzungen geschätzt werden; -=nein oder kann nicht bestätigt, geschätzt werden
#
Propensity-Score-Methoden vs. Regressionsmodelle
Obwohl mit auf Propensity Score basierenden Verfahren methodisch hochwertigere Verfahren zur Verfügung stehen, werden Beobachtungsdaten in der Forschungspraxis zumeist mittels Regressionsmodellen und Kovarianzanalysen analysiert. Regressionsmodelle und Kovarianzanalysen sind mathematisch äquivalent und ermöglichen es, beobachtete Störgrößen und die Werte der Ersterhebung bei der Schätzung des Behandlungseffekts zu berücksichtigen [31]. Auf Propensity Scores basierende Methoden weisen zwei wesentliche erkenntnistheoretische und praxisrelevante Vorteile auf.
Erstens ähneln Methoden, die den Propensity Score nutzen, randomisierten kontrollierten Studien [32]. Im ersten Schritt werden auf Basis der Schätzung des Propensity Scores bzw. der Randomisierung in randomisierten kontrollierten Studien balancierte Stichproben gebildet. Bei der Schätzung der Propensity Scores gehen keine Informationen der interessierenden Zielgrößen mit ein, sondern nur die zu Beginn beobachteten Merkmale [32]. Somit gehört die Schätzung des Propensity Scores noch zum Design einer Studie und nicht zur Analyse. Im nächsten Schritt wird nun durch den direkten Vergleich der balancierten Stichproben der Behandlungseffekt geschätzt. Im Gegensatz dazu besteht der Ablauf der herkömmlichen Regressionsmodelle aus nur einem Schritt. Der Effekt der Behandlung auf die interessierende Zielgröße wird gleichzeitig mit den weiteren unabhängigen Variablen regressionsanalytisch geschätzt [33]. Damit beeinflusst die Ausprägung des Zielkriteriums die statistische Korrektur. Bei der Korrektur werden so Stichprobenspezifika ggf. fälschlicherweise „überkorrigiert“, und die Korrektur basiert zudem auf Annahmen des kausalen Zusammenhangs von Kovariaten und Zielkriterium, die bei Propensity Score Verfahren vermieden werden können. Propensity-Score-Methoden führen somit zu robusteren und präziseren Modellschätzungen [33]. Dies gilt insbesondere, wenn das Zielereignis im Vergleich zur Behandlung selten ist [34] [35].
Zweitens wird mit Regressionsmodellen üblicherweise der mittlere Populationseffekt bestimmt, d. h. der Effekt, wenn die gesamte Population von Nicht-Behandlung auf Behandlung wechselt. Bei der Schätzung werden auch die Ergebnisse der Nicht-Behandelten genutzt. Diese können sich aber systematisch von denen der Behandelten unterscheiden. Die Unterschiede können so extrem sein, dass eine Schätzung nicht plausibel ist. In der rehabilitativen Versorgungsforschung ist jedoch der Effekt für die in der realen Versorgung tatsächlich erreichten und behandelten Personen, also der ATT, von besonderem Interesse [36]. Dieser kann mit Methoden, die auf Propensity Scores basieren, unkompliziert bestimmt werden ([Tab. 1]).
Trotz dieser Stärken bleiben wesentliche Begrenzungen, die sich aus dem Design einer Beobachtungsstudie ergeben, bestehen. Eine Balancierung hinsichtlich konfundierender Merkmale, die durch den Variablensatz nicht direkt oder indirekt erfasst werden, ist nicht möglich [1]. Unbeobachtete Heterogenität kann also zu verzerrten Effektschätzern führen. Gegen unbeobachtete Heterogenität hilft nur eine randomisierte Zuweisung. Zur Balancierung von konfundierenden Faktoren sollten theoriebasiert die Merkmale berücksichtigt werden, die einen Einfluss auf das Zielkriterium haben könnten. Zudem sind für eine robuste Schätzung erstens große Stichproben [37] und zweitens umfangreiche und qualitativ hochwertige Datenmengen notwendig. Umfangreiche Modelle können mit einem hohen Anteil fehlender Werte bei der Schätzung des Propensity Scores einhergehen. Bei der Anwendung sollten daher eine standardisierte Analyse und Korrektur fehlender Werte beachtet werden [38] [39]. Bei Studien mit mehreren Messzeitpunkten kann es zudem zu Verzerrungen durch den vorzeitigen Ausstieg von Probanden vor Beendigung der Studie kommen. Um Verzerrungen des Propensity Scores zu vermeiden, ist ein Intention-to-treat-Ansatz erforderlich, d. h., dass bei allen Probanden die ursprüngliche Zuweisung zu Interventions- und Kontrollgruppe in der statistischen Analyse berücksichtigt wird [40].
#
Beispiele aus der rehabilitativen Versorgungsforschung
Im Folgenden wird das Propensity-Score-Matching anhand zweier aktueller Studien [41] [42] aus der rehabilitativen Versorgungsforschung dargestellt. Die Studien untersuchen die Wirksamkeit (Effectiveness) rehabilitativer Strategien in der realen Versorgungspraxis und bestimmten den ATT.
Das erste Beispiel stammt aus Finnland von Mikhail Saltychev und gehört zu einer Reihe von Publikationen, in denen die Wirksamkeit eines multidisziplinären präventiven Ansatzes (Finnisch: ASLAK) überprüft wurde [41]. Der Träger dieses Programms ist der Sozialversicherungsträger KELA, das finnische Äquivalent der Deutschen Rentenversicherung. ASLAK war inhaltlich vergleichbar mit der medizinisch-beruflich orientierten Rehabilitation in Deutschland [43], wurde aber als sehr frühe und eher präventive Strategie durchgeführt. Die Daten stammen aus der Finnish Public Sector Study, einer nach wie vor laufenden Kohortenstudie in 10 Gemeinden und 21 Krankenhäusern mit Angestellten im öffentlichen Dienst. Aus einer Gesamtstichprobe von 24 100 Personen haben Saltychev und Kollegen [41] 859 Programmteilnehmer mit 2426 Kontrollen gematcht (Eins-zu-drei-Matching). Im Schätzmodell des Propensity Scores wurden sowohl Befragungsdaten als auch administrative Daten genutzt. Als Zielkriterium wurde die subjektive Arbeitsfähigkeit erhoben, definiert durch den Work Ability Score nach 1,7 und 5,8 Jahren. Der Work Ability Score erfasst die derzeitige Arbeitsfähigkeit im Vergleich zur besten je erreichten Arbeitsfähigkeit von 0 bis 10 Punkten [44]. Werte von 0 bis 7 Punkten wurden in der Studie als eingeschränkte Arbeitsfähigkeit definiert. Mittels Chi2-Tests wurden Unterschiede in den Stichprobenkennwerten analysiert. [Tab. 2] zeigt die Charakteristik der Stichprobe aus der Studie nach dem Propensity-Score-Matching [41].
Merkmale |
IG (n=859) |
KG (n=2426) |
||||||
---|---|---|---|---|---|---|---|---|
M |
Min–Max |
n |
% |
M |
Min–Max |
n |
% |
|
Propensity Score |
0,109 |
0,002–0,615 |
0,093 |
0,002–0,623 |
||||
Geschlecht |
||||||||
Weiblich |
775 |
90 |
2182 |
90 |
||||
Männlich |
84 |
10 |
244 |
10 |
||||
Altersgruppen (Jahre) |
||||||||
≤ 40 |
137 |
16 |
408 |
17 |
||||
41–50 |
523 |
61 |
1549 |
64 |
||||
≥ 51 |
199 |
23 |
469 |
19 |
||||
ISCO Grad |
||||||||
1–2 (Führungskräfte) |
309 |
36 |
890 |
37 |
||||
3 (Techniker) |
218 |
25 |
597 |
25 |
||||
4 (Beamte) |
41 |
5 |
107 |
4 |
||||
5 (Servicemitarbeiter) |
201 |
23 |
572 |
24 |
||||
6–9 (Arbeiter) |
90 |
10 |
260 |
11 |
||||
Arbeitgeber |
||||||||
Gemeinde |
587 |
68 |
1765 |
73 |
||||
Kreiskrankenhaus |
272 |
32 |
661 |
27 |
||||
Wohnregion |
||||||||
Südfinnland |
493 |
57 |
1436 |
59 |
||||
Mittelfinnland |
253 |
29 |
653 |
27 |
||||
Nordfinnland |
113 |
13 |
337 |
14 |
||||
Familienstand |
||||||||
Verheiratet/Partnerschaft |
662 |
77 |
1889 |
78 |
||||
Single/geschieden/verwitwet |
197 |
23 |
537 |
22 |
||||
Bildungsgrad |
||||||||
Kein Gymnasium |
398 |
46 |
1086 |
45 |
||||
Gymnasium |
461 |
54 |
1340 |
55 |
IG=Interventionsgruppe; KG=Kontrollgruppe; M=Mittelwert; n=Häufigkeiten; ISCO=International Standard Classification of Occupations
Anhand der Stichprobenbeschreibung wird deutlich, dass aus dem Propensity-Score-Matching balancierte Stichproben für alle berücksichtigten Merkmale resultierten. [Tab. 3] zeigt die von Saltychev und Kollegen [41] berichteten Prävalenz und Prävalenzverhältnisse eingeschränkter Arbeitsfähigkeit. Jede fünfte Person in beiden Gruppen berichtet zum Zeitpunkt der Ersterhebung eingeschränkte Arbeitsfähigkeit. Die absolute Risikoerhöhung errechnet sich aus der Differenz der Prävalenz aus Interventions- und Kontrollgruppe. Bei der ersten Nacherhebung betrug die absolute Risikoerhöhung für eingeschränkte Arbeitsfähigkeit 6,3%-Punkte. Zur zweiten Nacherhebung lag die absolute Risikoerhöhung bei 5,7%-Punkten. Zur verständlichen Kommunikation des Behandlungseffekts kann nun die Number needed to harm aus dem Kehrwert der absoluten Risikoerhöhung [1/0,057] berechnet werden. Dieser beträgt NNH=17,54, d. h., bei rund 18 Teilnehmern resultiert ein zusätzlicher Fall mit eingeschränkter Arbeitsfähigkeit.
Zeitpunkt |
Gruppe |
Prävalenz von eingeschränkter Arbeitsfähigkeit |
|||
---|---|---|---|---|---|
Prävalenz (%) |
Prävalenz-verhältnis |
95% KI |
p-Wert |
||
Ersterhebung |
IG |
22,1 |
1,03 |
0,89–1,19 |
0,713 |
KG |
21,5 |
1,00 |
|||
Nach 1,7 Jahren |
IG |
33,2 |
1,23 |
1,10–1,39 |
<0,001 |
KG |
26,9 |
1,00 |
|||
Nach 5,8 Jahren |
IG |
37,1 |
1,18 |
1,06–1,31 |
0,002 |
KG |
31,4 |
1,00 |
IG=Interventionsgruppe; KG=Kontrollgruppe; KI=Konfidenzintervall
Mittlerweile hat KELA das Programm ASLAK, aufgrund der kontraintuitiven und ungünstigen Effekte, auslaufen lassen und mit KIILA ein neues Programm implementiert. Es wird deutlich, dass auch mittels Beobachtungsstudien robuste und für Entscheidungsträger relevante Wirksamkeitsprüfungen durchführbar sind, da die Ergebnisse ein hohes Maß sowohl an interner als auch externer Validität aufweisen.
Ein weiteres Beispiel stammt aus Deutschland von Streibelt und Kollegen [42], die die Wirksamkeit der stufenweisen Wiedereingliederung (STW) bei Patienten mit psychischen Störungen nach einer multimodalen medizinischen Rehabilitation [43] untersuchten. Die STW ist eine etablierte Strategie, um arbeitsunfähige Personen nach längerer Erkrankungszeit schrittweise wieder an die volle Erwerbsbelastung heranzuführen. In Deutschland ist eine STW direkt nach der medizinischen Rehabilitation möglich, wenn die Person noch nicht alle Arbeitsaufgaben bewältigen kann. Für die Studie wurden deutschlandweit alle Personen angeschrieben, denen innerhalb zweier Monate im Jahr 2012 ein Rehabilitationsantrag bewilligt wurde. Für das Propensity-Score-Matching wurden zunächst alle Variablen der Ersterhebung analysiert, die das primäre Zielkriterium vorhersagten. 27 Variablen, die signifikante Assoziationen zeigten, wurden in ein logistisches Regressionsmodell eingeschlossen. Die Zuweisung zur Interventions- oder Kontrollgruppe bildete die abhängige Variable. Basierend auf dem Propensity Score realisierten Streibelt und Kollegen [42] aus einer Gesamtstichprobe von insgesamt 34 406 Personen balancierte Gruppen von je 381 Teilnehmern mit der Interventionsbedingung (STW) und der Kontrollbedingung (keine STW) (Eins-zu-eins-Matching). [Tab. 4] zeigt die balancierten Stichproben der Interventions- und Kontrollgruppe nach dem Propensity-Score-Matching.
KG (n=381) |
IG (n=381) |
|
---|---|---|
Alter (Jahre±SD) |
47,8±7,9 |
47,8±7,6 |
Weiblich (%) |
78,0 |
78,2 |
Diagnose: Depression (%) |
||
Affektive Störungen (ICD–10: F30-F39) |
65,4 |
64,8 |
Neurotische, Belastungs- und somatoforme Störungen (F40–F48) |
27,0 |
29,1 |
Andere psychische Störungen |
7,6 |
6,0 |
Bildung (%) |
||
Niedrige Bildung |
47,0 |
48,0 |
Mittlere Bildung |
34,1 |
33,6 |
Hohe Bildung |
18,9 |
18,4 |
Einkommen (%) |
||
<1000 € |
7,4 |
7,9 |
1000 €<3000 € |
69,6 |
66,7 |
≥ 3000 € |
23,1 |
25,5 |
Arbeitsunfähigkeitszeiten im Jahr der Rehabilitation (Wochen±SD) |
21,8±14,0 |
22,0±13,6 |
Körperliche Rollenfunktion (SF-36, 0–100±SD) |
19,7±29,4 |
20,4±29,8 |
Emotionale Rollenfunktion (SF-36, 0–100±SD) |
7,5±19,0 |
9,3±21,1 |
PHQ-D (0–12±SD) |
8,4±2,8 |
8,4±2,8 |
Work Ability (1–5±SD) |
2,1±0,7 |
2,2±0,7 |
Absicht Frühberentung zu beantragen (%) |
21,3 |
17,3 |
Subjektive Erwerbsprognose (%) |
||
Positiv |
27,3 |
28,4 |
Unsicher |
54,3 |
56,4 |
Negativ |
18,4 |
15,2 |
IG=Interventionsgruppe; KG=Kontrollgruppe; M=Mittelwert; SD=Standardabweichung; ICD=International Statistical Classification of Diseases and Related Health Problems; SF-36=Short Form Gesundheitsfragebogen (mit 36 Items); PHQ=Patient Health Questionnaire
Als Zielkriterien wurden in dieser Studie die berufliche Teilhabe (Beschäftigung, Arbeitslosigkeit, Erwerbsminderungsrente) bei der Nacherhebung nach 15 Monaten und die Anzahl an Arbeitsunfähigkeitstagen während des Beobachtungszeitraums geprüft. Die Zielkriterien wurden über Selbsteinschätzungsbögen erfasst. Der Effekt der STW auf die berufliche Teilhabe wurde mittels logistischer Regression [24] geschätzt und das relative Risiko als Effektstärke berichtet [16]. Der Effekt auf die Arbeitsunfähigkeitstage wurde mit einem linearen Regressionsmodell berechnet. [Tab. 5] zeigt die Effekte der STW auf die berufliche Teilhabe.
KG (%) |
IG (%) |
RR (95% KI) |
|
---|---|---|---|
Beschäftigung |
72,6 |
88,4 |
1,22 (1,13–1,31) |
Arbeitslosigkeit |
16,1 |
6,6 |
0,41 (0,26–0,65) |
Erwerbsminderungsrente |
11,3 |
5,0 |
0,40 (0,23–0,70) |
IG=Interventionsgruppe; KG=Kontrollgruppe; RR=relatives Risiko; KI=Konfidenzintervall
Die Ergebnisse zeigen, dass 15 Monate nach Ende der Rehabilitation 88% der Interventionsgruppe zur Arbeit zurückgekehrt sind, aber nur 73% der Kontrollgruppe. In der Interventionsgruppe war das Risiko für Beschäftigung um 22% erhöht. Das Risiko für Arbeitslosigkeit (RR=0,41) oder eine Erwerbsminderungsrente (RR=0,40) war in der Interventionsgruppe um 60% reduziert. Die mittleren Arbeitsunfähigkeitszeiten unterschieden sich ebenfalls signifikant in Interventions- und Kontrollgruppe. Die Kontrollen berichteten über 6 zusätzliche Wochen mit Arbeitsunfähigkeit (p<0,001) ([Tab. 6]).
M±SD nach 15 Monaten |
b (95% KI) |
p |
|
---|---|---|---|
Arbeitsunfähigkeitszeiten (Wochen) |
|||
KG |
13,4±18,3 |
||
IG |
7,1±13,2 |
−6,3 (4,0–8,6) |
<0,001 |
Adjustiert nach Arbeitsunfähigkeitszeiten vor der Rehabilitation; IG=Interventionsgruppe; KG=Kontrollgruppe; M=Mittelwert; SD=Standardabweichung; b=Regressionskoeffizient; KI=Konfidenzintervall
Durch das Propensity-Score-Matching konnten balancierte Stichproben gebildet werden. Dies spricht für die interne Validität der Ergebnisse. Durch die deutschlandweite Rekrutierung wurde eine hohe externe Validität erreicht. Die Autoren fassen zusammen, dass die STW ergänzend zu einer medizinischen Rehabilitation bei Personen mit psychischen Störungen die berufliche Teilhabe erfolgreich steigert [42].
Die Studien zeigen, dass mittels Beobachtungsstudien und Propensity-Score-Matching Wirksamkeitsprüfungen durchführbar sind, um die Effekte in der realen Versorgungspraxis abzubilden (ATT). Die Ergebnisse weisen eine hohe interne und externe Validität auf. Aktuelle Studien mit Propensity Score gematchten Analysen verfolgen Wirksamkeitsnachweise der medizinisch-beruflich orientierten Rehabilitation [45] und der medizinischen Rehabilitation in der Versorgungsrealität [25].
#
Kernbotschaft
Propensity-Score-Methoden ermöglichen eine intern und extern valide Effektschätzung, wenn Beobachtungsdaten vorliegen. Auch bei einer hohen Zahl beobachteter Störgrößen können balancierte Stichproben gebildet und miteinander verglichen werden. Für die Versorgungsforschung von besonderem Interesse ist, dass mit dem ATT der Effekt für die in der realen Versorgung tatsächlich erreichten Personen abgebildet werden kann. Für die Ergebnisdarstellung können absolute Effektmaße bestimmt werden, die wir zur verständlichen Kommunikation des Nutzens und Schadens einer Intervention benötigen. Unbeobachtete Variablen und Störgrößen werden bei der Schätzung des Propensity Scores jedoch nicht berücksichtigt. Dies gewährleistet nur die randomisierte kontrollierte Studie.
#
#
Interessenkonflikt
Die Autoren geben an, dass kein Interessenkonflikt besteht.
-
Literatur
- 1 Wirtz MA. Konfundierungen und Störfaktoren in rehabilitationswissenschaftlichen Beobachtungs- und Interventionsstudien. Rehabilitation 2017 efirst
- 2 Glasziou PP, Del Mar C, Salisbury J. Evidence-Based Practice Workbook. Oxford: BMJ Books; 2007
- 3 Gibis B, Gawlik C. Hierarchie der Evidenz. Die unterschiedliche Aussagekraft wissenschaftlicher Untersuchungen. Bundesgesundheitsbl 2001; 44: 876-882
- 4 Pfaff H, Kaiser C. Aufgabenverständnis und Entwicklungsstand der Versorgungsforschung. Bundesgesundheitsbl 2006; 49: 111-119
- 5 Fechtner S, Bethge M. Effects of rehabilitation aftercare on work participation in patients with musculoskeletal disorders: a propensity score-matched analysis. Int J Rehabil Res 2017; 41: 74-80
- 6 Fechtner S, Bethge M. Ambulant vs. stationär durchgeführte Rehabilitationen: Ergebnisse einer Propensity Score gematchten Analyse. Rehabilitation 2017; 56: 372-378
- 7 Lorenz E, Kopke S, Pfaff H. et al. Clusterrandomisierte Studien. Dtsch Arztebl Int 2018; 115: 163-168
- 8 Bethge M, Herbold D, Trowitzsch L. et al. Work status and health-related quality of life following multimodal work hardening: a cluster randomised trial. J Back Musculoskelet Rehabil 2011; 24: 161-172
- 9 Streibelt M, Bethge M. Effects of intensified work-related multidisciplinary rehabilitation on occupational participation: a randomized-controlled trial in patients with chronic musculoskeletal disorders. Int J Rehabil Res 2014; 37: 61-66
- 10 Meng K, Seekatz B, Roband H. et al. Intermediate and long-term effects of a standardized back school for inpatient orthopedic rehabilitation on illness knowledge and self-management behaviors: a randomized controlled trial. Clin J Pain 2011; 27: 248-257
- 11 Jäckel WH, Cziske R, Gerdes N. et al. Überprüfung der Wirksamkeit stationärer Rehabilitationsmaßnahmen bei Patienten mit chronischen Kreuzschmerzen: eine prospektive, randomisierte, kontrollierte Studie. Rehabilitation 1990; 29: 129-133
- 12 Hüppe A, Glaser-Möller N, Raspe H. Trägerübergreifendes Projekt zur Früherkennung von Rehabilitationsbedarf bei Versicherten mit muskuloskelettalen Beschwerden durch Auswertung von Arbeitsunfähigkeitsdaten: Ergebnisse einer randomisierten, kontrollierten Evaluationsstudie. Gesundheitswesen 2006; 68: 347-356
- 13 McKee M, Britton A, Black N. et al. Methods in health services research. Interpreting the evidence: choosing between randomised and non-randomised studies. BMJ 1999; 319: 312-315
- 14 Rothwell PM. External validity of randomised controlled trials: “to whom do the results of this trial apply?”. Lancet 2005; 365: 82-93
- 15 Black N. Why we need observational studies to evaluate the effectiveness of health care. BMJ 1996; 312: 1215-1218
- 16 Wirtz MA. Grundlegende Maßzahlen zur Analyse 2-stufiger Merkmalsausprägungen: Risiko, Odds, Logits, Relatives Risiko, Odds Ratio. Rehabilitation 2017; 56: 264-271
- 17 Imbens GW. Nonparametric estimation of average treatment effects under exogeneity: a review. Rev Econ Stat 2004; 86: 4-29
- 18 Lunceford JK, Davidian M. Stratification and weighting via the propensity score in estimation of causal treatment effects: a comparative study. Stat Med 2004; 23: 2937-2960
- 19 Rubin DB. Estimating causal effects of treatments in randomized and nonrandomized studies. J Educ Psychol 1974; 5: 688-701
- 20 Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983; 70: 41-55
- 21 Guo S, Fraser MW. Propensity score analysis: statistical methods and applications. Los Angeles: Sage Publications; 2010
- 22 Thoemmes FJ, West SG. The use of propensity scores for nonrandomized designs with clustered data. Multivariate Behav Res 2011; 46: 514-543
- 23 Austin PC. An introduction to propensity score methods for reducing the effects of confounding in observational studies. Multivariate Behav Res 2011; 46: 399-424
- 24 Muche R. Die logistische Regression - ein vielseitiges Analyseinstrument rehabilitationswissenschaftlicher Forschung. Rehabilitation 2008; 47: 56-62
- 25 Bethge M, Mattukat K, Fauser D. et al. Rehabilitation access and effectiveness for persons with back pain: the protocol of a cohort study (REHAB-BP, DRKS00011554). BMC Public Health 2017; 18: 22
- 26 Thoemmes FJ. Propensity score matching in SPSS (Januar 2012). Im Internet: https://arxiv.org/abs/1201.6385 Stand: 07.05.2018
- 27 Morgan SL, Todd JJ. A diagnostic routine for the detection of consequential heterogeneity of causal effects. Sociol Methodol 2008; 38: 231-281
- 28 Austin PC, Grootendorst P, Anderson GM. A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: a Monte Carlo study. Stat Med 2007; 26: 734-753
- 29 Deb S, Austin PC, Tu JV. et al. A review of propensity-score methods and their use in cardiovascular research. Can J Cardiol 2016; 32: 259-265
- 30 Kuss O, Blettner M, Börgermann J. Propensity Score – eine alternative Methode zur Analyse von Therapieeffekten. Dtsch Arztebl Int 2016; 113: 597-603
- 31 Vickers AJ, Altman DG. Analysing controlled trials with baseline and follow up measurements. BMJ 2001; 323: 1123-1124
- 32 Rubin DB. The design versus the analysis of observational studies for causal effects: parallels with the design of randomized trials. Stat Med 2007; 26: 20-36
- 33 Martens EP, de Boer A, Pestman WR. et al. Comparing treatment effects after adjustment with multivariable Cox proportional hazards regression and propensity score methods. Pharmacoepidemiol Drug Saf 2008; 17: 1-8
- 34 Cepeda MS, Boston R, Farrar JT. et al. Comparison of logistic regression versus propensity score when the number of events is low and there are multiple confounders. Am J Epidemiol 2003; 158: 280-287
- 35 Braitman LE, Rosenbaum PR. Rare outcomes, common treatments: analytic strategies using propensity scores. Ann Intern Med 2002; 137: 693-695
- 36 Heckman JJ. The scientific model of causality. Sociol Methodol 2005; 35: 1-97
- 37 Kutschmann M, Bender R, Grouven U. et al. Aspekte der Fallzahlkalkulation und Powerberechnung anhand von Beispielen aus der rehabilitationswissenschaftlichen Forschung. Rehabilitation 2006; 45: 377-384
- 38 Leyrat C, Seaman SR, White IR et al. Propensity score analysis with partially observed covariates: How should multiple imputation be used? Stat Methods Med Res 2017 962280217713032
- 39 Wirtz MA. Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation 2004; 43: 109-115
- 40 Faller H. Intention-to-treat. Rehabilitation 2004; 43: 52-55
- 41 Saltychev M, Laimi K, Oksanen T. et al. Does perceived work ability improve after a multidisciplinary preventive program in a population with no severe medical problems – the Finnish Public Sector Study. Scand J Work Environ Health 2013; 39: 57-65
- 42 Streibelt M, Burger W, Nieuwenhuijsen K. et al. Effectiveness of graded return to work after multimodal rehabilitation in patients with mental disorders: a propensity score analysis. J Occup Rehabil 2018; 28: 180-189
- 43 Bethge M. Medizinisch-beruflich orientierte Rehabilitation. Rehabilitation 2017; 56: 14-21
- 44 Ilmarinen J. The Work Ability Index (WAI). Occup Med 2007; 57: 160
- 45 Neuderth S, Schwarz B, Gerlich C. et al. Work-related medical rehabilitation in patients with musculoskeletal disorders: the protocol of a propensity score matched effectiveness study (EVA-WMR, DRKS00009780). BMC Public Health 2016; 16: 804
Korrespondenzadresse
-
Literatur
- 1 Wirtz MA. Konfundierungen und Störfaktoren in rehabilitationswissenschaftlichen Beobachtungs- und Interventionsstudien. Rehabilitation 2017 efirst
- 2 Glasziou PP, Del Mar C, Salisbury J. Evidence-Based Practice Workbook. Oxford: BMJ Books; 2007
- 3 Gibis B, Gawlik C. Hierarchie der Evidenz. Die unterschiedliche Aussagekraft wissenschaftlicher Untersuchungen. Bundesgesundheitsbl 2001; 44: 876-882
- 4 Pfaff H, Kaiser C. Aufgabenverständnis und Entwicklungsstand der Versorgungsforschung. Bundesgesundheitsbl 2006; 49: 111-119
- 5 Fechtner S, Bethge M. Effects of rehabilitation aftercare on work participation in patients with musculoskeletal disorders: a propensity score-matched analysis. Int J Rehabil Res 2017; 41: 74-80
- 6 Fechtner S, Bethge M. Ambulant vs. stationär durchgeführte Rehabilitationen: Ergebnisse einer Propensity Score gematchten Analyse. Rehabilitation 2017; 56: 372-378
- 7 Lorenz E, Kopke S, Pfaff H. et al. Clusterrandomisierte Studien. Dtsch Arztebl Int 2018; 115: 163-168
- 8 Bethge M, Herbold D, Trowitzsch L. et al. Work status and health-related quality of life following multimodal work hardening: a cluster randomised trial. J Back Musculoskelet Rehabil 2011; 24: 161-172
- 9 Streibelt M, Bethge M. Effects of intensified work-related multidisciplinary rehabilitation on occupational participation: a randomized-controlled trial in patients with chronic musculoskeletal disorders. Int J Rehabil Res 2014; 37: 61-66
- 10 Meng K, Seekatz B, Roband H. et al. Intermediate and long-term effects of a standardized back school for inpatient orthopedic rehabilitation on illness knowledge and self-management behaviors: a randomized controlled trial. Clin J Pain 2011; 27: 248-257
- 11 Jäckel WH, Cziske R, Gerdes N. et al. Überprüfung der Wirksamkeit stationärer Rehabilitationsmaßnahmen bei Patienten mit chronischen Kreuzschmerzen: eine prospektive, randomisierte, kontrollierte Studie. Rehabilitation 1990; 29: 129-133
- 12 Hüppe A, Glaser-Möller N, Raspe H. Trägerübergreifendes Projekt zur Früherkennung von Rehabilitationsbedarf bei Versicherten mit muskuloskelettalen Beschwerden durch Auswertung von Arbeitsunfähigkeitsdaten: Ergebnisse einer randomisierten, kontrollierten Evaluationsstudie. Gesundheitswesen 2006; 68: 347-356
- 13 McKee M, Britton A, Black N. et al. Methods in health services research. Interpreting the evidence: choosing between randomised and non-randomised studies. BMJ 1999; 319: 312-315
- 14 Rothwell PM. External validity of randomised controlled trials: “to whom do the results of this trial apply?”. Lancet 2005; 365: 82-93
- 15 Black N. Why we need observational studies to evaluate the effectiveness of health care. BMJ 1996; 312: 1215-1218
- 16 Wirtz MA. Grundlegende Maßzahlen zur Analyse 2-stufiger Merkmalsausprägungen: Risiko, Odds, Logits, Relatives Risiko, Odds Ratio. Rehabilitation 2017; 56: 264-271
- 17 Imbens GW. Nonparametric estimation of average treatment effects under exogeneity: a review. Rev Econ Stat 2004; 86: 4-29
- 18 Lunceford JK, Davidian M. Stratification and weighting via the propensity score in estimation of causal treatment effects: a comparative study. Stat Med 2004; 23: 2937-2960
- 19 Rubin DB. Estimating causal effects of treatments in randomized and nonrandomized studies. J Educ Psychol 1974; 5: 688-701
- 20 Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983; 70: 41-55
- 21 Guo S, Fraser MW. Propensity score analysis: statistical methods and applications. Los Angeles: Sage Publications; 2010
- 22 Thoemmes FJ, West SG. The use of propensity scores for nonrandomized designs with clustered data. Multivariate Behav Res 2011; 46: 514-543
- 23 Austin PC. An introduction to propensity score methods for reducing the effects of confounding in observational studies. Multivariate Behav Res 2011; 46: 399-424
- 24 Muche R. Die logistische Regression - ein vielseitiges Analyseinstrument rehabilitationswissenschaftlicher Forschung. Rehabilitation 2008; 47: 56-62
- 25 Bethge M, Mattukat K, Fauser D. et al. Rehabilitation access and effectiveness for persons with back pain: the protocol of a cohort study (REHAB-BP, DRKS00011554). BMC Public Health 2017; 18: 22
- 26 Thoemmes FJ. Propensity score matching in SPSS (Januar 2012). Im Internet: https://arxiv.org/abs/1201.6385 Stand: 07.05.2018
- 27 Morgan SL, Todd JJ. A diagnostic routine for the detection of consequential heterogeneity of causal effects. Sociol Methodol 2008; 38: 231-281
- 28 Austin PC, Grootendorst P, Anderson GM. A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: a Monte Carlo study. Stat Med 2007; 26: 734-753
- 29 Deb S, Austin PC, Tu JV. et al. A review of propensity-score methods and their use in cardiovascular research. Can J Cardiol 2016; 32: 259-265
- 30 Kuss O, Blettner M, Börgermann J. Propensity Score – eine alternative Methode zur Analyse von Therapieeffekten. Dtsch Arztebl Int 2016; 113: 597-603
- 31 Vickers AJ, Altman DG. Analysing controlled trials with baseline and follow up measurements. BMJ 2001; 323: 1123-1124
- 32 Rubin DB. The design versus the analysis of observational studies for causal effects: parallels with the design of randomized trials. Stat Med 2007; 26: 20-36
- 33 Martens EP, de Boer A, Pestman WR. et al. Comparing treatment effects after adjustment with multivariable Cox proportional hazards regression and propensity score methods. Pharmacoepidemiol Drug Saf 2008; 17: 1-8
- 34 Cepeda MS, Boston R, Farrar JT. et al. Comparison of logistic regression versus propensity score when the number of events is low and there are multiple confounders. Am J Epidemiol 2003; 158: 280-287
- 35 Braitman LE, Rosenbaum PR. Rare outcomes, common treatments: analytic strategies using propensity scores. Ann Intern Med 2002; 137: 693-695
- 36 Heckman JJ. The scientific model of causality. Sociol Methodol 2005; 35: 1-97
- 37 Kutschmann M, Bender R, Grouven U. et al. Aspekte der Fallzahlkalkulation und Powerberechnung anhand von Beispielen aus der rehabilitationswissenschaftlichen Forschung. Rehabilitation 2006; 45: 377-384
- 38 Leyrat C, Seaman SR, White IR et al. Propensity score analysis with partially observed covariates: How should multiple imputation be used? Stat Methods Med Res 2017 962280217713032
- 39 Wirtz MA. Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation 2004; 43: 109-115
- 40 Faller H. Intention-to-treat. Rehabilitation 2004; 43: 52-55
- 41 Saltychev M, Laimi K, Oksanen T. et al. Does perceived work ability improve after a multidisciplinary preventive program in a population with no severe medical problems – the Finnish Public Sector Study. Scand J Work Environ Health 2013; 39: 57-65
- 42 Streibelt M, Burger W, Nieuwenhuijsen K. et al. Effectiveness of graded return to work after multimodal rehabilitation in patients with mental disorders: a propensity score analysis. J Occup Rehabil 2018; 28: 180-189
- 43 Bethge M. Medizinisch-beruflich orientierte Rehabilitation. Rehabilitation 2017; 56: 14-21
- 44 Ilmarinen J. The Work Ability Index (WAI). Occup Med 2007; 57: 160
- 45 Neuderth S, Schwarz B, Gerlich C. et al. Work-related medical rehabilitation in patients with musculoskeletal disorders: the protocol of a propensity score matched effectiveness study (EVA-WMR, DRKS00009780). BMC Public Health 2016; 16: 804