Rehabilitation (Stuttg) 2000; 39(4): 189-199
DOI: 10.1055/s-2000-12042
ORIGINALARBEIT
© Georg Thieme Verlag Stuttgart · New York

Effektstärkevarianten beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung

Brigitte  Maier-Riehle1 , Christian  Zwingmann2
  • 1Verband Deutscher Rentenversicherungsträger, Frankfurt am Main
  • 2Institut für Psychotherapie und medizinische Psychologie der Universität Würzburg
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
31. Dezember 2000 (online)

Zusammenfassung:

Rehabilitationswissenschaftliche Untersuchungen - insbesondere solche zum Zweck der Evaluation und zur Überprüfung der Ergebnisqualität - folgen bisher überwiegend dem „naturalistischen” Eingruppen-Prä-Post-Design. Die Beurteilung der Ergebnisse orientiert sich gewöhnlich an den Mittelwertdifferenzen der Outcome-Variablen, wobei die Prä-Post-Unterschiede zufallskritisch geprüft und - falls signifikant - zunehmend als Effektstärken präsentiert werden. Aus diesem Anlass werden in dem Beitrag - trotz der grundsätzlichen methodischen Bedenken, die in Bezug auf Eingruppen-Prä-Post-Untersuchungen aufgrund ihrer geringen internen Validität vorliegen - verschiedene Effektstärke-Indizes vorgestellt, die für dieses Design Verwendung finden. Während der Zähler bei allen Effektstärkevarianten des Eingruppen-Prä-Post-Designs einheitlich als Differenz zwischen den Mittelwerten der untersuchten Stichprobe zu den beiden Messzeitpunkten ausgewiesen wird, existieren bezüglich des Nenners und damit der Standardabweichung, anhand derer die Mittelwertdifferenz standardisiert werden soll, unterschiedliche Möglichkeiten und Empfehlungen. Verwendung finden vor allem die Standardisierung an der Standardabweichung der Prä-Werte, die Standardisierung an der gepoolten Standardabweichung der Prä- und Post-Werte und die Standardisierung an der Standardabweichung der Prä-Post-Differenzen. Anhand von zwei Datenbeispielen wird gezeigt, dass die unterschiedlichen Berechnungsvarianten für Effektstärke-Indizes im Eingruppen-Prä-Post-Design zu höchst unterschiedlichen Ergebnismustern führen können. Darüber hinaus werden Hinweise dafür vorgestellt, dass Effektstärken für unkontrollierte Prä-Post-Designs im Allgemeinen größer ausfallen als Effektstärken aus Kontrollgruppenuntersuchungen. Abschließend werden die jeweiligen Vor- und Nachteile der verschiedenen Prä-Post-Effektstärkevarianten diskutiert und Empfehlungen abgeleitet.

Effect Size Variations in the Single Group Pre-Post Study Design: A Critical View:

In Germany, studies in rehabilitation research - in particular evaluation studies and examinations of quality of outcome - have so far mostly been executed according to the uncontrolled one-group pre-post design. Assessment of outcome is usually made by comparing the pre- and post-treatment means of the outcome variables. The pre-post differences are checked, and in case of significance, the results are increasingly presented in form of effect sizes. For this reason, this contribution presents different effect size indices used for the one-group pre-post design - in spite of fundamental doubts which exist in relation to that design due to its limited internal validity. The numerator concerning all effect size indices of the one-group pre-post design is defined as difference between the pre- and post-treatment means, whereas there are different possibilities and recommendations with regard to the denominator and hence the standard deviation that serves as the basis for standardizing the difference of the means. Used above all are standardization oriented towards the standard deviation of the pre-treatment scores, standardization oriented towards the pooled standard deviation of the pre- and post-treatment scores, and standardization oriented towards the standard deviation of the pre-post differences. Two examples are given to demonstrate that the different modes of calculating effect size indices in the one-group pre-post design may lead to very different outcome patterns. Additionally, it is pointed out that effect sizes from the uncontrolled one-group pre-post design generally tend to be higher than effect sizes from studies conducted with control groups. Finally, the pros and cons of the different effect size indices are discussed and recommendations are given.

Literatur

  • 1 Bortz J. Lehrbuch der empirischen Forschung für Sozialwissenschaftler. Springer Berlin; 1984
  • 2 Bortz J, Döring N. Forschungsmethoden und Evaluation für Sozialwissenschaftler. 2. Aufl. Springer Berlin; 1995
  • 3 Buol C, Endtner K. Doch die Verhältnisse, sie sind nicht so - Differentielle Wirkung von Psychotherapie. Eine Metaanalyse.  Unveröffentl. Diplomarbeit. Bern; Institut für Psychologie der Universität 1993
  • 4 Cohen J. Statistical power analysis for the behavioral sciences. San Diego, CA; Academic Press 1969
  • 5 Cohen J. Statistical power analysis for the behavioral sciences. 2nd ed. Hillsdale, NJ; Erlbaum 1988
  • 6 Cohen J. A power primer.  Psychological Bulletin. 1992;  112 155-159
  • 7 Cook T D, Campbell D T. Quasi-Experimentation - Design and analysis issues for field settings. Chicago, IL; Rand McNally 1979
  • 8 Cooper H, Hedges  L V (eds). The handbook of research synthesis. New York, NY; Russell Sage Foundation 1994
  • 9 Faller H, Haaf H G, Kohlmann T h, Löschmann Ch, Maurischat C, Petermann F, Schulz H, Zwingmann C h. Orientierungshilfen und Empfehlungen für die Anlage, Durchführung und Interpretation von Studien in der Rehabilitationsforschung In: Verband Deutscher Rentenversicherungsträger (ed). Förderschwerpunkt „Rehabilitationswissenschaften”. Empfehlungen der Arbeitsgruppen „Generische Methoden”, „Routinedaten” und „Reha-Ökonomie”. DRV-Schriften, Bd. 16 Frankfurt am Main; 1999: 9-51
  • 10 Flor H, Fydrich T, Turk D C. Efficacy of multidisciplinary pain treatment centers: a meta-analytic review.  Pain. 1992;  49 221-230
  • 11 Fortin P R, Stucki G, Katz J N. Measuring relevant change: An emerging challenge in rheumatologic clinical trials.  Arthritis & Rheumatism. 1995;  38 1027-1030
  • 12 Gerdes N. Rehabilitationseffekte bei Zielorientierter Ergebnismessung: Ergebnisse der IRES-ZOE-Studie 1996/97.  Deutsche Rentenversicherung. 1998;  (3 - 4) 217-238
  • 13 Gerdes N, Weidemann H, Jäckel WH(eds) Die PROTOS-Studie. Ergebnisqualität stationärer Rehabilitation in 15 Kliniken der Wittgensteiner Kliniken Allianz (WKA). Darmstadt; Steinkopff 2000
  • 14 Glass G V, McGaw B, Smith M L. Meta-analysis in social research. Beverly Hills, CA; Sage Publications 1981
  • 15 Grawe K. Neuer Stoff für Dodo? Ein Kommentar zur Depressionsstudie von Hautzinger und de Jong-Meyer (1996).  Zeitschrift für Klinische Psychologie. 1996;  25 328-331
  • 16 Grawe K, Donati R, Bernauer F. Psychotherapie im Wandel - Von der Konfession zur Profession. 3. Aufl. Göttingen; Hogrefe 1994
  • 17 Hager W. Therapieevaluation: Begriffsbildung, Kontrolle, Randomisierung und statistische Auswertung. Einige Anmerkungen und Ergänzungen zu Metzler und Krause (1997). Methods of Psychological Research Online 1998 3: 69-81 (http://www.pabst-publishers.de/mpr/)
  • 18 Hartmann A, Herzog T h. Varianten der Effektstärkenberechnung in Meta-Analysen: Kommt es zu variablen Ergebnissen?.  Zeitschrift für Klinische Psychologie. 1995;  24 337-343
  • 19 Hartmann A, Herzog T h, Drinkmann A. Psychotherapy of Bulimia Nervosa: What is effective? A meta-analysis.  Journal of Psychosomatic Research. 1992;  36 159-167
  • 20 Hautzinger M, de Jong-Meyer R, Treiber R, Rudolf G, Thien U. Wirksamkeit Kognitiver Verhaltenstherapie, Pharmakotherapie und deren Kombination bei nicht-endogenen, unipolaren Depressionen.  Zeitschrift für Klinische Psychologie. 1996;  25 130-145
  • 21 Hedges L V, Olkin I. Statistical methods for meta-analysis. Orlando, FA; Academic Press 1985
  • 22 Jacobson N S, Truax P. Clinical significance: A statistical approach to defining meaningful change in psychotherapy research.  Journal of Consulting and Clinical Psychology. 1991;  59 12-19
  • 23 Kazis L E, Anderson J J, Meenan R F. Effect sizes for interpreting changes in health status.  Medical Care. 1989;  27 (Suppl) S178-S189
  • 24 Kordy H. Das Konzept der klinischen Signifikanz in der Psychotherapieforschung In: Strauß B, Bengel J (eds). Forschungsmethoden in der Medizinischen Psychologie. Göttingen; Hogrefe 1997: 129-145
  • 25 Liang M H, Fossel A H, Larson M G. Comparisons of five health status instruments for orthopedic evaluation.  Medical Care. 1990;  28 632-642
  • 26 Lind-Albrecht G. Radoninhalation bei Morbus Bechterew In: Deetjen P, Falkenbach A (eds). Radon und Gesundheit. Lang Frankfurt am Main; 1999: 131-137
  • 27 Lipsey M W, Wilson D B. The efficacy of psychological, educational, and behavioral treatment. Confirmation from meta-analysis.  American Psychologist. 1993;  48 1181-1209
  • 28 Maier-Riehle B, Härter M. Die Effektivität von Rückenschulen aus empirischer Sicht - Eine Metaanalyse.  Zeitschrift für Gesundheitspsychologie. 1996;  4 197-219
  • 29 McGaw B, Glass G V. Choice of the metric for effect size in meta-analysis.  American Educational Research Journal. 1980;  17 325-337
  • 30 Merkesdal S, Bernitt K, Busche T, Bauer J, Mau W. Zielorientierte Ergebnismessung bei stationärer oder teilstationärer orthopädisch-rheumatologischer Rehabilitation von Personen mit Dorsopathien.  Die Rehabilitation. 1999;  38 ( Suppl 1) S37-S43
  • 31 Mestel R, Neeb K, Hauke B, Klingelhöfer J, Stauss K. Zusammenhänge zwischen der Therapiezeitverkürzung und dem Therapieerfolg bei depressiven Patienten In: Bassler M (ed). Empirische Forschung in der stationären Psychotherapie. Gießen; Psychosozial in Druck
  • 32 Schäfer H, Herrmann J M, Stiels W, Hartenthaler D, Herdt J. Rückgang von Belastungen bei den Eltern während einer stationären Familien-Rehabilitation. Praxis der Klinischen Verhaltensmedizin und Rehabilitation in Druck
  • 33 Schliehe F, Haaf H G. Zur Effektivität und Effizienz der medizinischen Rehabilitation.  Deutsche Rentenversicherung. 1996;  (10 - 11) 666-689
  • 34 Schubmann R, Zwingmann C h, Graban I, Hölz G. Ergebnisqualität stationärer Rehabilitation bei Patienten mit Adipositas.  Deutsche Rentenversicherung. 1997;  (9 - 10) 604-625
  • 35 Schubmann R, Zwingmann C h, Blessing-Hummel H, Hopfenzitz P, Hölz G. Psychosoziale Aspekte bei Adipositas. Patientenprofile vor und nach stationärer Rehabilitation.  Prävention und Rehabilitation. 1999;  11 123-133
  • 36 Schuck P, Müller H, Resch K -L. Designs und Statistiken zur Ermittlung der Veränderungssensitivität In: Verband Deutscher Rentenversicherungsträger (ed). 8. Rehabilitationswissenschaftliches Kolloquium vom 8. bis 10. März 1999 auf Norderney. Reha-Bedarf - Effektivität - Ökonomie. Tagungsband. DRV-Schriften, Bd. 12 Frankfurt am Main; 1999: 33-34
  • 37 Stucki G, Liang M H, Fossel A H, Katz J N. Relative responsiveness of condition-specific and generic health status measures in degenerative lumbar spinal stenosis.  Journal of Clinical Epidemiology. 1995;  48 1369-1378
  • 38 Wortman P M. Judging research quality In: Cooper H, Hedges LV (eds). The handbook of research synthesis. New York, NY; Russell Sage Foundation 1994: 97-109
  • 39 Wortman P M, Bryant F B. School desegregation and black achievement: An integrative review.  Sociological Methods & Research. 1985;  13 289-324
  • 40 Zwingmann C h. Zielorientierte Ergebnismessung: Klinische Relevanz und Regression zur Mitte In: Verband Deutscher Rentenversicherungsträger (ed). Evaluation in der Rehabilitation. 6. Rehabilitationswissenschaftliches Kolloquium vom 4. bis 6. März 1996 in Bad Säckingen. DRV-Schriften, Bd. 6 Frankfurt am Main; 1996: 405-406
  • 41 Zwingmann C h, Gerdes N, Jäckel W H. Sensitivity und Responsiveness: Zwei testtheoretische Gütekriterien auf dem Weg zur operationalen Verankerung In: Verband Deutscher Rentenversicherungsträger (ed). Interdisziplinarität und Vernetzung. 7. Rehabilitationswissenschaftliches Kolloquium vom 10. bis 12. März 1997 in Hamburg. DRV-Schriften, Bd. 11 Frankfurt am Main; 1998: 222-224
  • 42 Zwingmann C h, Maier-Riehle B. Eingruppen-Prä-Post-Design und Effektstärken: Kritische Anmerkungen In: Verband Deutscher Rentenversicherungsträger (ed). 8. Rehabilitationswissenschaftliches Kolloquium vom 8. bis 10. März 1999 auf Norderney. Reha-Bedarf - Effektivität - Ökonomie. Tagungsband. DRV-Schriften, Bd. 12 Frankfurt am Main; 1999: 114-116

1 Die Power der statistischen Überprüfung einer Nullhypothese ist die Wahrscheinlichkeit, dass die Nullhypothese unter den jeweiligen Gegebenheiten zurückgewiesen wird (Cohen 1988). Dabei hängt die Power (Teststärke) einer Signifikanzprüfung ab vom Stichprobenumfang, dem gewählten Signifikanzniveau und der Größe des zu untersuchenden Effektes (Effektstärke).

2 Für den Spezialfall nicht-homogener Populationsvarianzen kann unter der Voraussetzung gleicher Stichprobenumfänge ebenfalls eine Effektstärke berechnet werden, da sich der t-Test für diesen Spezialfall als robust erwiesen hat. Dabei wird zunächst eine gepoolte Populationsstandardabweichung geschätzt.

3 Bei der Berechnung von Effektstärken aus Studienergebnissen publizierter Studien, deren Daten mittels parametrischer Testverfahren analysiert wurden, wird in der Praxis häufig vom Vorliegen von Normalverteilungen und Varianzhomogenität ausgegangen, wenn der jeweilige parametrische Test ebenfalls diese Eigenschaften voraussetzt.

4 Will man sicherstellen, dass eine positive Effektstärke eine Verbesserung und eine negative Effektstärke eine Verschlechterung darstellt, gilt Formel 2 nur für Merkmale mit negativer Polung (je niedriger der Skalenwert, desto besser). Bei positiv gepolten Merkmalen (je höher der Skalenwert, desto besser) muss im Zähler der Formel 2 der Prätest-Wert vom Posttest-Wert abgezogen werden. Diese Anmerkung gilt auch für die weiteren Effektstärkeformeln.

5 Berücksichtigt man nur diejenigen Fälle, für die sowohl eine Prä- als auch eine Post-Messung vorliegen, dann resultieren identische Stichprobenumfänge. In diesem Fall entspricht die gepoolte Standardabweichung der Wurzel aus dem Mittelwert der Prä- und Post-Varianzen.

6 Im Rahmen der amerikanischen Lebensqualitätsforschung wird die Effektstärkevariante ESdiff zuweilen unter der Bezeichnung standardized response mean als psychometrischer Kennwert für die in einem Eingruppen-Prä-Post-Design ermittelte Veränderungssensitivität gebraucht (z.B. Fortin et al. 1995, Liang et al. 1990, Stucki et al. 1995, kritisch: Schuck et al. 1999, Zwingmann et al. 1998).

7 Das Ziel der Arbeit von McGaw und Glass (1980) besteht darin, für kontrollierte Studien bei unvollständiger Mitteilung der Mittelwerte der Behandlungs- und der Kontrollgruppe sowie der Standardabweichung der Kontrollgruppe aus anderweitigen Informationen der Studien dennoch kontrollierte Effektstärken berechnen zu können. Es werden weder Prä-Post-Effektstärken noch eine Effektstärke, bei der eine Mittelwertdifferenz anhand der Standardabweichung der Differenzen standardisiert wird, behandelt. Auf die Standardabweichung der Differenzen der Kontrollgruppe wird Bezug genommen, um aus dieser die Standardabweichung der Kontrollgruppe zu berechnen.

8 Im Vergleich zur Formel von Bortz (1984) fehlt bei Hartmann und Herzog (1995) die Multiplikation mit der Wurzel aus 2.

9 Da aus Demonstrationszwecken Stichproben von jeweils nur 5 Rehabilitanden gewählt wurden, erübrigt sich eine Prüfung auf Normalverteilung. Die Überprüfung der Varianzhomogenität der Prä- und Post-Werte ergab keinen signifikanten Unterschied.

10 Die Überprüfung der Varianzhomogenität ergab, dass sich die Varianz zum Messzeitpunkt T2 und die Varianz zum Messzeitpunkt T3 signifikant von der Varianz zum Messzeitpunkt T1 unterscheiden. Deshalb dürfte streng genommen kein Pooling der Varianzen durchgeführt und damit keine gepoolte Standardabweichung gebildet werden. Aus Demonstrationszwecken wird im vorliegenden Beispiel von dieser Problematik abgesehen und - zur Berechnung von ESpool - trotzdem eine gepoolte Standardabweichung ermittelt. Die Überprüfung der Verteilungen der Messwerte zu den drei Erhebungszeitpunkten ergab jeweils eine signifikante Abweichung von einer Normalverteilung, wobei jeweils linkssteile Verteilungen und zusätzlich bei T1 und T2 schmalgipfelige Verteilungen vorliegen.

11 Prinzipiell ist es auch möglich, dass eine unkontrollierte Prä-Post-Effektstärke kleiner ausfällt als die entsprechende Effektstärke eines kontrollierten Designs, nämlich dann, wenn sich die Kontrollgruppe im Untersuchungszeitraum verschlechtert. Lipsey und Wilson (1993) nehmen eine Reanalyse von 45 Metaanalysen aus dem Bereich psychologischer und pädagogischer Intervention vor, in denen der mittlere Unterschied zwischen Effektstärken aus kontrollierten Studien und Effektstärken aus unkontrollierten Prä-Post-Untersuchungen ermittelt wird. Die 45 Metaanalysen ergeben für kontrollierte Studien eine durchschnittliche Effektstärke von 0,47 und für unkontrollierte Vorher-Nachher-Untersuchungen eine durchschnittliche Effektstärke von 0,76. Dabei lässt sich in 36 Metaanalysen eine größere mittlere Effektstärke für Studien mit unkontrolliertem Prä-Post-Design (Abweichungen bis zu 1,7) und in 9 Metaanalysen eine größere mittlere Effektstärke für Studien mit Kontrollgruppen-Design (Abweichungen bis zu 0,5) feststellen.

12 Die Besonderheiten der Effektstärkevariante ESdiff führen dazu, dass die Übereinstimmung mit Effektstärken aus kontrollierten Studien auch wesentlich dadurch beeinflusst wird, auf welchen Messzeitpunkt sich die Ergebnisse beziehen. Bei Katamnese-Erhebungen kann ESdiff in Abhängigkeit von der Korrelation der Messwertreihen weitaus kleiner ausfallen als eine Effektstärke aus einem kontrollierten Design.

13 Wortman und Bryant (1985) untersuchten in ihrer Metaanalyse die Effekte der Aufhebung der Rassentrennung in Schulen auf die schulische Leistungsfähigkeit der schwarzen Schüler. Dabei handelt es sich bei der abhängigen Variable um ein Merkmal, das sich höchstwahrscheinlich auch in einer Kontrollgruppe von Schülern mit fortbestehender Rassentrennung - z. B. aufgrund von Lern- und Reifungsprozessen - stark verändert.

14 Bei unkontrollierten Studien ist bei den Ergebnissen von Extremgruppen zusätzlich die Regression zur Mitte zu berücksichtigen. Am Rande sei angemerkt, dass die kürzlich von Gerdes (1998, Gerdes et al. 2000) vorgeschlagene Methode der „Zielorientierten Ergebnismessung” vorsieht, im Rahmen eines unkontrollierten Prä-Post-Designs bei jedem Patienten nicht alle erhobenen, sondern nur diejenigen Variablen in der Auswertung zu berücksichtigen, die zu Rehabilitationsbeginn T1 von Arzt und Patient gemeinsam als einzelfallrelevante Zielbereiche vereinbart wurden. Die für jede Variable gebildeten Effektstärken (ESdiff ) basieren somit jeweils auf selegierten Gruppen bzw. - insofern im Arzt-Patient-Gespräch ein auffälliger Prä-Wert als Auswahlkriterium für eine Variable als einzelfallrelevant dient - auf Extremgruppen und können daher durch Varianzeinschränkung bzw. zusätzlich durch die Regression zur Mitte verzerrt sein (vgl. Zwingmann 1996).

15 Grawe et al. (1994) berechnen eine Effektstärkevariante, bei der die Prä-Post-Mittelwertdifferenz durch die gepoolte Standardabweichung aus den Prä-Standardabweichungen der zu vergleichenden Gruppen dividiert wird. Da bei dieser Berechnungsvariante der Nenner für alle Vergleichsgruppen identisch ist, spiegeln die Effektstärken der zu vergleichenden Gruppen direkt die Größe der jeweiligen Mittelwertveränderung wider. Dieser Vorteil wird erkauft durch den Nachteil, dass die o. g. Zufallskomponente nicht korrigiert wird. Deshalb sollte die Effektstärkevariante von Grawe et al. u. E. nur dann Verwendung finden, wenn die zu vergleichenden Gruppen sehr ähnliche Prä-Standardabweichungen aufweisen.

16 Hautzinger et al. (1996) berechnen Effektstärken entsprechend Formel 7, wobei sie aber nicht die empirischen Korrelationen einsetzen, sondern die Korrelationen schätzen: für die Post-Erhebung (Ende der achtwöchigen Depressionsbehandlung) wird ein r von 0,50 und für die 1-Jahres-Katamnese ein r von 0,30 zugrunde gelegt.

17 Hinsichtlich der Frage, inwieweit sich eine schiefe Verteilungsform auf die Höhe der Prä-Post-Effektstärken auswirkt, konnte in der Literatur lediglich der Hinweis von Kazis et al. (1989) gefunden werden, dass - bei festen Skalengrenzen - die maximal erreichbare Effektstärke von der Schiefe der Verteilung abhängt. Darüber hinaus wäre u. E. zu prüfen, inwieweit weitere Faktoren - wie z. B. die Regression zur Mitte - zu berücksichtigen sind.

Dipl.-Psych. Brigitte Maier-Riehle

Verband Deutscher Rentenversicherungsträger

Rehabilitationswissenschaftliche Abteilung

Eysseneckstraße 55

60322 Frankfurt am Main

eMail: brigitte.maier-riehle@vdr.de

Dipl.-Psych. Christian Zwingmann

Institut für Psychotherapie und medizinische Psychologie

der Universität Würzburg

Klinikstraße 3

797070 Würzburg