Subscribe to RSS
DOI: 10.1055/s-2004-828293
Effektgrößenberechnung bei Interventionsstudien
Estimating Effect Sizes in Clinical Trials Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de
Dipl.-Psych. Rainer Leonhart
Universität Freiburg · Institut für Psychologie · Abteilung für Rehabilitationspsychologie
79085 Freiburg
Email: leonhart@psychologie.uni-freiburg.de
Publication History
Publication Date:
19 August 2004 (online)
- Zusammenfassung
- Abstract
- Einleitung
- Definition verschiedener Effektgrößen
- Bewertung von Effektgrößen
- Software
- Fazit
- Dank
- Literatur
Zusammenfassung
Trotz der Empfehlungen im CONSORT-Statement (Consolidated Standard of Reporting Trials) werden Effektgrößen in rehabilitationswissenschaftlichen Studien noch selten berichtet. Ziel dieses Beitrags ist es, die Notwendigkeit von Effektgrößen hervorzuheben und die Berechnung verschiedener Effektgrößen an Beispielen zu erläutern. Hierbei werden auch die Folgen unterschiedlicher Berechnungsvarianten verdeutlicht.
#Abstract
Even though reporting of effect sizes is recommended in methodological guidelines such as the CONSORT Statement (Consolidated Standard of Reporting Trials), these quantities are still rarely included in reports on studies in rehabilitation medicine. The aim of this paper is to emphasize the relevance of reporting effect sizes and to illustrate different methods for their calculation. The implications of using different methods for calculating effect sizes are also discussed.
#Einleitung
Häufig werden in rehabilitationswissenschaftlichen Studien Unterschiede zwischen Gruppenmittelwerten untersucht. Ob eine Mittelwertsdifferenz zwischen zwei Stichproben einer Population nur zufällig ist oder ob diese Stichproben aus zwei unterschiedlichen Populationen stammen, wird mithilfe der schließenden Statistik (Inferenzstatistik) über die Berechnung des p-Werts nach Fisher beurteilt. Der p-Wert beschreibt die Wahrscheinlichkeit für die gefundene oder eine noch extremere Stichprobenmittelwertsdifferenz unter der Voraussetzung einer gültigen Nullhypothese in der Population. Die Nullhypothese geht davon aus, dass beide Stichproben aus einer identischen Population gezogen wurden und nur zufällig Mittelwertsunterschiede zwischen beiden Stichproben auftreten. Die Berechnung des p-Wertes hängt von der Mittelwertsdifferenz, der Merkmalsstreuung und der Stichprobengröße ab [7]. p-Werte unter einem a priori definierten Alpha-Niveau (meistens p < 0,05) belegen eine „statistisch” signifikante Mittelwertsdifferenz.
Neben dem p-Wert wird zunehmend die Effektgröße nach Cohen [5] als weiterer wichtiger statistischer Kennwert in Publikationen angegeben [12]. Der englische Begriff „effect size” wird auch als „Effektstärke” übersetzt und beschreibt die Standardisierung einer gefundenen Mittelwertsdifferenz an der Merkmalsstreuung. Eine hohe Effektgröße deutet auf einen „klinisch” oder „praktisch” bedeutsamen Unterschied hin. Effektgrößen werden, im Gegensatz zu p-Werten nach Fisher, kaum von der Stichprobengröße beeinflusst, da bei der Ermittlung dieses Kennwertes die Merkmalsstreuung und nicht der Standardfehler des Mittelwerts berücksichtigt wird. Allerdings kann, beispielsweise beim t-Test für unabhängige Gruppen, bei bekannten Stichprobengrößen aus einem exakten p-Wert die entsprechende Effektgröße ermittelt werden [19]. Die Auswahl des korrekten Effektgrößemaßes hängt, analog zum inferenzstatistischen Prüfverfahren, vom vorliegenden Skalenniveau ab. Für die im Folgenden dargestellten Kennwerte und Berechnungen wird Intervallskalenniveau vorausgesetzt.
Die Vorteile der Effektgrößenberechnung gegenüber der inferenzstatistischen Prüfung sollen einleitend an einem fiktiven Beispiel verdeutlicht werden. In zwei Kliniken werden in randomisierten Kontrollgruppenstudien die Ausprägungen der „emotionalen Belastung” der Patienten nach einer Rehabilitationsmaßnahme erhoben. In der ersten Klinik erfolgt diese Messung über eine visuelle Analogskala (0 - 100), wobei hier die Differenz zwischen der Interventions- und der Kontrollgruppe zehn Einheiten der Skala beträgt (Mittelwert der Interventionsgruppe MI = 47; Streuung in der Interventionsgruppe SDI = 25; Stichprobengröße NI = 85; Mittelwert der Kontrollgruppe MK = 57; Streuung in der Kontrollgruppe SDK = 25; Stichprobengröße NK = 85). In der zweiten Klinik wird die „emotionale Belastung” über eine 5-stufige Likertskala erhoben (MI = 2,8; SDI = 0,5; NI = 10; MK = 3,2; SDK = 0,5; NK = 10), wobei die Differenz zwischen Interventions- und Kontrollgruppe mit nur 0,4 Punkten geringer erscheint als in der ersten Klinik. Die jeweiligen p-Werte geben ähnliche Hinweise (Klinik 1: t[168] = 2,61; p = 0,01; Klinik 2: t[18] = 2,24; p = 0,04). Allerdings geht in die jeweilige Berechnung der p-Werte über den Standardfehler der Mittelwertsdifferenz neben der Merkmalsstreuung auch der Stichprobenumfang ein. Die größere Stichprobe in der ersten Klinik ergibt deshalb einen geringeren p-Wert beim entsprechenden t-Test für unabhängige Stichproben. Der Ergebnisvergleich über Effektgrößen hingegen ist unabhängig vom Erhebungsinstrument und kaum von der Größe der untersuchten Stichproben abhängig: Werden die entsprechenden Effektgrößen ermittelt, so ergibt sich in der ersten Klinik mit d = 0,4 eine geringere Effektgröße als in der zweiten Klinik mit d = 0,8 (die detaillierte Berechnung dieser Kennwerte wird im Folgenden noch erläutert). Durch die Angabe dieser Effektgrößen wird also die praktische Relevanz der gefundenen Mittelwertsdifferenzen hervorgehoben.
Die American Psychological Association und die Deutsche Gesellschaft für Psychologie unterstreichen die Bedeutung der Angaben von Effektgrößen (bzw. dem Synonym der Effektstärke) in wissenschaftlichen Arbeiten [1] [6]. Beide Gesellschaften empfehlen den Einsatz von Effektgrößen, schreiben ihn jedoch nicht verpflichtend vor. Das CONSORT-Statement (Consolidated Standard of Reporting Trials [18]) enthält Empfehlungen zur einheitlichen Gestaltung wissenschaftlicher Veröffentlichungen von klinischen Studien und stellt höhere Anforderungen an wissenschaftliche Arbeiten als die eben genannten Empfehlungen der beiden psychologischen Gesellschaften. Es wird von vielen führenden medizinischen Fachzeitschriften unterstützt, beispielsweise von „The Lancet”, „Annals of Internal Medicine” und „The Journal of the American Medical Association” (Näheres siehe URL: www.consort-statement.org/, zuletzt aufgerufen 24.3.2004). Ein relevantes Bewertungskriterium des CONSORT-Statements zur guten Ergebnisdarstellung in Publikationen ist die Angabe von Effektgrößen. Momentan ist allerdings die Häufigkeit der Angabe von Effektgrößen in Veröffentlichungen im Verhältnis zu berichteten p-Werten noch gering [15]. Im rehabilitationswissenschaftlichen Kontext zeigt sich jedoch eine zunehmende Anzahl von wissenschaftlichen Arbeiten, in welchen zumindest in Teilen der statistischen Auswertungen neben den p-Werten auch die zugehörigen Effektgrößen berichtet werden.
Die Gründe für die relativ seltene Angabe von Effektgrößen sind vermutlich vielfältig. Einige Zeitschriften fordern nicht verbindlich die Angabe von Effektgrößen [21]. Darüber hinaus sind möglicherweise noch offene methodische Fragen bei der Bestimmung von Effektgrößen für die relativ seltene Angabe von Effektgrößen verantwortlich [16] [20]. Die Berechnung verschiedener Effektgrößenmaße und deren jeweilige methodische Probleme sollen anhand von Beispielen im Folgenden erläutert werden.
#Definition verschiedener Effektgrößen
Anhand eines fiktiven Beispiels mit drei Behandlungsgruppen mit unterschiedlichem Diätprogramm (Diätgruppe 1 - 3) und einer Kontrollgruppe soll die Berechnung verschiedener Effektgrößen anhand des Körpergewichts in Kilogramm (kg) erläutert werden. Dieses Beispiel wurde so konstruiert, dass die Vor- und Nachteile der verschiedenen Effektgrößenmaße deutlich zu Tage treten. Alle Gruppen haben jeweils identische Ausgangswerte zum Zeitpunkt t1, unterscheiden sich aber hinsichtlich der Größe der Mittelwertsdifferenz und der Streuung zum Zeitpunkt t2. Die vierte Gruppe soll die Kontrollgruppe darstellen.[1] Die Messwerte in den vier Gruppen sind in Tab. [1] gelistet.
Gruppe 1 | Gruppe 2 | Gruppe 3 | Kontrollgruppe | |||||
t1 | t2 | t1 | t2 | t1 | t2 | t1 | t2 | |
100 | 86 | 100 | 96 | 100 | 84 | 100 | 104 | |
110 | 108 | 110 | 106 | 110 | 112 | 110 | 106 | |
106 | 90 | 106 | 102 | 106 | 108 | 106 | 107 | |
94 | 92 | 94 | 91 | 94 | 80 | 94 | 90 | |
90 | 84 | 90 | 85 | 90 | 76 | 90 | 93 | |
Mittelwert | 100 | 92 | 100 | 96 | 100 | 92 | 100 | 100 |
Zwei-Gruppen-Vergleich
Über den Vergleich der Mittelwerte von zwei Stichproben soll hier einführend das Prinzip der Effektgrößenberechnung mit Cohens d dargestellt werden. Der folgende Zwei-Gruppen-Vergleich kann verwendet werden, um die Mittelwerte zweier Gruppen nach einer Intervention zu vergleichen, falls keine Prä-Werte erhoben wurden oder die Prä-Werte der beiden Gruppen gleich sind, wie dies beispielsweise bei einer randomisierten Studie mit ausreichend großen Stichproben der Fall sein müsste. Cohen berichtet in seinem Standardwerk „Statistical Power Analysis for the Behavioral Sciences” [5] die Berechnungsvorschriften von Cohens d für den t-Test für unabhängige Stichproben als folgende Effektgröße:

Dieser Kennwert relativiert die Differenz von zwei Gruppenmittelwerten an der Streuung, um die gefundene Differenz zu standardisieren. Die Stichprobenstreuung im Nenner soll eine Schätzung der Populationsstreuung darstellen. Allerdings wird - je nach Anwendungskontext - kontrovers diskutiert, welche Stichprobenstreuung die beste Schätzung der Populationsstreuung darstellt [9] [14] [16]: die Streuung einer der beiden Stichproben, die Streuung der Kontrollgruppe oder die gepoolte Streuung, das heißt die gemittelte Streuung beider Stichproben[2].
Die Ermittlung der Effektgröße mittels der Kontrollgruppenstreuung soll zum besseren Verständnis mit den Daten der ersten Diätgruppe und der Kontrollgruppe im vorgegebenen Beispiel (s. Tab. [1]) zum Zeitpunkt t2 durchgeführt werden. Die erste Gruppe hat einen Mittelwert (M1) von 92 kg und die Kontrollgruppe einen Mittelwert (MK) von 100 kg nach der Maßnahme. Bei einem Mittelwertevergleich ergibt sich eine Differenz von 8 kg. Die Kontrollgruppe hat eine Streuung SDK,t2 von 7,91 kg zum Zeitpunkt t2. Wird die Mittelwertsdifferenz von 8 kg an der Streuung SDK,t2 von 7,91 kg relativiert, so ergibt sich eine Effektgröße von d = 1,01, was einen großen Effekt belegt [5].
Vor dem Pooling zweier Streuungen sollte immer ein Varianzhomogenitätstest nach Fisher oder Levene zur Prüfung der Varianzhomogenität durchgeführt werden. Sind die Varianzen homogen, so kann eine mit der Gruppengröße gewichtete mittlere Schätzung der Gesamtstreuung berechnet werden [10]. Aufgrund der größeren Gesamtstichprobe kann, analog zum t-Test für homogene Varianzen, eine bessere Schätzung der Populationsstreuung erfolgen. Sind die beiden Varianzen (und somit auch die Streuungen) heterogen, sollte von einem Pooling absehen werden. Dann empfiehlt sich die zuvor durchgeführte Relativierung der Mittelwertsdifferenz an der Kontrollgruppenstreuung. Im gegebenen Beispiel hat die erste Gruppe eine Streuung SDG1,t2 von 9,49 kg, die Kontrollgruppe eine Streuung SDK,t2 von 7,91 kg zum Zeitpunkt t2 (s. Tab. [1]). Der F-Test nach Fisher wird mit einem F-Wert von F(4,4) = 1,44 (p = 0,37) nicht signifikant, sodass Varianzhomogenität besteht. Die gepoolte Streuung ist 8,70 kg und die daraus resultierende Effektgröße d = 0,92. Beim Vergleich der ersten Diätgruppe mit der Kontrollgruppe unter Einbeziehung der gepoolten Streuung ergibt sich nach der Diät ein großer Effekt, wobei diese Effektgröße geringer ist als die zuvor mittels der Kontrollgruppenstreuung ermittelte Effektgröße von d = 1,01.
#Ein-Gruppen-Prä-Post-Vergleich
Die Effektgröße d für abhängige Stichproben wurde analog zur Effektgröße für unabhängige Stichproben vom t-Test für abhängige Stichproben abgeleitet [5]. Als Maß für den Unterschied zwischen zwei Messzeitpunkten innerhalb einer Gruppe wird die Mittelwertsdifferenz an der Streuung der Differenzen relativiert [16]:

Dieser Kennwert wird auch als SRM (standardized response mean) bezeichnet.[3] Anhand der ersten beiden Diätgruppen des Beispieldatensatzes in Tab. [2] soll diese Abhängigkeit von der Homogenität der Differenzwerte erläutert werden.
Gruppe 1 | Gruppe 2 | Gruppe 3 | Kontrollgruppe | |
Mittelwertsdifferenz | 8,00 | 4,00 | 8,00 | 0,00 |
SDD | 6,63 | 0,71 | 9,17 | 2,00 |
d nach Cohen | 1,21 | 5,66 | 0,87 | 0,00 |
SDPrä | 8,25 | 8,25 | 8,25 | 8,25 |
d nach Kazis | 0,97 | 0,49 | 0,97 | 0,00 |
SDPost | 9,49 | 8,40 | 16,73 | 7,91 |
SDPräPost | 8,87 | 8,32 | 12,49 | 8,08 |
d nach Hartmann | 0,90 | 0,48 | 0,64 | 0,00 |
F-Test nach Fisher zur Prüfung auf Varianzhomogenität der Streuungen SDPrä und SDPost | 1,32 | 1,04 | 4,12 | 1,09 |
p-Wert des F-Tests zur Prüfung auf Varianzhomogenität der Streuungen SDPrä und SDPost | 0,40 | 0,49 | 0,10 | 0,47 |
Anm.: SDD: Streuung der Differenzwerte, SDPrä: Streuung der Prä-Werte, SDPost: Streuung der Post-Werte, SDPräPost: gemittelte Streuung der Prä-Post-Werte |
In der ersten Gruppe ist der mittlere Gewichtsverlust 8 kg, während in der zweiten Gruppe die mittlere Gewichtsreduktion „nur” 4 kg beträgt. In der zweiten Gruppe ist die Gewichtsreduktion allerdings sehr homogen, da fast alle Personen ihr Gewicht um denselben Betrag reduzieren. Hierdurch ergibt sich bei der Berechnung nach Cohen [5] eine vielfach höhere Effektgröße (Gruppe 1: d = 1,21; Gruppe 2: d = 5,66). Da bei diesem Effektstärkemaß die Mittelwertsdifferenz und die Homogenität der Differenzen berücksichtigt wird, kann eine hohe Effektgröße durch einen großen Mittelwertsunterschied und/oder durch eine homogene Veränderung erzielt werden.
Um den Einfluss der Homogenität zu reduzieren, sollte nach Kazis [14] besser eine Standardisierung an der Streuung der Prä-Werte erfolgen:

Dieses d nach Kazis wird auch als SES (standardized effect size) bezeichnet [13]. Hierdurch wird der Erfolg einer Maßnahme, die Mittelwertsdifferenz zwischen Prä- und Post-Messung, in Bezug zur Variabilität dieses Merkmals in der Population gesetzt. Die Merkmalsstreuung in der Population wird über die Prä-Streuung der Stichprobe geschätzt. Gerade bei Untersuchungen mit nur einer Interventionsgruppe ohne Kontrollgruppe eignet sich die Streuung der Prä-Werte als ein guter Schätzer für die Populationsstreuung, da die Interventionsgruppe zu diesem Zeitpunkt noch nicht beeinflusst wurde [14]. Bei der Berechnung dieser Effektgröße erhält die Gruppe 1 mit der größeren Mittelwertsdifferenz (s. Tab. [2]) bei gleicher Prä-Streuung auch die größere Effektgröße (d nach Kazis für Gruppe 1: d = 0,97, für Gruppe 2: d = 0,49).
Die Verwendung der gepoolten Prä- und Post-Streuungen nach Hartmann ergibt aufgrund der größeren Anzahl von Daten ebenfalls eine bessere Schätzung der Populationsstreuung [9]:

mit

Berechnungen dieses Effektstärkemaßes sind in Tab. [2] dargestellt und fließen in die folgende Diskussion ein. Die Einbeziehung der Streuung nach einer Intervention zur Schätzung einer Populationsstreuung ist kritisch zu sehen, da durch die Intervention eine Veränderung angestrebt wird, welche sich möglicherweise auch auf die Streuung des Merkmals auswirkt. Wenn die Intervention bei den einzelnen Personen unterschiedlich starke Effekte bewirkt, kann es zu einer Erhöhung der Streuung beim zweiten Messzeitpunkt kommen (Varianzerweiterung), welche die gefundene Effektstärke senkt. Somit ergibt die gepoolte Prä-Post-Streuung eine niedrigere Effektgröße, wenn die Intervention teilweise hohe positive und teilweise hohe negative Effekte zeigt. Dies würde sich in den Beispieldaten bei einem Vergleich der Effekte zwischen Gruppe 1 und Gruppe 3 zeigen. Die Personen in der Gruppe 3 haben zwar im Mittel ebenfalls um 8 kg abgenommen - wie auch Gruppe 1 -, unterscheiden sich allerdings bei der Effektgrößenberechnung nach Hartmann (d nach Hartmann für Gruppe 1: d = 0,90, für Gruppe 3: d = 0,64), während die Effektgrößen bei der Berechnung nach Kazis identisch wären. Bei Einbeziehung der gepoolten Prä-Post-Streuung kann allerdings auch der gegenteilige Effekt auftreten. Brechen beispielsweise alle Patienten mit geringem Erfolg die Maßnahme ab, so kommt es beim Post-Messzeitpunkt zu einer Varianzreduktion. Dann würde sich die Effektgröße nach Hartmann erhöhen. Das Vorgehen nach Hartmann sollte nur gewählt werden, wenn Varianzhomogenität vorliegt. Im gegebenen Beispiel wurde dies jeweils über einen F-Test nach Fisher berechnet (s. Tab. [2]). Generell sollte die Streuung zum Prä-Zeitpunkt verwendet werden, wenn der Einfluss der Intervention mit der nicht behandelten Population verglichen werden soll.
#Mehr-Gruppen-Prä-Post-Vergleich
Sollen Effektgrößen bei mehreren Gruppen verglichen werden, muss ebenfalls die relevante Streuung zur Relativierung der Mittelwertsdifferenzen bestimmt werden. Aus den eben aufgeführten Gründen ist es sinnvoll, die Streuungen des Prä-Zeitpunktes zu verwenden [11]. Da Effektgrößen die Veränderungen in den verschiedenen Gruppen vergleichbar machen sollen, müssen die Prä-Streuungen der Gruppen zur Schätzung der Populationsstreuung gepoolt werden. Bei mehr als zwei Gruppen sind grundsätzlich zwei Vorgehensweisen möglich. Es kann die gepoolte Prä-Streuung der beiden jeweils zu vergleichenden Gruppen zugrunde gelegt werden oder - empfehlenswerter - die über alle Gruppen gepoolte Prä-Streuung. Bei der über alle Gruppen gepoolten Prä-Streuung wird aufgrund der erhöhten Stichprobengröße ein besserer Schätzer für die wahre Streuung des Merkmals in der Population ermittelt [8]. Weiterhin hat dieses Vorgehen den Vorteil, dass die resultierenden Effektgrößen vergleichbarer sind, da die identische Streuung zur Standardisierung der verschiedenen Mittelwertsdifferenzen herangezogen wird.
Dieses Vorgehen setzt allerdings voraus, dass bei den Streuungen der verschiedenen Gruppen Varianzhomogenität besteht. Ist Varianzhomogenität nicht gegeben und ist eine Kontrollgruppe vorhanden, sollte die Kontrollgruppenstreuung zur Standardisierung verwendet werden [17]. Allerdings erfolgt durch die geringere Stichprobengröße in der Kontrollgruppe eine schlechtere Schätzung der wahren Populationsstreuung. Bei einer randomisierten Zuweisung der Untersuchungsteilnehmer zu den verschiedenen Untersuchungsbedingungen sollten sich allerdings im Regelfall keine unterschiedlichen Streuungen in den Gruppen ergeben.
#Bewertung von Effektgrößen
Neben den grundlegenden Berechnungsvorschriften für Effektgrößen werden von Cohen auch Empfehlungen für die Bewertung der Effektgrößen für unabhängige Stichproben gemacht und eine Einteilung in kleine, mittlere und große Effekte (d = 0,2; d = 0,5 und d = 0,8) vorgeschlagen [5]. Demgegenüber macht Cohen keine Einteilungsvorschläge im Bezug auf abhängige Stichproben. Die vorgeschlagene Kategorisierung zur Einteilung der gefundenen Effekte bei unabhängigen Stichproben wurde als allgemein gültige Klassifizierung für alle dargestellten Effektstärkemaße übernommen. Allerdings muss hinterfragt werden, ob diese allgemein aufgestellten Effektstärkenbewertungen problemlos auf alle psychologischen und medizinischen Untersuchungen übertragen werden können. Durch die unterschiedlich großen Streuungen innerhalb der verschiedenen Indikationsgebiete werden die resultierenden Effektgrößen beeinflusst. Somit sollten die ermittelten Effektgrößen mit den im jeweiligen Indikationsbereich üblichen Kennwerten verglichen werden. Ein noch differenzierteres Bild würde sich bei einer Betrachtung von Untergruppen, beispielsweise Hüft- oder Kniepatienten, ergeben. Eine Intervention ist generell sinnvoll, wenn ein positiver Effekt vorliegt, doch muss ein gefundener Effekt immer an vergleichbaren Untersuchungsergebnissen relativiert werden. Liegen im Allgemeinen hohe Effektgrößen vor, so muss eine Intervention mit nur mittleren Effektgrößen kritisch gesehen werden. Andererseits kann bei schwer behandelbaren Erkrankungen ein mittlerer Effekt schon ein großer Erfolg sein. Deshalb sollte zukünftig durch Vergleiche mit anderen Studien oder mit den Ergebnissen von Metaanalysen der Erfolg einer Intervention bewertet werden. Diese Vergleichswerte sollten bei der Diskussion der Ergebnisse nach Möglichkeit immer angegeben werden.
Bei der Interpretation von Effektgrößen muss als weiteres Kriterium auch die Homogenität der untersuchten Stichprobe beachtet werden. So kann eine Intervention mit einer für die jeweilige Population untypisch homogenen Gruppe mit relativ geringen Streuungen problemlos höhere Effektgrößen erzielen als eine Studie mit einer typischen Streuung. Somit werden möglicherweise Maßnahmen für sehr spezielle Gruppen überbewertet. Würde beispielsweise bei den verschiedenen Diätprogrammen die Gruppeneinteilung durch das Ausgangsgewicht erfolgen, so würden aufgrund der geringeren Streuung in den einzelnen Gruppen höhere Effektstärken erreicht werden.
Schließlich muss auch berücksichtigt werden, dass in bestimmten Kontexten auch kleine Effektgrößen schon von gesellschaftspolitischer Bedeutung sein können. So ist beispielsweise bei der Evaluation eines Präventionsprogrammes zur Reduktion des Rauchens oder zur Veränderung des Sexualverhaltens bei HIV-Risikogruppen eine kleine Effektgröße als großer Erfolg einer Maßnahme zu werten.
#Software
Einige statistische Standardprogramme haben keine Berechnungsmöglichkeiten für Effektgrößen. Teilweise können diese optional anfordert werden oder sind nur in Zusatzmodulen enthalten. So muss beispielsweise beim Statistikprogramm SPSS 12.0 (Statistical Packages for the Social Sciences) das Zusatzmodul „Sample Power” zusätzlich zum Basisprogramm erworben werden. Bei anderen statistischen Standardsoftware-Paketen (beispielsweise SYSTAT, SAS) gibt es allerdings Optionen zur problemlosen Berechnung von Effektgrößen. Das Programm G-Power zur Berechnung von Effektgrößen und optimalen Stichprobenumfängen ist über das Internet frei erhältlich[4] und ermöglicht nicht nur die Berechnung von Effektgrößen für Mittelwertsvergleiche, sondern auch für eine Vielzahl von anderen Prüfverfahren, wie beispielsweise dem F-Test für Varianz- oder Regressionsanalysen. Abschließend sei vor der Verwendung von verschiedenen anderen im Internet bereitgestellten Softwareprogrammen, deren Berechnungsalgorithmen nicht transparent dargestellt sind, gewarnt, da hier die Gefahr einer fehlerhaften Berechnung gegeben ist.
#Fazit
Neben den üblichen p-Werten sollten, wie vom CONSORT-Statement verlangt, auch die jeweiligen Effektgrößen bei der Darstellung von wissenschaftlichen Ergebnissen berichtet werden. Auch Autoren von Lehrbüchern zu statistischen Methoden sollten Theorie und Berechnung von Effektgrößen eine ähnliche Bedeutung wie der Logik der Nullhypothesentestung zukommen lassen [13]. Aber auch Lehrbuchautoren auf anderen Fachgebieten müssen entscheiden, ob eine Diskussion zu Effektgrößen, beispielsweise im Anhang, sinnvoll sein kann. Nur wenn die Grundlagen dieser Kennwerte bekannt sind und diese in Publikationen berichtet werden, kann neben der „statistischen” Signifikanz auch die praktische Bedeutsamkeit bei der Interpretation einer Studie herangezogen werden.
Die zugrunde gelegte Streuung zur Effektgrößenberechnung sollte transparent dargestellt werden, da sie einen Einfluss auf die ermittelte Effektgröße hat. Die Entscheidung für ein bestimmtes Effektstärkemaß sollte a priori aus inhaltlichen Gesichtspunkten und nicht erst a posteriori bei der Datenauswertung erfolgen. Auf jeden Fall darf nicht post hoc die größtmögliche Effektgröße bestimmt und publiziert werden. Gibt es schon für das jeweilige Indikationsgebiet übliche Effektgrößen und Streuungen, so sollten diese zur Einordnung der Studienergebnisse ebenfalls berichtet werden. Die Ermittlung von Effektgrößen in komplexen Designs mit mehreren Gruppen und Messzeitpunkten kann auch im Rahmen einer biometrisch-statistischen Beratung erfolgen.
#Dank
Der Autor dankt Dr. Christian Zwingmann, Prof. Dr. Dr. Hermann Faller, Prof. Dr. Thomas Kohlmann und zwei ihm unbekannten Gutachtern für wertvolle Hinweise.
#Literatur
- 1 American Psychological Association .Publication Manual of the American Psychological Association. 4. Aufl. Washington, DC; APA 1994
- 2 Bortz J. Lehrbuch der empirischen Forschung für Sozialwissenschaftler. Berlin; Springer 1984
- 3 Bortz J. Statistik für Sozialwissenschaftler. Berlin; Springer 1999
- 4 Bortz J, Döring N. Forschungsmethoden und Evaluation für Sozialwissenschaftler. 3. Aufl. Berlin; Springer 2002
- 5 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale, NJ; Lawrence Erlbaum 1988
- 6 Deutsche Gesellschaft für Psychologie .Richtlinien zur Manuskriptgestaltung. 2. Aufl. Göttingen; Hogrefe 1997
- 7 Faller H. Signifikanz, Effektstärke und Konfidenzintervall. Die Rehabilitation. 2004; 43 (3) 174-178
- 8 Grawe K, Donati R, Bernauer F. Psychotherapie im Wandel: Von der Konfession zur Profession. Göttingen; Hogrefe 1994
- 9 Hartmann A, Herzog T, Drinkmann A. Psychotherapy of bulimia nervosa: What is effective? A meta-analysis. Journal of Psychosomatic Research. 1992; 36 159-167
- 10 Hays W L. Statistics. 5. Aufl. Chicago, MN; Holt, Rinehart & Winston 1994
- 11 Hedges L V, Olkin I. Statistical methods for meta-analysis. Orlando, FA; Academic Press 1985
- 12 Henson R K, Smith A D. State of the art in statistical significance and effect size reporting: A review of the APA task force report and current trends. Journal of Research and Development in Education. 2000; 33 (4) 286-296
- 13 Hyde J S. Reporting effect sizes: The roles of editors, textbook authors, and publication manuals. Educational and Psychological Measurement. 2001; 61 (2) 225-228
- 14 Kazis L, Anderson J, Meenan R. Effect sizes for interpreting changes in health status. Medical Care. 1989; 27 178-189
- 15 Keselman H J, Huberty C J, Lix L M, Olejnik S, Cribbie R, Donahue B, Kowalchuk R K, Lowman L L, Petoskey M D, Keselman J C, Levin J R. Statistical practices of educational researchers: An analysis of their ANOVA, MANOVA and ANCOVA analyses. Review of Educational Research. 1998; 68 350-386
- 16 Maier-Riehle B, Zwingmann C. Effektstärkevarianten beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung. Rehabilitation. 2000; 39 189-199
- 17 McGraw B, Glass G V. Choice of the metric for effect size in metaanalysis. American Educational Research Journal. 1980; 17 325-337
- 18 Moher D, Schulz K F, Altman D G. The CONSORT statement: revised recommendation for improving the quality of reports of parallel-group randomised trials. Lancet. 2001; 357 1191-1194
- 19 Rosenthal R, Rubin D B. requivalent: A simple effect size indicator. Psychological Methods. 2003; 8 (4) 492-496
- 20 Thompson B. If statistical significance tests are broken/misused, what practices should supplement or replace them?. Theory & Psychology. 1999; 9 165-181
- 21 Vacha-Haase T, Nilsson J E, Reetz D R, Lance T S, Thompson B. Reporting practices and APA editorial policies regarding statistical significance and effect size. Theory & Psychology. 2000; 10 413-425
1 Zur besseren Darstellung wurden aus didaktischen Gründen Gruppen mit jeweils nur fünf Personen gewählt. Auf die Prüfung der Normalverteilungsannahme wurde verzichtet.
2 Bei der Berechnung der gepoolten Streuung wird die Größe der beiden Stichproben berücksichtigt. Die Berechnung erfolgt über die Formel:

3 Hier sei nur kurz darauf hingewiesen, dass die „Effektgröße” [4] d' = μ1 - μ2/σD × √2 vermutlich durch eine falsche Zitation aus der Originalarbeit entstanden ist und nicht als Effektgröße für den Messwiederholungsfall verwendet werden sollte. Das d'-Maß [4] wird von Cohen nur als ein Korrekturmaß zum Ablesen der korrekten Teststärke (power) in den von ihm vorgegebenen Teststärketabellen benutzt. Die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest sich bei gültiger Alternativhypothese für die Alternativhypothese entscheidet. Die Verwendung dieses Maßes führt allerdings durch die Multiplikation mit Wurzel 2 zu erhöhten Effektgrößen. Diese Korrektur wird zwar damit begründet [2], dass hierbei nur eine Stichprobe untersucht wird und somit wegen der Reduktion der Freiheitsgrade von 2(n-1) auf (n-1) eine Korrektur erfolgen muss, allerdings erfolgt sie nur zur Berechnung der korrekten Teststärke [5]. Die Verwendung des Korrekturmaßes als Effektgröße ist allerdings fälschlicherweise immer noch in neueren Arbeiten zu finden [3] [4].
4 Der kostenlose Download kann über URL: www.psycho.uni-duesseldorf.de/aap/projects/gpower/ erfolgen.
Dipl.-Psych. Rainer Leonhart
Universität Freiburg · Institut für Psychologie · Abteilung für Rehabilitationspsychologie
79085 Freiburg
Email: leonhart@psychologie.uni-freiburg.de
Literatur
- 1 American Psychological Association .Publication Manual of the American Psychological Association. 4. Aufl. Washington, DC; APA 1994
- 2 Bortz J. Lehrbuch der empirischen Forschung für Sozialwissenschaftler. Berlin; Springer 1984
- 3 Bortz J. Statistik für Sozialwissenschaftler. Berlin; Springer 1999
- 4 Bortz J, Döring N. Forschungsmethoden und Evaluation für Sozialwissenschaftler. 3. Aufl. Berlin; Springer 2002
- 5 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale, NJ; Lawrence Erlbaum 1988
- 6 Deutsche Gesellschaft für Psychologie .Richtlinien zur Manuskriptgestaltung. 2. Aufl. Göttingen; Hogrefe 1997
- 7 Faller H. Signifikanz, Effektstärke und Konfidenzintervall. Die Rehabilitation. 2004; 43 (3) 174-178
- 8 Grawe K, Donati R, Bernauer F. Psychotherapie im Wandel: Von der Konfession zur Profession. Göttingen; Hogrefe 1994
- 9 Hartmann A, Herzog T, Drinkmann A. Psychotherapy of bulimia nervosa: What is effective? A meta-analysis. Journal of Psychosomatic Research. 1992; 36 159-167
- 10 Hays W L. Statistics. 5. Aufl. Chicago, MN; Holt, Rinehart & Winston 1994
- 11 Hedges L V, Olkin I. Statistical methods for meta-analysis. Orlando, FA; Academic Press 1985
- 12 Henson R K, Smith A D. State of the art in statistical significance and effect size reporting: A review of the APA task force report and current trends. Journal of Research and Development in Education. 2000; 33 (4) 286-296
- 13 Hyde J S. Reporting effect sizes: The roles of editors, textbook authors, and publication manuals. Educational and Psychological Measurement. 2001; 61 (2) 225-228
- 14 Kazis L, Anderson J, Meenan R. Effect sizes for interpreting changes in health status. Medical Care. 1989; 27 178-189
- 15 Keselman H J, Huberty C J, Lix L M, Olejnik S, Cribbie R, Donahue B, Kowalchuk R K, Lowman L L, Petoskey M D, Keselman J C, Levin J R. Statistical practices of educational researchers: An analysis of their ANOVA, MANOVA and ANCOVA analyses. Review of Educational Research. 1998; 68 350-386
- 16 Maier-Riehle B, Zwingmann C. Effektstärkevarianten beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung. Rehabilitation. 2000; 39 189-199
- 17 McGraw B, Glass G V. Choice of the metric for effect size in metaanalysis. American Educational Research Journal. 1980; 17 325-337
- 18 Moher D, Schulz K F, Altman D G. The CONSORT statement: revised recommendation for improving the quality of reports of parallel-group randomised trials. Lancet. 2001; 357 1191-1194
- 19 Rosenthal R, Rubin D B. requivalent: A simple effect size indicator. Psychological Methods. 2003; 8 (4) 492-496
- 20 Thompson B. If statistical significance tests are broken/misused, what practices should supplement or replace them?. Theory & Psychology. 1999; 9 165-181
- 21 Vacha-Haase T, Nilsson J E, Reetz D R, Lance T S, Thompson B. Reporting practices and APA editorial policies regarding statistical significance and effect size. Theory & Psychology. 2000; 10 413-425
1 Zur besseren Darstellung wurden aus didaktischen Gründen Gruppen mit jeweils nur fünf Personen gewählt. Auf die Prüfung der Normalverteilungsannahme wurde verzichtet.
2 Bei der Berechnung der gepoolten Streuung wird die Größe der beiden Stichproben berücksichtigt. Die Berechnung erfolgt über die Formel:

3 Hier sei nur kurz darauf hingewiesen, dass die „Effektgröße” [4] d' = μ1 - μ2/σD × √2 vermutlich durch eine falsche Zitation aus der Originalarbeit entstanden ist und nicht als Effektgröße für den Messwiederholungsfall verwendet werden sollte. Das d'-Maß [4] wird von Cohen nur als ein Korrekturmaß zum Ablesen der korrekten Teststärke (power) in den von ihm vorgegebenen Teststärketabellen benutzt. Die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest sich bei gültiger Alternativhypothese für die Alternativhypothese entscheidet. Die Verwendung dieses Maßes führt allerdings durch die Multiplikation mit Wurzel 2 zu erhöhten Effektgrößen. Diese Korrektur wird zwar damit begründet [2], dass hierbei nur eine Stichprobe untersucht wird und somit wegen der Reduktion der Freiheitsgrade von 2(n-1) auf (n-1) eine Korrektur erfolgen muss, allerdings erfolgt sie nur zur Berechnung der korrekten Teststärke [5]. Die Verwendung des Korrekturmaßes als Effektgröße ist allerdings fälschlicherweise immer noch in neueren Arbeiten zu finden [3] [4].
4 Der kostenlose Download kann über URL: www.psycho.uni-duesseldorf.de/aap/projects/gpower/ erfolgen.
Dipl.-Psych. Rainer Leonhart
Universität Freiburg · Institut für Psychologie · Abteilung für Rehabilitationspsychologie
79085 Freiburg
Email: leonhart@psychologie.uni-freiburg.de





