RSS-Feed abonnieren
DOI: 10.1055/s-2005-866924
Regression zur Mitte
Regression to the Mean Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”:Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, BerlinInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de
Dr. Christian Zwingmann
Verband Deutscher Rentenversicherungsträger · Rehabilitationswissenschaftliche Abteilung
Hallesche Straße 1
10963 Berlin
eMail: christian.zwingmann@vdr.de
Publikationsverlauf
Publikationsdatum:
01. August 2005 (online)
- Zusammenfassung
- Abstract
- Einführendes Beispiel für die Regression zur Mitte: Der „epidemiologische Arbeitsunfähigkeitstrend”
- Charakterisierung der Regression zur Mitte anhand eines Datenbeispiels
- Regression zur Mitte ist umso stärker, je geringer zwei Messwertreihen korrelieren
- Regression zur Mitte führt nicht zu einer Reduktion der Variabilität
- Regression zur Mitte ist kein zeitlich gerichteter Effekt
- Regression zur Mitte bezieht sich auf verbundene Messungen
- Die beste Vorhersage für individuelle Werte bei Regression zur Mitte
- Regression zur Mitte auch in den Messwerten?
- Kontrolle der Regression zur Mitte bei Messwiederholungen
- Fazit
- Literatur
Zusammenfassung
Bei der Evaluation der Effektivität von Rehabilitationsmaßnahmen kann Regression zur Mitte auftreten. Damit ist gemeint, dass die Messwerte in einer Gruppe von Patienten mit extremen Merkmalsausprägungen allein aufgrund von Zufall, also auch ohne „wirkliche” Veränderung, bei wiederholter Merkmalsmessung im Durchschnitt weniger extrem ausgeprägt sind. Wird diese Veränderungskomponente bei der Evaluation von Behandlungseffekten in Extremgruppen nicht berücksichtigt, kommt es zu Fehleinschätzungen der Wirksamkeit. Die Arbeit erläutert die Regression zur Mitte in einfacher Weise und klärt einige häufig anzutreffende Missverständnisse. Es wird gezeigt, welche Bedingungen für das Zustandekommen und die Stärke des Regressionseffekts von Bedeutung sind und wie ihm bei Messwiederholungen Rechnung getragen werden sollte.
#Abstract
The evaluation of rehabilitation programmes may be distorted by regression to the mean: In a group of patients with extreme measurement values, these values tend to be less extreme on a following point in time due to merely random components and regardless of a „true” treatment effect. If this effect is not taken into account the effectiveness of rehabilitation programmes may be estimated wrongly. In this paper regression to the mean is explained comprehensively, and common misunderstandings are clarified. It is shown which conditions are crucial for occurrence of regression to the mean and which factors determine its strength. Furthermore it is shown how regression to the mean should be controlled in repeated measurement designs.
Schlüsselwörter
Regression zur Mitte - epidemiologischer AU-Trend - Analyse von Veränderungen - Extremgruppen
Einführendes Beispiel für die Regression zur Mitte: Der „epidemiologische Arbeitsunfähigkeitstrend”
Wenn es um die Erfolgsbewertung von medizinischen Rehabilitationsmaßnahmen anhand von Arbeitsunfähigkeitszeiten (AU-Zeiten) geht, wird in der deutschsprachigen rehabilitationswissenschaftlichen Literatur regelmäßig darauf hingewiesen, dass bei der Interpretation der „epidemiologische Arbeitsunfähigkeitstrend (AU-Trend)” berücksichtigt werden muss. Damit ist - im Anschluss an die Arbeiten von Wagner [25] aus der ehemaligen DDR und die westdeutschen Replikationen von Gerdes [11] - folgende empirische Beobachtung gemeint: Auch bei konstant bleibendem Krankenstand z. B. zwischen aufeinander folgenden Jahreszeiträumen, ergeben sich systematische zeitliche Veränderungen der AU-Zeiten unabhängig von potenziellen Behandlungseffekten. Diese folgen dem Trend: „Tiefe Werte nehmen zu, hohe Werte nehmen ab” ([25], S. 323). Personen mit sehr niedrigen bzw. sehr hohen Werten bei der Arbeitsunfähigkeit weisen also im Folgejahr durchschnittlich starke Veränderungen nach oben bzw. nach unten auf, während sich Personen mit mittleren Ausgangswerten im Durchschnitt nur wenig verändern. Bei konstant bleibendem Krankenstand handelt es sich bei den Veränderungen lediglich um „Umschichtungen”, die Summe aller Abweichungen beträgt Null.
Personen, die eine Rehabilitationsmaßnahme in Anspruch nehmen, weisen vor der Maßnahme zumeist sehr hohe AU-Zeiten auf; dies ist ja häufig auch einer der Gründe für die Inanspruchnahme. Werden nun im Rahmen von Prä-Post-Vergleichen die AU-Zeiten zur Erfolgsbewertung herangezogen, so muss - dem epidemiologischen AU-Trend zufolge - davon ausgegangen werden, dass es bei den Rehabilitanden ohnehin zu starken Rückgängen der AU-Zeiten kommt. Die empirisch beobachtbare deutliche Abnahme der durchschnittlichen AU-Zeiten nach einer Rehabilitationsmaßnahme kann deshalb nicht einfach ursächlich auf die Wirkung der Behandlung zurückgeführt werden, sondern zum Großteil einfach damit zusammenhängen, dass Rehabilitanden vor der Rehabilitationsmaßnahme erhöhte AU-Zeiten aufweisen. Tatsächlich fanden Wagner [25] und Gerdes [11], dass die Abnahme der AU-Zeiten nach Rehabilitation nicht höher ausfällt als in Kontrollgruppen ohne Rehabilitation, die hinsichtlich der ursprünglichen Höhe der AU-Zeiten bzw. sogar weiterer potenziell relevanter Merkmale vergleichbar waren.
Der in der rehabilitationswissenschaftlichen Literatur als „epidemiologischer AU-Trend” bezeichnete Sachverhalt ist somit - wie Stallmann [22] dargelegt hat - kein spezifisches Phänomen für Arbeitsunfähigkeitsdaten, sondern ein konkretes Beispiel für die „Regression zur Mitte”, die erstmals von Sir Francis Galton [10] beschrieben wurde. Die Regression zur Mitte bezeichnet in erster Linie artifizielle zufallsbedingte Veränderungen, die in Untersuchungsgruppen mit zunächst extremen Merkmalsausprägungen auftreten. Der vorliegende Beitrag soll klären, wie dieser „stochastische” Regressionseffekt charakterisiert werden kann, wie er zu Stande kommt, unter welchen Umständen mit ihm (besonders) zu rechnen ist und wie er kontrolliert werden kann. Die Erläuterungen erfolgen schrittweise und werden durch ein Datenbeispiel veranschaulicht.[1]
#Charakterisierung der Regression zur Mitte anhand eines Datenbeispiels
Wir nehmen an, dass 21 Patienten zu Beginn (t1), am Ende einer medizinischen Rehabilitationsmaßnahme (t2) und zu einem Katamnesezeitpunkt (t3, z. B. 6 Monate nach Entlassung) einen Fragebogen zur gesundheitsbezogenen Lebensqualität ausgefüllt haben. Tab. [1] zeigt die resultierenden Messwerte.
Pat.-Nr. | Gruppe | t1 | t2 | t3 | Kennwerte innerhalb der Gruppen |
1 2 3 4 5 6 7 | 1 1 1 1 1 1 1 | 1 2 3 4 5 6 7 | 3 1 2 6 9 4 10 | 4 3 9 2 10 6 18 |
Gruppe 1
M(t1) = 4,00 SD(t1) = 2,00 M(t2) = 5,00 SD(t2) = 3,21 M(t3) = 7,43 SD(t3) = 5,12 |
8 9 10 11 12 13 14 | 2 2 2 2 2 2 2 | 8 9 10 11 12 13 14 | 18 11 15 5 7 8 14 | 20 14 8 11 1 12 13 |
Gruppe 2
M(t1) = 11,00 SD(t1) = 2,00 M(t2) = 11,14 SD(t2) = 4,39 M(t3) = 11,29 SD(t3) = 5,40 |
15 16 17 18 19 20 21 | 3 3 3 3 3 3 3 | 15 16 17 18 19 20 21 | 17 12 21 16 13 19 20 | 15 5 21 17 7 16 19 |
Gruppe 3
M(t1) = 18,00 SD(t1) = 2,00 M(t2) = 16,86 SD(t2) = 3,18 M(t3) = 14,29 SD(t3) = 5,57 |
M | 11 | 11 | 11 | ||
SD | 6,06 | 6,06 | 6,06 | ||
Anmerkung: Bei den Standardabweichungen SD handelt es sich um Stichprobenstreuungen (jeweils Summe der quadrierten Abweichungen vom Mittelwert, geteilt durch n) |
Die Daten in Tab. [1] wurden zufällig generiert - unter der Modellvoraussetzung, dass die Messwerte von t1 und t2 bzw. t2 und t3 linear zusammenhängen und zu ca. 0,75 korrelieren.[2] Für alle drei Messzeitpunkte kommt jeder Messwert im Bereich 1 bis 21 genau einmal vor. Die Messwerte sind somit lediglich unterschiedlich angeordnet, sodass die Verteilungseigenschaften der betrachteten Variablen „gesundheitsbezogene Lebensqualität” über die drei Messzeitpunkte per Definition gleich bleiben:
-
Zum einen findet in der Stichprobe der 21 Rehabilitanden keine Veränderung des Mittelwerts über die Zeit statt (Mgesamt-t1 = Mgesamt-t2 = Mgesamt-t3 = Mgesamt = 11). Es liegen also in der Gesamtstichprobe keine systematischen Merkmalsveränderungen z. B. infolge einer Behandlung vor, die normalerweise die Regression zur Mitte überlagern können. Als „Erklärung” für die im Folgenden zu diskutierenden Effekte kommen in unserem Datenbeispiel also nur unsystematische, zufällige Veränderungen infrage.
-
Zum anderen bleibt in der Stichprobe der 21 Patienten auch die Merkmalsstreuung über die Zeit konstant (SDgesamt-t1 = SDgesamt-t2 = SDgesamt-t3 = SDgesamt = 6,06). Da zudem jeder Messwert im Bereich 1 bis 21 zu jedem Messzeitpunkt genau einmal vorkommt, können die Daten in diesem Beispiel auch als messzeitpunktspezifische Rangreihenwerte interpretiert werden. Der Rehabilitand mit der Patientennummer 1 beispielsweise hat also zu t1 die geringste Lebensqualität, zu t2 die drittniedrigste und zu t3 die viertniedrigste Lebensqualität.
Der Regressionseffekt wird im Datenbeispiel erkennbar, wenn die Rehabilitandenstichprobe auf der Basis der Ausprägung der gesundheitsbezogenen Lebensqualität zu t1 in drei gleich große Gruppen unterteilt wird (s. Spalte 2 in Tab. [1]). Gruppe 1 wird von den Patienten mit der niedrigsten Lebensqualität, Gruppe 3 von den Patienten mit der höchsten Lebensqualität gebildet. Betrachtet man die Mittelwerte dieser Subgruppen (vgl. letzte Spalte in Tab. [1]), so fällt auf, dass diese über die Zeit in Gruppe 1 zunehmen (4,00, 5,00, 7,43) und in Gruppe 3 abnehmen (18,00, 16,86, 14,29). Die Mittelwerte in diesen beiden Extremgruppen verändern sich also jeweils in Richtung des Gesamtmittelwerts Mgesamt = 11 („Regression zur Mitte”), während sich in der mittleren Gruppe 2 nur eine geringfügige, unsystematische Veränderung des Mittelwerts zeigt (11,00, 11,14, 11,29). Entscheidend für diese Systematik der subgruppenspezifischen Mittelwertveränderungen ist die Bildung der Subgruppen auf der Grundlage der t1-Werte. Würde man in Tab. [1] die drei Gruppen zufällig generieren, so träte kaum Regression zur Mitte auf, weil dann zu t1 in allen drei Subgruppen nur unsystematische Abweichungen vom Gesamtmittelwert vorlägen.
Wodurch kommt die Systematik der Mittelwertveränderungen in den Extremgruppen zu Stande, wenn doch lediglich zufällige Veränderungen als „Erklärung” infrage kommen? Die Ursache für diese Systematik wird nachvollziehbar, wenn man berücksichtigt, dass die drei Messwertreihen der gesundheitsbezogenen Lebensqualität nicht in perfektem Zusammenhang stehen (Korrelation < 1)[3], sodass sich von Messzeitpunkt zu Messzeitpunkt Veränderungen in den Messwerten der Patienten ergeben. Da in den Extremgruppen bereits maximal mögliche Abweichungen der Lebensqualität vom mittleren Wert der Gesamtstichprobe (Mgesamt = 11) vorliegen, erfolgen Veränderungen - von Einzelfällen abgesehen - insgesamt in Richtung tendenziell weniger extremer Werte. Dementsprechend müssen die Mittelwerte in den Extremgruppen zu t2 näher am Gesamtmittelwert Mgesamt liegen. Eine Veränderung in den Extremgruppen ist also mit einer „Normalisierung” - hier im Sinne einer weniger extremen Lebensqualität - verbunden.
In den Daten wird dieser Effekt auch dadurch erkennbar, dass innerhalb der drei Patientengruppen die Variabilität der Messwerte zunimmt; z. B. steigt die Streuung der Lebensqualität in Gruppe 1 von 2 auf 3,21 bzw. 5,12 (s. letzte Spalte in Tab. [1]). Diese Streuungserhöhung kann in der extremen Gruppe 1 nur durch tendenziell höhere bzw. in der extremen Gruppe 3 nur durch tendenziell niedrigere Messwerte erreicht werden, sodass es in diesen beiden Gruppen zu einer „gerichteten Bewegung” weg von den Extremen, hin zum Gesamtmittelwert Mgesamt kommt.
Bei der in diesem Beispiel dargestellten Gruppenaufteilung wird auch deutlich, dass die A-posteriori-Auswahl der Extremgruppen 1 und 3 gemäß der Ausprägung zu t1 zu einer minimal möglichen Merkmalsstreuung zu t1 führt: Keine andere Gruppe von sieben Patienten hätte eine niedrigere Merkmalsstreuung als SD = 2. Diese systematische Einschränkung der Merkmalsstreuung aufgrund der Selektion einer homogenen Patientengruppe - zusammen mit der Tatsache, dass bereits maximal extreme Werte vorliegen - lässt den Regressionseffekt in den Extremgruppen notwendigerweise auftreten, wenn die Messwerte für die Personen nicht unverändert bleiben. Da die Messwertreihen zu t2 bzw. t3 nicht perfekt mit den Werten zu t1 korrelieren, erhöht sich notwendigerweise die Streuung und entsprechend tritt Regression zur Mitte auf.
In Gruppen mit maximal extremen Werten (wie die Gruppen 1 und 3 im Datenbeispiel) lässt sich der Regressionseffekt am anschaulichsten nachvollziehen. Die Regression zur Mitte zeigt sich allerdings grundsätzlich in beliebigen Subgruppen, deren Mittelwert von demjenigen der Gesamtstichprobe abweicht: Je größer die Differenz zwischen dem Mittelwert der betreffenden Subgruppe und dem Gesamtmittelwert ist, desto größer ist der Regressionseffekt. Dies wird verständlich, wenn man bedenkt, dass auch die Bildung weniger extremer Gruppen zu einer Verringerung der subgruppenspezifischen Merkmalsstreuung zu t1 führt.
Entscheidend für die Evaluation von Behandlungseffekten ist nun, dass es aufgrund des Regressionseffekts problematisch ist, wenn die Daten von Extremgruppen ausgewertet werden: Würden nur die Patienten 1 - 7 oder aber 15 - 22 über die drei Messzeitpunkte hinweg untersucht, wäre eine systematische Veränderung der gesundheitsbezogenen Lebensqualität zu verzeichnen, die ausschließlich durch den Regressionseffekt bedingt ist und nicht der Wirkung z. B. von rehabilitativen Behandlungen zugeschrieben werden dürfte. Als Interventionseffekt dürfte vielmehr nur der Betrag bezeichnet werden, der über die zufallsbedingte, jedoch systematische Veränderung aufgrund der Regression zur Mitte hinausgeht. In unserem Datenbeispiel liegt aber kein Behandlungseffekt vor, wie an dem unveränderten Mittelwert der Gesamtstichprobe über die drei Messzeitpunkte deutlich wird. Die Auswertung von Extremgruppen kann allerdings nicht nur zur fälschlichen Interpretation eines Regressionseffekts als Interventionseffekt führen, sondern u. U. auch zum Übersehen eines Behandlungseffekts. Dies kann vorkommen, wenn die Regression zur Mitte in erfolgreich behandelten Extremgruppen mit bereits sehr günstigen Prä-Werten einer weiteren Verbesserung entgegenwirkt.
Wir können bis jetzt folgendermaßen zusammenfassen: Regression zur Mitte tritt auf, wenn bei zeitlich aufeinander folgenden Messwertreihen, die in linearem Zusammenhang stehen und nicht perfekt korrelieren, eine zu mehr oder weniger extremen Ausgangswerten führende Selektion stattgefunden hat. Regression zur Mitte kann damit als Folge einer Auswahlverzerrung aufgefasst werden: „Regression to the mean is a form of selection bias” ([7], S. 707). Der Regressionseffekt äußert sich darin, dass in den mehr oder weniger extremen Subgruppen die durchschnittlichen Rangplätze von Messzeitpunkt zu Messzeitpunkt näher am mittleren Rangplatz der Gesamtstichprobe liegen. Die Regression zur Mitte bezieht sich auf Rangplätze und damit auf die relative Lage der Extremgruppenmittelwerte, zeigt sich aber meistens - wie in unserem Datenbeispiel - auch in den absoluten Durchschnittswerten. Ausnahmen von dieser Regel werden weiter unten spezifiziert.
Ausgehend von unserem Datenbeispiel sowie dem einführenden Beispiel zum epidemiologischen AU-Trend sollen nun zentrale Eigenschaften des Regressionseffekts näher erläutert werden.
#Regression zur Mitte ist umso stärker, je geringer zwei Messwertreihen korrelieren
Die Höhe der Korrelation der betrachteten Messwertreihen ist mitentscheidend für die Stärke des Regressionseffekts. Eine hohe Korrelation - beispielsweise eines Merkmals mit sich selbst über die Zeit hinweg - impliziert, dass sich die relative Position einer Person in einer Stichprobe vergleichsweise wenig verändert. Somit verändert sich der Mittelwert einer Extremgruppe umso weniger zum Gesamtmittelwert hin, je stabiler das Merkmal über die Zeit ist. Da die Messwerte von t1 und t2 mit 0,75 hoch korreliert sind, verlagert sich der Mittelwert in der Gruppe der Patienten mit geringer Lebensqualität vergleichsweise schwach (von 4 auf 5; s. Tab. [1]). Die Werte von t1 und t3 sind jedoch nur noch zu 0,48 korreliert, und folglich ist eine deutlich stärkere Mittelwertveränderung von 4 auf 7,43 zu verzeichnen. Insgesamt gilt: Je mehr die Korrelation gegen Null geht, desto stärker fällt die Regression zur Mitte aus. Der stärkstmögliche Regressionseffekt wäre bei einer Nullkorrelation festzustellen.
Für das einleitende Beispiel zum epidemiologischen AU-Trend folgt hieraus, dass die „Normalisierung” der Arbeitsunfähigkeit von Rehabilitanden umso stärker ausfällt, je weniger stabil die Arbeitsunfähigkeit über die Zeit ist. Zudem muss bei Messwiederholungsdesigns beachtet werden, dass eine wachsende Distanz des Intervalls zwischen zwei Messzeitpunkten im Allgemeinen eine Abnahme der Korrelation zur Folge hat. Würden dann beispielsweise in zwei Studien, in denen die AU-Zeiten die abhängige Variable darstellen, unterschiedliche Katamneseintervalle gewählt (z. B. 3 vs. 12 Monate nach Reha-Ende), hätte die Regression zur Mitte beim Vergleich der Behandlungseffektivitäten zwischen den Studien einen verfälschenden Einfluss: Da die Messwerte nach 12 Monaten geringer mit denjenigen bei Entlassung korreliert sind, würde der Regressionseffekt zu einer stärkeren Überschätzung der Behandlungseffektivität in dieser Studie führen.
Da sich das Ausmaß der Regression zur Mitte umgekehrt proportional zum Ausmaß des Zusammenhangs zwischen zwei Messwertreihen verhält (vgl. später Formel 1), kann der Regressionseffekt auch als Reformulierung einer nicht perfekten Korrelation aufgefasst werden [3]. Im Anschluss daran wird zuweilen erläutert, dass für diese nicht perfekte Korrelation die mangelnde Reliabilität, also die situations- und messzeitpunktspezifische Messfehlerbehaftetheit des Erhebungsinstruments verantwortlich ist. Diese Aussage ist aber nur teilweise richtig. Sicherlich ist die Messfehlerbehaftetheit ein wichtiger Faktor, der sich korrelationsmindernd auswirkt. Aber es ist nicht der einzige, denn die Korrelation verringert sich auch - und zumeist in viel stärkerem Maße - durch differenzielle wahre Veränderungen. Demnach tritt der Regressionseffekt auch bei perfekt reliablen Messungen auf, wenn der Merkmalszusammenhang nicht gleich 1 ist. Für die Regression zur Mitte sind also nicht nur Messfehler verantwortlich, sondern alle Faktoren, die eine perfekte Korrelation zwischen den Messwertreihen verhindern.
#Regression zur Mitte führt nicht zu einer Reduktion der Variabilität
Manchmal wird mit dem Regressionseffekt die falsche Vorstellung verbunden, dass sich in einer Stichprobe, in der Regression zur Mitte auftritt, die Personen über mehrere Messzeitpunkte einander angleichen, weil sie alle „mittlerer” werden. Aus den bisherigen Ausführungen geht hervor, dass dies nicht zutrifft.
Bei der Erläuterung des Datenbeispiels wurde bereits darauf hingewiesen, dass nicht nur in der mittleren Gruppe 2, sondern auch in den Extremgruppen 1 und 3, in denen Regression zur Mitte beobachtet wird, die Streuung der Messwerte um ihren jeweiligen subgruppenspezifischen Mittelwert über die drei Messzeitpunkte hinweg zunimmt (s. letzte Spalte in Tab. [1]). Gerade die Erhöhung der ursprünglich minimalen Streuung ist es ja, die in den Extremgruppen zu einer relativen Annäherung der subgruppenspezifischen Mittelwerte an den Gesamtmittelwert Mgesamt und damit zum Regressionseffekt führt. Diese Normalisierung in den Extremgruppen wird dadurch kompensiert, dass insbesondere in der Gruppe 2 zu t2 und t3 tendenziell extremere Werte auftreten - die Erhöhung der Variabilität hier jedoch nicht mit einer Veränderung in eine spezifische Richtung verbunden ist. Die Homogenisierung der Gruppenmittelwerte (Regression zur Mitte) und die Heterogenisierung der Messwerte innerhalb der drei Gruppen müssen also gemeinsam berücksichtigt werden, um die unveränderte Merkmalsstreuung über die drei Messzeitpunkte in der Gesamtstichprobe (SDgesamt = 6,06) erklären zu können.
Entsprechendes gilt für das einleitende Beispiel zum epidemiologischen AU-Trend: Bei konstant bleibendem Krankenstand weisen im Folgejahr Personen mit niedrigen Ausgangswerten der Arbeitsunfähigkeit eine durchschnittliche Veränderung nach oben auf („hin zur Mitte”), Personen mit hohen Ausgangswerten eine durchschnittliche Veränderung nach unten („hin zur Mitte”) und Personen mit mittleren Ausgangswerten unsystematische Veränderungen nach oben oder nach unten („weg von der Mitte”). Weil bei diesen „Umschichtungen” die Unterschiedlichkeit der AU-Zeiten innerhalb der drei Gruppen zunimmt, bleibt die Streuung der AU-Zeiten insgesamt bestehen.
#Regression zur Mitte ist kein zeitlich gerichteter Effekt
In unserem Datenbeispiel in Tab. [1] wurden die Rehabilitanden in drei gleich große Gruppen unterteilt, und zwar auf der Basis der Ausprägung ihrer gesundheitsbezogenen Lebensqualität zum Zeitpunkt t1; anschließend wurden die subgruppenspezifischen Veränderungen für die Zeitpunkte t2 und t3 betrachtet. Diese Betrachtungsrichtung entspricht dem üblichen zeitlichen Blickwinkel in prospektiven Studien.
Es muss jedoch betont werden, dass für die Regression zur Mitte die zeitliche Richtung nicht von Bedeutung ist: Ordnet man die Patienten in Tab. [1] auf der Basis der Ausprägung ihrer Lebensqualität zu t3, zeigt sich - wie in Tab. [2] veranschaulicht - in den dann entstehenden Extremgruppen ebenfalls Regression zur Mitte mit grundsätzlich identischem Muster, nur eben in zeitlich entgegengesetzter Richtung. Durch diesen zeitlich umgekehrten Blickwinkel verändern sich die Korrelationen der Messwertreihen natürlich nicht und die Streuungen in den Subgruppen nehmen entsprechend „rückwärts” gerichtet zu, sodass in den auf der Basis der t3-Werte gebildeten Extremgruppen die t2- und t1-Mittelwerte sukzessive näher am Gesamtmittelwert Mgesamt liegen.
Gruppe (t3) | t3 | t2 | t1 |
1 | 4 | 6,57 | 8,57 |
2 | 11 | 9,14 | 9,29 |
3 | 18 | 17,29 | 15,14 |
Der Regressionseffekt tritt in Längsschnittstudien also in beiden zeitlichen Richtungen auf: Patienten mit extremer Merkmalsausprägung in der Eingangsdiagnostik werden zu späteren Messzeitpunkten aufgrund der Regression zur Mitte im Durchschnitt relativ weniger extreme Werte aufweisen. Und Patienten, bei denen zu einem späteren Messzeitpunkt z. B. die besten Werte der gesundheitsbezogenen Lebensqualität festgestellt werden, besaßen bei Reha-Beginn aufgrund der Regression zur Mitte im Durchschnitt vergleichsweise weniger extreme Ausgangswerte.
Entsprechendes gilt für das einleitende Beispiel zum epidemiologischen AU-Trend: Personen mit ursprünglich extremen AU-Zeiten werden im Folgejahr aufgrund der Regression zur Mitte im Durchschnitt relativ weniger extreme AU-Zeiten aufweisen. Und Personen, bei denen im Folgejahr z. B. die höchsten AU-Zeiten festgestellt werden, hatten im Jahr davor aufgrund der Regression zur Mitte im Durchschnitt vergleichsweise weniger extreme AU-Zeiten.
#Regression zur Mitte bezieht sich auf verbundene Messungen
Wir haben gesehen, dass die Regression zur Mitte kein zeitlich gerichteter Effekt ist. Noch allgemeiner gilt, dass für die Regression zur Mitte überhaupt keine zeitliche Komponente oder Betrachtung notwendig ist: Denn der Effekt tritt für alle nicht perfekt korrelierenden Messwertreihen auch dann auf, wenn die Einzelwerte der Messwertreihen nicht zeitlich, sondern hinsichtlich anderer inhaltlicher Aspekte einander zugeordnet sind. Solche nichtzeitlich „verbundenen” Messungen liegen vor, wenn Personen aus verschiedenen Stichproben einander zugeordnet sind (meist paarweise, z. B. „Mutter und Kind” oder „Patient und pflegender Angehöriger”) oder wenn an denselben Personen mehrere Merkmale zum selben Messzeitpunkt erhoben werden (z. B. „somatische und psychische Belastungen”). Das mehrmalige Messen des gleichen Merkmals an denselben Personen - wie in unserem Datenbeispiel in Tab. [1] und im einleitenden Beispiel zum epidemiologischen AU-Trend - ist somit lediglich ein spezieller, für rehabilitationswissenschaftliche Evaluationsstudien allerdings besonders relevanter Fall verbundener Messungen.
Regression zur Mitte ließe sich somit auch an folgenden Beispielen demonstrieren: Frauen in Mutter-Kind-Einrichtungen, die im Vergleich zur Gesamtgruppe der untersuchten Mütter extreme Eingangsbelastungen aufweisen, haben Kinder, die im Vergleich zu den anderen untersuchten Kindern im Durchschnitt nicht so extrem belastet sind - und umgekehrt. Die pflegenden Angehörigen von Patienten mit extremen Belastungen sind relativ zur untersuchten Gesamtgruppe der pflegenden Angehörigen im Durchschnitt weniger belastet als die von ihnen gepflegten Patienten relativ zur Gesamtgruppe der untersuchten Patienten - und umgekehrt. Rehabilitanden, die im somatischen Bereich extreme Belastungen haben, sind im psychischen Bereich vergleichsweise unauffälliger ausgeprägt - und umgekehrt.
#Die beste Vorhersage für individuelle Werte bei Regression zur Mitte
Bisher haben wir den Regressionseffekt immer auf den Mittelwert einer Gruppe bezogen charakterisiert. Der Effekt lässt sich aber auch auf Ebene individueller Messwerte definieren, wenn man die vorhergesagten Werte betrachtet, die im Rahmen einer linearen Regressionsanalyse bestimmt werden können [26]. Würde man in der Regressionsanalyse beispielsweise die Werte für t2 aufgrund der Werte zu t1 vorhersagen, so entsprächen die regressionsanalytisch vorhergesagten Werte für den Zeitpunkt t2 dem zu erwartenden Mittelwert in einer Gruppe von Patienten, die alle exakt denselben t1-Wert besitzen. Es lässt sich zeigen, dass die relative Position der für t2 für einen Patienten vorhergesagten Werte direkt durch die Korrelation festgelegt ist. Wegen der gleichen Streuung des Merkmals zu t1 und t2 gilt nämlich die Beziehung:
x^t2 - Mt2 = r (xt1 - Mt1) (Formel 1)
wobei x^t2 den durch die Regressionsgleichung vorhergesagten Messwert zu t2 und r die Korrelation bezeichnet.
In unserem Datenbeispiel in Tab. [1] weicht Patient 1 mit einem Messwert von 1 zu t1 genau 10 Einheiten vom Mittelwert 11 nach unten ab (|xt1 - Mt1| = - 10). Man würde nach Formel 1 erwarten, dass dieser Patient zu t2 nur noch |x^t2 - Mt2| = 0,78 × 10 = 7,8 Einheiten unterhalb des Mittelwertes liegt. Und zu t3 beträgt die erwartete Abweichung wegen der Korrelation von 0,48 nur noch 4,8. In einer großen Gruppe von Patienten mit dem Messwert von 1 zu t1 entsprächen die Werte 7,8 und 4,8 den zu erwartenden Gruppenmittelwerten.
An dieser Stelle muss betont werden, dass sich Regression zur Mitte zwar auf der Ebene individueller Messwerte definieren lässt, aber diese Definition immer eine bestimmte Stichprobe von Messwerten voraussetzt [3] [13]. Das bedeutet, dass sich die auf der individuellen Ebene regressionsanalytisch vorhergesagten Messwerte ändern, wenn sich - etwa durch den Ausschluss bestimmter Personen oder durch die Neuzuordnung einer individuellen Person zu einer anderen Erhebungsgruppe - die Referenzstichprobe ändert. Für einen Patienten mit mittlerer Ausprägung der gesundheitsbezogenen Lebensqualität z. B. würde man erwarten, dass sich seine Lebensqualität erhöht, wenn er Mitglied einer Stichprobe von Rehabilitanden mit hoher Lebensqualität ist. Hingegen würde eine Verringerung erwartet, wenn die Referenzstichprobe von Patienten mit niedriger Lebensqualität gebildet wird. Dies verdeutlicht, dass die Regression zur Mitte nicht eine einem individuellen Prä-Wert innewohnende Kraft darstellt, die festlegt, zu welchem Post-Wert er zu regredieren hat. Vielmehr bestimmen die jeweiligen Stichprobenverhältnisse, welche relativen Veränderungen bei der Interpretation von individuellen Veränderungen beachtet werden müssen.
#Regression zur Mitte auch in den Messwerten?
Bisher haben wir festgestellt, dass der Regressionseffekt - bei Messwertreihen, die in linearem Zusammenhang stehen und nicht perfekt korrelieren - immer auftritt, wenn man sich auf die relative Lage der Extremgruppenmittelwerte zum Gesamtmittelwert bezieht. Die relative Lage der Extremgruppenmittelwerte wird deutlich, wenn Merkmalsstreuungen und Mittelwerte der verschiedenen Messwertreihen konstant sind. In unserem Datenbeispiel in Tab. [1] haben wir deshalb bewusst Streuungs- und Mittelwertsgleichheit zwischen den drei Messwertreihen hergestellt, und zwar in diesem Fall durch die besondere Restriktion, dass jeder Messwert (im Bereich 1 - 21) in jeder Messwertreihe genau einmal vorkommt. Diese spezielle Restriktion trifft normalerweise natürlich nicht zu. Im Allgemeinen erreicht man Streuungs- und Mittelwertgleichheit dadurch, dass man die Messwertreihen standardisiert, d. h. linear so transformiert, dass sie jeweils einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen [26]. Die Feststellung, dass - bei linearem Zusammenhang und nicht perfekter Korrelation - Regression zur Mitte immer auftritt, wenn man sich auf die relative Lage der Extremgruppenmittelwerte bezieht, impliziert, dass sich der Regressionseffekt bei standardisierten Merkmalen immer zeigt.
Bei nichtzeitlich verbundenen Messungen - z. B. wenn an denselben Personen unterschiedlich skalierte Merkmale zum gleichen Messzeitpunkt erhoben werden - ist eine Standardisierung zumeist unumgänglich, da nur bei einer Vereinheitlichung der unterschiedlichen Metriken sinnvolle Vergleiche durchgeführt werden können. Dies ist vermutlich der Grund dafür, dass Regression zur Mitte klassischerweise für standardisierte Werte definiert wird [3] [5] [17]. Bei zeitlich verbundenen Messungen - wenn also an denselben Personen das gleiche Merkmal mehrmals gemessen wird - wird hingegen zu den verschiedenen Messzeitpunkten in der Regel dasselbe Erhebungsinstrument eingesetzt, sodass die Metrik nicht vereinheitlicht werden muss. Im Gegenteil: Im Rahmen von Evaluationsstudien wäre eine implizite Gleichsetzung der Mittelwerte durch messzeitpunktspezifische Standardisierung sogar unangebracht, weil es ja gerade darum geht, eine Mittelwertveränderung im Studienverlauf nachzuweisen.
Bei Messwiederholungsdesigns werden die Zusammenhänge zwischen den Messwertreihen also gewöhnlich auf der Grundlage der ursprünglichen Messwerte analysiert. Meistens zeigt sich dann auch bei Betrachtung der absoluten Messwerte Regression zur Mitte. Aufgrund von Mittelwertveränderungen oder Streuungsunterschieden zwischen den Messwertreihen gibt es aber Sonderfälle, in denen in den absoluten Messwerten keine Regression zur Mitte zu beobachten ist [19]. Erst wenn man die relative Lage der Messwerte betrachtet, wird die Regression zur Mitte wieder unmittelbar erkennbar.
So kann u. U. auch bei Patienten mit hoher Ausprägung zum Prä-Messzeitpunkt eine Verbesserung der absoluten Werte beobachtet werden, wenn insgesamt eine deutliche Verbesserung der gesundheitsbezogenen Lebensqualität eintritt. Regression zur Mitte drückt sich dann darin aus, dass die Verbesserung der Patienten mit sehr guten Ausgangswerten geringer ausfällt als bei den übrigen Patienten: Die relative Verbesserung fällt also schwächer aus, auch wenn sich die absoluten Werte in positiver Richtung verändern.
Auch bei einer deutlichen Streuungserhöhung in der Gesamtstichprobe kann es sein, dass sich bei Betrachtung der absoluten Messwerte keine Regression zur Mitte zeigt. Hierfür muss gleichzeitig gelten, dass die relativen Positionen vom Prä- zum Post-Messzeitpunkt eine hohe Stabilität aufweisen. Ein prominentes Beispiel für diesen Sonderfall ist die Beobachtung: „Arme werden ärmer, Reiche werden reicher.” Auch hier offenbart erst die relative Betrachtung den Regressionseffekt: Die extrem Armen zum Prä-Messzeitpunkt sind zum Post-Messzeitpunkt im Durchschnitt relativ weniger arm, und die extrem Reichen zum Prä-Messzeitpunkt sind zum Post-Messzeitpunkt im Durchschnitt relativ weniger reich.
Abschließend sei noch auf Folgendes hingewiesen: Wir haben mehrfach betont, dass sowohl bei standardisierten als auch bei absoluten Werten ein linearer Zusammenhang zwischen den Messwertreihen vorliegen muss, damit Regression zur Mitte wie beschrieben auftritt. Ein Zusammenhang zwischen zwei Messwertreihen ist linear, wenn er grafisch adäquat durch eine Gerade wiedergegeben wird. Ist der Zusammenhang zwischen zwei Messwertreihen hingegen nicht linear, wird er also grafisch besser durch eine Kurve beschrieben, können - sowohl bei standardisierten als auch bei absoluten Werten - Situationen auftreten, in denen es in den Extremgruppen zu durchschnittlichen Bewegungen „weg vom Mittelwert” kommt [13] [16]. Zuweilen findet sich in der Literatur zusätzlich der irreführende Hinweis, dass Regression zur Mitte normalverteilte Werte voraussetzt. Zwar hängen bivariat normalverteilte Variablen stets linear zusammen. Der Regressionseffekt tritt aber auch auf, wenn die Messwerte nicht normalverteilt sind. Die Daten in Tab. [1], für die der Regressionseffekt auftritt, sind beispielsweise nicht normal-, sondern gleichverteilt. Zu beachten ist allerdings, dass im Falle nicht symmetrischer Verteilungen die Werte nicht zum arithmetischen Mittelwert regredieren müssen, sondern beispielsweise im Fall unimodaler Verteilungen eine Regression zum Modalwert auftreten kann [6] [7].
#Kontrolle der Regression zur Mitte bei Messwiederholungen
Regression zur Mitte stellt bei jedem Eingruppen-Prä-Post-Design eine bedenkenswerte Alternativerklärung dar und ist einer der Gründe für die unzureichende interne Validität dieses Untersuchungsplans [4]. Die im Eingruppen-Prä-Post-Design nach einer Intervention beobachteten Veränderungen können nicht kausal interpretiert, d. h. nicht allein auf die Intervention zurückgeführt werden, sondern auch durch konfundierende Ursachen zu Stande kommen; zu nennen sind der natürliche Krankheitsverlauf, Testeffekte und reaktive Effekte, andere zwischenzeitliche Einflüsse und eben die Regression zur Mitte. Dabei sind hinsichtlich des Regressionseffekts zwei Betrachtungsebenen zu unterscheiden:
Ein verfälschender Einfluss der Regression zur Mitte ergibt sich stets, wenn man nicht die gesamte Stichprobe analysiert, sondern - wie in unserem Datenbeispiel in Tab. [1] - auf der Basis der Prä-Werte (oder damit hoch korrelierender Variablen) extreme Substichproben bildet und separat auswertet (für ein Beispiel aus der rehabilitationswissenschaftlichen Forschung s. [27]). Ein solches Vorgehen ist auf jeden Fall zu vermeiden.
Aber auch wenn man eine solche Extremgruppenauswertung unterlässt, spielt der Regressionseffekt im Eingruppen-Prä-Post-Design eine Rolle: Häufig stellt die vorliegende Stichprobe bereits als Ganzes - im Vergleich zur zugrunde liegenden Population - eine mehr oder weniger extreme Gruppe dar. Das ist immer dann der Fall, wenn die Stichprobe nicht zufällig aus der Population gezogen wurde. Eine nicht zufällige Stichprobenziehung bedeutet nämlich zwangsläufig, dass bei der Zusammenstellung der Stichprobe eine explizite oder implizite Selektion stattgefunden hat. Dies führt immer zu einem mehr oder weniger großen Abstand zwischen Stichproben- und Populationsmittelwert und damit - in Relation zur Population - zu extremen Prä-Werten sowie einem Regressionseffekt in der Gesamtstichprobe. Um den Regressionseffekt gering zu halten, muss die Untersuchungsstichprobe also zufällig aus einer zuvor sorgfältig definierten Population gezogen werden. Nur dann ist die Wahrscheinlichkeit hoch, dass Stichproben- und Populationsmittelwert nahe beieinander liegen. In den meisten untersuchungspraktischen Fällen liegt allerdings keine Zufallsstichprobe vor.
Ein Beispiel: Wenn es darum geht, im Rahmen eines Eingruppen-Prä-Post-Designs die Wirksamkeit eines neuartigen, für definierte Rehabilitanden eines bestimmten Indikationsbereichs („Population”) konzipierten Patientenschulungsprogramms zu untersuchen, kann durch eine nicht zufällige Stichprobenziehung eine hinsichtlich der gesundheitsbezogenen Lebensqualität besonders belastete Untersuchungsstichprobe entstehen. Bewusst oder unbewusst werden möglicherweise gerade belastete und deshalb mutmaßlich besonders „geeignete” Patienten für diese neue Intervention vorgesehen oder schon im Vorhinein der Untersuchungsklinik zugewiesen. Möglicherweise tragen auch Selbstselektionsmechanismen zu einer belasteten Untersuchungsstichprobe bei, weil Rehabilitanden mit einer vergleichsweise hohen Lebensqualität seltener zu einer Teilnahme zu motivieren sind. Als Konsequenz stellt die Untersuchungsstichprobe kein zufälliges Abbild der zugrunde liegenden Population dar, und wir würden erwarten, dass sich die Untersuchungsstichprobe bereits wegen der Regression zur Mitte im Durchschnitt verbessert.
Lässt sich bei einer nicht zufälligen Stichprobenziehung die Regression zur Mitte im Eingruppen-Prä-Post-Design durch statistische Korrekturen abschätzen und damit kontrollieren? Tatsächlich werden in der Literatur eine Vielzahl von Korrekturformeln für diesen Fall vorgeschlagen. Einige beruhen auf der Momentenmethode (z. B. [15]), andere auf anspruchsvolleren Maximum-Likelihood-Schätzungen (z. B. [21]). Einige Autoren versuchen, den Regressionseffekt auf latenter Ebene zu modellieren (z. B. [18]). Um diese Korrekturvorschläge valide anwenden zu können, müssen allerdings spezifische Kenntnisse über die Verteilungsparameter in der Population sowie über die Charakteristika der Stichprobenziehung und des Behandlungseffekts vorhanden sein. Dies ist in der Forschungspraxis jedoch nur selten der Fall.
Der beste Weg zur Kontrolle der Regression zur Mitte ist deshalb die randomisierte Zuweisung der Rehabilitanden zu einer Fallgruppe (z. B. Rehabilitanden mit Patientenschulung) und einer Kontrollgruppe (z. B. Rehabilitanden ohne Patientenschulung, aber gleicher Therapiedichte). Ziel der Randomisierung ist es, in den zu vergleichenden Gruppen eine möglichst hohe Strukturgleichheit hinsichtlich bekannter und unbekannter Einflussgrößen herzustellen, um einen etwaigen Post-Unterschied zwischen den Gruppen kausal auf die untersuchte Intervention (z. B. die Patientenschulung) zurückführen zu können. Wenn sich Fall- und Kontrollgruppe nur in der durchgeführten Maßnahme unterscheiden, kann der Unterschied zwischen den Post-Mittelwerten der beiden Gruppen also komplett der Intervention zugeschrieben werden [24]. Das Prinzip der Randomisierung ist somit auch der beste Weg, um einen verfälschenden Einfluss der Regression zur Mitte zu vermeiden. Der Regressionseffekt wird kontrolliert, weil er sich in Fall- und Kontrollgruppe in der gleichen Weise auswirkt.
Ist eine Randomisierung nicht möglich, kann ersatzweise versucht werden, eine hinsichtlich der Ausgangswerte parallelisierte Kontrollgruppe zu bilden („Matching”). Wenn aus derselben zugrunde liegenden Population für jeden Teilnehmer der Fallgruppe ein hinsichtlich des Prä-Wertes identischer Partner für die parallelisierte Kontrollgruppe gefunden wird, stellt das Matching eine geeignete Strategie dar, um die Regression zur Mitte als Alternativerklärung für die aufgetretenen Veränderungen auszuschließen. Allerdings gelingt die Parallelisierung in der Forschungspraxis häufig nur unvollständig. Eine valide Kontrolle des Regressionseffekts ist dann infrage gestellt [3] [9].
Liegt lediglich eine „natürliche” (nicht vom Forscher gebildete) Vergleichsgruppe vor, wird die Regression zur Mitte häufig kovarianzanalytisch zu kontrollieren versucht, indem die unterschiedlichen Ausgangswerte nachträglich statistisch herausgerechnet werden. Dieses Vorgehen vernachlässigt allerdings die Frage, auf welche Weise die beiden Gruppen zu Stande gekommen sind. Fall- und natürliche Vergleichsgruppe entstammen häufig unterschiedlichen Populationen, sodass die gruppenspezifischen Ausgangswerte zu unterschiedlichen Mittelwerten regredieren. Die Kovarianzanalyse ermöglicht deshalb bei einer natürlichen Vergleichsgruppe nur in Ausnahmefällen eine adäquate Kontrolle; vielmehr wird der Regressionseffekt gewöhnlich unterschätzt [3].
#Fazit
Die Regression zur Mitte ist ein wichtiger zu berücksichtigender Effekt, wenn es um Versuchsplanung und Ergebnisinterpretation insbesondere im Rahmen von Längsschnittuntersuchungen geht. Wenn die Untersuchungsstichprobe in einem unkontrollierten Design eine durch explizite oder implizite Selektion entstandene Extremgruppe darstellt, können die nachfolgenden Veränderungen in der Stichprobe auch durch diese Selektion zu Stande gekommen sein. Es besteht somit die Gefahr, dass der Regressionseffekt mögliche Behandlungseffekte verfälscht. Die „Regressionsfalle” ist für viele Fehlinterpretationen in der medizinischen und sozialwissenschaftlichen Forschung verantwortlich [1] [2] [14] und spiegelt sich auch in Fehlbeurteilungen im Alltagsleben wider [8] [12] [23]. Angesichts dieser Häufigkeit warnen Campbell u. Kenny ([3], S. ix) eindringlich davor, den Regressionseffekt zu negieren, indem sie - vielleicht etwas zu stark, aber prägnant - konstatieren: „Regression toward the mean is as inevitable as death and taxes.”
#Literatur
- 1 Andersen B. Methodological errors in medical research. Oxford; Blackwell 1990
- 2 Bland J M, Altman D G. Statistics notes: Some examples of regression towards the mean. British Medical Journal. 1994; 309 780-782
- 3 Campbell D T, Kenny D A. A primer on regression artifacts. New York; Guilford 1999
- 4 Cook T D, Campbell D T. Quasi-experimentation - design and analysis issues for field settings. Chicago, IL; Rand McNally 1979
- 5 Cronbach L J, Furby L. How we should measure „change” - or should we?. Psychological Bulletin. 1970; 74 68-80
- 6 Das P, Mulder P GH. Regression to the mode. Statistica Neerlandica. 1983; 37 15-20
-
7 Davis C E.
Regression to the mean. In: Johnson NL, Kotz S (eds) Encyclopedia of statistical sciences, Vol. 8. New York; Wiley 1986: 706-708 - 8 Fiedler K. Die Regressionsfalle. Ursache vieler Denkfehler und Fehlbeurteilungen. Ruperto Carola, Forschungsmagazin der Universität Heidelberg. 2000; (2) 16-22 , - verfügbar im Internet unter: www.uni-heidelberg.de/presse/ruca/ruca2_2000/falle.html (aufgerufen 5.4.2005)
- 9 Furby L. Interpreting regression toward the mean in developmental research. Developmental Psychology. 1973; 8 172-179
- 10 Galton F. Regression toward mediocrity in hereditary stature. Journal of the Anthropological Institute. 1886; 15 246-263
- 11 Gerdes N. Bewirken Rehamaßnahmen eine Abnahme der Arbeitsunfähigkeit? Eine Fall-Kontroll-Studie. Stuttgart; Thieme 1993
- 12 Gibbons R D, Hedeker D, Davis J M. Regression toward the mean: More on the price of beer and the salaries of priests. Psychoneuroendocrinology. 1987; 12 185-192
- 13 Healy M JR, Goldstein H. Regression to the mean. Annals of Human Biology. 1978; 5 277-280
- 14 Ingelfinger J A, Mosteller F, Thibodeau L, Ware J H. Biostatistics in clinical medicine. 3. Aufl. New York; McGraw-Hill 1994
- 15 James K E. Regression toward the mean in uncontrolled clinical studies. Biometrics. 1973; 29 121-130
- 16 Nachtigall C, Suhl U. Der Regressionseffekt. Mythos und Wirklichkeit (methodenreport 4[2]). Jena; Friedrich-Schiller-Universität, Institut für Psychologie 2002 - verfügbar im Internet unter: www2.uni-jena.de/svw/metheval/materialien/reports/report_2002_02.pdf (aufgerufen 5.4.2005)
- 17 Nesselroade J, Stigler S, Baltes P. Regression toward the mean and the study of change. Psychological Bulletin. 1980; 88 622-637
-
18 Raykov T.
Studying true change patterns via structural equation modeling. In: Steyer R, Wender KF, Widaman KF (eds) Psychometric methodology. Proceedings of the 7th European Meeting of the Psychometric Society in Trier. Stuttgart; Fischer 1993: 430-434 -
19 Rogosa D.
Myths about longitudinal research. In: Schaie KW, Campbell RT, Rawlings SC (eds) Methodological issues in aging research. New York; Springer 1988: 171-209 - 20 Rothermund K. Analyse längsschnittlicher Veränderungen in Strukturgleichungsmodellen. Trierer Psychologische Berichte. 2003; 30 (1) , - verfügbar im Internet unter: www.psychologie.uni-trier.de/tripsyberichte/2003/2003_30_1.pdf (aufgerufen 5.4.2005)
- 21 Senn S J, Brown R A. Maximum likelihood estimation of treatment effects for samples subject to regression to the mean. Communications in Statistics, Theory and Methods. 1989; 18 3389-3406
- 22 Stallmann M. Statistisch-methodische Anmerkungen zum epidemiologischen Arbeitsunfähigkeitstrend. Gesundheitswesen. 1996; 58 303-313
- 23 Taylor J, Cuave K L. The sophomore slump among professional baseball players: Real or imagined?. International Journal of Sport Psychology. 1994; 25 230-239
- 24 Vickers A J, Altman D G. Analysing controlled trials with baseline and follow up measurement. British Medical Journal. 2001; 323 1123-1124
- 25 Wagner H. Fehlerquellen bei Kurerfolgsbeurteilungen mittels Arbeitsausfallzeiten wegen Krankheit. Zeitschrift für Physiotherapie. 1977; 29 313-338
- 26 Wirtz M, Nachtigall C. Deskriptive Statistik. Statistische Methoden für Psychologen, Teil 1. 3. Aufl. Weinheim; Juventa 2004
- 27 Zwingmann C. Zielorientierte Ergebnismessung (ZOE) mit dem IRES-Patientenfragebogen: Eine kritische Zwischenbilanz. Rehabilitation. 2003; 42 226-235
1 Häufig werden darüber hinaus die Effekte kompensatorischer Gegenprozesse, die durch extreme Merkmalsausprägungen aktiviert werden, ebenfalls zur Regression zur Mitte gezählt [20]. Beispielsweise ist es denkbar, dass hohe AU-Zeiten - auch ohne rehabilitative Behandlung - systematische Verhaltensänderungen auslösen, die zu einer überproportionalen Abnahme der AU-Zeiten führen. Solche „Spontanremissionen” werden mit der Begründung unter die Regression zur Mitte subsumiert, dass es allein auf der Grundlage eines zu zwei Messzeitpunkten gemessenen Merkmals empirisch nicht möglich ist, zwischen zufallsbedingten Veränderungen einerseits und inhaltlich bedeutsamen kompensatorischen Effekten andererseits zu unterscheiden [20]. Hierfür wären zusätzliche empirische Folgeuntersuchungen mit theoretisch abgeleiteten Vorhersagevariablen erforderlich.
2 Die zufällige Erzeugung der Datenreihen erfolgte in mehreren Schritten unter Zuhilfenahme der Zufallswerteprozedur rv.normal in SPSS: Zunächst wurde eine kontinuierliche, standardnormalverteilte Zufallsvariable X1 generiert. Anschließend wurde zu X1 eine normalverteilte Variable mit Varianz 1 hinzuaddiert. Nach Standardisierung dieser neuen Variablen X2 wurde in identischer Weise - ausgehend von den X2-Werten - eine Zufallsvariable X3 erzeugt. Die „Messwerte” in Tab. [1] zu t1, t2 bzw. t3 entsprechen den aufsteigenden Rangreihen der kontinuierlichen Werte in X1, X2 bzw. X3.
3 Hier und im Folgenden verwenden wir die Begriffe „Korrelation” und „Zusammenhang” im Sinne einer positiven Korrelation bzw. eines positiven Zusammenhangs, obwohl alle Eigenschaften des Regressionseffekts für den Betrag der Korrelation und damit in gleicher Weise für negative Beziehungen gelten.
Dr. Christian Zwingmann
Verband Deutscher Rentenversicherungsträger · Rehabilitationswissenschaftliche Abteilung
Hallesche Straße 1
10963 Berlin
eMail: christian.zwingmann@vdr.de
Literatur
- 1 Andersen B. Methodological errors in medical research. Oxford; Blackwell 1990
- 2 Bland J M, Altman D G. Statistics notes: Some examples of regression towards the mean. British Medical Journal. 1994; 309 780-782
- 3 Campbell D T, Kenny D A. A primer on regression artifacts. New York; Guilford 1999
- 4 Cook T D, Campbell D T. Quasi-experimentation - design and analysis issues for field settings. Chicago, IL; Rand McNally 1979
- 5 Cronbach L J, Furby L. How we should measure „change” - or should we?. Psychological Bulletin. 1970; 74 68-80
- 6 Das P, Mulder P GH. Regression to the mode. Statistica Neerlandica. 1983; 37 15-20
-
7 Davis C E.
Regression to the mean. In: Johnson NL, Kotz S (eds) Encyclopedia of statistical sciences, Vol. 8. New York; Wiley 1986: 706-708 - 8 Fiedler K. Die Regressionsfalle. Ursache vieler Denkfehler und Fehlbeurteilungen. Ruperto Carola, Forschungsmagazin der Universität Heidelberg. 2000; (2) 16-22 , - verfügbar im Internet unter: www.uni-heidelberg.de/presse/ruca/ruca2_2000/falle.html (aufgerufen 5.4.2005)
- 9 Furby L. Interpreting regression toward the mean in developmental research. Developmental Psychology. 1973; 8 172-179
- 10 Galton F. Regression toward mediocrity in hereditary stature. Journal of the Anthropological Institute. 1886; 15 246-263
- 11 Gerdes N. Bewirken Rehamaßnahmen eine Abnahme der Arbeitsunfähigkeit? Eine Fall-Kontroll-Studie. Stuttgart; Thieme 1993
- 12 Gibbons R D, Hedeker D, Davis J M. Regression toward the mean: More on the price of beer and the salaries of priests. Psychoneuroendocrinology. 1987; 12 185-192
- 13 Healy M JR, Goldstein H. Regression to the mean. Annals of Human Biology. 1978; 5 277-280
- 14 Ingelfinger J A, Mosteller F, Thibodeau L, Ware J H. Biostatistics in clinical medicine. 3. Aufl. New York; McGraw-Hill 1994
- 15 James K E. Regression toward the mean in uncontrolled clinical studies. Biometrics. 1973; 29 121-130
- 16 Nachtigall C, Suhl U. Der Regressionseffekt. Mythos und Wirklichkeit (methodenreport 4[2]). Jena; Friedrich-Schiller-Universität, Institut für Psychologie 2002 - verfügbar im Internet unter: www2.uni-jena.de/svw/metheval/materialien/reports/report_2002_02.pdf (aufgerufen 5.4.2005)
- 17 Nesselroade J, Stigler S, Baltes P. Regression toward the mean and the study of change. Psychological Bulletin. 1980; 88 622-637
-
18 Raykov T.
Studying true change patterns via structural equation modeling. In: Steyer R, Wender KF, Widaman KF (eds) Psychometric methodology. Proceedings of the 7th European Meeting of the Psychometric Society in Trier. Stuttgart; Fischer 1993: 430-434 -
19 Rogosa D.
Myths about longitudinal research. In: Schaie KW, Campbell RT, Rawlings SC (eds) Methodological issues in aging research. New York; Springer 1988: 171-209 - 20 Rothermund K. Analyse längsschnittlicher Veränderungen in Strukturgleichungsmodellen. Trierer Psychologische Berichte. 2003; 30 (1) , - verfügbar im Internet unter: www.psychologie.uni-trier.de/tripsyberichte/2003/2003_30_1.pdf (aufgerufen 5.4.2005)
- 21 Senn S J, Brown R A. Maximum likelihood estimation of treatment effects for samples subject to regression to the mean. Communications in Statistics, Theory and Methods. 1989; 18 3389-3406
- 22 Stallmann M. Statistisch-methodische Anmerkungen zum epidemiologischen Arbeitsunfähigkeitstrend. Gesundheitswesen. 1996; 58 303-313
- 23 Taylor J, Cuave K L. The sophomore slump among professional baseball players: Real or imagined?. International Journal of Sport Psychology. 1994; 25 230-239
- 24 Vickers A J, Altman D G. Analysing controlled trials with baseline and follow up measurement. British Medical Journal. 2001; 323 1123-1124
- 25 Wagner H. Fehlerquellen bei Kurerfolgsbeurteilungen mittels Arbeitsausfallzeiten wegen Krankheit. Zeitschrift für Physiotherapie. 1977; 29 313-338
- 26 Wirtz M, Nachtigall C. Deskriptive Statistik. Statistische Methoden für Psychologen, Teil 1. 3. Aufl. Weinheim; Juventa 2004
- 27 Zwingmann C. Zielorientierte Ergebnismessung (ZOE) mit dem IRES-Patientenfragebogen: Eine kritische Zwischenbilanz. Rehabilitation. 2003; 42 226-235
1 Häufig werden darüber hinaus die Effekte kompensatorischer Gegenprozesse, die durch extreme Merkmalsausprägungen aktiviert werden, ebenfalls zur Regression zur Mitte gezählt [20]. Beispielsweise ist es denkbar, dass hohe AU-Zeiten - auch ohne rehabilitative Behandlung - systematische Verhaltensänderungen auslösen, die zu einer überproportionalen Abnahme der AU-Zeiten führen. Solche „Spontanremissionen” werden mit der Begründung unter die Regression zur Mitte subsumiert, dass es allein auf der Grundlage eines zu zwei Messzeitpunkten gemessenen Merkmals empirisch nicht möglich ist, zwischen zufallsbedingten Veränderungen einerseits und inhaltlich bedeutsamen kompensatorischen Effekten andererseits zu unterscheiden [20]. Hierfür wären zusätzliche empirische Folgeuntersuchungen mit theoretisch abgeleiteten Vorhersagevariablen erforderlich.
2 Die zufällige Erzeugung der Datenreihen erfolgte in mehreren Schritten unter Zuhilfenahme der Zufallswerteprozedur rv.normal in SPSS: Zunächst wurde eine kontinuierliche, standardnormalverteilte Zufallsvariable X1 generiert. Anschließend wurde zu X1 eine normalverteilte Variable mit Varianz 1 hinzuaddiert. Nach Standardisierung dieser neuen Variablen X2 wurde in identischer Weise - ausgehend von den X2-Werten - eine Zufallsvariable X3 erzeugt. Die „Messwerte” in Tab. [1] zu t1, t2 bzw. t3 entsprechen den aufsteigenden Rangreihen der kontinuierlichen Werte in X1, X2 bzw. X3.
3 Hier und im Folgenden verwenden wir die Begriffe „Korrelation” und „Zusammenhang” im Sinne einer positiven Korrelation bzw. eines positiven Zusammenhangs, obwohl alle Eigenschaften des Regressionseffekts für den Betrag der Korrelation und damit in gleicher Weise für negative Beziehungen gelten.
Dr. Christian Zwingmann
Verband Deutscher Rentenversicherungsträger · Rehabilitationswissenschaftliche Abteilung
Hallesche Straße 1
10963 Berlin
eMail: christian.zwingmann@vdr.de