Rehabilitation (Stuttg) 2019; 58(04): 274-281
DOI: 10.1055/s-0043-124334
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag KG Stuttgart · New York

Die Mehrebenenanalyse als Verfahren zur Analyse rehabilitationswissenschaftlicher Forschungsfragen

Multilevel Analysis as a Tool to Analyze Research Questions in Rehabilitation Science
Markus Antonius Wirtz
Further Information

Korrespondenzadresse

Prof. Dr. Markus Antonius Wirtz
Abteilung für Forschungsmethoden
Institut für Psychologie
Kartäuserstraße 47
79102 Freiburg

Publication History

Publication Date:
22 January 2018 (online)

 

Zusammenfassung

In rehabilitationswissenschaftlichen Studien liegen oft Daten vor, die Informationen auf unterschiedlichen hierarchischen Ebenen repräsentieren. Hierarchische Stichprobenstrukturen sind dadurch gekennzeichnet, dass Stichprobenmitglieder (z. B. Rehabilitanden) als gruppiert oder als Mitglieder natürlicher Teileinheiten (Cluster; z. B. Teams, Gruppen, Einrichtungen) betrachtet werden müssen. Werden bspw. Daten von Rehabilitanden aus verschiedenen Einrichtungen analysiert, so muss davon ausgegangen werden, dass die Zugehörigkeit zu der jeweiligen Einrichtung (Ebene 2; Cluster-Einheiten) mit der Ausprägung der Merkmale der Rehabilitanden (Ebene 1; Individualeinheiten) in Zusammenhang steht. Nehmen Rehabilitanden an verschiedenen Schulungsgruppen teil, so ist zu erwarten, dass die Ausprägung des Behandlungserfolgs der Rehabilitanden (Ebene 1) durch die Zugehörigkeit zu einer spezifischen Schulungsgruppe (Ebene 2) mit beeinflusst wird. Die Mehrebenenanalyse bzw. hierarchische lineare Modelle ermöglichen die simultane und integrierte Analyse von Daten unterschiedlicher Hierarchieebenen. In diesem Beitrag wird gezeigt, worauf bei der Erhebung hierarchisch strukturierter Stichproben, der Datenaufbereitung, der Hypothesenformulierung, der statistischen Datenanalyse und der Ergebnisinterpretation zu achten ist, damit Effekten der Clusterzugehörigkeit angemessen Rechnung getragen werden kann.


#

Abstract

Studies in rehabilitation science often investigate data representing different hierarchical data levels. Hierarchical sample structures prevail if single cases (e. g. rehabilitation patients) are grouped or are members of grouped entities or clusters (e. g. teams, groups, institutions), respectively. Analyzing data of rehabilitation patients treated in different institutions it has to be regarded that belonging to a specific institution (level 2; cluster-level) may be associated with individuals’ (level 1) characteristics systematically. If rehabilitation patients take part in different training groups, specific characteristics of the training groups (level 2) may affect treatment effects of individuals (level 1) significantly. Multilevel analysis or hierarchical linear models allow for simultaneously modelling such multilevel data structures in an integrative and comprehensive manner. In this article it will be shown which specific aspects concerning hierarchical sampling procedures, data organization, specification of research hypotheses, statistical data analysis as well as interpretation of study results have be regarded to model potential clustering effects appropriately.


#

Einleitung

In einer Studie sei der Behandlungserfolg von Rehabilitanden erhoben worden, die an einem Schulungsprogramm teilgenommen haben. Das Programm sei in Schulungsgruppen durchgeführt worden. Nun soll analysiert werden, welche Merkmale mit dem Behandlungserfolg in Zusammenhang stehen. Die Untersucher möchten insbesondere prüfen, ob die Belastung vor der Schulung und die Teilnahmemotivation der Rehabilitanden, das Gruppenklima sowie die pädagogische Erfahrung des Schulungsleiters den Behandlungserfolg vorhersagen. Jeder Schulungsleiter sei für die Leitung mehrerer Schulungsgruppen zuständig.

Wie in [Abb. 1] dargestellt, müssen in diesem Beispiel 3 Datenebenen bzw. 3 hierarchisch zueinander in Beziehung stehende Stichproben unterschieden werden: die Ebene der einzelnen Rehabilitanden (Ebene 1), die Ebene der Schulungsgruppen (Ebene 2) und die Ebene der Schulungsleiter (Ebene 3). Für jeden Rehabilitanden seien individuelle Merkmalsausprägungen erhoben worden (z. B. Geschlecht, Alter, Behandlungsmotivation, Diagnose). Die Schulungsgruppen können durch Merkmale charakterisiert werden, die die Gruppensituationen individuenübergreifend charakterisieren (z. B. Gruppengröße, Gruppenklima, Anzahl Schulungstermine). Da jeder Schulungsleiter mehrere Gruppen leitet, können für die Schulungsleiter Merkmale von Interesse sein, die sowohl rehabilitanden- als auch gruppenübergreifend definiert sind (z. B. Berufserfahrung, professioneller Hintergrund).

Zoom Image
Abb. 1 Hierarchisch geclusterte Stichprobenstrukturen auf 3 Ebenen.

Klassische Datenanalyseverfahren stoßen bei solchen Daten- bzw. Stichprobenstrukturen an ihre Grenzen. Klassische regressions-, varianz- oder faktorenanalytische Ansätze nehmen an, dass jedes Stichprobenmitglied zufällig in die Stichprobe aufgenommen wurde und dessen Merkmalsausprägungen unabhängig von den Ausprägungen anderer Stichprobenmitglieder sind [1]. Im Beispiel muss jedoch davon ausgegangen werden, dass die Gruppenzugehörigkeit und z. B. die Merkmale des Schulungsleiters Einfluss auf die Merkmalsausprägungen bzw. -veränderungen der einzelnen Teilnehmer haben. Ein erfahrener Schulungsleiter und ein gutes Gruppenklima sollten sich positiv auf alle Rehabilitanden einer Schulungsgruppe auswirken. Damit werden die Merkmalsausprägungen aller Mitglieder einer Gruppe simultan durch übergreifende Effekte beeinflusst. Die Unabhängigkeitsannahme ist also verletzt, weil Gruppen in sich eine besondere Homogenität aufweisen sollten und eine wechselseitige Abhängigkeit zwischen den Ebenen besteht.

Die Mehrebenenanalyse bietet hier einen angemessenen Analyseansatz [2] [3]. Sie kann angewendet werden, wenn jedes Mitglied einer unteren Datenebene eindeutig einer Einheit einer höheren Datenebene zugeordnet ist (hierarchische Datenstruktur): Jeder Rehabilitand muss also eindeutig einer Schulungsgruppe zugeordnet werden können und jede Schulungsgruppe muss eindeutig einem Schulungsleiter zugeordnet werden können, damit eine hierarchische Datenstruktur auf 3 Ebenen gegeben ist. Hierarchische Datenstrukturen werden auch als gruppiert oder „geclustert“ [engl. clustered] bezeichnet.

Weitere Beispiele für geclusterte Daten bzw. hierarchische Datenstrukturen:

  • Es werden Patienten (Ebene 1) untersucht, die von unterschiedlichen Hausärzten (Ebene 2) behandelt werden.

  • Rehabilitanden (Ebene 1) werden von einem Behandlungsteam (Ebene 2) betreut. Jedes Behandlungsteam gehört einer Abteilung (Ebene 3) an und jede Abteilung ist einer Rehabilitationseinrichtung (Ebene 4) zugeordnet.

  • Familienmitglieder (Ebene 1) gehören einer Familie (Ebene 2) an, Familien wohnen in einem Wohnort (Ebene 3). Der Wohnort befindet sich in einem Landkreis (Ebene 4).

Die Mehrebenenanalyse basiert auf Annahmen, die die hierarchische Struktur angemessen in Rechnung stellen [4] [5]: Somit liefert sie zum einen validiere statistische Befunde (Parameterschätzungen, Signifikanztestungen), zum anderen können Forschungshypothesen geprüft werden, die sich explizit auf unterschiedliche Datenebenen bzw. deren Zusammenhang beziehen.

Die Mehrebenenanalyse bzw. hierarchische lineare Modelle können als Erweiterung klassischer statistischer Verfahren für geclusterte Datenstrukturen aufgefasst werden [6]. Da die Prinzipien der Mehrebenenanalyse für die Regressionsanalyse am besten verdeutlicht werden können und für diese Fragestellung auch am häufigsten zum Einsatz kommen (z. B. [1]), wird zur Veranschaulichung eine regressionsanalytische Fragestellung gewählt. Im Folgenden werden nur 2 Ebenen betrachtet: Auch wenn eigentlich mehr als 2 Ebenen inhaltlich bedeutsam erscheinen, ist die analytische Trennung von mehr als 2 Ebenen aufgrund des erforderlichen Stichprobenumfangs und der Komplexität der statistischen Modelle in der Regel nur selten realisierbar.


#

Fragestellungen und Hypothesen der mehrebenenanalytischen Regressionsanalyse

Angenommen, es soll der Vorhersagewert des Ebene-1-Merkmals „Behandlungsmotivation“ und des Ebene-2-Merkmals „Gruppenklima“ für das abhängige Ebene-1-Merkmal „Behandlungserfolg“ bestimmt werden. Dann ergeben sich 3 regressionsanalytische Hypothesen:

  1. Ebene-1-Effekt: Ist die „Behandlungsmotivation“ der Rehabilitanden ein bedeutsamer Prädiktor für den „Behandlungserfolg“?

  2. Ebene-2-Effekt: Ist das „Gruppenklima“ ein bedeutsamer Prädiktor für den „Behandlungserfolg“?

  3. Wechselwirkung zwischen den Ebenen (Cross-Level-Interaktion): Variiert der Vorhersagewert des Ebene-1-Merkmals „Behandlungsmotivation“ in Abhängigkeit vom Ebene-2-Merkmal „Gruppenklima“? bzw.: Moderiert das „Gruppenklima“ den Vorhersagewert der „Behandlungsmotivation“?

Die Modellstruktur wird in [Abb. 2] veranschaulicht.

Zoom Image
Abb. 2 Variablenbeziehungen und geprüfte Modellkomponenten (Erläuterung der Ziffern s. Text) im Falle eines 2-Ebenenmodells mit jeweils einem ebenenspezifischen Prädiktor.

Der Haupteffekt des Ebene-1-Merkmals (Pfad 1 in [Abb.2]) entspricht inhaltlich demjenigen, der auch bei Anwendung einer klassischen Regressionsanalyse ermittelt wird, da sowohl der Prädiktor „Behandlungsmotivation“ als auch das abhängige Merkmal „Behandlungserfolg“ auf Ebene 1 lokalisiert sind. Durch die Mehrebenenanalyse wird jedoch die auf die hierarchische Struktur der Stichprobe zurückgehende Information statistisch berücksichtigt: Es resultiert eine Schätzung der Vorhersagegewichte und Standardfehler, die Effekte, die mit der Gruppenzugehörigkeit in Zusammenhang stehen (s. unten), in Rechnung stellt.

Der Haupteffekt des Ebene-2-Merkmals „Gruppenklima“ auf das Ebene-1-Merkmal „Behandlungserfolg“ (Pfad 4 in [Abb. 2]) repräsentiert den Vorhersagewert des Gruppenklimas der m Gruppen auf den Behandlungserfolg der n Personen. Hier wird also eine Beziehung zwischen den Ebenen hergestellt. Der große Vorteil besteht darin, dass die Ausprägung der Gruppen nicht als Charakteristikum jedes einzelnen Gruppenmitglieds verrechnet wird. Vor Etablierung der Mehrebenenanalyse wurde stattdessen das Verfahren der Disaggregation von Daten genutzt, wenn der Vorhersagewert sowohl von Gruppen- als auch von Individueneigenschaften simultan ermittelt werden sollte [3]. Bei der Disaggregation wird jedem Rehabilitanden die Ausprägung des Gruppenmerkmals individuell zuordnet, anschließend kann eine klassische Regressionsanalyse durchgeführt werden. Dieses Vorgehen ist jedoch nicht angemessen, da in der Regel eine systematische Unterschätzung der Fehlervarianzanteile in den Daten resultiert und damit das Risiko falsch positiver bzw. zu Unrecht signifikanter Ergebnisse ansteigt [4].

Der Interaktionseffekt zwischen den Datenebenen (Cross-Level-Interaktion) repräsentiert eine für den mehrebenenanalytischen Ansatz spezifische Information, die den analytischen Mehrwert des Verfahrens besonders verdeutlicht [7]. Eine Interaktion zwischen „Gruppenklima“ und „Behandlungsmotivation“ bedeutet, dass der Vorhersagewert der Behandlungsmotivation in Abhängigkeit vom Gruppenklima variiert (Pfad 5 in [Abb. 2]). So könnte die initiale Behandlungsmotivation der Rehabilitanden weniger entscheidend sein, wenn ein gutes Gruppenklima herrscht. Ist das Gruppenklima hingegen weniger positiv ausgeprägt, so könnte eine gute Behandlungsmotivation entscheidend für den Behandlungserfolg sein. Ein gutes Gruppenklima würde mangelnde Behandlungsmotivation kompensieren, während hohe Behandlungsmotivation wesentlich für den Erfolg wäre, wenn ein weniger positives Klima in der Gruppe herrscht.

Zum Verständnis der Analyseschritte ist es wichtig zu berücksichtigen, dass zunächst geprüft wird, ob die Gruppenzugehörigkeit grundsätzlich – unabhängig von spezifischen Merkmalen der Gruppen – die Zusammenhangsstärke auf Ebene 1 moderiert (Pfad 3 in [Abb. 2]; moderierender Effekt der Gruppenzugehörigkeit). Dass zugrunde liegende random-slopes-Modell ermöglicht die Bestimmung dieses Moderations- bzw. Interaktionseffekts. Random slopes – im Sinne von „zufällig variierende Vorhersagegewichte“ – bedeutet, dass der Zusammenhang der beiden Ebene-1-Merkmale – hier also „Behandlungsmotivation“ und „Behandlungserfolg“ – gruppenspezifisch geschätzt wird. Während bei klassischen Verfahren davon ausgegangen wird, dass die Behandlungsmotivation und der Behandlungserfolg in allen Gruppen gleich stark aneinander gekoppelt sind, ermöglicht das random-slopes-Modell das Aufheben dieser Homogenitätsannahme und eröffnet die Möglichkeit der Analyse und Modellierung der gruppenvarianten Zusammenhangsstärken. Besteht eine bedeutsame Variabilität der Zusammenhangsstärken zwischen den Gruppen, so kann anschließend analysiert werden, in welchem Maße diese Moderation mit Merkmalen der Gruppen (Pfad 5 in [Abb. 2]; Ebene-2-Prädiktoren der Cross-Level-Interaktion; z. B. Gruppenklima) in Zusammenhang steht. Liegt eine Cross-Level-Interaktion vor, so steht diese in der Regel nur z. T. mit erfassbaren Gruppenmerkmalen in Zusammenhang und nur ein Teil der Cross-level-Interaktion lässt sich explizit durch Level-2-Merkmale vorhersagen.

Wichtigste Vorteile des mehrebenenanalytischen Regressionsansatzes:
  1. Die Signifikanz von Ebene-1-Effekten (Vorhersage des abhängigen Rehabilitandenmerkmals durch ein anderes Rehabilitandenmerkmal) wird valide geprüft, da die Gruppierung der Daten berücksichtigt wird.

  2. Ebene-2-Effekte (Vorhersage des abhängigen Rehabilitandenmerkmals durch ein Gruppenmerkmal) können valider bestimmt werden, da auf Ebene 2 die Stichprobe der Gruppen und auf Ebene1 die Stichprobe der Rehabilitanden als verschiedene statistische Analyseeinheiten berücksichtigt werden.

  3. Der Vorhersagewert des untersuchten prädiktiven Rehabilitandenmerkmals für das abhängige Rehabilitandenmerkmal kann zwischen den Analysegruppen (Ebene-2-Einheiten) variieren (Cross-Level-Interaktion; moderierender Effekt der Gruppenzugehörigkeit).

  4. Besteht eine Cross-Level-Interaktion, kann geprüft werden, ob Gruppen- bzw. Ebene-2-Merkmale mit der variierende Zusammenhangsstärke des Ebene-1-Prädiktors und des Ebene-1-Kriteriums assoziiert sind (Ebene-2-Prädiktoren der Cross-Level-Interaktion).


#

Konkrete Durchführung einer mehrebenenanalytischen Untersuchung

Stichprobenstruktur und -umfang

In der Analysestichprobe müssen alle Elemente einer unteren Ebene (z. B. Rehabilitanden) eindeutig den Elementen einer höheren Ebene (z. B. Schulungsgruppe, Station) zugeordnet sein (hierarchische Datenstruktur). Das Programm HLM [3] verlangt, dass für jede Ebene ein einzelner Datensatz erstellt wird. Die Zuordnung der Elemente zwischen den Datenebenen bzw. Datensätzen wird über eine Schlüsselvariable (Clusterkennung) kodiert. In SPSS [8] oder MPLUS [9] müssen alle Informationen in einem Datensatz gespeichert sein und die Kennung der Clusterzugehörigkeit muss in einer Einzelvariable (z. B. Schulungsgruppe) eingetragen sein.

Bei der Bestimmung des erforderlichen Stichprobenumfangs muss für jede Datenebene sichergestellt werden, dass eine ausreichende Zahl an Analyseeinheiten (z. B. Rehabilitanden auf Ebene 1; Schulungsgruppen auf Ebene 2) erhoben wird. Es liegen Empfehlungen und Stichprobenkalkulationsprogramme vor, die die Bestimmung einer soliden Stichprobenstruktur ermöglichen [10] [11]. Als orientierende Grundempfehlung gilt die sogenannte 30-30-Regel: Es sollten mind. 30 Ebene-2-Einheiten untersucht werden, die jeweils wieder durch mind. 30 Einheiten auf Ebene 1 repräsentiert sind. Die resultierende Anzahl von N=900 Einzelfällen verdeutlicht den grundsätzlich hohen Anspruch an den Gesamtstichprobenumfang [3]. Während in der Analysepraxis die Unterschreitung von 30 Fällen auf Ebene 1 pro Ebene-2-Einheit als eher unkritisch angesehen wird, sollte auf Ebene 2 die Zahl von N=30 Gruppen nicht unterschritten werden. Hox [3] empfiehlt sogar mind. N=50 Ebene-2-Einheiten, wenn die Interaktion zwischen den Ebenen stabil analysiert werden soll.

Diese Empfehlungen resultieren insbesondere daraus, dass in der Statistik allgemein 30 zufällig selektierte Fälle erforderlich sind, damit belastbare Aussagen gemacht werden können. Im oben behandelten Beispiel der Schulungsgruppen besteht jedoch jede Gruppe aus weniger als 30 Personen. Vor allem wenn die Einzelgruppen vollständig erhoben werden können, sollte die Mehrebenenanalyse trotz der Unterschreitung der empfohlenen Gruppengrößen auf Ebene 1 angewendet werden. Die Alternative bestünde darin, die Mehrebenenstruktur zu vernachlässigen, was jedoch aufgrund der konzeptuellen Hintergründe nicht zu rechtfertigen ist. Hier besteht in der Praxis z. T. ein Dilemma, das trotz etablierter Stichprobengrößenempfehlungen keine wirkliche Alternative zum mehrebenenanalytischen Ansatz besteht, wenn diese Anzahl nicht erreicht wird. Im Zweifelsfall sollte die Datenanalyse sowohl unter Einsatz mehrebenenanalytischer als auch klassischer Verfahren, die die hierarchische Datenstrukturen ignorieren, durchgeführt und hinsichtlich der Stabilität der Ergebnisse kontrastiert werden.


#

Statistische Datenanalyse

Bei der statistischen Analyse werden sukzessive zunehmend komplexere Modelle definiert und getestet [12] [13]. Für jedes Modell werden die spezifizierten Effekte geschätzt und zusätzlich erhält man Informationen dazu, welcher Varianzanteil im Zielkriterium auf den unterschiedlichen Datenebenen noch unerklärt bleibt. Nur wenn ein substanzieller Varianzanteil unerklärt bleibt, sollte das nächstkomplexere Modell bestimmt werden. Obwohl im letzten Schritt (intercepts-and-slopes-as-outcomes-Modell, s. u.) eigentlich alle Parameter geschätzt werden, die gemäß der Hypothesen geprüft werden sollen, sollte dieses stufenweise Vorgehen zur Vermeidung statistischer Artefakte unbedingt eingehalten werden. Diese Schritte können für die Regressionsanalyse bspw. mit der Software SPSS [8] oder HLM [3] umgesetzt werden.

  1. Bestimmung der Intraklassenkorrelation Die Intraklassenkorrelation gibt an, welcher Anteil der Varianz der auf Ebene 1 lokalisierten abhängigen Variablen mit Unterschieden zwischen den Clustern auf Ebene 2 korrespondiert ([3]; Pfad 2 in [Abb. 2]). Ergäbe sich im oben genannten Beispiel eine Intraklassenkorrelation von 0,2, so würde dies bedeuten, dass 20 % der Varianz des Behandlungserfolgs auf Ebene der Schulungsgruppen (Ebene 2) liegt und 80% auf Ebene der Rehabilitanden (Ebene 1). Eine Intraklassenkorrelation von 0 impliziert, dass sich die Schulungsgruppen im Behandlungserfolg nicht unterscheiden. Je größer die Intraklassenkorrelation ausgeprägt ist, desto bedeutsamer ist der Unterschied zwischen den Schulungsgruppen, desto wichtiger ist es, die Mehrebenenstruktur in den Daten explizit zu berücksichtigen. Die Intraklassenkorrelation quantifiziert also die Variabilität des Behandlungserfolgs zwischen den Schulungsgruppen. Das unterliegende Analysemodell wird als Intercepts-only- bzw. baseline-Modell bezeichnet [3].

  2. Bestimmung des gruppenübergreifenden Vorhersagewerts des Ebene-1-Prädiktors bzw. Individualmerkmals Unter Berücksichtigung der hierarchischen Datenstruktur wird der Vorhersagewert des Ebene-1-Merkmals bestimmt, z. B. „Sagt die Behandlungsmotivation der Rehabilitanden den Behandlungserfolg vorher?“ Das spezifizierte Modell wird als Random-intercept-Modell bezeichnet. Dieses enthält ebenfalls die Annahmen des Intercept-only-Modells. Gemäß [Abb. 2] werden Pfad 1 und 2 geschätzt.

  3. Bestimmung des gruppenspezifischen Vorhersagewerts des Ebene-1-Prädiktors bzw. Individualmerkmals Es wird geprüft, ob der Vorhersagewert des Ebene-1-Prädiktors zwischen den Ebene-2-Einheiten variiert (Cross-Level-Interaktion), z. B.: „Unterscheidet sich der Vorhersagewert der Behandlungsmotivation für den Behandlungserfolg zwischen den Schulungsgruppen?“ Hierbei handelt es sich um das Random-slopes-Modell (s. oben), das die Annahmen des Random-intercepts-Modells um die zufällige Variation der Zusammenhänge zwischen den Gruppen erweitert. Gemäß [Abb. 2] werden Pfad 1, 2 und 3 geschätzt.

  4. Bestimmung des Vorhersagewerts eines Ebene-2- bzw. Gruppenmerkmals Es wird geprüft, ob ein Merkmal, das die Gruppen charakterisiert, die Kriteriumsvariable vorhersagt, z. B.: „Ist das Gruppenklima ein Prädiktor für den Behandlungserfolg der Rehabilitanden?“ Hier wird der durchschnittliche Behandlungserfolg innerhalb jeder Gruppe durch das Gruppenmerkmal „Gruppenklima“ vorhergesagt (Pfad 4 in [Abb. 2]; Modell: means-as-outcomes).

  5. Integrierte Bestimmung der Ebene-1- und Ebene-2-Prädiktion sowie des Interaktionseffekts Nachdem in den vorherigen Modellvarianten der Vorhersagewert des Individualmerkmals auf Ebene 1 (random-intercept-Modell; Pfad 1 in [Abb. 2]), des Gruppenmerkmals auf Ebene 2 (means-as-outcomes-Modell; Pfad 4 in [Abb. 2]) und die gruppenabhängige Variabilität des Vorhersagewerts des Individualmerkmals (random-slopes-Modell; Pfad 3 in [Abb. 2]) geprüft wurde, werden nun alle Effekte in einem Modell (intercepts-and-slopes-as-outcomes-Modell) gemeinsam geschätzt. Man erhält alle 3 zu prüfenden Schätzungen: das Vorhersagegewicht des Ebene-1-Prädiktors („Behandlungsmotivation“; Pfad 1 in [Abb. 2]), das Vorhersagegewicht des Ebene-2-Prädiktors („Gruppenklima“; Pfad 4 in [Abb. 2]) sowie den moderierenden Einfluss des Ebene-2-Merkmals auf den Vorhersagewert des Ebene-1-Prädiktors (Änderung des Vorhersagewerts der „Behandlungsmotivation“ je nach „Gruppenklima“; Pfad 5 in [Abb. 2]). Alle Pfade in [Abb. 2] werden hier simultan geschätzt.


#
#

Anwendungsbeispiel: Verstetigung von Effekten der stationären kardiologischen Rehabilitation im Rahmen hausärztlich betreuter Nachsorge

Am Ende der stationären kardiologischen Rehabilitation werden der Funktionszustand der Rehabilitanden sowie die individuelle soziale Unterstützung erhoben. Es werde untersucht, ob diese beiden Merkmale die Nachhaltigkeit der Rehaffekte in einer 6-Monats-Katamnese vorhersagen. Die Prädiktoren „Funktionszustand“ und „Soziale Unterstützung“ sowie die Kriteriumsvariable „Nachhaltigkeit“ charakterisieren den individuellen Zustand der Rehabilitanden. Entsprechend sind dies Merkmale der Individualebene (Ebene-1-Merkmale).

Im Anschluss an die Rehabilitation werden die Rehabilitanden durch ihren Hausarzt betreut. In jeder Hausarztpraxis werden jeweils mehrere Rehabilitanden betreut. Die Hausarztpraxen sind somit als Ebene-2-Einheiten zu betrachten. Es soll geprüft werden, ob sich die Nachhaltigkeit systematisch zwischen den Hausarztpraxen unterscheidet. Für die Hausarztpraxen sei bekannt, ob diese an einem Disease-Management-Programm (DMP) „Koronare Herzerkrankungen“ teilnehmen. Der Vorhersagewert der Information „DMP: ja vs. nein“ (Ebene-2-Prädiktor) für die Nachhaltigkeit soll ebenfalls untersucht werden.

Es ergebe sich eine Intraklassenkorrelation von 0,12: Dies bedeutet, dass 12% der Varianz in der Nachhaltigkeit mit der versorgenden Hausarztpraxis im Zusammenhang steht (Intercepts-only-Modell). Die Analyse mittels des random-intercepts-Modells weise die Regressionsgewichte der beiden Ebene-1-Prädiktoren als signifikant aus: Der „Funktionszustand“ bei Reha-Ende habe einen starken prädiktiven Wert für die Nachhaltigkeit, die „Soziale Unterstützung“ prädiziere die Nachhaltigkeit in mittelstarkem Maße. Das random-slopes-Modell zeige eine signifikante Variabilität der Vorhersagegewichte zwischen den Hausarztpraxen für den Prädiktor „Funktionszustand“ an, während der Vorhersagewert der „Sozialen Unterstützung“ nicht signifikant zwischen den Praxen variiert. Es muss also davon ausgegangen werden, dass der „Funktionszustand“ für die Nachhaltigkeit je nach Hauspraxis unterschiedlich prädiktiv ist, während der Vorhersagewert der „Sozialen Unterstützung“ praxenunabhängig konstant ist. Durch das means-as-outcomes-Modell könne nachgewiesen werden, dass die Nachhaltigkeit in Praxen, die am DMP (Ebene-2-Prädiktor) teilnehmen, signifikant höher ausfällt. Bei der Definition des intecepts-and-slopes-as-outcomes-Modells werden alle bei den bisherigen Modellanwendungen als bedeutsam nachgewiesenen prädiktiven Informationen berücksichtigt: die beiden Ebene-1-Prädiktoren „Funktionszustand“ und „Soziale Unterstützung“ und der Ebene-2-Prädiktor „DMP“. Da zudem eine bedeutsame Interaktion des Funktionszustands und der Praxenzugehörigkeit nachgewiesen wurde, wird geprüft, ob eine Cross-Level-Interaktion des Ebene-2-Merkmals „DMP“ und des Ebene-1-Merkmals „Funktionszustand“ besteht. Neben der Parameterschätzung und Signifikanzprüfung dieser Effekte erhält man für jede Ebene die Information, ob ein bedeutsamer Varianzanteil in der Kriteriumsvariable „Nachhaltigkeit“ unerklärt bleibt. Bleibt bspw. auf Ebene der Hausarztpraxen ein bedeutsamer Varianzanteil unerklärt, so ist es plausibel, dass weitere Ebene-2-Prädiktoren – also Merkmale der Hausarztpraxen – existieren, die eine zusätzliche systematische Varianzaufklärung ermöglichen. Ist der unaufgeklärte Varianzanteil hingegen nicht signifikant, so kann durch die Berücksichtigung weiterer Prädiktoren mit keiner verbesserten Vorhersage auf dieser Datenebene gerechnet werden.


#

Anwendungsbeispiel im Rahmen einer clusterrandomisierten Studie

In der stationären orthopädischen Rehabilitation soll eine neue Intervention zur Verbesserung der partizipativen Behandlungsplanung und -durchführung bei Rückenschmerzpatienten summativ evaluiert werden. 76 Stationen (Ebene-2-Einheiten; Cluster) erklären sich zur Teilnahme bereit. Im Rahmen eines Wartekontrollgruppendesigns werden die Stationen zufällig der Experimental- und der Wartekontrollgruppe (unabhängige Variable) zugewiesen [14]. Die Stufen der unabhängigen Variablen stellen somit ein Ebene-2- (bzw. Stations-)Merkmal dar: „0“=Wartekontrollgruppe, „1“=Experimentalgruppe. Zudem wird als Rehabilitandenmerkmal auf Ebene 1 die Intensität der Schmerzen zu Behandlungsbeginn erhoben. Als abhängiges Merkmal werde im Rahmen einer Katamnesebefragung erfragt, in welchem Maße empfohlene Verhaltensmaßnahmen im Alltag erfolgreich integriert und umgesetzt werden können. Von jeder der 76 Stationen nehmen zwischen 25 und 51 Rehabilitanden an der Studie teil. Die zentrale Hypothese besteht darin, dass das auf Stationsebene manipulierte Ebene-2-Merkmal „Intervention (ja vs. nein)“ die Ausprägung des abhängigen Ebene-1-Merkmals systematisch prädiziert: das auf Stationsebene implementierte Konzept zur partizipativen Behandlungsplanung und -durchführung sollte mit einem besseren Alltagstransfer auf Rehabilitandenebene einhergehen.

Die Intraklassenkorrelation betrage 0,14, sodass 14% der Varianz des abhängigen Merkmals mit der Stationszugehörigkeit assoziiert sind. Läge der Wert bei Null, so könnte aufgrund dieser Information bereits ausgeschlossen werden, dass eine Interventionswirkung vorliegt: Wenn sich die Stationen nicht unterscheiden würden, wäre auch kein Unterschied in Abhängigkeit von der Interventionsteilnahme möglich.

Da die Haupthypothese hier den Vorhersagewert des Ebene-2-Merkmals betrifft, wird zunächst das means-as-outcomes-Modell (s. Punkt 4 oben) geschätzt. Es ergebe sich ein signifikanter Vorhersagewert der Intervention, die 8% der Varianz des abhängigen Merkmals prädiziert. Somit können 57,1 % (0,08/0,14=0,571) der mit der Stationszugehörigkeit in Zusammenhang stehenden Stationsunterschiede im abhängigen Merkmal (bzw. der Intraklassenkorrelation) durch die Information der Zugehörigkeit zu der Interventions- vs. Kontrollgruppe erklärt werden. Da eine experimentelle Kontrolle erfolgte, kann die Wirksamkeit der Intervention als bestätigt gelten.

Für den Prädiktor Schmerzbelastung zu Behandlungsbeginn ergebe sich – unabhängig von der Intervention – im random-intercepts-Modell (Punkt 2 oben) ein signifikant positives Vorhersagegewicht: Je ausgeprägter die Schmerzbelastung zu Behandlungsbeginn ist, desto besser gelingt der Transfer in den Alltag. Zudem könne im random-slopes-Modell (Punkt 3 oben) nachgewiesen werden, dass die Zusammenhangsstärke der initialen Schmerzbelastung und dem Alltagstransfer zwischen den Stationen signifikant variiert. Durch die integrierte Betrachtung im Rahmen des intercepts-and slopes-as-outcomes-Modells zeige sich, dass die Intervention mit höheren Werten der abhängigen Variable einhergeht (Ebene-2-Effekt) und dieser positive Effekt der Intervention v. a. bei hoher initialer Belastung auftrete (Interaktion zwischen den Ebenen).

Wichtig ist hier anzumerken, dass die Clusterinformationen (hier: Stationszugehörigkeit) bei hierarchischen Datenstrukturen nicht mit den Ausprägungen der unabhängigen Variable verwechselt werden dürfen: Die Haupthypothese betrifft in diesem Beispiel den Effekt der Interventions- vs. Kontrollbedingung (unabhängige Variable). Neben der Zugehörigkeit zur Interventions- vs. Kontrollgruppe unterscheiden sich die Stationen aber auch zufallsbedingt oder ggf. aufgrund trotz experimenteller Zuweisung nicht kontrollierter Störgrößen. Die Mehrebenenanalyse zerlegt die Varianz der abhängigen Variable zwischen den Stationen in einen erklärbaren (hier: durch die Interventions- vs. Kontrollgruppenzugehörigkeit bedingten) und einen nicht erklärbaren, unsystematischen Anteil. Ist der durch die Intervention erklärbare Varianzanteil signifikant, belegt dies den Effekt der Intervention. Ist der unsystematische Varianzanteil signifikant, so spricht dies dafür, dass sich die Stationen nicht nur hinsichtlich der Interventionsteilnahme und Zufallseffekten unterscheiden, sondern darüber hinaus bedeutsame Stationseffekte wirksam werden. Hieraus würde die Identifikation weiterer auf Stationsebene potenziell wirksamer Einflussgrößen als Forschungsdesiderat nahe gelegt.


#

Aggregierte Daten und Zentrierung von Daten

Merkmale einer höheren Datenebene können entweder direkt ebenenbezogen erhoben werden oder durch Aggregation der Daten einer unteren Ebene ermittelt werden [3]. So könnte ein neutraler Beobachter das Gruppenklima einschätzen. Hier würde für jede Gruppe ein einziger Wert als Indikator erhoben und als Gruppenmerkmal in die Analyse eingehen. Alternativ könnten jedoch auch alle Gruppenmitglieder das Gruppenklima individuell einschätzen. Der Mittelwert der Einschätzung aller Mitglieder einer Gruppe könnte dann als aggregierter Indikator des Gruppenklimas angesehen werden. Der gruppenspezifische Mittelwert des eingeschätzten Gruppenklimas wäre entsprechend ein Indikator der Ebene 2, obwohl dieser auf Basis der Angabe der Rehabilitanden (Ebene 1) ermittelt wurde.

Wenn die aggregierten Daten als Gruppenindikatoren betrachtet werden, kann es zusätzlich sinnvoll sein, die Abweichung der Angabe der Rehabilitanden vom Mittelwert seiner jeweiligen Gruppe zu betrachten. Angenommen, das Gruppenklima wurde in der Gesamtstichprobe aller befragten Rehabilitanden im Durchschnitt mit 50 eingeschätzt (Gesamtmittelwert). Für eine bestimmte Schulungsgruppe k liege der Durchschnitt der befragten Gruppenmitglieder bei 60: Es handelt sich damit um eine Gruppe mit einem als überdurchschnittlich eingeschätzten Gruppenklima. Hat nun ein Rehabilitand dieser Gruppe das Gruppenklima mit 55 beurteilt, so ist dieser Wert in Bezug auf den Gesamtmittelwert von 50 als hoch zu werten (55–50=+ 5), wohingegen derselbe Wert in Referenz zum Mittelwert der Schulungsgruppe vergleichsweise niedrig ausgeprägt ist (55–60=− 5). Bezogen auf die Angaben in seiner Schulungsgruppe schätzt er das Gruppenklima vergleichsweise schlecht ein. Bezogen auf die Angaben in der Gesamtstichprobe schätzt er das Gruppenklima vergleichsweise gut ein.

Wird die Differenz der Werte der Gruppenmitglieder auf den Gruppenmittelwert betrachtet, so bezeichnet man dies als „Zentrierung am Gruppenmittelwert“ (hier: 55–60=− 5). Wird die Abweichung der Werte vom Mittelwert aller in der Studie untersuchten Rehabilitanden betrachtet, so bezeichnet man dies als „Zentrierung am Gesamtmittelwert“ (hier: 55–50=+ 5). Am Gruppenmittelwert zentrierte Daten sind dann zu verwenden, wenn die relative Position im Vergleich zu den Mitgliedern der eigenen Gruppe entscheidend ist: Dass ein Rehabilitand das Gruppenklima in Referenz zu den übrigen Gruppenmitgliedern als niedriger ausgeprägt einschätzt, kann als Information wichtiger sein als das absolute Niveau seiner Angabe unabhängig von der Gruppenzugehörigkeit (Kontexteffekte, Big-Fish-Little-Pond-Effekt; [3]). Ein absolut gesehen durchschnittlich belasteter Rehabilitand kann in einer stark belasteten Gruppe zu den gesündesten gehören, während er in einer Gruppe gering belasteter Rehabilitanden vergleichsweise stark beeinträchtigt wäre. Es muss vom Forscher für jedes Merkmal begründet werden, ob die am Gruppenmittelwert zentrierte Information (gruppenbezogene Abweichung) oder aber am Gesamtmittelwert zentrierte Information (gruppenunabhängige Information) analysiert werden sollen.

Ein typisches Vorgehen bei der Mehrebenenanalyse besteht darin, dass die Mittelwerte der Gruppenmitglieder als Gruppenindikator (Ebene 2) in die Analyse eingehen. Zusätzlich werden dann die am Gruppenmittelwert zentrierten Werte als Individualcharakteristiken (Ebene 1) in der Analyse berücksichtigt. Hierdurch werden dann zwei Fragen beantwortet:

  • Ist das Gruppenklima prädiktiv für das Kriterium? (Ebene-2-Effekt)

  • Ist die individuelle Abweichung vom Mittelwert der jeweiligen Gruppe für die Ausprägung des Kriteriums prädiktiv? (Ebene-1-Effekt des am Gruppenmittelwert zentrierten Merkmals)


#

Analyse von Veränderungen

Mehrebenenmodelle eignen sich auch sehr gut für die Analyse von Merkmalsveränderungen [15] [16]. Diese Modelle sollten der Varianzanalyse mit Messwiederholung vorgezogen werden, da bei mehr als zwei Messzeitpunkten wesentliche Verteilungsannahmen der Varianzanalyse (z. B. Sphärizitäts- und Homoskedastizitätsannahme) unplausibel und in der Regel deutlich verletzt sind [3]. Bei der Anwendung von Mehrebenenmodellen bilden die Messzeitpunkte die untere Datenebene (Ebene 1) und die Rehabilitanden sind als Ebene-2-Einheiten zu betrachten: Jeder Person sind mehrere Messzeitpunkte zu- bzw. untergeordnet. Wird zusätzlich berücksichtigt, dass die Personen übergeordneten Clustern angehören, so bilden diese Cluster die Ebene-3-Einheiten. Durch Anwendung des random-slopes-Modells zur Modellierung der Effekte auf Ebene 1 und Ebene 2 wird dann für jede Person die individuelle Veränderung geschätzt. Während bei der Varianzanalyse angenommen wird, dass für alle untersuchten Rehabilitanden derselbe Veränderungsprozess unterliegt, der lediglich für untersuchte unabhängige Variablen (z. B. Experimental- vs. Kontrollgruppe) überzufällig variieren darf, wird bei Anwendung hierarchischer linearer Modelle also explizit die Heterogenität der Veränderungen auf Individualebene zugelassen. Es wird zunächst geschätzt, wie sich jedes Individuum über die Zeit verändert. Eine Hypothesenprüfung zur Wirksamkeit einer Interventionsmaßnahme erfolgt dadurch, dass geprüft wird, ob die individuellen Veränderungen (bzw. Merkmalsunterschiede in Abhängigkeit von den Messzeitpunkten) in der Interventionsbedingung systematisch von denjenigen in der Kontrollbedingung abweichen.

Kernbotschaft

Die Mehrebenenanalyse bzw. hierarchische lineare Modelle bieten einen optimalen Analyseansatz, wenn davon ausgegangen werden muss, dass die Merkmalsausprägungen von einzelnen Stichprobenmitgliedern (z. B. Rehabilitanden) durch die Zugehörigkeit zu Versorgungseinheiten oder Behandlungsgruppen mit beeinflusst werden. Rehabilitanden bilden dabei die unterste Stichprobenebene (Ebene 1), die Einheiten höherer Ebenen (z. B. Ebene 2: Station; Ebene 3: Rehabilitationseinrichtung) untergeordnet ist. Merkmale aller Ebenen können simultan zur Vorhersage eines Ebene-1-Merkmals herangezogen werden, wobei auch Wechselwirkungseffekte zwischen den Ebenen berücksichtigt werden können. Ein Haupteffekt der Ebene 1 läge vor, wenn ein anderes Rehabilitandenmerkmal (z. B. Behandlungsmotivation) das abhängige Ebene-1-Merkmal (z. B. Behandlungserfolg) vorhersagt. Ein Haupteffekt der Ebene 2 repräsentiert den Vorhersagewert eines Gruppenmerkmals (z. B. Gruppenklima). Ein Interaktionseffekt zwischen Ebene 1 und Ebene 2 wäre gegeben, wenn je nach Ausprägung des Gruppenmerkmals der Vorhersagewert des Rehabilitandenmerkmals variiert (z. B.: Eine geringe initiale Behandlungsmotivation ist in geringerem Maße prädiktiv, wenn ein gutes Gruppenklima vorliegt). Die Mehrebenenanalyse bietet somit nicht nur ein Verfahren, mittels dessen die Verletzung statistischer Annahmen vermieden werden kann, sondern sie erweitert das Spektrum an prüfbaren Forschungshypothesen, die für eine angemessene Modellierung empirischer Strukturen unterschiedlicher Datenebenen erforderlich sind.


#

Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“

Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Prof. Dr. Markus Antonius Wirtz, Freiburg; Prof. Dr. Dr. Christian Zwingmann, Siegburg. Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen: h.faller@uni-wuerzburg.de.


#
#

Interessenkonflikt

Der Autor gibt an, dass kein Interessenkonflikt besteht.

  • Literatur

  • 1 Farin E. Die Anwendung Hierarchischer Linearer Modelle für Einrichtungsvergleiche in der Qualitätssicherung und Rehabilitationsforschung. Rehabilitation 2005; 44: 157-164
  • 2 Brown H, Prescott R. Applied mixed models in medicine. Chichester: Wiley; 2006
  • 3 Hox JJ. Multilevel analysis: techniques and applications. New York: Routledge; 2010
  • 4 Langer W. Mehrebenenanalyse. Eine Einführung für Forschung und Praxis. Wiesbaden: VS; 2009
  • 5 Urbach DR, Austin PC. Conventional models overestimate the statistical significance of volume-outcome associations, compared with multilevel models. J Clin Epidemiol 2005; 58: 391-400
  • 6 Raudenbush SW, Bryk AS. Hierarchical linear models: applications and data analysis methods. Thousand Oaks: Sage; 2002
  • 7 Setodji CM, Schwartz M. Fixed-effect or random-effect models: What are the key inference issues?. Med Care 2013; 51: 25-27
  • 8 Heck RH, Thomas SL, Tabata LN. Multilevel and longitudinal modeling with IBM SPSS. New York: Taylor & Francis; 2010
  • 9 Geiser C. Datenanalyse mit Mplus. Wiesbaden: VS; 2010
  • 10 Maas CJM, Hox JJ. Sufficient sample sizes for multilevel modeling. Methodology 2005; 1: 86-92
  • 11 Baer AHJ, Hochberg MC, Silman AJ et al. Rheumatology. (Sixth Edition). 6th. Aufl. Mosby, an imprint of Elsevier Ltd.; 2015
  • 12 Snijders TAB, Bosker RJ. Multilevel analysis. An introduction to basic and advanced multilevel modeling. Los Angeles: Sage; 2012
  • 13 Twisk JWR. Applied multilevel analysis. A practical guide. Cambridge: Cambridge University Press; 2006
  • 14 Campbell MK, Elbourne DR, Altman DG. CONSORT statement: extension to cluster randomised trials. BMJ 2004; 328: 702-708
  • 15 Keller F. Analyse von Längsschnittdaten: Auswertungsmöglichkeiten mit hierarchisch linearen Modellen. Zeitschrift für Klinische Psychologie und Psychotherapie 2003; 32: 51-61
  • 16 Poon J, Doctor JN, Nichol MB. Longitudinal changes in health-related quality of life for chronic diseases: an example in hemophilia A. J Gen Intern Med 2014; 29 (Suppl. 03) 760-766

Korrespondenzadresse

Prof. Dr. Markus Antonius Wirtz
Abteilung für Forschungsmethoden
Institut für Psychologie
Kartäuserstraße 47
79102 Freiburg

  • Literatur

  • 1 Farin E. Die Anwendung Hierarchischer Linearer Modelle für Einrichtungsvergleiche in der Qualitätssicherung und Rehabilitationsforschung. Rehabilitation 2005; 44: 157-164
  • 2 Brown H, Prescott R. Applied mixed models in medicine. Chichester: Wiley; 2006
  • 3 Hox JJ. Multilevel analysis: techniques and applications. New York: Routledge; 2010
  • 4 Langer W. Mehrebenenanalyse. Eine Einführung für Forschung und Praxis. Wiesbaden: VS; 2009
  • 5 Urbach DR, Austin PC. Conventional models overestimate the statistical significance of volume-outcome associations, compared with multilevel models. J Clin Epidemiol 2005; 58: 391-400
  • 6 Raudenbush SW, Bryk AS. Hierarchical linear models: applications and data analysis methods. Thousand Oaks: Sage; 2002
  • 7 Setodji CM, Schwartz M. Fixed-effect or random-effect models: What are the key inference issues?. Med Care 2013; 51: 25-27
  • 8 Heck RH, Thomas SL, Tabata LN. Multilevel and longitudinal modeling with IBM SPSS. New York: Taylor & Francis; 2010
  • 9 Geiser C. Datenanalyse mit Mplus. Wiesbaden: VS; 2010
  • 10 Maas CJM, Hox JJ. Sufficient sample sizes for multilevel modeling. Methodology 2005; 1: 86-92
  • 11 Baer AHJ, Hochberg MC, Silman AJ et al. Rheumatology. (Sixth Edition). 6th. Aufl. Mosby, an imprint of Elsevier Ltd.; 2015
  • 12 Snijders TAB, Bosker RJ. Multilevel analysis. An introduction to basic and advanced multilevel modeling. Los Angeles: Sage; 2012
  • 13 Twisk JWR. Applied multilevel analysis. A practical guide. Cambridge: Cambridge University Press; 2006
  • 14 Campbell MK, Elbourne DR, Altman DG. CONSORT statement: extension to cluster randomised trials. BMJ 2004; 328: 702-708
  • 15 Keller F. Analyse von Längsschnittdaten: Auswertungsmöglichkeiten mit hierarchisch linearen Modellen. Zeitschrift für Klinische Psychologie und Psychotherapie 2003; 32: 51-61
  • 16 Poon J, Doctor JN, Nichol MB. Longitudinal changes in health-related quality of life for chronic diseases: an example in hemophilia A. J Gen Intern Med 2014; 29 (Suppl. 03) 760-766

Zoom Image
Abb. 1 Hierarchisch geclusterte Stichprobenstrukturen auf 3 Ebenen.
Zoom Image
Abb. 2 Variablenbeziehungen und geprüfte Modellkomponenten (Erläuterung der Ziffern s. Text) im Falle eines 2-Ebenenmodells mit jeweils einem ebenenspezifischen Prädiktor.