Einführung
In der quantitativ ausgerichteten Rehabilitationsforschung werden sowohl in Quer- als auch in Längsschnittuntersuchungen häufig Unterschiede oder Verläufe in Indikatoren psychologischer Konstrukte wie z. B. gesundheitsbezogener Lebensqualität untersucht. Normalerweise wird dabei davon ausgegangen, dass sich Unterschiede zwischen den Gruppen bzw. Veränderungen zwischen den Zeitpunkten nur in den quantitativen Ausprägungen der untersuchten Konstrukte widerspiegeln, nicht jedoch in qualitativen Merkmalen. Wenn z. B. gesunde Personen im Mittel eine höhere gesundheitsbezogene Lebensqualität aufweisen als erkrankte Personen, dann ist damit gemeint, dass sie ein quantitatives mehr an gesundheitsbezogener Lebensqualität aufweisen und keine qualitativ andere gesundheitsbezogene Lebensqualität. Ebenso wird beim Vergleich von gesundheitsbezogener Lebensqualität vor und nach einer Rehamaßnahme angenommen, dass sich nur die quantitative Ausprägung der gesundheitsbezogenen Lebensqualität der Patienten verändert, nicht aber das Konstrukt der gesundheitsbezogenen Lebensqualität selbst. Die qualitative Stabilität oder qualitative Invarianz des gemessenen Konstrukts zwischen verschiedenen Vergleichsgruppen und über verschiedene Messzeitpunkte hinweg ist eine fundamental notwendige Voraussetzung, um alle üblicherweise durchgeführten statistischen Analysen (Mittelwertsvergleiche, Korrelationsanalysen usw.) sinnvoll interpretieren zu können. In der Literatur wird von der Äquivalenz oder auch Invarianz von Messungen (engl. „measurement invariance“) gesprochen. Diese Begriffe sollen anzeigen, dass mit einem Messinstrument bei allen Mitgliedern der Population, für die das Messinstrument konzipiert wurde, zu allen Messzeitpunkten immer das qualitativ gleiche Konstrukt gemessen wird.[1]
Bei physikalisch-medizinischen Parametern erscheint die Annahme der Messinvarianz ganz selbstverständlich. Zum Beispiel ist beim Vergleich des Blutdrucks zwischen 2 Messzeitpunkten nicht davon auszugehen, dass neben quantitativ gemessenen Unterschieden auch qualitative Änderungen des Blutdrucks eine Rolle spielen könnten – es fällt sogar schwer sich vorzustellen, was eine qualitative Blutdruckveränderung überhaupt sein soll. Allerdings ist schon seit ca. 100 Jahren bekannt, dass bei der Erfassung von psychologischen Konstrukten nicht immer von einer Messinvarianz ausgegangen werden kann [2]. Aber erst in den letzten 30 Jahren konnten statistische Verfahren entwickelt werden, die eine genauere Invarianztestung erlauben [3]
[4]. Die meisten dieser Verfahren basieren entweder auf dem Modell der Faktorenanalyse oder auf dem der Item-Response-Theorie [1]
[5]
[6]
[7]
[8]
[9].
Das Ziel dieses Artikels besteht darin, in die Problematik der Messinvarianz einzuführen und anhand eines konkreten Beispiels eine Möglichkeit der statistischen Prüfung zu illustrieren. Dazu wird zunächst dargelegt, wie das Konzept der Messinvarianz messtheoretisch genauer formuliert werden kann. Anschließend wird anhand eines auf der Faktorenanalyse beruhenden Verfahrens die statistische Prüfung der Messinvarianz bei querschnittlichen Designs illustriert. Die Beschränkung auf ein faktorenanalytisches Verfahren erfolgt lediglich aus didaktischen Gründen, da daran verschiedene Formen der Invarianz besonders gut illustriert werden können. Ausführliche Vergleiche unterschiedlicher Verfahren zur Testung der Messinvarianz finden sich anderswo [1]
[5]
[8]
[10]. Am Ende des Artikels werden Folgen der Messinvarianz und Probleme ihrer Erfassung diskutiert. In einem Folgeartikel [11] soll die Überprüfung der Messinvarianz im längsschnittlichen Verlauf dargestellt werden, die insbesondere in der Response-Shift-Forschung eine Rolle spielt.
Eine Anmerkung vorweg zu den benutzten Daten: Es wird in diesem Artikel auf ein Messmodell der körperlichen Lebensqualität zurückgegriffen, das zwar der ursprünglichen Intention der Autoren des Fragebogens zum Gesundheitszustand SF-36 entspricht [12], aber nach aktueller Studienlage keine adäquate Repräsentation der durch den SF-36 erhobenen Dimensionen darstellt. Es müssen diverse Anpassungen erfolgen, die auch bei der durch die Literatur vorgeschlagenen Auswertung des SF-36 berücksichtigt werden [13]. Dennoch wird hier auf dieses „veraltete“ Modell zurückgegriffen, da sich an diesem Modell viele Aspekte des hier behandelten Themas besonders gut darstellen lassen. Rückschlüsse auf die Brauchbarkeit und psychometrische Güte des SF-36 dürfen anhand der vorgestellten Beispiele nicht getroffen werden.
Messtheoretischer Hintergrund
Im Gegensatz zu den meisten physikalisch-medizinischen Größen sind viele psychologische Konstrukte wie Depressivität oder gesundheitsbezogene Lebensqualität prinzipiell nicht direkt beobachtbar und messbar. Ihre Ausprägungen können nur mittels anderer beobachtbarer Größen indirekt erschlossen werden, z. B. durch Items eines Fragebogens. Häufig werden die Werte mehrerer Items durch Summen- oder Mittelwertsbildung zu einem Skalenwert zusammengefasst, der anschließend als Messwert des eigentlich interessierenden Konstrukts interpretiert wird. Diese Zusammenfassung einzelner beobachtbarer Größen zu einem Gesamtwert wird damit begründet, dass die beobachtbaren Größen als fehlerbehaftete Indikatoren für die Ausprägungen des gleichen nicht beobachtbaren Konstrukts angesehen werden. So wird beispielsweise im SF-36 das Item „Ich scheine etwas leichter als andere krank zu werden“ als Indikator für das Konstrukt „Allgemeine Gesundheitswahrnehmung“ angesehen. Fehlerbehaftet sind die Indikatoren, weil ihre Ausprägungen darüber hinaus von anderen („zufälligen“) Faktoren beeinflusst werden können, wie beispielsweise der aktuellen Aufmerksamkeitsleistung, der Stellung des Items im Fragebogen usw. Durch den Einbezug mehrerer Indikatoren soll der relative Anteil dieser Fehler an der Gesamtmessung möglichst gering gehalten werden, weil davon ausgegangen wird, dass die jeweiligen Fehleranteile unabhängig voneinander sind. Das gleiche Prinzip wird angewendet, wenn die Skala eines übergeordneten Konstrukts aus mehreren Subskalen von Sub-Konstrukten gebildet wird. So wird z. B. im SF-36 das Konstrukt „Körperliche Lebensqualität“ über die „Körperliche Summenskala“ erfasst, die aus der (gewichteten) Summe der Werte mehrerer anderer Subskalen gebildet wird.
Die indikativen Beziehungen zwischen beobachtbaren und nicht beobachtbaren Größen werden in der Psychometrie durch sog. Messmodelle formalisiert. Dabei werden die nicht beobachtbaren Konstrukte als latente Variablen und die beobachtbaren Größen als manifeste Variablen konzeptualisiert. Manifeste Variablen können sowohl direkte Einzelbeobachtungen sein (z. B. Items) als auch aufsummierte Beobachtungswerte, z. B. (Sub-)Skalen. [Abb. 1] zeigt ein solches Messmodell für das Konstrukt körperliche Lebensqualität, das aus 4 Sub-Konstrukten des SF-36 gebildet wird [12].
[2]
Abb. 1 Messmodell der körperlichen Lebensqualität.
Die Abbildung folgt der üblichen Darstellungsweise von Strukturgleichungsmodellen, wonach latente Variablen als Kreise/Ellipsen, manifeste Variablen als Rechtecke und kausale Wirkungsrichtungen als Pfeile dargestellt werden. Demnach werden die körperliche Lebensqualität als latente und die dazugehörigen Subskalen des SF-36 („Körperliche Funktionsfähigkeit“, „Körperliche Rollenfunktion“, „Körperliche Schmerzen“ und „Allgemeine Gesundheitswahrnehmung“) als manifeste Variablen modelliert. Die indikativen Beziehungen zwischen der körperlichen Lebensqualität und den 4 Subskalen werden durch die Wirkungsrichtungen der Pfeile angezeigt: Die 4 manifesten Variablen werden durch die latente Variable kausal beeinflusst, die Ausprägung der körperlichen Lebensqualität bestimmt also das Antwortverhalten in den 4 Subskalen. Da die manifesten Variablen aber nicht nur von der latenten Variable, sondern auch von anderen Größen beeinflusst werden, werden Intercepts (I1–I4) und Messfehler (e1–e4) in das Modell aufgenommen. Das abgebildete Messmodell kann mathematisch folgendermaßen ausgedrückt werden:·
MVig =Iig + Fig * LVg + eig (1)·
Hierbei bezeichnet MVig die i-te manifeste Variable (also die i-te Subskala des SF-36) in Vergleichsgruppe g, Iig den Intercept, Fig die Faktorladung, eig den entsprechenden Messfehler der i-ten Variable (Subskala) in der Vergleichsgruppe g und LVg das latente Konstrukt in der Gruppe g.[3] Faktorladungen können als ein Maß für die Stärke des Zusammenhangs zwischen latenten und manifesten Variablen interpretiert werden. Die Intercepts hingegen stellen ein Maß dafür dar, ob in einer bestimmten manifesten Variable tendenziell eher hohe, mittlere oder niedrige Werte angegeben werden („Leichtigkeitsparameter“ [14]). Und in Messfehlern bilden sich zufällige Einflüsse (Tagesstimmung usw.) auf die manifeste Variable ab. Dabei wird angenommen, dass Messfehler einen Erwartungswert von E(eig)=0 aufweisen und demnach keinen direkten Einfluss auf den Mittelwert der manifesten Variable haben, wohl aber auf deren Varianz.
In der Regel stellen latente Variablen die eigentlich interessierenden Variablen dar, da sie im Gegensatz zu den in der Praxis häufig benutzten aufsummierten Skalenwerten als weitgehend messfehlerbereinigte Werte angesehen werden können. Latente Variablen erlauben z. B. im Gruppenvergleich validere Unterschiedsschätzungen als die üblichen inferenzstatistischen Tests mit aufsummierten Skalenwerten [15]
[16].
Personen, die in der latenten Variable gleiche Werte aufweisen, sollten (abgesehen von Messfehlern) auch in den manifesten Variablen gleiche Werte aufweisen und vice versa. Aus Gleichung (1) geht jedoch hervor, dass die Beziehung zwischen latenten und manifesten Variablen neben den Messfehlern (eig) von den Ausprägungen der Intercepts (Iig) und den Faktorladungen (Fig) beeinflusst wird. Unterschiede in diesen Parametern zwischen verschiedenen Personengruppen können bei gleichen Ausprägungen in den latenten Variablen zu unterschiedlichen Ausprägungen in den manifesten Variablen führen. Bei Gruppenvergleichen in den latenten Variablen oder in aus den manifesten Variablen gebildeten Skalenwerten müssen deswegen diese Parameter als konstant angenommen werden – ansonsten liegt keine Messinvarianz vor und die Vergleiche in der körperlichen Lebensqualität können nicht ohne weiteres sinnvoll interpretiert werden.
Die Prüfung dieser Konstanz in den genannten Parametern wurde jedoch bisher in der Rehabilitationsforschung eher vernachlässigt. Im Folgenden soll die Überprüfung der Messinvarianz anhand eines konkreten Beispiels beschrieben werden.
Invarianz zu einem Messzeitpunkt
Angenommen sei, im Rahmen einer Studie sollen weibliche und männliche Orthopädiepatienten mittels des SF-36 bezüglich ihrer körperlichen Lebensqualität verglichen werden. Üblicherweise würden dazu die Itemwerte der zugehörigen Subskalen nach einem bestimmten Algorithmus [12] zu einer (gewichteten) Summe aufaddiert (zur „Körperlichen Summenskala“) und z. B. mittels eines t-Tests verglichen. Wie bereits erwähnt, sind Ergebnisse dieses Vorgehens jedoch nur bei gegebener Messinvarianz zwischen beiden Gruppen (Männer, Frauen) sinnvoll interpretierbar. Folglich muss zunächst eine Prüfung dieser Annahme erfolgen.
Stufen der Invarianz
Bei der statistischen Testung der Messinvarianz wird überprüft, ob ein postuliertes Messmodell für alle interessierenden Vergleichsgruppen Gültigkeit besitzt oder ob sich die Gruppen in einem oder mehreren der korrespondierenden Modellparameter (Faktorladungen, Intercepts, Messfehler) unterscheiden. Je nach Art und Anzahl der Parameter, die als invariant zwischen den Gruppen postuliert werden, können verschiedene Stufen der Invarianz unterschieden werden ([Tab. 1]) [17]
[18].
Tab. 1 Invarianztypen und Invarianzforderung.
|
Invarianztyp
|
Invarianzforderung
|
Parameterrestriktion
|
LV=latente Variable; F=Faktorladung; I=Intercept; e=Fehler; Index i=manifeste Variable; Indices M, W=Vergleichsgruppen M, W
|
|
dimensional
|
Anzahl LV
|
|
|
konfigural
|
+MV laden auf LV
|
|
|
schwach faktoriell (metrisch)
|
+Faktorladungen
|
FiM=FiW
|
|
stark faktoriell (skalar)
|
+Intercepts
|
IiM=IiW
|
|
strikt faktoriell
|
+Fehlervarianzen
|
eiM=eiW
|
Dimensionale Invarianz.
Bei der dimensionalen Invarianz wird gefordert, dass in jeder Untersuchungsgruppe die manifesten Variablen von der gleichen Anzahl an latenten Variablen beeinflusst werden. Im Beispiel sollen für beide Geschlechtsgruppen die 4 Subskalen des SF-36 außer von den jeweiligen Messfehlern nur von einer gemeinsamen latenten Variable (der körperlichen Lebensqualität) beeinflusst werden (1-dimensionales Messmodell). Wenn dagegen in einem 2-dimensionalen Messmodell neben der körperlichen auch die „Psychische Lebensqualität“ von Interesse wäre und dazu die übrigen Subskalen des SF-36 in die Analyse einbezogen werden würden, sollten diese Subskalen in beiden Vergleichsgruppen entsprechend von 2 latenten Variablen (körperliche und psychische Lebensqualität) beeinflusst werden [13].
Konfigurale Invarianz.
Bei der konfiguralen Invarianz wird gefordert, dass die latenten Variablen jeweils mit den gleichen manifesten Variablen assoziiert sind. Bei einem 2-dimensionalen Messmodell des SF-36 würde das z. B. bedeuten, dass in beiden Gruppen jeweils die gleichen Subskalen mit der körperlichen bzw. der psychischen Lebensqualität assoziiert sind. Bei einem einfaktoriellen Messmodell entspricht die konfigurale Invarianz der dimensionalen Invarianz, da hier per Definition alle manifesten Variablen von nur einer latenten Variable beeinflusst werden.
Schwache faktorielle Invarianz/metrische Invarianz.
Von metrischer Invarianz wird gesprochen, wenn sich die entsprechenden Faktorladungen (Fi) zwischen den Vergleichsgruppen nicht unterscheiden. So soll z. B. die Höhe der Faktorladung der Subskala „Körperliche Funktionsfähigkeit“ bei männlichen Orthopädiepatienten in etwa derjenigen bei weiblichen Orthopädiepatienten entsprechen. Faktorladungen sind ein Maß für die Stärke des Zusammenhangs zwischen einer latenten und einer manifesten Variable. Bei gegebener metrischer Invarianz weisen deswegen die latenten Variablen in den verglichenen Gruppen die gleiche inhaltliche Bedeutung auf. Denn die inhaltliche Bedeutung einer latenten Variable zeigt sich (auch) in der Höhe der Assoziationen mit ihren verschiedenen Indikatoren. Würde beispielsweise die Subskala „Körperliche Funktionsfähigkeit“ bei den männlichen Patienten eine sehr hohe Faktorladung mit der körperlichen Lebensqualität aufweisen, bei den weiblichen aber nur eine geringe, wäre für Männer in diesem Fall die körperliche Funktionsfähigkeit (also die Fähigkeit, Treppen zu steigen, schwere Gegenstände zu heben usw.) ein guter Indikator und damit wichtiger Bestandteil der subjektiven Definition von körperlicher Lebensqualität. Für Frauen würde in diesem Fall die körperliche Funktionsfähigkeit eine geringere Rolle für ihre subjektive Definition der körperlichen Lebensqualität spielen. Es läge demnach kein quantitativer Unterschied zwischen den beiden Vergleichsgruppen vor, sondern ein qualitativer. Dieser qualitative Unterschied kann weder durch einen einfachen Vergleich der Mittelwerte in der körperlichen Lebensqualität noch durch einen Vergleich in der Subskala „Körperliche Funktionsfähigkeit“ erkannt werden. Ein Vergleich der (aufsummierten oder latenten) Mittelwerte der körperlichen Lebensqualität der beiden Gruppen wäre in diesem Fall nur unter bestimmten Umständen noch sinnvoll interpretierbar (s. u.).
Starke faktorielle Invarianz/skalare Invarianz.
Für die Erfüllung der „starken faktoriellen“ oder „skalaren“ Invarianz dürfen sich neben den Faktorladungen auch die Intercepts Ii zwischen den Gruppen nicht unterscheiden. Intercepts können als ein Maß für die „Leichtigkeit“ [14] eines manifesten Indikators betrachtet werden, also dafür, ob eher hohe oder niedrige Werte angegeben werden. Unterschiedliche Intercepts zwischen Gruppen können zu unterschiedlichen Ausprägungen in den manifesten Variablen führen, auch wenn die Gruppen die gleichen Werte in den latenten Variablen und den Faktorladungen aufweisen. Interceptunterschiede können z. B. auf gruppenspezifische Antwortstile zurückgeführt werden [19]
[20]. So scheinen Probanden aus asiatischen Ländern eher dazu zu neigen, auf Ratingskalen mittlere Antwortmöglichkeiten anzugeben, als Probanden aus westlichen Ländern [21], und zwar unabhängig von der Ausprägung im interessierenden Konstrukt. Sind die Kriterien für skalare Invarianz jedoch erfüllt, können Vergleiche zwischen den latenten sowie den aufsummierten Gruppenmittelwerten in den interessierenden Variablen sinnvoll interpretiert werden.
Strikte faktorielle Invarianz.
Sind darüber hinaus auch die Varianzen der Messfehler ei als invariant anzusehen, wird von strikter faktorieller Invarianz oder vollständiger Invarianz gesprochen. Wie bereits erwähnt, beeinflussen Messfehler nicht die Mittelwerte der manifesten Variable, wohl aber deren Varianz. Unter Messfehlervarianz wird dabei diejenige Variabilität einer manifesten Variable verstanden, die nicht durch die latente Variable bedingt wird. Bei gegebener strikter Invarianz dürfen neben den Mittelwerten auch die Varianzen zwischen den Gruppen verglichen werden. Strikte Invarianz gilt empirisch als schwer erfüllbar, wird für die meisten Anwendungen (z. B. Mittelwertsvergleiche) aber auch nicht benötigt. Nur bei Fragestellungen, die sich explizit auf die Varianzen der Variablen beziehen (z. B. Reliabilitätsvergleiche), muss strikte Invarianz vorausgesetzt werden [4].
Statistische Prüfung der Invarianz
Zur statistischen Überprüfung der Messinvarianz wird häufig ein hierarchisches Vorgehen mittels mehrerer „verschachtelter“ (d. h. hierarchisch aufeinander bezogener) „Mehrgruppenanalysen konfirmatorischer Faktorenmodelle“ („Multigroup Confirmatory Factor Analysis“ – MCFA) empfohlen [4]
[17]. Bei einer konfirmatorischen Faktorenanalyse wird ein Messmodell auf seine statistische Plausibilität in einem Datensatz geprüft [22]. Die Beurteilung der Plausibilität wird über einen Chi²-Test und/oder über sog. Fit-Indices (z. B. CFI, RMSEA) vorgenommen. Wird der Chi²-Test nicht signifikant (p>0,05) bzw. genügen die Fit-Indices bestimmten Kriterien (z. B. RMSEA≤0,06; CFI≥0,95), werden Modelle als passend bewertet [23]
[24]. Bei einer MCFA kann zusätzlich getestet werden, ob ein Messmodell für mehrere unterschiedliche Gruppen Gültigkeit beanspruchen kann. Falls dies der Fall ist, können in weiteren Schritten spezifischere, restringiertere Modelle überprüft und mit den allgemeineren verglichen werden. Im Folgenden wird dieses Vorgehen an einem Beispieldatensatz illustriert.
Es soll überprüft werden, ob von einer Invarianz des in [Abb. 1] dargestellten Messmodells der körperlichen Lebensqualität zwischen männlichen und weiblichen Orthopädiepatienten ausgegangen werden kann. Zugrunde liegen den Analysen 2 Stichproben von n=475 männlichen und n=433 weiblichen Orthopädiepatienten, die am Ende eines Rehabilitationsaufenthaltes den SF-36 ausgefüllt haben. Das mittlere Alter lag bei den Männern bei MM=49,5 Jahren (SD=7,7) und bei den Frauen bei MW=48,8 Jahren (SD=8,3). Die nachfolgenden Analysen wurden mit dem Programm AMOS 17 [25] durchgeführt.
In einem ersten Schritt wird ein „Basismodell“ erstellt und mittels einer MCFA auf seine Plausibilität sowohl bei männlichen als auch bei weiblichen Patienten getestet. Bei diesem Basismodell werden die in [Abb. 1] dargestellten Beziehungen zwischen den 4 manifesten und der einen latenten Variable für beiden Gruppen festgelegt. Alle übrigen Parameter (Faktorladungen, Intercepts, Fehlervarianzen) dürfen bei männlichen und weiblichen Patienten unterschiedliche Werte annehmen.[4] Die Überprüfung des Basismodells stellt damit einen Test der dimensionalen und der konfiguralen Invarianz dar. [Tab. 2] (erste Zeile) kann entnommen werden, dass das Basismodell gut zu den Daten passt: Der Chi²-Wert ist nicht signifikant und RMSEA und CFI weisen sehr gute Werte auf.
Tab. 2 Fit-Indices der Invarianzmodelle.
Modelle
|
Fit-Indices
|
|
χ²
|
df
|
p
|
CFI
|
RMSEA
|
χ2=Diskrepanzfunktion, df=Freiheitsgrade, RMSEA=Root Mean Square Error of Approximation, CFI=Comparative Fit Index
|
1 Basismodell
|
2,165
|
4
|
0,795
|
1,000
|
<0,001
|
2 metrisch
|
8,055
|
7
|
0,328
|
0,999
|
0,013
|
3 skalar
|
31,783
|
10
|
<0,001
|
0,987
|
0,049
|
4 partiell skalar
|
19,781
|
9
|
0,019
|
0,994
|
0,036
|
5 partiell strikt
|
22,239
|
12
|
0,034
|
0,994
|
0,031
|
Im nächsten Schritt wird die metrische Invarianz geprüft. Dazu wird eine Restringierung des Basismodells vorgenommen: Die Faktorladungen der einzelnen manifesten Variablen dürfen sich zwischen Männern und Frauen nicht mehr unterscheiden. Auch dieses Modell passt nach [Tab. 2] gut zu den Daten. Doch dieser Rechenschritt reicht zur Beurteilung der faktoriellen Invarianz nicht aus. Es muss darüber hinaus überprüft werden, ob das spezifizierte Modell, wenngleich gut, doch vielleicht signifikant schlechter zu den Daten passt als das Basismodell. Dies kann in Form eines geschachtelten Modelltests überprüft werden, bei dem stärker restringierte Modelle mit weniger stark restringierten Modellen verglichen werden. Die Beurteilung dieses Modellvergleichs kann sowohl über einen Chi²-Differenzen-Test als auch über einen Vergleich der Fit-Indices erfolgen: Wird der Chi2-Differenzen-Test signifikant bzw. verschlechtern sich die Fit-Indices deutlich (z. B. CFIDiff>0,01 [29]), so wird das strengere Modell verworfen. Nach [Tab. 3] kann aufgrund des nicht signifikanten p-Werts und der kleinen Differenz im CFI von 0,001 angenommen werden, dass das strengere Modell der faktoriellen Invarianz (Modell 2) nicht signifikant schlechter zu den Daten passt als das Basismodell (Modell 1). Folglich kann von faktorieller Invarianz ausgegangen werden: Bei männlichen und weiblichen Orthopädiepatienten weist der latente Faktor inhaltlich die gleiche Bedeutung auf.
Tab. 3 Vergleiche der Invarianzmodelle.
Modellvergleiche
|
Fit-Indices
|
|
χ2
Diff
|
df
|
p
|
CFIDiff
|
χ2
Diff=Diskrepanzfunktion, df=Freiheitsgrade, CFIDiff=Differenz im Comparative Fit Index
|
Modell 1 vs. Modell 2
|
5,890
|
3
|
0,117
|
0,001
|
Modell 2 vs. Modell 3
|
23,728
|
6
|
<0,001
|
0,012
|
Modell 2 vs. Modell 4
|
11,726
|
2
|
0,003
|
0,005
|
Modell 4 vs. Modell 5
|
2,548
|
3
|
0,467
|
<0,001
|
Zur Überprüfung der skalaren Invarianz wird analog vorgegangen: Im Modell der skalaren Invarianz (Modell 3) dürfen neben den Faktorladungen auch die Intercepts zwischen den Vergleichsgruppen nicht mehr variieren. Nach [Tab. 3] passt Modell 3 jedoch sowohl nach dem Chi2-Differenzen-Test als auch nach dem Kriterium der CFI-Differenz signifikant schlechter zu den Daten als das Modell der metrischen Invarianz. Folglich muss die Annahme der skalaren Invarianz verworfen werden.
Partielle Invarianz
Wie soll nun verfahren werden, wenn, wie im Beispiel, eine interessierende Invarianzhypothese nicht bestätigt werden kann? Weitere spezifischere Invarianzüberprüfungen (z. B. der strikten Invarianz) können nicht ohne weiteres durchgeführt werden, weil diese die Gültigkeit der allgemeineren Invarianzmodelle voraussetzen. Eine Alternative besteht darin, partielle Invarianzmodelle zu überprüfen [30]. In partiellen Invarianzmodellen werden nicht alle Parameter einer Parameterebene (also z. B. alle Faktorladungen) zwischen den Gruppen festgelegt, sondern einzelne Parameter dürfen frei variieren. Ein partielles Invarianzmodell zur skalaren Invarianz könnte in unserem Beispiel ein Intercept zwischen den beiden Patientengruppen frei variieren lassen, nur die übrigen 3 Intercepts würden restringiert.[5] In unserem Beispiel konnte der Modellfit durch die Freisetzung des Intercepts I2 der Subskala „Körperliche Schmerzen“ erhöht werden ([Tab. 2]). Der Chi2-Differenzentest zwischen Modell 2 und dem partiellen skalaren Invarianzmodell (Modell 4) wird zwar immer noch statistisch signifikant ([Tab. 3]), aber CFIDiff=0,006 liegt unter der Grenze von 0,01, sodass von partieller skalarer Invarianz ausgegangen werden kann.[6]
Im letzten Schritt kann die partielle strikte Invarianz überprüft werden. In diesem Modell (Modell 5) dürfen Fehlervarianzen derjenigen manifesten Variablen, deren Intercepts im Modell partieller skalarer Invarianz als invariant gelten konnten (also alle Subskalen außer „Körperliche Schmerzen“), nicht mehr zwischen den Vergleichsgruppen variieren. Dieses Modell konnte ebenfalls als statistisch plausibel ausgewiesen werden ([Tabellen 2]
[3]).
In der Literatur wurde vorgeschlagen, dass Mittelwertsvergleiche in aufsummierten Skalen bei gegebener partieller Invarianz nur durchgeführt werden sollen, wenn diejenigen Items, deren Faktorladungen oder Intercepts nicht als invariant gelten konnten, aus der Berechnung ausgeschlossen werden [17]. Im Beispiel würde demnach in beiden Gruppen die Subskala „Körperliche Schmerzen“ nicht in die Berechnung der „Körperlichen Summenskala“ einbezogen. Werden Mittelwertsvergleiche jedoch in den latenten Variablen durchgeführt, so genügt es nach Steenkamp und Baumgartner [32], wenn in Ergänzung zu dem zur Modellidentifikation restringierten Parameter (vergleiche Fußnote 3) mindestens ein Parameter auf jeder Parameterebene als invariant gelten kann. Da im vorliegenden Beispiel nur der Intercept und die Fehlervarianz der Subskala „Körperliche Schmerzen“ freigesetzt wurden, die übrigen Parameter aber als invariant gelten, können Mittelwertsvergleiche in der latenten Variable durchgeführt werden. Der [Tab. 4] können die Mittelwertsunterschiede und entsprechende Signifikanztests sowohl für die manifeste Skala („Körperliche Summenskala“) als auch für die latente Variable entnommen werden.[7] Zur Illustration sind in [Tab. 4] auch Mittelwertsberechnungen unter Einbezug der Skala „Körperliche Schmerzen“ aufgenommen.
Tab. 4 Mittelwertvergleiche zwischen männlichen und weiblichen Orthopädieverfahren.
statistisches Verfahren
|
Männer
|
Frauen
|
|
|
M
|
SD
|
M
|
SD
|
p
|
Cohens d
|
a: nach t-Test für unabhängige Stichproben; b: nach Strukturgleichungsmodell (s. Arbuckle 2008); manifest full/partiell=manifester Skalenmittelwert aus allen 4 Subskalen/aus 3 Subskalen (ohne „Körperliche Schmerzen“); latent full/partiell=latenter Mittelwert nach vollständigem/partiellem Invarianzmodell
|
manifest full
|
63,51
|
24,50
|
62,19
|
23,18
|
0,405a
|
0,055
|
manifest partiell
|
65,19
|
24,38
|
64,98
|
23,81
|
0,902a
|
0,009
|
latent full
|
76,80
|
19,35
|
75,59
|
17,87
|
0,361b
|
0,064
|
latent partiell
|
76,29
|
19,37
|
76,10
|
17,88
|
0,889b
|
0.010
|
Inferenzstatistisch wird der Unterschied zwischen männlichen und weiblichen Orthopädiepatienten nach keinem der verwendeten Verfahren statistisch signifikant, wenngleich deskriptiv die Unterschiede zwischen den beiden Gruppen bei den partiellen Modellen ohne die Skala „Körperliche Schmerzen“ deutlich geringer ausfallen als bei Einbezug dieser Skala.
Bei der Überprüfung von partiellen Invarianzmodellen muss beachtet werden, dass es sich hierbei um einen explorativen, hypothesengenerierenden Analyseschritt und nicht um eine konfirmatorische, hypothesenprüfende Analyse handelt (auch wenn die verwendete Methode „konfirmatorische[8] Faktorenanalyse“ genannt wird). Zwar kann wohl in den meisten Anwendungsfällen die Überprüfung der Invarianz einer Parameterebene als hypothesenprüfende Analyse angesehen werden, da ja die vorher gefasste Hypothese „Die beiden Untersuchungsgruppen sind in Bezug auf das vorliegende Messmodell invariant“ überprüft wird. Da jedoch erst nach Ablehnung dieser Hypothese partielle Invarianzmodelle entwickelt und überprüft werden, dürfen diese nicht ohne weiteres über die vorliegende Untersuchung hinaus generalisiert werden. Eine konfirmatorische, hypothesenprüfende partielle Invarianzanalyse läge nur vor, wenn vor der Untersuchung bereits die Hypothese über die Gültigkeit eines bestimmten partiellen Invarianzmodells aufgestellt worden wäre und diese geprüft werden sollte.
Können selbst partielle Invarianzmodelle statistisch nicht aufrechterhalten werden, so sind entsprechende Parametervergleiche (z. B. Mittelwerte, Varianzen) prinzipiell anzweifelbar und sollten nur mit großer Vorsicht interpretiert werden.
Gründe der Invarianz beim Multigruppenvergleich
Worauf kann Invarianz zurückgeführt werden? Prinzipiell sind viele Erklärungen denkbar. Zum einen müssen statistische Gründe in Betracht gezogen werden. Erfüllen die Daten nicht die Voraussetzungen für die Anwendbarkeit konfirmatorischer Faktorenanalysen (z. B. multivariate Normalverteilung bei Maximum-Likelihood-Schätzverfahren), sollten alternative Schätz- und Korrekturverfahren [15]
[33]
[34] oder ganz andere Verfahren der Invarianzprüfung angewendet werden [1]
[5]. Darüber hinaus sollten die Daten vorher bezüglich Ausreißern, fehlenden Werten u. ä. überprüft und entsprechende Maßnahmen zu deren Behandlung eingeleitet worden sein [35]
[36].
Können rein statistische Gründe weitgehend ausgeschlossen werden, kann das verwendete Messinstrument einer kritischen Prüfung unterzogen werden. Das Instrument könnte Items oder Subskalen enthalten, die nicht gänzlich als Indikatoren für das untersuchte Konstrukt geeignet sind und deren Beantwortung von gruppenspezifischen Eigenheiten abhängt. Die Gründe können jedoch auch auf der Ebene der untersuchten Populationen liegen: Eventuell wurde das Instrument in einer Stichprobe eingesetzt, für die es prinzipiell nicht konzipiert wurde.
Invarianz kann auch auf eine bisher unbekannte differierende Repräsentanz eines Konstrukts in unterschiedlichen Populationen hinweisen. Zum Beispiel konnte gezeigt werden, dass sich das Konstrukt „Allgemeine Lebensqualität“ zwischen verschiedenen Nationen auf konzeptioneller Ebene deutlich unterscheidet und Mittelwertsvergleiche mit bestehenden Instrumenten mit großer Vorsicht interpretiert werden sollten [37]. Invarianzuntersuchungen haben somit nicht nur methodische Implikationen, sondern können auch zur Generierung und Überprüfung inhaltlich interessanter Hypothesen führen [11].
Parallele, (essentiell) tau-äquivalente und kongenerische Messmodelle
Die Unterscheidung verschiedener Invarianzstufen erinnert an die Unterscheidung zwischen parallelen, (essentiell) tau-äquivalenten und kongenerischen Messmodellen, darf aber nicht damit verwechselt werden. Bei der Differenzierung dieser Messmodelle geht es um die Frage, ob sich die unterschiedlichen manifesten Indikatoren einer Skala in ihren Faktorladungen, Intercepts und Messfehlern unterscheiden, während es bei der Messinvarianz darum geht, ob sich diese Parameter bei denselben Indikatoren zwischen verschiedenen Personengruppen unterscheiden [38]. In obigem Beispiel dürfen die 4 Subskalen innerhalb derselben Personengruppe unterschiedliche Faktorenladungen, Intercepts und Messfehler aufweisen; folglich handelt es sich um ein kongenerisches Messmodell. Die Frage, welches dieser Messmodelle einem Fragebogen zugrunde liegt, kann ebenfalls mit einer hierarchischen Abfolge von konfirmatorischen Faktorenanalysen innerhalb derselben Personengruppe überprüft werden [14].
Die Prüfung der Messinvarianz bei strengeren Messmodellen kann genauso durchgeführt werden wie bei kongenerischen Modellen. Bei Ablehnung einer Invarianzhypothese sollte dabei jedoch genauer geprüft werden, ob sich die Vergleichsgruppen in den Parameterausprägungen unterscheiden, prinzipiell aber das strengere Messmodell in beiden Gruppen gültig ist, oder ob nicht besser in beiden Gruppen von einem weniger strengen, dann aber vielleicht invarianten Messmodell ausgegangen werden sollte.
Diskussion
Invarianzprüfungen stellen eine sinnvolle Ergänzung zu den üblichen statistischen Vergleichen von nicht beobachtbaren Konstrukten dar. Es stellt sich jedoch die Frage, zwischen welchen Gruppen Invarianzvergleiche durchgeführt werden sollen. Hier kann zwischen Untersuchungen zur Fragebogenentwicklung und Untersuchungen, die Fragebogen zur Beantwortung anderer Fragestellungen einsetzen, unterschieden werden.
Im Rahmen der Fragebogenentwicklung sollten Forscher überprüfen, ob und inwieweit die postulierten Messmodelle für diejenigen Personengruppen gültig sind, für die das Messinstrument explizit konstruiert wurde. So sollte bei generischen Fragebogen geprüft werden, ob sie tatsächlich bezüglich unterschiedlicher Indikationen als invariant gelten können. Ebenso sollten Instrumente, die zur Identifikation bestimmter Erkrankungen eingesetzt werden, sowohl für Gesunde und Erkrankte dasselbe Messmodell aufweisen, da ansonsten keine valide Feststellung der Erkrankung möglich ist [39].
Forscher, die Fragebogen zur Beantwortung anderer inhaltlicher Fragestellungen einsetzen, sollten zum einen prüfen, ob für die eingesetzten Fragebogen bereits Invarianzuntersuchungen in den zu vergleichenden Gruppen vorliegen. Zum anderen können sie durch eigene Invarianzüberprüfungen die Validität der geplanten statistischen Vergleiche erhöhen und die Vergleiche auf Basis der gefundenen Invarianzmodelle durchführen. Boorsboom [40] plädiert dafür, dass Invarianzuntersuchungen „should now become a routine part of research into the structure of group differences“ (S. 180), also z. B. allen Mittelwertsvergleichen vorgeschaltet werden sollten. Diese Forderung ist aber nicht immer erfüllbar, weil oft die für valide Invarianztestungen erforderliche Anzahl an Personen nicht vorhanden ist (s. u.). Und es kann bezweifelt werden, ob z. B. allen in explorativer Absicht durchgeführten Mittelwertsvergleichen aufwendige Invarianztestungen vorangestellt werden müssen. Es kann aber durchaus empfohlen werden, bei allen hypothesenprüfenden Vergleichen vorher die Invarianz zu überprüfen, falls genügend Personen pro Vergleichsgruppe vorhanden sind.
Hier wird eine der Einschränkungen des faktorenanalytischen Ansatzes deutlich: Prinzipiell ist der Ansatz nur für Gruppenuntersuchungen anwendbar. Bei der Beurteilung der Fragebogenwerte eines einzelnen Patienten kann mit der vorgestellten Methode nicht überprüft werden, ob dessen Antwortmuster einem angenommenen Messmodell entsprechen. Darüber hinaus liefern konfirmatorische Faktorenanalysen nur bei ausreichend großer Stichprobengröße stabile Schätzer für Faktorladungen, Intercepts usw. In der Literatur wird davon ausgegangen, dass mindestens 100 (besser mehr) Personen pro Vergleichsgruppe vorhanden sein sollten.
Diese oder zumindest ähnliche Einschränkungen gelten auch für andere statistische Verfahren der Invarianztestung, auf die hier nicht weiter eingegangen wurde. Der faktorenanalytische Ansatz, der hier primär aus didaktischen Gründen vorgestellt wurde, muss nicht in jedem Fall die beste Wahl sein. Insbesondere bei der Überprüfung der Invarianz von rein unidimensionalen Instrumenten werden häufig Verfahren auf Grundlage der Item-Response-Theorie [6] eingesetzt, wie z. B. bei der Auswahl von Items für Computer-adaptives Testen [41]. Faktorenanalytische Ansätze werden hingegen oft bei der Überprüfung mehrdimensionaler Instrumente eingesetzt, wenngleich auch hierfür Ansätze auf Grundlage der Item-Response-Theorie entwickelt wurden [42].
In der Literatur eher vernachlässigt wurde die Frage, unter welchen Bedingungen eine Invarianzverletzung als praktisch bedeutsam angesehen werden muss. Wie groß muss der Unterschied in einer Faktorladung oder einem Intercept sein, um einen praktisch bedeutsamen Einfluss auf die Interpretierbarkeit der Mittelwertsunterschiede zu nehmen? Leider stehen keine generalisierbaren quantitativen Maße zur Beurteilung der praktischen Bedeutsamkeit von Messinvarianzen zur Verfügung [40]. Jedoch ist anzunehmen, dass die Wahrscheinlichkeit, dass fehlende Invarianz Mittelwertsunterschiede bedeutsam verfälschen kann, ansteigt, je schlechter der Modellfit der Invarianzmodelle im Vergleich zu den weniger restringierten Modellen ausfällt, je größer die Differenzen in den nicht invarianten Parametern geschätzt werden und je mehr Parameter als nicht invariant ausgewiesen werden. Bedeutsam ist auch die hierarchische Einstufung der Invarianzhypothese, die einer statistischen Prüfung nicht standhält. Wird beispielsweise bereits die dimensionale Invarianzhypothese verworfen, sind Verzerrungen in den interessierenden Mittelwertsvergleichen besonders wahrscheinlich, da den manifesten Variablen unterschiedliche latente Konstrukte zugrunde liegen. Darüber hinaus sollte auch der Anwendungszweck der Messung beachtet werden. Millsap und Kwok [43] schlagen beispielsweise eine Methode vor, die dazu dient, die praktische Bedeutsamkeit einer Invarianzverletzung zu beurteilen, wenn das Ziel der Messung in der Identifikation bestimmter Subgruppen besteht (z. B. besonders belastete Patienten). Die Beurteilung der praktischen Bedeutsamkeit einer Invarianzverletzung sollte jedenfalls nicht nur an statischen Kriterien (s. o.) festgemacht werden. So könnte man argumentieren, dass statistisch auffällige, aber „kleine“ Unterschiede in Faktorladungen praktisch eher unbedeutend sein können, wenn das interessierende Konstrukt nicht stringent, sondern nur „unscharf“ definiert ist (z. B. als „Fuzzy Concept“ [44]
[45]) – ein Problem, mit dem man in den Sozialwissenschaften immer wieder konfrontiert ist. Zumindest sollte immer auch auf pragmatischer und inhaltlich-konzeptioneller Ebene geprüft werden, ob eine statistisch signifikante fehlende Invarianz in weiteren Berechnungen berücksichtigt werden muss (und ob zum Beispiel bestimmte Items vor weiteren Analysen aussortiert werden).