Rehabilitation (Stuttg) 2012; 51(06): 415-423
DOI: 10.1055/s-0031-1295447
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag KG Stuttgart · New York

Messen wir immer das Gleiche? Zur Invarianz von Messungen und Response-Shift in der Rehabilitation – Teil 2

Do We Always Measure the Same? On Measurement Invariance and Response Shift in Rehabilitation Research – Part 2
M. Jelitte
1   Institut für Psychotherapie und Medizinische Psychologie, Universität Würzburg
,
M. Schuler
1   Institut für Psychotherapie und Medizinische Psychologie, Universität Würzburg
› Author Affiliations
Further Information

Korrespondenzadresse

Dr. Matthias Jelitte
Universität Würzburg
Institut für Psychotherapie und Medizinische Psychologie
Arbeitsbereich Rehabilitationswissenschaften
Marcusstraße 9-11
97070 Würzburg

Publication History

Publication Date:
06 June 2012 (online)

 

Zusammenfassung

Zur Evaluation von Behandlungsmaßnahmen in der medizinischen Rehabilitation werden häufig Prä-Post-Vergleichsstudien mit der Outcome-Variable gesundheitsbezogene Lebensqualität durchgeführt. Über Mittelwertsvergleiche der Lebensqualitätsskalen zu den verschiedenen Messzeitpunkten lassen sich Effekte berechnen, anhand deren Größe wiederum auf die Veränderung der gesundheitsbezogenen Lebensqualität geschlossen wird. Bei diesem Vorgehen wird jedoch davon ausgegangen, dass die Beantwortung der Items oder Skalen zu beiden Messzeitpunkten vor demselben Bewertungshintergrund vorgenommen wird. Dass dies nicht zwangsläufig der Fall ist, wird in der Response-Shift-Forschung diskutiert. Diese beschäftigt sich mit der Veränderung des Bewertungshintergrunds zur Beurteilung der gesundheitsbezogenen Lebensqualität im Rahmen der Auseinandersetzung mit chronischen Erkrankungen. Mithilfe der konfirmatorischen Faktorenanalyse (KFA) ist die Prüfung von Response-Shift-Prozessen bei Mehrfachmessungen möglich. Dieser Ansatz ist der Invarianztestung im Längsschnitt zuzuordnen. Das Vorgehen wird anhand eines Datensatzes aus der Rehabilitation bei Diabetes-Patienten beschrieben. In der untersuchten Stichprobe der 279 Diabetes-Patienten sind verschiedene Response-Shift-Prozesse nachweisbar. Wird eine Skala durch Response-Shift beeinflusst, so ist eine Aussage über die Veränderung der gesundheitsbezogenen Lebensqualität auf der Basis der manifesten Skalenwerte nicht ohne weiteres möglich. Mithilfe der KFA lassen sich jedoch Effekte auf diesen Skalen in Effekte aufgrund einer ‚wahren‘ Veränderung der gesundheitsbezogenen Lebensqualität und Response-Shift-Effekte unterteilen. Das Vorgehen zur Testung auf Response-Shift unterscheidet sich vom Vorgehen der Testung von Invarianz im Multigruppenvergleich zu einem Messzeitpunkt. Response-Shift-Untersuchungen mit Fragebogen zur Erfassung der gesundheitsbezogenen Lebensqualität ermöglichen Aussagen darüber, inwiefern diese Instrumente geeignet sind, Veränderungen dieses Outcome-Kriteriums zu erfassen. Für die Praxis ist dies insofern interessant, als Empfehlungen gegeben werden können, welche Skalen berücksichtigt werden sollten, um Aussagen über die Veränderung der Lebensqualität abzuleiten, und welche nicht. Aus wissenschaftlicher Perspektive bietet die Response-Shift-Prüfung einen Ansatz zur Weiterentwicklung der Änderungssensitivität von Messinstrumenten.


#

Abstract

Interventions in medical rehabilitation are often evaluated using a single-group pre-post study design with health-related quality of life (hrqol) as an outcome variable. Through comparison of mean values in hrqol subscales treatment effects are calculated. In many cases conclusions about changes in hrqol are made depending on the sizes of effects. The precondition for doing this, however, is that the answers to the items in questionnaires were given within the same frames of internal standards, values and conceptualizations at the different time points. Changes in these frames can be found, however, and are discussed under the term response shift, which can happen when adjusting to chronic and progressive diseases. Existence of response shift can be proven with confirmatory factor analysis (CFA) by measuring hrqol at different time points. This approach can be assigned to the broader issue of measurement of invariance in longitudinal studies and is described in a sample of 279 patients with diabetes mellitus. Different response shift processes were detectable. If response shift takes place but is not taken into account inferences from changes in scale scores to changes in hrqol are invalid. This means that the calculation of effect size is also influenced by response shift. By the use of CFA conventionally calculated effect size can be differentiated into either effects due to response shift or ‘true change’ of hrqol. Measurements of invariance within one group at 2 time points can be differentiated from multiple group analysis at one time point. Investigations of measurement of invariance in longitudinal studies allow for conclusions regarding sensitivity to change of instruments examining hrqol changes. This is important for clinicians who make decisions about which scales are appropriate to detect hrqol changes. For scientific research it is relevant for further analysis of sensitivity to change of hrqol instruments.


#

Einführung

Im Forschungsprozess werden nicht direkt messbare Variablen, sogenannte latente Konstrukte wie z. B. gesundheitsbezogene Lebensqualität, in der Regel durch Fragebogen mit mehreren Items erfasst. Dabei wird davon ausgegangen, dass aufsummierte Itemwerte (Skalen) sowohl zwischen verschiedenen Personengruppen als auch innerhalb der gleichen Personengruppe zu verschiedenen Zeitpunkten einfach miteinander verglichen werden können. Die Ergebnisse dieser Vergleiche werden üblicherweise als eindeutige Differenzen in den erfassten latenten Konstrukten interpretiert. Schuler und Jelitte [1] haben (in der vergangenen Ausgabe dieser Zeitschrift) an einem querschnittlichen Vergleich eines Modells der körperlichen Lebensqualität zwischen 2 Patientengruppen illustriert, dass diese Annahme nur gerechtfertigt ist, wenn von einer Invarianz der den Fragebögen zugrunde liegenden Messmodelle (engl. „Measurement Invariance“) ausgegangen werden kann. In diesem Artikel soll das Thema Invarianztestung auf längsschnittliche Studiendesigns angewendet werden. Dabei soll gezeigt werden, dass Invarianzuntersuchungen nicht nur methodische Implikationen haben, sondern dass aus ihnen wertvolle inhaltliche Hypothesen abgeleitet werden können. Dies wird am Beispiel des Response-Shift [2] illustriert, der vor allem in der Forschung zu Krankheitsverarbeitungsprozessen und zur Lebensqualität an Bedeutung gewonnen hat. Response-Shift kann durch unterschiedliche Methoden erfasst werden, z. B. mit individuell-qualitativen Ansätzen wie dem sogenannten Then-Test oder durch komplexere statistische Verfahren wie z. B. die konfirmatorische Faktorenanalyse oder auf der Item-Response-Theorie basierende Ansätze [3]. In diesem Artikel wird der Schwerpunkt auf die Anwendung der konfirmatorischen Faktorenanalyse gelegt, wobei ausgewählte methodische Aspekte der Invarianztestung kurz beschrieben werden. Für eine ausführliche Darstellung der methodischen Hintergründe zur Invarianztestung sei auf Schuler und Jelitte [1] verwiesen. Dennoch werden zu Beginn einige messtheoretische Grundlagen vorgestellt.


#

Messtheoretischer Hintergrund

Die Bewertung der Lebensqualität von Patienten in der Rehabilitation wird häufig anhand aufsummierter (gewichteter) Skalenwerte vorgenommen. Beispielsweise resultiert im Fragebogen zum Gesundheitszustand SF-36 [4] der Wert in der Körperlichen Summenskala aus einem gewichteten Anteil aller Subskalen des Fragebogens. Diese aufsummierten Skalen haben jedoch den Nachteil, dass die Werte der zugrundeliegenden Subskalen nicht nur durch das Ausmaß der körperlichen Lebensqualität bedingt sind, sondern auch durch eine Reihe anderer Faktoren, die sich zusätzlich auf den Skalenwert auswirken (klassische Messfehler, skalenspezifische Einflussfaktoren, Vergleichsprozesse, s. u.). Wird in einer Längsschnittstudie eine Prä-Post-Messung durchgeführt und ein Differenzwert aus den beiden Messungen berechnet, um beispielsweise anschließend einen Effekt zur Bewertung einer Intervention zu kalkulieren, dann ist dieser Differenzwert bzw. Effekt ebenfalls durch die zusätzlichen Faktoren beeinflusst bzw. fehlerbehaftet. Dennoch ist es oftmals gängige Praxis, von einer Zunahme des Mittelwertes einer Gruppe untersuchter Patienten auf einer aufsummierten Skala (vorausgesetzt, je höher der Wert, desto positiver die Merkmalsausprägung) auf eine „Verbesserung“ der körperlichen Lebensqualität zu schließen. Diese Schlussfolgerung ist aus Sicht der Response-Shift-Forschung nicht ohne weiteres haltbar. Geprüft werden kann sie mit der Invarianztestung im Längsschnitt.

Ausgangspunkt der Testung auf Invarianz im Längsschnitt ist die Definition eines Messmodells für eine latente Variable. Die latente Variable gilt als nicht direkt beobachtbar und muss mithilfe mehrerer manifester Variablen erschlossen werden. Die manifesten Variablen werden auch als Indikatoren der latenten Variablen bezeichnet und können sowohl einzelne Items als auch Subskalen eines Fragebogens sein. Zum Beispiel lässt sich die nicht direkt beobachtbare latente Variable Körperliche Lebensqualität indikativ durch die 4 Subskalen Körperliche Funktionsfähigkeit, Körperliche Rollenfunktion, Körperliche Schmerzen und Allgemeine Gesundheitswahrnehmung des SF-36 [4] schätzen.[1] Wichtig ist dabei die Annahme, dass die Ausprägung der Werte der Indikatoren (bspw. der Subskala Körperliche Funktionsfähigkeit) durch die latente Variable (Körperliche Lebensqualität) kausal beeinflusst wird. Jedoch sind die Werte der manifesten Variablen nicht nur durch die latente Variable bedingt, sondern auch durch weitere Einflussfaktoren. Die Beziehung zwischen der manifesten und der latenten Variable lässt sich mathematisch folgendermaßen darstellen:·

MVi=Ii + Fi* LV + ei (1)·

MVi steht in Gleichung 1 beispielsweise für eine der 4 Subskalen (i=1–4) der körperlichen Lebensqualität, Ii für den Intercept, Fi für die Faktorladung und ei für den Messfehler der entsprechenden Subskala. Die latente Variable stellt im Beispiel das latente Konstrukt körperliche Lebensqualität dar. Die Faktorladungen (Fi) geben das Ausmaß des Einflusses der latenten Variable auf die manifesten Variablen an. Die Intercepts (Ii) und die Fehlerterme (ei) beinhalten den Einfluss von Faktoren, die unabhängig von der latenten Variable die manifesten Variablen beeinflussen [7]. Der wesentliche Unterschied zwischen der Testung auf Invarianz im Längsschnitt und der Berechnung von Differenzwerten in aufsummierten Summenskalen nach dem eher üblichen Vorgehen in der Praxis lässt sich wie folgt beschreiben: Mithilfe der Invarianztestung kann kontrolliert werden, ob zu verschiedenen Messzeitpunkten dieselbe latente Variable (Körperliche Lebensqualität) denselben Einfluss auf die manifeste Variable (z. B. Körperliche Funktionsfähigkeit) hat und der Einfluss anderer Faktoren (gemessen über Intercepts, Messfehler) auf die manifeste Variable ebenfalls gleich bleibt. Wenn von der Invarianz der Faktorladungen, Intercepts und Messfehler zu verschiedenen Messzeitpunkten ausgegangen werden kann, dann lassen sich folgende Aussagen treffen: Verbessert sich die körperliche Lebensqualität, steigen die Wert auf den Subskalen. Umgekehrt kann dann von der Zunahme des Wertes in einer Subskala auf eine Verbesserung der körperlichen Lebensqualität geschlossen werden.


#

Response-Shift-Prozesse

Die Prüfung von Invarianz bei Mehrfachmessungen einer Stichprobe hat sich in der Lebensqualitätsforschung unter dem Begriff Response-Shift etabliert [8]. Inhaltlich wird unter Response-Shift die Veränderung des Bewertungshintergrunds für ein zu beurteilendes Konstrukt im Rahmen der Auseinandersetzung mit einem kritischen Lebensereignis verstanden. Insbesondere bei der Messung von gesundheitsbezogener Lebensqualität bei chronisch erkrankten Menschen ist davon auszugehen, dass entweder die Auseinandersetzung mit der Erkrankung (z. B. Krebs) oder die Änderung in der Behandlung dieser Krankheit (z. B. von der Akutversorgung in die Rehabilitation) einen Response-Shift auslösen kann. Demnach wäre anzunehmen, dass sich das, was gesundheitsbezogene Lebensqualität für eine erkrankte Person bedeutet, im Verlauf der Erkrankung oder deren Behandlung quantitativ und qualitativ verändern kann.

3 Response-Shift-Prozesse werden unterschieden, die im Folgenden am Beispiel der gesundheitsbezogenen Lebensqualität vorgestellt werden: Die Neukonzeptualisierung bedeutet, dass die gesundheitsbezogene Lebensqualität zu verschiedenen Zeitpunkten qualitativ variiert. Beispielsweise könnte für einen Patienten zu Beginn der Rehabilitation die körperliche Funktionsfähigkeit für die Bewertung der eigenen gesundheitsbezogenen Lebensqualität sehr wichtig sein. Wenn jedoch bei diesem Patienten massive körperliche Beeinträchtigungen – trotz Rehabilitation – bestehen bleiben, dann können Anpassungsprozesse dazu führen, dass die Person ihre gesundheitsbezogene Lebensqualität unabhängig von ihrer körperlichen Funktionsfähigkeit definiert. Das bedeutet jedoch auch, dass sich die gesundheitsbezogene Lebensqualität qualitativ verändert hat. Eine andere Möglichkeit der Neukonzeptualisierung ist, dass zu einem späteren Zeitpunkt ein Aspekt zur Bestimmung der eigenen gesundheitsbezogenen Lebensqualität hinzukommt, der vorher unbedeutend war. Mit Reprioritisierung wird hingegen eine Veränderung der Bedeutsamkeit einer Komponente (oder mehrerer) für die gesundheitsbezogene Lebensqualität bezeichnet, ohne dass diese Komponente (z. B. die körperliche Funktionsfähigkeit) vollkommen an Bedeutung verliert. Die Anzahl und die Art der Komponenten der gesundheitsbezogenen Lebensqualität bleiben somit zu verschiedenen Zeitpunkten gleich. Als Drittes wird die Rekalibrierung definiert, bei der die Skalierung einer Komponente (oder mehrerer) der gesundheitsbezogenen Lebensqualität zu verschiedenen Zeitpunkten variiert. Das bedeutet, dass zu beiden Messzeitpunkten der gleiche Zustand – die gleiche Ausprägung in der gesundheitsbezogenen Lebensqualität – mit einem jeweils anderen subjektiven Skalenwert beurteilt wird. Beispielsweise kann sich die subjektive Einschätzungsskala für Schmerzerleben bei einer Person verändern. Ein Orthopädiepatient könnte seinen subjektiv empfundenen Schmerz nach der Rehabilitationsmaßnahme anders bewerten als vor der Rehabilitation, da er Mitpatienten getroffen hat, denen es körperlich schlechter ging und die mehr Schmerzen hatten als er. Ein solcher „sozialer Abwärtsvergleich“ [9] könnte dazu führen, dass nach der Rehabilitationsmaßnahme eine geringere Schmerzintensität angegeben wird, obwohl sich das objektive Ausmaß an Schmerz nicht verändert hat.


#

Statistische Überprüfung der Response-Shift-Prozesse

In der Literatur werden verschiedene Strategien vorgestellt, um Response-Shift zu erfassen [10]. Zu unterscheiden sind individuell-qualitative, Design- und statistische Ansätze. Individuell-qualitative Ansätze sind darauf ausgerichtet, die für eine Person relevanten Dimensionen oder Komponenten der Lebensqualität mittels Exploration oder Fragebogen festzustellen. Zu einem späteren Messzeitpunkt wird diese Befragung wiederholt. Werden zu beiden Erhebungen qualitativ unterschiedliche Lebensqualitätsdimensionen als persönlich relevant angegeben, handelt es sich um eine Neukonzeptualisierung der Lebensqualität. Ändert sich die subjektive Bedeutung einzelner Komponenten für die Lebensqualität zum zweiten Messzeitpunkt, wird dies als Reprioritisierung bezeichnet. Eine Rekalibrierung kann mit diesen Ansätzen nicht erfasst werden. Ein Beispiel für dieses Vorgehen ist die Schedule for Evaluation of Individual Quality of Life (SEIQoL, [11]). Am häufigsten wird in der Literatur auf den sogenannten Then-Test zurückgegriffen, der zu den Design-Ansätzen gezählt wird. Dabei wird bei Messungen zu 2 Zeitpunkten zum zweiten Messzeitpunkt eine retrospektive Einschätzung der Lebensqualität zum ersten Messzeitpunkt erhoben. Die Differenz zwischen dem tatsächlichen Prä-Wert und dem retrospektiv erfassten Prä-Wert wird als Hinweis auf eine Rekalibrierung angesehen. Die tatsächliche Veränderung in der Lebensqualität soll sich aus der Differenz zwischen der Einschätzung des aktuellen Zustands zum zweiten Messzeitpunkt und der retrospektiven Einschätzung der Lebensqualität (zum ersten Messzeitpunkt) ergeben, da beide Einschätzungen zeitnah vor demselben Bewertungshintergrund vorgenommen wurden. Eine Reprioritisierung und eine Neukonzeptualisierung können mit dem Then-Test nicht erfasst werden. Mithilfe des statistischen Ansatzes der konfirmatorischen Faktorenanalyse lassen sich alle 3 Response-Shift-Prozesse mit geringem ökonomischem Aufwand gleichzeitig überprüfen [12] [13] [14].

Mit dem faktorenanalytischen Ansatz wird anhand der Vergleichbarkeit der Grundstruktur eines Messmodells der gesundheitsbezogenen Lebensqualität zu verschiedenen Messzeitpunkten die Neukonzeptualisierung der latenten Variable geprüft. Dabei wird überprüft, ob sich die gesundheitsbezogene Lebensqualität zu 2 Messzeitpunkten in den gleichen manifesten Variablen (gleiche Art und gleiche Anzahl) abbildet. Die Reprioritisierung wird überprüft, indem eine Gleichsetzung der Faktorladungen einer manifesten Variable (Fi) zu verschiedenen Messzeitpunkten erfolgt. Unterscheiden sich die Faktorladungen einer manifesten Variable zu 2 Messzeitpunkten statistisch signifikant, ist von einer Veränderung der Bedeutsamkeit der latenten Variablen für die manifeste Variable auszugehen. Die Rekalibrierung wird auf 2 verschiedenen Wegen statistisch überprüft: über die Intercepts (Ii; „uniforme Rekalibrierung“) und über die Varianzen der Messfehler (ei; „non-uniforme Rekalibrierung“) einer manifesten Variable. In den Intercepts sind alle Einflussfaktoren zusammengefasst, die auf die Beurteilung der manifesten Variable wirken, die aber unabhängig sind von der latenten Variable. Diese anderen Faktoren können zum Beispiel soziale Vergleichsprozesse, soziale Unterstützung oder verschiedene Bewältigungsstrategien sein und zu verschiedenen Messzeitpunkten unterschiedlichen Einfluss auf die manifeste Variable haben. Bei der uniformen Rekalibrierung wird angenommen, dass die Veränderung der Skalierung bei den meisten Personen in etwa dasselbe Ausmaß aufweist und die gesamte Skala einer manifesten Variable betrifft. Im Beispiel hieße das, dass die meisten Orthopädiepatienten nach ihrer Rehabilitation ihre körperlichen Schmerzen im gleichen Maße anders (stärker oder weniger stark) als vor der Reha bewerten, auch wenn diese sich nicht verändert haben. Von einer non-uniformen Rekalibrierung spricht man hingegen, wenn in der Stichprobe nur wenige Personen ihren Bewertungshintergrund verändern oder diese Veränderungen eher uneinheitlich sind. In diesem Fall ist davon auszugehen, dass sich die Varianz der Schmerzbewertung erhöht – allerdings nur diejenige Varianz, die nicht mit der Varianz in der zugehörigen latenten Variable assoziiert ist, also die Fehlervarianz. Die 3 Response-Shift-Prozesse Neukonzeptualisierung, Reprioritisierung und uniforme Rekalibrierung haben einen direkten Einfluss auf die Mittelwerte einer Skala. Die reine non-uniforme Rekalibrierung bezieht sich auf die Messfehlervarianz und beeinträchtigt daher nicht direkt die Skalenmittelwerte. Ist die non-uniforme Rekalibrierung jedoch sehr stark ausgeprägt, kann diese auch die Intercepts beeinflussen. Dann wird von einer non-uniformen Rekalibrierung mit Intercept-Beeinflussung gesprochen [12] [15].


#

Response-Shift bei Patienten mit Diabetes in der medizinischen Rehabilitation

Im Folgenden soll der Vorgang der statistischen Response-Shift-Überprüfung anhand eines Beispiels illustriert werden. Prinzipiell könnte hierbei das gleiche hierarchische Procedere angewendet werden wie bei der Invarianztestung zu einem Messzeitpunkt [16]. Hier wird aber in Anlehnung an Oort [12] eine andere Vorgehensweise dargestellt. Auf Unterschiede zwischen den beiden Varianten wird in der Diskussion eingegangen.

Dem Beispiel liegt eine Stichprobe von insgesamt 279 Patienten in der stationären medizinischen Rehabilitation von Diabetes-Erkrankungen zugrunde. Insgesamt wurden 147 Männer (52,7%) und 132 Frauen (47,3%) in die Analysen aufgenommen. Das Durchschnittsalter der Stichprobe liegt bei 48,4 Jahren (SD=8,5, Min=19, Max=64). Es soll überprüft werden, ob die latente Variable Körperliche Lebensqualität, geschätzt anhand der manifesten Variablen Körperliche Funktionsfähigkeit, Körperliche Rollenfunktion, Körperliche Schmerzen und Allgemeine Gesundheitswahrnehmung des SF-36, zwischen den Zeitpunkten T1 (vor der Reha) und T2 (nach der Reha) sowie die 4 verschiedenen Skalen (manifeste Variablen selbst) direkt miteinander verglichen werden dürfen oder ob Response-Shift-Prozesse identifiziert werden können.

Die Messmodelle der körperlichen Lebensqualität zum Messzeitpunkt 1 und Messzeitpunkt 2 werden so miteinander in Beziehung gesetzt, dass jede der manifesten Variablen und die latente Variable von Messzeitpunkt 1 mit der entsprechenden Variable zu Messzeitpunkt 2 in Beziehung gesetzt wird. Dieses Gesamtmodell wird als Basismodell bezeichnet (s. [Abb. 1]). In diesem Basismodell können alle Response-Shift-Parameter (Faktorladungen [F], Intercepts [I], Messfehler [e]) zu beiden Messzeitpunkten frei variieren. Das bedeutet, dass diese Parameter Werte annehmen dürfen, die aufgrund der vorliegenden Daten am besten zum Basismodell passen.

Zoom Image
Abb. 1 Messmodell der Invarianztestung im Längsschnitt.

In einem ersten Schritt wird das Basismodell auf seine statistische Plausibilität überprüft [17]. Diese Plausibilitätsprüfung erfolgt anhand der Durchführung eines Chi²-Tests und der Berechnung verschiedener Fit-Indizes (z. B. CFI, RMSEA; Chi²-Test p>0,05, RMSEA<0,06, CFI>0,95 [17] [18]). Ein schlecht passendes Basismodell kann ein Hinweis auf eine Neukonzeptualisierung sein. Sollte das a priori definierte Messmodell der körperlichen Lebensqualität lediglich zu einem der beiden Messzeitpunkte eine akzeptable bis gute Passung aufweisen, ist von einer Neukonzeptualisierung der körperlichen Lebensqualität auszugehen. Wenn das Messmodell jedoch zu beiden Messzeitpunkten schlecht passt, ist die Ursache dafür wahrscheinlich in Fehlspezifikationen des Modells zu sehen.[2]

Bei passendem Basismodell wird in einem nächsten Schritt das sogenannte Nullmodell spezifiziert und überprüft. Das Nullmodell resultiert aus dem Basismodell, indem alle korrespondierenden Response-Shift-Parameter für beide Messzeitpunkte als gleich definiert werden (F1_1=F1_2; F2_1=F2_2; … I1_1=I1_2; … e1_1=e1_2; …). Wenn die Passung dieses Nullmodells anhand des Chi²-Tests bzw. der Fit-Maße als gut bzw. akzeptabel bewertet wird und das Nullmodell nach einem Chi²-Differenzentest nicht signifikant schlechter abschneidet als das Basismodell, kann eine Invarianz der Messungen zu beiden Messzeitpunkten angenommen und von einer Abwesenheit von Response-Shift-Prozessen ausgegangen werden. Vergleiche im latenten Mittelwert sowie zwischen den eingesetzten 4 Subskalen können in diesem Fall in gewohnter Weise durchgeführt werden. Wird das Nullmodell jedoch als inakzeptabel bewertet, müssen weitere Response-Shift-Überprüfungen vorgenommen werden.

Die Überprüfung einzelner Response-Shift-Prozesse erfolgt über die Spezifikation von einem oder mehreren Sub-Modellen, bei denen einzelne Response-Shift-Parameter frei gesetzt werden. Die Güte der Modelle wird durch sog. genestete Modellvergleiche miteinander verglichen. Diesem Vorgehen liegt die Annahme zugrunde, dass die schlechte Passung des Nullmodells darauf zurückzuführen ist, dass sich einige der gleichgesetzten Modellparameter zwischen beiden Messzeitpunkten statistisch signifikant unterscheiden. Die freizusetzenden Response-Shift-Parameter lassen sich anhand sogenannter Modifikationsindizes [20] identifizieren, die ebenfalls mit der konfirmatorischen Faktorenanalyse berechnet werden können. Diese Indizes geben für jeden gleichgesetzten Response-Shift-Parameter an, wie gut sich die Passung des Gesamtmodells verbessert, wenn dieser Parameter zu beiden Messzeitpunkten frei gesetzt wird. Ausgehend vom Null-Modell, in dem alle Response-Shift-Parameter restringiert sind, wird nun derjenige Response-Shift-Parameter freigesetzt, der zu einer maximalen Verbesserung der Modellgüte führt. Anschließend wird dieses Vergleichsmodell (mit einem freigesetzten Response-Shift-Parameter) mit dem Nullmodell verglichen. Dieses Vergleichsmodell muss sich wiederum im Chi2-Test statistisch signifikant vom Nullmodell unterscheiden.[3] Dieses Vorgehen wird nun so lange fortgeführt, bis eine zusätzliche Freisetzung eines restringierten Response-Shift-Parameters zu keiner statistisch signifikanten Verbesserung der Modellgüte des geprüften Vergleichsmodells führt. Das Vergleichsmodell, bei dem die letzte Freisetzung eines Response-Shift-Parameters zu einer statistisch signifikanten Verbesserung der Modellgüte geführt hat, wird als Response-Shift-Modell bezeichnet.[4] In [Tab. 1] sind die Werte zur Beurteilung der Güte der Modelle des Beispiels angegeben. Das Basismodell weist demnach akzeptable, das Nullmodell jedoch schlechte Fit-Werte auf. Das Response-Shift-Modell wiederum weist eine akzeptable Passung auf.

Tab. 1 Fit-Indizes der Modellprüfung im Längsschnitt.

Modelle

Fit indizes

χ²

df

p

CFI

RMSEA

χ2=Diskrepanzfunktion, df=Freiheitsgrade, RMSEA=Root Mean Square Error of Approximation, CFI=Comparative Fit Index

1 Basismodell

29,345

15

0,05

0,990

0,050

2 Nullmodell

104,807

25

<0,01

0,920

0,107

3 Response-Shift-Modell

30,347

19

0,05

0,989

0,046

In [Tab. 2] sind die Werte für die Überprüfung der genesteten Modelle, ausgehend vom Nullmodell bis zum Response-Shift-Modell, dargestellt. Die Modelle unterscheiden sich derart, dass in den benannten Modellen jeweils der in der Spalte Parameterfreisetzung angegebene Response-Shift-Parameter zusätzlich zu den vorher aufgeführten Parametern der Vorläufermodelle freigesetzt wird. Der angegebene Chi²-Wert ergibt sich aus der Differenz zwischen dem Chi²-Wert des Response-Shift-Modells und dem des jeweiligen Vorläufermodells.

Tab. 2 Vergleich zwischen Response-Shift-Modell und Vorläufermodellen.

Modellvergleiche

Fit indizes

χ²Diff

dfDiff

p

Parameterfreisetzung

RS=Response-Shift-Modell, χ2=Diskrepanzfunktion, df=Freiheitsgrade, Diff.=Differenz

Nullmodell mit RS

74,460

6

<0,001

keine

Modell 1 mit RS

48,671

5

<0,001

Faktorladung Allgemeine Gesundheitswahrnehmung (F1)

Modell 2 mit RS

37,227

4

<0,001

plus Messfehler Körperliche Rollenfunktion (e3)

Modell 3 mit RS

21,576

3

<0,001

plus Intercept Körperliche Rollenfunktion (I3)

Modell 4 mit RS

14,122

2

<0,001

plus Intercept Allgemeine Gesundheitswahrnehmung (I1)

Modell 5 mit RS

4,787

1

0,029

plus Messfehler Körperliche Funktionsfähigkeit (e4)

Response-Shift-Modell

plus Messfehler Körperliche Schmerzen (e2)

Wie [Tab. 2] zu entnehmen ist, wurden im vorliegenden Beispiel insgesamt 6 Parameter freigesetzt: Die Faktorladung der Skala Allgemeine Gesundheitswahrnehmung, die Intercepts der Skalen Körperliche Rollenfunktion und Allgemeine Gesundheitswahrnehmung sowie die Messfehlervarianzen der Skalen Körperliche Rollenfunktion, Körperliche Funktionsfähigkeit und Körperliche Schmerzen. Laut Response-Shift-Definition treten bei der Messung der körperlichen Lebensqualität anhand des untersuchten Messmodells in der vorliegenden Stichprobe die Response-Shift-Prozesse Rekalibrierung und Reprioritisierung auf. Auf der Skala Allgemeine Gesundheitswahrnehmung ist eine Reprioritisierung identifizierbar. Eine uniforme Rekalibrierung findet ebenfalls in der Skala Allgemeine Gesundheitswahrnehmung statt. Eine non-uniforme Rekalibrierung wird in den Skalen Körperliche Rollenfunktion (mit Interceptbeeinflussung), Körperliche Funktionsfähigkeit und Körperliche Schmerzen (jeweils ohne Interceptbeeinflussung) aufgedeckt. Somit verändert sich der Bewertungshintergrund für diese Skalen. Die Werte aller geprüften Parameter finden sich in [Tab. 3].

Tab. 3 Schätzung der Response-Shift-Parameter.

Allg. Ges.

Körp. Schm.

Körp. Roll.

Körp. Funk.

Allg. Ges.=Allgemeine Gesundheitswahrnehmung, Körp. Schm.=Körperliche Schmerzen, Körp. Roll.=Körperliche Rollenfunktion, Körp. Funk.=Körperliche Funktionsfähigkeit, MZP=Messzeitpunkt, fett=Response-Shift-Prozess

Faktorladungen

MZP 1

0,46

0,72

0,67

0,72

MZP2

0,56

0,72

0,67

0,72

Intercepts

MZP 1

48,1

64,3

59,3

76,1

MZP 2

51,7

64,3

71,2

76,1

Messfehlervarianzen

MZP 1

211,6

438,4

786,2

199,8

MZP 2

211,6

325,1

436,6

144,3

Durch die Aufdeckung der Response-Shift-Prozesse muss ein Vergleich in den Mittelwerten einer im klassischen Sinne aufsummierten Gesamtskala als kritisch angesehen werden. Das gilt auch für die Mittelwertsunterschiede in den zugehörigen Subskalen. So ist für die Skalen Körperliche Rollenfunktion und Allgemeine Gesundheitswahrnehmung, die durch Response-Shift beeinflusst sind, davon auszugehen, dass deren Mittelwerte zu den beiden Messzeitpunkten nicht einfach miteinander in Beziehung gesetzt werden dürfen. Das ist darauf zurückzuführen, dass die beobachtbaren Effekte durch eine Veränderung des Bewertungshintergrunds dieser Skalen beeinflusst sind. Für eine weitere Untersuchung des Response-Shifts auf der Ebene der manifesten Variablen schlägt Oort [12] eine Formel vor, mittels derer sich abschätzen lässt, welchen Anteil ein Response-Shift an einem beobachtbaren Effekt auf Mittelwertsebene der manifesten Variable hat und welcher Anteil auf die Veränderung in der latenten Variable zurückzuführen ist.[5] Für die in der vorliegenden Stichprobe aufgedeckten Response-Shift-Prozesse lassen sich die in [Tab. 4] dargestellten Effekte berechnen.

Tab. 4 Effektkalkulation und Response-Shift.

Skala

Response-Shift

Effektstärke Gesamtstichprobe

1

2

3

beobachtet

Response-Shift

‚wahre‘ Veränderung

KöFu=Körperliche Funktionsfähigkeit, KöRo=Körperliche Rollenfunktion, Schm=körperliche Schmerzen, AlGes=Allgemeine Gesundheitswahrnehmung, 1=non-uniforme Rekalibrierung, *=mit Interceptbeeinflussung, 2=uniforme Rekalibrierung, 3=Reprioritisierung, fett=Skalen mit Response-Shift-Einfluss auf Mittelwertsebene

KöFu

ja

nein

nein

0,59

-----

0,59

KöRo

ja*

nein

nein

0,63

0,31

0,32

Schm

ja

nein

nein

0,46

-----

0,46

AlGes

nein

ja

ja

0,60

0,36

0,24

Der beobachtete Effekt auf der Skala Körperliche Rollenfunktion wird jeweils zum gleichen Teil durch einen Response-Shift (non-uniforme Rekalibrierung mit Interceptbeeinflussung) und durch die Veränderung der latenten Variable verursacht. Inhaltlich ist das Ergebnis so zu interpretieren, dass die Zunahme der Werte zum einen durch eine Steigerung der körperlichen Lebensqualität zustande kommt. Zum anderen ist der Response-Shift so zu interpretieren, dass die Patienten bei ihrer Bewertung der Rollenfunktion nun mit weniger zufrieden sind, also für denselben Zustand in ihrer selbst eingeschätzten Rollenfunktion zum Messzeitpunkt 2 einen positiveren Skalenwert angeben. Auf der Skala Allgemeine Gesundheitswahrnehmung hat der Response-Shift auf die Veränderung dieser manifesten Variable einen größeren Einfluss als die Veränderung der latenten Variable. Die Rekalibrierung weist darauf hin, dass die Patienten denselben allgemeinen Gesundheitszustand zum zweiten Messzeitpunkt positiver bewerten als zum ersten. Gleichzeitig besitzt die körperliche Lebensqualität zum zweiten Messzeitpunkt deutlich mehr Bedeutung für diese manifeste Variable als zum Messzeitpunkt 1. Veränderungen der Messfehlervarianz ohne Einfluss auf den Intercept der Skala (non-uniforme Rekalibrierung) haben keinen direkten Einfluss auf die beobachtbaren Effekte und wirken sich daher nicht auf die Mittelwerte der Skalen Körperliche Funktionsfähigkeit und Körperliche Schmerzen aus. Insgesamt kann in diesem Beispiel den Response-Shift-Prozessen ein beachtenswerter Einfluss auf die Veränderungsmessung zugesprochen werden.

Wie soll nun im Fall eines aufgedeckten Response-Shifts vorgegangen werden, wenn man an Mittelwertsvergleichen zwischen den beiden Messzeitpunkten interessiert ist? Prinzipiell kommen 3 Möglichkeiten in Betracht [23]: Zum einen kann man die Response-Shift-Prozesse als praktisch irrelevant betrachten und die Mittelwertsvergleiche wie geplant durchführen. In diesem Sinne ist es möglich, die Aussage zu treffen, dass sich auf einer Skala eine (allgemeine) Veränderung abbildet. Worauf diese Veränderung zurückzuführen ist, bleibt dabei unberücksichtigt. Es darf dann jedoch nicht geschlussfolgert werden, dass sich die körperliche Lebensqualität verändert hat. Wenn Response-Shift-Prozesse jedoch als praktisch bedeutsam eingestuft werden, kann man entweder einen Vergleich in aufsummierten Skalenwerten durchführen, wobei auf Einbezug Response-Shift-beeinflusster Skalen verzichtet werden sollte [24]. Im vorliegenden Beispiel würden dann jedoch nur noch die Subskalen Körperliche Funktionsfähigkeit und Körperliche Schmerzen in die Berechnung einer aufsummierten Gesamtskala „Körperlicher Gesamtwert“ eingehen ([Tab. 2]). Die andere Alternative besteht darin, die Differenzen der Mittelwerte der latenten Variable Körperliche Lebensqualität zu berechnen. Nach Steenkamp und Baumgartner [25] ist dieses Verfahren zulässig, wenn pro Parameterebene (Faktorladungen oder Intercepts) mindestens 2 Parameter restringiert bleiben. Da im vorliegenden Beispiel sowohl auf der Ebene der Faktorladungen als auch auf Ebene der Intercepts die Parameter von mindestens 2 Skalen als invariant gelten, darf ein solcher Vergleich durchgeführt werden. Im vorliegenden Beispiel zeigt sich eine statistisch signifikante Verbesserung der körperlichen Lebensqualität auf latenter Ebene (KLQ_1=0,00, KLQ_2 =0,50, p<0,001). Von daher darf aufgrund der Berechnung der Veränderung der latenten Variable auf eine Verbesserung der körperlichen Lebensqualität zum Messzeitpunkt 2 geschlossen werden.


#

Gründe für die Invarianz von Messungen im Längsschnitt

Invarianz von Messungen im Längsschnitt kann auf das verwendete Messinstrument zurückzuführen sein. In diesem Zusammenhang spielt die Änderungssensitivität eines Instruments eine Rolle, also dessen Fähigkeit, tatsächlich aufgetretene Veränderungen in den erfassten Konstrukten (gesundheitsbezogene Lebensqualität) abbilden zu können [26]. Bei Messinstrumenten, die Response-Shift-anfällig sind, ist somit (zumindest auf manifester Ebene) die Änderungssensitivität eingeschränkt. In der Literatur wird weiterhin diskutiert, ob bestimmte Itemformulierungen eher Response-Shift-anfällig sind als andere [27]. Demnach sollen sogenannte evaluationsbasierte Itemformulierungen (beispielsweise „Wie schwierig ist es für Sie, Treppen zu steigen?“), in denen die subjektive Bewertung eines Sachverhalts erfragt wird, eher durch Response-Shift beeinflussbar sein als Items, die eher wahrnehmungs- („Wie oft steigen Sie Treppen?“) oder fähigkeitsorientiert formuliert sind („Können Sie Treppen steigen?“). Eine besondere Bedeutung erhält die Invarianz von Messungen im Längsschnitt deshalb, weil die Veränderung des Bewertungshintergrunds für gesundheitsbezogene Lebensqualität auch ein explizites Ziel rehabilitativer Maßnahmen sein kann. Response-Shift ist besonders dann zu berücksichtigen, wenn therapeutische Interventionen auf die Veränderung von Bewertungsprozessen ausgerichtet sind (bspw. durch Arzt-Patient-Gespräche über fortschreitenden Krankheitsverlauf, psychotherapeutische Einzel- und Gruppengespräche). Response-Shift kann jedoch auch auftreten, wenn keine Behandlungsmaßnahme erfolgt [2]. Eine Adjustierung von Zielen, Erwartungen und Neudefinition von Lebenssinn ist oftmals Teil einer angemessenen Bewältigung massiver körperlicher Veränderungen und emotionaler Belastungen [28] [29] [30].


#

Diskussion

Im vorliegenden Artikel wurde die Analyse der Invarianztestung bei einer Stichprobe im Längsschnitt vorgestellt. Im Artikel von Schuler und Jelitte [1] in dieser Zeitschrift wurde die Testung von Invarianz zwischen verschiedenen Gruppen zu einem Messzeitpunkt beispielhaft illustriert. In dem Artikel wurden auch allgemeine Kritikpunkte für den Einsatz der konfirmatorischen Faktorenanalyse zur Invarianztestung beschrieben (große Stichproben, Gruppenstatistik, unklarer Einfluss unterschiedlicher Schätzverfahren), weshalb darauf hier verzichtet wird. Im Folgenden sollen die wesentlichsten Unterschiede der beiden Vorgehensweisen gegenübergestellt und kurz diskutiert werden. Dabei soll das Vorgehen aus Schuler und Jelitte [1] mit „Hierarchischer Ansatz“, das in diesem Artikel vorgestellte Verfahren zur Response-Shift-Erfassung als „Nullmodell-Ansatz“ bezeichnet werden.

Ein Unterschied besteht in der Reihenfolge der Modelltestungen: Nach dem Nullmodell-Ansatz wird nach Annahme eines Basismodells ein vollständig restringiertes Nullmodell getestet. Die Prüfung eines solchen Nullmodells entspricht dabei der Testung auf strikte Invarianz beim hierarchischen Ansatz. Das bedeutet, dass die Invarianztestung nach dem Nullmodell-Ansatz mit dem Modell beginnt, das nach der hierarchischen Methode (wenn überhaupt) erst am Ende der Modelltestungen gebildet wird. Des Weiteren unterscheidet sich die Art der Parameterfreisetzung zwischen den Vorgehensweisen: Bei der hierarchischen Methode werden ausgehend von einem Basismodell sukzessive ganze Parameterebenen (z. B. alle Faktorladungen, alle Intercepts usw.) gleichzeitig restringiert. Im Nullmodell-Ansatz hingegen werden nach der Verwerfung eines Nullmodells einzelne Parameter (eine Faktorladung, ein Intercept usw.) freigesetzt. Der Nullmodell-Ansatz soll eine größere Power zur Aufdeckung von Invarianzen aufweisen, gleichzeitig geht er jedoch mit einem erhöhten Risiko für einen Fehler 1. Art einher, also dem Risiko, Response-Shift-Effekte anzunehmen, obwohl sie nicht vorhanden sind [13] [15].

In der Literatur wird bei der Überprüfung der Invarianz zu einem Messzeitpunkt zumeist der hierarchische Ansatz gewählt [24] [31], während die Nullmodell-Methode v. a. bei der Erforschung von Response-Shift-Prozessen eingesetzt wird [13] [15] [32] [33] [34]. Prinzipiell sind jedoch beide Ansätze sowohl bei der Testung von Invarianzen über die Zeit als auch zwischen Vergleichsgruppen zu einem Zeitpunkt anwendbar. Bislang liegen leider kaum Studien vor, die beide Ansätze direkt miteinander vergleichen [13]. Aufgrund der wahrscheinlich höheren Power des Nullmodell-Ansatzes zur Aufdeckung von Invarianzen kann die Wahl der Methode vom Ziel der Untersuchung abhängig gemacht werden: Liegt das Ziel der Studie explizit in der Aufdeckung von Response-Shift-Prozessen, scheint die Nullmodell-Methode geeigneter zu sein. Stehen jedoch beispielsweise Mittelwertsvergleiche in den interessierenden latenten Konstrukten im Vordergrund, kann eher das hierarchische Vorgehen gewählt werden, da dieses mit einem geringeren Fehler 1. Art einhergehen soll.

Es muss jedoch beachtet werden, dass beide Vorgehensweisen explorative Vorgehensweisen darstellen. Denn obwohl die konfirmatorische Faktorenanalyse als statistische Methode eingesetzt wird, werden vorab keine Hypothesen darüber formuliert, welcher der zu prüfenden Parameter verschiedene Werte zwischen den Gruppen oder den Messzeitpunkten annimmt. Welche Parameter invariant sind und welche nicht, resultiert jeweils aus den zugrundeliegenden Daten und wird vom Forscher „festgestellt“. Schlussfolgerungen über das Auftreten von Invarianzen sollten daher an weiteren Stichproben einer Validierung unterzogen werden [35].

Wenngleich heutzutage mit der konfirmatorischen Faktorenanalyse oder mit hier nicht weiter vorgestellten Ansätzen auf Basis der Item-Response-Theorie [3] geeignetere Analysemethoden zur Aufdeckung von Messinvarianzen zur Verfügung stehen als früher [36], bleiben noch viele methodische und inhaltliche Probleme ungelöst. So gibt es z. B. bislang wenig systematische Forschung darüber, wie groß ein Invarianz-Effekt sein muss, um praktisch bedeutsam zu sein [23] oder wie sich Parameterinvarianzen im Längsschnitt gegenseitig beeinflussen. Auch ist Response-Shift zwar mittlerweile seit ca. 10 Jahren ein Begriff in der Lebensqualitätsforschung [37]. Eine Metaanalyse mit Response-Shift-Studien zeigte aber im Ergebnis eher schwache Response-Shift-Effekte [38]. Allerdings wurden in dieser ersten Übersichtsarbeit keine Response-Shift-Studien mit der konfirmatorischen Faktorenanalyse in die statistische Analyse aufgenommen.

Bisher wurde die konfirmatorische Faktorenanalyse zur Response-Shift-Erfassung eher selten eingesetzt. Jedoch stellt dieser Ansatz eine sehr gute Möglichkeit dar, alle 3 Response-Shift-Prozesse gleichzeitig (also sehr ökonomisch) im Rahmen von Vorher-Nachher-Messungen zu messen. Ist die Stichprobe ausreichend groß, sollte zur Response-Shift-Erfassung die Invarianzmessung eingesetzt werden. Werden kleine Stichproben untersucht, ist eine Kombination aus individuell-qualitativen Verfahren und dem Then-Test zu empfehlen. Allerdings ist selbst bei kleinen Stichproben der Einsatz eines individuell-qualitativen Vorgehens mit einem hohen ökonomischen Aufwand verbunden. Kritisch am Then-Test ist, dass die Retrospektivbeurteilung durch fehlerbehaftete Erinnerungen oder implizite Veränderungstheorien verzerrt werden kann [39]. Es gibt jedoch Empfehlungen für den Einsatz des Then-Tests, die zu einer Optimierung der Erfassung der Rekalibrierung beitragen können [40].

Für die Evaluationsforschung und für die Praxis der Rehabilitation ist Response-Shift ein wichtiges Thema. So konnte Jelitte [41] mit dem Verfahren der Invarianzmessung mit der konfirmatorischen Faktorenanalyse Response-Shift in einer Stichprobe von Prostatakrebspatienten im Zusammenhang mit einer Anschlussheilbehandlung nachweisen. Neben der Betrachtung von Response-Shift als methodisches Problem stellt sich die Frage, wann Response-Shift ein sinnvolles Ziel einer Behandlungsmaßnahme ist und wie dieses Ziel in der Praxis gemessen werden kann. Auf individueller Ebene einzelner Patienten ist sicherlich ein qualitatives Vorgehen zu empfehlen [42]. Für die quantitative Evaluationsforschung bietet der Ansatz der Invarianztestung jedoch eine gute Möglichkeit, empirisch zu prüfen, bei welchen Patienten mit welchen Messinstrumenten bei welchen Zeitvergleichen überhaupt mit Response-Shift zu rechnen ist. Auf diese Weise können mögliche Response-Shift-Prädiktoren wie Krankheitsart und -schwere, verschiedene Behandlungsformen oder Faktoren wie Alter oder Geschlecht der Patienten untersucht werden.

Response-Shift stellt eine besondere Herausforderung für die Gestaltung und Prüfung der Änderungssensitivität von Assessment-Instrumenten dar. Die Invarianztestung bietet jedoch auch diesbezüglich einen geeigneten Ansatz, um Änderungssensitivität von Messinstrumenten zu prüfen: Eine Möglichkeit, Änderungssensitivität zu erfassen, ist die Prüfung auf Veränderung eines sogenannten „true scores“ [43]. Dabei wird der wahre Wert einer zu messenden Variable geschätzt und dessen Veränderung mit den Veränderungen manifester Skalenwerte, die ebenfalls diesen „true score“ abbilden sollen, in Beziehung gesetzt. Diesem Bereich ist auch die Invarianztestung zuordenbar, da sie Aussagen darüber ermöglicht, inwieweit beispielsweise die Veränderungen der Werte in Lebensqualitätsskalen (manifeste Variablen) tatsächlich durch eine Veränderung der Lebensqualität (latente Variable) bedingt sind. Wenn ein Instrument zur Messung der Lebensqualität konzipiert wurde, dann sollte es auch sensitiv für deren Veränderung sein und nicht einen Response-Shift abbilden.

Grundsätzlich ist zu empfehlen, bei der psychometrischen Überprüfung von neu entwickelten oder bereits bestehenden Instrumenten auch die Invarianz der Messungen sowohl zwischen wichtigen Vergleichsgruppen als auch über die Zeit zu prüfen. Die hier vorgestellten Ansätze bieten die Möglichkeit, die Präzision der eigentlich interessierenden Effekte oder Variablenzusammenhänge zu erhöhen.·


#
Kernbotschaft

Die Ergebnisse von Prä-Post-Vergleichen können dadurch verzerrt werden, dass das gemessene Konstrukt zu verschiedenen Messzeitpunkten für die untersuchten Personen etwas Unterschiedliches bedeutet. Mit statistischen Methoden wie der konfirmatorischen Faktorenanalyse können Invarianztestungen durchgeführt werden, um zu prüfen, ob Einschätzungen der befragten Personen zu verschiedenen Messzeitpunkten vor demselben Bewertungshintergrund vorgenommen werden. Bleibt der Bewertungshintergrund für das Konstrukt stabil, kann aus Mittelwertsdifferenzen auf eine Veränderung im Konstrukt geschlossen werden. Ändert sich jedoch der Bewertungshintergrund, bilden die Mittelwertsvergleiche auf Skalenebene nicht die tatsächlichen quantitativen Veränderungen im interessierenden Konstrukt ab. In diesem Fall können kalkulierte Effekte von Maßnahmen nicht eindeutig interpretiert werden.


#

Interessenkonflikt:

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Prof. Dr. Dr. Christian Zwingmann, Bochum. Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-Mail: christian.zwingmann@web.de


1

1 Es sei darauf hingewiesen, dass dieses Messmodell der körperlichen Lebensqualität nicht mit dem aktuellen Messmodell der Körperlichen Summenskala des SF-36 [5] [6] übereinstimmt. Aus didaktischen Gründen wird hier jedoch auf dieses vereinfachte Messmodell der körperlichen Lebensqualität Bezug genommen. Eine Aussage über die Güte der Körperlichen Summenskala des SF-36 ist aufgrund des hier verwendeten Modells nicht möglich und von den Autoren auch nicht intendiert.


2

2  Zur Problematik der Identifikation von fehlspezifizierten Modellen siehe [19].


3

3  Als weiteres Entscheidungskriterium kann die Differenz in Fit-Indizes herangezogen werden [1] [21].


4

4  Ein Response-Shift-Modell entspricht somit einem Modell partieller Invarianz [1] [22] im Längsschnitt.


5

5 Aus Platzgründen wird eine ausführliche Darstellung der Formel hier nicht vorgenommen. Dem interessierten Leser wird der Artikel von Oort [12] empfohlen.


  • Literatur

  • 1 Schuler M, Jelitte M. Messen wir bei allen Personen das Gleiche? Zur Invarianz von Messungen und Response Shift in der Rehabilitation – Teil 1. Rehabilitation (im Druck)
  • 2 Sprangers MA, Schwartz CE. Integrating response shift into health-related quality of life research: a theoretical model. Soc Sci Med 1999; 48: 1507-1515
  • 3 Meade AW, Lautenschlager GJ, Hecht JE. Establishing measurement equivalence and invariance in longitudinal data with item response theory. International Journal of Testing 2005; 5: 279-300
  • 4 Bullinger M, Kirchberger I. SF-36, Fragebogen zum Gesundheitszustand. Göttingen u. a.: Hogrefe; 1998
  • 5 Maurischat C, Krüger-Bödecker A. Analysen zum Strukturmodell des SF-36/SF-12 – eine Übersicht. In: Maurischat C, Morfeld M, Kohlmann T, Bullinger M. Hrsg Lebensqualität: Nützlichkeit und Psychometrie des Health Survey SF-36/SF-12 in der medizinischen Rehabilitation. Lengerich: Pabst; 2004: 29-48
  • 6 Bullinger M, Morfeld M. Der Health Survey SF-36/SF-12: Darstellung und Entwicklungen. In: Maurischat C, Morfeld M, Kohlmann T, Bullinger M. Hrsg Lebensqualität: Nützlichkeit und Psychometrie des Health Survey SF-36/SF-12 in der medizinischen Rehabilitation. Lengerich: Pabst; 2004: 15-28
  • 7 Oort FJ. Types of change in self-report data: definition, interpretation, and operationalization. In: Van Dijkum C, Blasius J, Kleijr H, von Hilten B. Hrsg Recent Developments and Applications in Social Research Methodology. Amsterdam: SISWO; 2004: 1-21
  • 8 Güthlin C. Response Shift: Alte Probleme der Veränderungsmessung, neu angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische Psychologie. 2004. 13. 165-174
  • 9 Gibbons FX. Social comparison as a mediator of response shift. Soc Sci Med 1999; 48: 1517-1530
  • 10 Schwartz CE, Sprangers MAG. Methodological approaches for assessing response shift in longitudinal health-related quality-of-life research. Soc Sci Med 1999; 48: 1531-1548
  • 11 O’Boyle CA, McGee HM, Browne JP. Measuring response shift using the Schedule for Evaluation of Individual Quality of Life. In: Schwartz CESMAG, Hrsg. Adaptation to changing health: Response shift in quality-of-life research. Washington, DC: American Psychological Association; 2000: 123-136
  • 12 Oort FJ. Using structural equation modeling to detect response shifts and true change. Quality of Life Research 2005; 14: 587-598
  • 13 Ahmed S, Bourbeau J, Maltais F et al. The Oort structural equation modeling approach detected a response shift after a COPD self-management program not detected by the Schmitt technique. Journal of Clinical Epidemiology 2009; 62: 1165-1172
  • 14 Ahmed S, Mayo NE, Wood-Dauphinee S et al. The structural equation modeling technique did not show a response shift, contrary to the results of the then test and the individualized approaches. Journal of Clinical Epidemiology 2005; 58: 1125-1133
  • 15 Oort FJ, Visser MR, Sprangers MA. An application of structural equation modeling to detect response shifts and true change in quality of life data from cancer patients undergoing invasive surgery. Quality of Life Research 2005; 14: 599-609
  • 16 Widaman KF, Ferrer E, Conger RD. Factorial invariance within longitudinal structural equation models: Measuring the same construct across time. Child Dev Perspect 2010; 4: 10-18
  • 17 Bühner M. Einführung in die Test- und Fragebogenkonstruktion. 2. Aufl. München: Pearson Education Deutschland; 2006
  • 18 Hu L-T, Bentler PM. Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling 1999; 6: 1-55
  • 19 Bollen KA. Structural equations with latent variables. Oxford: John Wiley & Sons; 1989
  • 20 Arbuckle JL. AMOS 17.0 User’s Guide. Chicago, IL: SPSS; 2008
  • 21 Meade AW, Johnson EC, Braddy PW. Power and sensitivity of alternative fit indices in tests of measurement invariance. Journal of Applied Psychology 2008; 93: 568-592
  • 22 Byrne BM, Shavelson RJ, Muthen B. Testing for the equivalence of factor covariance and mean structures: The issue of partial measurement invariance. Psychological Bulletin 1989; 105: 456-466
  • 23 Millsap RE, Kwok OM. Evaluating the impact of partial factorial invariance on selection in two populations. Psychological Methods 2004; 9: 93-115
  • 24 Gregorich SE. Do self-report instruments allow meaningful comparisons across diverse population groups? Testing measurement invariance using the confirmatory factor analysis framework. Medical Care 2006; 44: S78-S94
  • 25 Steenkamp J-BE, Baumgartner H. Assessing measurement invariance in cross-national consumer research. Journal of Consumer Research 1998; 25: 78-90
  • 26 Igl W, Zwingmann C, Faller H. Änderungssensitivität. Rehabilitation 2005; 44: 100-106
  • 27 Schwartz CE, Rapkin BD. Reconsidering the psychometrics of quality of life assessment in light of response shift and appraisal. Health Qual Life Outcomes 2004; 2: 16
  • 28 Sharpe L, Curran L. Understanding the process of adjustment to illness. Soc Sci Med 2006; 62: 1153-1166
  • 29 Folkman S, Greer S. Promoting psychological well-being in the face of serious illness: when theory, research and practice inform each other. Psychooncology 2000; 9: 11-19
  • 30 Carver CS, Scheier MF. Scaling back goals and recalibration of the affect system are processes in normal adaptive self-regulation: understanding ‘response shift’ phenomena. Soc Sci Med 2000; 50: 1715-1722
  • 31 Schmitt N, Kuljanin G. Measurement invariance: Review of practice and implications. Human Resource Management Review 2008; 18: 210-222
  • 32 Oort FJ, Visser MR, Sprangers MA. Formal definitions of measurement bias and explanation bias clarify measurement and conceptual perspectives on response shift. Journal of Clinical Epidemiology 2009; 62: 1126-1137
  • 33 King-Kallimanis BL, Oort FJ, Visser MR et al. Structural equation modeling of health-related quality-of-life data illustrates the measurement and conceptual perspectives on response shift. Journal of Clinical Epidemiology 2009; 62: 1157-1164
  • 34 Nolte S, Elsworth GR, Sinclair AJ et al. Tests of measurement invariance failed to support the application of the “then-test”. Journal of Clinical Epidemiology 2009; 62: 1173-1180
  • 35 MacCallum RC, Roznowski M, Mar CM et al. Alternative strategies for cross-validation of covariance structure models. Multivariate Behavioral Research 1994; 29: 1-32
  • 36 Millsap RE, Meredith W. Factorial invariance: Historical perspectives and new problems. In: Cudeck R, MacCallum R. Hrsg Factor Analysis at 100: Historical Developments and Future Directions. Mahwah, NJ: Lawrence Erlbaum; 2007: 131-152
  • 37 Schwartz CE, Sprangers MA. Reflections on genes and sustainable change: toward a trait and state conceptualization of response shift. Journal of Clinical Epidemiology 2009; 62: 1118-1123
  • 38 Schwartz CE, Bode R, Repucci N et al. The clinical significance of adaptation to changing health: A meta-analysis of response shift. Quality of Life Research 2006; 15: 1533-1550
  • 39 Norman G. Hi! How are you? Response shift, implicit theories and differing epistemologies. Quality of Life Research 2003; 12: 239-249
  • 40 Schwartz CE, Sprangers MA. Guidelines for improving the stringency of response shift research using the thentest. Quality of life research 2010; 19: 455-464
  • 41 Jelitte M. Untersuchung von Response-Shift-Einflüssen auf die Erfassung der gesundheitsbezogenen Lebensqualitat bei Prostatakrebspatienten in der onkologischen Rehabilitation. Dissertation. Universität Koblenz-Landau, Fachbereich Psychologie 2010; 348
  • 42 Barclay-Goddard R, Epstein JD, Mayo NE. Response shift: a brief overview and proposed research priorities. Quality of Life Research 2009; 18: 335-346
  • 43 Terwee CB, Dekker FW, Wiersinga WM et al. On assessing responsiveness of health-related quality of life instruments: guidelines for instrument evaluation. Quality of life research 2003; 12: 349-362

Korrespondenzadresse

Dr. Matthias Jelitte
Universität Würzburg
Institut für Psychotherapie und Medizinische Psychologie
Arbeitsbereich Rehabilitationswissenschaften
Marcusstraße 9-11
97070 Würzburg

  • Literatur

  • 1 Schuler M, Jelitte M. Messen wir bei allen Personen das Gleiche? Zur Invarianz von Messungen und Response Shift in der Rehabilitation – Teil 1. Rehabilitation (im Druck)
  • 2 Sprangers MA, Schwartz CE. Integrating response shift into health-related quality of life research: a theoretical model. Soc Sci Med 1999; 48: 1507-1515
  • 3 Meade AW, Lautenschlager GJ, Hecht JE. Establishing measurement equivalence and invariance in longitudinal data with item response theory. International Journal of Testing 2005; 5: 279-300
  • 4 Bullinger M, Kirchberger I. SF-36, Fragebogen zum Gesundheitszustand. Göttingen u. a.: Hogrefe; 1998
  • 5 Maurischat C, Krüger-Bödecker A. Analysen zum Strukturmodell des SF-36/SF-12 – eine Übersicht. In: Maurischat C, Morfeld M, Kohlmann T, Bullinger M. Hrsg Lebensqualität: Nützlichkeit und Psychometrie des Health Survey SF-36/SF-12 in der medizinischen Rehabilitation. Lengerich: Pabst; 2004: 29-48
  • 6 Bullinger M, Morfeld M. Der Health Survey SF-36/SF-12: Darstellung und Entwicklungen. In: Maurischat C, Morfeld M, Kohlmann T, Bullinger M. Hrsg Lebensqualität: Nützlichkeit und Psychometrie des Health Survey SF-36/SF-12 in der medizinischen Rehabilitation. Lengerich: Pabst; 2004: 15-28
  • 7 Oort FJ. Types of change in self-report data: definition, interpretation, and operationalization. In: Van Dijkum C, Blasius J, Kleijr H, von Hilten B. Hrsg Recent Developments and Applications in Social Research Methodology. Amsterdam: SISWO; 2004: 1-21
  • 8 Güthlin C. Response Shift: Alte Probleme der Veränderungsmessung, neu angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische Psychologie. 2004. 13. 165-174
  • 9 Gibbons FX. Social comparison as a mediator of response shift. Soc Sci Med 1999; 48: 1517-1530
  • 10 Schwartz CE, Sprangers MAG. Methodological approaches for assessing response shift in longitudinal health-related quality-of-life research. Soc Sci Med 1999; 48: 1531-1548
  • 11 O’Boyle CA, McGee HM, Browne JP. Measuring response shift using the Schedule for Evaluation of Individual Quality of Life. In: Schwartz CESMAG, Hrsg. Adaptation to changing health: Response shift in quality-of-life research. Washington, DC: American Psychological Association; 2000: 123-136
  • 12 Oort FJ. Using structural equation modeling to detect response shifts and true change. Quality of Life Research 2005; 14: 587-598
  • 13 Ahmed S, Bourbeau J, Maltais F et al. The Oort structural equation modeling approach detected a response shift after a COPD self-management program not detected by the Schmitt technique. Journal of Clinical Epidemiology 2009; 62: 1165-1172
  • 14 Ahmed S, Mayo NE, Wood-Dauphinee S et al. The structural equation modeling technique did not show a response shift, contrary to the results of the then test and the individualized approaches. Journal of Clinical Epidemiology 2005; 58: 1125-1133
  • 15 Oort FJ, Visser MR, Sprangers MA. An application of structural equation modeling to detect response shifts and true change in quality of life data from cancer patients undergoing invasive surgery. Quality of Life Research 2005; 14: 599-609
  • 16 Widaman KF, Ferrer E, Conger RD. Factorial invariance within longitudinal structural equation models: Measuring the same construct across time. Child Dev Perspect 2010; 4: 10-18
  • 17 Bühner M. Einführung in die Test- und Fragebogenkonstruktion. 2. Aufl. München: Pearson Education Deutschland; 2006
  • 18 Hu L-T, Bentler PM. Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling 1999; 6: 1-55
  • 19 Bollen KA. Structural equations with latent variables. Oxford: John Wiley & Sons; 1989
  • 20 Arbuckle JL. AMOS 17.0 User’s Guide. Chicago, IL: SPSS; 2008
  • 21 Meade AW, Johnson EC, Braddy PW. Power and sensitivity of alternative fit indices in tests of measurement invariance. Journal of Applied Psychology 2008; 93: 568-592
  • 22 Byrne BM, Shavelson RJ, Muthen B. Testing for the equivalence of factor covariance and mean structures: The issue of partial measurement invariance. Psychological Bulletin 1989; 105: 456-466
  • 23 Millsap RE, Kwok OM. Evaluating the impact of partial factorial invariance on selection in two populations. Psychological Methods 2004; 9: 93-115
  • 24 Gregorich SE. Do self-report instruments allow meaningful comparisons across diverse population groups? Testing measurement invariance using the confirmatory factor analysis framework. Medical Care 2006; 44: S78-S94
  • 25 Steenkamp J-BE, Baumgartner H. Assessing measurement invariance in cross-national consumer research. Journal of Consumer Research 1998; 25: 78-90
  • 26 Igl W, Zwingmann C, Faller H. Änderungssensitivität. Rehabilitation 2005; 44: 100-106
  • 27 Schwartz CE, Rapkin BD. Reconsidering the psychometrics of quality of life assessment in light of response shift and appraisal. Health Qual Life Outcomes 2004; 2: 16
  • 28 Sharpe L, Curran L. Understanding the process of adjustment to illness. Soc Sci Med 2006; 62: 1153-1166
  • 29 Folkman S, Greer S. Promoting psychological well-being in the face of serious illness: when theory, research and practice inform each other. Psychooncology 2000; 9: 11-19
  • 30 Carver CS, Scheier MF. Scaling back goals and recalibration of the affect system are processes in normal adaptive self-regulation: understanding ‘response shift’ phenomena. Soc Sci Med 2000; 50: 1715-1722
  • 31 Schmitt N, Kuljanin G. Measurement invariance: Review of practice and implications. Human Resource Management Review 2008; 18: 210-222
  • 32 Oort FJ, Visser MR, Sprangers MA. Formal definitions of measurement bias and explanation bias clarify measurement and conceptual perspectives on response shift. Journal of Clinical Epidemiology 2009; 62: 1126-1137
  • 33 King-Kallimanis BL, Oort FJ, Visser MR et al. Structural equation modeling of health-related quality-of-life data illustrates the measurement and conceptual perspectives on response shift. Journal of Clinical Epidemiology 2009; 62: 1157-1164
  • 34 Nolte S, Elsworth GR, Sinclair AJ et al. Tests of measurement invariance failed to support the application of the “then-test”. Journal of Clinical Epidemiology 2009; 62: 1173-1180
  • 35 MacCallum RC, Roznowski M, Mar CM et al. Alternative strategies for cross-validation of covariance structure models. Multivariate Behavioral Research 1994; 29: 1-32
  • 36 Millsap RE, Meredith W. Factorial invariance: Historical perspectives and new problems. In: Cudeck R, MacCallum R. Hrsg Factor Analysis at 100: Historical Developments and Future Directions. Mahwah, NJ: Lawrence Erlbaum; 2007: 131-152
  • 37 Schwartz CE, Sprangers MA. Reflections on genes and sustainable change: toward a trait and state conceptualization of response shift. Journal of Clinical Epidemiology 2009; 62: 1118-1123
  • 38 Schwartz CE, Bode R, Repucci N et al. The clinical significance of adaptation to changing health: A meta-analysis of response shift. Quality of Life Research 2006; 15: 1533-1550
  • 39 Norman G. Hi! How are you? Response shift, implicit theories and differing epistemologies. Quality of Life Research 2003; 12: 239-249
  • 40 Schwartz CE, Sprangers MA. Guidelines for improving the stringency of response shift research using the thentest. Quality of life research 2010; 19: 455-464
  • 41 Jelitte M. Untersuchung von Response-Shift-Einflüssen auf die Erfassung der gesundheitsbezogenen Lebensqualitat bei Prostatakrebspatienten in der onkologischen Rehabilitation. Dissertation. Universität Koblenz-Landau, Fachbereich Psychologie 2010; 348
  • 42 Barclay-Goddard R, Epstein JD, Mayo NE. Response shift: a brief overview and proposed research priorities. Quality of Life Research 2009; 18: 335-346
  • 43 Terwee CB, Dekker FW, Wiersinga WM et al. On assessing responsiveness of health-related quality of life instruments: guidelines for instrument evaluation. Quality of life research 2003; 12: 349-362

Zoom Image
Abb. 1 Messmodell der Invarianztestung im Längsschnitt.