Rehabilitation (Stuttg) 2007; 46(4): 238-245
DOI: 10.1055/s-2007-971068
Methoden in der Rehabilitationsforschung

© Georg Thieme Verlag KG Stuttgart · New York

Eigenschaften und Nutzen des Rasch-Modells in der klinischen Diagnostik

Properties and Benefits of Applying the Rasch Model in Clinical DiagnosticsM. Wirtz 1 , M. Böcker 2
  • 1Institut für Psychologie, Pädagogische Hochschule Freiburg
  • 2Institut für Medizinische Psychologie und Medizinische Soziologie, Universitätsklinikum Aachen, RWTH Aachen
Further Information
#

Korrespondenzadresse

Prof. Dr. Markus Wirtz

Institut für Psychologie

Pädagogische Hochschule Freiburg

Kunzenweg 21

79117 Freiburg

Email: markus.wirtz@ph-freiburg.de

Publication History

Publication Date:
24 August 2007 (online)

Table of Contents #

Zusammenfassung

In der Rehabilitation ist der Einsatz geeigneter Assessmentinstrumente von grundlegender Be-deutung. Sowohl bei der Diagnostik von Patien-tenmerkmalen als auch bei der Evaluation vonBehandlungseffekten und für die Qualitätssicherung in Rehabilitationseinrichtungen muss eine hohe Qualität der psychometrischen Messinstrumente gewährleistet sein, um die Aussagekraft und Interpretierbarkeit der Daten sicherstellen zu können. Skalen, die nach den Annahmen des Rasch-Modells konstruiert wurden, besitzenbesonders wünschenswerte Eigenschaften, da begründet davon ausgegangen werden kann, dass die Personenkennwerte intervallskaliertsind und lediglich eine zugrunde liegende Merk-malsdimension das Antwortverhalten der Pa-tienten auf den einzelnen Skalen bedingt. In diesem Beitrag wird gezeigt, welche Eigenschaften Rasch-Skalen besitzen und welche Methoden durch die Anwendung des Rasch-Modells zur Verfügung gestellt werden, um Datenstrukturen klinisch differenzierter beurteilen und methodisch angemessener analysieren zu können.

#

Abstract

In medical rehabilitation settings the use of appropriate assessment instruments is essential in many ways. A high quality of psychometric scales has to be ensured in order to allow for an appropriate interpretation of diagnostical data as well as for the evaluation of treatment outcomes and for quality assurance within rehabilitation clinics. Assessment scales developed by means of Rasch analysis possess desirable properties, especially because person parameters reach interval level by definition, and the assumption of only one latent dimension suffices to predict respondents behaviour sufficiently. Accordingly, Rasch scales are strictly one-dimensional and thus allow for unambiguous interpretation of diagnostic results. In this article it is shown which specific properties characterize Rasch scales and how Rasch analysis can be used in order to allow for a more differentiated and clinically meaningful data interpretation and to enhance analysis of clinical data.

#

Einleitung

Zur Erfassung von Patientenmerkmalen werden in der Rehabilitation häufig psychometrische Skalen eingesetzt. Skalen bestehen aus einer Gruppe von Items, für die ein Patient beispielsweise einschätzen soll, in welchem Maße diese für ihn zutreffen. Die Einschätzung der einzelnen Items ist dabei jedoch nicht von primärem Interesse, da deren Messqualität im Allgemeinen nicht zufriedenstellend ist und die Möglichkeiten zur Überprüfung ihrer messtheoretischen Eigenschaften sehr eingeschränkt sind [1]. Bei der Beantwortung von Einzelitems kann zumeist nicht eindeutig geklärt werden, für welche Patienteneigenschaft die erfragte Fähigkeit eines Patienten indikativ ist (Frage der Gültigkeit oder Validität). Als Beispiel soll ein Item eines Fragebogens zur Erfassung der Funktionsfähigkeit im Alltag betrachtet werden, das erfragt, ob ein Patient Probleme hat, selbstständig Lebensmittel für den alltäglichen Bedarf einzukaufen. Gibt ein Patient in der Rehabilitation beispielsweise an, er habe diesbezüglich starke Probleme, so kann dies ein Indikator für verschiedene Merkmalsbe-reiche sein: Die Probleme könnten ein Indiz für Einschränkungen im orthopädischen Bereich sein oder aber auch beispielsweise auf eine psychische Störung hindeuten. Weiterhin wäre zu erwarten, dass die Beantwortung des Items durch Rahmenbedingungen (z. B. Stadt- vs. Landbevölkerung) überlagert sein kann und somit in Bezug auf eine Störung für verschiedene Patienten eine sehr unterschiedliche und in Einzelfällen eventuell überhaupt keine Aussagekraft mehr be-sitzt. Dies würde dazu führen, dass Patienten, die das gleiche Ausmaß an Problemen angeben, tatsächlich als nicht vergleichbar gelten müssten, da sich in der Angabe jeweils eine unterschiedliche zugrunde liegende Problematik oder Merkmalsaus-prägung widerspiegeln kann. Des Weiteren wird die Beant-wortung von Einzelitems in der Regel durch einen hohen Zufalls-fehleranteil mitbedingt (Frage der Genauigkeit oder Reliabilität): Zufall meint hier, dass situative und unsystematische Einflüsse wirksam werden, die zu variierenden Antworten führen können, ohne dass irgend eine bedeutsame Informationsquelle wirksam wird.

Um diese messtheoretischen Probleme analysierbar machen und in Folge dessen begründet vermeiden zu können, ist es notwendig, dass nicht nur ein, sondern mehrere Indikatoren erhoben werden, die eine interessierende Merkmalsdimension erfassen. Die Existenz mehrerer Indikatoren und das Vorliegen eines Theoriemodells sind die Voraussetzungen dafür, um von einer psychometrischen Messung sprechen zu können [1] [2] [3]. In einem solchen Theoriemodell wird der Zusammenhang zwischen dem nicht direkt messbaren, latenten Merkmal (z. B. Funktions-fähigkeit eines Patienten) und den messbaren, manifesten Indikatoren (z. B. Items einer psychometrischen Skala zur Erfas-sung der Funktionsfähigkeit) spezifiziert. Nur wenn die in einem Theoriemodell formulierten Zusammenhänge gültig sind, kann aus der Beantwortung der Skalenitems begründet auf die zugrunde liegende latente Eigenschaft zurückgeschlossen werden.

Im deutschsprachigen Raum wird als Theoriemodell fast ausschließlich die klassische Testtheorie verwendet [4] [5]. Die Konstruktion von Assessmentinstrumenten und die Datenanalyse nach den Annahmen des Rasch-Modells [6] [7] hat insbesondere im angloamerikanischen Sprachraum in den vergangenen Jahren erheblich an Bedeutung gewonnen. Durch Weiterentwicklungen des Rasch-Modells konnten - neben der theoretischen Überlegenheit dieses Ansatzes - auch immer stärker die praktischen Vorteile von Rasch-Skalen empirisch gezeigt werden. In den folgenden Abschnitten wird demonstriert, weshalb Rasch-Skalen eine bessere Begründung von Messprozeduren erlauben und wie die Ergebnisse von Rasch-Analysen für eine differenziertere Datenanalyse und Diagnostik in der klinischen Anwendung genutzt werden können.

Dabei werden die Eigenschaften des so genannten ordinalen Rasch-Modells fokussiert, das geeignet ist, die Beantwortung mehrstufiger ranggeordneter Antwortformate zu modellieren. Dieses ist ein Repräsentant aus einer ganzen Familie von Modellen, die in der Literatur unter dem Überbegriff „Rasch-Modell” subsumiert werden. Ausgehend von dem von Georg Rasch entwickelten Modell für dichotome Antwortformate (z. B.: ja vs. nein) wurden beispielsweise für mehrstufige Antwortformate mehrere Modellvarianten entwickelt (z. B. Partial-Credit-Mo-dell, Ratingskalenmodell) oder Möglichkeiten geschaffen, neben den Itemschwierigkeiten und Personenfähigkeiten noch weitere Facetten wie z. B. die Beurteilerstrenge oder Messzeitpunkte bei der Modellierung mit zu berücksichtigen (Facettenmodelle). Die wünschenswerten mathematischen Eigenschaften des dichotomen Rasch-Modells gelten dabei auch für die übrigen Modelle aus der „Rasch-Familie”.

#

Rasch-Skalen sind strikt eindimensional

Angenommen, ein Patient beantwortet Items einer Skala, durch die erfragt wird, in welchem Maße es für ihn möglich ist, typische Tätigkeiten (vgl. [Tab. 1]) zu verrichten (Antwortformat: „0=unmöglich” bis „4=ohne Schwierigkeiten”). Bilden diese Items eine psychometrische Skala zur Erfassung z. B. der „Funktionsfähigkeit im Alltag”, so wird in der diagnostischen Praxis der Mittelwert der Antworten auf den betreffenden Items als zusammengefasster Indikator für den Zustand des Patienten in diesem Bereich gewertet. Hierbei wird implizit gefordert, dass sich dieselbe Problemlage in den verschiedenen Items in ähnlicher Weise ausdrückt: Nur wenn dies der Fall ist, kann der Mittelwert der eine sinnvolle und gut interpretierbare Information liefern. Dies wird deutlich, wenn man beispielsweise die Beantwortung zweier Items mitteln würde, die eindeutig von unterschiedlichen Fähigkeiten abhängen, z. B.:

Tab. 1 Items der Skala Funktionsfähigkeit im Alltag des Rasch-skalierten IRES-24 [11]. Die Items sind gemäß ihrer Schwierigkeit aufsteigend geordnet.

Bitte kreuzen Sie an, in welchem Maße Sie in den letzten vier Wochen Schwierigkeiten hatten, folgendes zu tun:

unmöglich 0

große Schwierigkeiten 1

mäßige Schwierigkeiten 2

geringe Schwierigkeiten 3

ohne Schwierigkeiten 4

1. Sich strecken, um ein Buch von einem Regal zu holen

<FILE NAME="AN779-4">

<FILE NAME="AN779-5">

<FILE NAME="AN779-6">

<FILE NAME="AN779-7">

<FILE NAME="AN779-8">

2. Einen Gegenstand vom Boden aufheben oder Schuhe zubinden

<FILE NAME="AN779-9">

<FILE NAME="AN779-10">

<FILE NAME="AN779-11">

<FILE NAME="AN779-12">

<FILE NAME="AN779-13">

3. Eine halbe Stunde körperlich arbeiten (wie z. B. Staub saugen, rasen mähen)

<FILE NAME="AN779-14">

<FILE NAME="AN779-15">

<FILE NAME="AN779-16">

<FILE NAME="AN779-17">

<FILE NAME="AN779-18">

4. Eine Treppe über 3 Etagen hinaufgehen

<FILE NAME="AN779-19">

<FILE NAME="AN779-20">

<FILE NAME="AN779-21">

<FILE NAME="AN779-22">

<FILE NAME="AN779-23">

5. Einen schweren Gegenstand über 5 Meter tragen (z. B. Mineralwasserkasten)

<FILE NAME="AN779-24">

<FILE NAME="AN779-25">

<FILE NAME="AN779-26">

<FILE NAME="AN779-27">

<FILE NAME="AN779-28">

6. 30 Minuten ohne Unterbrechung stehen (z. B. in einer Warteschlange)

<FILE NAME="AN779-29">

<FILE NAME="AN779-30">

<FILE NAME="AN779-31">

<FILE NAME="AN779-32">

<FILE NAME="AN779-33">

7. Sportarten betreiben, bei denen man richtig ins Schwitzen kommt (z. B. Joggen, Skilaufen, Bergwandern)

<FILE NAME="AN779-34">

<FILE NAME="AN779-35">

<FILE NAME="AN779-36">

<FILE NAME="AN779-37">

<FILE NAME="AN779-38">

8. Körperlich schwere Arbeiten verrichten (z. B. schwere Gegenstände heben)

<FILE NAME="AN779-39">

<FILE NAME="AN779-40">

<FILE NAME="AN779-41">

<FILE NAME="AN779-42">

<FILE NAME="AN779-43">

In welchem Maße haben Sie Schwierigkeiten,

A: einen schweren Gegenstand über 5 m zu tragen?
B: sich in Menschenmengen ohne Angst aufzuhalten?

Während Item A vorwiegend orthopädische Probleme widerspiegelt, wäre es nahe liegend anzunehmen, dass die Beantwortung von Item B von der Ängstlichkeit abhängt. Würde man den Durchschnitt der Beantwortung der beiden Items betrachten, so müssten Patienten mit sehr unterschiedlichen Problemlagen als diagnostisch äquivalent betrachtet werden: Ein Patient, der für Item A „unmöglich” (0) und für Item B „ohne Schwierigkeiten” (4) ankreuzt (Mittelwert=2), erschiene identisch belastet wie ein Patient mit dem genau umgekehrten Ankreuzverhalten. Die zahlenmäßige Gleichheit verdeckt, dass qualitativ unterschiedliche Problemkonstellationen vorliegen und es würde sich um eine klinisch mehrdeutige Information handeln. Dies ist für psychometrische Skalen jedoch unzulässig, da die Bedeutung des erfassten Merkmals eindeutig festgelegt sein muss (Frage der Validität).

Jede psychometrische Skala wird also eingesetzt, um ein be-stimmtes Merkmal zu erfassen bzw. eine wohl definierte Merkmalsausprägung empirisch zu schätzen: Rasch-Skalen erfüllen diese Anforderung, da diese definitionsgemäß aus Items bestehen, deren Beantwortung ausschließlich von einer latenten Merkmalsdimension abhängen. Die Items einer Skala unterscheiden sich lediglich darin, dass sie ein unterschiedliches Ausmaß der zugrunde liegenden Fähigkeit erfordern. Die zur Bewältigung dieser Tätigkeit benötigte Fähigkeit ist jedoch unabhängig von dem spezifischen Inhalt des jeweiligen Items.

Es wäre beispielsweise nahe liegend, dass die folgenden drei Items den Annahmen des Rasch-Modells entsprechen und somit eine Rasch-Skala bilden:

  1. Haben Sie Probleme, einen leichten Gegenstand zu heben?

  2. Haben Sie Probleme, einen mittelschweren Gegenstand zu heben?

  3. Haben Sie Probleme, einen schweren Gegenstand zu heben?

Es ist hier plausibel anzunehmen, dass zur Ausführung aller drei Tätigkeiten dieselbe Fähigkeit entscheidend ist. Am ehesten werden Probleme für das dritte Item erwartet. Je schwerwiegender die entsprechenden Fähigkeiten eines Patienten beeinträchtigt sind, desto wahrscheinlicher treten dann Probleme für das zweite und anschließend auch für das erste Item auf.

In der klinischen Praxis ist es jedoch sinnvoller, Skalen zu verwenden, deren Items nicht nur eine ordinale Abstufung einer spezifischen Tätigkeit (also z. B. Probleme, einen Gegenstand zu heben), sondern ein breiteres Spektrum an Fähigkeitsindikatoren abdecken. Die Annahme der Homogenität der durch die Items erfassten Problematik muss dann natürlich explizit empirisch überprüft werden. Wie diese Überprüfung im Rahmen der Rasch-Modellierung geschieht, soll mittels eines empirischen Beispiels dargestellt werden. Hierzu soll ein Item der Skala „Funktionsfähigkeit im Alltag” des Rasch-skalierten IRES-24 [8] betrachtet werden[1]. Diese Skala besteht aus 8 Items, die für Rehabilitationspatienten diese Merkmalsdimension in unterschiedlichen Beeinträchtigungsgraden erfassen. Der Wortlaut der Items ist in [Tab. 1] angegeben. Das leichteste Skalenitem lautet beispielsweise „Sich strecken, um ein Buch vom Regal zu holen”, das schwerste Item „Schwere körperliche Arbeiten verrichten”. [Abb. 1] zeigt, wie das Antwortverhalten der Patienten für das Item „Schwere körperliche Arbeiten verrichten” im Rahmen der ordinalen Rasch-Analyse modelliert wird (Partial-Credit-Modell[2], [7] [9]).

Zoom Image

Abb. 1 Vorhersage der Antwortwahrscheinlichkeiten durch das ordinale Rasch-Modell für die fünf Antwortkategorien des IRES-24-Items „Schwere körperliche Arbeiten verrichten” in Abhängigkeit von der latenten Merkmalsdimension Funktionsfähigkeit im Alltag.

Auf der Abszisse sind die Werte auf der latenten Merkmalsdimension „Funktionsfähigkeit im Alltag” abgetragen. Beispiel-haft sind die Ausprägungen zweier Patienten (vertikale Pfeile) angegeben: Patient A besitzt mit einem Wert von +3,6 eine hohe Funktionsfähigkeit und Patient B mit einem Wert von -1,7 eine deutlich geringere Funktionsfähigkeit. Die abgebildeten Funktionsverläufe geben die Wahrscheinlichkeit an, mit der die einzelnen Kategorien von den Patienten gewählt werden. Patient A wählt beispielsweise die Kategorie „4=ohne Schwierigkeiten” mit einer hohen Wahrscheinlichkeit von 0,78: Dies entspricht der Modellvorhersage, weil die Responsefunktion der Kategorie 4 diesen Wert für eine Funktionsfähigkeit von 3,6 annimmt. Die Wahl der Antwortkategorie „3=geringe Schwierigkeiten” ist mit einem Wert von p=0,20 deutlich unwahrscheinlicher. Ein Patient mit einer solch hohen Funktionsfähigkeit sollte nach der Modellvorhersage mit einer vernachlässigbar geringen Wahrscheinlichkeit die Kategorien „2=mäßige Schwierigkeiten”, „1=starke Schwierigkeit” bzw. „0=unmöglich” wählen.

Dass Patient B eine deutlich geringere Funktionsfähigkeit be-sitzt, führt dazu, dass sich die Wahlwahrscheinlichkeiten für die Kategorien, die eine hohe Beeinträchtigung widerspiegeln, im Kontrast zu Patient A systematisch erhöhen. Für seine Funktionsfähigkeit (X=-1,7) wird mit höchster Wahrscheinlichkeit (p(„1”)=0,60) die Angabe von „1=starke Schwierigkeiten” erwartet. Mit einer Wahrscheinlichkeit von p(„2”)=0,20 bzw. p(„0”)=0,18 werden von solch stark belasteten Patienten die benachbarten Kategorien „mäßige Schwierigkeiten” bzw. „unmöglich” gewählt. Man beachte, dass sich in dieser Darstellung für jeden Wert auf der latenten Dimension „Funktionsfähigkeit im Alltag” die Wahrscheinlichkeiten für die fünf Kategorien jeweils genau zu 1 aufaddieren, da natürlich die Wahrscheinlichkeit, dass eine der fünf Kategorien gewählt wird, 1 betragen muss.

Aus [Abb. 1] kann also abgelesen werden, wie sich die Wahlwahrscheinlichkeiten der Kategorien der verwendeten Ratingskala verändern und welcher Systematik die Itembeantwortung durch die Patienten unterliegt. Lässt sich das Antwortverhalten in der untersuchten Gruppe von Patienten durch diese Responsefunktionen für alle Skalenitems angemessen vorhersagen, so kann die Eindimensionalität der Skala als bestätigt gelten, da die Annahme einer einzigen Dimension von der die Antwortwahrscheinlichkeiten funktional abhängen, ausreichend ist.

Oft wird bei der Präsentation der Ergebnisse zur ordinalen Rasch-Analyse die in [Abb. 1] dargestellte Information vereinfachend berichtet. Dann wird grafisch dargestellt, welche Antwortkategorien in bestimmten Intervallen des kontinuierlichen latenten Merkmalskontinuums mit höchster Wahrscheinlichkeit ausgewählt werden. Diese Information ist durch die grau schattierten Rechtecke in [Abb. 1] den angegeben. Antwortkategorie „0=unmöglich” wird bis zu dem Wert X=-2,8 maximal wahrscheinlich gewählt, ab diesem Wert X=-2,8 bis zum Wert X=-0,4 liegt für die Kategorie „1=starke Schwierigkeiten” die Wahrscheinlichkeit am höchsten. Jedem Bereich des Kontinuums wird somit in aufsteigender Rangreihe eine Antwortkategorie zugeordnet, sodass die Kategoriennummern monoton von der Ausprägung auf der latenten Dimension abhängen. Dass für alle Items einer Skala eine solche Segmentierung des Kontinuums entsprechend der Rangordnung der Antwortkategorien möglich ist, ist ein notwendiges Kriterium dafür, dass das Rasch-Modell für die Daten als plausibel angenommen werden kann [3] [7] [9].

Ein weiteres Kriterium, das zur Beurteilung der Rasch-Homogenität einer Itemgruppe herangezogen wird, besteht in der Überprüfung so genannter Item-Fit-Maße. Diese Fit-Maße quantifizieren, ob sich die im Rahmen der Rasch-Analyse geschätzte Rangreihe der Personen auf der latenten Merkmalsdimension hinreichend genau in der Beantwortung eines einzelnen Items widerspiegelt. In der Literatur werden entweder das Item-Fit-Maß Q [9] oder so genannte In- und Out-Fit-Maße [7] verwendet: Bei beiden Arten von Maßen wird gefordert, dass insgesamt als fähiger eingeschätzte Patienten die durch das jeweilige Item erfragte Tätigkeit eher bewältigen können - und umgekehrt. Liegen diese Maße der Konkordanz der latenten Merkmalsausprägung und des manifesten Antwortverhaltens für das jewei-lige Item in einem definierten Bereich, so ist die Annahme der Rasch-Homogenität für dieses Item als plausibel zu betrachten. Ist diese Forderung für alle Skalenitems erfüllt, so ist dies ein weiterer Hinweis dafür, dass sich in allen Items exakt dieselbe Problematik widerspiegelt.

#

Identifikation von Patienten, deren Antwortmuster nicht den Eigenschaften des Rasch-Modells entsprechen

Eine wichtige Besonderheit des Rasch-Modells gegenüber der klassischen Testtheorie besteht darin, dass zur Bestätigung der Gültigkeit nicht nur die Messeigenschaften der Items definierten Kriterien genügen müssen, sondern auch die Merkmalsprofile der befragten Patienten modellkonform sein müssen. Um die Vorteile des Rasch-Modells für die Charakterisierung von Merkmalsausprägungen von Patienten uneingeschränkt ausnutzen zu können, müssen dessen Annahmen für alle Patienten gültig sein. Ansonsten würden für Patienten, die nicht modellkonform antworten, die resultierenden Merkmalsschätzungen nicht zulässig sein. Eine adäquate Prüfung dieser Annahme der Personenhomogenität mittels globaler Modelltests [8] [9] [10] weist in fast allen klinischen Anwendungen auf Verletzungen dieser Forderung hin. Um eine praktikable Lösung dieser Problematik finden zu können, muss zunächst geklärt werden, wie es sich äußern würde, wenn für einen einzelnen Patienten keine Mo-dellkompatibilität im Antwortverhalten vorliegen würde.

Angenommen, ein Patient leidet unter einer spezifischen Form von Rückenproblemen, die lediglich seine Fähigkeit, sich nach Gegenständen zu strecken, unmöglich machen. Für diesen Patienten wäre das Item des IRES-24 „Sich strecken, um einen Gegenstand vom Regal zu holen” vielleicht eines der schwierigsten Items, obwohl dies in der Gruppe der übrigen Patienten die leichteste erfragte Tätigkeit darstellen würde. Für diese Person würde die Rangreihe der Itemschwierigkeiten, wie sie für die Gesamtstichprobe aller orthopädischen Patienten charakteristisch ist (vgl. [Tab. 1]), aufgrund ihrer untypischen Problemkonstellation nicht zutreffen.

Im Rahmen der Rasch-Theorie werden solche untypischen Einzelfälle als „unskalierbar” bezeichnet. Unskalierbar bedeutet, dass für einen einzelnen Patienten ein Merkmalsprofil die zugrunde liegende Störung repräsentiert, das in dieser Form den geschätzten Eigenschaften des Rasch-Modells widerspricht und auch nicht durch Zufallskomponenten im Antwortverhalten er-klärt werden kann. Entsprechend ist ein Vergleich mit den Merkmalsausprägungen anderer Patienten unzulässig. Für solche Patienten drückt sich im Antwortmuster eine spezifische Problemlage aus, die seine Merkmalsausprägung qualitativ und nicht quantitativ von derjenigen der übrigen unterscheidet. Wird für einen unskalierbaren Patienten beispielsweise eine Merkmalsausprägung (Personenparameter) von -2 geschätzt, so enthält dieser Wert keine diagnostisch eindeutig verwertbare Information: Dieser Patient kann nicht mit anderen Patienten verglichen werden, für die ebenfalls ein Wert von -2 resultiert, da man sonst Äpfel mit etwas vergleicht, für das noch nicht einmal eine Annahme über dessen Kategorienzugehörigkeit - wie z. B. Birnen - existiert und von dem man nur fundiert weiß, dass es sich definitiv um keinen Apfel handeln kann.

Bei der Anwendung psychometrischer Skalen herrscht oft die unzutreffende Vorstellung vor, dass die Beantwortung von Skalenitems einfach dazu dient, einen Aufschluss darüber zu bekommen, wie viele Indikatoren oder Symptome einer Be-einträchtigung für einen Patienten vorliegen: Dabei wird ein Patient, der beispielsweise die Symptome A, B und C angibt, als gleich belastet betrachtet wie ein Patient, für den die Symptome D, E und F vorliegen. Je mehr Symptome vorliegen oder je höher die einzelnen Symptome im Durchschnitt ausgeprägt sind, desto höher erscheint die Beeinträchtigung des Patienten. Diese Vorstellung ist für die praktische Anwendung von Skalen u. U. sinnvoll, jedoch muss man sich bewusst sein, dass man damit den theoretischen Rahmen der psychometrischen Theorie von Messskalen verlässt. Denn sowohl die klassische Testtheorie als auch das Rasch-Modell fordern, dass jedes Item die Ausprägung der zugrunde liegenden intervallskalierten latenten Merkmalsdimension für alle Patienten jeweils in gleicher Weise erfasst [5]. Ist dies nicht der Fall, so kann es u. U. sogar unsinnig sein, die klassischen Gütekriterien, wie z. B. die Reliabilität, für solche Itemgruppen zu verwenden [11]. Ohne detaillierter auf diese Problematik einzugehen, soll hier gezeigt werden, wie in der diagnostischen Praxis die Ergebnisse der Rasch-Modellierung genutzt werden können, um auf fehlerhafte Schlussfolgerungen aufmerksam zu machen, die die Fairness der Nutzung diagnostischer Ergebnisse gefährden.

Die Rasch-Analyse stellt nämlich statistische Maße zur Verfügung, die die Passung des individuellen Antwortverhaltens von Patienten zu den Annahmen des Rasch-Modells quantifizieren. Diese werden als Personen-Fit-Maße bezeichnet: Je besser das Antwortmuster eines Patienten den Vorhersagen des Rasch-Modells entspricht, desto besser ist der Personen-Fit des jeweiligen Patienten [9]. Allgemein kann davon ausgegangen werden, dass Patienten mit einem Newfit-Wert <-1,96 eine statistisch auffällige Modellabweichung aufweisen. Für die entsprechenden Patienten ist somit die Vergleichbarkeit des diagnostischen Ergebnisses mit denjenigen für Patienten mit zufrieden stellendem Modell-Fit in Frage gestellt.

[Abb. 2] verdeutlicht exemplarisch für die acht Items der Skala „Funktionsfähigkeit im Alltag” des IRES-24, wie diese Maße diagnostisch verwertet werden können.

Zoom Image

Abb. 2 Streudiagramm der Personenparameter (Abszisse) als Indikator der Funktionsfähigkeit im Alltag und der Personenpassung (Newfit-Maß, Ordinate) als Indikator der Eindimensionalität des Antwortpatterns.

Auf der Abszisse sind die geschätzten Personenparameter abgetragen, auf der Ordinate die Werte des Newfit-Maßes, das den Personen-Fit in standardisierter Form repräsentiert, wobei höhere Werte für einen besseren Personen-Fit stehen. Für fünf Patienten sind die jeweiligen Antwortmuster auf den acht Skalenitems angegeben, wobei die Items in ansteigender Schwierigkeit angeordnet sind (vgl. [Tab. 1]). Das Muster „10100000” zeigt an, dass für diesen Patienten eine hohe Belastung vorliegt, da für sechs Tätigkeiten „0=unmöglich” und für zwei „1=starke Schwierigkeiten” angegeben wurden. Diese Information wird durch den niedrigen Abszizzenwert ausgedrückt. Zudem liegt eine gute Modellpassung (hoher Ordinatenwert) vor, da für das leichteste und drittleichteste Item die vergleichsweise besten Werte gemessen wurden. Für die beiden anderen oben angegebenen Antwortprofile ist die Modellpassung aufgrund der tendenziellen Abnahme der Werte mit zunehmender Itemschwierigkeit ebenfalls sehr gut; es liegt jedoch aufgrund der insgesamt höheren Itemwerte eine gegenüber dem ersten Antwortprofil höhere Funktionsfähigkeit für diese Patienten vor (höhere Werte auf der Abszisse).

Die beiden unten angegebenen Profile sind jedoch nicht mit den Vorhersagen des Rasch-Modells kompatibel. Für den Patienten mit dem Antwortmuster „01000313” bereiten zwei der drei in der Gesamtstichprobe als schwer einzustufenden Items geringe Schwierigkeiten (3), wohingegen sich die eigentlich leichten Items zumeist als unmöglich (0) erweisen. Für diesen Patienten liegt offensichtlich eine für die Gesamtstichprobe untypische Problemstruktur vor. Ähnliches gilt für das Muster „41344104”, weil sich beispielsweise das zweitleichteste Item für diesen Patienten als unerwartet schwierig erweist und das letzte Item unerwartet keine Schwierigkeiten bereitet. Ein Patient für den es unmöglich ist, Sportarten zu treiben, bei denen er ins Schwitzen kommt, jedoch ohne Schwierigkeiten schwere körperliche Arbeiten verrichten kann, entspricht in der Struktur nicht der Information, die für die übrigen Patienten charakteristisch ist.

Zusammenfassend lässt sich festhalten, dass bei der Anwendung psychometrischer Skalen der Summenwert oder der Personenparameter als alleiniger Indikator für die Belastung eines Patienten in dem entsprechenden Merkmalsbereich verwendet werden. Die Verwendung eines einzelnen Wertes zur Charakterisierung eines Antwortprofils ist jedoch nur dann gerechtfertigt, wenn dieser alle systematischen Informationen im Antwortverhalten eines Patienten widerspiegelt. Die Anwendung von Rasch-Skalen garantiert im Allgemeinen, dass der Summenwert eine erschöpfende oder suffiziente Statistik darstellt, die diese Bedingung erfüllt. Für Patienten mit schlechter Modellpassung ist jedoch neben dem Summenwert das Antwortmuster informationshaltig. Zur Erfüllung des diagnostischen Kriteriums der Fairness [7] [9] [10] sollten die Besonderheiten, die sich in diesem Muster abbilden, individuell berücksichtigt werden. Für alle psychometrischen Skalen, die nicht den Kriterien einer Rasch-Skala entsprechen, muss grundsätzlich davon ausgegangen werden, dass bei alleiniger Interpretation des Summenwertes ein substantieller Informationsanteil bezüglich der Problematik eines Patienten unentdeckt bleibt, da die informationshaltige individuelle Struktur des Patienten statistisch „ausgemittelt” wird.

#

Identifikation von Patientengruppen, für die unterschiedliche Problemstrukturen erfasst werden

Dieselbe Problematik, die im vorangegangenen Abschnitt für einzelne Patienten dargestellt wurde, kann auch beim Vergleich verschiedener Patientengruppen auftreten. Ein Vergleich einer Merkmalsausprägung zwischen Patientengruppen wäre problematisch, wenn in den Gruppen die einzelnen Items einer Skala in unterschiedlicher Weise die zu messende latente Merkmalsausprägung widerspiegeln. Angenommen, eine Skala zur Erfassung des „Gesundheitsbewusstseins” von Patienten enthält ein Item, das erfragt, ob Patienten häufig Sport treiben. Dann könnte sich dieses Item als problematisch erweisen, wenn die Skala für den Vergleich zweier Patientengruppen verwendet wird, die zwei Ländern unterschiedlicher Kulturkreise entstammen. Ist in einem Kulturkreis sportliche Aktivität in der Freizeit gesellschaftlich grundsätzlich weniger verbreitet oder akzeptiert, so wäre es „unfair”, die selteneren sportlichen Aktivitäten für diese Patienten als Indikator eines geringeren Gesundheitsbewusstseins zu werten, wenn alle anderen Items keinen oder einen geringeren Unterschied der Gruppen abbilden würden. Auch bei einem Vergleich von 20- bis 30-Jährigen mit einer Gruppe von 80- bis 90-Jährigen wäre die Unfairness dieses Items naheliegend.

Als Methode zur Überprüfung der Fairness von Items bei Gruppenvergleichen kann das so genannte Differential Item Functioning (DIF, [7]) angewendet werden. Beim DIF wird untersucht, ob einzelne Items in einzelnen Gruppen unerwartet hohe bzw. niedrige Schwierigkeiten aufweisen. „Unerwartet” bedeutet hier, dass sich für ein bestimmtes Item nicht dieselben Gruppenunterschiede zeigen wie für die übrigen Skalenitems. Würden beispielsweise alle Items einer Skala zur „Funktionsfähigkeit im Alltag” für orthopädische Patienten in ähnlichem Maße schwieriger sein als für gesunde Personen, so würde kein DIF vorlie-gen: Alle Items wären in ähnlicher Weise geeignet, die höhere Belastung orthopädischer Patienten abzubilden. Für ein Item, das in einer solchen Itemgruppe einen deutlich geringeren Schwierigkeitsunterschied anzeigt als alle übrigen Items, würde jedoch DIF gelten und dieses Item müsste als „unfair” gewertet werden.

[Abb. 3] zeigt exemplarisch die Ergebnisse des DIF für die Skala „Funktionsfähigkeit im Alltag” des IRES-24 [11] für das Alter (bis 50, ab 51) und das Geschlecht der Patienten. Wären alle Items vollkommen fair, so würden die Punkte, die die einzelnen Itemschwierigkeiten repräsentieren, exakt auf der eingezeichneten Winkelhalbierenden liegen. Abweichungen von der Winkelhalbierenden zeigen Unterschiede der Itemschwierigkeiten zwischen den Vergleichsgruppen an. Zusätzlich sind die Grenzen der 95%-Konfidenzintervalle eingetragen. Für Punkte, die zwischen diesen beiden Linien liegen, existiert kein DIF. Entsprechend können alle acht Items in Bezug auf das Alter als testfair bezeichnet werden. Für das Geschlecht können jedoch insbesondere für die beiden Items „Einen Gegenstand vom Boden aufheben” sowie „Einen schweren Gegenstand über 5 m tragen” Verletzungen der Fairness festgestellt werden. Die Ergebnisse sind wie folgt zu interpretieren: Bei Frauen treten schon bei geringeren Einschränkungen der Funktionsfähigkeit im Vergleich zu den Männern unerwartet starke Probleme auf, einen Gegenstand über 5 m zu tragen. Hingegen treten bei Männern unerwartet früh Probleme auf, wenn sie sich nach einem Gegenstand auf dem Boden bücken müssen.

Zoom Image

Abb. 3 Ergebnisse des Differential Item Functioning für den Vergleich von jüngeren und älteren Patienten (links) und von Frauen und Männern (rechts). (Graue Punkte=Position der Einzelitems).

Das DIF ermöglicht also eine ganz neue Perspektive zum Verständnis der Struktur psychometrischer Skalen. Es kann empirisch untersucht werden, welche Bedeutungsunterschiede für einzelne Patientengruppen bei der Bestimmung von Skalenwerten berücksichtigt werden sollten. Zudem wird deutlich, dass beispielsweise ein Itempool im Bereich „Funktionsfähigkeit” verschiedene Arten von Beeinträchtigungen abbilden kann. Für Männer und Frauen kommt einzelnen Items eine unterschiedliche Bedeutung in Bezug auf die Funktionsfähigkeit zu. Infolgedessen sollten einzelne Symptome in Abhängigkeit vom Geschlecht diagnostisch unterschiedlich gewertet werden, da sie unterschiedlich sensitiv auf Einschränkungen bei Frauen vs. Männern „reagieren”. Durch DIF können somit Moderatorvariablen identifiziert werden, für deren Stufen strukturelle Unterschiede in der durch Skalenitems erfassten zugrunde liegenden Problematik bestehen. Neben der differenzierteren Dateninterpretation können diese Befunde beispielsweise zur Optimierung von Assessmentinstrumenten in unterschiedlichen Indikationsgruppen genutzt werden.

Alternativ zum DIF steht mit der Mischverteilungs-Rasch-Analyse ein Verfahren zur Verfügung, das mit der gleichen Zielsetzung eingesetzt werden kann [8] [9] [10]. Im Unterschied zum DIF muss hier keine Hypothese bestehen, welche Moderatorvariable (z. B. Geschlecht, Alter oder Indikationsgruppe) eine heterogene Itemstruktur vorhersagt. Die Mischverteilungs-Rasch-Analyse erlaubt eine explorative Identifikation von Patientenklassen, innerhalb derer unterschiedliche Messmodelle gültig sind.

#

Unter welchen Bedingungen und wie kann eine Rasch-Analyse durchgeführt werden?

Eine Rasch-Analyse kann immer dann durchgeführt werden, wenn man die Messqualität von Items, die ein homogenes Konstrukt erfassen sollen, überprüfen will. Wie auch bei der klassischen Skalenanalyse [4] dürfen keine Mehrfachantworten bei der Beantwortung einzelner Items möglich sein. Fragen mit Multiple-Choice-Format stellen eine Ausnahme dar und können ebenfalls analysiert werden. Für die Rasch-Analyse stellt es kein Problem dar, wenn für verschiedene Items unterschiedliche Erhebungsformate verwendet wurden (z. B. dichotom und Ra-tingformate, [9]). Obwohl in der älteren Literatur für die Rasch-Analyse sehr große Analysestichproben gefordert wurden, gilt inzwischen eher die Auffassung, dass eine Rasch-Analyse immer dann durchgeführt werden kann, wenn auch eine Analyse mittels klassischer Testtheorie zulässig wäre. Linacre [12] gibt als Orientierung an, dass 150 Personen eine ausreichende Basis für die präzise Schätzung von Modellparametern darstellen.

Die Lehrbücher von Bond und Fox [7] und Rost [9] geben verständliche Einführungen in die Hintergründe und die Anwendung des Rasch-Modells. Während das Buch von Bond und Fox [7] die vielfältigen Optionen zur Datendiagnostik des Analyseprogramms WINSTEPS [13] in den Vordergrund stellt, liefert das Buch von Rost [10] eine Einführung in das Programm WINMIRA [14] und zeigt, wie das Rasch-Modell in die allgemeinere Familie der Item-Response-Modelle eingebettet ist. Neben diesen beiden Programmen sei noch auf die Software RUMM2020 [15] hingewiesen, die sich in der internationalen Literatur als weiteres Standardprogramm etabliert hat. Alle drei Programme zeichnen sich durch eine hohe Benutzerfreundlichkeit aus.

#

Zusammenfassung und Diskussion

Das Rasch-Modell gilt in der Diagnostik als optimale Basis für das Assessment von Merkmalsausprägungen. Sind die Annahmen des Rasch-Modells erfüllt, so ist die Beantwortung jedes Items[3]- bis auf eine rein zufällige Antwortkomponente - vollständig durch zwei unabhängige Determinanten festgelegt:

  1. das Ausmaß der zugrunde liegenden Fähigkeit des Patienten (Personenparameter)

  2. das Ausmaß der Fähigkeit, das zur Bewältigung der durch das Item erfassten Tätigkeit erforderlich ist (Itemparameter)

Dies ist jedoch nur dann der Fall, wenn durch alle Items ausschließlich eine zugrunde liegende Fähigkeit erfragt wird. Zusätzlich muss sich das zu erfassende latente Merkmal für alle Patienten in den Itemantworten in derselben Weise widerspiegeln. Lediglich die Ausprägung auf der Merkmalsdimension bzw. die Stärke der erfassten Problematik darf sich für verschiedene Patienten unterscheiden, hingegen muss die Struktur der gemessenen Merkmalsdimension bzw. der erfassten Problematik unverändert bleiben. Würde eine Interaktion von Itemeigenschaften und Personeneigenschaften vorliegen, wäre die Annahme der Rasch-Homogenität verletzt[4]. Dies bedeutet insbesondere, dass die Itemschwierigkeiten für alle Patienten dieselbe Rangordnung aufweisen müssen. Würde dies lediglich für einen einzigen Patienten nicht gelten, so wären die Annahmen des Rasch-Modells verletzt: Eine patientenunabhängige Interpretation der Befunde wäre nicht mehr zulässig [16].

Soll das Rasch-Modell in der klinischen Praxis angewendet werden, so muss aber stets mit solchen Verletzungen gerechnet werden. Je nach Erkrankung eines Patienten können bestimmte Einschränkungen oder Symptome individuell ungewöhnlich stark oder gering ausgeprägt sein. Somit können sich individuelle Antwortmuster ergeben, die ein im Vergleich zu anderen Patienten untypisches Belastungsprofil widerspiegeln. Auch wenn sich für eine Skala die im Rahmen der Skalenentwicklung untersuchte Patientenstichprobe als homogen erwiesen hat und somit die erhobenen Belastungsprofile vergleichbar sind, so muss dennoch bei der klinischen Anwendung mit untypischen Antwortmustern gerechnet werden.

Deswegen wird für Skalen, die als Rasch-skaliert gelten, zumeist nur die Passung der Items zu den Annahmen des Rasch-Modells gefordert [7], obwohl die Personenhomogenität ein genauso bedeutsamer Bestandteil der Theorie zum Rasch-Modell darstellt und für die Interpretation der geschätzten Modellparameter bedeutsam ist [16]. Man erhält dann die Schätzung eines Mo-dells, für das man annehmen muss, dass es nicht das Verhalten aller Patienten beschreiben kann, obwohl es in der Theorie diesen Anspruch erhebt[5]. Ein großer Gewinn für die Diagnostik entsteht dadurch, dass nun ein Modell existiert, das die Identifikation von Abweichungen von dem im Modell formulierten idealen Antwortverhalten, das die Datenstrukturen bestmöglich vorhersagt, ermöglicht.

Zur Identifikation einzelner auffälliger Patientenprofile können Person-Fit-Maße berechnet werden. Da zur Bestimmung dieser Maße jeweils eine komplette Rasch-Analyse durchgeführt werden müsste, existieren Näherungsformeln, die beispielsweise mittels eines einfachen SPSS-Syntaxbefehls umsetzbar sind [16]. Ein auffällig schlechter Personen-Fit deutet darauf hin, dass für einen Patienten der ermittelte Summenscore und der daraus abgeleitete Personenparameter zumindest mit Vorsicht interpretiert werden sollte, da eine Verletzung der Testfairness befürchtet werden muss. Das Differential-Item-Functioning und die Mixed-Rasch-Analyse erlauben es, systematische Unterschiede in der Skalenstruktur zwischen verschiedenen Patientengruppen zu identifizieren.

In diesem Beitrag wurde ein sehr kleiner Ausschnitt der diagnostischen Vorteile der Anwendung des Rasch-Modells behandelt. Vorteile durch die Anwendung des Rasch-Modells entstehen des Weiteren insbesondere aufgrund der Möglichkeiten zur Überprüfung der Skalenqualität von Ratingskalen, des adaptiven Testens[6], des Item-Bankings (Erstellung homogener Itempools zur flexiblen Auswahl von Items und Itementwicklung) und des Test-Equatings (Vereinheitlichung der Ergebnisse verschiedener Messinstrumente) [7] [9]. Die hier behandelten Punkte können jedoch für eine differenziertere Diagnostik in der klinischen Anwendung als besonders bedeutsam eingeschätzt werden. Es wurde gezeigt, dass das Rasch-Modell genutzt werden kann, um eindimensionale Messgrößen zu erhalten, auffällige bzw. mo-dellinkonforme Datenstrukturen zu identifizieren und somit die Grundlage für die Beurteilung der Fairness von Vergleichen diagnostischer Befunde zu schaffen. Zusätzlich zu Strategien der klassischen Testanalyse sollte das Rasch-Modell bei der Analyse von diagnostischen Befunden stärker genutzt werden, da es eine differenziertere Datenanalyse ermöglicht und ein elaborierteres Methodeninventar zum besseren Verständnis der Problemstruktur von Patienten und Patientengruppen zur Verfügung stellt.

#

Literatur

  • 1 Rost J. Messen wird immer einfacher.  ZUMA-Nachrichten. 2005;  56 6-7
  • 2 Stevens SS. Measurement, psychophysics, and utility. In: Churchman CW, Ratoosh P (Hrsg): Measurement: definitions and theory. New York: Wiley 1959
  • 3 Bengel J, Wirtz M. Rasch-based assessment and latent trait modelling in clinical and rehabilitation research. In: Beauducel A, Biehl B, Bosniak M, Conrad W, Schönberger G, Wagener D (Hrsg): Multivariate research strategies. Maastricht: Shaker Publishing 2005: 173-189
  • 4 Lienert G, Raatz U. Testaufbau und Testanalyse. 5. Aufl. Weinheim: Beltz PVU 1998
  • 5 Steyer R, Eid M. Messen und Testen. 2. Aufl. Berlin: Springer 2001
  • 6 Rasch G. Probabilistic models for some intelligence and attainment tests. Chicago: The University of Chicago Press 1980
  • 7 Bond TG, Fox CM. Applying the Rasch model: fundamental measurement in the human sciences. Mahwah, NJ: Erlbaum 2001
  • 8 Wirtz M, Farin E, Bengel J, Jäckel WH, Hämmerer D, Gerdes N. IRES-24 Patientenfragebogen - Entwicklung der Kurzform eines Assessmentinstrumentes in der Rehabilitation mittels des Mixed-Rasch-Modells.  Diagnostica. 2005;  51 75-87
  • 9 Rost J. Lehrbuch Testtheorie-Testkonstruktion. 2. Aufl. Bern: Huber 2003
  • 10 Rost J. Was ist aus dem Rasch-Modell geworden?.  Psychologische Rundschau. 1999;  50 140-156
  • 11 Diamantopoulos A, Winkelhofer H. Index construction with formative indicators: an alternative to scale development.  Journal of Marketing Research. 2001;  38 269-277
  • 12 Linacre JM. Sample size and item calibration stability.  Rasch Measurement Transactions. 1994;  7 328
  • 13 Linacre JM. WINSTEPS for PC compatibles. Chicago: Mesa Press 2005
  • 14 von Davier M. WINMIRA 2001 . , Verfügbar unter: http://winmira.von-davier.de , (aufgerufen am 27.12.2005)
  • 15 Andrich D, Sheridan BS, Luo G. RUMM2020 .Rasch Unidimensional Models for Measurement. Perth, Western Australia: RUMM Laboratory 2002
  • 16 Wirtz M, Böcker M. Der Einsatz des raschskalierten IRES-24 in der klinischen Diagnostik. In: Leonhart R, Gerdes N (Hrsg): Der Einsatz des IRES-Fragebogens in der Rehabilitation. Regensburg: Roderer 2005: 175-197

1 Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“:
Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Siegburg
Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen:
Email: christian.zwingmann@web.de

2 Die analysierten Daten stammen von n=1840 Patienten aus der orthopädischen Rehabilitation (weitere Angaben s. [8]).

3 Bei Verwendung des ordinalen Rasch-Modells muss eine weiter spezifizierte Modellvariante zugrunde gelegt werden [9]. Das hier zur Erläuterung genutzte Partial-Credit-Modell ist neben dem so genannten Ratingskalenmodell die am häufigsten verwendete Modellvariante und entspricht zumeist den Voreinstellungen in Analyseprogrammen.

4 In dem Sinne, dass die Wahrscheinlichkeit für die Wahl jeder zur Verfügung stehenden Antwortkategorie vollständig determiniert ist.

5 Dies ist in der Eigenschaft der lokalen stochastischen Unabhängigkeit von Rasch-Skalen formuliert. Diese ist erfüllt, wenn die Kenntnis der zugrunde liegenden Personenfähigkeit ausreicht, um die Beantwortung - bis auf stochastische Effekte - aller Skalenitems vorherzusagen.

6 Zur Frage, in welchem Maße sich die Qualität der Parameterschätzungen aufgrund der Modellverletzungen verschlechtert und welches Ausmaß an Verletzung der Personenhomogenität tolerierbar ist, liegen unseres Wissens leider keine systematischen Studien vor.

7 Beim adaptiven Testen werden dem jeweiligen Patienten aufgrund seines Antwortverhaltens diejenigen Items dargeboten, die aufgrund ihrer Schwierigkeit optimal auf die Fähigkeit des Patienten abgestimmt sind. Dies ermöglicht eine präzise Schätzung der Personenfähigkeit trotz geringer Itemanzahl.

#

Korrespondenzadresse

Prof. Dr. Markus Wirtz

Institut für Psychologie

Pädagogische Hochschule Freiburg

Kunzenweg 21

79117 Freiburg

Email: markus.wirtz@ph-freiburg.de

#

Literatur

  • 1 Rost J. Messen wird immer einfacher.  ZUMA-Nachrichten. 2005;  56 6-7
  • 2 Stevens SS. Measurement, psychophysics, and utility. In: Churchman CW, Ratoosh P (Hrsg): Measurement: definitions and theory. New York: Wiley 1959
  • 3 Bengel J, Wirtz M. Rasch-based assessment and latent trait modelling in clinical and rehabilitation research. In: Beauducel A, Biehl B, Bosniak M, Conrad W, Schönberger G, Wagener D (Hrsg): Multivariate research strategies. Maastricht: Shaker Publishing 2005: 173-189
  • 4 Lienert G, Raatz U. Testaufbau und Testanalyse. 5. Aufl. Weinheim: Beltz PVU 1998
  • 5 Steyer R, Eid M. Messen und Testen. 2. Aufl. Berlin: Springer 2001
  • 6 Rasch G. Probabilistic models for some intelligence and attainment tests. Chicago: The University of Chicago Press 1980
  • 7 Bond TG, Fox CM. Applying the Rasch model: fundamental measurement in the human sciences. Mahwah, NJ: Erlbaum 2001
  • 8 Wirtz M, Farin E, Bengel J, Jäckel WH, Hämmerer D, Gerdes N. IRES-24 Patientenfragebogen - Entwicklung der Kurzform eines Assessmentinstrumentes in der Rehabilitation mittels des Mixed-Rasch-Modells.  Diagnostica. 2005;  51 75-87
  • 9 Rost J. Lehrbuch Testtheorie-Testkonstruktion. 2. Aufl. Bern: Huber 2003
  • 10 Rost J. Was ist aus dem Rasch-Modell geworden?.  Psychologische Rundschau. 1999;  50 140-156
  • 11 Diamantopoulos A, Winkelhofer H. Index construction with formative indicators: an alternative to scale development.  Journal of Marketing Research. 2001;  38 269-277
  • 12 Linacre JM. Sample size and item calibration stability.  Rasch Measurement Transactions. 1994;  7 328
  • 13 Linacre JM. WINSTEPS for PC compatibles. Chicago: Mesa Press 2005
  • 14 von Davier M. WINMIRA 2001 . , Verfügbar unter: http://winmira.von-davier.de , (aufgerufen am 27.12.2005)
  • 15 Andrich D, Sheridan BS, Luo G. RUMM2020 .Rasch Unidimensional Models for Measurement. Perth, Western Australia: RUMM Laboratory 2002
  • 16 Wirtz M, Böcker M. Der Einsatz des raschskalierten IRES-24 in der klinischen Diagnostik. In: Leonhart R, Gerdes N (Hrsg): Der Einsatz des IRES-Fragebogens in der Rehabilitation. Regensburg: Roderer 2005: 175-197

1 Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“:
Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Siegburg
Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen:
Email: christian.zwingmann@web.de

2 Die analysierten Daten stammen von n=1840 Patienten aus der orthopädischen Rehabilitation (weitere Angaben s. [8]).

3 Bei Verwendung des ordinalen Rasch-Modells muss eine weiter spezifizierte Modellvariante zugrunde gelegt werden [9]. Das hier zur Erläuterung genutzte Partial-Credit-Modell ist neben dem so genannten Ratingskalenmodell die am häufigsten verwendete Modellvariante und entspricht zumeist den Voreinstellungen in Analyseprogrammen.

4 In dem Sinne, dass die Wahrscheinlichkeit für die Wahl jeder zur Verfügung stehenden Antwortkategorie vollständig determiniert ist.

5 Dies ist in der Eigenschaft der lokalen stochastischen Unabhängigkeit von Rasch-Skalen formuliert. Diese ist erfüllt, wenn die Kenntnis der zugrunde liegenden Personenfähigkeit ausreicht, um die Beantwortung - bis auf stochastische Effekte - aller Skalenitems vorherzusagen.

6 Zur Frage, in welchem Maße sich die Qualität der Parameterschätzungen aufgrund der Modellverletzungen verschlechtert und welches Ausmaß an Verletzung der Personenhomogenität tolerierbar ist, liegen unseres Wissens leider keine systematischen Studien vor.

7 Beim adaptiven Testen werden dem jeweiligen Patienten aufgrund seines Antwortverhaltens diejenigen Items dargeboten, die aufgrund ihrer Schwierigkeit optimal auf die Fähigkeit des Patienten abgestimmt sind. Dies ermöglicht eine präzise Schätzung der Personenfähigkeit trotz geringer Itemanzahl.

#

Korrespondenzadresse

Prof. Dr. Markus Wirtz

Institut für Psychologie

Pädagogische Hochschule Freiburg

Kunzenweg 21

79117 Freiburg

Email: markus.wirtz@ph-freiburg.de

Zoom Image

Abb. 1 Vorhersage der Antwortwahrscheinlichkeiten durch das ordinale Rasch-Modell für die fünf Antwortkategorien des IRES-24-Items „Schwere körperliche Arbeiten verrichten” in Abhängigkeit von der latenten Merkmalsdimension Funktionsfähigkeit im Alltag.

Zoom Image

Abb. 2 Streudiagramm der Personenparameter (Abszisse) als Indikator der Funktionsfähigkeit im Alltag und der Personenpassung (Newfit-Maß, Ordinate) als Indikator der Eindimensionalität des Antwortpatterns.

Zoom Image

Abb. 3 Ergebnisse des Differential Item Functioning für den Vergleich von jüngeren und älteren Patienten (links) und von Frauen und Männern (rechts). (Graue Punkte=Position der Einzelitems).