Zusammenfassung
Einschätzungen durch Ärzte oder Therapeuten zählen zu den wichtigsten Messmethoden in der klinischen Praxis. Es wird gezeigt, wie die Zuverlässigkeit von Beurteilungen mittels Ratingskalen durch statistische Maßzahlen bestimmt werden sollte. Zudem wird verdeutlicht, welche Ursachen mangelnde Zuverlässigkeit von Beurteilungen haben kann. Das Wissen über diese Ursachen kann die Basis für Beurteilertrainings sein, die zur Sicherstellung der Qualität klinischer Einschätzungen genutzt werden können.
Abstract
In clinical practice ratings by physicians and therapists are among the most frequently used assessment procedures. It is shown, which statistical measures should be used to assess the reliability of such ratings. Additionally, potential causes of insufficient reliability are presented. Improvement of rating quality may be achieved by rater training, which is based on an analysis of rating errors.
Schlüsselwörter
Beurteilerreliabilität - Ratingskalen - Intraklassenkorrelation - Beurteilungsfehler - Beurteilertraining
Key words
Rater reliability - rating scales - intraclass correlations - rating mistakes - rater training
Literatur
1
Agresti A.
Modelling patterns of agreement and disagreement.
Statistical Methods in Medical Research.
1992;
1
201-218
2 Bortz J, Döring N. Forschungsmethoden und Evaluation. 3. Aufl. Berlin; Springer 2001
3 Bortz J, Lienert G A. Kurzgefasste Statistik für die klinische Forschung. Berlin; Springer 2002
4 Bullinger M, Kirchberger I. SF-36 Fragebogen zum Gesundheitszustand (SF-36). Handbuch für die deutschsprachige Fragebogenversion. Göttingen; Hogrefe 1998
5 Fleiss J L. Statistical methods for rates and proportions. New York; Wiley 1981
6 Franke G H. SCL-90-R - Die Symptom-Checkliste von L. R. Derogatis. Göttingen; Beltz-Test 2002
7 Greve W, Wentura D. Wissenschaftliche Beobachtungen. Eine Einführung. Weinheim; Psychologie-Verlags-Union 1997
8 Lienert G, Raatz U. Testaufbau und Testanalyse. 5. Aufl. Weinheim; Beltz, PVU 1998
9
McGraw K O, Wong S P.
Forming inferences about some intraclass correlation coefficients.
Psychological Methods.
1996;
1
31-43
10
Rohrmann B.
Empirische Studien zur Entwicklung von Antwortskalen für die sozialwissenschaftliche Forschung.
Zeitschrift für Sozialpsychologie.
1978;
9
222-245
11 Rost J. Lehrbuch Testtheorie Testkonstruktion. Bern; Huber 1996
12
Shrout P E, Fleiss J L.
Intraclass correlations: Uses in assessing rater reliability.
Psychological Bulletin.
1979;
86
((2))
420-428
13 Stevens S S. Measurement, psychophysics, and utility. In: Churchman CW, Ratoosh P (eds) Measurement: definitions and theory. New York; Wiley 1959
14 Suen H K, Ary D. Analyzing quantitative behavioral observation data. Hillsdale, NJ; Erlbaum 1989
15
Tinsley H EA, Weiss D J.
Interrater reliability and agreement of subjective judgements.
Journal of Counseling Psychology.
1975;
22
((4))
358-376
16
Uebersax J S.
A review of modeling approaches for the analysis of observer agreement.
Investigative Radiology.
1992;
27
738-743
17 Uebersax J S. Statistical methods for rater agreement [Internet]. Verfügbar unter: http://ourworld.compuserve.com/homepages/jsuebersax , 2001, last updated May 2003.
18 Wirtz M, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen; Hogrefe 2002
19
Wolf M.
Social validity: The case for subjective measurement or how applied behavior analysis is finding its heart.
Journal of Applied Behavior Analysis.
1978;
1
203-214
1 Hierfür muss zusätzlich gewährleistet sein, dass jedem Patienten bei jeder Beurteilung genau ein Wert zugeordnet wird: Ein Patient kann nicht mehrere Erstdiagnosen innerhalb desselben Kategoriensystems erhalten. Zudem muss das Kategoriensystem oder die verwendete Ratingskala eine angemessene Abbildung des empirischen Merkmalsspektrums erlauben.
2 Bei psychometrischen Tests gilt diese Beziehung nur eingeschränkt: Sehr hohe Reliabilität und Validität können nicht gleichzeitig erreicht werden (partielle Inkompatibilität der beiden Kardinalkriterien, [11 ], S. 39). Dieses Problem besteht für die Beurteilerreliabilität nicht: Hier ist eine möglichst hohe Reliabilität immer günstig für die Validität der Beurteilungen ([18 ], S. 208).
3 Alternative Maße wie z. B. Finns r [15 ] für intervallskalierte Daten werden in der modernen Literatur nicht mehr diskutiert, da diese kein Reliabilitätsmaß darstellen und gezeigt werden kann, dass trotz unreliabler Beurteilungen hohe Koeffizientenausprägungen resultieren können. Lediglich moderne Latent-trait- oder Latent-class-Ansätze für ordinalskalierte Daten stellen eine Alternative zur ICC als Reliabilitätsmaß dar [1 ]
[17 ]. Das häufig angewendete Kendalls W für ordinalskalierte Daten ist ein Zusammenhangsmaß, aber kein Reliabilitätsmaß im eigentlichen Sinne [18 ].
4 Die Bezeichnung „einfaktoriell” ist dadurch begründet, dass varianzanalytisch nur die Unterschiede zwischen den Personen und nicht zwischen den Beurteilern modelliert werden können. Da unterschiedliche Beurteiler die Personen geratet haben, können die Unterschiede zwischen den Beurteilern nicht fehlerfrei bestimmt werden.
5 Die Homogenität der Mittelwerte ist nicht notwendig, wenn eine der justierten ICCs die angemessene Reliabilitätskennziffer ist.
ANHANG
Notation zu den verschiedenen Intraklassenkorrelationskoeffizienten
Bedeutung der Subskripte:
unjust = unjustierte ICC. Die absoluten Messwerte werden unabhängig vom jeweiligen Beurteiler interpretiert oder weiter verwertet.
just = justierte ICC. Das individuelle Mittelwertsniveau der Beurteiler wird bei der Interpretation oder Weiterverwertung der Messwerte berücksichtigt.
einfakt = Die ICC basiert auf dem einfaktoriellen varianzanalytischen Modell.
MW = Es wird die Reliabilität des Mittelwerts aller untersuchten Beurteiler geschätzt.
Eigenschaften der 6 Formen der Intraklassenkorrelation:
Kontrolle von Mittelwertsunterschieden der Beurteiler varianzanalytisches Design Aggregation der Urteile
nein unjustiert ja justiert einfaktorielles Design zweifaktorielles Design nein Einzelwerte ja Mittelwerte
ICCunjust,einfakt
ja ja ja
ICCunjust,einfakt,MW
ja ja ja
ICCunjust
ja ja ja
ICCunjust,MW
ja ja ja
ICCjust
ja ja ja
ICCjust,MW
ja ja ja
Dr. phil. Dipl.-Psych. Markus Wirtz
Abteilung für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg
Engelbergerstraße 41
79085 Freiburg
Email: wirtz@psychologie.uni-freiburg.de