Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen

M. Wirtz

doi:10.1055/s-2003-814935

Die Rehabilitation, Table of Contents

Rehabilitation (Stuttg) 2004; 43(6): 384-389
DOI: 10.1055/s-2003-814935

Methoden in der Rehabilitationsforschung

Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen

Determining the Quality of Rater Judgements Using Intraclass Correlation, and Enhancing Rater JudgementsM. Wirtz¹

¹Methodenzentrum des Rehabilitationswissenschaftlichen Forschungsverbundes Freiburg/Bad Säckingen, Freiburg

Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de

Abstract

Zusammenfassung

Einschätzungen durch Ärzte oder Therapeuten zählen zu den wichtigsten Messmethoden in der klinischen Praxis. Es wird gezeigt, wie die Zuverlässigkeit von Beurteilungen mittels Ratingskalen durch statistische Maßzahlen bestimmt werden sollte. Zudem wird verdeutlicht, welche Ursachen mangelnde Zuverlässigkeit von Beurteilungen haben kann. Das Wissen über diese Ursachen kann die Basis für Beurteilertrainings sein, die zur Sicherstellung der Qualität klinischer Einschätzungen genutzt werden können.

Abstract

In clinical practice ratings by physicians and therapists are among the most frequently used assessment procedures. It is shown, which statistical measures should be used to assess the reliability of such ratings. Additionally, potential causes of insufficient reliability are presented. Improvement of rating quality may be achieved by rater training, which is based on an analysis of rating errors.

Schlüsselwörter

Beurteilerreliabilität - Ratingskalen - Intraklassenkorrelation - Beurteilungsfehler - Beurteilertraining

Key words

Rater reliability - rating scales - intraclass correlations - rating mistakes - rater training

Full Text

References

Literatur

1 Agresti A. Modelling patterns of agreement and disagreement. Statistical Methods in Medical Research. 1992; 1 201-218
2 Bortz J, Döring N. Forschungsmethoden und Evaluation. 3. Aufl. Berlin; Springer 2001
3 Bortz J, Lienert G A. Kurzgefasste Statistik für die klinische Forschung. Berlin; Springer 2002
4 Bullinger M, Kirchberger I. SF-36 Fragebogen zum Gesundheitszustand (SF-36). Handbuch für die deutschsprachige Fragebogenversion. Göttingen; Hogrefe 1998
5 Fleiss J L. Statistical methods for rates and proportions. New York; Wiley 1981
6 Franke G H. SCL-90-R - Die Symptom-Checkliste von L. R. Derogatis. Göttingen; Beltz-Test 2002
7 Greve W, Wentura D. Wissenschaftliche Beobachtungen. Eine Einführung. Weinheim; Psychologie-Verlags-Union 1997
8 Lienert G, Raatz U. Testaufbau und Testanalyse. 5. Aufl. Weinheim; Beltz, PVU 1998
9 McGraw K O, Wong S P. Forming inferences about some intraclass correlation coefficients. Psychological Methods. 1996; 1 31-43
10 Rohrmann B. Empirische Studien zur Entwicklung von Antwortskalen für die sozialwissenschaftliche Forschung. Zeitschrift für Sozialpsychologie. 1978; 9 222-245
11 Rost J. Lehrbuch Testtheorie Testkonstruktion. Bern; Huber 1996
12 Shrout P E, Fleiss J L. Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin. 1979; 86 ((2)) 420-428
13 Stevens S S. Measurement, psychophysics, and utility. In: Churchman CW, Ratoosh P (eds) Measurement: definitions and theory. New York; Wiley 1959
14 Suen H K, Ary D. Analyzing quantitative behavioral observation data. Hillsdale, NJ; Erlbaum 1989
15 Tinsley H EA, Weiss D J. Interrater reliability and agreement of subjective judgements. Journal of Counseling Psychology. 1975; 22 ((4)) 358-376
16 Uebersax J S. A review of modeling approaches for the analysis of observer agreement. Investigative Radiology. 1992; 27 738-743
17 Uebersax J S. Statistical methods for rater agreement [Internet]. Verfügbar unter: http://ourworld.compuserve.com/homepages/jsuebersax, 2001, last updated May 2003.
18 Wirtz M, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen; Hogrefe 2002
19 Wolf M. Social validity: The case for subjective measurement or how applied behavior analysis is finding its heart. Journal of Applied Behavior Analysis. 1978; 1 203-214

1 Hierfür muss zusätzlich gewährleistet sein, dass jedem Patienten bei jeder Beurteilung genau ein Wert zugeordnet wird: Ein Patient kann nicht mehrere Erstdiagnosen innerhalb desselben Kategoriensystems erhalten. Zudem muss das Kategoriensystem oder die verwendete Ratingskala eine angemessene Abbildung des empirischen Merkmalsspektrums erlauben.

2 Bei psychometrischen Tests gilt diese Beziehung nur eingeschränkt: Sehr hohe Reliabilität und Validität können nicht gleichzeitig erreicht werden (partielle Inkompatibilität der beiden Kardinalkriterien, [11], S. 39). Dieses Problem besteht für die Beurteilerreliabilität nicht: Hier ist eine möglichst hohe Reliabilität immer günstig für die Validität der Beurteilungen ([18], S. 208).

3 Alternative Maße wie z. B. Finns r [15] für intervallskalierte Daten werden in der modernen Literatur nicht mehr diskutiert, da diese kein Reliabilitätsmaß darstellen und gezeigt werden kann, dass trotz unreliabler Beurteilungen hohe Koeffizientenausprägungen resultieren können. Lediglich moderne Latent-trait- oder Latent-class-Ansätze für ordinalskalierte Daten stellen eine Alternative zur ICC als Reliabilitätsmaß dar [1] [17]. Das häufig angewendete Kendalls W für ordinalskalierte Daten ist ein Zusammenhangsmaß, aber kein Reliabilitätsmaß im eigentlichen Sinne [18].

4 Die Bezeichnung „einfaktoriell” ist dadurch begründet, dass varianzanalytisch nur die Unterschiede zwischen den Personen und nicht zwischen den Beurteilern modelliert werden können. Da unterschiedliche Beurteiler die Personen geratet haben, können die Unterschiede zwischen den Beurteilern nicht fehlerfrei bestimmt werden.

5 Die Homogenität der Mittelwerte ist nicht notwendig, wenn eine der justierten ICCs die angemessene Reliabilitätskennziffer ist.

ANHANG

Notation zu den verschiedenen Intraklassenkorrelationskoeffizienten

Bedeutung der Subskripte:
unjust = unjustierte ICC. Die absoluten Messwerte werden unabhängig vom jeweiligen Beurteiler interpretiert oder weiter verwertet.

just = justierte ICC. Das individuelle Mittelwertsniveau der Beurteiler wird bei der Interpretation oder Weiterverwertung der Messwerte berücksichtigt.

einfakt = Die ICC basiert auf dem einfaktoriellen varianzanalytischen Modell.

MW = Es wird die Reliabilität des Mittelwerts aller untersuchten Beurteiler geschätzt.

Eigenschaften der 6 Formen der Intraklassenkorrelation:
	Kontrolle von Mittelwertsunterschieden der Beurteiler		varianzanalytisches Design		Aggregation der Urteile
	nein unjustiert	ja justiert	einfaktorielles Design	zweifaktorielles Design	nein Einzelwerte	ja Mittelwerte
ICC_{unjust,einfakt}	ja		ja		ja
ICC_{unjust,einfakt,MW}	ja		ja			ja
ICC_unjust	ja			ja	ja
ICC_unjust,MW	ja			ja		ja
ICC_just		ja		ja	ja
ICC_just,MW		ja		ja		ja

Dr. phil. Dipl.-Psych. Markus Wirtz

Abteilung für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg

Engelbergerstraße 41

79085 Freiburg

Email: wirtz@psychologie.uni-freiburg.de