Subscribe to RSS
DOI: 10.1055/s-2003-814935
Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen
Determining the Quality of Rater Judgements Using Intraclass Correlation, and Enhancing Rater Judgements Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.dePublication History
Publication Date:
24 November 2004 (online)
Zusammenfassung
Einschätzungen durch Ärzte oder Therapeuten zählen zu den wichtigsten Messmethoden in der klinischen Praxis. Es wird gezeigt, wie die Zuverlässigkeit von Beurteilungen mittels Ratingskalen durch statistische Maßzahlen bestimmt werden sollte. Zudem wird verdeutlicht, welche Ursachen mangelnde Zuverlässigkeit von Beurteilungen haben kann. Das Wissen über diese Ursachen kann die Basis für Beurteilertrainings sein, die zur Sicherstellung der Qualität klinischer Einschätzungen genutzt werden können.
Abstract
In clinical practice ratings by physicians and therapists are among the most frequently used assessment procedures. It is shown, which statistical measures should be used to assess the reliability of such ratings. Additionally, potential causes of insufficient reliability are presented. Improvement of rating quality may be achieved by rater training, which is based on an analysis of rating errors.
Schlüsselwörter
Beurteilerreliabilität - Ratingskalen - Intraklassenkorrelation - Beurteilungsfehler - Beurteilertraining
Key words
Rater reliability - rating scales - intraclass correlations - rating mistakes - rater training
Literatur
- 1 Agresti A. Modelling patterns of agreement and disagreement. Statistical Methods in Medical Research. 1992; 1 201-218
- 2 Bortz J, Döring N. Forschungsmethoden und Evaluation. 3. Aufl. Berlin; Springer 2001
- 3 Bortz J, Lienert G A. Kurzgefasste Statistik für die klinische Forschung. Berlin; Springer 2002
- 4 Bullinger M, Kirchberger I. SF-36 Fragebogen zum Gesundheitszustand (SF-36). Handbuch für die deutschsprachige Fragebogenversion. Göttingen; Hogrefe 1998
- 5 Fleiss J L. Statistical methods for rates and proportions. New York; Wiley 1981
- 6 Franke G H. SCL-90-R - Die Symptom-Checkliste von L. R. Derogatis. Göttingen; Beltz-Test 2002
- 7 Greve W, Wentura D. Wissenschaftliche Beobachtungen. Eine Einführung. Weinheim; Psychologie-Verlags-Union 1997
- 8 Lienert G, Raatz U. Testaufbau und Testanalyse. 5. Aufl. Weinheim; Beltz, PVU 1998
- 9 McGraw K O, Wong S P. Forming inferences about some intraclass correlation coefficients. Psychological Methods. 1996; 1 31-43
- 10 Rohrmann B. Empirische Studien zur Entwicklung von Antwortskalen für die sozialwissenschaftliche Forschung. Zeitschrift für Sozialpsychologie. 1978; 9 222-245
- 11 Rost J. Lehrbuch Testtheorie Testkonstruktion. Bern; Huber 1996
- 12 Shrout P E, Fleiss J L. Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin. 1979; 86 ((2)) 420-428
-
13 Stevens S S.
Measurement, psychophysics, and utility. In: Churchman CW, Ratoosh P (eds) Measurement: definitions and theory. New York; Wiley 1959 - 14 Suen H K, Ary D. Analyzing quantitative behavioral observation data. Hillsdale, NJ; Erlbaum 1989
- 15 Tinsley H EA, Weiss D J. Interrater reliability and agreement of subjective judgements. Journal of Counseling Psychology. 1975; 22 ((4)) 358-376
- 16 Uebersax J S. A review of modeling approaches for the analysis of observer agreement. Investigative Radiology. 1992; 27 738-743
-
17 Uebersax J S. Statistical methods for rater agreement [Internet]. Verfügbar unter: http://ourworld.compuserve.com/homepages/jsuebersax, 2001, last updated May 2003.
- 18 Wirtz M, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen; Hogrefe 2002
- 19 Wolf M. Social validity: The case for subjective measurement or how applied behavior analysis is finding its heart. Journal of Applied Behavior Analysis. 1978; 1 203-214
1 Hierfür muss zusätzlich gewährleistet sein, dass jedem Patienten bei jeder Beurteilung genau ein Wert zugeordnet wird: Ein Patient kann nicht mehrere Erstdiagnosen innerhalb desselben Kategoriensystems erhalten. Zudem muss das Kategoriensystem oder die verwendete Ratingskala eine angemessene Abbildung des empirischen Merkmalsspektrums erlauben.
2 Bei psychometrischen Tests gilt diese Beziehung nur eingeschränkt: Sehr hohe Reliabilität und Validität können nicht gleichzeitig erreicht werden (partielle Inkompatibilität der beiden Kardinalkriterien, [11], S. 39). Dieses Problem besteht für die Beurteilerreliabilität nicht: Hier ist eine möglichst hohe Reliabilität immer günstig für die Validität der Beurteilungen ([18], S. 208).
3 Alternative Maße wie z. B. Finns r [15] für intervallskalierte Daten werden in der modernen Literatur nicht mehr diskutiert, da diese kein Reliabilitätsmaß darstellen und gezeigt werden kann, dass trotz unreliabler Beurteilungen hohe Koeffizientenausprägungen resultieren können. Lediglich moderne Latent-trait- oder Latent-class-Ansätze für ordinalskalierte Daten stellen eine Alternative zur ICC als Reliabilitätsmaß dar [1] [17]. Das häufig angewendete Kendalls W für ordinalskalierte Daten ist ein Zusammenhangsmaß, aber kein Reliabilitätsmaß im eigentlichen Sinne [18].
4 Die Bezeichnung „einfaktoriell” ist dadurch begründet, dass varianzanalytisch nur die Unterschiede zwischen den Personen und nicht zwischen den Beurteilern modelliert werden können. Da unterschiedliche Beurteiler die Personen geratet haben, können die Unterschiede zwischen den Beurteilern nicht fehlerfrei bestimmt werden.
5 Die Homogenität der Mittelwerte ist nicht notwendig, wenn eine der justierten ICCs die angemessene Reliabilitätskennziffer ist.
ANHANG
Notation zu den verschiedenen Intraklassenkorrelationskoeffizienten
Bedeutung der Subskripte:
unjust = unjustierte ICC. Die absoluten Messwerte werden unabhängig vom jeweiligen Beurteiler interpretiert oder weiter verwertet.
just = justierte ICC. Das individuelle Mittelwertsniveau der Beurteiler wird bei der Interpretation oder Weiterverwertung der Messwerte berücksichtigt.
einfakt = Die ICC basiert auf dem einfaktoriellen varianzanalytischen Modell.
MW = Es wird die Reliabilität des Mittelwerts aller untersuchten Beurteiler geschätzt.
Kontrolle von Mittelwertsunterschieden der Beurteiler | varianzanalytisches Design | Aggregation der Urteile | ||||
nein unjustiert | ja justiert | einfaktorielles Design | zweifaktorielles Design | nein Einzelwerte | ja Mittelwerte |
|
ICCunjust,einfakt | ja | ja | ja | |||
ICCunjust,einfakt,MW | ja | ja | ja | |||
ICCunjust | ja | ja | ja | |||
ICCunjust,MW | ja | ja | ja | |||
ICCjust | ja | ja | ja | |||
ICCjust,MW | ja | ja | ja |
Dr. phil. Dipl.-Psych. Markus Wirtz
Abteilung für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg
Engelbergerstraße 41
79085 Freiburg
Email: wirtz@psychologie.uni-freiburg.de