Einleitung
Die Kenntnis der Ausprägung von Patientenmerkmalen ist in allen Phasen der rehabilitativen
Behandlung von zentraler Bedeutung. Sowohl für die Planung und die Kontrolle des Behandlungsverlaufs
als auch für die Bestimmung der Behandlungsergebnisse müssen aussagekräftige Indikatoren
zum Zustand des Patienten und zu Merkmalen, die den Behandlungserfolg beeinflussen
können, bekannt sein. Die zuverlässige und gültige Bestimmung von Merkmalsausprägungen
bildet somit eine wichtige Grundlage, um die Rehabilitation am Zustand des Patienten
orientieren und hinsichtlich ihrer Effektivität bewerten zu können.
Zur Erhebung von Patienteneigenschaften stellen in der klinischen Praxis - neben Fragebogendaten
und Tests [1]- Beurteilungen die wichtigste Datenerhebungsmethode dar. Um „Beurteilungen” handelt
es sich beispielsweise, wenn Ärzte oder Therapeuten Eigenschaften von Patienten diagnostizieren.
Aber auch wenn Patienten die Behandlungsqualität in einer Versorgungseinrichtung einschätzen
oder wenn im Rahmen eines Peer-Review-Verfahrens Qualitätsindikatoren einer Klinik
überprüft werden sollen [2], wird in der Rehabilitation auf die Methode der Beurteilung zurückgegriffen.
In solchen Beurteilungssituationen werden subjektive Urteile erhoben, die in der Regel
Aufschluss darüber geben sollen,
-
ob ein bestimmtes Merkmal vorliegt oder nicht (dichotomes kategoriales Urteil, z.
B. Behandlungsmaßnahme indiziert: ja/nein),
-
welche von mehreren Merkmalsalternativen zutrifft (mehrfach gestuftes kategoriales
Urteil, z. B. Auswahl von Behandlungsalternative A, B, C oder D) oder
-
in welcher Intensität oder Häufigkeit ein Merkmal vorliegt (Beurteilung mittels Ratingskalen;
z. B. „-2=trifft überhaupt nicht zu” bis „+2=trifft ganz genau zu”).
In der Methodenserie wurde die Problematik der Beurteilerübereinstimmung für Ratingskalen
(iii) bereits ausführlich behandelt [3]. Hier wurde allgemein gezeigt, dass solche Beurteilungen messtheoretischen Gütekriterien
genügen müssen, damit sichergestellt ist, dass die Beurteilungen unabhängig von der
beurteilenden Person als aussagekräftiger Indikator des Zustandes der beurteilten
Person oder des beurteilten Objektes gelten können. Der vorliegende Beitrag gibt einen
Überblick über die Analysestrategien und Kennziffern zur Bestimmung der Übereinstimmung
kategorialer Urteile (i und ii) und vervollständigt somit die Darstellung der wichtigsten
Methoden zur Analyse der Güte von Beurteilungen in rehabilitationsmedizinischen Anwendungskontexten.
Analyse zweistufiger Antwortformate mittels Cohens Kappa (κ) und alternativer Maßzahlen
Angenommen, zwei Therapeuten sollen unabhängig voneinander beurteilen, ob Patienten
an einer auffälligen Beeinträchtigung im Bereich „Alltagsaktivitäten” leiden. Von
beiden Therapeuten werden dieselben 100 Patienten beurteilt. In 80% der Fälle stimmen
die Therapeuten in ihrem Urteil überein. Würde man nun die Angabe dieser Prozentzahl
als Maß der Beurteilerübereinstimmung verwenden, so würde die Beurteilungsqualität
unzureichend dokumentiert. Dies wird durch die Angabe der Daten in [Tab. 1] nachvollziehbar.
Tab. 1 Beispiele für unterschiedliche Übereinstimmungsgüte bei gleich bleibender prozentualer
Übereinstimmung (%Ü) bei der Beurteilung der Auffälligkeit von Beeinträchtigungen
im Bereich „Alltagsaktivitäten” (%Ü=80%)
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel A
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel B
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel C
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
negative Übereinstimmung
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP" COLSPAN="2">
positive Übereinstimmung
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP" COLSPAN="2">
positive Übereinstimmung
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD>
<TD VALIGN="TOP">
Beurteiler 1
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
a=80
</TD><TD VALIGN="TOP">
b=10
</TD><TD VALIGN="TOP">
n1•=90
</TD><TD VALIGN="TOP">
60
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
70
</TD><TD VALIGN="TOP">
40
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
50
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
c=10
</TD><TD VALIGN="TOP">
d=0
</TD><TD VALIGN="TOP">
n2•=10
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
30
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
40
</TD><TD VALIGN="TOP">
50
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
n•1=90
</TD><TD VALIGN="TOP">
n•2=10
</TD><TD VALIGN="TOP">
n=100
</TD><TD VALIGN="TOP">
70
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
100
</TD><TD VALIGN="TOP">
50
</TD><TD VALIGN="TOP">
50
</TD><TD VALIGN="TOP">
100
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
%Ü(unauff.)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
80%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
75%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
66,7%
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
%Ü(auff.)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
50%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
66,7%
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
%Ü
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
80%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
80%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
80%
</TD><TD VALIGN="TOP">
</TD>
In Beispiel A beurteilen die beiden Therapeuten in 80% der Fälle übereinstimmend,
dass keine auffällige Beeinträchtigung im Bereich Alltagsaktivitäten vorliegt, wohingegen
in keinem einzigen Fall übereinstimmend geurteilt wird, dass eine Auffälligkeit vorliegt.
Über diese Informationen geben die so genannten kategorienspezifischen Übereinstimmungen
Aufschluss [4]. Die kategorienspezifische prozentuale Übereinstimmung für die Kategorie „unauffällig”
bzw. „auffällig” gibt beispielsweise an, zu welchem prozentualen Anteil beide übereinstimmend
„unauffällig” bzw. „auffällig” urteilen, wenn mindestens einer der beiden „unauffällig”
bzw. „auffällig” geurteilt hat. Sie wird im Folgenden und in den Beispielen mit „%Ü(unauff.)”
bzw. „%Ü(auff.)” bezeichnet. Benennt man die Häufigkeiten in den Zellen der Vierfeldertafel
mit den Buchstaben a, b, c und d wie in Beispiel A, so lauten die Berechnungsformeln
für die kategorienspezifische prozentuale Übereinstimmung:
Durch diese Maßzahlen wird deutlich, dass in Beispiel A von einer hohen prozentualen
Übereinstimmung gesprochen werden kann, wenn man die Beurteilung nicht auffälliger
Patienten fokussiert. Hingegen liegt überhaupt keine Übereinstimmung vor, wenn das
Beurteilungsergebnis „auffällig” betrachtet wird. Durch diese Maßzahlen wird auch
deutlich, dass in den Beispielmatrizen B und C trotz der unveränderten globalen prozentualen
Übereinstimmung (%Ü) von 80% die Übereinstimmung im Urteil variiert und in Bezug auf
die Kategorie „auffällig” systematisch ansteigt. In Beispiel B beträgt die kategorienspezifische
Übereinstimmung für „auffällig” 50%, in Beispiel C werden beide Kategorien mit gleicher
Häufigkeit zu 66,7%übereinstimmend gewählt.
Wie im Folgenden gezeigt wird, würde man nach der Definition von Beurteilerübereinstimmung
in Beispiel A sogar von einer negativen Übereinstimmung sprechen. Von einer systematischen
Übereinstimmung zwischen zwei Beurteilern kann nämlich nur dann ausgegangen werden,
wenn identische Urteile häufiger vergeben werden als man aufgrund der Grundhäufigkeit,
mit der die einzelnen Kategorien eingeschätzt werden, erwarten würde. Zur Demonstration
der technischen Umsetzung dieses Prinzips sind in Beispiel D ([Tab. 2]) die Daten aus Beispiel A nochmals dargestellt. Zusätzlich sind die Zufallserwartungen
in Beispiel E abgetragen. Beispielsweise ergibt sich die Zufallserwartung für ein
übereinstimmendes Urteil für die Kategorie „unauffällig” gemäß folgender Formel:
Tab. 2 Beispiele für unterschiedliche Übereinstimmungsgüte bei gleich bleibender Grundrate
des Merkmals (%auffällig=10)
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel D
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel E
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel F
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
negative Übereinstimmung
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
zufällige Übereinstimmung
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
positive Übereinstimmung
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD>
<TD VALIGN="TOP">
Beurteiler 1
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
a=80
</TD><TD VALIGN="TOP">
b=10
</TD><TD VALIGN="TOP">
n1•=90
</TD><TD VALIGN="TOP">
81
</TD><TD VALIGN="TOP">
9
</TD><TD VALIGN="TOP">
90
</TD><TD VALIGN="TOP">
88
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
90
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
c=10
</TD><TD VALIGN="TOP">
d=0
</TD><TD VALIGN="TOP">
n2•=10
</TD><TD VALIGN="TOP">
9
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
n•1=90
</TD><TD VALIGN="TOP">
n•2=10
</TD><TD VALIGN="TOP">
n=100
</TD><TD VALIGN="TOP">
90
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
100
</TD><TD VALIGN="TOP">
90
</TD><TD VALIGN="TOP">
10
</TD><TD VALIGN="TOP">
100
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
%Ü(unauff,)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
80%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
81,8%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
95,7%
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
%Ü(auff,)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
5,3%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
96,7%
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
%Ü
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
80%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
82%
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
96%
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
κ
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
Dabei bezeichnen %unauffälligBeurt.1 bzw. %unauffälligBeurt.2 den prozentualen Anteil, mit dem Beurteiler 1 bzw. Beurteiler 2 jeweils die Kategorie
„unauffällig” vergeben. Die Logik ist also wie folgt: Beide Beurteiler verwenden die
einzelnen Kategorien mit einer bestimmten Grundhäufigkeit (z. B. in Beispiel A:%unauffälligBeurt.1=%unauffälligBeurt.2=90; %unauffälligBeurt.1=%unauffälligBeurt.2=10). Würden die Grundraten festliegen und die Beurteiler diese blind - also unbesehen
der zu beurteilenden Person - vergeben, so würden auch per Zufall übereinstimmende
Urteile zu erwarten sein: Für die Kategorie „unauffällig” müsste die Übereinstimmung
dann bei (90·90)/100=81 liegen. Da die Urteile aber durch die Merkmalsausprägungen
der zu beurteilenden Person und nicht durch personunabhängige Informationen (hier:
die Grundtendenzen der Beurteiler) determiniert sein sollten, kann nur das Ausmaß,
in dem die Prozentzahl übereinstimmender Urteile die Übereinstimmungsquote bei reinem
Zufall übertrifft, im Sinne der systematischen Beurteilerübereinstimmung gewertet
werden.
Cohens κ ist eine Maßzahl, die diese „überzufällige”Übereinstimmung in standardisierter
Form quantifiziert. Sie beschreibt den Anteil der überzufälligen Übereinstimmung an
der maximal möglichen überzufälligen Übereinstimmung. Damit ist κ wie folgt definiert,
wenn die Übereinstimmung zwischen zwei Beurteilern bestimmt werden soll:
s=Anzahl der Kategorien (in Beispiel A bis I gleich 2)
n•j bzw. nj•=Häufigkeit, mit der Beurteiler 1 bzw. 2 Kategorie j wählt.
In den Beispielen D-F (siehe [Tab. 2]) sind die Randhäufigkeiten identisch. Daher ergibt sich für alle drei Vierfeldertafeln
dieselbe Tabelle der bei Zufall zu erwartenden Urteilskombinationen. Diese entsprechen
genau denjenigen in Beispiel E. In der letzten Zeile in [Tab. 2] sind die Berechnungsvorschriften für κ angegeben. Da z. B. in Beispiel D die beobachtete
prozentuale Übereinstimmung 80% beträgt und die Zufallserwartung bei 82% liegt (vgl.
Daten in Beispiel E), ergibt sich sogar ein negativer κ-Wert von -0,11. Der Wert zeigt
eine negative Übereinstimmung an, da im Falle zufälligen Urteilens sogar eine höhere
Übereinstimmungsquote hätte erwartet werden können. In Beispiel E ist κ gleich Null,
da die Datenmatrix genau so konstruiert wurde, dass die beobachtete Übereinstimmung
genau der gemäß Zufall zu erwartenden Übereinstimmung entspricht. In Beispiel F wird
die Zufallserwartung weit übertroffen, was durch die deutlich positive Ausprägung
von κ ausgedrückt wird.[1]
Das zufallskorrigierte Maßκ kann maximal Werte bis +1 annehmen. Als Faustregel zur
Beurteilung der Güte der Übereinstimmung kann angegeben werden, dass Werte bis 0,40
als Indikator für fehlende oder schwache, zwischen 0,40 und 0,59 für mäßige, zwischen
0,60 und 0,74 für gute und Werte ab 0,75 für sehr gute Übereinstimmung gewertet werden
können [5]. ι ist das für kategoriale Urteile am häufigsten verwendete Übereinstimmungsmaß
und besitzt die wünschenswerte Eigenschaft, dass eine Quantifizierung der systematischen
Beurteilungsgüte unabhängig von der Häufigkeit zufällig zu erwartender Übereinstimmung
erfolgen kann. Würde eine solche Korrektur nicht erfolgen, so würde durch die prozentuale
Übereinstimmung stets eine deutliche und verzerrte Überschätzung der Qualität von
Beurteilungen vorgespiegelt, die umso gravierender ausfiele, je seltener oder häufiger
das zu beurteilende Merkmal vorläge. Würden beispielsweise beide Beurteiler ein Merkmal
zu 50% als „auffällig” beurteilen, so läge die Zufallserwartung bei 50%. Würden beide
ein Merkmal zu 10% bzw. 90% als „auffällig” beurteilen, so würde eine sehr viel höhere
zufällige prozentuale Übereinstimmung von 82% erwartet werden (s. Beispiel E).
Der Einfluss der Randsummenverteilungen auf den Wert von Cohens κ
Obwohl mit κ auf den ersten Blick eine zufrieden stellende Lösung zur Quantifizierung
systematischer Beurteilerübereinstimmung gefunden zu sein scheint, weist dieses Maß
aber auch einige Eigenschaften auf, die seine Interpretierbarkeit erschweren. In der
Literatur wurde κ deswegen häufig als Maß der Übereinstimmung kritisiert [6]
[7]. Der wichtigste Kritikpunkt besteht dabei darin, dass die Korrektur der Zufallserwartung
zu Interpretationsproblemen führt, wenn die Häufigkeit, mit der ein Merkmal tatsächlich
vorliegt (Grundrate eines Merkmals), variiert. Um dies zu verdeutlichen, sind in [Tab. 3] drei weitere Vierfeldertafeln dargestellt.
Tab. 3 Beispiele für gleich bleibende Übereinstimmungsgüte und variierende Randsummenverteilungen
(übernommen aus [8])
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel G
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel H
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beispiel I
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Beurteiler 2
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
Σ
</TD>
<TD VALIGN="TOP">
Beurteiler 1
</TD><TD VALIGN="TOP">
unauff.
</TD><TD VALIGN="TOP">
a=74
</TD><TD VALIGN="TOP">
b=25
</TD><TD VALIGN="TOP">
99
</TD><TD VALIGN="TOP">
145
</TD><TD VALIGN="TOP">
18
</TD><TD VALIGN="TOP">
163
</TD><TD VALIGN="TOP">
94
</TD><TD VALIGN="TOP">
73
</TD><TD VALIGN="TOP">
167
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
auff.
</TD><TD VALIGN="TOP">
d=24
</TD><TD VALIGN="TOP">
d=77
</TD><TD VALIGN="TOP">
101
</TD><TD VALIGN="TOP">
17
</TD><TD VALIGN="TOP">
20
</TD><TD VALIGN="TOP">
37
</TD><TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
29
</TD><TD VALIGN="TOP">
33
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
98
</TD><TD VALIGN="TOP">
102
</TD><TD VALIGN="TOP">
200
</TD><TD VALIGN="TOP">
162
</TD><TD VALIGN="TOP">
38
</TD><TD VALIGN="TOP">
200
</TD><TD VALIGN="TOP">
98
</TD><TD VALIGN="TOP">
102
</TD><TD VALIGN="TOP">
200
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
Cohens κ
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,51
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,43
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,24
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
Odds Ratio
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
9,50
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
9,48
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
9,34
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
Yules Y
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,51
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,51
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,51
</TD><TD VALIGN="TOP">
0,51
</TD>
<TD VALIGN="TOP">
χ2
McNemar(df=1)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,00 (p=1,00)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
0,00 (p=1,00)
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
60,05 (p<0,01)
</TD><TD VALIGN="TOP">
</TD>
Gemäß Cohens κ scheint die Übereinstimmung zwischen den Beurteilern deutlich zu variieren
(κ=0,51, 0,43 bzw. 0,24). Würde man jedoch unterstellen, dass bei Beurteilungen durch
das Beurteilerpaar in Beispiel G eine konsistentere Beurteilung erfolgt als durch
die Beurteilerpaare in den Beispielen H und I, so wäre dies nicht zulässig. Die Fehlerhaftigkeit
dieser Schlussfolgerung soll im Folgenden verdeutlicht werden. Betrachten wir zunächst
die Daten in Beispiel G genauer: Wissen wir, dass Beurteiler 1 eine Person als „auffällig”
beurteilt hat, so lässt sich die statistische Chance oder das Risiko (Odds), dass
Beurteiler 2 ebenfalls „auffällig” urteilt, wie folgt berechnen:
Gleichzeitig gilt:
Wenn also Beurteiler 1 einen Patienten als „auffällig” einschätzt, so ist die Chance
für ein identisches Urteil des zweiten Beurteilers um mehr als das Dreifache höher
als für ein abweichendes Urteil. Weiß man hingegen, dass Beurteiler 1 einen Patienten
als „unauffällig” eingeschätzt hat, so beträgt die Chance für eine „auffällig” Beurteilung
durch Beurteiler 2 lediglich nur noch ca. ein Drittel des Wertes, der bei zufälligem
Beurteilerverhalten zu erwarten wäre. Bei zufälligen Beurteilerverhalten würde für
beide Odds ein Wert von 1 resultieren.
Eine sehr gut interpretierbare Maßzahl der Urteilerübereinstimmung, das so genannte
Risikoverhältnis oder Odds Ratio, erhält man, wenn man die beiden Odds zueinander
ins Verhältnis setzt:
Bezug nehmend auf die Häufigkeitsbezeichnungen in Beispiel A lässt sich Odds Ratio
folgendermaßen einfacher berechnen:
Diese Maßzahl kann so interpretiert werden, dass die Chance für ein bestimmtes Urteil
durch den zweiten Beurteiler um den Faktor 9,50 anwächst, wenn bekannt ist, dass der
andere Urteiler dieses Urteil bereits vergeben hat. Ein Odds Ratio von 1 würde bedeuten,
dass kein Zusammenhang zwischen den beiden Beurteilern besteht, da sich die Chance
für ein bestimmtes Urteil des zweiten Beurteilers nicht verändert, wenn das Urteil
des ersten Urteilers bekannt ist. Je weiter Odds Ratio von 1 nach oben abweicht, desto
positiver ist der Zusammenhang zwischen den Urteilern.
Berechnet man dieses Risikoverhältnis für die Daten in Beispiel H und I, so ergibt
sich mit 9,48 und 9,34 jeweils ein nahezu identischer Wert. Nach dieser Definition
des Zusammenhangs muss also davon ausgegangen werden, dass in den drei Kontingenztafeln
die Urteile in gleicher Stärke miteinander assoziiert sind. Weshalb variiert dann
aber Cohens κ, wenn die Assoziation der Urteile unverändert bleibt? Betrachtet man
die Vierfeldertafeln genauer, so fällt auf, dass die Häufigkeit, mit der die Beurteiler
Patienten als „auffällig” einschätzen, für die Daten in den drei Beispielen erheblich
variiert. Und wie alle Zusammenhangsmaße für dichotome Merkmalsverteilungen, die nicht
explizit die Grundraten für die verwendeten Kategorien berücksichtigen und korrigieren
[1]
[9], wirken sich Veränderungen in der Grundrate der einzelnen Kategorien auf die Ausprägung
von κ in systematischer Weise aus. κ. nimmt - unter ansonsten gleichen Bedingungen
- den maximalen Wert an, wenn jeder Beurteiler jede Kategorie in ca. 50% aller Fälle
vergibt (vgl. Beispiel G). Je stärker die Häufigkeit der Kategorienvergabe von 50%
abweicht (vgl. Beispiel H), desto niedriger wird κ auch wenn die Assoziation der Urteile
ansonsten unverändert bleibt. Deswegen muss bei der Interpretation von κ berücksichtigt
werden, dass der Koeffizient zwei Informationsaspekte vermischt [4]
[6]
[7]:
-
Die Konsistenz der Urteiler: Je unzuverlässiger ein Merkmal durch die Urteiler erkannt wird, desto niedriger
ausgeprägt ist Cohens κ. Mangelnde Konsistenz der Urteiler kann vielfältige Ursachen
haben [2]
[4]. Beispielsweise können Beurteiler ein unterschiedliches Verständnis des zu beurteilenden
Merkmals haben und somit verwenden sie implizit unterschiedliche Definitionen. Oder
aber die Rater sind nicht in der Lage, die Merkmalsausprägungen angemessen einzuschätzen.
-
Der prozentuale Anteil, mit dem ein Merkmal als vorhanden eingeschätzt wird: Je seltener ein Merkmal eingeschätzt wird, desto niedriger ausgeprägt ist Cohens
κ. Hieraus ergibt sich insbesondere, dass die Prävalenz, also der tatsächliche prozentuale
Anteil, mit dem ein Merkmal empirisch vorliegt, den Wert von κ systematisch beeinflusst.
Für sehr selten oder sehr häufig auftretende Merkmale wird κ systematisch niedrigere
Übereinstimmungsschätzungen liefern als für Merkmale, die etwa in der Hälfte aller
Fälle beobachtet werden.
Ein Koeffizient, der ausschließlich die Güte der Beurteiler abbildet, sollte im Unterschied
zu Cohens κ unabhängig von der Prävalenz des Merkmals sein: Dass ein Merkmal häufiger
oder seltener auftritt, sollte nicht im Sinne einer schlechteren Qualität des Urteilsprozesses
gewertet werden. Da das Odds Ratio (OR) die wünschenswerte Eigenschaft der Unabhängigkeit
von den Randsummen in der Vierfeldertafel erfüllt, stellt es die Basis für die Definition
eines auf den Wertebereich (-1, +1) standardisierten reinen Konsistenzmaßes dar [4]:
In allen Beispielen in [Tab. 3] liegt der Wert von Y bei 0,51. Allgemein gilt, dass Y und κ ungefähr denselben Wert
annehmen, wenn beide Beurteiler ein Merkmal in 50% aller Fälle diagnostizieren. Deswegen
wird empfohlen [4], für dichotome Merkmalseinschätzungen stets Cohens κ und Yules Y parallel zu berichten.
Nehmen Y und κ unterschiedliche Werte an[3], so wird deutlich, dass der Wert von κ durch eine von 50% abweichende Grundrate
des Merkmals beeinträchtigt wird, und Y kann als Schätzung verwendet werden, wie hoch
κ ausfallen würde, wenn der mindernde Einfluss der Grundrate des Merkmals nicht bestehen
würde. Entsprechend kann die Beurteilung der Höhe der Ausprägung von Yules Y in derselben
Weise erfolgen, wie es oben für Cohens κ dargestellt wurde.
Eine besonders starke Beeinträchtigung des Wertes von Cohens κ ergibt sich, wenn sich
die Grundraten, mit denen ein Merkmal als vorhanden beurteilt wird, zwischen den Beurteilern
deutlich unterscheiden. Dies lässt sich an den Daten in Beispiel I nachvollziehen:
Während Beurteiler 2 ca. die Hälfte aller Patienten als „auffällig” beurteilt, sind
gemäß Beurteiler 1 nur ein Sechstel aller Patienten „auffällig”. Es wäre hier plausibel
anzunehmen, dass die beiden Beurteiler unterschiedlich strenge Schwellenwerte verwenden,
die ein Patient überschreiten muss, damit die Urteile in den Bereich klinischer Auffälligkeit
gelangen. Beurteiler 1 wäre demnach wesentlich strenger oder konservativer in seinem
Urteil. Um unterschiedliche Strengemaßstäbe der Beurteiler explizit überprüfen zu
können, sollte der McNemar-Chi2(χ2)-Test für abhängige dichotome Merkmale verwendet werden [4]. In Beispiel I ergibt sich im Unterschied zu den Beispielen G und H mit χ2
(df=1)=60,05 (p<0,001) ein signifikanter Unterschied in den Randverteilungen zwischen den
Beurteilern. Hieraus kann abgeleitet werden, dass der Wert von Cohens κ durch die
Strengemaßstäbe erheblich beeinträchtigt wird und durch eine Angleichung der Strengemaßstäbe
im Rahmen eines Beurteilertrainings eine deutliche Verbesserung der Übereinstimmung
nach der Definition von κ erzielt werden kann.
Zusammenfassende Empfehlungen zur Analyse der Übereinstimmung bei dichotomen Beurteilungsformaten
Cohens κ ist das am häufigsten eingesetzte Maß zur Bestimmung der Beurteilerübereinstimmung.
Es stellt die bei Zufall erwartete Häufigkeiten übereinstimmender Urteile in Rechnung
und kann somit als zufallskorrigiertes Übereinstimmungsmaß bezeichnet werden. Die
Interpretation von κ wird jedoch dadurch erschwert, dass insbesondere die Häufigkeit,
mit der ein Merkmal tatsächlich vorliegt (Prävalenz), die Koeffizientenausprägung
beeinflusst: Je stärker die Prävalenz oder Grundrate eines Merkmals von 50% abweicht,
desto niedriger ist κ unter ansonsten gleichen Umständen ausgeprägt. Yules Y kann
als Schät-zung verwendet werden, wie hoch κ ausgeprägt wäre, wenn der Einfluss der
Grundrate des Merkmals korrigiert würde. Je größer die Diskrepanz von Y und κ ist,
desto stärker wird der Wert von κ durch die Grundrate des Merkmals oder durch unterschiedliche
Strengemaßstäbe der Beurteiler vermindert. Durch den McNemar-χ2-Test kann explizit überprüft werden, ob unterschiedliche Strengemaßstäbe der Beurteiler
vorliegen, die im Rahmen eines Beurteilertrainings gezielt korrigiert werden können.
Analyse mehrstufiger Antwortformate mittels Cohens κ und des gewichteten κω
Stehen mehr als zwei Antwortkategorien zur Beurteilung zur Verfügung, so ist Cohens
κ ebenfalls das Maß der Übereinstimmung, das am häufigsten zur Analyse eingesetzt
wird. Die Berechnungsformel (4) wird in gleicher Weise angewendet wie bei dichotomen
Antwortformaten. Dabei ist jedoch zu berücksichtigen, dass alle nicht übereinstimmenden
Beurteilungen implizit als gleich gravierend verrechnet werden. Ist anzunehmen, dass
bestimmte Fehlbeurteilungen mit schwerwiegenderen Konsequenzen verbunden sind, so
sollte alternativ das gewichtete Cohens κω
[4]
[10] berechnet werden. Um die Logik und Berechnungsweise des gewichteten Cohens κω zu verdeutlichen, wird in [Tab. 4] eine alternative Veranschaulichung für die Berechnungsprozedur zur Ermittlung des
klassischen Cohens κ verwendet. Hierbei wird deutlich, wie bei κω die unterschiedliche Gewichtung erfolgen kann. Außerdem wird klar, dass das klassische
κ lediglich einen Spezialfall des gewichteten Cohens κω darstellt.
Tab. 4 Berechnung von Cohens κ und κω bei mehrstufigen Antwortformaten
<TD VALIGN="TOP" COLSPAN="6">
beobachtete Übereinstimmungsmatrix
</TD>
<TD VALIGN="TOP" COLSPAN="4">
Beurteiler 2
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
Beurteiler 1
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
45
</TD><TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
52
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
33
</TD><TD VALIGN="TOP">
13
</TD><TD VALIGN="TOP">
48
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
16
</TD><TD VALIGN="TOP">
23
</TD><TD VALIGN="TOP">
45
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
53
</TD><TD VALIGN="TOP">
52
</TD><TD VALIGN="TOP">
40
</TD><TD VALIGN="TOP">
145
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP" COLSPAN="3">
Gewichtungsmatrix für Cohens κ
</TD><TD VALIGN="TOP" COLSPAN="3">
Gewichtungsmatrix für das gewichtete Cohens κω
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD>
<TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
2
</TD>
<TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
2
</TD>
<TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
0
</TD>
<TD VALIGN="TOP" COLSPAN="9">
Produktmatrizen (beobachtete Werte·Gewichte)
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD>
<TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
8
</TD>
<TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
13
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
26
</TD>
<TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
16
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
12
</TD><TD VALIGN="TOP">
32
</TD><TD VALIGN="TOP">
0
</TD>
<TD VALIGN="TOP" COLSPAN="4">
Summe aller Zellenbeobachtet=44
</TD><TD VALIGN="TOP" COLSPAN="4">
Summe aller Zellenbeobachtet=83
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP" COLSPAN="4">
erwartete Übereinstimmungsmatrix
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
Σ
</TD>
<TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
(52*53)/145=19,0
</TD><TD VALIGN="TOP">
(52*52)/145=18,6
</TD><TD VALIGN="TOP">
(52*40)/145=14,3
</TD><TD VALIGN="TOP">
52
</TD>
<TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
(48*53)/145=17,5
</TD><TD VALIGN="TOP">
(48*52)/145=17,2
</TD><TD VALIGN="TOP">
(48*40)/145=13,2
</TD><TD VALIGN="TOP">
48
</TD>
<TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
(45*53)/145=16,4
</TD><TD VALIGN="TOP">
(45*52)/145=16,1
</TD><TD VALIGN="TOP">
(45*40)/145=12,4
</TD><TD VALIGN="TOP">
45
</TD>
<TD VALIGN="TOP">
Σ
</TD><TD VALIGN="TOP">
53
</TD><TD VALIGN="TOP">
52
</TD><TD VALIGN="TOP">
40
</TD><TD VALIGN="TOP">
145
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP" COLSPAN="8">
erwartete Produktmatrizen (erwartete Werte·Gewichte)
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
SU
</TD>
<TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
18,6
</TD><TD VALIGN="TOP">
14,3
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SK
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
18,6
</TD><TD VALIGN="TOP">
28,6
</TD>
<TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
17,5
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
13,2
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
ER
</TD><TD VALIGN="TOP">
17,5
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
26,4
</TD>
<TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
16,4
</TD><TD VALIGN="TOP">
16,1
</TD><TD VALIGN="TOP">
0
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
SU
</TD><TD VALIGN="TOP">
32,8
</TD><TD VALIGN="TOP">
32,2
</TD><TD VALIGN="TOP">
0
</TD>
<TD VALIGN="TOP" COLSPAN="4">
Summe aller Zellenerwartet=96,1
</TD><TD VALIGN="TOP" COLSPAN="4">
Summe aller Zellenerwartet=156,1
</TD>
<TD VALIGN="TOP" COLSPAN="4">
</TD><TD VALIGN="TOP" COLSPAN="4">
</TD>
Für 145 Patienten in der Rehabilitation mit auffällig hohen Depressionswerten wird
von zwei Behandlern eingeschätzt, welches Ziel im Rahmen einer psychotherapeutischen
Zusatzbehandlung primär fokussiert werden soll. Es stehen drei Antwortkategorien zur
Verfügung: Aufbau sozialer Kontakte (SK), Reduktion von Symptomen der Erschöpfung
(ER) oder Behandlung von Suizidneigung (SU). In [Tab. 4] ist oben die resultierende Kontingenztafel der Beurteiler dargestellt. Im Folgenden
wird in der linken Tabellenhälfte die Berechnung des klassischen Cohens κ und in der
rechten Tabellenhälfte die Berechnung von Cohens κω exemplarisch verdeutlicht.
Aus klinischer Perspektive sei eine nicht erkannte Behandlungsbedürftigkeit der Suizidneigung
als besonders schwerwiegend einzuschätzen. Deswegen sollen nicht übereinstimmende
Beurteilungen hinsichtlich dieser Kategorie als doppelt so gravierend verrechnet werden
wie nicht übereinstimmende Urteile, die nicht diese Kategorie betreffen. Um diese
Gewichtung bei der Berechnung von κω berücksichtigen zu können, ist eine „Gewichtungsmatrix für das gewichtete Cohens
κω” in [Tab. 4] definiert. In die Zellen der Diagonalen, die übereinstimmende Beurteilungen widerspiegeln,
ist der Wert 0 eingetragen: d. h. dass alle Patienten, für die übereinstimmende Beurteilungen
erfolgt sind, mit einem Gewicht von 0 in die folgenden Berechnungen eingehen. Diejenigen
Zellen, in denen die Häufigkeit nicht übereinstimmender Beurteilung eingetragen sind,
die nicht die Kategorie SU betreffen, erhalten das Gewicht 1. Diejenigen Zellen, in
denen eine nicht übereinstimmende Beurteilung bezüglich der Kategorie SU erfolgt ist,
erhalten das Gewicht 2. Multipliziert man die Zellen dieser Gewichtungsmatrix mit
den entsprechenden Werten in der beobachteten Übereinstimmungsmatrix, so erhält man
die Werte in der rechten „Produktmatrix (beobachtete Werte · Gewichte)”. Die Summe
dieser Zellen beträgt in diesem Beispiel 83 und ist die erste Teilgröße, die benötigt
wird, um κω zu ermitteln (s. Zähler in der Formel unten). Weiterhin müssen die gemäß der Randsummen
erwarteten Häufigkeiten in den Zellen berechnet werden („erwartete Übereinstimmungsmatrix”):
Hierfür wird für jede Zelle das Produkt der Zeilensumme und Spaltensumme berechnet
und durch die Gesamtzahl der Patienten n=145 geteilt. Multipliziert man die resultierenden
Werte in den einzelnen Zellen mit der Gewichtungsmatrix oben, so erhält man die rechte
der „erwarteten Produktmatrizen (erwartete Werte·Gewichte)”. Die Summe aller Zellen
dieser Matrix beträgt im Beispiel 156,1.
Um den Effekt der Gewichtung nachvollziehen zu können, ist in der linken Spalte der
[Tab. 4] die entsprechende Berechnung des klassischen κ dargestellt. Diese unterscheidet
sich lediglich darin, dass alle Zellen der Gewichtungsmatrix den Wert 1 erhalten.
Die übrigen Rechenschritte sind völlig identisch zu denjenigen in der rechten Spalte.
κ entspricht also dem κω, bei dem alle Zellen, in denen nicht übereinstimmende Urteile abgetragen sind, dasselbe
Gewicht erhalten. Dadurch, dass in dem Beispiel vor allem häufig nicht übereinstimmende
Beurteilungen erfolgen, die hoch gewichtet werden (insbesondere die Kombination SU+ER),
ist der Wert von κω niedriger ausgeprägt als derjenige von κ. Würden die Beurteiler sehr häufig bezüglich
der geringer gewichteten Kategorienkombination SK + ER nicht übereinstimmen und gäbe
es kaum Uneinigkeit hinsichtlich der Kategorie SU, so wäre κω im Allgemeinen höher ausgeprägt als κ.
Mit κω steht also ein Übereinstimmungsmaß zur Verfügung, das flexibel gemäß inhaltlicher
Überlegungen an die jeweiligen Fragestellungen angepasst werden kann, um unterschiedlich
bedeutsamen Inkongruenzen zwischen Beurteilern Rechnung tragen zu können. Die Gewichtungsmatrix
sollte auf Basis empirischer Befunde, theoretischer Überlegungen oder mittels Expertenbefragung
gut begründet ausgewählt werden.
Spezialfälle, in denen eine Gewichtung der diskrepanten Urteile vorgenommen werden
sollte, stellen rangskalierte (z. B. „1=unauffällig”, „2=auffällig”, „3=stark auffällig”)
Antwortformate dar [4]. Vergibt ein Beurteiler den Wert 1 und der andere den Wert 3, so deutet dies natürlich
eine stärker zu gewichtende Diskrepanz in der Beurteilung an, als wenn ein Patient
einmal mit 1 und einmal mit 2 beurteilt wird. Zur Analyse der Zuverlässigkeit rangskalierter
Beurteilungen wird in der Literatur im Allgemeinen Kendalls W angewendet. Die Übereinstimmungsanalyse
mittels des gewichteten κω ist jedoch vorzuziehen, da Kendalls W kein valider Indikator der Übereinstimmung
ist und trotz schwacher Übereinstimmung hohe Werte annehmen kann: Vergibt beispielsweise
einer der Urteiler stets systematisch höhere Werte, so kann trotz hoher Korrelation
der Messwerte eine unzureichende Übereinstimmung vorliegen [4].
Sind die Kategorien einer Ratingskala zumindest approximativ intervallskaliert (z.
B. „-2=trifft überhaupt nicht zu” bis „+2=trifft ganz genau zu”[1]), so sollten Unterschiede zwischen den Urteilen der Beurteiler mit dem Quadrat der
Differenz gewichtet werden [4]
[11]. Unterscheiden sich die Urteile um 1, 2, 3 bzw. 4 Punkte auf der Ratingskala, so
sollten also die Gewichte 1, 4, 9 bzw. 16 gewählt werden. Es sei angemerkt, dass die
Ausprägung dann identisch mit der auf der klassischen Testtheorie basierenden Intraklassenkorrelation
ist, die die optimale Methode zur parametrischen Analyse der Beurteilerübereinstimmung
bei intervallskalierten Daten darstellt [2].
Allgemein muss bei der Interpretation von κ und κω bei mehrstufigen - insbesondere nominalskalierten Daten - berücksichtigt werden,
dass - genau wie im Falle dichotomer Antwortformate - deren Werte von der Grundhäufigkeit
der einzelnen Merkmalsausprägungen abhängen. Variieren die Grundhäufigkeiten der Merkmalsstufen
deutlich (z. B. Kategorie A liegt häufig vor, während B und C selten auftreten), so
muss in der Regel damit gerechnet werden, dass κ und κω unter ansonsten gleichen Bedingungen niedrigere Werte annehmen. So wird beispielsweise
die Übereinstimmungsschätzung bezüglich mehrerer alternativer Diagnosen für Patienten
von deren Prävalenz beeinflusst. Bei zweigestuften Datenformaten kann diese Problematik
durch die Berechnung von Yules Y und den McNemar-χ2-Test differenziert analysiert werden (s. o.). Für mehrstufige Antwortformate existiert
aber leider kein Pendant, das eine Kontrolle dieser Basisratenabhängigkeit erlaubt
(zu alternativen modernen Strategien s. [12]). Deswegen ist es zumeist zu empfehlen, das mehrstufige Antwortformat künstlich
in ein dichotomes Format umzuwandeln (betreffende Einzelkategorie vs. Restkategorie),
um für einzelne Kategorien die differenzierteren Methoden für dichotome Merkmale zur
kategorienspezifischen Übereinstimmungsanalyse einsetzen zu können. Für die Daten
in [Tab. 4] würde nach Fusion der Kategorien ER und SU ein künstlich dichotomisiertes Merkmalsspektrum
entstehen (SK vs. ER+SU). Für die so entstehende Vierfeldertafel würde sich beispielsweise
ein zufrieden stellendes κ von 0,77 ergeben. Hierdurch würde indirekt deutlich, dass
eine wesentliche Ursache des ursprünglich eher niedrigen Wertes die mangelnde Zuverlässigkeit
in der Unterscheidung der ursprünglichen Kategorien ER und SU zu sein scheint. Alternativ
zu dieser Vorgehensweise stehen modifizierte Versionen von κ zur Verfügung, durch
die die Übereinstimmung in Bezug auf einzelne Kategorien oder auch auf einzelne Objekte
differenzierter untersucht werden kann [4].
Alle in diesem Text dargestellten Koeffizienten können lediglich für Beurteilerpaare
berechnet werden. Soll die Übereinstimmung mehrerer Rater bestimmt werden, so kann
der Median der paarweise berechneten Kennwerte verwendet werden. Für das klassische
κ steht als Alternative eine allgemeinere Form von κ zur simultanen Analyse mehrerer
Rater zur Verfügung [13].
Computergestützte Berechnung der dargestellten Koeffizienten
Die Berechnung von Cohens κ und die Bestimmung der Signifikanz kann im Statistikprogramm
SPSS mittels des „Crosstabs”-Befehls einfach durchgeführt werden. Die hier beschriebenen
alternativen Maße können ebenfalls dort ermittelt werden. Die Datenorganisation und
die Befehlsfolgen in der Windows-Oberfläche und der Syntax-Sprache sind bei Wirtz
und Caspar [4] detailliert beschrieben. Yules Y kann über den Befehl „Proximities” in SPSS berechnet
werden. Ermittelt man das Odds Ratio über den SPSS-Befehl „Crosstabs”, so lässt sich
dieser Koeffizient aber auch einfach durch Einsetzen in Formel 9 ermitteln. Die Signifikanzangaben
des Odds Ratio können für Yules Y direkt übernommen werden. Zur Berechnung von Cohens
κω kann ein spezieller Matrix-Befehl verwendet werden [14]. Das Internet bietet informative Quellen, in denen die Eigenschaften von Cohens
κ dargestellt und auch Berechnungsprozeduren zur Verfügung gestellt werden (z. B.
[15]
[16]).
Fazit
Die Überprüfung der Übereinstimmung von Beurteilern ist eine wichtige Voraussetzung,
um einschätzen zu können, wie zuverlässig und aussagekräftig die Beurteilungsergebnisse
sind. Nur wenn die gewonnenen Messgrößen im Wesentlichen unabhängig von der subjektiven
Sichtweise der Beurteiler sind, kann davon ausgegangen werden, dass diese als zuverlässige
Indikatoren des Zustands der Personen oder Objekte gelten können. Cohens κ bietet
für kategoriale Beurteilungen die Möglichkeit, die Übereinstimmung der Beurteiler,
die über das Ausmaß an durch Zufall zu erwartender Übereinstimmung hinaus geht, in
standardisierter Form zu quantifizieren und zu evaluieren. Insbesondere im Falle dichotomer
Beurteilungsformate stehen darüber hinaus Methoden zur Verfügung, die es erlauben,
den Einfluss der Prävalenz eines Merkmals und der Konsistenz der Beurteiler zu separieren
und damit differenzierter die Ursachen mangelnder Übereinstimmung zu identifizieren.
Ist die Übereinstimmung nicht zufrieden stellend, so sollte die Qualität der Beurteilungen
durch ein systematisches Beurteilertraining verbessert werden. Wichtige Strategien
zur Verbesserung von Beurteilungen wurden in der Methodenserie bereits dargestellt
([3], s. auch [4]). In jedem empirischem Projekt, in dem Beurteilungen als Datengrundlagen verwendet
werden sollen, sollte die Beurteilungsgüte in einem Prä-Test evaluiert und anschließend
gegebenenfalls optimiert werden. Andernfalls muss insbesondere damit gerechnet werden,
dass empirische Zusammenhänge zu schwach abgebildet werden, die Teststärke statistischer
Verfahren erheblich beeinträchtigt wird und unter Umständen Informationsaspekte ausgewertet
werden, die die Eigenschaften der beurteilten Personen verzerren oder im Extremfall
überhaupt nicht repräsentieren.
Einschränkend muss jedoch angemerkt werden, dass eine Analyse der Übereinstimmung
zwischen Beurteilern nicht notwendigerweise die Gültigkeit oder Validität der erhobenen
Daten sicherstellt. Unterliegen Beurteiler beispielsweise denselben Antworttendenzen
(z. B. Halo-Effekt, implizite Persönlichkeitstheorien, logische Fehler [1]
[4]
[17]), so kann dies dazu führen, dass die Beurteilerübereinstimmung hoch ausfällt, obwohl
dasjenige Merkmal, das gemessen werden sollte, nicht hinreichend erfasst wurde. Ist
beispielsweise zwei Behandlern bekannt, wie lange ein Patient in ihrer Einrichtung
behandelt wurde, so kann dies die Einschätzung des Behandlungserfolges in Bezug auf
ihre Symptomatik systematisch verzerren: Wenn beide tendenziell länger behandelte
Patienten ungerechtfertigterweise als erfolgreicher gebessert einschätzen, erhöht
dies natürlich die Übereinstimmung, ohne dass dies als Indikator für die Validität
der gewonnenen Informationen bezüglich der Verbesserung der Symptomatik gewertet werden
darf. Wie im Falle anderer Messmethoden gilt auch hier, dass die Übereinstimmung und
die Reliabilität eine notwendige, aber keine hinreichende Bedingung für die Validität
der Daten darstellen.