Analyse der Beurteilerübereinstimmung für kategoriale Daten mittels Cohens Kappa und alternativer Maße

M. Wirtz; M. Kutschmann

doi:10.1055/s-2007-976535

Rehabilitation (Stuttg) 2007; 46(6): 370-377
DOI: 10.1055/s-2007-976535

Originalarbeit

Analyse der Beurteilerübereinstimmung für kategoriale Daten mittels Cohens Kappa und alternativer Maße

Analyzing Interrater Agreement for Categorical Data Using Cohen's Kappa and Alternative CoefficientsM. Wirtz¹ , M. Kutschmann²

¹Institut für Psychologie, Pädagogische Hochschule Freiburg
²Fakultät für Gesundheitswissenschaften, Universität Bielefeld

Abstract

Full Text

PDF Download

Einleitung

Die Kenntnis der Ausprägung von Patientenmerkmalen ist in allen Phasen der rehabilitativen Behandlung von zentraler Bedeutung. Sowohl für die Planung und die Kontrolle des Behandlungsverlaufs als auch für die Bestimmung der Behandlungsergebnisse müssen aussagekräftige Indikatoren zum Zustand des Patienten und zu Merkmalen, die den Behandlungserfolg beeinflussen können, bekannt sein. Die zuverlässige und gültige Bestimmung von Merkmalsausprägungen bildet somit eine wichtige Grundlage, um die Rehabilitation am Zustand des Patienten orientieren und hinsichtlich ihrer Effektivität bewerten zu können.

Zur Erhebung von Patienteneigenschaften stellen in der klinischen Praxis - neben Fragebogendaten und Tests [1]- Beurteilungen die wichtigste Datenerhebungsmethode dar. Um „Beurteilungen” handelt es sich beispielsweise, wenn Ärzte oder Therapeuten Eigenschaften von Patienten diagnostizieren. Aber auch wenn Patienten die Behandlungsqualität in einer Versorgungseinrichtung einschätzen oder wenn im Rahmen eines Peer-Review-Verfahrens Qualitätsindikatoren einer Klinik überprüft werden sollen [2], wird in der Rehabilitation auf die Methode der Beurteilung zurückgegriffen.

In solchen Beurteilungssituationen werden subjektive Urteile erhoben, die in der Regel Aufschluss darüber geben sollen,

ob ein bestimmtes Merkmal vorliegt oder nicht (dichotomes kategoriales Urteil, z. B. Behandlungsmaßnahme indiziert: ja/nein),
welche von mehreren Merkmalsalternativen zutrifft (mehrfach gestuftes kategoriales Urteil, z. B. Auswahl von Behandlungsalternative A, B, C oder D) oder
in welcher Intensität oder Häufigkeit ein Merkmal vorliegt (Beurteilung mittels Ratingskalen; z. B. „-2=trifft überhaupt nicht zu” bis „+2=trifft ganz genau zu”).

In der Methodenserie wurde die Problematik der Beurteilerübereinstimmung für Ratingskalen (iii) bereits ausführlich behandelt [3]. Hier wurde allgemein gezeigt, dass solche Beurteilungen messtheoretischen Gütekriterien genügen müssen, damit sichergestellt ist, dass die Beurteilungen unabhängig von der beurteilenden Person als aussagekräftiger Indikator des Zustandes der beurteilten Person oder des beurteilten Objektes gelten können. Der vorliegende Beitrag gibt einen Überblick über die Analysestrategien und Kennziffern zur Bestimmung der Übereinstimmung kategorialer Urteile (i und ii) und vervollständigt somit die Darstellung der wichtigsten Methoden zur Analyse der Güte von Beurteilungen in rehabilitationsmedizinischen Anwendungskontexten.

Analyse zweistufiger Antwortformate mittels Cohens Kappa (κ) und alternativer Maßzahlen

Angenommen, zwei Therapeuten sollen unabhängig voneinander beurteilen, ob Patienten an einer auffälligen Beeinträchtigung im Bereich „Alltagsaktivitäten” leiden. Von beiden Therapeuten werden dieselben 100 Patienten beurteilt. In 80% der Fälle stimmen die Therapeuten in ihrem Urteil überein. Würde man nun die Angabe dieser Prozentzahl als Maß der Beurteilerübereinstimmung verwenden, so würde die Beurteilungsqualität unzureichend dokumentiert. Dies wird durch die Angabe der Daten in [Tab. 1] nachvollziehbar.

*Tab. 1* Beispiele für unterschiedliche Übereinstimmungsgüte bei gleich bleibender prozentualer Übereinstimmung (%Ü) bei der Beurteilung der Auffälligkeit von Beeinträchtigungen im Bereich „Alltagsaktivitäten” (%Ü=80%)
			Beispiel A			Beispiel B			Beispiel C
			negative Übereinstimmung			positive Übereinstimmung			positive Übereinstimmung
			Beurteiler 2			Beurteiler 2			Beurteiler 2
		unauff.	auff.	Σ	unauff.	auff.	Σ	unauff.	auff.	Σ
Beurteiler 1	unauff.	a=80	b=10	n_1•=90	60	10	70	40	10	50
	auff.	c=10	d=0	n_2•=10	10	20	30	10	40	50
	Σ	n_•1=90	n_•2=10	n=100	70		100	50	50	100

%Ü(unauff.)			80%			75%			66,7%
%Ü(auff.)			0%			50%			66,7%
%Ü			80%			80%			80%

In Beispiel A beurteilen die beiden Therapeuten in 80% der Fälle übereinstimmend, dass keine auffällige Beeinträchtigung im Bereich Alltagsaktivitäten vorliegt, wohingegen in keinem einzigen Fall übereinstimmend geurteilt wird, dass eine Auffälligkeit vorliegt. Über diese Informationen geben die so genannten kategorienspezifischen Übereinstimmungen Aufschluss [4]. Die kategorienspezifische prozentuale Übereinstimmung für die Kategorie „unauffällig” bzw. „auffällig” gibt beispielsweise an, zu welchem prozentualen Anteil beide übereinstimmend „unauffällig” bzw. „auffällig” urteilen, wenn mindestens einer der beiden „unauffällig” bzw. „auffällig” geurteilt hat. Sie wird im Folgenden und in den Beispielen mit „%Ü(unauff.)” bzw. „%Ü(auff.)” bezeichnet. Benennt man die Häufigkeiten in den Zellen der Vierfeldertafel mit den Buchstaben a, b, c und d wie in Beispiel A, so lauten die Berechnungsformeln für die kategorienspezifische prozentuale Übereinstimmung:

Durch diese Maßzahlen wird deutlich, dass in Beispiel A von einer hohen prozentualen Übereinstimmung gesprochen werden kann, wenn man die Beurteilung nicht auffälliger Patienten fokussiert. Hingegen liegt überhaupt keine Übereinstimmung vor, wenn das Beurteilungsergebnis „auffällig” betrachtet wird. Durch diese Maßzahlen wird auch deutlich, dass in den Beispielmatrizen B und C trotz der unveränderten globalen prozentualen Übereinstimmung (%Ü) von 80% die Übereinstimmung im Urteil variiert und in Bezug auf die Kategorie „auffällig” systematisch ansteigt. In Beispiel B beträgt die kategorienspezifische Übereinstimmung für „auffällig” 50%, in Beispiel C werden beide Kategorien mit gleicher Häufigkeit zu 66,7%übereinstimmend gewählt.

Wie im Folgenden gezeigt wird, würde man nach der Definition von Beurteilerübereinstimmung in Beispiel A sogar von einer negativen Übereinstimmung sprechen. Von einer systematischen Übereinstimmung zwischen zwei Beurteilern kann nämlich nur dann ausgegangen werden, wenn identische Urteile häufiger vergeben werden als man aufgrund der Grundhäufigkeit, mit der die einzelnen Kategorien eingeschätzt werden, erwarten würde. Zur Demonstration der technischen Umsetzung dieses Prinzips sind in Beispiel D ([Tab. 2]) die Daten aus Beispiel A nochmals dargestellt. Zusätzlich sind die Zufallserwartungen in Beispiel E abgetragen. Beispielsweise ergibt sich die Zufallserwartung für ein übereinstimmendes Urteil für die Kategorie „unauffällig” gemäß folgender Formel:

*Tab. 2* Beispiele für unterschiedliche Übereinstimmungsgüte bei gleich bleibender Grundrate des Merkmals (%auffällig=10)
			Beispiel D			Beispiel E			Beispiel F
			negative Übereinstimmung			zufällige Übereinstimmung			positive Übereinstimmung
			Beurteiler 2			Beurteiler 2			Beurteiler 2
			unauff.	auff.	Σ	unauff.	auff.	Σ	unauff.	auff.	Σ
Beurteiler 1	unauff.	a=80	b=10	n_1•=90	81	9	90	88	2	90
	auff.	c=10	d=0	n_2•=10	9	1	10	2	8	10
	Σ	n_•1=90	n_•2=10	n=100	90	10	100	90	10	100

%Ü(unauff,)			80%			81,8%			95,7%
%Ü(auff,)			0%			5,3%			96,7%
%Ü			80%			82%			96%
κ

Dabei bezeichnen %unauffällig_Beurt.1 bzw. %unauffällig_Beurt.2 den prozentualen Anteil, mit dem Beurteiler 1 bzw. Beurteiler 2 jeweils die Kategorie „unauffällig” vergeben. Die Logik ist also wie folgt: Beide Beurteiler verwenden die einzelnen Kategorien mit einer bestimmten Grundhäufigkeit (z. B. in Beispiel A:%unauffällig_Beurt.1=%unauffällig_Beurt.2=90; %unauffällig_Beurt.1=%unauffällig_Beurt.2=10). Würden die Grundraten festliegen und die Beurteiler diese blind - also unbesehen der zu beurteilenden Person - vergeben, so würden auch per Zufall übereinstimmende Urteile zu erwarten sein: Für die Kategorie „unauffällig” müsste die Übereinstimmung dann bei (90·90)/100=81 liegen. Da die Urteile aber durch die Merkmalsausprägungen der zu beurteilenden Person und nicht durch personunabhängige Informationen (hier: die Grundtendenzen der Beurteiler) determiniert sein sollten, kann nur das Ausmaß, in dem die Prozentzahl übereinstimmender Urteile die Übereinstimmungsquote bei reinem Zufall übertrifft, im Sinne der systematischen Beurteilerübereinstimmung gewertet werden.

Cohens κ ist eine Maßzahl, die diese „überzufällige”Übereinstimmung in standardisierter Form quantifiziert. Sie beschreibt den Anteil der überzufälligen Übereinstimmung an der maximal möglichen überzufälligen Übereinstimmung. Damit ist κ wie folgt definiert, wenn die Übereinstimmung zwischen zwei Beurteilern bestimmt werden soll:

s=Anzahl der Kategorien (in Beispiel A bis I gleich 2)

n_•j bzw. n_j•=Häufigkeit, mit der Beurteiler 1 bzw. 2 Kategorie j wählt.

In den Beispielen D-F (siehe [Tab. 2]) sind die Randhäufigkeiten identisch. Daher ergibt sich für alle drei Vierfeldertafeln dieselbe Tabelle der bei Zufall zu erwartenden Urteilskombinationen. Diese entsprechen genau denjenigen in Beispiel E. In der letzten Zeile in [Tab. 2] sind die Berechnungsvorschriften für κ angegeben. Da z. B. in Beispiel D die beobachtete prozentuale Übereinstimmung 80% beträgt und die Zufallserwartung bei 82% liegt (vgl. Daten in Beispiel E), ergibt sich sogar ein negativer κ-Wert von -0,11. Der Wert zeigt eine negative Übereinstimmung an, da im Falle zufälligen Urteilens sogar eine höhere Übereinstimmungsquote hätte erwartet werden können. In Beispiel E ist κ gleich Null, da die Datenmatrix genau so konstruiert wurde, dass die beobachtete Übereinstimmung genau der gemäß Zufall zu erwartenden Übereinstimmung entspricht. In Beispiel F wird die Zufallserwartung weit übertroffen, was durch die deutlich positive Ausprägung von κ ausgedrückt wird.[1]

Das zufallskorrigierte Maßκ kann maximal Werte bis +1 annehmen. Als Faustregel zur Beurteilung der Güte der Übereinstimmung kann angegeben werden, dass Werte bis 0,40 als Indikator für fehlende oder schwache, zwischen 0,40 und 0,59 für mäßige, zwischen 0,60 und 0,74 für gute und Werte ab 0,75 für sehr gute Übereinstimmung gewertet werden können [5]. ι ist das für kategoriale Urteile am häufigsten verwendete Übereinstimmungsmaß und besitzt die wünschenswerte Eigenschaft, dass eine Quantifizierung der systematischen Beurteilungsgüte unabhängig von der Häufigkeit zufällig zu erwartender Übereinstimmung erfolgen kann. Würde eine solche Korrektur nicht erfolgen, so würde durch die prozentuale Übereinstimmung stets eine deutliche und verzerrte Überschätzung der Qualität von Beurteilungen vorgespiegelt, die umso gravierender ausfiele, je seltener oder häufiger das zu beurteilende Merkmal vorläge. Würden beispielsweise beide Beurteiler ein Merkmal zu 50% als „auffällig” beurteilen, so läge die Zufallserwartung bei 50%. Würden beide ein Merkmal zu 10% bzw. 90% als „auffällig” beurteilen, so würde eine sehr viel höhere zufällige prozentuale Übereinstimmung von 82% erwartet werden (s. Beispiel E).

Der Einfluss der Randsummenverteilungen auf den Wert von Cohens κ

Obwohl mit κ auf den ersten Blick eine zufrieden stellende Lösung zur Quantifizierung systematischer Beurteilerübereinstimmung gefunden zu sein scheint, weist dieses Maß aber auch einige Eigenschaften auf, die seine Interpretierbarkeit erschweren. In der Literatur wurde κ deswegen häufig als Maß der Übereinstimmung kritisiert [6] [7]. Der wichtigste Kritikpunkt besteht dabei darin, dass die Korrektur der Zufallserwartung zu Interpretationsproblemen führt, wenn die Häufigkeit, mit der ein Merkmal tatsächlich vorliegt (Grundrate eines Merkmals), variiert. Um dies zu verdeutlichen, sind in [Tab. 3] drei weitere Vierfeldertafeln dargestellt.

*Tab. 3* Beispiele für gleich bleibende Übereinstimmungsgüte und variierende Randsummenverteilungen (übernommen aus [8])
			Beispiel G			Beispiel H			Beispiel I
			Beurteiler 2			Beurteiler 2			Beurteiler 2
		unauff.	auff.	Σ	unauff.	auff.	Σ	unauff.	auff.	Σ
Beurteiler 1	unauff.	a=74	b=25	99	145	18	163	94	73	167
	auff.	d=24	d=77	101	17	20	37	4		29	33
	Σ	98	102	200	162	38	200	98	102	200

Cohens κ			0,51			0,43			0,24
Odds Ratio			9,50			9,48			9,34
Yules Y			0,51			0,51			0,51	0,51
χ² _{McNemar(df=1)}			0,00 (p=1,00)			0,00 (p=1,00)			60,05 (p<0,01)

Gemäß Cohens κ scheint die Übereinstimmung zwischen den Beurteilern deutlich zu variieren (κ=0,51, 0,43 bzw. 0,24). Würde man jedoch unterstellen, dass bei Beurteilungen durch das Beurteilerpaar in Beispiel G eine konsistentere Beurteilung erfolgt als durch die Beurteilerpaare in den Beispielen H und I, so wäre dies nicht zulässig. Die Fehlerhaftigkeit dieser Schlussfolgerung soll im Folgenden verdeutlicht werden. Betrachten wir zunächst die Daten in Beispiel G genauer: Wissen wir, dass Beurteiler 1 eine Person als „auffällig” beurteilt hat, so lässt sich die statistische Chance oder das Risiko (Odds), dass Beurteiler 2 ebenfalls „auffällig” urteilt, wie folgt berechnen:

Gleichzeitig gilt:

Wenn also Beurteiler 1 einen Patienten als „auffällig” einschätzt, so ist die Chance für ein identisches Urteil des zweiten Beurteilers um mehr als das Dreifache höher als für ein abweichendes Urteil. Weiß man hingegen, dass Beurteiler 1 einen Patienten als „unauffällig” eingeschätzt hat, so beträgt die Chance für eine „auffällig” Beurteilung durch Beurteiler 2 lediglich nur noch ca. ein Drittel des Wertes, der bei zufälligem Beurteilerverhalten zu erwarten wäre. Bei zufälligen Beurteilerverhalten würde für beide Odds ein Wert von 1 resultieren.

Eine sehr gut interpretierbare Maßzahl der Urteilerübereinstimmung, das so genannte Risikoverhältnis oder Odds Ratio, erhält man, wenn man die beiden Odds zueinander ins Verhältnis setzt:

Bezug nehmend auf die Häufigkeitsbezeichnungen in Beispiel A lässt sich Odds Ratio folgendermaßen einfacher berechnen:

Diese Maßzahl kann so interpretiert werden, dass die Chance für ein bestimmtes Urteil durch den zweiten Beurteiler um den Faktor 9,50 anwächst, wenn bekannt ist, dass der andere Urteiler dieses Urteil bereits vergeben hat. Ein Odds Ratio von 1 würde bedeuten, dass kein Zusammenhang zwischen den beiden Beurteilern besteht, da sich die Chance für ein bestimmtes Urteil des zweiten Beurteilers nicht verändert, wenn das Urteil des ersten Urteilers bekannt ist. Je weiter Odds Ratio von 1 nach oben abweicht, desto positiver ist der Zusammenhang zwischen den Urteilern.

Berechnet man dieses Risikoverhältnis für die Daten in Beispiel H und I, so ergibt sich mit 9,48 und 9,34 jeweils ein nahezu identischer Wert. Nach dieser Definition des Zusammenhangs muss also davon ausgegangen werden, dass in den drei Kontingenztafeln die Urteile in gleicher Stärke miteinander assoziiert sind. Weshalb variiert dann aber Cohens κ, wenn die Assoziation der Urteile unverändert bleibt? Betrachtet man die Vierfeldertafeln genauer, so fällt auf, dass die Häufigkeit, mit der die Beurteiler Patienten als „auffällig” einschätzen, für die Daten in den drei Beispielen erheblich variiert. Und wie alle Zusammenhangsmaße für dichotome Merkmalsverteilungen, die nicht explizit die Grundraten für die verwendeten Kategorien berücksichtigen und korrigieren [1] [9], wirken sich Veränderungen in der Grundrate der einzelnen Kategorien auf die Ausprägung von κ in systematischer Weise aus. κ. nimmt - unter ansonsten gleichen Bedingungen - den maximalen Wert an, wenn jeder Beurteiler jede Kategorie in ca. 50% aller Fälle vergibt (vgl. Beispiel G). Je stärker die Häufigkeit der Kategorienvergabe von 50% abweicht (vgl. Beispiel H), desto niedriger wird κ auch wenn die Assoziation der Urteile ansonsten unverändert bleibt. Deswegen muss bei der Interpretation von κ berücksichtigt werden, dass der Koeffizient zwei Informationsaspekte vermischt [4] [6] [7]:

Die Konsistenz der Urteiler: Je unzuverlässiger ein Merkmal durch die Urteiler erkannt wird, desto niedriger ausgeprägt ist Cohens κ. Mangelnde Konsistenz der Urteiler kann vielfältige Ursachen haben [2] [4]. Beispielsweise können Beurteiler ein unterschiedliches Verständnis des zu beurteilenden Merkmals haben und somit verwenden sie implizit unterschiedliche Definitionen. Oder aber die Rater sind nicht in der Lage, die Merkmalsausprägungen angemessen einzuschätzen.
Der prozentuale Anteil, mit dem ein Merkmal als vorhanden eingeschätzt wird: Je seltener ein Merkmal eingeschätzt wird, desto niedriger ausgeprägt ist Cohens κ. Hieraus ergibt sich insbesondere, dass die Prävalenz, also der tatsächliche prozentuale Anteil, mit dem ein Merkmal empirisch vorliegt, den Wert von κ systematisch beeinflusst. Für sehr selten oder sehr häufig auftretende Merkmale wird κ systematisch niedrigere Übereinstimmungsschätzungen liefern als für Merkmale, die etwa in der Hälfte aller Fälle beobachtet werden.

Ein Koeffizient, der ausschließlich die Güte der Beurteiler abbildet, sollte im Unterschied zu Cohens κ unabhängig von der Prävalenz des Merkmals sein: Dass ein Merkmal häufiger oder seltener auftritt, sollte nicht im Sinne einer schlechteren Qualität des Urteilsprozesses gewertet werden. Da das Odds Ratio (OR) die wünschenswerte Eigenschaft der Unabhängigkeit von den Randsummen in der Vierfeldertafel erfüllt, stellt es die Basis für die Definition eines auf den Wertebereich (-1, +1) standardisierten reinen Konsistenzmaßes dar [4]:

In allen Beispielen in [Tab. 3] liegt der Wert von Y bei 0,51. Allgemein gilt, dass Y und κ ungefähr denselben Wert annehmen, wenn beide Beurteiler ein Merkmal in 50% aller Fälle diagnostizieren. Deswegen wird empfohlen [4], für dichotome Merkmalseinschätzungen stets Cohens κ und Yules Y parallel zu berichten. Nehmen Y und κ unterschiedliche Werte an[3], so wird deutlich, dass der Wert von κ durch eine von 50% abweichende Grundrate des Merkmals beeinträchtigt wird, und Y kann als Schätzung verwendet werden, wie hoch κ ausfallen würde, wenn der mindernde Einfluss der Grundrate des Merkmals nicht bestehen würde. Entsprechend kann die Beurteilung der Höhe der Ausprägung von Yules Y in derselben Weise erfolgen, wie es oben für Cohens κ dargestellt wurde.

Eine besonders starke Beeinträchtigung des Wertes von Cohens κ ergibt sich, wenn sich die Grundraten, mit denen ein Merkmal als vorhanden beurteilt wird, zwischen den Beurteilern deutlich unterscheiden. Dies lässt sich an den Daten in Beispiel I nachvollziehen: Während Beurteiler 2 ca. die Hälfte aller Patienten als „auffällig” beurteilt, sind gemäß Beurteiler 1 nur ein Sechstel aller Patienten „auffällig”. Es wäre hier plausibel anzunehmen, dass die beiden Beurteiler unterschiedlich strenge Schwellenwerte verwenden, die ein Patient überschreiten muss, damit die Urteile in den Bereich klinischer Auffälligkeit gelangen. Beurteiler 1 wäre demnach wesentlich strenger oder konservativer in seinem Urteil. Um unterschiedliche Strengemaßstäbe der Beurteiler explizit überprüfen zu können, sollte der McNemar-Chi²(χ²)-Test für abhängige dichotome Merkmale verwendet werden [4]. In Beispiel I ergibt sich im Unterschied zu den Beispielen G und H mit χ² _(df=1)=60,05 (p<0,001) ein signifikanter Unterschied in den Randverteilungen zwischen den Beurteilern. Hieraus kann abgeleitet werden, dass der Wert von Cohens κ durch die Strengemaßstäbe erheblich beeinträchtigt wird und durch eine Angleichung der Strengemaßstäbe im Rahmen eines Beurteilertrainings eine deutliche Verbesserung der Übereinstimmung nach der Definition von κ erzielt werden kann.

Zusammenfassende Empfehlungen zur Analyse der Übereinstimmung bei dichotomen Beurteilungsformaten

Cohens κ ist das am häufigsten eingesetzte Maß zur Bestimmung der Beurteilerübereinstimmung. Es stellt die bei Zufall erwartete Häufigkeiten übereinstimmender Urteile in Rechnung und kann somit als zufallskorrigiertes Übereinstimmungsmaß bezeichnet werden. Die Interpretation von κ wird jedoch dadurch erschwert, dass insbesondere die Häufigkeit, mit der ein Merkmal tatsächlich vorliegt (Prävalenz), die Koeffizientenausprägung beeinflusst: Je stärker die Prävalenz oder Grundrate eines Merkmals von 50% abweicht, desto niedriger ist κ unter ansonsten gleichen Umständen ausgeprägt. Yules Y kann als Schät-zung verwendet werden, wie hoch κ ausgeprägt wäre, wenn der Einfluss der Grundrate des Merkmals korrigiert würde. Je größer die Diskrepanz von Y und κ ist, desto stärker wird der Wert von κ durch die Grundrate des Merkmals oder durch unterschiedliche Strengemaßstäbe der Beurteiler vermindert. Durch den McNemar-χ²-Test kann explizit überprüft werden, ob unterschiedliche Strengemaßstäbe der Beurteiler vorliegen, die im Rahmen eines Beurteilertrainings gezielt korrigiert werden können.

Analyse mehrstufiger Antwortformate mittels Cohens κ und des gewichteten κ_ω

Stehen mehr als zwei Antwortkategorien zur Beurteilung zur Verfügung, so ist Cohens κ ebenfalls das Maß der Übereinstimmung, das am häufigsten zur Analyse eingesetzt wird. Die Berechnungsformel (4) wird in gleicher Weise angewendet wie bei dichotomen Antwortformaten. Dabei ist jedoch zu berücksichtigen, dass alle nicht übereinstimmenden Beurteilungen implizit als gleich gravierend verrechnet werden. Ist anzunehmen, dass bestimmte Fehlbeurteilungen mit schwerwiegenderen Konsequenzen verbunden sind, so sollte alternativ das gewichtete Cohens κ_ω [4] [10] berechnet werden. Um die Logik und Berechnungsweise des gewichteten Cohens κ_ω zu verdeutlichen, wird in [Tab. 4] eine alternative Veranschaulichung für die Berechnungsprozedur zur Ermittlung des klassischen Cohens κ verwendet. Hierbei wird deutlich, wie bei κ_ω die unterschiedliche Gewichtung erfolgen kann. Außerdem wird klar, dass das klassische κ lediglich einen Spezialfall des gewichteten Cohens κ_ω darstellt.

*Tab. 4* Berechnung von Cohens κ und κ_ω bei mehrstufigen Antwortformaten
beobachtete Übereinstimmungsmatrix
Beurteiler 2
	SK	ER	SU	Σ
Beurteiler 1	SK	45	3	4	52
ER	2	33	13	48
SU	6	16	23	45
Σ	53	52	40	145
Gewichtungsmatrix für Cohens κ			Gewichtungsmatrix für das gewichtete Cohens κ_ω
	SK	ER	SU			SK	ER	SU
SK	0	1	1		SK	0	1	2
ER	1	0	1		ER	1	0	2
SU	1	1	0		SU	2	2	0
Produktmatrizen (beobachtete Werte·Gewichte)
	SK	ER	SU			SK	ER	SU
SK	0	3	4		SK	0	3	8
ER	2	0	13		ER	2	0	26
SU	6	16	0		SU	12	32	0
Summe aller Zellen_beobachtet=44				Summe aller Zellen_beobachtet=83
	erwartete Übereinstimmungsmatrix
	SK	ER	SU	Σ
SK	(52^53)/145=19,0*	(52^*52)/145=18,6	(52^*40)/145=14,3	52
ER	(48^*53)/145=17,5	(48^*52)/145=17,2	(48^*40)/145=13,2	48
SU	(45^*53)/145=16,4	(45^*52)/145=16,1	(45^*40)/145=12,4	45
Σ	53	52	40	145
	erwartete Produktmatrizen (erwartete Werte·Gewichte)
	SK	ER	SU			SK	ER	SU
SK	0	18,6	14,3		SK	0	18,6	28,6
ER	17,5	0	13,2		ER	17,5	0	26,4
SU	16,4	16,1	0		SU	32,8	32,2	0
Summe aller Zellen_erwartet=96,1				Summe aller Zellen_erwartet=156,1

Für 145 Patienten in der Rehabilitation mit auffällig hohen Depressionswerten wird von zwei Behandlern eingeschätzt, welches Ziel im Rahmen einer psychotherapeutischen Zusatzbehandlung primär fokussiert werden soll. Es stehen drei Antwortkategorien zur Verfügung: Aufbau sozialer Kontakte (SK), Reduktion von Symptomen der Erschöpfung (ER) oder Behandlung von Suizidneigung (SU). In [Tab. 4] ist oben die resultierende Kontingenztafel der Beurteiler dargestellt. Im Folgenden wird in der linken Tabellenhälfte die Berechnung des klassischen Cohens κ und in der rechten Tabellenhälfte die Berechnung von Cohens κ_ω exemplarisch verdeutlicht.

Aus klinischer Perspektive sei eine nicht erkannte Behandlungsbedürftigkeit der Suizidneigung als besonders schwerwiegend einzuschätzen. Deswegen sollen nicht übereinstimmende Beurteilungen hinsichtlich dieser Kategorie als doppelt so gravierend verrechnet werden wie nicht übereinstimmende Urteile, die nicht diese Kategorie betreffen. Um diese Gewichtung bei der Berechnung von κ_ω berücksichtigen zu können, ist eine „Gewichtungsmatrix für das gewichtete Cohens κ_ω” in [Tab. 4] definiert. In die Zellen der Diagonalen, die übereinstimmende Beurteilungen widerspiegeln, ist der Wert 0 eingetragen: d. h. dass alle Patienten, für die übereinstimmende Beurteilungen erfolgt sind, mit einem Gewicht von 0 in die folgenden Berechnungen eingehen. Diejenigen Zellen, in denen die Häufigkeit nicht übereinstimmender Beurteilung eingetragen sind, die nicht die Kategorie SU betreffen, erhalten das Gewicht 1. Diejenigen Zellen, in denen eine nicht übereinstimmende Beurteilung bezüglich der Kategorie SU erfolgt ist, erhalten das Gewicht 2. Multipliziert man die Zellen dieser Gewichtungsmatrix mit den entsprechenden Werten in der beobachteten Übereinstimmungsmatrix, so erhält man die Werte in der rechten „Produktmatrix (beobachtete Werte · Gewichte)”. Die Summe dieser Zellen beträgt in diesem Beispiel 83 und ist die erste Teilgröße, die benötigt wird, um κ_ω zu ermitteln (s. Zähler in der Formel unten). Weiterhin müssen die gemäß der Randsummen erwarteten Häufigkeiten in den Zellen berechnet werden („erwartete Übereinstimmungsmatrix”): Hierfür wird für jede Zelle das Produkt der Zeilensumme und Spaltensumme berechnet und durch die Gesamtzahl der Patienten n=145 geteilt. Multipliziert man die resultierenden Werte in den einzelnen Zellen mit der Gewichtungsmatrix oben, so erhält man die rechte der „erwarteten Produktmatrizen (erwartete Werte·Gewichte)”. Die Summe aller Zellen dieser Matrix beträgt im Beispiel 156,1.

Um den Effekt der Gewichtung nachvollziehen zu können, ist in der linken Spalte der [Tab. 4] die entsprechende Berechnung des klassischen κ dargestellt. Diese unterscheidet sich lediglich darin, dass alle Zellen der Gewichtungsmatrix den Wert 1 erhalten. Die übrigen Rechenschritte sind völlig identisch zu denjenigen in der rechten Spalte. κ entspricht also dem κ_ω, bei dem alle Zellen, in denen nicht übereinstimmende Urteile abgetragen sind, dasselbe Gewicht erhalten. Dadurch, dass in dem Beispiel vor allem häufig nicht übereinstimmende Beurteilungen erfolgen, die hoch gewichtet werden (insbesondere die Kombination SU+ER), ist der Wert von κ_ω niedriger ausgeprägt als derjenige von κ. Würden die Beurteiler sehr häufig bezüglich der geringer gewichteten Kategorienkombination SK + ER nicht übereinstimmen und gäbe es kaum Uneinigkeit hinsichtlich der Kategorie SU, so wäre κ_ω im Allgemeinen höher ausgeprägt als κ.

Mit κ_ω steht also ein Übereinstimmungsmaß zur Verfügung, das flexibel gemäß inhaltlicher Überlegungen an die jeweiligen Fragestellungen angepasst werden kann, um unterschiedlich bedeutsamen Inkongruenzen zwischen Beurteilern Rechnung tragen zu können. Die Gewichtungsmatrix sollte auf Basis empirischer Befunde, theoretischer Überlegungen oder mittels Expertenbefragung gut begründet ausgewählt werden.

Spezialfälle, in denen eine Gewichtung der diskrepanten Urteile vorgenommen werden sollte, stellen rangskalierte (z. B. „1=unauffällig”, „2=auffällig”, „3=stark auffällig”) Antwortformate dar [4]. Vergibt ein Beurteiler den Wert 1 und der andere den Wert 3, so deutet dies natürlich eine stärker zu gewichtende Diskrepanz in der Beurteilung an, als wenn ein Patient einmal mit 1 und einmal mit 2 beurteilt wird. Zur Analyse der Zuverlässigkeit rangskalierter Beurteilungen wird in der Literatur im Allgemeinen Kendalls W angewendet. Die Übereinstimmungsanalyse mittels des gewichteten κ_ω ist jedoch vorzuziehen, da Kendalls W kein valider Indikator der Übereinstimmung ist und trotz schwacher Übereinstimmung hohe Werte annehmen kann: Vergibt beispielsweise einer der Urteiler stets systematisch höhere Werte, so kann trotz hoher Korrelation der Messwerte eine unzureichende Übereinstimmung vorliegen [4].

Sind die Kategorien einer Ratingskala zumindest approximativ intervallskaliert (z. B. „-2=trifft überhaupt nicht zu” bis „+2=trifft ganz genau zu”[1]), so sollten Unterschiede zwischen den Urteilen der Beurteiler mit dem Quadrat der Differenz gewichtet werden [4] [11]. Unterscheiden sich die Urteile um 1, 2, 3 bzw. 4 Punkte auf der Ratingskala, so sollten also die Gewichte 1, 4, 9 bzw. 16 gewählt werden. Es sei angemerkt, dass die Ausprägung dann identisch mit der auf der klassischen Testtheorie basierenden Intraklassenkorrelation ist, die die optimale Methode zur parametrischen Analyse der Beurteilerübereinstimmung bei intervallskalierten Daten darstellt [2].

Allgemein muss bei der Interpretation von κ und κ_ω bei mehrstufigen - insbesondere nominalskalierten Daten - berücksichtigt werden, dass - genau wie im Falle dichotomer Antwortformate - deren Werte von der Grundhäufigkeit der einzelnen Merkmalsausprägungen abhängen. Variieren die Grundhäufigkeiten der Merkmalsstufen deutlich (z. B. Kategorie A liegt häufig vor, während B und C selten auftreten), so muss in der Regel damit gerechnet werden, dass κ und κ_ω unter ansonsten gleichen Bedingungen niedrigere Werte annehmen. So wird beispielsweise die Übereinstimmungsschätzung bezüglich mehrerer alternativer Diagnosen für Patienten von deren Prävalenz beeinflusst. Bei zweigestuften Datenformaten kann diese Problematik durch die Berechnung von Yules Y und den McNemar-χ²-Test differenziert analysiert werden (s. o.). Für mehrstufige Antwortformate existiert aber leider kein Pendant, das eine Kontrolle dieser Basisratenabhängigkeit erlaubt (zu alternativen modernen Strategien s. [12]). Deswegen ist es zumeist zu empfehlen, das mehrstufige Antwortformat künstlich in ein dichotomes Format umzuwandeln (betreffende Einzelkategorie vs. Restkategorie), um für einzelne Kategorien die differenzierteren Methoden für dichotome Merkmale zur kategorienspezifischen Übereinstimmungsanalyse einsetzen zu können. Für die Daten in [Tab. 4] würde nach Fusion der Kategorien ER und SU ein künstlich dichotomisiertes Merkmalsspektrum entstehen (SK vs. ER+SU). Für die so entstehende Vierfeldertafel würde sich beispielsweise ein zufrieden stellendes κ von 0,77 ergeben. Hierdurch würde indirekt deutlich, dass eine wesentliche Ursache des ursprünglich eher niedrigen Wertes die mangelnde Zuverlässigkeit in der Unterscheidung der ursprünglichen Kategorien ER und SU zu sein scheint. Alternativ zu dieser Vorgehensweise stehen modifizierte Versionen von κ zur Verfügung, durch die die Übereinstimmung in Bezug auf einzelne Kategorien oder auch auf einzelne Objekte differenzierter untersucht werden kann [4].

Alle in diesem Text dargestellten Koeffizienten können lediglich für Beurteilerpaare berechnet werden. Soll die Übereinstimmung mehrerer Rater bestimmt werden, so kann der Median der paarweise berechneten Kennwerte verwendet werden. Für das klassische κ steht als Alternative eine allgemeinere Form von κ zur simultanen Analyse mehrerer Rater zur Verfügung [13].

Computergestützte Berechnung der dargestellten Koeffizienten

Die Berechnung von Cohens κ und die Bestimmung der Signifikanz kann im Statistikprogramm SPSS mittels des „Crosstabs”-Befehls einfach durchgeführt werden. Die hier beschriebenen alternativen Maße können ebenfalls dort ermittelt werden. Die Datenorganisation und die Befehlsfolgen in der Windows-Oberfläche und der Syntax-Sprache sind bei Wirtz und Caspar [4] detailliert beschrieben. Yules Y kann über den Befehl „Proximities” in SPSS berechnet werden. Ermittelt man das Odds Ratio über den SPSS-Befehl „Crosstabs”, so lässt sich dieser Koeffizient aber auch einfach durch Einsetzen in Formel 9 ermitteln. Die Signifikanzangaben des Odds Ratio können für Yules Y direkt übernommen werden. Zur Berechnung von Cohens κ_ω kann ein spezieller Matrix-Befehl verwendet werden [14]. Das Internet bietet informative Quellen, in denen die Eigenschaften von Cohens κ dargestellt und auch Berechnungsprozeduren zur Verfügung gestellt werden (z. B. [15] [16]).

Fazit

Die Überprüfung der Übereinstimmung von Beurteilern ist eine wichtige Voraussetzung, um einschätzen zu können, wie zuverlässig und aussagekräftig die Beurteilungsergebnisse sind. Nur wenn die gewonnenen Messgrößen im Wesentlichen unabhängig von der subjektiven Sichtweise der Beurteiler sind, kann davon ausgegangen werden, dass diese als zuverlässige Indikatoren des Zustands der Personen oder Objekte gelten können. Cohens κ bietet für kategoriale Beurteilungen die Möglichkeit, die Übereinstimmung der Beurteiler, die über das Ausmaß an durch Zufall zu erwartender Übereinstimmung hinaus geht, in standardisierter Form zu quantifizieren und zu evaluieren. Insbesondere im Falle dichotomer Beurteilungsformate stehen darüber hinaus Methoden zur Verfügung, die es erlauben, den Einfluss der Prävalenz eines Merkmals und der Konsistenz der Beurteiler zu separieren und damit differenzierter die Ursachen mangelnder Übereinstimmung zu identifizieren.

Ist die Übereinstimmung nicht zufrieden stellend, so sollte die Qualität der Beurteilungen durch ein systematisches Beurteilertraining verbessert werden. Wichtige Strategien zur Verbesserung von Beurteilungen wurden in der Methodenserie bereits dargestellt ([3], s. auch [4]). In jedem empirischem Projekt, in dem Beurteilungen als Datengrundlagen verwendet werden sollen, sollte die Beurteilungsgüte in einem Prä-Test evaluiert und anschließend gegebenenfalls optimiert werden. Andernfalls muss insbesondere damit gerechnet werden, dass empirische Zusammenhänge zu schwach abgebildet werden, die Teststärke statistischer Verfahren erheblich beeinträchtigt wird und unter Umständen Informationsaspekte ausgewertet werden, die die Eigenschaften der beurteilten Personen verzerren oder im Extremfall überhaupt nicht repräsentieren.

Einschränkend muss jedoch angemerkt werden, dass eine Analyse der Übereinstimmung zwischen Beurteilern nicht notwendigerweise die Gültigkeit oder Validität der erhobenen Daten sicherstellt. Unterliegen Beurteiler beispielsweise denselben Antworttendenzen (z. B. Halo-Effekt, implizite Persönlichkeitstheorien, logische Fehler [1] [4] [17]), so kann dies dazu führen, dass die Beurteilerübereinstimmung hoch ausfällt, obwohl dasjenige Merkmal, das gemessen werden sollte, nicht hinreichend erfasst wurde. Ist beispielsweise zwei Behandlern bekannt, wie lange ein Patient in ihrer Einrichtung behandelt wurde, so kann dies die Einschätzung des Behandlungserfolges in Bezug auf ihre Symptomatik systematisch verzerren: Wenn beide tendenziell länger behandelte Patienten ungerechtfertigterweise als erfolgreicher gebessert einschätzen, erhöht dies natürlich die Übereinstimmung, ohne dass dies als Indikator für die Validität der gewonnenen Informationen bezüglich der Verbesserung der Symptomatik gewertet werden darf. Wie im Falle anderer Messmethoden gilt auch hier, dass die Übereinstimmung und die Reliabilität eine notwendige, aber keine hinreichende Bedingung für die Validität der Daten darstellen.

References

Literatur

1 Bortz J, Döring N. Forschungsmethoden und Evaluation. 3. Aufl. Berlin: Springer 2001
2 Vogel H, Lemisz W, Liebeck H, Palm W. Zur Bewertung des Gutachterverfahrens für die ambulante Verhaltenstherapie durch die Gutachterinnen. Verhaltenstherapie. 2002; 12 228-231
3 Wirtz M. Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen. Rehabilitation. 2004; 43 384-389
4 Wirtz M, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe 2002
5 Cichetti DV. Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychological Assessment. 1994; 6 284-290
6 Klauer KC. Urteilerübereinstimmung bei dichotomen Kategoriensystemen. Diagnostica. 1996; 42 101-118
7 Uebersax JS. A review of modelling approaches for the analysis of observer agreement. Investigative Radiology. 1992; 27 738-743
8 Wirtz M. Methoden zur Bestimmung der Beurteilerübereinstimmung. In: Petermann F, Eid M (Hrsg). Handbuch der Psychologie - Psychologische Diagnostik. Göttingen: Hogrefe 2006: 369-380
9 Ulrich R, Wirtz M. On the correlation of a naturally and an artificially dichotomized variable. British Journal of Mathematical and Statistical Psychology. 2004; 57 235-252
10 Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa. Psychological Bulletin. 1969; 72 323-327
11 Fleiss JL, Cohen J. The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement. 1973; 33 613-619
12 Nussbeck F. Assessing multimethod association with categorical variables. In: Eid M, Diener E (Hrsg). Handbook of multimethod measurement in psychology. Washington: APA 2005: 212-234
13 Bortz J, Lienert GA. Kurzgefasste Statistik für die klinische Forschung. Berlin: Springer 1998
14 Valiquette CAM, Lesage AD, Cyr M, Toupin J. Computing Cohen's kappa coefficients using SPSS MATRIX. Behavioral Research Methods, Instruments and Computers. 1994; 26 60-61
15 Uebersax JS.. , Statistical methods for rater agreement. August 2006 - verfügbar unter URL: http://ourworld.compuserve.com/homepages/jsuebersax/agree.html
16 Lowry R.. , Cohen's unweighted kappa, kappa with linear weighting, kappa with quadratic weighting, frequencies and proportions of agreement. August 2006 - verfügbar unter http://faculty.vassar.edu/lowry/kappa.html
17 Hoyt WT. Rater bias in psychological research: when is it a problem and what can we do about it?. Psychological Methods. 2000; 5 64-86

1 In den Beispielen A bis C liegt der Wert von ι bei -0,11, 0,52 bzw. 0,60.

2 9,50 ist derjenige Wert, der sich ohne Rundungsungenauigkeiten ergeben würde.

3 Es gilt stets: Y≥κ.

Korrespondenzadresse

Prof. Dr. Markus Wirtz

Institut für Psychologie

Pädagogische Hochschule Freiburg

Kunzenweg 21

79117 Freiburg

Email: markus.wirtz@ph-freiburg.de

Figures