Subscribe to RSS
DOI: 10.1055/s-0043-111613
Bayes’sches Theorem und der Basisratenfehler: Zum Vorhersagewert von Risikofaktoren und Screeningverfahren
Bayes’ Theorem and Base Rate Error: On the Predictive Value of Risk Factors and Screening TestsKorrespondenzadresse
Publication History
Publication Date:
26 July 2017 (online)
- Zusammenfassung
- Abstract
- Einleitung
- Screening und Risikofaktoren
- Bedingte Ereignisraten und das Basisraten-Problem
- Das Bayes-Theorem
- Verständliche Kommunikation und Darstellung der Informationen, die die Gefahr von Fehlschlüssen vermindern
- Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“
- Literatur
Zusammenfassung
Risikoeinschätzungen oder Entscheidungen basieren häufig auf 2-stufig ausgeprägten Merkmalen. So weisen auffällige Werte in einem diagnostischen Screeningverfahren ggf. auf ein erhöhtes Erkrankungsrisiko hin. Oder die kritische Ausprägung eines Risikofaktors (z. B. Bluthochdruck, Depression) kann ggf. als Indikator für einen Behandlungsbedarf oder den Eintritt eines negativen Ereignisses (z. B. Frühberentung) gewertet werden. In solchen Entscheidungssituationen basieren Risikoeinschätzungen in der Regel auf bedingten Ereignisraten oder -wahrscheinlichkeiten: Wie hoch ist z. B. das Risiko für das Vorliegen einer Erkrankung, unter der Bedingung, dass ein Symptom, Risikofaktor oder ein auffälliges Testergebnis vorliegt? Die valide Interpretation von bedingten Ereignisraten stellt jedoch sowohl für Behandler als auch für Patienten eine erhebliche Herausforderung dar: Insbesondere bei seltenen Ereignissen wird das Erkrankungsrisiko in der Regel deutlich überschätzt, wenn lediglich ein Erkrankungshinweis vorliegt. Das sogenannte Bayes-Theorem ermöglicht es, die relevanten Entscheidungsinformationen formal korrekt zu beschreiben. Es wird gezeigt, welche Informationen berücksichtigt werden müssen, um zu validen Einschätzungen zu gelangen. Die Angabe von absoluten Häufigkeiten und die Darstellung mittels Entscheidungsbäumen und Flächendiagrammen sind geeignet, um Fehlinterpretationen vorzubeugen.
#
Abstract
Regularly, risk assessments or decisions are based on dichotomous characteristics or measures. For instance, critical high values in screening tests may indicate an enhanced risk of having a disease. The prevalence of a risk factor (e. g. high blood pressure, depression) may indicate the need of a medical treatment or the occurrence of a negative consequence (e. g. early retirement). In such situations risk assessments are typically based on conditional event rates or conditional event probabilities: What is the risk of having a disease under the condition of having a symptom, risk factor or a critical screening indication? The valid interpretation of conditional event rates poses a considerable challenge for practitioners as well as for rehabilitation patients. Typically, for rare events the risk of having a disease is considerably overestimated if a critical predictor prevails. The Bayes’ theorem describes the decision related informations structure appropriately. It is shown, which informations have to be taken into account to ensure valid risk assessments. Using absolute frequencies instead of relative frequencies or proportions may prevent erroneous conclusions. Graphical displays of absolute frequencies by area diagrams or decision trees are recommended to ensure a better comprehensibility of risk information.
#
Schlüsselwörter
Basisratenfehler - Bayes’sches Theorem - Risikofaktoren - Risikoeinschätzung - ScreeningEinleitung
Szenario Krebsscreening Eine Frau nimmt an einer Routineuntersuchung zur Krebsvorsorge teil. Der Untersucher teilt ihr mit, dass sich in der Untersuchung auffällige Werte gezeigt haben, die einer genaueren Abklärung bedürfen. Den Hinweis, dass diese Information sie nicht beunruhigen solle, empfindet sie als wenig glaubwürdig und verharmlosend. Sie ist sich sicher, dass eine große Gefahr besteht, dass sie erkrankt ist. Weshalb sollte ein durch den Arzt empfohlener medizinischer Test auffällige Werte anzeigen, wenn diese nicht zuverlässig auf das Vorliegen einer Erkrankung hinweisen? Sie erkundigt sich im Anschluss an die Untersuchung im Internet über die potenzielle Krebserkrankung: Alle im Frühstadium an dieser Krebsform erkrankte Frauen zeigen das in der Untersuchung diagnostizierte Symptom. Nun ist sie sich sicher, dass sie mit hoher Sicherheit an Krebs leidet.
Szenario chronische Erkrankung Für eine eher seltene Form chronischer Atemwegserkrankungen sei bekannt, dass diese deutlich vermehrt auftritt, wenn Beschäftigte über Jahre regelmäßig Staubbelastung am Arbeitsplatz ausgesetzt sind. Ein Mitarbeiter erfährt, dass 80% aller Beschäftigten in einem industriellen Großunternehmen, die diese chronische Atemwegserkrankung entwickeln, über Jahre hinweg regelmäßig Staubbelastung ausgesetzt waren. Da er selbst zu der exponierten Gruppe gehört, ist er nun überzeugt davon, dass er ebenfalls mit hoher Sicherheit diese chronische Atemwegserkrankung entwickeln wird.
Szenario Frühberentung Ein Arbeitgeber wisse, dass 20% aller Personen, die frühberentet werden, sich vor der Einstellung im Betrieb bereits einmal in einer psychologischen Behandlung befunden haben. Da er sicher gehen möchte, dass keine Personen eingestellt werden, die ein Frühberentungsrisiko über 15% haben, beschließt er, keine Personen mehr einzustellen, die bereits einmal psychologisch behandelt wurden.
In diesen Beispielszenarien liegt jeweils ein Hinweis (Indikator: Testergebnis oder Risikofaktor) vor, der darauf hindeutet, dass für die Betroffenen eine wichtige Problematik (Zielkriterium: Erkrankung, Frühberentung, Nichteinstellung) zu befürchten ist. Der logische Schluss vom Hinweis auf das Zielkriterium erweist sich in der diagnostischen Praxis und allgemein in Entscheidungssituationen als sehr fehleranfällig. Wie weiter unten ausgeführt wird, tendieren Menschen dazu, die folgenden beiden Informationen unzulässigerweise gleichzusetzen: Liegt eine Hinweis- oder Risikoinformation sehr wahrscheinlich vor, wenn ein Zielkriterium auftritt (Sensitivität), dann ist man auch überzeugt, dass das Zielkriterium sehr wahrscheinlich vorliegt oder eintritt, wenn die Hinweis- oder Risikoinformation gegeben sind (Positiv Prädiktiver Wert des Hinweisreizes für das Zielkriterium). Nicht nur Patienten, sondern auch Behandler überschätzen das Risiko einer Erkrankung bei vorliegender kritischer Ausprägung der Hinweis- oder Bedingungsvariable in der Regel umso deutlicher, je seltener die Erkrankung grundsätzlich auftritt.
Es ist von hoher Bedeutung, Hinweis- oder Risikoinformationen angemessenen zu interpretieren und einzuordnen, damit negative Konsequenzen im Sinne unangemessener Schlussfolgerungen und Entscheidungen, aber auch unberechtigter Sorgen und Befürchtungen vermieden werden können [1] [2]. In diesem Beitrag soll zunächst geklärt werden, was zu beachten ist, um mit diesen Informationen adäquat umzugehen. Anschließend wird gezeigt, wie diese Informationen möglichst verständlich präsentiert werden können, damit falschen Eindrücken und Fehlinterpretationen bestmöglich vorgebeugt werden kann.[1]
#
Screening und Risikofaktoren
Merkmale, die systematisch in Zusammenhang mit einer Erkrankung auftreten, bieten oftmals eine wichtige diagnostische Information, um festzustellen, ob eine Erkrankung möglicherweise vorliegt oder ob das Risiko der Entstehung der Erkrankung erhöht ist. So werden bspw. bei einer aufwändig zu diagnostizierenden Erkrankung Screeningtests eingesetzt, um Hinweise auf das Vorliegen einer Erkrankung zu erhalten. Da z. B. bei Rehabilitationspatienten mit somatischer Erkrankung eine Standarddiagnostik psychischer Störungen bei allen Patienten mit einem hohen Aufwand verbunden wäre, werden in der Routinediagnostik ökonomischere Screeningverfahren eingesetzt [4]. Zum Screening neurodegenerativer Erkrankungen kommen Verfahren wie die Mini Mental Status Examination [5] zum Einsatz, bevor z. B. aufwändige Verfahren der Bildgebung zur Intensivdiagnostik angewendet werden. Auch ein routinemäßiges Arzt-Patient-Gespräch kann als Screening aufgefasst werden, da Hinweise auf einen genaueren Untersuchungsbedarf abgeklärt werden.
Screeningverfahren sind diagnostische Verfahren, deren Anwendung mit einem vergleichsweise geringen Aufwand verbunden ist. Sie dienen dazu, kritische Merkmalsausprägungen (Indikator, Hinweisinformation) zu erkennen, die auf eine Erkrankung (Zielkriterium, Ereignis) hindeuten. Anschließend kann eine genauere, abklärende Intensivdiagnostik eine zuverlässige Auskunft über den Erkrankungsstatus liefern.
Bei der Analyse von Risiko- oder Schutzfaktoren ist die diagnostische Informationslage strukturell identisch. So wird bspw. in Fall-Kontrollstudien oder Kohortenstudien [6] der Vorhersagewert von als kritisch vermuteten Merkmalen für das tatsächliche Auftreten einer Erkrankung untersucht. Es interessiert dann bspw., ob ein Merkmal oder ein Verhalten (z. B. Rauchen, ungünstige Ernährung, Bewegungsmangel, Stress, genetische Besonderheiten) mit einer erhöhten Erkrankungsrate korrespondiert (z. B. orthopädische, kardiologische oder onkologische Erkrankungen, Frühberentung, Mortalität).
Risiko- bzw. Schutzfaktoren sind Merkmale (Indikator, Bedingung), die mit einer systematisch erhöhten bzw. verringerten Erkrankungs- oder Ereignisrate (Zielkriterium, Ereignis) einhergehen.
#
Bedingte Ereignisraten und das Basisraten-Problem
Formal lässt sich der Vorhersagewert einer Bedingung für ein Ereignis (z. B. Erkrankung) als bedingte Ereignisrate[2] darstellen: h(Ereignis|+), lies: Rate des Ereignisses unter der Bedingung ‚positives Testergebnis‘ bzw. ‚auffällige Ausprägung des Risikofaktors‘ oder Rate des Ereignisses, wenn bekannt ist, dass ein positives Testergebnis bzw. eine auffällige Ausprägung des Risikofaktors vorliegt.
h(Ereignis|+) entspricht dann dem Positiv Prädiktiven Wert des Screeningtests: Der Positiv Prädiktive Wert gibt an, welcher Anteil der positiv getesteten Personen tatsächlich erkrankt ist. h(+|Ereignis) entspricht hingegen der Sensitivität des Tests: Die Sensitivität eines Test gibt an, welcher Anteil der tatsächlich erkrankten Personen positiv getestet wird [3] [7].
Sensitivität – Anteil richtig erkannter Merkmalsträger Anteil positiv Getesteter, wenn Erkrankung vorliegt. Bzw.: Anteil der Personen, die Risikomerkmale aufweisen, unter denjenigen, die erkrankt sind.
Spezifität – Anteil richtig erkannter Nicht-Merkmalsträger Anteil negativ Getesteter, wenn keine Erkrankung vorliegt. Bzw.: Anteil der Personen, die kein Risikomerkmal aufweisen, unter denjenigen, die gesund sind.
Positiv Prädiktiver Wert – Anteil korrekt positiv getesteter Personen Anteil Erkrankter, wenn das Testergebnis positiv ist. Bzw.: Anteil der Personen, die erkrankt sind, wenn das Risikomerkmal vorliegt.
Negativ Prädiktiver Wert – Anteil korrekt negativ getesteter Personen Anteil nicht Erkrankter, wenn das Testergebnis negativ ist. Bzw.: Anteil der Personen, die gesund sind, wenn das Risikomerkmal nicht vorliegt.
Der zentrale Fehlschluss, der in diesem Beitrag behandelt wird, besteht darin, dass die Möglichkeit falsch positiver (auffällig, aber gesund) oder falsch negativer (unauffällig, aber krank) Befunde ignoriert oder unterschätzt wird bzw. dass die bedingten Ereignisraten Sensitivität und Positiv Prädiktiver Wert unzulässigerweise gleich gesetzt werden. Wenn die Erkrankten mit hoher Sicherheit ein positives Testergebnis erhalten (Sensitivität bzw. h(+|Ereignis) ist hoch), dann impliziert dies nicht, dass Personen mit positivem Testergebnis auch mit hoher Sicherheit erkrankt sind (Positiv Prädiktiver Wert bzw. h(Ereignis|+) ist dann nicht notwendigerweise auch hoch). Wenn Staubexponierte mit einer hohen Rate Atemwegserkrankungen entwickeln (h(Atemwegserkrankung|staubexponiert) ist hoch), dann bedeutet das nicht notwendigerweise, dass die meisten Personen mit Atemwegserkrankungen auch Staubbelastung ausgesetzt waren (h(staubexponiert|Atemwegserkrankung) ist dann nicht notwendigerweise auch hoch).
Tatsächlich gilt h(+|Ereignis)=h(Ereignis|+) (bzw. Sensitivität=Positiv Prädiktiver Wert) nur, wenn das Ereignis in der Hälfte der Fälle auftritt und Sensitivität und Spezifität des Tests identisch sind.[3]
Je seltener das Ereignis auftritt, desto deutlicher verringert sich der Positiv Prädiktive Wert gegenüber der Sensitivität. Die Daten in [Tab. 1] zeigen die systematische Abhängigkeit dieses Effekts von der Basisrate bzw. der Prävalenz des Merkmals. In allen 3 Beispielen beträgt die Sensitivität des Tests h(+|Ereignis)=0,9 (=9/10, 45/50 bzw. 171/190; 90%). 90% der Erkrankten erhalten ein positives Testergebnis. Da auch die Spezifität in allen Beispielen mit h(+|Ereignis)=0,8 (=152/190; 80% der Gesunden erhalten ein negatives Testergebnis) konstant gehalten ist, ist die diagnostische Leistung des Screeningverfahrens in allen 3 Beispielen identisch: Sowohl Erkrankte als auch Gesunde werden in allen 3 Beispielen gleich zuverlässig erkannt. Die 3 Beispiele unterscheiden sich lediglich in der Erkrankungsrate (Prävalenz). In der oberen Spalte von [Tab. 1] handelt es sich um eine seltene Erkrankung (h(Ereignis) = 0,05; 5%), in der mittleren um eine deutlich häufigere Erkrankung (h(E) = 0,208; 20,8%) und unten um eine sehr häufige Erkrankung (h(Ereignis) = 0,50; 50%).
Gesund |
Krank |
Seltene Erkrankung |
||
---|---|---|---|---|
Test negativ |
152 |
1 |
153 |
Prävalenz=10/200=0,050 (5%) |
Test positiv |
38 |
9 |
47 |
Positiv Prädiktiver Wert=9/47=0,191 (19,1%) |
190 |
10 |
200 |
Negativ Prädiktiver Wert=152/153=0,993 (99,3%) |
|
Gesund |
Krank |
Häufige Erkrankung |
||
Test negativ |
152 |
5 |
157 |
Prävalenz=50/240=0,208 (20,8%) |
Test positiv |
38 |
45 |
83 |
Positiv Prädiktiver Wert=45/83=0,542 (54,2%) |
190 |
50 |
240 |
Negativ Prädiktiver Wert=152/157=0,968 (96,8%) |
|
Gesund |
Krank |
Sehr häufige Erkrankung |
||
Test negativ |
152 |
19 |
171 |
Prävalenz=190/380=0,50 (50%) |
Test positiv |
38 |
171 |
209 |
Positiv Prädiktiver Wert=171/209=0,818 (81,8%) |
190 |
190 |
380 |
Negativ Prädiktiver Wert=152/171=0,889 (88,9%) |
In allen Beispielen gilt: Sensitivität=0,9 [=9/10=45/50=171/190]; Spezifität=152/190=0,8
Da die Erkrankung in der unteren Spalte von [Tab. 1] mit 50% sehr häufig auftritt und die Sensitivität mit 90% hoch ist, besteht eine hohe Gefahr erkrankt zu sein, wenn man ein positives Testergebnis erhält: Positiv Prädiktiver Wert (h(Ereignis|+)=0,818 (81,8%). In der oberen Spalte von [Tab. 1] ist die Krankheit selten, sodass es trotz der guten Sensitivität des Tests viel mehr ins Gewicht fällt, dass der Test in der stark dominierenden Gruppe der Gesunden in 20% aller Fälle (1- Spezifität=0,2) fälschlicherweise positiv ausfällt. Da 95% der Personen gesund sind, machen diese fälschlicherweise positiven Ergebnisse den Großteil der positiven Testergebnisse aus: 80,9% der positiven Gesteteten sind gesund und nur 19,1% der positiv Getesteten sind krank.
Der Basisraten-Fehler bezeichnet das Phänomen, dass die Basisrate, mit der ein Ereignis auftritt, nicht oder zu schwach mit einbezogen wird, wenn der Vorhersagewert eines positiven Testergebnisses oder der kritischen Ausprägung eines Risikofaktors beurteilt werden soll. Je seltener z. B. eine Erkrankung auftritt, desto seltener liegt die Erkrankung auch dann vor, wenn ein Testergebnis positiv ist. Der Positiv Prädiktive Wert (Rate Erkrankter bei positivem Testergebnis) sinkt insbesondere umso stärker gegenüber der Sensitivität (Rate positiv getesteter Erkrankter) ab, je seltener das Ereignis auftritt.
Ein erhöhtes Risiko ist nicht notwendigerweise ein hohes Risiko. Auch wenn ein Test oder ein Risikofaktor hoch prädiktiv ist, kann ein deutlich erhöhtes Risiko einem geringem Risiko entsprechen: Dies kann insbesondere dann der Fall sein, wenn es sich um ein seltenes Ereignis handelt.
#
Das Bayes-Theorem
Bevor Möglichkeiten der verständlichen Darstellung der Informationen erläutert werden, die Fehlschüsse vermeiden helfen sollen, soll zunächst der mathematische Zusammenhang erläutert werden. Die Bezeichnung Bayes-Theorem geht auf den englischen Mathematiker und Pfarrer Thomas Bayes [1702–1761] zurück, der sich bei der Analyse von Glückspielen mit der Bestimmung bedingter Wahrscheinlichkeiten beschäftigte. Mit dem Basisraten-Problem ist die durch das Bayes-Theorem dargestellte Problematik hinreichend beschrieben: Das Bayes-Theorem gibt den genauen funktionalen Zusammenhang bzw. die mathematische Beziehung zwischen der Sensitivität (h(+|Ereignis)) und dem Positiven Prädiktiven Wert (h(Ereignis|+)) an [7].
Für eine getestete Person ist v. a. der Positiv Prädiktive Wert wichtig: Hat die Person ein positives Testergebnis, so interessiert sie, mit welcher Sicherheit dieses mit einer Erkrankung korrespondiert. Implizit geht jede Person davon aus, dass jeder Test eine hohe Sensitivität besitzt: Dass Erkrankte ein positives Testergebnis erhalten sollten, wird – in der Regel auch zu Recht – als selbstverständlich vorausgesetzt. Der sogenannte Bayes-Fehlschluss besteht nun darin, dass aus der vermutetet hohen Sensitivität (h(+|Ereignis)) automatisch ein hoher Positiv Prädiktiver Wert (h(Ereignis|+)) abgeleitet wird. Das Bayes-Theorem gibt Aufschluss darüber, welche weiteren Informationen vorliegen müssen und wie diese verrechnet werden müssen, damit von der Sensitivität auf die Ausprägung des Positiv Prädiktiven Wertes geschlossen werden kann.
Die Bedeutung des Bayes-Theorems kann wie folgt nachvollzogen werden:
Die Rate, mit der positiv getestete Personen krank sind, entspricht dem Anteil derjenigen, die krank sind und positiv getestet wurden, an allen positiv Getesteten. Nachdem man positiv getestet wurde, sind grundsätzlich nur noch die Personen von Interesse, die positiv getestet wurden (Referenzgröße im Nenner der Formel 1), alle negativ Getesteten tauchen in der Formel nicht mehr auf. Im oberen Beispiel in [Tab. 1] ergibt sich für den Nenner ein Wert von 0,235 (23,5%), da 47 von 200 Personen positiv getestet wurden. Der Zähler ist gleich 0,045 (4,5%), da 9 der 200 Personen sowohl positiv getestet wurden als auch krank sind. Gemäß der Formel 1 besteht ein Risiko von 19,1% (0,045/0,235=0,191) erkrankt zu sein, wenn der Test positiv ausfällt.
Diese Gleichung in Formel 2 entspricht derjenigen in Formel 1, wobei im Nenner die Rate der positiv getesteten Personen durch die Summe derjenigen, die positiv getestet und krank sind, und derjenigen, die positiv getestet und gesund sind, ersetzt wurde: alle positiv Getesteten sind entweder krank oder gesund und deswegen kann der Nenner durch die Summanden ersetzt werden. Im oberen Beispiel in [Tab. 1] sind 38 von Personen sowohl gesund als auch im Test auffällig und 9 Personen sowohl krank als auch im Test auffällig. Für den Nenner in Formel 2 resultiert dann der Wert (38/200)+(9/200)=0,235 (23,5%).
Die endgültige Bayes’sche Formel ergibt sich, wenn nun noch folgender Zusammenhang berücksichtigt wird: Die Rate derjenigen, die krank sind und positiv getestet wurden, entspricht dem Produkt des Anteils der Personen, die krank sind, mit dem Anteil positiv getesteter kranker Personen (Sensitivität). Die Rate derjenigen, die gesund sind und positiv getestet wurden, entspricht dem Produkt des Anteils der Personen, die gesund sind, mit dem Anteil positiv getesteter gesunder Personen (1-Spezifität).
bzw.
Um von der Sensitivität auf den Positiv Prädiktiven Wert des Tests schließen zu können, werden also zusätzlich folgende Informationen benötigt:
-
Prävalenz: Anteil Erkankter (h(krank)),
-
der Anteil Gesunder (h(gesund); 1- Prävalenz) und
-
die Spezifität des Tests (h(-|gesund))
Im oberen Beispiel in [Tab. 1] liegt die Prävalenz bei 0,05 (5%). Damit ist der Anteil Gesunder gleich 0,95 (95%). Die Sensitivität beträgt 9/10=0,9 (90%) und die Spezifität beträgt 152/190=0,8 (80%). Gemäß der Bayes’schen Formel in Formel 3 und Formel 4 kann der Positiv Prädiktive Wert direkt ermittelt werden.
Durch die Anwendung der Formel 3 bzw. 4 ergibt sich für die hohe Sensitivität (0,9; 90%) ein vergleichsweise geringer Positiv Prädiktiver Wert (0,191; 19,1%). Dies ist dadurch bedingt, dass der zweite Summand im Nenner, der die aufgrund der Seltenheit der Erkrankung vergleichsweise häufigen falsch positiven Fälle (gesund, aber positiv getestet) repräsentiert, hoch ausgeprägt ist.
Die Anwendung und Bedeutung für rehabilitationswissenschaftliche Fragestellungen soll exemplarisch an den 3 eingangs geschilderten Beispielszenarien verdeutlicht werden. Dabei werden beispielhaft konkrete, jedoch fiktive Zahlenwerte angegeben, die die Problemstellungen angemessen repräsentieren. Die Daten in [Tab. 2] fassen die Informationen nochmals kompakt zusammen.
Szenario |
|||
---|---|---|---|
Krebsscreening |
Seltene chronische Atemwegserkrankung |
Frühberentung |
|
Bedingung/Hinweisinformation (Indikator) |
Positives Testergebnis |
Exposition Staubbelastung |
Psychologische Behandlung |
Ereignis/Merkmal (Zielkriterium) |
Krebsdiagnose |
Erkrankung |
Frühberentung |
Rate der Merkmalsträger [Prävalenz; %(E)] |
0,05% |
1% |
5% |
Rate der Merkmalsträger, bei denen die Hinweisinformation vorliegt [Sensitivität; %(B|E)] |
100% |
80% |
20% |
Rate der Nicht-Merkmalsträger, bei denen die Hinweisinformation vorliegt [1-Spezifität; %(B|Nicht-E)] |
2% |
5% |
10% |
Bayes’sche Formel
|
|||
=(0,0005∙1)/[0,0005∙1+0,9995∙0,02]=0,005/[0,005+0,02985]=0,024 |
=(0,01∙0,8)/[0,01∙0,8+0,99∙0,05]=0,008/[0,008+0,0495]=0,139 |
=(0,05∙0,20)/[0,05∙0,20+0,95∙0,10]=0,01/[0,01+0,095]=0,095 |
|
Ergebnis |
2,4% der Frauen mit einem auffälligen Testergebnis sind an Krebs erkrankt. |
13,9% aller Beschäftigten, die über Jahre hinweg Staubbelastung ausgesetzt waren, entwickeln diese seltene Form der chronischen Atemwegserkrankung. |
9,5% aller Arbeitnehmer, die psychologisch behandelt wurden, werden frühberentet. |
Beispielszenario Krebsscreening Tatsächlich ist die Frau trotz des positiven Testergebnisses sehr wahrscheinlich nicht an Krebs erkrankt. Ihre Befürchtung mit hoher Wahrscheinlichkeit an Krebs erkrankt zu sein, ist nicht gerechtfertigt. Angenommen, 1 von 2000 Frau leidet an dieser Krebserkrankung ([Tab. 2]; Spalte 2): Damit beträgt der Anteil gesunder Frauen 99,95% (1999/2000; 1 - Prävalenz) und der Anteil erkrankter Frauen 0,05% (1/2000; Prävalenz). Auch wenn alle erkrankten Frauen zu Recht ein positives Testergebnis erhalten (Sensitivität=1; 100%), ergäbe sich ein auffälliger Befund fälschlicherweise auch bei 2% der gesunden Frauen (1-Spezifität=0,02). Werden diese Informationen in die Bayes’sche Formel (Formel 4) eingesetzt ([Tab. 2]), so ergibt sich ein Positiv Prädiktiver Wert von 2,4%. Entsprechend sind 97,6% aller Frauen, die positiv getestet wurden, gesund, und ‚lediglich‘ 2,4% erkrankt. Auch wenn das Risiko mit 2,4% für positiv Getestete erheblich höher liegt als mit 0,05% in der Grundgesamtheit, so wird in der Regel – also in 97,6% der Fälle – zu Unrecht eine Krebserkrankung befürchtet. Obwohl der Test perfekt sensitiv (100%) und hoch spezifisch (98%) ist, gilt aufgrund der sehr geringen Grundrate der Erkrankung (0,05%), dass viel mehr Frauen fälschlicher Weise als gerechtfertigter Weise positiv getestet werden. Diese bemerkenswerte und auf den ersten Blick paradox erscheinende Informationslage wird durch die Bayes’sche Betrachtung nachvollziehbar.
Beispielszenario Seltene Chronische Atemwegserkrankung Angenommen, 1 von 100 (1%; Prävalenz) Beschäftigten entwickelt diese Form der seltenen chronischen Atemwegserkrankung. 80 von 100 erkrankten Beschäftigten (80%) haben über Jahre hinweg regelmäßig unter Staubexposition gearbeitet. Lediglich 5 von 100 (5%) Beschäftigte, die diese Erkrankungsform nicht entwickelten, waren regelmäßig staubexponiert. Setzt man diese Daten in die Bayes’sche Formel (Formel 4) ein ([Tab. 2]), so ergibt sich ein Risiko von 13,9% dafür, dass ein staubexponierter Beschäftigter erkrankt. Das Risiko ist mit 13,9% durch die Staubexposition selbstverständlich deutlich gegenüber der Referenzgruppe erhöht. Trotzdem ist die Schlussfolgerung, dass diese Erkrankung mit hoher Sicherheit eintritt, unangemessen, da der Großteil der Exponierten (86,1%) diese Erkrankung nicht entwickelt.
Beispielszenario Frühberentung Angenommen, 5 von 100 Beschäftigten werden frühberentet. 20 von 100 Frühberenteten haben sich bereits einmal in einer psychologischen Behandlung befunden, wohingegen lediglich 10 von 100 Beschäftigten, die nicht frühberentet werden, psychologisch behandelt wurden. Für den Positiv Prädiktiven Wert des Merkmals ‚psychologisch behandelt‘ bzgl. des Zielkriteriums ‚Frühberentung‘ ergibt sich dann gemäß der Bayes’schen Formel (Formel 4) der Wert 9,5%. Da der Arbeitgeber keine Personen mehr einstellen möchte, bei denen das Frühberentungsrisiko über 15% liegt, ist die Entscheidung, Personen, die bereits einmal psychologisch behandelt wurden, nicht einzustellen, nicht angemessen.
#
Verständliche Kommunikation und Darstellung der Informationen, die die Gefahr von Fehlschlüssen vermindern
Obwohl die bisher dargestellten Sachverhalte so präsentiert wurden, dass diese ohne besondere mathematische Hintergrundkenntnisse nachvollzogen werden können, sind die logischen Schlussfolgerungen durchaus anspruchsvoll. Da die Problematik von hoher Relevanz für die Informationsvermittlung und die Entscheidungsfindung in der Rehabilitation sind, bedarf es Möglichkeiten der Darstellung und Kommunikation, die es gewährleisten, dass Informationen unmittelbar und ohne eine vertiefende Hintergrundbetrachtung möglichst fehlerfrei verstanden werden können. Hierzu haben insbesondere die Arbeiten des Kognitionspsychologen Gerd Gigerenzer wesentliche Erkenntnisse beigetragen [8] [9] [10].
Darstellungsempfehlung 1 Die Angabe von absoluten Häufigkeit und Referenzwerten unterstützt die Verständlichkeit und Anschaulichkeit der Informationen.
Obwohl prozentuale Angaben auf den ersten Blick als allgemein verständliches Informationsformat erscheinen, ergibt sich insbesondere beim Bayes-Problem die Herausforderung, dass verschiedene Prozent- oder Anteilswerte (z. B. Anteil Erkrankter; Anteil Erkrankter, wenn Test positiv) simultan berücksichtigt werden müssen. Zudem sind kombinierte Anteilswerte, also Anteile von Anteilen, zu beachten. Die simultane Berücksichtigung mehrerer, ggf. kombinierter Prozent- oder Anteilswerte überfordert die kognitiven Kapazitäten der Rezipienten jedoch sehr schnell. Dieser Problematik kann entgegengewirkt werden, wenn absolute Häufigkeiten anstelle von Anteilswerten oder Prozentangaben angegeben werden. Zum Vergleich seien die Informationen des oberen Beispiels in [Tab. 1] einmal mittels Anteilswert und einmal mittels absoluten Häufigkeiten und Referenzwerten formuliert:
Formulierung mittels Prozent- bzw. Anteilswerten 10% der Personen sind krank. Erkrankte erhalten in 90% der Fälle ein positives Testergebnis. 95% der Personen sind gesund. 20% der Gesunden erhalten fälschlicherweise ein positives Testergebnis. Somit haben 90% der Kranken und 20% der Gesunden ein positives Testergebnis. Wenn eine Person nun ein positives Testergebnis erhält, ist sie dann eher krank oder gesund?
Formulierung mittels absoluter Häufigkeiten und Referenzwerten 10 von 200 Personen sind krank. 9 der 10 Erkrankten erhalten ein positives Testergebnis. 190 der 200 Personen sind gesund. Von diesen 190 Personen erhalten 38 fälschlicherweise ein positives Testergebnis. Somit erhalten 38 Gesunde und 9 Kranke ein positives Testergebnis. Wenn eine Person nun ein positives Testergebnis erhält, ist sie dann eher krank oder gesund?
Die zweite Formulierung ist alleine schon deswegen verständlicher, weil 38 größer als 9 ist: Somit korrespondiert die Größe der Zahlen eindeutig mit der Information, die für die korrekte Einschätzung erforderlich ist. Hingegen bildet die isolierte Information 20 vs. 90% in der ersten Formulierung die Alternative ‚gesund‘ mit 20% numerisch als geringer ausgeprägt ab. Der Rezipient kann nur zur richtigen Schlussfolgerung kommen, wenn er diese 20% mit der hohen Grundrate von 95% kombiniert – idealerweise multiplikativ – betrachtet. Dies ist selbstverständlich kognitiv anspruchsvoller, als wenn die absoluten Zahlen (38 vs. 9) keine analytischen Verknüpfungen erfordern, um die Datenlage korrekt beurteilen zu können.
Darstellungsempfehlung 2 Flächendiagramme unterstützen die natürliche Anschaulichkeit der Informationen bzw. der numerischen Verhältnisse.
[Abb. 1] veranschaulicht die Informationen in Form eines Flächendiagramms. In der rechten Säule sind alle erkrankten Personen repräsentiert: Die 9 positiv Getesteten sind schwarz markiert, eine zu Unrecht negativ getestete Person ist weiß markiert. In der Abb. wird unmittelbar deutlich, dass die Gesamtlage von gesunden Personen dominiert wird. Dass hier ein vergleichsweise geringer Teil positiv getestet wird (dunkelgraue Kästchen), springt viel weniger ins Auge als die Tatsache, dass positiv getestete Gesunde (dunkelgraue Kästchen) viel häufiger anzutreffen sind als positiv Getestete (schwarze Kästchen): Somit ist der zu erzielende, valide Eindruck unmittelbar augenscheinlich: Positiv Getestete sind eher gesund als krank. Die Bayes’sche Formel ist unten als Bruch veranschaulicht: Im Zähler sind die positiv getesteten Kranken symbolisiert, im Nenner die Summe der positiv getesteten Gesunden und der positiv getesteten Kranken: Dass das Verhältnis hier deutlich kleiner als 0,5 sein muss, springt ohne Berechnungsnotwendigkeiten unmittelbar ins Auge.
Neben der Anschaulichkeit der grafischen Information sei darauf hingewiesen, dass im Flächendiagramm die unter Darstellungsempfehlung 1 als günstig betonte Information der absoluten Häufigkeiten implizit verwendet wird.
Darstellungsempfehlung 3 Entscheidungsbäume veranschaulichen die logische Struktur und Abhängigkeiten der Informationen und unterstützen so das angemessene Verständnis der Informationen.
[Abb. 2] repräsentiert die Informationen in Form eines Entscheidungsbaums. Hier sind die absoluten Häufigkeiten hierarchisch dargestellt. Ausgehend von der Gesamtanzahl der Personen (N=200) verzweigen sich nach unten Pfade oder Äste gemäß der inhaltlichen Unterscheidungskriterien. Zunächst wird zwischen gesunden und kranken Personen unterschieden. Sowohl vom Knotenpunkte ‚190 Gesunde‘ als auch vom Knotenpunkt ‚10 Kranke‘ zweigen nun 2 Pfade gemäß des zweiten Informationskriteriums ‚positiv getestet‘ vs. ‚negativ getestet‘ ab. Für jeden Knotenpunkt ergibt sich die Personenanzahl aus der Summe der untergeordneten Ebene. Jedem Feld der Vierfeldertafel in [Tab. 1] entspricht in dieser Darstellung ein Pfad. Den Informationen, die bei der Anwendung der Bayes’schen Formel verrechnet werden, entsprechen hier die Pfade, die zu einem positiven Testergebnis führen. Ist bekannt, dass ein positives Testergebnis vorliegt, so dürfen nur noch die Pfade betrachtet werden, die zu einem positiven Testergebnis führen. Da derjenige Pfad, der über ‚gesund‘ führt, mit 38 wesentlich stärker besetzt ist als der über ‚krank‘ führende Pfad mit 9, wird anschaulich klar, dass das Ereignis ‚positiv getestet und gesund‘ deutlich häufiger ist als das Ereignis ‚positiv getestet und krank‘.
Obwohl positive Ergebnisse in Screeningtests und kritische Ausprägungen von Risikomerkmalen wichtige Hinweise liefern, ob ein zu diagnostizierendes Zielkriterium (z. B. Erkrankung) vorliegt, geben diese Hinweisinformationen nicht fehlerfrei Aufschluss über das Zielkriterium. Im Falle seltener Erkrankungen oder seltener Ereignisse kann dies zu massiven Fehleinschätzungen des Erkrankungsrisikos führen, wenn die Hinweisinformation ein erhöhtes Risiko anzeigt. Generell gilt: Je seltener das Zielkriterium auftritt, desto weniger bedenklich ist ein auffälliger Wert in einem Screeningtest oder das Vorliegen eines Risikofaktors. Auch wenn ein Test mit hoher Zuverlässigkeit Kranke korrekt erkennt, so fallen fehlerhafte Testergebnisse bei Gesunden stark ins Gewicht, wenn der Anteil Gesunder in der Gesamtstichprobe dominiert. Das Basisratenproblem beschreibt den Effekt, dass dieser systematische und in der Regel starke Effekt der Grundrate des Zielkriteriums unzulässigerweise ignoriert wird oder zu schwach berücksichtigt wird. Dies führt dazu, dass z. B. Erkrankungsrisiken erheblich überschätzt werde. Die Bayes’sche Formel beschreibt den Zusammenhang zwischen dem Positiv Prädiktiven Wert (Anteil Kranker unter denjenigen, die ein positives Testergebnis erhalten haben) und der Sensitivität eines Tests (Anteil korrekt erkannter Kranker) formal. Nur wenn zusätzlich die Basisrate des Zielkriteriums und die Spezifität des Tests (Anteil korrekt erkannter Gesunder) bekannt sind, kann aus der Sensitivität der Positiv Prädiktive Wert bestimmt werden.
Um eine möglichst einfache Darstellung der Informationsstruktur zu gewährleisten, sollte auf die Angabe von Prozent- und Anteilswerten verzichtet werden. Die Verwendung absoluter Häufigkeiten und die grafische Veranschaulichung als Flächendiagramm oder Entscheidungsbaum sind geeignet, die Information anschaulich und verständlich zu repräsentieren. Rehabilitanden und Behandler können die Bedeutung der Dateninformation bzw. Risiken in diesen Formaten besser verstehen und fehlerfreier einordnen. Dies trägt dazu bei, angemessenere Schlussfolgerungen aus empirischen Befunden abzuleiten und Fehlentscheidungen vorzubeugen.
#
Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“
Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Prof. Dr. Markus Antonius Wirtz, Freiburg; Prof. Dr. Dr. Christian Zwingmann, Siegburg.
Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen: h.faller@uni-wuerzburg.de.
#
#
Interessenkonflikt
Die Autoren geben an, dass kein Interessenkonflikt besteht.
1 Im Folgenden werden einige Begrifflichkeiten für die Analyse zweistufiger, dichotomer Merkmalsausprägungen verwendet, die bereits in anderen Beiträgen der Serie ‚Methoden in der Rehabilitationsforschung‘ ausführlich behandelt wurden. Insbesondere die Beiträge zu diagnostischen Kennzahlen für Vierfeldertafeln [3] [4] enthalten wichtige Grundinformationen zur Analyse dichotomer Merkmale, die für das Verständnis des vorliegenden Beitrags hilfreich sind.
2 Da die folgenden Darstellungen an konkreten Datenbeispielen demonstriert werden, werden die Begriffe Ereignisraten oder -anteile verwendet. Ereignisraten oder -anteile stellen im Falle repräsentativer Stichproben Schätzungen für Wahrscheinlichkeiten dar. Alle folgenden Aussagen zu Ereignisraten sind auch für Wahrscheinlichkeiten gültig.
3 Vertiefende Betrachtung: Folgendes Datenbeispiel soll dies exemplarisch verdeutlichen. Angenommen, 80% der Erkrankten waren staubexponiert (Sensitivität=0,8), und 80% der Gesunden waren nicht diesem Risikofaktor ausgesetzt (Spezifität=0,8). Wenn nun von 200 Personen 100 gesund und 100 erkrankt sind, waren 80 der 100 Erkrankten staubexponiert (entspricht der Information: Sensitivität=80/100) und 20 der 100 Gesunden staubexponiert (entspricht der Information: 1- Spezifität=20/100). Somit gilt, dass sich unter denjenigen, die staubexponiert waren, 80 Erkrankte und 20 Gesunde befinden. 80% derjenigen, die staubexponiert waren, sind somit erkrankt (entspricht der Information: Positiv Prädiktiver Wert=80/100=0,8). Würde beispielsweise die Grundrate der Erkrankung von 50% abweichen, so würde der Positiv Prädiktive Wert nicht mehr der Sensitivität entsprechen, auch wenn Sensitivität und Spezifität gleich sind. Angenommen, nur 50 von 200 (25%) seien erkrankt, 150 (75%) seien gesund. Wenn dann 80% der Erkrankten staubexponiert waren (Sensitivität=0,8), entspräche dies genau 40 erkrankten und zugleich exponierten Personen (=0,8 * 50). Läge die Spezifität ebenfalls bei 0,8, so wären 30 der 150 Gesunden ebenfalls staubexponiert gewesen ((1-Spezifität)*150=30). Unter den Staubexponierten befänden sich dann 40 Erkrankte und 30 Gesunde. Der Positiv Prädiktive Wert betrüge dann: 40/70=0,57. Da mehr Personen gesund als krank sind, fallen hier die Gesunden, die dem Risikofaktor ausgesetzt waren, deutlich stärker ins Gewicht, und der Positiv Prädiktive Wert sinkt systematisch gegenüber der Sensitivität ab.
-
Literatur
- 1 Gaissmaier W, Gigerenzer G. Wenn fehlinformierte Patienten versuchen, informierte Gesundheitsentscheidungen zu treffen. In: Gigerenzer G, Muir Gray JA. (Hrsg.) Bessere Ärzte, bessere Patienten, bessere Medizin. Aufbruch in ein transparentes Gesundheitswesen. Berlin: Medizinisch Wissenschaftliche Verlagsgesellschaft; 2013: 29-44
- 2 Dirmaier J, Härter M. Diagnoseaufklärung, Information und Entscheidung über Behandlungen - Patientenbeteiligung und partizipative Entscheidungsfindung. In Koch U, Bengel J. (Hrsg.) Enzyklopädie der Psychologie. Anwendungen der Medizinischen Psychologie. Medizinische Psychologie 2. Göttingen: Hogrefe; 2017: 3-34
- 3 Faller H. Sensitivität, Spezifität, positiver und negativer Vorhersagewert. Serie Methoden in der Rehabilitation. Rehabilitation 2005; 44: 44-49
- 4 Wirtz MA. Grundlegende Maßzahlen zur Analyse zweistufiger Merkmalsausprägungen: Risiko, Odds, Logits, Relatives Risiko, Odds Ratio. Serie Methoden in der Rehabilitation. Rehabilitation. [im Druck]
- 5 Härter M, Reuter K, Groß-Hardt K. et al. Screening for anxiety, depressive and somatoform disorders in rehabilitation. Validity of HADS and GHQ-12 in patients with musculoskeletal disease. Disability and Rehabilitation 2009; 23: 737-744
- 6 Kessler J, Markowitsch HJ, Denzler P. Mini-Mental-Status-Test (MMST). Göttingen: Beltz; 2000
- 7 Benesch M, Raab-Steiner E. Klinische Studien lesen und verstehen. Wien: Facultas; 2013
- 8 Gigerenzer G. Risiko: Wie man die richtigen Entscheidungen trifft. München: Bertelsmann; 2013
- 9 Gigerenzer G, Swijtink Z, Porter T. et al. The empire of chance: How probability changed science and everyday life. Cambridge: Cambridge University Press; 1989
- 10 Sedlmeier P, Gigerenzer G. Teaching Bayesian reasoning in less than two hours. Journal of Experimental Psychology (General) 2001; 130: 380-400
Korrespondenzadresse
-
Literatur
- 1 Gaissmaier W, Gigerenzer G. Wenn fehlinformierte Patienten versuchen, informierte Gesundheitsentscheidungen zu treffen. In: Gigerenzer G, Muir Gray JA. (Hrsg.) Bessere Ärzte, bessere Patienten, bessere Medizin. Aufbruch in ein transparentes Gesundheitswesen. Berlin: Medizinisch Wissenschaftliche Verlagsgesellschaft; 2013: 29-44
- 2 Dirmaier J, Härter M. Diagnoseaufklärung, Information und Entscheidung über Behandlungen - Patientenbeteiligung und partizipative Entscheidungsfindung. In Koch U, Bengel J. (Hrsg.) Enzyklopädie der Psychologie. Anwendungen der Medizinischen Psychologie. Medizinische Psychologie 2. Göttingen: Hogrefe; 2017: 3-34
- 3 Faller H. Sensitivität, Spezifität, positiver und negativer Vorhersagewert. Serie Methoden in der Rehabilitation. Rehabilitation 2005; 44: 44-49
- 4 Wirtz MA. Grundlegende Maßzahlen zur Analyse zweistufiger Merkmalsausprägungen: Risiko, Odds, Logits, Relatives Risiko, Odds Ratio. Serie Methoden in der Rehabilitation. Rehabilitation. [im Druck]
- 5 Härter M, Reuter K, Groß-Hardt K. et al. Screening for anxiety, depressive and somatoform disorders in rehabilitation. Validity of HADS and GHQ-12 in patients with musculoskeletal disease. Disability and Rehabilitation 2009; 23: 737-744
- 6 Kessler J, Markowitsch HJ, Denzler P. Mini-Mental-Status-Test (MMST). Göttingen: Beltz; 2000
- 7 Benesch M, Raab-Steiner E. Klinische Studien lesen und verstehen. Wien: Facultas; 2013
- 8 Gigerenzer G. Risiko: Wie man die richtigen Entscheidungen trifft. München: Bertelsmann; 2013
- 9 Gigerenzer G, Swijtink Z, Porter T. et al. The empire of chance: How probability changed science and everyday life. Cambridge: Cambridge University Press; 1989
- 10 Sedlmeier P, Gigerenzer G. Teaching Bayesian reasoning in less than two hours. Journal of Experimental Psychology (General) 2001; 130: 380-400