Rehabilitation (Stuttg) 2005; 44(1): 44-49
DOI: 10.1055/s-2004-834624
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag KG Stuttgart · New York

Sensitivität, Spezifität, positiver und negativer Vorhersagewert

Sensitivity, Specificity, Positive and Negative Predictive ValueH.  Faller1
  • 1Stiftungsprofessur Rehabilitationswissenschaften, Institut für Psychotherapie und Medizinische Psychologie, Universität Würzburg
Weitere Informationen

Prof. Dr. med. Dr. phil. Dipl.-Psych. Hermann Faller

Stiftungsprofessur Rehabilitationswissenschaften · Institut für Psychotherapie und Medizinische Psychologie · Universität Würzburg

Klinikstraße 3

97070 Würzburg

eMail: h.faller@mail.uni-wuerzburg.de

Publikationsverlauf

Publikationsdatum:
25. Januar 2005 (online)

Inhaltsübersicht #

Zusammenfassung

Was bedeutete es, wenn ein Screeningtest eine Sensitivität von 80 % und eine Spezifität von 80 % aufweist? Welche Schlussfolgerungen kann ich daraus auf die Wahrscheinlichkeit ziehen, mit der ein positiv getesteter Patient die gesuchte Störung auch tatsächlich aufweist? Ist diese Wahrscheinlichkeit abhängig von der Prävalenz der gesuchten Störung? Derartige Fragen werden im folgenden Beitrag behandelt. Die klassischen Begriffe Sensitivität und Spezifität werden ebenso erläutert wie die moderneren und alltagsrelevanteren Konzepte des positiven und negativen Vorhersagewerts. Dabei benutzt der Autor unterschiedliche didaktische Präsentationen wie 4-Felder-Tafeln, grafische Darstellungen und natürliche Häufigkeiten, um diese immer wieder verwechselten Begriffe möglichst einfach und nachvollziehbar darzustellen.

#

Abstract

What does it mean that a screening test has a sensitivity of 80 % and a specificity of 80 %? What conclusion can be drawn as to the probability of a patient tested positive having the target disorder? Is this probability dependent on the prevalence of the target disorder? These are the questions addressed in the present paper. The classical concepts of sensitivity and specificity are presented as well as the more modern and clinically relevant concepts of the predictive values of a positive and a negative test. The author employs different didactic methods such as 2 × 2 tables, graphical illustrations and natural frequencies for elaborating on these often intermixed concepts in a clear and easily understandable way.

Sensitivität, Spezifität, positiver und negativer Vorhersagewert sind wichtige Kriterien zur Beurteilung eines diagnostischen Verfahrens, insbesondere dann, wenn das Verfahren ein dichotomes Ergebnis erbringt, der Test also positiv oder negativ ausfallen kann. Diese Kriterien sind von großer Bedeutung sowohl für die Auswahl eines geeigneten Tests als auch die Interpretation der Testergebnisse. Am einfachsten lässt sich dies am Beispiel eines Screeningverfahrens demonstrieren. Im folgenden Beitrag soll deshalb angenommen werden, eine Reha-Klinik plane die Einführung eines Screenings ihrer Patienten auf psychische Begleiterkrankungen.

Die psychische Komorbidität bei organisch Kranken in der Rehabilitation ist beträchtlich. Die Prävalenz aktueller psychischer Störungen liegt zwischen 20 und 30 % [1] [2]. Inzwischen wird deshalb in mehreren Leitlinien gefordert, körperlich Kranke einem Screeningverfahren im Hinblick auf psychische Störungen zu unterziehen, natürlich immer vorausgesetzt, die betreffende Institution hält auch entsprechende Behandlungsangebote vor (z. B. [3]). Damit ein Screening überhaupt sinnvoll ist, müssen bestimmte Bedingungen erfüllt sein [4]:

  1. Die Krankheit, um die es geht, muss zum einen ausreichend häufig und zum anderen gravierend im Hinblick auf die Lebensqualität der Betroffenen sein,

  2. eine wirksame Behandlung muss zur Verfügung stehen,

  3. es müssen gute Screeningtests vorhanden sein, und

  4. die Nützlichkeit eines Screenings (mit anschließender Behandlung je nach Testergebnis) muss nachgewiesen sein.

Diese Voraussetzungen sind beispielsweise für die Depression erfüllt [5] [6] [7] [8] [9]. Deshalb nehmen die folgenden Ausführungen die Depression als Beispiel für eine Zielkrankheit bzw. Störung, die durch ein Screening entdeckt werden soll; die vorgestellten Konzepte sind jedoch analog auf beliebige andere Zielkrankheiten übertragbar.

Angenommen, ein Screeningtest hat eine Sensitivität von 80 % und eine Spezifität von 80 %. (Dies sind Zahlen, wie sie psychologische Screeningverfahren häufig aufweisen.) Weiterhin angenommen, die Prävalenz der gesuchten Störung (hier: einer Depression) in der untersuchten Population von Patienten der stationären medizinischen Rehabilitation betrage 20 %. (Auch dies ist eine realistische Annahme.) Wie groß ist dann die Wahrscheinlichkeit, dass ein positiv getesteter Patient auch tatsächlich eine Depression aufweist? Diese Frage können die meisten von uns wahrscheinlich nicht ohne längeres Nachdenken beantworten. Ein Grund dafür liegt darin, dass die Frage unter Angabe von bedingten Wahrscheinlichkeiten gestellt wird. Bedingte Wahrscheinlichkeiten leuchten uns aber nicht intuitiv ein, zumal dann nicht, wenn sie sich auf unterschiedliche Referenzgruppen beziehen [10]. Deshalb werden im Folgenden drei unterschiedliche Darstellungsweisen gewählt, die die Konzepte, um die es geht, Schritt für Schritt näher bringen sollen. Die Darstellungsweisen sind:

  1. die klassische Definition der Begriffe anhand einer 4-Felder-Tafel [4],

  2. eine grafische Präsentation „für die rechte Gehirnhälfte” [11],

  3. ein Baumdiagramm mit natürlichen Häufigkeiten [10].

Die klassischen Kriterien für die Bewertung eines diagnostischen Tests (s. Abb. [1]) umfassen Sensitivität und Spezifität, Konzepte, die aus der Signalentdeckungstheorie (signal detection theory) stammen [12] [13]. Diese Kriterien können anhand eines 4-Felder-Schemas erläutert werden (Abb. [1 a]). In diesem 4-Felder-Schema werden das tatsächliche Vorhandensein einer Krankheit (vorhanden oder nicht vorhanden)[1] und das Ergebnis eines diagnostischen Tests, welches positiv oder negativ ausfallen kann, miteinander kombiniert. Ein guter Test fällt positiv aus, wenn die Störung tatsächlich vorhanden ist (Feld a: richtig positiv), hingegen negativ, wenn die Störung tatsächlich nicht vorhanden ist (Feld d: richtig negativ). Da Tests aber keine perfekte Validität besitzen, kommen auch falsch positive (Feld b) und falsch negative (Feld c) Ergebnisse vor. Das tatsächliche Vorhandensein wird in Validierungsstudien durch das Ergebnis des Referenzstandards festgelegt. Referenzstandards können beispielsweise pathologische Befunde oder Laborbefunde sein. Im Bereich psychologischer Merkmale gibt es derartige objektive Kriterien (noch) nicht. Als Referenzstandard wird bei psychischen Störungen meist ein strukturiertes klinisches Interview nach ICD-10 oder DSM-IV verwandt.[2]

Zoom Image

Abb. 1 Kriterien zur Beurteilung eines diagnostischen Tests (nach [4]), Erläuterungen im Text, a) Vierfeldertafel, in der Aussage des Referenzstandards und Testergebnis kombiniert werden, b) Sensitivität und Spezifität, c) positiver und negativer Vorhersagewert.

Sensitivität und Spezifität sind Kennwerte, die vom „tatsächlichen” Vorhandensein einer Störung ausgehen, d. h. von der Klassifikation der Probanden je nach dem Ergebnis des Referenzstandards. Die Sensitivität gibt an, wie viele derjenigen Patienten, die eine Depression tatsächlich haben, vom Test auch als positiv identifiziert werden (Abb. [1 b]). Bezugsgruppe der Sensitivität ist also die Gruppe derjenigen Probanden, die die gesuchte Krankheit aufweisen. Die Sensitivität vermindert sich, wenn der Test viele falsch negative Ergebnisse produziert, also eigentlich depressive Patienten nicht entdeckt. Abb. [2] veranschaulicht dies grafisch: In einer Population von 100 Probanden (durch Kästchen dargestellt) sind 20 depressiv (ausgefüllte Kreise) und 80 nicht (leere Kreise) (Prävalenz 20 %; Abb. [2 a]). Das Testergebnis ist durch die Schattierung der Kästchen dargestellt (Abb. [2 b]). Für die Bestimmung der Sensitivität greifen wir die Untergruppe derjenigen 20 Probanden heraus, die die Krankheit haben (Abb. [2 c]). Von diesen werden 80 %, d. h. 16 von 20, richtig positiv klassifiziert, also als depressiv erkannt (Sensitivität 80 %). Bei 4 Probanden fällt der Test hingegen falsch negativ aus; sie werden als gesund klassifiziert, obwohl sie eigentlich krank sind.

Zoom Image

Abb. 2 Grafische Darstellung der Logik der Kriterien (mod. nach [11]), Erläuterungen im Text, a) Prävalenz, b) Testergebnis, c) Sensitivität, d) Spezifität, e) positiver Vorhersagewert, f) negativer Vorhersagewert.

Die Spezifität gibt an, wie viele Patienten, die keine Depression haben, vom Test auch als negativ klassifiziert werden (s. Abb. [1 b]). Ein Test mit hoher Spezifität erkennt Gesunde korrekt als gesund und fällt negativ aus. Die Spezifität vermindert sich, wenn der Test viele falsch positive Ergebnisse produziert. Für die Bestimmung der Spezifität ist demnach die Untergruppe der Gesunden die Bezugsgröße. Wenn wir in unserem grafischen Beispiel die 80 Gesunden herausgreifen, so werden von diesen bei einer Spezifität von 80 % 64 korrekt negativ getestet (Abb. [2 d]). Die übrigen 16 werden fälschlicherweise als „krank” gemeldet, obwohl sie in Wirklichkeit gesund sind (falsch positiv).

Sensitivität und Spezifität gehen, wie gesagt, vom tatsächlichen Vorhandensein bzw. Nichtvorhandensein einer Krankheit aus, welches in einer Validierungsstudie mittels eines Referenzstandards bestimmt wurde. Im klinischen Alltag haben wir einen derartigen Referenzstandard aber meist nicht regelmäßig zur Verfügung. Hier sind wir zunächst mit dem Testergebnis konfrontiert, das positiv oder negativ ausgefallen ist. Im Alltag steht man deshalb häufiger vor der umgekehrten Frage, ob denn diejenigen Patienten, die positiv getestet wurden, auch tatsächlich die entsprechende Störung besitzen, nach der der Test sucht, also in unserem Beispiel eine Depression aufweisen. Hierüber gibt der Vorhersagewert eines positiven Testergebnisses (auch positiver Vorhersagewert oder positive Korrektheit genannt) Auskunft (s. Abb. [1 c]). Der Vorhersagewert eines positiven Tests gibt an, wie hoch der Anteil der tatsächlich depressiven Patienten unter den positiv getesteten Patienten ist. Bezugsgruppe ist jetzt die Gruppe der Testpositiven (nicht, wie bei der Sensitivität, der Kranken). In der grafischen Darstellung (Abb. [2 e]) werden jetzt also die grau schattierten Kästchen herausgegriffen, und wir bestimmen, wie viele von ihnen auch in Wirklichkeit erkrankt sind (ausgefüllte Kreise): Bei 32 Probanden ist der Test positiv ausgefallen, aber nur 16 davon sind laut Referenzstandard depressiv. Nur die Hälfte der Patienten, die im Screening positiv getestet wurden, hat auch tatsächlich eine Depression. Der positive Vorhersagewert beträgt somit 50 %.

Analog gibt der Vorhersagewert eines negativen Testergebnisses (negativer Vorhersagewert, negative Korrektheit) Auskunft darüber, ob Testnegative auch tatsächlich „gesund”, d. h. nicht depressiv, sind (s. Abb. [1 c]). Grafisch dargestellt, geht es jetzt um die Untergruppe der nicht schattierten Kästchen (Abb. [2 f]). Von den 68 Testnegativen haben 64, d. h. 94 %, auch laut Referenzstandard keine Depression. 4 Probanden wurden jedoch falsch negativ getestet, d. h. der Test signalisiert „gesund”, obwohl de facto die gesuchte Störung vorliegt.

Für viele Leser noch leichter nachvollziehbar als die bisher verwandten Darstellungsweisen ist möglicherweise ein Entscheidungsbaum unter Benutzung natürlicher Häufigkeiten [10], wie er in Abb. [3] dargestellt ist. In Abb. [3 a] sind 100 Patienten dargestellt, von denen 20 depressiv sind und 80 nicht (Prävalenz 20 %). Von den 20 Depressiven werden bei einer Sensitivität von 80 % 16 als positiv diagnostiziert, d. h. als depressiv erkannt. Von den 80 nicht Depressiven werden bei einer Spezifität von 80 % 64 negativ getestet, d. h. als nicht depressiv identifiziert, die übrigen 16 jedoch falsch positiv. Insgesamt finden sich also 16 + 16 = 32 Testpositive, von denen jedoch nur 16 tatsächlich eine Depression aufweisen: Der prädiktive Wert eines positiven Testergebnisses beträgt 50 %. Das bedeutet: Wer testpositiv ist, hat nur in 50 % tatsächlich eine Depression. Wer testnegativ ist, hat allerdings ziemlich sicher keine.

Zoom Image

Abb. 3 Sensitivität, Spezifität und positiver Vorhersagewert unter Angabe natürlicher Häufigkeiten (nach [10]), a) Prävalenz 20 %, b) Prävalenz 10 %.

Die Vorhersagewerte sind in hohem Maße von der Prävalenz, d. h. der Basisrate der Störung in der untersuchten Population, abhängig [13].[3] Bei gleicher Sensitivität und Spezifität, aber einer niedrigeren Prävalenz von zum Beispiel 10 %, sinkt der prädiktive Wert eines positiven Tests auf 31 % ab (Abb. [3 b]). (Umgekehrt steigt der zuvor schon hohe negative Vorhersagewert noch etwas an, von 94 auf 97 %.) Je geringer die Prävalenz, d. h. die von vornherein bestehende Wahrscheinlichkeit, dass eine Krankheit vorliegt, umso größer die Wahrscheinlichkeit, dass ein negatives Testergebnis korrekt ist. Umso geringer umgekehrt auch die Wahrscheinlichkeit, dass ein positives Testergebnis richtig positiv ist. Falsch positive Testergebnisse vermindern aber den positiven Vorhersagewert. Hohe Sensitivität allein ist also kein anzustrebendes Ziel. Einen Test mit einer Sensitivität von 100 % zu erzielen, wäre im Grunde ja ganz einfach: Der Test müsste nur alle Patienten als positiv klassifizieren; dann würde er mit Sicherheit auch die Depressiven erfassen. Ein solcher Test wäre jedoch nutzlos. Es reicht deshalb nicht aus, dass Screeningtests eine hohe Sensitivität haben und alle belasteten Patienten auch erkennen; vielmehr ist eine hohe Spezifität ebenso wichtig, um eine Überdiagnostik zu vermeiden, die die diagnostischen und therapeutischen Ressourcen einer Institution überfordern würde.

Bisher waren wir vom einfachen Fall ausgegangen, dass der Screeningtest ein dichotomes Ergebnis (positiv oder negativ) erbringt. Es gibt jedoch auch Screeningverfahren, die das Merkmal, um das es geht, auf einer kontinuierlichen Skala quantitativ messen. Man kann hier von dimensionaler - im Unterschied zu kategorialer - Diagnostik sprechen. Will man nun auf der Basis eines dimensional gemessenen Testergebnisses zu einer dichotomen Entscheidung (Störung vorhanden vs. nicht vorhanden) gelangen, muss man die Skala anhand eines Cut-off-Punkts in einen positiven und einen negativen Bereich einteilen. Dieser Cut-off-Wert wird so festgelegt, dass eine dichotome Klassifizierung anhand dieses Punkts mit einer möglichst hohen Sensitivität und Spezifität einhergeht. Man trägt dazu Sensitivität und Spezifität für unterschiedliche Cut-off-Werte gegeneinander ab. Eine derartige Grafik wird Receiver-Operating-Characteristics-Kurve (ROC-Kurve) genannt [12] [13]. Abb. [4] (aus [5]) zeigt solche ROC-Kurven für drei verschiedene Screeningtests zur Entdeckung einer depressiven Störung. Jeder Punkt entspricht einem Cut-off-Wert, und auf den Achsen sind die dazugehörigen Werte der Sensitivität und Spezifität abgetragen. Setzt man den Cut-off-Wert niedrig an, so erzielt man eine hohe Sensitivität, d. h. erfasst viele Kranke, auf Kosten einer geringen Spezifität, d. h. man erfasst auch viele Gesunde. Setzt man den Cut-off-Wert hoch an, so liegt die Spezifität entsprechend hoch, d. h. man erfasst wenige Gesunde, sodass die Testpositiven mit großer Wahrscheinlichkeit auch krank sind, allerdings auf Kosten einiger Kranker, die durch die Maschen fallen. Sensitivität und Spezifität weisen also einen „trade-off” auf. Der optimale Cut-off-Punkt ist derjenige, bei dem sowohl Sensitivität als auch Spezifität möglichst hoch sind.[4] Grafisch stellt sich dies so dar, dass der Cut-off-Wert in derjenigen Ecke zu liegen kommt, in der Sensitivität und Spezifität jeweils 100 % betragen. Die ROC-Kurven guter Tests bewegen sich möglichst weit in diese Ecke, während sich weniger gute Tests nicht sehr weit von der Diagonalen, die einer zufälligen Klassifikation entspricht, wegbewegen. Die Güte unterschiedlicher Tests lässt sich durch die Größe der Fläche unter der Kurve (area under the curve, AUC) bestimmen: Je weiter weg die ROC-Kurve von der Diagonalen zu liegen kommt und sich in die Richtung der Ecke mit möglichst hoher Sensitivität und Spezifität bewegt, desto größer die AUC und desto besser der Test. Löwe et al. [5] haben eine solche vergleichende Evaluation dreier deutschsprachiger dimensionaler Screeningtests für Depression durchgeführt. Sie prüften die Depressionsskala des Gesundheitsfragebogens für Patienten (Patient Health Questionnaire - PHQ, [14]), die Hospital Anxiety and Depression Scale (HADS, [15]) und den WHO Well Being Index (WBI-5, [16]) gegen die durch ein diagnostisches Interview (SCID, [17]) nach DSM-IV festgestellte Diagnose einer depressiven Störung (major depressive disorder) als Referenzstandard. „Testsieger” wurde der PHQ. Seine AUC war signifikant größer als diejenige von HADS und WBI-5. Für alle drei Verfahren wurden optimale Cut-off-Werte bestimmt. Für diese Cut-off-Werte betrugen die jeweiligen Sensitivitäten 98 % (PHQ), 94 % (WBI-5) und 85 % (HADS) und die Spezifitäten 80 % (PHQ), 78 % (WBI-5) und 76 % (HADS). Der PHQ besitzt darüber hinaus einen kategorialen Algorithmus für die Verdachtsdiagnose einer depressiven Störung, dessen Sensitivität 83 % und Spezifität 90 % betrugen.

Zoom Image

Abb. 4 ROC-Kurven für drei Screeningtests zur Entdeckung einer depressiven Störung. Jeder Punkt entspricht einem Cut-off-Wert. Referenzstandard strukturiertes klinisches Interview nach DSM-IV (aus [5]). Anm.: PHQ: Patient Health Questionnaire, HADS: Hospital Anxiety and Depression Scale, WBI-5: WHO Well Being Index, PK: kategorialer Algorithmus des PHQ, AD: ärztliche Diagnose.

Sensitivität, Spezifität und die beiden Vorhersagewerte sind Aspekte der Validität. Daneben spielen auch die übrigen Testgütekriterien für die Auswahl eines Tests eine Rolle [18]: Reliabilität (Messgenauigkeit, Reproduzierbarkeit) und Objektivität (Unabhängigkeit vom Untersucher). Bei Screeningtests, die mit geringem Aufwand eine große Zahl von Patienten „filtern” sollen, ist auch die Ökonomie des Verfahrens wichtig. Sowohl das Ausfüllen als auch das Auswerten sollten einen möglichst geringen Zeitaufwand erfordern, um eine möglichst große Akzeptanz bei Patienten wie Personal zu erzielen.

#

Literatur

  • 1 Härter M, Reuter K, Schretzmann B, Hasenburg A, Aschenbrenner A, Weis J. Komorbide psychische Störungen bei Krebspatienten in der stationären Akutbehandlung und medizinischen Rehabilitation.  Rehabilitation. 2000;  39 317-323
  • 2 Härter M, Baumeister H, Reuter K, Wunsch A, Bengel J. Epidemiologie komorbider psychischer Störungen bei Rehabilitanden mit muskuloskeletalen und kardiovaskulären Erkrankungen.  Rehabilitation. 2002;  41 367-374
  • 3 US Preventive Services Task Force . Screening for depression: recommendations and rationale.  Ann Intern Med. 2002;  136 760-764
  • 4 Sackett D L, Straus S E, Richardson W S, Rosenberg W, Haynes R B. Evidence-based medicine. 2. Aufl. Edinburgh; Churchill Livingstone 2000
  • 5 Löwe B, Spitzer R L, Grafe K, Kroenke K, Quenter A, Zipfel S, Buchholz C, Witte S, Herzog W. Comparative validity of three screening questionnaires for DSM-IV depressive disorders and physicians' diagnoses.  Journal of Affective Disorders. 2004;  78 131-140
  • 6 Kroenke K, Spitzer R L, Williams J BW. The PHQ-9. Validity of a brief depression severity measure.  J Gen Intern Med. 2001;  16 606-613
  • 7 Pignone M P, Gaynes B N, Rushton J L, Burchell C M, Orleans C T, Mulrow C D, Lohr K N. Screening for depression in adults: A summary of the evidence for the U. S. Preventive Services Task Force.  Annals of Internal Medicine. 2002;  136 765-776
  • 8 Spitzer R L, Williams J BW, Kroenke K, Linzer M, deGruy III F V, Hahn S R, Brody D, Johnson J G. Utility of a new procedure for diagnosing mental disorders in primary care. The PRIME-MD 1000 study.  JAMA. 1994;  272 1749-1756
  • 9 Whooley M A, Simon G E. Managing depression in medical outpatients.  N Engl J Med. 2000;  343 1942-1950
  • 10 Gigerenzer G. Das Einmaleins der Skepsis. Berlin; Berlin Taschenbuch Verlag 2004
  • 11 Loong T-W. Understanding sensitivity and specificity with the right side of the brain.  BMJ. 2003;  327 16-19
  • 12 Kraemer H C. Evaluating medical tests. Newbury Park; Sage 1992
  • 13 Sackett D L, Haynes R B, Guyatt G H, Tugwell P. Clinical epidemiology. 2. Aufl. Boston; Little, Brown and Company 1991
  • 14 Löwe B, Spitzer R L, Zipfel S, Herzog W. Gesundheitsfragebogen für Patienten (PHQ-D). 2. Aufl. Karlsruhe; Pfizer 2002
  • 15 Herrmann C, Buss U, Snaith R. Hospital Anxiety and Depression Scale - Deutsche Version. Bern; Huber 1995
  • 16 World Health Organization (WHO) .Wellbeing measures in primary health care: The DepCare Project. Kopenhagen; WHO Regional Office for Europe 1998
  • 17 Wittchen H, Zaudig M, Fydrich T. Strukturiertes Klinisches Interview für DSM-IV (SKID), Achse 1. Göttingen; Hogrefe 1997
  • 18 Lienert G A, Raatz U. Testaufbau und Testanalyse. Weinheim; Beltz PVU 1998

1 Wir sprechen an dieser Stelle vereinfachend vom tatsächlichen Vorhandensein der Krankheit, obwohl es sich in den meisten Fällen lediglich um die Diagnose einer Krankheit handelt. Die Diagnose steht aber mit dem tatsächlichen Vorhandensein wiederum nur in einer mehr oder weniger engen Beziehung. „A disorder is what a patient has; a diagnosis is what a physician believes a patient has” [12].

2 Auf das Problem der Wahl eines geeigneten Referenzstandards kann im Rahmen dieser Arbeit nicht eingegangen werden. Dies ist ein inhaltliches Problem, welches die vorgestellten Wahrscheinlichkeitskonzepte zunächst nicht berührt. Auch die Frage, ob es sich bei Depression um eine Krankheit oder, zurückhaltender formuliert, nur um eine Störung handelt, ist für die folgenden Überlegungen nicht relevant.

3 Obwohl allgemein angenommen wird, dass Sensitivität und Spezifität in unterschiedlichen Populationen konstant sind, ist dies nicht notwendigerweise der Fall [12].

4 Oft strebt man bei einem Screening eine möglichst hohe Sensitivität an, um keine Kranken zu verpassen. Damit nimmt man aber u. U. einen hohen Anteil falsch positiver Testresultate in Kauf. Diesem Nachteil (für die Betroffenen wie auch das Team) kann man in einem zweistufigen Screening dadurch begegnen, dass man für die erste Teststufe mehr Wert auf die Sensitivität legt, während der zweite Test möglichst spezifisch sein sollte, um die falsch positiv getesteten Probanden wieder auszuschließen.

Prof. Dr. med. Dr. phil. Dipl.-Psych. Hermann Faller

Stiftungsprofessur Rehabilitationswissenschaften · Institut für Psychotherapie und Medizinische Psychologie · Universität Würzburg

Klinikstraße 3

97070 Würzburg

eMail: h.faller@mail.uni-wuerzburg.de

#

Literatur

  • 1 Härter M, Reuter K, Schretzmann B, Hasenburg A, Aschenbrenner A, Weis J. Komorbide psychische Störungen bei Krebspatienten in der stationären Akutbehandlung und medizinischen Rehabilitation.  Rehabilitation. 2000;  39 317-323
  • 2 Härter M, Baumeister H, Reuter K, Wunsch A, Bengel J. Epidemiologie komorbider psychischer Störungen bei Rehabilitanden mit muskuloskeletalen und kardiovaskulären Erkrankungen.  Rehabilitation. 2002;  41 367-374
  • 3 US Preventive Services Task Force . Screening for depression: recommendations and rationale.  Ann Intern Med. 2002;  136 760-764
  • 4 Sackett D L, Straus S E, Richardson W S, Rosenberg W, Haynes R B. Evidence-based medicine. 2. Aufl. Edinburgh; Churchill Livingstone 2000
  • 5 Löwe B, Spitzer R L, Grafe K, Kroenke K, Quenter A, Zipfel S, Buchholz C, Witte S, Herzog W. Comparative validity of three screening questionnaires for DSM-IV depressive disorders and physicians' diagnoses.  Journal of Affective Disorders. 2004;  78 131-140
  • 6 Kroenke K, Spitzer R L, Williams J BW. The PHQ-9. Validity of a brief depression severity measure.  J Gen Intern Med. 2001;  16 606-613
  • 7 Pignone M P, Gaynes B N, Rushton J L, Burchell C M, Orleans C T, Mulrow C D, Lohr K N. Screening for depression in adults: A summary of the evidence for the U. S. Preventive Services Task Force.  Annals of Internal Medicine. 2002;  136 765-776
  • 8 Spitzer R L, Williams J BW, Kroenke K, Linzer M, deGruy III F V, Hahn S R, Brody D, Johnson J G. Utility of a new procedure for diagnosing mental disorders in primary care. The PRIME-MD 1000 study.  JAMA. 1994;  272 1749-1756
  • 9 Whooley M A, Simon G E. Managing depression in medical outpatients.  N Engl J Med. 2000;  343 1942-1950
  • 10 Gigerenzer G. Das Einmaleins der Skepsis. Berlin; Berlin Taschenbuch Verlag 2004
  • 11 Loong T-W. Understanding sensitivity and specificity with the right side of the brain.  BMJ. 2003;  327 16-19
  • 12 Kraemer H C. Evaluating medical tests. Newbury Park; Sage 1992
  • 13 Sackett D L, Haynes R B, Guyatt G H, Tugwell P. Clinical epidemiology. 2. Aufl. Boston; Little, Brown and Company 1991
  • 14 Löwe B, Spitzer R L, Zipfel S, Herzog W. Gesundheitsfragebogen für Patienten (PHQ-D). 2. Aufl. Karlsruhe; Pfizer 2002
  • 15 Herrmann C, Buss U, Snaith R. Hospital Anxiety and Depression Scale - Deutsche Version. Bern; Huber 1995
  • 16 World Health Organization (WHO) .Wellbeing measures in primary health care: The DepCare Project. Kopenhagen; WHO Regional Office for Europe 1998
  • 17 Wittchen H, Zaudig M, Fydrich T. Strukturiertes Klinisches Interview für DSM-IV (SKID), Achse 1. Göttingen; Hogrefe 1997
  • 18 Lienert G A, Raatz U. Testaufbau und Testanalyse. Weinheim; Beltz PVU 1998

1 Wir sprechen an dieser Stelle vereinfachend vom tatsächlichen Vorhandensein der Krankheit, obwohl es sich in den meisten Fällen lediglich um die Diagnose einer Krankheit handelt. Die Diagnose steht aber mit dem tatsächlichen Vorhandensein wiederum nur in einer mehr oder weniger engen Beziehung. „A disorder is what a patient has; a diagnosis is what a physician believes a patient has” [12].

2 Auf das Problem der Wahl eines geeigneten Referenzstandards kann im Rahmen dieser Arbeit nicht eingegangen werden. Dies ist ein inhaltliches Problem, welches die vorgestellten Wahrscheinlichkeitskonzepte zunächst nicht berührt. Auch die Frage, ob es sich bei Depression um eine Krankheit oder, zurückhaltender formuliert, nur um eine Störung handelt, ist für die folgenden Überlegungen nicht relevant.

3 Obwohl allgemein angenommen wird, dass Sensitivität und Spezifität in unterschiedlichen Populationen konstant sind, ist dies nicht notwendigerweise der Fall [12].

4 Oft strebt man bei einem Screening eine möglichst hohe Sensitivität an, um keine Kranken zu verpassen. Damit nimmt man aber u. U. einen hohen Anteil falsch positiver Testresultate in Kauf. Diesem Nachteil (für die Betroffenen wie auch das Team) kann man in einem zweistufigen Screening dadurch begegnen, dass man für die erste Teststufe mehr Wert auf die Sensitivität legt, während der zweite Test möglichst spezifisch sein sollte, um die falsch positiv getesteten Probanden wieder auszuschließen.

Prof. Dr. med. Dr. phil. Dipl.-Psych. Hermann Faller

Stiftungsprofessur Rehabilitationswissenschaften · Institut für Psychotherapie und Medizinische Psychologie · Universität Würzburg

Klinikstraße 3

97070 Würzburg

eMail: h.faller@mail.uni-wuerzburg.de

Zoom Image

Abb. 1 Kriterien zur Beurteilung eines diagnostischen Tests (nach [4]), Erläuterungen im Text, a) Vierfeldertafel, in der Aussage des Referenzstandards und Testergebnis kombiniert werden, b) Sensitivität und Spezifität, c) positiver und negativer Vorhersagewert.

Zoom Image

Abb. 2 Grafische Darstellung der Logik der Kriterien (mod. nach [11]), Erläuterungen im Text, a) Prävalenz, b) Testergebnis, c) Sensitivität, d) Spezifität, e) positiver Vorhersagewert, f) negativer Vorhersagewert.

Zoom Image

Abb. 3 Sensitivität, Spezifität und positiver Vorhersagewert unter Angabe natürlicher Häufigkeiten (nach [10]), a) Prävalenz 20 %, b) Prävalenz 10 %.

Zoom Image

Abb. 4 ROC-Kurven für drei Screeningtests zur Entdeckung einer depressiven Störung. Jeder Punkt entspricht einem Cut-off-Wert. Referenzstandard strukturiertes klinisches Interview nach DSM-IV (aus [5]). Anm.: PHQ: Patient Health Questionnaire, HADS: Hospital Anxiety and Depression Scale, WBI-5: WHO Well Being Index, PK: kategorialer Algorithmus des PHQ, AD: ärztliche Diagnose.