Zusammenfassung
Zielstellung: In dieser Arbeit werden anhand
eines Datenbeispiels verschiedene statistische Methoden zum Vergleich zweier
Messverfahren mit einem zusätzlich vorliegenden Goldstandard untersucht
und diskutiert. Methode: Es wird eine ergänzende
statistische Analyse der von Hoffmann et al. [1 ]
präsentierten Daten zur sonographischen und palpatorischen
Dickenbestimmung von pigmentierten Hauttumoren bei 681 Patienten vorgestellt.
Ergebnisse: Für den Vergleich zweier Messverfahren
bezüglich eines Goldstandards können verschiedene statistische
Maßzahlen zur Beurteilung eines Messverfahrens verwendet werden.
Darüber hinaus können weitere deskriptive und einige
inferenz-statistische Verfahren eingesetzt werden. Schlussfolgerung: Im Fall einer geeigneten Klasseneinteilung
der Messergebnisse sollten zum Vergleich der Messverfahren die positiv
prädiktiven Werte bzw. die Kappa-Koeffizienten als deskriptive
Größen berechnet werden. Außerdem kann der McNemar-Test zum
Testen auf unterschiedliche Treffgenauigkeiten verwendet werden. Bei der
Untersuchung von stetigen Messungen kann eine reine Korrelationsanalyse zu
fehlerhaften Schlussfolgerungen führen, deshalb ist die numerische und
graphische Darstellung der individuellen Messfehler vorzuziehen. Die absoluten
Messfehler können mit Hilfe des Vorzeichentests für gepaarte
Stichproben verglichen werden.
Abstract
Aim: This paper focuses on different
statistical methods for comparing two measurement methods with an additionally
available gold standard. A given data example is used as the basis of the
calculations. Method: We provide a complementary
statistical analysis of a study presented by Hoffmann et al. [1 ] on sonometric and palpatory measurements of the size of
pigmented skin tumours in 681 patients. Results: For
comparing two measurement methods with respect to a gold standard, several
statistical parameters assessing one measurement method can be used. In
addition, there are further descriptive and some inference-statistical methods
available. Conclusion: If there is a suitable
categorization of the measurements, the comparison of the methods should be
performed using the positive predictive values and kappa coefficients as
descriptive measures. Moreover, the McNemar test can be used for comparing the
differential accuracy of allocation. When investigating continuous
measurements, a comparison using mere correlation analyses can lead to false
conclusions. Therefore, we recommend the direct analysis of the individual
measurement errors by means of numerical and graphical representations. The
absolute values of the measurement errors can be compared using the sign test
for paired samples.
Schlüsselwörter
McNemar-Test - prädiktiver Wert - Kappa-Koeffizient - Übereinstimmungsgrenzen - Konkordanz-Korrelations-Koeffizient
Key words
McNemar test - predictive value - kappacoefficient - concordance correlation coefficient - limits of agreement
Literatur
1
Hoffmann K, Happe M, Schüller S, Stücker M, Wiesner M, Gottlöber P. et al .
Stellenwert der 20 MHz-Sonographie des malignen Melanoms und
pigmentierter Läsionen in der Routinediagnostik.
Ultraschall in Med.
1999;
20 (3)
104-109
2
Tacke J, Haagen G, Hornstein O P, Huettinger G, Kiesewetter F, Schell H, Diepgen T.
Clinical relevance of sonometry-derived tumour thickness in
malignant melanoma - a statistical analysis.
Br J Dermatol.
1995;
132
209-214
3 Altman D G. Practical Statistics for Medical Research. London; Chapman and Hall 1991
4 Trampisch H J, Windeler J, Ehle B, Lange S. Medizinische Statistik. Berlin, Heidelberg; Springer-Verlag 1997
5
Lin L IK.
A concordance correlation coefficient to evaluate
reproducibility.
Biometrics.
1989;
45
255-268
6
Bland J M, Altman D G.
Statistical methods for assessing agreement between two
methods of clinical measurement.
Lancet.
1986;
i
307-310
7
Munk A.
An improvement on commonly used tests in bioequivalence
assessment.
Biometrics.
1993;
49
1225-1230
8
Munk A.
On a method of combining Anderson-Hauck and double t-test.
Correspondence.
Biometrics.
1994;
50
884-886
9
Berger R L, Hsu J C.
Bioequivalence trials, intersection-union tests and
equivalence confidence sets (with discussion).
Statistical Science.
1996;
11 (4)
283-319
10
Munk A, Czado C.
Nonparametric validation of similar distributions and the
assessment of goodness of fit.
J Roy Stat Soc B.
1998;
60
223-241
G. Freitag
Institut für Mathematische Stochastik ·
Georg-August-Universität Göttingen
37083 Göttingen ·
Phone: 0551/397811
Fax: 0551/395997
Email: gudrun.freitag@ruhr-uni-bochum.de