Methods Inf Med 1972; 11(04): 213-227
DOI: 10.1055/s-0038-1636087
Original Article
Schattauer GmbH

Untersuchungen an einem diagnostischen Simulationsmodell[*)]

INVESTIGATIONS ON A DIAGNOSTIC SIMULATION MODEL
S. KOLLEB
1   Aus dem Institut für Medizinische Statistik und Dokumentation der Universität Mainz (Direktor: Prol. Dr. Dr. S. Koller)
,
J. MICHAELIS
1   Aus dem Institut für Medizinische Statistik und Dokumentation der Universität Mainz (Direktor: Prol. Dr. Dr. S. Koller)
,
E. SCHEIDT**)
1   Aus dem Institut für Medizinische Statistik und Dokumentation der Universität Mainz (Direktor: Prol. Dr. Dr. S. Koller)
› Institutsangaben
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
10. Februar 2018 (online)

Es wird ein Simulationsverfahren für eine Krankheit und eine Vergleichsgruppe Nichtkranker dargestellt, bei dem aus 10 Zufallszahlen 20 Alternativ-Symptome unter Nachahmung pathophysiologischer Verflechtungen abgeleitet wurden. An diesem Modell wird die Brauchbarkeit des Simulationsverfahrens zur Analyse von Problemen der algorithmischen Diagnostik demonstriert. Die Ergebnisse gelten nur für das Modell; die Prüfung ihrer Verallgemeinerungsfähigkeit erfordert weitere Untersuchungen.

Die diagnostischen Verfahren ohne Berücksichtigung der Symptomkorrelationen (Linearkombinationen mit verschiedenen Symptom-Gewichtungen) ergaben bei 600 Fällen und Anwendung des diagnostischen Algorithmus auf dieselben Fälle Erfolgsquoten um 92%. Die einzelnen Gewichtungsverfahren unterschieden sich relativ wenig voneinander. Die Berücksichtigung der Korrelationen zwischen den Symptomen erfolgte mittels der linearen und quadratischen Diskriminanzanalyse, die mit 93% die besten Ergebnisse überhaupt ergab.

Die Verfahren waren unerwartet robust gegenüber Verletzungen der mathematischen Voraussetzungen, insbesondere hinsichtlich der Unabhängigkeit der Symptome bei den linearen Gewichtungsverfahren und der Normalverteilung bei der Diskriminanzanalyse. Die Probleme der diagnostischen Entscheidung im Unsicherheitsbereich wurden modellmäßig erörtert; sie sind methodisch noch nicht befriedigend geklärt.

Das Simulationsmodell erlaubt die Untersuchung der Unterschiede der Erfolgsquote bei Rediagnostik der zur Parameterschätzung benutzten Fälle und bei Neudiagnostik anderer Fälle in Abhängigkeit von der Fallzahl. •

Verschiedene Modifikationen der Gewichte, u. a. auch die Zusammenfassung mehrerer Variabler und die Verwendung geeigneter, als Klassen quantitativer Merkmale definierter Symptome als quantitative Größen ergaben keine Verbesserung der Trefferquoten.

In mehreren Ansätzen wurde der diagnostische Lernprozeß simuliert, indem mit einer unzulänglichen Krankheitsdefinition bei wenigen Merkmalen eine Einteilung in »Krank« — »Nichtkrank« begonnen wurde. Dann wurden die bei dieser Gliederung für die beiden Gruppen gefundenen Symptomhäufigkeiten einem algorithmischen Verfahren für eine neue diagnostische Stufe zugrunde gelegt; dieses Verfahren wurde mehrfach wiederholt. Die Abweichungen von den richtigen Parametern wurden nicht in den Prozeß eingeführt. Es zeigte sich, daß in diesem selbstgesteuerten Lernprozeß schon nach wenigen Schritten eine von der »richtigen« nur wenig abweichende Krankheitsdefinition und die im Modell maximal mögliche Trefferquote erreicht wird.

A Simulation model for 2 groups (one group of diseased persons and one control group) is described: For each element of the 2 groups 20 alternative symptoms are generated, using 10 random numbers. Thereby, pathophysiological interrelations are imitated.

It is demonstrated that this kind of approach can usefully be applied to study problems which arise when an algorithmic diagnosis is to be made. The results obtained are valid for the chosen model only. Further studies may lead to a generalization of the results.

Linear combinations of the 0—1 variables using different sets of coefficients (weighting factors) revealed about 92%> correct classifications when applied to a sample size of 600 cases. These different sets of weighting factors were calculated without consideration of the correlations between the symptoms. The results for the different sets were nearly identical. Correlations between symptoms were taken into account by discriminant analysis. Both linear and quadratic discriminant analysis showed the best results with 93% correct classifications.

The algorithms were surprisingly robust concerning violations of their basic mathematical assumptions,

i. e. disregarding correlations by the use of simple weighting factors or the application of discrimi, nant analysis to data not normally distributed.

Several modifications of the weighting procedures were studied. Possible ways of diagnostic decision in regions of uncertainty are examplified; sufficient methodological solutions of the problems involved, however, do not yet exist. For the chosen model it was observed that the difference between results of reclassification and classification of independent samples rapidly decreased when the sample sizes were systematically increased. Selection and elimination of the variables step by step showed that classification results obtained by the use of all 20 symptoms were nearly identical with those for which only about half the symptoms were considered.

Several ways of the diagnostic learning process were simulated: We started with an incomplete definition of the disease on the basis of certain symptoms. After division of the samples into diseased persons and controls, weighting factors were calculated from the observed frequencies of all symptoms within these groups. The use of these weighting factors led to the next stage of preliminary grouping. This was taken as a basis for the calculation of new weighting factors and so on. Without the use of any further — external — information about correct classification, this automatic learning system very quickly led to a disease definition very similar to the underlying one and also yielded the greatest possible number of correct classifications.

*) DurchgeHihrt mit Unterstiitzung der Deutschen Forschungsgemeinschaft


**) An den 1966 begonnenen Arbeiten nahmen anfangs auch H. J. LANGE (Miinchen), K. UBERLA (Ulm). J. DUDECK (GieBen). N. VICTOR (GieBen) teil


 
  • Literaturverzeichnis

  • 1 Arkadjew A. G., Brauermann E. M. Zeichenerkennung und maschinelles Lernen. München: R. Oldenbourg; 1966
  • 2 Gilbert E. S. On discrimination using qualitative variables. J. Amer. Stat. Ass 63 1968; 1399-1412.
  • 3 Gross R. Medizinische Diagnostik - Grundlagen und Praxis. Heidelberger Taschenbücher Bd. 48. Heidelberg: Springer; 1969
  • 4 Koller S. Mathematisch-statistische Grundlagen der Diagnostik. Klin. Wschr 45 1967; 1065-1072.
  • 5 Lange H-J. Möglichkeiten und Grenzen der sogenannten Computerdiagnostik. Münch, med. Wschr 111 1969; 2473-2479.
  • 6 Ledley R. S. Use of Computers in Medicine and Biology. New York: McGraw-Hill; 1965
  • 7 Lusted L. B. Introduction to Medical Decision Making. Springfield: Ch. C. Thomas; 1968
  • 8 Michaelis J. Zur Anwendung der Diskriminanzanalyse für die medizinische Dagnostik. Habilitationsschrift, Mainz. 1972