Rehabilitation (Stuttg) 2004; 43(2): 109-115
DOI: 10.1055/s-2003-814839
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag Stuttgart KG · New York

Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann

On the Problem of Missing Data: How to Identify and Reduce the Impact of Missing Data on Findings of Data AnalysisM.  Wirtz1
  • 1Methodenzentrum des Rehabilitationswissenschaftlichen Forschungsverbunds Freiburg/Bad Säckingen, Freiburg
Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
21. April 2004 (online)

Zusammenfassung

Fehlende Werte stellen ein häufig unterschätztes Problem bei der Analyse empirischer Datensätze dar. Neben der effektiven Verringerung der Stichprobenumfänge muss damit gerechnet werden, dass durch fehlende Angaben statistische Ergebnisse verfälscht werden. Die beiden zentralen Aussagen des Beitrags bestehen darin, dass zum einen die Analyse der Ursachen fehlender Angaben in empirischen Datensätzen fester Bestandteil jeder Datenanalyse sein sollte und zum anderen der Umgang mit fehlenden Werten auf angemessenen Annahmen beruhen sollte, um fehlerhafte Ergebnisse und Probleme bei der Interpretation empirischer Befunde zu vermeiden.

Abstract

The impact of missing data on the analysis of empirical data is a frequently unrecognized problem. Missing data may not only result in a decrease in the actual sample size but potentially biasing effects on statistical findings have to be considered as well. Two important points are made in this article: Firstly, it is shown why the identification of potential causes of missing data should be an inherent part of any data analysis; secondly, the handling of missing data should be based on appropriate assumptions in order to avoid biased results and problems concerning the interpretation of empirical findings.

Literatur

  • 1 Schafer J. Analysis of incomplete multivariate data. London; Chapman & Hall 1997
  • 2 Little R JA, Rubin D B. Statistical analysis with missing data. New York; Wiley 2002
  • 3 Hair J F, Anderson R E, Tatham R L, Black W. Multivariate data analysis. New Jersey; Prentice Hall 1998
  • 4 Rubin D B. Inference and Missing Data.  Biometrika. 1976;  63 581-592
  • 5 Schafer J L, Graham J W. Missing data: Our view of the state of the art.  Psychological Methods. 2002;  7 147-177
  • 6 Allison P D. Missing data. Thousand Oaks; Sage 2001
  • 7 Rost J. Testtheorie und Testkonstruktion. Göttingen; Huber 1996
  • 8 King G, Honaker J, Joseph A, Scheve K. Analyzing incomplete political science data: An alternative algorithm for multiple imputation.  American Political Science Review. 2001;  95 49-69
  • 9 Bock J. Bestimmung des Stichprobenumfangs. München; Oldenbourg 1998
  • 10 Wirtz M, Nachtigall C. Deskriptive Statistik. Weinheim; Juventa 2002
  • 11 Müller J M. Umgang mit fehlenden Werten. In: Reusch A, Zwingmann C, Faller H (Hrsg) Empfehlungen zum Umgang mit Daten in der Rehabilitationsforschung. Regensburg; Roderer 2002: 109-125
  • 12 Collins L M, Schafer J L, Kam C M. A comparison of inclusive and restrictive strategies in modern missing-data procedures.  Psychological Methods. 2001;  6 330-350
  • 13 Schafer J L, Olsen M K. Multiple imputation for multivariate missing-data problems: A data analyst's perspective.  Multivariate Behavioral Research. 1998;  33 545-571
  • 14 Arbuckle J L, Wothke W. AMOS 4.0 User's Guide. Chicago; Smallwaters 1995
  • 15 Yuan Y C. Multiple imputation for missing data. In: Proceedings of the Twenty-Fifth Annual SAS Users Group International Conference (Paper No. 267). Cary, NC; SAS Institute 2000
  • 16 Agresti A. An introduction to categorical data analysis. New York; Wiley 1996

1 Angenommen, eine Person lebt momentan nicht mit einem/r Partner/in zusammen, so würden fehlende Angaben zu der Zufriedenheit mit der Partnerschaft nicht als „fehlende Werte” in diesem Sinne gelten, da diese logisch nicht möglich sind.

2 Es muss natürlich zusätzlich u. a. vorausgesetzt werden, dass die Angaben in einer solchen Befragung wahrheitsgemäß erfolgen.

3 In Tab. [1] müsste nach diesem Kriterium Variable X2 wegen 36 % fehlender Werte ausgeschlossen werden. Da das sehr vereinfachende Beispiel zur Demonstration typischer Probleme bei der Missing-Data-Analyse dient, wird die Variable dennoch weiter analysiert.

4 In der Literatur wird MAR manchmal fälschlicherweise so definiert, dass die übrigen Variablen das Fehlen von Angaben kausal bedingen müssen. Diese Annahme ist nicht notwendig: Es wird nur gefordert, dass ein hinreichender korrelativer Zusammenhang besteht [5] [6].

5 Da hier im Allgemeinen die Nullhypothese präferiert wird und das Beta-Fehlerrisiko minimiert werden soll, sollte die Alpha-Fehlerwahrscheinlichkeit höher als üblich gewählt werden.

6 Eine Informationsmatrix, die eine solche nicht mögliche Gesamtstruktur enthält, bezeichnet man in der Mathematik als „nicht positiv definit”.

7 Eine Ausnahme stellt die Berechnung von Summenwerten aus mehreren Einzelvariablen dar. Fehlen die Werte von Einzelvariablen, so ist die Ersetzung durch den Variablenmittelwert im Allgemeinen zulässig [5].

8 Zwar berücksichtigt der Algorithmus auch die Information, dass X1 und X2 ursprünglich unkorreliert waren, diese Information wird aber allein deswegen geringer gewichtet, weil die Berechnung nur auf vier Fällen beruht.

9 „Üblicherweise” sollte der Stichprobenumfang so gewählt werden, dass die als empirisch relevant erachteten Effekte zuverlässig entdeckt werden können [9]. Um die Generalisierbarkeit von Effekten sicherzustellen, sollte beispielsweise in der multiplen linearen Regression das Verhältnis „Personen- zu Prädiktorenanzahl” mindestens 15 betragen, wenn keine fehlenden Werte vorliegen [3]. Da dem EM-Algorithmus eine Maximum-Likelihood-Schätzung zugrunde liegt, sollte das Verfahren grundsätzlich erst ab mindestens 100 Personen angewendet werden [5].

10 „Software for multiple imputation”, URL: www.stat.psu.edu/%7Ejls/misoftwa.html (zuletzt aufgerufen Februar 2004).

Dr. phil. Dipl.-Psych. Markus Wirtz

Methodenzentrum des RFV Freiburg/Bad Säckingen · Abt. für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg

Engelbergerstraße 41

79085 Freiburg

eMail: wirtz@psychologie.uni-freiburg.de