RSS-Feed abonnieren
DOI: 10.1055/s-0032-1327588
Lösungsansätze für das Problem fehlender Werte: Mechanismen erkennen und adäquat behandeln [*]
An Approach to Solving the Problem of Missing Data: Identifying and Dealing with Mechanisms Adequately- Zusammenfassung
- Abstract
- Einleitung
- Verschiedene Mechanismen, die fehlende Werte bedingen
- Moderne Verfahren, die MAR-Situationen meistern können
- Maximum-Likelihood und Multiple Imputation im Vergleich
- Fazit mit konkreten Handlungsempfehlungen in den verschiedenen Forschungsphasen
- Literatur
Zusammenfassung
Der wichtigste Schritt zum richtigen Umgang mit fehlenden Werten ist das Wissen um die Mechanismen, die das Fehlen bedingen. Darauf aufbauend werden moderne Verfahren zum Umgang mit fehlenden Werten, welche im Vergleich zu bisherigen Verfahren mit allgemeineren Situationen umgehen können, vorgestellt und verglichen. Zum Abschluss werden konkrete Handlungsanweisungen zum korrekten Umgang mit fehlenden Werten gegeben.
#
Abstract
Being confronted with missing data, the most important step is the knowledge of the underlying mechanism. In consequence of this, modern missing data techniques in contrast to past techniques are presented and compared, which can deal with more common situations. Finally, concrete instructions for the correct treatment of missing data are given.
#
Schlüsselwörter
fehlende Werte - Mechanismen fehlender Werte - MCAR-Test - klassische Verfahren - Imputationsverfahren - Multiple ImputationKey words
missing data - missing data mechanisms - MCAR-test - classic procedures - imputation procedures - multiple imputationEinleitung
Häufig liegen bei der Auswertung empirischer Daten fehlende Werte (Missing Data) vor. Die Gründe hierfür sind vielfältig [1] [2] [3]: Von diversen organisatorischen Problemen bei der Studiendurchführung, dem Übersehen von Antwortmöglichkeiten auf Seiten der Teilnehmenden, dem Vergessen der Antwortgabe, uneindeutigem Antwortverhalten bis hin zur Verweigerung der Teilnahme an der Untersuchung gibt es viele Situationen, bei denen der Forscher trotz sorgfältiger Planung die Entstehung fehlender Werte nicht verhindern kann. Wie bereits in dieser Reihe „Methoden in der Rehabilitationsforschung“ dargestellt [4], gibt es wenige Empfehlungen zum Umgang mit fehlenden Werten – obwohl diese in Abhängigkeit von Anzahl und Art des Auftretens die Ergebnisse einer statistischen Analyse stark beeinflussen. Anknüpfend an diesen ersten Beitrag werden die Relevanz um das Wissen des Mechanismus der fehlenden Werte dargestellt sowie darauf aufbauend empfohlene gängige Umgangsmethoden vorgestellt und verglichen. Im Anschluss wird eine Empfehlung für den Umgang mit und das Vermeiden von fehlenden Werten gegeben.
Im Folgenden wird das Beispiel des Fragebogens „Indikatoren des Reha-Status 3“ (IRES-3) [5] im Einsatz bei orthopädischen Patienten verwendet (eine Experimentalgruppe mit Intervention und eine Wartekontrollgruppe). Dabei liegen die Ergebnisse des Fragebogens zu 3 Zeitpunkten vor, einmal zu „Reha-Beginn“, zu „Reha-Ende“ und in der „6-Monats-Katamnese“ („Nachbefragung“). Insbesondere soll die Selbsteinschätzung der Gesundheit bei Reha-Ende und bei der Nachbefragung als Prognose des Reha-Erfolgs der Interventionsmethode durch die Selbsteinschätzung bei Reha-Beginn vorhergesagt werden können.
#
Verschiedene Mechanismen, die fehlende Werte bedingen
Das Wissen über die verschiedenen Mechanismen, welche fehlende Werte bedingen, kurz Missing-Mechanismen, ist eine wichtige Voraussetzung für den korrekten Umgang mit fehlenden Werten.
Generell wird zwischen 3 Mechanismen fehlender Werte unterschieden [6]: Missing Completely at Random (MCAR), Missing at Random (MAR) und Missing not at Random (MNAR)[1]. Da diese 3 Mechanismen bereits in dieser Reihe definiert wurden [4], werden sie hier nur verkürzt im Rahmen des IRES-3-Beispiels vorgestellt.
MCAR:
Im Falle, dass zufällig Daten von Patienten bei Reha-Beginn fehlen und das Fehlen durch keine weitere Variable (wie beispielsweise Geschlecht, Experimental- vs. Kontrollgruppe usw.) vorhergesagt werden kann, liegt ein Fall von MCAR vor. Die Personen mit fehlenden Werten im Datensatz stellen hier eine Zufallsstichprobe der Gesamtstichprobe dar.
#
MAR:
Angenommen, bei Reha-Ende fehlen ebenfalls Daten. Das Fehlen lässt sich jedoch durch die miterhobene Variable „Alter“ vorhersagen. Ältere Patienten scheinen öfter mal nicht zu dem Termin Reha-Ende zu erscheinen und können den Fragebogen deshalb nicht ausfüllen. Wird diese erhobene Variable Alter statistisch kontrolliert, ist das Auftreten der fehlenden Werte allerdings wieder zufällig. Hier hätte man einen Fall von MAR.
#
MNAR:
Im Beispielfall fehlen auch zu dem Zeitpunkt der Nachbefragung Daten. Auf den ersten Blick scheint das Fehlen der Werte zufällig vorzuliegen. Leider verhält es sich tatsächlich aber so, dass die unglücklicherweise nicht miterhobene Variable „Rentenantragsverfahren“ das Fehlen gut erklären würde. Personen, die einen Antrag auf Frühberentung aktuell eingereicht haben, ziehen es vor, den Termin bei der 6-Monats-Katamnese ausfallen zu lassen und keine Angaben zur Selbsteinschätzung der Gesundheit zu machen. In diesem ungünstigen Fall liegt MNAR vor. Das Auftreten des Fehlens ist also abhängig von nicht beobachteten Daten, was leicht zu einem übersehenen Bias in den Studienergebnissen führen kann.
Wie bereits in dieser Reihe aufgezeigt, dürfen nur bei MCAR, dem vollständig zufälligen Fehlen, gängige Verfahren wie „Ersetzung durch den Mittelwert“, „paarweiser“ und „fallweiser Ausschluss“ angewendet werden, ohne dass mit Gewissheit eine substanzielle Verzerrung der Analyseergebnisse befürchtet werden muss [4]. Es kann also nur mit unverzerrten Ergebnissen gerechnet werden, wenn MCAR gilt und es relativ wenige Missings gibt (dabei ist die Angabe „relativ wenig“ sehr vage, was auch den Angaben in der Literatur entspricht – je nach Quelle werden als „wenig“ bis zu 5–30% Missings benannt [4] [7] [8]).
Diese zwar korrekte Feststellung führt allerdings zu 2 Schwierigkeiten. Erstens stellt sich die Frage, wie die MCAR-Annahme überprüft werden kann. Zweitens kommt es zu einer Überbewertung der Begehrenswertigkeit von MCAR, die viele Anwender in die Irre führt [7]. Denn eine Überprüfung, ob MCAR vorliegt, ist nicht durchführbar, ebenso wenig wie MAR oder MNAR prüfbar sind [4] [7] [9]. Einzig und allein prüfbar ist, ob MCAR nicht vorliegt – sodass in diesem Fall dann MAR oder MNAR vorliegen.
#
Erste Schwierigkeit: Prüfen, ob die MCAR-Annahme verletzt ist
Wie kann man aber untersuchen, ob die MCAR-Annahme verletzt ist? In dem obigen Beispiel mit den fehlenden Daten bei Reha-Ende liegt die Vermutung nahe, dass die MCAR-Annahme verletzt ist – die Mittelwerte (in den verschiedenen Variablen) und die Kovarianz-Varianz-Matrix in den 2 Gruppen, nämlich der Gruppe ohne Angaben der Selbsteinschätzung der Gesundheit und derjenigen mit solchen Angaben, werden sich sehr wahrscheinlich unterscheiden. Ob die MCAR-Annahme verletzt ist, lässt sich z. B. mit dem MCAR-Test von Little [4] [10] untersuchen. Dieser Test bildet Subgruppen anhand des Musters der fehlenden Werte (hat man z. B. nur 2 Variablen, bspw. die Selbsteinschätzung des Gesundheitszustandes zum Zeitpunkt Reha-Beginn und Reha-Ende, so kann es 4 verschiedene Missing-Muster geben: Fehlen in beiden Variablen, Fehlen nur im Zeitpunkt Reha-Beginn, Fehlen nur im Zeitpunkt Reha-Ende, kein Fehlen). Diese Subgruppen werden über die übrigen Variablen hinweg mit einem Omnibus-Test untersucht. Wird dieser signifikant, so gibt es mindestens 2 Subgruppen, die sich bedeutend unterscheiden. Im obigen Beispiel mit den fehlenden Daten bei Reha-Ende würde sich zeigen, dass sich die Variable Alter zwischen den Subgruppen signifikant unterscheidet – nämlich zwischen der Subgruppe Fehlen nur im Zeitpunkt Reha-Ende und allen anderen Subgruppen.
Diese Art von Test ist zwar für eine erste Überprüfung gut geeignet (z. B. schnell ausführbar mit dem Missing-Data-Diagnosemodul von SPSS [11]), jedoch ist aus dem Ergebnis des Tests nicht ersichtlich, in welchen erhobenen Variablen sich die Subgruppen unterscheiden. Aus diesem Grund werden mehrere unabhängige univariate t-Tests empfohlen [10], die ebenfalls mit dem oben genannten Modul von SPSS durchgeführt werden können. So lassen sich unter Umständen die Variablen identifizieren, die das Fehlen beeinflussen (im obigen Beispiel wäre es die Variable Alter). Ein Nachteil der t-Tests ist, dass die Gruppengrößen evtl. zu gering ausfallen könnten, sodass ein Testen nicht möglich ist.[2] Eine weitere gute Methode, allgemein Verteilungsunterschiede zu testen, ist der Kolmogorov-Smirnov-Test, welcher die Nichtübereinstimmung von 2 Verteilungen überprüft, in der Regel die zu untersuchende Verteilung im Vergleich zur Normalverteilung [7].
#
Zweite Schwierigkeit: Begehrenswertigkeit von MCAR
Wie bereits dargestellt, sind viele gängige Missing-Data-Verfahren nur bei der Vorlage einer MCAR-Situation anwendbar. Was aber tun, wenn kein MCAR vorliegt? MAR-Situationen liegen in der Regel häufiger vor als MCAR-Situationen. Über die Definition der Mechanismen wird im Folgenden ein Lösungsansatz erläutert.
In dem Beispiel, in dem Daten zu Reha-Beginn fehlen, lag eine Zufallsstichprobe der eigentlichen zu erhebenden Stichprobe vor, bei der die nicht ausgewählten Fälle von den beobachteten als auch unbeobachteten Daten unabhängig sind.[3] In Missing Data-Verfahren, die mit MCAR umgehen können, wird folglich von der zufälligen unverzerrten Substichprobe auf die eigentliche Stichprobe geschätzt, um in folgenden Analysen auf die Population schätzen zu können.
Wäre aber die Struktur der Substichprobe so, dass diejenigen Fälle, die nicht in der Substichprobe ausgewählt wurden, durch bestimmte Merkmale der Substichprobe (wie bspw. das Alter) vorhergesagt werden können, dann hat man einen allgemeineren Fall als im vorherigen Beispiel, nämlich MAR. Da MAR einen allgemeineren Fall darstellt als MCAR, sind Missing-Data-Verfahren wünschenswert, die mit MAR-Situationen adäquat umgehen können. Denn selbst wenn ein bestimmter Fall von MAR, nämlich MCAR, vorliegen sollte, können solche Verfahren angewendet werden. Diese Überlegungen zu dem Wesen der Mechanismen nach Raykov [7] sind bildlich in [Abb. 1] dargestellt.
Somit ist der Vergleich von MCAR- und MAR-Verfahren im übertragenen Sinne ähnlich dem Vergleich von einer einfachen Varianzanalyse und einer Kovarianzanalyse, bei der der Einfluss möglicher Störfaktoren kontrollierbar ist. Demnach ist MCAR also nichts anderes als ein Spezialfall von MAR [7], und die „Jagd“ nach MCAR, um MCAR-taugliche Verfahren anwenden zu können, ist nicht notwendig. Da weder MCAR noch MAR testbar sind, der Forscher diese also nie unterscheiden kann und zudem MCAR nur ein Sonderfall von MAR ist, sollte besser immer sofort auf MAR-taugliche Missing-Data-Verfahren zurückgegriffen werden.
Bei MNAR ist die Situation komplizierter – das Fehlen der Werte hängt von den Ausprägungen einer oder mehrerer Variablen ab, die nicht verfügbar sind. Dies birgt zum einen die Gefahr, dass von MCAR ausgegangen wird, obwohl dies nicht der Fall ist. Zum anderen ist erst einmal keine statistische Kontrolle möglich. Das heißt aber nicht, dass hier eine Analyse der Daten unmöglich ist. Eine gute Möglichkeit für diesen Fall ist es, die Situation in eine bekannte zu überführen, indem alle weiteren Variablen des Datensatzes mit eingeschlossen werden. Diese Variablen, welche ursprünglich nicht in die Datenanalyse einbezogen werden sollten, aber miterhoben wurden und mit denjenigen Variablen korrelieren, in denen fehlende Werte vorhanden sind, heißen „auxiliary“-Variablen. An dieser Stelle sei an die übertragene Ähnlichkeit mit der Kovarianzanalyse mit deren Einschluss von möglichen Kovariaten erinnert. Somit würde sich die Wahrscheinlichkeit für eine MAR-Situation steigern.[4] Wenn in dem obigen MAR-Beispiel mit den fehlenden Daten zum Zeitpunkt Reha-Ende die Variable Alter nicht miterhoben worden wäre, würde eine MNAR-Situation vorliegen. Glücklicherweise wurde diese „auxiliary“-Variable jedoch miterhoben, weshalb eine MAR-Situation vorliegt.
Für Längsschnittdaten mit MNAR (bzw. wenn die Umstände auch aus theoretischen Gesichtspunkten sehr deutlich für MNAR sprechen) gibt es verschiedene Analyseverfahren [9] [10] [13] [14] [15], die jedoch über den Rahmen dieses Überblickstextes hinausgehen würden.
Im obigen Abschnitt wurden solche Missing-Data-Verfahren als wünschenswert bezeichnet, die adäquat mit MAR-Situationen umgehen können. Doch welche sind diese? Im Folgenden wird ein kurzer Überblick gegeben.
#
#
Moderne Verfahren, die MAR-Situationen meistern können
Im Folgenden werden die beiden Missing-Data-Verfahren Maximum-Likelihood und Multiple Imputation vorgestellt und verglichen. In [Tab. 1] werden die gängigsten [4] sowie die neu vorgestellten Verfahren anhand der Anwendbarkeit verglichen.
Kann mit MAR-Situation umgehen |
Verkleinerung der Stichprobe |
In weiteren Analysen werden ersetzte Werte wie beobachtete Werte behandelt |
Es kann die gleiche statistische Analyse berechnet werden, wie wenn keine Werte fehlen würden |
Bietet SEs der Parameter zur Darstellung der Unsicherheit durch fehlende Werte |
|
---|---|---|---|---|---|
1 Wenn die Stichprobe noch groß genug ist, z. B. (falls berechnet) pro Zelle die Fälle ausreichen für die gewünschte Analyse |
|||||
2 Es kann passieren, dass pro Zelle sehr unterschiedliche Stichproben übrig bleiben, was weitere Analysen verhindern kann |
|||||
3 Wenn die Stichprobe noch groß genug ist bzw. falls berechnet die Kovarianz-Varianz-Matrix noch positiv semi-definit ist |
|||||
4 Hier findet keine Ersetzung statt |
|||||
Wünschenswerte Eigenschaften sind fett hervorgehoben |
|||||
Fallweiser Ausschluss (Listwise Deletion) |
nein |
ja |
nein |
ja 1 |
nein |
Paarweiser Ausschluss (Pairwise Deletion) |
nein |
ja2 |
nein |
ja 3 |
nein |
Last Observation Carried Forward (LOCF) |
nein |
nein |
ja |
ja |
nein |
Ersetzung durch Mittelwert |
nein |
nein |
ja |
ja |
nein |
Hot Deck |
nein |
nein |
ja |
ja |
nein |
Ersetzung durch Regression |
nein |
nein |
ja |
ja |
nein |
Ersetzung durch Regression mit Zufallsfehler |
nein |
nein |
ja |
ja |
nein |
Dummy-Codierung |
nein |
nein |
nein 4 |
nein |
nein |
Imputation nach EM |
nein |
nein |
ja |
ja |
nein |
Full Information Maximum Likelihood (FIML) |
ja |
nein |
nein 4 |
ja |
ja |
Multiple Imputation (MI) |
ja |
nein |
nein |
ja |
ja |
Maximum-Likelihood (und Expectation-Maximization)
Bei den Maximum-Likelihood-basierten Verfahren (ML-Verfahren) findet in der Regel keine Ersetzung der fehlenden Werte statt – hier werden diejenigen schätzbaren Parameter ausgesucht, welche die Likelihoodfunktion maximieren (d. h. derjenige Parameter wird als Schätzung gewählt, gemäß dessen Verteilung die beobachteten Daten am plausibelsten erscheinen). Diese Parameter bedingen sich durch die Analyse, die den Forschenden interessiert. Im IRES-3-Beispiel wäre eine Vorhersage bzw. eine Regression der Selbsteinschätzung der Gesundheit vom Zeitpunkt Reha-Ende auf den Zeitpunkt Reha-Beginn von Interesse. So wären die zu schätzenden Parameter in diesem Beispiel das Regressionsgewicht und die Varianzaufklärung.
Ein großer Vorteil des ML-Verfahrens (im Strukturgleichungsmodell-Kontext auch als Full Information Maximum Likelihood – FIML bekannt [16]) ist, dass gleichzeitig Standardfehler für die geschätzten Parameter angegeben werden – der Anwender kann so die Unsicherheit, die durch die fehlenden Werte entstanden ist, beschreiben und bewerten. Da FIML häufig automatisch im Zusammenhang mit Strukturgleichungsmodellen verwendet wird (vielen Anwendern von diversen Strukturgleichungsmodell-Programmen ist dies im Detail nicht bewusst), muss meist auch keine Anpassung des zu prüfenden Modells aufgrund der fehlenden Werte erfolgen.
Das Expectation-Maximization-Verfahren (EM-Verfahren) baut auf dem zuvor beschriebenen ML-Verfahren auf, mit dem Unterschied, dass hier als Resultat eine Ersetzung für die einzelnen fehlenden Werte erfolgt, und sollte auf keinen Fall mit FIML verwechselt werden.[5] Im Gegensatz zum Maximum-Likelihood-Verfahren oder zur Multiplen Imputation ist das EM-Verfahren kein eigenständiges Verfahren zum Umgang mit MAR-Situationen, sondern ein „Hilfstool“ für weitere Analysen. Als alleiniges Missing-Data-Verfahren für hypothesentestende Fragestellungen ist – obwohl häufig empfohlen – der EM-Algorithmus als einfaches Imputationsverfahren nicht zu empfehlen, nicht zuletzt deshalb nicht, weil manche Programme wie bspw. SPSS es versäumen, bei der Imputation eine Zufallskomponente hinzuzuaddieren [17].
#
Multiple Imputation
Die Grundidee hier besteht darin, statt nur einer (wie bei den klassischen Verfahren zuvor) mehrere Imputationen bzw. Ersetzungen zu berechnen. Dabei unterscheiden sich die Resultate der einzelnen Imputationen (u. a. auch durch Hinzuaddieren eines Zufallsfaktors)[6] und somit die Resultate der mit diesen Datensätzen durchgeführten Analysen.
Der grundlegende Unterschied dieser Art der Imputation im Vergleich zu den einfachen Imputationsverfahren wie bspw. Mittelwertersetzung ist, dass nicht Daten „erfunden“ und als tatsächliche Werte in weiteren Analysen verwendet werden. Genau genommen interessieren die einzelnen ersetzten Datensätze nicht, sondern nur der Schätzer der Stichprobenkennwerte bzw. Parameter (wie das Regressionsgewicht und die Varianzaufklärung im vorherigen Beispiel), welche für die den Anwender interessierenden Analyseverfahren relevant sind. Dem Anwender wird deutlich, dass die Ersetzung mit einer Unsicherheit behaftet ist, und diese Unsicherheit wird über die Variabilität der Ergebnisse ausgedrückt – nicht die Variabilität der ersetzten Werte, sondern die Variabilität der Parameter, welche für den Forscher und dessen Fragestellung interessant sind. Die Variabilität kommt dadurch zustande, dass pro vervollständigtem Datensatz die Parameter berechnet werden und so eine Parameterverteilung erfolgt, mit dem gemittelten Parameterwert als finalem Schätzer. Im Beispiel der Berechnung des Regressionsgewichts werden aus den einzelnen vervollständigten Datensätzen je Datensatz ein Regressionsgewicht berechnet, und über die verschiedenen ermittelten Regressionsgewichte hinweg wird ein finales Regressionsgewicht gemittelt.
Die Frage, die sich nun mit mehreren Ersetzungen stellt, ist, wie viele Imputationen notwendig sind, damit die Schätzung von Parametern qualitativ brauchbar ist. Man kann bei all diesen Schätzungen davon ausgehen, dass diese erwartungstreu sind. Die Schätzung liegt in der Tendenz also richtig und über- oder unterschätzt den wahren Parameterwert nicht systematisch. Auch ist es naheliegend, dass mit steigender Anzahl der Imputationen die Qualität der Schätzung steigt – je mehr Imputationen, desto weniger schwankt der Schätzer um den richtigen Erwartungswert (bei unendlich vielen Imputationen hätte man den wirksamsten Schätzer). Diese Gütequalität von Schätzstatistiken, die Effizienz oder Wirksamkeit, wurde von Rubin [18] hinsichtlich der notwendigen Anzahl an Imputationen überprüft – so konnte gezeigt werden, dass bei 50% fehlender Information[7] nur 5 Imputationen ausreichen, um eine relative Effizienz von 95% zu erhalten (in Standardfehler-Einheiten, im Vergleich zu einem Schätzer, der durch unendlich viele Imputationen erhalten wird). Das heißt, man braucht theoretisch nur eine erstaunlich geringe Anzahl an Imputationen, um einen Schätzer zu erhalten, der eine Wirksamkeit, erhalten durch unendlich viele Imputationen, approximiert. Unglücklicherweise hat sich diese Erkenntnis als Daumenregel, dass 5 Imputationen im Allgemeinen ausreichend seien, etabliert. Graham et al. [19] z. B. konnten zeigen, dass das Befolgen dieser vagen Richtlinien durchaus zu Verzerrungen führen kann und eher eine Anzahl von Imputationen im Größenraum von 20 bis 100 angemessen ist. Dank der heutigen Rechnergeschwindigkeiten dürften diese Zusatzersetzungen allerdings kein Problem darstellen. Für eine konkrete Empfehlung, wie viele Imputationen bei welchen Voraussetzungen notwendig sind, ist weitere Forschung nötig.
#
#
Maximum-Likelihood und Multiple Imputation im Vergleich
Collins et al. [12] konnten zeigen, dass Maximum-Likelihood und Multiple Imputation ähnliche Parameterschätzer und Standardfehler liefern, wenn die Anzahl an durchgeführten Imputationen bei der Multiplen Imputation nicht zu klein ist. Im Gegensatz dazu zeigte sich, dass, wenn „auxiliary“-Variablen eingebunden werden, sich die Ergebnisse durchaus unterscheiden können (unterschiedliche Parameterschätzer und Standardfehler). In der Literatur zu fehlenden Werten bildet sich leicht der Eindruck, dass die Wahl zwischen Maximum-Likelihood und Multiple Imputation „Geschmackssache“ ist. Allerdings sind gewisse Vor- und Nachteile zwischen beiden Verfahren in Betracht zu ziehen [10].
So ist bspw. die Einbindung von „auxiliary“-Variablen sehr einfach umzusetzen bei der Multiplen Imputation, also die Einbindung von Variablen, die sehr wahrscheinlich das Missing-Modell erklären bzw. das Fehlen modellieren. Dies gestaltet sich viel schwieriger bei dem Maximum-Likelihood-Verfahren. Zwar gibt es hier bereits Vorschläge, wie man solche Variablen einbinden könnte [20] [21]; das Einbinden von größeren Mengen an solchen Variablen gestaltet sich allerdings immer noch als sehr schwierig. Da dieses Einbinden aber die Vorhersagekraft ungemein verbessert [12], nicht zuletzt weil es die Wahrscheinlichkeit für eine MNAR-Situation verringert und die für eine MAR-Situation erhöht, stellt sich die Multiple Imputation in diesem Aspekt als vorteilhafter dar.
Ein weiterer Aspekt, der für die Multiple Imputation spricht, ist der Umgang mit fehlenden Werten nicht nur in der bzw. den abhängigen, sondern auch in den unabhängigen Variablen. Bei der Multiplen Imputation werden abhängige und unabhängige Variablen während der Imputationsphase vollkommen gleich behandelt, und so entsteht keine Verzerrung während der Imputation durch die Rolle der Variable, in der das Fehlen auftritt. Bei dem Maximum-Likelihood-Verfahren hingegen wird die Missing-Schätzung in die Modellschätzung integriert, wodurch die Rolle der Variablen, in der Fehlen auftritt, durchaus einen Einfluss haben können. Da in der Rehabilitationsforschung in den wenigsten Fällen nur die fehlenden Werte in der abhängigen Variablen, geschweige denn in nur einer Variablen vorliegen, wird die Verwendung der Multiplen Imputation empfohlen.
In Fällen, in denen der Forscher ein Strukturgleichungsmodell (SEM) berechnet, mag das Maximum-Likelihood-Verfahren allerdings von Vorteil sein, nicht zuletzt, da es in jeder entsprechenden SEM-Software integriert ist. Einen weiteren Vorteil des Maximum-Likelihood-Verfahrens bietet der einfache Umgang bei der Schätzung von Interaktionen, der sich bei der Multiplen Imputation schwieriger gestaltet – diese Schwierigkeit kann allerdings mit ein wenig Aufwand überwunden werden [22], auf dessen detaillierte Darstellung in diesem Rahmen nicht eingegangen wird.
#
Fazit mit konkreten Handlungsempfehlungen in den verschiedenen Forschungsphasen
Wie sollte der Forscher also mit fehlenden Werten umgehen? Im Folgenden werden auf der Grundlage der bisherigen Darstellung konkrete Handlungsempfehlungen für die Planungs- und Auswertungsphase sowie für die Ergebnisdarstellung gegeben.
Planungsphase
Die beste und einfachste Art, mit fehlenden Werten umzugehen, ist, wie Allison [20] [21] betont, keine vorliegen zu haben. Gerade in der Planungsphase einer Studie lassen sich viele potenzielle Hürden, die später in der Auswertungsphase zu fehlenden Werten führen können, vermeiden, wie bspw. die überlegte Wahl des Erhebungszeitraums oder die Wahl und Anzahl der zu erhebenden Variablen. Einen ausführlichen Überblick hierzu findet man u. a. bei McKnight et al. [23]. Der Forscher sollte sich folgender „Quellen“ fehlender Werte konkret im Klaren sein:
-
Ist das Studiendesign so ausgelegt, dass es besonders anfällig für fehlende Werte ist? Mögliche Einflussfaktoren hierfür wären:
-
– die Datenerhebungsmethode und Operationalisierung: Bereits bei der Operationalisierung sollte überlegt werden, ob für das geplante Vorhaben die gewählte Erhebungsmethode auch wenig anfällig für fehlende Daten ist. Wird bspw. die Zielvariable durch Selbstbeobachtung erhoben, so sollten mögliche Diskontinuitäten (z. B. in täglichen Tagebucheinträgen) durch mangelnde Teilnehmenden-Motivation antizipiert werden. Bei Fragebogen-Erhebungen sind zu lange Bogen zu vermeiden. Hier gilt es abzuschätzen und bestenfalls vorher zu testen, wie viel Zeit eine Versuchsperson motiviert in das Ausfüllen investiert. Prinzipiell ist es ratsam, vor der Studie eine Pilotphase einzuplanen, um mögliche Gefahrenquellen zu eliminieren.
-
– die Anzahl der Messzeitpunkte: Je mehr und weiter auseinander liegende Messzeitpunkte, desto größer ist die Anfälligkeit für fehlende Werte. Zum Beispiel ist von vielen Messzeitpunkten über mehrere Jahre hinweg bei älteren Personen oder bei Personen mit möglicherweise tödlich verlaufenden Krankheiten abzusehen.
-
– Attrition vermeiden: Man sollte sich z. B. von den Versuchspersonen Alternativadressen angeben lassen, auch zwischen den Erhebungszeitpunkten Kontakt halten und ein einheitliches Studien-Logo bei jeder externen Kommunikation für die einfache Wiedererkennung pflegen.
-
– die Wahl des Zeitpunktes der Datenerhebung: Günstige Zeitpunkte für die Versuchspersonen sollten antizipiert werden.
-
– die Anzahl der Variablen: Je mehr Variablen, desto höher ist die Gefahr, dass fehlende Werte auftreten.
-
– das Wissen über die andere Gruppe, z. B. Interventions- oder Kontrollgruppe: Hier empfiehlt es sich, die Gruppen so gut wie möglich auch räumlich zu trennen, sodass kein Austausch zwischen den Gruppen stattfinden und Demoralisierung und Empörung bei der „benachteiligten“ Gruppe entstehen kann.
-
-
Ist die Stichprobe bzw. die zugrunde liegende Population besonders anfällig für fehlende Werte? Mögliche Einflussfaktoren hierfür wären:
-
– Vor der Studie Screeningverfahren anwenden, um herauszufinden, welche Personengruppen besonders anfällig für fehlende Werte sind.
-
– Formulierung (Phrasing) und Wahrnehmung des Versuchsthemas: Wie könnte man das Thema so benennen und beschreiben, dass es für die Versuchspersonen interessant, verständlich und annehmbar wahrgenommen wird? Wie kann man einen Fragebogen so unmissverständlich und übersichtlich für die zu erhebende Zielgruppe gestalten, dass das Übersehen von Fragen vermieden werden kann?
-
– Genügend Personen einplanen: Zusätzlich weitere 15–25% der im Design benötigten Versuchspersonen erheben [23]. Dieses Vorgehen schützt zwar nicht direkt vor dem Auftreten von fehlenden Werten und einen dadurch möglichen Bias oder einer Nicht-MCAR-Situation in den (vorhandenen) Daten, jedoch vor zu geringer Teststärke.
-
-
Ist die Dateneingabemethode anfällig für fehlende Werte? Liegen bspw. die Daten in einem für die Auswertung ungünstigen Medium vor und müssen in ein anderes Medium konvertiert werden, wie etwa das repetitive und ermüdende Abtippen von Papierfragebogen in ein Auswertungsprogramm oder in eine Tabelle? Hier empfiehlt es sich, ein Monitoring-System einzuführen und z. B. zufällig gezogene Fälle oder jeden x-ten Fall zu überprüfen, um fehlende Werte durch Nichteingabe oder Fehleingabe auszuschließen.
#
Auswertungsphase
Liegt nun die Datenerhebung bereits vor, sollte der Datensatz von z. B. unmöglichen Daten und Fehlern „bereinigt“ (bspw. Alter der Patienten von 300 usw. – hier empfehlt es sich, die vorliegenden mit den Rohdaten wie etwa den Papierfragebogen zu vergleichen) und deskriptiv analysiert werden – für eine detaillierte Anleitung siehe auch Hair et al. [8]. Für die einfache deskriptive Auswertung eignet sich z. B. das Statistikprogramm SPSS. So können Besonderheiten des Datensatzes früh festgestellt und erste Hinweise zu dem vorliegenden Mechanismus gefunden werden.[8]
Die Menge an fehlenden Werten sollte klar bestimmt werden. Hair et al. [8] empfehlen, dass das Fehlen von unter 10% pro Fall oder Beobachtung ignoriert werden kann, wenn MCAR vorliegt und wenn die übrig bleibende Anzahl an Fällen bzw. Beobachtungen auch ohne Imputation eine ausreichende Fallzahl für die zu berechnende Analyse ist.
Weiterhin muss sich der Forscher darüber im Klaren sein, welche Art von Missing-Mechanismus sehr wahrscheinlich vorliegt. Entsprechende Analysen (MCAR-Test von Little, unabhängige t-Tests, Kolmogorov-Smirnov-Test) z. B. mit dem Missing-Data-Diagnosemodul von SPSS sind zu empfehlen, wenn die Fallzahlen es erlauben. Selbst wenn die Mechanismen nicht testbar sind, geben die Analysen dem Forscher ein besseres „Gefühl“ für die vorliegenden Daten und evtl. die Gewissheit, dass kein MCAR vorliegt. Darüber hinaus ergibt dieses Vorgehen die Möglichkeit, Variablen zu identifizieren, die das Fehlen beeinflussen. Diese können bei der Durchführung der eigentlichen Analysen als weitere Vorhersagevariablen, also „auxiliary“-Variablen genutzt werden.
Auf den Einsatz von klassischen und einfachen Imputationsverfahren wie bspw. fall- und paarweiser Ausschluss oder Mittelwertersetzung sollte prinzipiell verzichtet werden, da es sehr wahrscheinlich ist, dass der Forscher nicht mit einer MCAR-Situation, sondern mit einer MAR-Situation konfrontiert wird, da MCAR (gerade in rehabilitationswissenschaftlichen Studien) als natürliches Sample selten vorkommt [4]. Stattdessen sollte von Vornherein auf MAR-taugliche Verfahren zurückgegriffen werden. Die Wahl, ob FIML oder Multiple Imputation ausgesucht wird, hängt von der geplanten Analyse ab. Gerade bei der Verwendung von Strukturgleichungsmodellen bietet sich FIML an, da diese Umgangsmöglichkeit bereits in den meisten entsprechenden Programmen eingebunden ist (z. B. bei AMOS oder Mplus) [24]. Bei allen weiteren Analysen wird die Multiple Imputation empfohlen, ausführbar u. a. mit den Programmen NORM (frei verfügbar unter http://sites.stat.psu.edu/~jls/misoftwa.html, Schafer [25]), SAS oder mit R (mit den packages mice oder AMELIA [24] [26]).
Es sollte prinzipiell eine einschließende Strategie bezüglich weiteren erhobenen (auxiliary-)Variablen verfolgt werden, da deren Hinzunahme das Potenzial hat, die Vorhersagekraft zu verbessern und mögliche Verzerrungen in den Daten abzuschwächen [12].
Die Auswahl der Analysemethode zur Datenauswertung sollte im Sinne guter methodischer Planung von dem Missing-Data-Verfahren unbeeinflusst bleiben. Die einzige Veränderung am Auswertungsdesign wäre nur eine Hinzunahme von „auxiliary“-Variablen, ohne jedoch das intendierte Grunddesign abzuändern.
#
Ergebnisdarstellung
Alle Verfahren, die aufgrund von fehlenden Daten eingesetzt wurden, müssen in der Ergebnisdarstellung berichtet werden. Dem Leser sollte ersichtlich sein, in welcher Form fehlende Daten vorlagen, wie trotz oder mit fehlenden Daten die Analyse berechnet wurde und inwiefern die fehlenden Daten die Aussagekraft der Analyseergebnisse einschränken. Ein kleiner Selbstversuch, indem man die Analyse ohne jegliche Handhabung bezüglich Missing Data (sofern möglich) oder mit wenig passenden Methoden im Gegensatz zum korrektem Umgang durchführt (z. B. Multiple Imputation oder FIML), kann beim Ergebnisvergleich zu einiger Überraschung führen und die Gefahr, die ein Ignorieren von fehlenden Werten mit sich trägt, vor Augen führen. Transparenz bei diesem Thema ist der erste und wichtigste Schritt im korrekten und verantwortungsvollen Umgang mit fehlenden Werten.
#
#
In der Forschungspraxis sollte in jeglicher Forschungsphase reflektiert werden, wie fehlende Werte vermieden werden können bzw. wie adäquat mit diesen umgegangen werden muss. Es sollten Maßnahmen unternommen werden, welche die – das Fehlen bedingenden – Missing-Mechanismen ermitteln oder zumindest eingrenzen können. Prinzipiell sollte auf Missing-Data-Verfahren zurückgegriffen werden, welche auch bei „eingeschränkt zufälligem“ Fehlen (MAR) unverzerrte Analyseergebnisse liefern. Darüber hinaus sollte, wenn möglich, die Unsicherheit der Analyseergebnisse durch fehlende Werte überprüft und berichtet werden.
#
Interessenkonflikt:
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Danksagung
Die Autoren danken Prof. Dr. Dr. Christian Zwingmann, Prof. Dr. Dr. Hermann Faller und Prof. Dr. Thomas Kohlmann für wertvolle Hinweise.·
* Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung“:
* Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Prof. Dr. Dr. Christian Zwingmann, Bochum
* Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen; E-Mail: christian.zwingmann@web.de
1 MNAR ist auch bekannt unter Not Missing at Random (NMAR).
2 Sollten die Fallzahlen zu gering ausfallen, stellt sich allerdings auch die pragmatische Frage, inwiefern ein solch dezimierter Datensatz überhaupt noch zu „retten“ ist.
3 Der aufmerksame Leser kann nun zu dem Schluss kommen, dass generell Zufallsziehungen eine Voraussetzung für MCAR sind – dies ist durchaus richtig, allerdings sind Zufallsziehungen oder Observed at Random (OAR) nur eine notwendige, aber keine hinreichende Bedingung für MCAR [7].
4 Collins et al. [12] zeigen, dass diese einschließende Strategie die Schätzverzerrung deutlich mindert. Auch findet man bei den genannten Autoren ein hervorragendes Beispiel für den Bias einer Vorhersage beim Verstoß gegen die MAR-Annahme.
5 Häufig wird das EM-Verfahren verwendet, um Startwerte für weitere Schätzungsmethoden zu generieren. Für eine ausführliche Darstellung von EM siehe [4] in dieser Reihe.
6 Meist werden zufällige Ziehungen der für die Analyse relevanten Parameter aus einer „prior distribution“ durchgeführt mithilfe von Markov-Chain-Monte-Carlo(MCMC)-Verfahren. Für einen detaillierten Überblick siehe z. B. Enders [10].
7 Hiermit ist nicht der prozentuelle Anteil der fehlenden Werte im Datensatz gemeint, sondern der Einfluss der fehlenden Werte auf die Stichprobenvarianz der zu berechnenden Schätzungen (auch bekannt unter „fraction of missing information“ [2]).
8 Verweigern z. B. 80% der Frauen die Angabe des Gewichts, die Männer aber nur zu 10%, wird wohl kein MCAR vorliegen.
-
Literatur
- 1 Allison P. Missing data. Thousand Oaks, CA: Sage; 2001
- 2 Little RJA, Rubin DB. The analysis of social science data with missing values. Sociological Methods & Research 1989; 18 (2–3) 292-326
- 3 Little RJA, Rubin DB. Statistical analysis with missing data. 2. Aufl. New York: Wiley-Interscience; 2002
- 4 Wirtz M. Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation 2004; 43 (01) 1-7
- 5 Frey C, Bührlen B, Gerdes N et al. Handbuch zum IRES-3: Indikatoren des Reha-Status, Version 3 mit IRES-24 (Kurzversion). Regensburg: Roderer; 2007
- 6 Rubin DB. Inference and missing data. Biometrika 1976; 63 (03) 581-592
- 7 Raykov T. On testability of missing data mechanisms in incomplete data sets. Structural Equation Modeling: A Multidisciplinary Journal 2011; 18 (03) 419-429
- 8 Hair J, Black W, Babin B et al. Multivariate data analysis: A global perspective. New Jersey: Pearson; 2010
- 9 Enders CK. Analyzing longitudinal data with missing values. Rehabilitation Psychology 2011; 56 (04) 267-288
- 10 Enders CK. Applied missing data analysis. New York: The Guilford Press; 2010
- 11 IBM Deutschland . SPSS Software für Predictive Analytics. Ehningen: IBM Deutschland; herausgegeben; 2012. verfügbar unter: http://www-01.ibm.com/software/de/analytics/spss/ (aufgerufen 31.7.2012)
- 12 Collins LM, Schafer JL, Kam CM. A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychological Methods 2001; 6 (04) 330-351
- 13 Heckman JT. The common structure of statistical models of truncation, sample selection and limited dependent variables and a simple estimator for such models. The Annals of Economic and Social Measurement 1976; 5: 475-492
- 14 Heckman JT. Sample selection bias as a specification error. Econometrica 1979; 47: 153-161
- 15 Muthén B, Asparouhov T, Hunter AM et al. Growth modeling with nonignorable dropout: Alternative analyses of the STAR* D antidepressant trial. Psychological Methods 2011; 16 (01) 17-33
- 16 Graham JW. Missing data analysis: Making it work in the real world. Annual Review of Psychology 2009; 60: 549-576
- 17 von Hippel PT. Biases in SPSS 12.0 missing value analysis. The American Statistician 2004; 58 (02) 160-164
- 18 Rubin DB. Multiple imputation for nonresponse in surveys. New York: Wiley; 1987
- 19 Graham JW, Olchowski AE, Gilreath TD. How many imputations are really needed? Some practical clarifications of multiple imputation theory. Prevention Science 2007; 8 (03) 206-213
- 20 Graham J, Cumsille P, Elek-Fisk E. Methods for handling missing data. In: Schinka J, Velicer W. Hrsg Handbook of psychology: Research methods in psychology. New York: John Wiley & Sons; 2003: 87-114
- 21 Enders CK. A note on the use of missing auxiliary variables in full information maximum likelihood-based structural equation models. Structural Equation Modeling: A Multidisciplinary Journal 2008; 15 (03) 434-448
- 22 von Hippel PT. How to impute interactions, squares, and other transformed variables. Sociological Methodology 2009; 39 (01) 265-291
- 23 McKnight PE, McKnight KM, Sidani S et al. Missing data: A gentle introduction. New York: The Guilford Press; 2007
- 24 Lüdtke O, Robitzsch A, Trautwein U et al. Umgang mit fehlenden Werten in der psychologischen Forschung. Psychologische Rundschau 2007; 58 (02) 103-117
- 25 Schafer JL. Analysis of incomplete multivariate data. London: Chapman & Hall; 1997
- 26 Yucel RM. State of the multiple imputation software. J Stat Softw 2011; 45: 1
Korrespondenzadresse
-
Literatur
- 1 Allison P. Missing data. Thousand Oaks, CA: Sage; 2001
- 2 Little RJA, Rubin DB. The analysis of social science data with missing values. Sociological Methods & Research 1989; 18 (2–3) 292-326
- 3 Little RJA, Rubin DB. Statistical analysis with missing data. 2. Aufl. New York: Wiley-Interscience; 2002
- 4 Wirtz M. Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation 2004; 43 (01) 1-7
- 5 Frey C, Bührlen B, Gerdes N et al. Handbuch zum IRES-3: Indikatoren des Reha-Status, Version 3 mit IRES-24 (Kurzversion). Regensburg: Roderer; 2007
- 6 Rubin DB. Inference and missing data. Biometrika 1976; 63 (03) 581-592
- 7 Raykov T. On testability of missing data mechanisms in incomplete data sets. Structural Equation Modeling: A Multidisciplinary Journal 2011; 18 (03) 419-429
- 8 Hair J, Black W, Babin B et al. Multivariate data analysis: A global perspective. New Jersey: Pearson; 2010
- 9 Enders CK. Analyzing longitudinal data with missing values. Rehabilitation Psychology 2011; 56 (04) 267-288
- 10 Enders CK. Applied missing data analysis. New York: The Guilford Press; 2010
- 11 IBM Deutschland . SPSS Software für Predictive Analytics. Ehningen: IBM Deutschland; herausgegeben; 2012. verfügbar unter: http://www-01.ibm.com/software/de/analytics/spss/ (aufgerufen 31.7.2012)
- 12 Collins LM, Schafer JL, Kam CM. A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychological Methods 2001; 6 (04) 330-351
- 13 Heckman JT. The common structure of statistical models of truncation, sample selection and limited dependent variables and a simple estimator for such models. The Annals of Economic and Social Measurement 1976; 5: 475-492
- 14 Heckman JT. Sample selection bias as a specification error. Econometrica 1979; 47: 153-161
- 15 Muthén B, Asparouhov T, Hunter AM et al. Growth modeling with nonignorable dropout: Alternative analyses of the STAR* D antidepressant trial. Psychological Methods 2011; 16 (01) 17-33
- 16 Graham JW. Missing data analysis: Making it work in the real world. Annual Review of Psychology 2009; 60: 549-576
- 17 von Hippel PT. Biases in SPSS 12.0 missing value analysis. The American Statistician 2004; 58 (02) 160-164
- 18 Rubin DB. Multiple imputation for nonresponse in surveys. New York: Wiley; 1987
- 19 Graham JW, Olchowski AE, Gilreath TD. How many imputations are really needed? Some practical clarifications of multiple imputation theory. Prevention Science 2007; 8 (03) 206-213
- 20 Graham J, Cumsille P, Elek-Fisk E. Methods for handling missing data. In: Schinka J, Velicer W. Hrsg Handbook of psychology: Research methods in psychology. New York: John Wiley & Sons; 2003: 87-114
- 21 Enders CK. A note on the use of missing auxiliary variables in full information maximum likelihood-based structural equation models. Structural Equation Modeling: A Multidisciplinary Journal 2008; 15 (03) 434-448
- 22 von Hippel PT. How to impute interactions, squares, and other transformed variables. Sociological Methodology 2009; 39 (01) 265-291
- 23 McKnight PE, McKnight KM, Sidani S et al. Missing data: A gentle introduction. New York: The Guilford Press; 2007
- 24 Lüdtke O, Robitzsch A, Trautwein U et al. Umgang mit fehlenden Werten in der psychologischen Forschung. Psychologische Rundschau 2007; 58 (02) 103-117
- 25 Schafer JL. Analysis of incomplete multivariate data. London: Chapman & Hall; 1997
- 26 Yucel RM. State of the multiple imputation software. J Stat Softw 2011; 45: 1