Einfache lineare Regression
Einfache lineare Regression
Mit Hilfe der einfachen linearen Regression (engl.:
simple linear regression) lässt sich der Zusammenhang zwischen
zwei stetigen Merkmalen statistisch untersuchen [6].
Hierbei wird unterschieden zwischen der erklärenden
Variable X (z. B. X = Gewicht
in kg) und der Zielvariable Y (z. B. Y = systolischer
Blutdruck in mmHg). Der Zusammenhang wird mit Hilfe der Geradengleichung
Y = α + β X
untersucht, d. h. man beschränkt sich auf die
Untersuchung linearer Zusammenhänge. Ist die Annahme der
Linearität verletzt, d. h. liegen die Punkte (X,Y) im Mittel
gar nicht auf einer Geraden, müssen die Variablen entweder
so transformiert werden, dass zwischen den transformierten Variablen
ein linearer Zusammenhang besteht, oder es muss ein entsprechendes
nichtlineares Regressionsmodell angewendet werden. Der Parameter
von Interesse ist i. d. R. der Regressionskoeffizient β;
er gibt den Anstieg von Y bei einem Anstieg
von X um eine Einheit an: je größer
der Betrag von β ist, desto größer ist
der Einfluss von X auf Y.
Der Achsenabschnitt (engl.: intercept) α gibt
den Y-Wert bei X = 0
an. Im obigen Beispiel bedeutet β = 1,31,
dass im Mittel mit jedem Anstieg des Gewichts um 1 kg der
systolische Blutdruck um 1,31 mmHg ansteigt [6].
Multiple lineare Regression
Multiple lineare Regression
Das einfache lineare Regressionsmodell lässt sich formal
leicht auf ein multiples Modell mit mehreren erklärenden
Variablen X
1,...,Xm verallgemeinern durch
Y = α + β 1
X
1
+ ... + β mXm
.
Mit Hilfe dieses Modells der multiplen linearen
Regression (engl.: multiple linear regression) lässt
sich der gemeinsame lineare Einfluss der erklärenden Variablen X
1
,...,Xm auf
die Zielvariable Y untersuchen. Dieses
allgemeine Modell hat in der medizinischen Statistik eine große
Bedeutung, da sehr viele Fragestellungen zur Anwendung multipler
Regressionsmodelle führen.
Zunächst einmal sind reine bivariate Zusammenhänge
in der medizinischen Forschung eher die Ausnahme. Zwar besteht ein
Zusammenhang zwischen dem Gewicht als erklärender Variable X
und dem systolischen Blutdruck als
Zielvariable Y, aber in aller Regel gibt
es weitere Variablen, die einen Einfluss auf Y haben, z. B. X
2 =
Alter, X
3 =
Geschlecht
und X
4 = Rauchen.
Durch ein multiples lineares Regressionsmodell lässt sich
also der gemeinsame Einfluss der Variablen Gewicht, Alter, Geschlecht
und Rauchen auf dem systolischen Blutdruck untersuchen. Zu beachten
ist hierbei, dass in die Modellgleichung nur erklärende
Variablen mit stetigem und/oder binären Messniveau
betrachtet werden können. Erklärende kategorielle
Variablen mit mehr als zwei Kategorien können durch Kodierungstechniken
berücksichtigt werden. Am häufigsten werden die
Variablen mit Hilfe der so genannten Dummy-Kodierung berücksichtigt.
Das bedeutet, dass man eine Kategorie als Referenzkategorie wählt
und die anderen Kategorien im Vergleich hierzu als binäre
Variablen darstellt. Auf diese Weise lässt sich der Einfluss
einer erklärenden Variable mit k Kategorien
durch k-1 Regressionskoeffizienten darstellen.
In vielen Anwendungen der medizinischen Statistik interessiert man
sich zwar zunächst nur für den Einfluss einer
erklärenden Variable X
1 auf
die Zielvariable Y, jedoch muss man andere
Variablen im Modell berücksichtigen, um den Zusammenhang
zwischen X
1 und Y möglichst unverzerrt schätzen
zu können. Ein häufiges Beispiel ist der Vergleich
von 2 Gruppen (z. B. exponierte und nicht exponierte Personen)
bezüglich der Zielvariable Y (wie bisher
z. B. Y = systolischer
Blutdruck) in einer Beobachtungsstudie. Wenn die Gruppenzugehörigkeit
nicht durch Randomisierung zugewiesen werden konnte, kann man nicht
davon ausgehen, dass alle weiteren für Y wichtigen
erklärenden Variablen in den Gruppen gleich verteilt sind.
Würde man einfach den t-Test [7] zum Vergleich der Gruppen anwenden,
könnte ein signifikanter Unterschied zwischen den Gruppen
sowohl auf einen Effekt der Exposition, als auch auf systematische
Unterschiede zwischen den beiden Gruppen bezüglich anderer
Variablen (z. B. Alter, Geschlecht und Rauchen) zurückzuführen
sein. Um eine solche Verzerrung (engl.:
bias) bei der Schätzung des Expositionseffekts zu reduzieren
(im Idealfall auf Null), müssen die wichtigen, d. h.
die prognostisch relevanten Einflussvariablen berücksichtigt
werden. Dies ist, als Erweiterung des t-Tests,
mit Hilfe eines multiplen Regressionsmodells möglich, in
dem die erklärenden Variablen X 1 =
Exposition, X
2 = Alter, X
3 =
Geschlecht
und X
4 = Rauchen
gemeinsam in einem Modell betrachtet werden. Durch ein solches Modell
erhält man den interessierenden Expositionseffekt durch den
Regressionskoeffizienten β1. Da im multiplen
Modell die anderen erklärenden Variablen und damit mögliche
systematische Unterschiede bezüglich dieser Variablen berücksichtigt
sind, spricht man hier von einem nach Alter, Geschlecht und Rauchen adjustierten Regressionskoeffizienten
.
Eine solche multifaktorielle Analyse kann in Interventionsstudien kein
Ersatz für eine Randomisierung sein. Die Berechnung adjustierter
Effekte stellt aber in Fällen, in denen aus ethischen oder praktischen
Gründen keine Randomisierung durchgeführt werden
kann, eine wesentlich adäquatere Auswertungsstrategie dar als
die einfache Schätzung der rohen nicht adjustierten Effekte.
Beispiel: Effektivität eines ambulanten Gewichtsreduktionsprogramms
Beispiel: Effektivität eines ambulanten Gewichtsreduktionsprogramms
In einer Beobachtungsstudie zur Effektivität eines ambulanten Gewichtsreduktionsprogramms
wurde anhand einer Stichprobe von n = 294 übergewichtigen
Patienten untersucht, welche Faktoren mit einer Gewichtsabnahme
assoziiert sind [5]. Eine Fragestellung
war, ob die Gewichtsabnahme bei Männern und Frauen unterschiedlich
ist. Als Zielvariable wurde die relative Gewichtsänderung
zwischen Therapieende und Therapieanfang in %
Y = 100 × (Gewicht
am Ende - Anfangsgewicht)/Anfangsgewicht
betrachtet, d. h. bei negativen Werten für Y liegt eine Gewichtsabnahme vor. Es
zeigte sich, dass Männer im Durchschnitt (-8,83 %) mehr
abgenommen haben als Frauen (-7,16 %).
Der Unterschied von -1,67 % ist aber
nicht signifikant (t-Test: p = 0,0731).
Genau das gleiche Resultat erhält man, indem eine einfache
lineare Regression mit der binären erklärenden
Variable Geschlecht (1 = männlich,
0 = weiblich) durchgeführt wird.
Der Regressionskoeffizient entspricht dann gerade der mittleren
Differenz zwischen Männern und Frauen (Tab. [1]
).
Tab. 1 Einfache
lineare Regressionsanalyse für die Assoziation zwischen
prozentualer Gewichtsabnahme und Geschlecht bei 294 übergewichtigen
Patienten.
|
Regressions-
koeffizient
|
Standard-
fehler
|
95 % Konfidenz-
intervall
|
p-Wert
|
Achsenabschnitt
|
- 7,158
|
0,473
|
|
0,0001
|
Geschlecht (männl. vs.
weibl.)
|
- 1,675
|
0,931
|
- 3,50 bis + 0,15
|
0,0731
|
Die Formulierung als Regressionsmodell hat den Vorteil, dass
es sich auf den Fall mehrerer erklärender Variablen verallgemeinern lässt.
Potenzielle erklärende Variablen für die Gewichtsabnahme sind
hier u. a. die Dauer der Behandlung und der Bildungsstand. Der
Einfachheit halber beschränken wir uns in diesem Beispiel
auf die Betrachtung dieser Variablen. Die Berücksichtigung
der Behandlungsdauer ist hier besonders wichtig, da diese Variable
einen starken Einfluss auf die Gewichtsabnahme besitzt und bei Männern
und Frauen unterschiedlich verteilt ist. Während Männer
im Mittel 5,8 Monate am Programm teilnahmen, lag diese Zahl bei Frauen
im Mittel bei 7,2 Monaten. Da die Behandlungsdauer mit einer höheren
Gewichtsabnahme assoziiert ist, ergibt sich bei der einfachen Betrachtung
des Unterschieds zwischen Männern und Frauen ein Bias.
Dieser kann durch ein adäquates multiples Modell ausgeglichen
werden. In einer multiplen linearen Regression mit den erklärenden
Variablen Geschlecht, Behandlungsdauer (in Monaten) und Bildungsstand
(1 = hoch, 0 = niedrig)
zeigt sich ein signifikanter Einfluss des Geschlechts (Tab. [2]).
Tab. 2 Multiple
lineare Regressionsanalyse für die Assoziationen zwischen
prozentualen Gewichtsabnahme und Geschlecht, Behandlungsdauer und
Bildungsstand bei 294 übergewichtigen Patienten.
|
Regressions-
koeffizient
|
Standard-
fehler
|
95 % Konfidenz-
intervall
|
p-Wert
|
Achsenabschnitt
|
- 3,152
|
0,594
|
|
0,0001
|
Geschlecht (männl. vs.
weibl.)
|
- 2,416
|
0,819
|
- 4,02 bis - 0,81
|
0,0034
|
Behandlungs-
dauer (Monate)
|
- 0,530
|
0,059
|
- 0,65 bis - 0,41
|
0,0001
|
Bildungsstand (hoch vs.
niedrig)
|
- 4,566
|
1,886
|
- 8,26 bis - 0,87
|
0,0161
|
Der nach Behandlungsdauer und Bildungsstand adjustierte durchschnittliche
Unterschied zwischen Männern und Frauen ist identisch mit
dem Regressionskoeffizienten des Geschlechts (-2,42 %, p =
0,0034),
der deutlich höher ist als der rohe nicht adjustierte Unterschied. Durch
ein multiples Regressionsmodell lassen sich auch adjustierte Mittelwerte
für die einzelnen Gruppen schätzen. Bei gleicher
Behandlungsdauer und gleichem Bildungsstand beträgt die
relative Gewichtsveränderung bei Männern im Mittel -9,383 % und
bei Frauen -6,967 %; die Differenz dieser
beiden Werte ergibt gerade den Wert des Regressionskoeffizienten.
Modellbildung und Modellgüte
Modellbildung und Modellgüte
Die sinnvolle Anwendung der multiplen Regressionsanalyse in der
Praxis ist sehr viel komplizierter als hier in Kürze dargestellt werden
kann. Außer der Auswahl der Zielvariablen und der erklärenden
Variablen sollte zunächst eine konkrete Modellgleichung entwickelt
werden, welche die untersuchten Zusammenhänge adäquat
beschreibt. Dazu gehört die Betrachtung von möglichen Transformationen
sowohl der Zielvariablen
als auch der erklärenden Variablen, die Untersuchung möglicher
nichtlinearer Zusammenhänge durch quadratische oder kubische
Effekte und Überlegungen zu möglichen Wechselwirkungen (engl.: interactions)
zwischen den erklärenden Variablen. Zur Modellbildung und
Untersuchung der Modellgüte (engl.:
goodness-of-fit) gibt es eine Reihe von Verfahren, die als Regressionsdiagnostiken (engl.: regression
diagnostics) bezeichnet werden. Auf diese Methoden kann im Rahmen
dieses Artikel nicht eingegangen werden. Der interessierte Leser
sei auf die Literatur verwiesen [3]
[4]
[8].
Ein Maß für den prädiktiven Wert eines
multiplen linearen Regressionsmodells ist das multiple Bestimmtheitsmaß R² (engl.:
coefficient of determination). Es stellt für die Untersuchung
von Zusammenhängen zwischen mehr als zwei Variablen eine
Verallgemeinerung des quadrierten Korrelationskoeffizienten [6] dar. Das Bestimmtheitsmaß R² gibt
den Anteil der Varianz der Zielvariablen an, der durch alle erklärenden
Variablen im multiplen Regressionsmodell gemeinsam erklärt
werden kann. Im betrachteten Beispiel der Assoziationen zwischen
relativer Gewichtsabnahme und den erklärenden Variablen
Geschlecht, Behandlungsdauer und Bildungsstand ergibt sich der Wert
R² = 0,25, d. h. durch
alle 3 Faktoren gemeinsam lässt sich 25 % der
Variabilität der Gewichtsabnahme erklären. Ein
großer Anteil der Variabilität wird durch andere Faktoren
erklärt, so dass sich die Gewichtsabnahme eines übergewichtigen
Patienten aus der Kenntnis der 3 erklärenden Variablen vermutlich
nicht mit genügender Genauigkeit ableiten lässt.
Ein limitierender Faktor bei der Anwendung multipler Regressionsmodelle
in der Praxis ist häufig der Stichprobenumfang. Einerseits
müssen in der Regressionsgleichung alle wichtigen erklärenden
Variablen enthalten sein, andererseits benötigt man mit
steigender Zahl der erklärenden Variablen auch größere Stichproben.
Der benötigte Stichprobenumfang hängt natürlich immer
von der konkreten Situation ab. Als Faustregel gilt jedoch, dass
man in einer multiplen linearen Regression pro Modellparameter mindestens
10 Beobachtungen benötigt, um ein einigermaßen
stabiles Modell zu erhalten [4].
Übersicht über Regressionsmethoden
Übersicht über Regressionsmethoden
Die multiple lineare Regression ist eine spezielle Klasse der
Regressionsmethoden, die in Frage kommt, wenn die betrachtete Zielvariable stetiges Messniveau
besitzt. Je nach
Zahl und Messniveau der erklärenden Variablen lassen sich
auch der t-Test [7] und
die Methoden der Varianzanalyse [1] in
die Klasse der linearen Regression einbetten. Ein lineares Regressionsmodell
mit genau einer erklärenden Variablen mit binärem
Messniveau ist äquivalent zum t-Test
(Vergleich von 2 Gruppen). Liegt eine erklärende Variable
mit nominalem Messniveau (Vergleich mehrerer Gruppen) vor, ergibt
sich das Varianzanalysemodell der Einfachklassifikation. Bei mehreren
nominal skalierten erklärenden Variablen, erhält
man die Varianzanalysemodelle der Mehrfachklassifikation.
Hat die betrachtete Zielvariable kein stetiges Messniveau, so kann
die Klasse der linearen Regressionsmodelle nicht sinnvoll angewendet
werden. Bei binären Zielvariablen
(Ereignis ja/nein), kommt die logistische
Regression (engl.: logistic regression), bei Überlebenszeiten [9]
als Zielgröße das proportionale Hazards Modell von Cox in
Frage. Auf diese Modelle werden wir in weiteren Artikeln eingehen [2]
[10].
Die englischen Bezeichnungen der hier diskutierten Begriffe zeigt Tab. [3].
Tab. 3 Übersetzung
(deutsch - englisch).
Deutsch
|
Englisch
|
einfache lineare Regression
|
simple linear regression
|
erklärende Variable
|
explanatory factor
|
Zielvariable
|
response variable
|
Regressionskoeffizient
|
regression coefficient
|
Achsenabschnitt
|
intercept
|
multiple lineare Regression
|
multiple linear regression
|
Verzerrung
|
bias
|
adjustiert
|
adjusted
|
Wechselwirkung
|
interaction
|
Modellgüte
|
goodness-of-fit
|
Regressionsdiagnostiken
|
regression diagnostics
|
Bestimmtheitsmaß
|
coefficient of determination
|
logistische Regression
|
logistic regression
|
proportionales Hazards Modell
|
proportional hazards model
|
|
kurzgefasst: Mit Hilfe der multiplen
linearen Regression lassen sich Assoziationen zwischen einer stetigen
Zielvariablen und mehreren erklärenden Variablen untersuchen.
Der Regressionskoeffizient einer erklärenden Variable stellt
ein nach den anderen Variablen adjustiertes Effektmaß dar.
|