Hoorcollege
11: Medische Statistiek (191530460)
· correlatie
o
spreidingsdiagram
(‘puntenwolk’) van (Xi,Yi), i=1, ..., n
o r = rXY
= sXY /(sX sY) schatter
voor ρ
·
enkelvoudige lineaire regressie
o
model:
Yi = α + βxi + Ei, met de Ei o.o. en N(0,σ2)
o
regressielijn a + bx (via KKm)
o
b
= sXY/sX2 , a
= ![]()
=
{Σ (Yi – a - bxi)2}/(n-2), met (n-2) df
o
(b-β)/se(b)
t-verdeeld met (n-2) df: →
toets en BI
(a+bx0–μ(x0))/se(a+bx0)
t-verdeeld met (n-2) df: →
idem
o
betrouwbaarheidsband
versus voorspellingsband!
12.1 Inleiding
·
enkelvoudig:
invloed X op Y
multiple: invloed X1, ..., Xp
op Y, voor zekere p>1
·
Y: afhankelijke variabele of responsvariabele
Xj: onafhankelijke variabelen, predictoren of
covariabelen
·
soort
model hangt af van verdeling van Y; hier: alleen normaal
12.2 multiple lineaire regressie
·
idee:
o
Yi
= β0 +
β1X1i
+ ... + βpXpi + Ei, met de Ei o.o. en N(0,σ2)
o
p = 1: β0 = α,
β1 = β: H8, enkelvoudige lineaire regressie
o
p x enkelvoudig: Y met Xi,
i=1, ..., p: minder geschikt!
reden: verbanden tussen de Xi onderling dan niet
verwerkt
o
voorbeeld:
weer systolische bloeddruk Y en leeftijd X,
maar nu nòg twee X-en:
polsfrequentie en gewicht
·
aanpak
o
schat
de βj m.b.v. bj zodanig dat (KKm):
Σi (Yi - a – b0 –b1x1i -...- bpxpi
)2 minimaal
o weer: (bj –βj)/se(bj)
t-verdeeld, nu met (n-p-1)
df,
dus ook weer toets voor H0: βi=0
en BI voor βi
o ook:
= {Σ (Yi – a – b0 –b1x1i -...- bpxpi
)2}/(n-p-1) schat σ2
o gebruik (uiteraard) computerpakket voor
berekeningen
o resultaten in een tabel: interpretatie!
o
voorbeeld
(vervolg):
o
β’s
voor gewicht en polsfreq. significant (P:
0.03 en 0.04)
o
maar voor
leeftijd niet (P= 0.41)!
o
bij enkelvoudig met alleen leeftijd: P nog
0.07
![]()
![]()
o
correlatie
gewicht en leeftijd speelt hier een rol
12.3 variantie-analyse tabel
·
lijkt sterk op analyse bij
enkelvoudige ANOVA (H6.3)
·
splits nu:
o
in
+ ![]()
o
Σ(
)2 = Σ(
)2 + Σ(
)2
o
SStot = SSreg + SSres
o
df: n-1 =
p + n-p-1
·
tabel:
|
bron |
df |
SS |
MS |
F |
P |
R2 |
regressie
|
p |
SSreg |
MSreg |
MSreg/ MSres |
|
|
|
residueel |
n-p-1 |
SSres |
MSres |
|
|
|
|
Total |
n-1 |
SStot |
|
|
|
|
·
H0: β1= ... = βp=0 nu toetsen met F;
heeft
-verdeling
·
R=correlatie tussen Y en
: 100R2 = % verklaarde variantie
·
R heet multipele correlatie tussen Y en
X1, ...., Xp
·
voorbeeld (vervolg):
|
bron |
df |
SS |
MS |
F |
P |
R2 |
regressie
|
3 |
2451.8 |
817.3 |
5.52 |
0.0043 |
0.38 |
|
residueel |
27 |
3997.6 |
148.1 |
|
|
|
|
Total |
30 |
6449.4 |
|
|
|
|
o
F significant: niet alle β’s 0
o
R = √0.38 = 0.62 > elk der paarsgewijze
correlaties
o
anderzijds:
nog wel 100(1-R2) = 62 % variantie over
12.4
hypothese toetsen
o generalisatie:
o
i.p.v.
H0: β1= ... = βp= 0
(‘alles nul’) nu toetsen:
o
H0: β1= ... = βk = 0 voor zekere k
met 1 ≤ k ≤ p (‘sommige nul’)
o
SS0,res:
residuele kwadraatsom
met alléén Xk+1,
..., Xp gebruikt
o
toets
nu met F = {(SS0,res - SSres)/k}/MSres
; heeft
-verdeling
o
voorbeeld(vervolg):
§
misschien
alleen gewicht nuttig? dus hier k = 2
§
leidt
tot F=2.93, met P=0.07
§
lichte
aanwijzing dat polsfreq. en leeftijd bijdrage leveren
12.5
covariantie-analyse
·
invloed groepsindeling’:
‘confounding’; graag uitschakelen!
·
model
bijv. Yi
= β0 +
β1Z
+ β2X + E,
met
Z=0 (bij groep 1) of Z=1 (bij groep 2)
·
idee:
beide groepen regressielijn met helling β2,
maar hoogte resp. β0
en β0+β1
·
helling óók verschillend (géén
evenwijdigheid): interactie!
·
nu
model bijv. Yi
= β0 +
β1Z
+ β2X + β3X.Z +
E,
dan zowel hoogteverschil (β1)
als hellingverschil (β3)
·
gebruikelijke
aanpak: toets H0: β3=0; bij niet verwerpen:
neem aan dat er geen
interactie is.
·
voorbeeld:
o
Y systolische bloeddruk, mannen versus vrouwen
o
tweesteekproeven
t-toets: significant verschil
o
MAAR:
mannen gemiddeld zwaarder
o
gewicht
X goede voorspeller Y (zie hiervoor)
o DUS: covariantie-analyse met Z o.b.v.
geslacht
o
conclusie:
na correctie voor de ‘confounder’ gewicht
NIET meer significant!
12.6
opmerkingen
· selectie van variabelen
§
p is eigenlijk te groot
§
alleen de ‘nuttige’ X-en
meenemen
o
voorwaarts
o
begin met niets
o
stop eerst de beste Xj
(met de kleinste P) er in
o
daarna de op een na beste Xj (met de dan kleinste P)
o
stop als de kleinste P
te groot wordt
o
nadeel: misschien de beste combinatie gemist!
o
achterwaarts
o
begin met alles
o
verwijder de slechtste
Xj (met de grootste P)
o
daarna de op een na slechtste
o
stop als de grootste P
klein genoeg is
o
nadeel: weinig mogelijke combinaties!
o
alle subsets
o
kies een k <
p
o
bekijk alle (
) subsets
o
neem de beste
o
nadeel: érg veel werk!
o
algemeen nadeel: toevalseffecten, bij nieuwe steekproef
(veel) slechter
· inspectie van
modelveronderstellingen
o
geheel hetzelfde idee als bij enkelvoudige geval (H8)
o
nu residuenplots tegen elk der Xj