Hoorcollege 11: Medische Statistiek (191530460)

 

 

 Hoofdstuk 12; vorige keer bekeken:

 

·       correlatie

 

o      spreidingsdiagram (‘puntenwolk’) van (Xi,Yi), i=1, ..., n

 

o      r = rXY = sXY /(sX sY) schatter voor ρ

 

 

·       enkelvoudige lineaire regressie

 

o      model: Yi = α + βxi + Ei, met de Ei o.o. en  N(0,σ2)

 

o      regressielijn a + bx  (via KKm)

 

o       b = sXY/sX2 , a =

= {Σ (Yi – a - bxi)2}/(n-2), met (n-2) df

 

o      (b-β)/se(b) t-verdeeld  met (n-2) df: → toets en BI

(a+bx0–μ(x0))/se(a+bx0) t-verdeeld  met (n-2) df: → idem

 

o      betrouwbaarheidsband versus voorspellingsband!

 

 

12.1  Inleiding

 

·                    enkelvoudig: invloed X op Y

multiple: invloed X1, ..., Xp  op Y, voor zekere p>1

 

·        Y: afhankelijke variabele of responsvariabele

Xj: onafhankelijke variabelen, predictoren of covariabelen

 

·        soort model hangt af van verdeling van Y; hier: alleen normaal

 

 

12.2 multiple lineaire regressie

 

·       idee:

 

o      Yi = β0 + β1X1i + ... + βpXpi + Ei, met de Ei o.o. en  N(0,σ2)

 

o      p = 1: β0 = α, β1 = β: H8, enkelvoudige lineaire regressie

 

o      p x enkelvoudig: Y met Xi, i=1, ..., p: minder geschikt!

reden: verbanden tussen de Xi onderling dan niet verwerkt

 

o       voorbeeld: weer systolische bloeddruk Y en leeftijd X,

     maar nu nòg twee X-en: polsfrequentie en gewicht

 

·       aanpak

 

o                              schat de βj m.b.v. bj zodanig dat (KKm):

 

 Σi (Yi - ab0b1x1i -...- bpxpi )2     minimaal   

 

o       weer: (bj –βj)/se(bj) t-verdeeld, nu  met (n-p-1) df,

dus ook weer toets voor H0: βi=0 en BI voor βi

 

o       ook: = {Σ (Yiab0b1x1i -...- bpxpi )2}/(n-p-1) schat σ2

 

o      gebruik (uiteraard) computerpakket voor berekeningen

 

o      resultaten in een tabel: interpretatie!

    

o       voorbeeld (vervolg):

 

o       β’s voor gewicht en polsfreq. significant  (P: 0.03 en 0.04)

 

o       maar voor leeftijd niet (P= 0.41)!

 

o       bij  enkelvoudig met alleen leeftijd: P nog 0.07

o       correlatie gewicht en leeftijd speelt hier een rol

 

 

12.3 variantie-analyse tabel

 

·       lijkt sterk op analyse bij enkelvoudige ANOVA (H6.3)

 

·       splits nu:

o                                                                                  in      +   

o                                                                               Σ()2 = Σ()2 + Σ()2

 

o                                                                                     SStot       =      SSreg        +       SSres

 

o                                                                               df:   n-1       =       p            +      n-p-1

 

·        tabel:

 

bron

df

SS

MS

F

P

R2

regressie

p

SSreg

MSreg

MSreg/ MSres

 

 

residueel

n-p-1

SSres

MSres

 

 

 

Total

n-1

SStot

 

 

 

 

 

·        H0: β1= ... = βp=0 nu toetsen met F; heeft -verdeling

·        R=correlatie tussen Y en : 100R2 = % verklaarde variantie

 

·        R heet multipele correlatie tussen Y en X1, ...., Xp

 

·       voorbeeld (vervolg):

 

bron

df

SS

MS

F

P

R2

regressie

3

2451.8

817.3

5.52

0.0043

0.38

residueel

27

3997.6

148.1

 

 

 

Total

30

6449.4

 

 

 

 

 

o       F significant: niet alle β’s 0

 

o       R = √0.38 = 0.62 > elk der paarsgewijze correlaties

 

o       anderzijds: nog wel 100(1-R2) = 62 % variantie over

 

 

 

12.4      hypothese toetsen

 

o      generalisatie:

 

o                              i.p.v. H0: β1= ... = βp= 0 (‘alles nul’) nu toetsen:

 

o                              H0: β1= ... = βk = 0 voor zekere k met 1 ≤ k p (‘sommige nul’)

 

o                              SS0,res: residuele kwadraatsom met alléén Xk+1, ..., Xp gebruikt

 

o                              toets nu met F = {(SS0,res - SSres)/k}/MSres ; heeft -verdeling

 

o                              voorbeeld(vervolg):

 

§       misschien alleen gewicht nuttig? dus hier k = 2

§       leidt tot  F=2.93, met P=0.07

§       lichte aanwijzing dat polsfreq. en leeftijd bijdrage leveren

  

 

 

12.5      covariantie-analyse

 

·             invloed groepsindeling’: ‘confounding’; graag uitschakelen!

 

·              model bijv. Yi = β0 + β1Z + β2X + E, met

  Z=0 (bij groep 1) of Z=1 (bij groep 2)

 

·              idee: beide groepen regressielijn met helling β2,

  maar hoogte resp. β0 en β01

 

·                     helling óók verschillend (géén evenwijdigheid): interactie!

 

·              nu model bijv. Yi = β0 + β1Z + β2X + β3X.Z + E,

  dan zowel hoogteverschil (β1) als hellingverschil (β3)

 

·              gebruikelijke aanpak: toets H0: β3=0; bij niet verwerpen:

             neem aan dat er geen interactie is.

 

·              voorbeeld:

 

o       Y systolische bloeddruk, mannen versus vrouwen

 

o       tweesteekproeven t-toets: significant verschil

 

o       MAAR: mannen gemiddeld zwaarder

 

o       gewicht X goede voorspeller Y (zie hiervoor)

 

o      DUS: covariantie-analyse met Z o.b.v. geslacht

 

o       conclusie: na correctie voor de ‘confounder’ gewicht

NIET meer significant!

 

 

 

12.6      opmerkingen

 

·       selectie van variabelen

 

§         p is eigenlijk te groot

 

§        alleen de ‘nuttige’ X-en meenemen

 

o            voorwaarts

 

o             begin met niets

 

o             stop eerst de beste Xj (met de kleinste P) er in

 

o             daarna de op een na beste Xj (met de dan kleinste P)

 

o             stop als de kleinste P te groot wordt

 

o             nadeel: misschien de beste combinatie gemist!

 

o            achterwaarts

 

o             begin met alles

 

o             verwijder de slechtste Xj (met de grootste P)

 

o             daarna de op een na slechtste

 

o             stop als de grootste P klein genoeg is

 

o             nadeel: weinig mogelijke combinaties!

 

o            alle subsets

 

o             kies een k < p

o             bekijk alle () subsets

o             neem de beste

 

o             nadeel: érg veel werk!

 

o            algemeen nadeel: toevalseffecten, bij nieuwe steekproef

      (veel) slechter

 

 

·       inspectie van modelveronderstellingen

 

o             geheel hetzelfde idee als bij enkelvoudige geval (H8)

 

o             nu residuenplots tegen elk der Xj