4 Mallikritiikki ja mallin valinta
Mallikritiikissä tarkastellaan mallin sopivuutta dataan. Mallikritiikkiin liittyvät menetelmät ja periaatteet ovat aktiivinen tutkimusaihe Bayes-tilastotieteessä.
Mallin sopivuutta tulisi arvioida uudella datalla, jota ei ole käytetty mallin sovittamisessa. Tämän toteuttamiseksi data voidaan jakaa opetusaineistoon \(y_f\) ja testiaineistoon \(y_c\). Jos tällainen jako toteutetaan usealla eri tavalla, puhutaan ristiinvalidoinnista. Erilaiset informaatiokriteerit pyrkivät myös mittaamaan mallin sopivuutta uudessa datassa. Informaatiokriteereiden arvo riippuu uskottavuudesta ja mallin parametrien lukumäärästä.
4.1 Posterioriennustejakauman tarkastelu
Bayes-tilastotieteessä tulokset esitetään parametrien posteriorijakaumana. Parametrien posteriorijakaumaa \(p(\theta | y_f)\) ei voi suoraan verrata todellisiin arvoihin \(y_c\), vaan vertailu tulee tehdä posterioriennustejakauman \(p(\widetilde{y}_c | y_f)\) avulla. Posterioriennustejakauma saadaan integroimalla posteriorijakauman ylitse \[ p(\widetilde y_c | y_f) = \int p(\widetilde{y}_c | \theta) p(\theta | y_f)\, d\theta. \] Käytännössä tämä toteutetaan siten, että jokaisella MCMC-ketjun arvolla \(\theta^{(i)}\) generoidaan mallista uusi havaintoaineisto \(\widetilde{y}^{(i)}_c\). Näitä posterioriennustejakauman tuottamia toistoaineistoja verrataan testiaineistoon \(y_c\).
Käytännössä ei yleensä jaeta aineistoa vaan käytetään samaa aineistoa sekä estimointiin että mallintarkistukseen (\(y_c=y_f\)). Tällöin diagnostiikat ovat todennäköisesti konservatiivisia, eli ne eivät osoita poikkeamaa mallin ja havaintoaineiston välillä kovinkaan herkästi.
4.2 Bayes-p-arvo
Bayes-p-arvo (eli posterioriennuste-p-arvo) kertoo, kuinka hyvin testidata ja posterioriennustejakauma vastaavat toisiaan jonkin kiinnostuksen kohteena olevan ominaisuuden suhteen. Olkoon \(T(y_c)\) jokin datasta laskettu tunnusluku, jota voi nimittää myös testisuureeksi. Esimerkiksi aineiston minimi tai maksimi voi olla tällainen tunnusluku. Bayes-p-arvo lasketaan todennäköisyytenä, että \[ \begin{aligned} p_\textrm{Bayes} =& P(T(\widetilde{y}_c) \geq T(y_c) | y_f) \\ =& \int I(T(\widetilde{y}_c) \geq T(y_c))p(\widetilde{y}_c | y_f)\, d\widetilde{y}_c, \end{aligned} \] missä \(I\) on indikaattorifunktio. Bayes-p-arvon laskemiseksi tarvitaan siis posterioriennustejakaumasta useita simuloituja otoksia, joiden koko on sama kuin testiaineiston \(y_c\). Tällöin p-arvo saadaan sellaisten otosten suhteellisena osuutena, joilla niistä laskettu testitunnusluku ylittää testiaineistosta lasketun tunnusluvun. Jos \(p_\textrm{Bayes}\) tai \(1-p_\textrm{Bayes}\) on pieni, malli sopii huonosti dataan sen ominaisuuden osalta, jota tunnusluku \(T(y_c)\) kuvaa.
Testisuure voidaan yleistää niin, että se riippuu myös mallin tuntemattomista parametereista. Olkoon \(T(y,\theta)\) tällainen testisuure. Tällöin Bayes-p-arvo määritellään
\[ \begin{aligned} p_\textrm{Bayes} &= P(T(\widetilde{y}_c,\theta) \geq T(y_c,\theta) | y_f) \\ &= \int \int I(T(\widetilde{y}_c,\theta) \geq T(y_c,\theta))p(\widetilde{y}_c | \theta)p(\theta | y_f)\, d\widetilde{y}_c d\theta. \end{aligned} \]
4.3 Jäännökset
Frekventistisessä tilastotieteessä mallikritiikki perustuu usein mallin jäännösten tarkastelemiseen. Jäännöksiä voi tarkastella myös Bayes-tilastotieteessä.
Standardoitu Pearsonin jäännös \(r_i\) havainnolle \(y_i\) lasketaan parametrien funktiona \[ r_i(\theta) = \frac{y_i - \operatorname{E}(y_i | \theta)}{\sqrt{\operatorname{Var}(y_i | \theta)}}. \] Standardointi toimii jatkuvien muuttujien tapauksessa. Jäännöksiä \(r_i(\theta)\) voi verrata \(\operatorname{N}(0,1)\)-jakaumaan, mutta formaali inferenssi on hankalaa, koska jäännökset eivät ole toisistaan riippumattomia.
Jos vastemuuttuja on diskreetti, mallin sopivuutta voi tarkastella vertailemalla havaittuja ja ennustettuja suureita sopivasti määritellyissä luokissa. Niin sanottujen devianssijäännösten tarkastelu voi myös olla hyödyllistä joissakin tapauksissa.
4.4 Devianssi
Devianssi on \(-2\) kertaa log-uskottavuus määriteltynä parametrien funktiona \[ D(\theta) = -2 \log p(y | \theta). \] Stanissa devianssille voidaan laskea posteriorijakauma samaan tapaan kuin malliparametreille. JAGSissa devianssin posteriorin määrittämiseksi tulee log-uskottavuus määritellä eksplisiittisesti mallissa. NIMBLEssä voi tehdä samoin tai määritellä log-uskottavuus erillisenä funktiona. Devianssia ei yleensä yritetä tulkita sellaisenaan, vaan sitä käytetään informaatiokriteereiden osana.
4.5 Informaatiokriteerit
Informaatiokriteereitä käytetään valittaessa parasta mallia tarjolla olevista ehdokkaista. Uutta aineistoa ei eksplisiittisesti ole käytössä, mutta malleja rangaistaan käytetystä tehokkaasta parametrien lukumäärästä. Tehokas parametrien lukumäärä ottaa huomioon parametrien välisen riippuvuuden. Jos malli parametrisoidaan toisella tavalla niin tehokas parametrien määrä voi muuttua.
Devianssi-informaatiokriteeri (Deviance Information Criterion, DIC) perustuu odotettuun devianssiin \[
\overline{D} = \operatorname{E}_{\theta | y}(D(\theta)) = \int -2 \log p(y | \theta) p(\theta | y)\, d\theta
\] ja posterioriodotusarvon devianssiin \(D(\overline{\theta})\), missä \(\overline{\theta}=\operatorname{E}(\theta | y)\). Parametrien tehokas määrä saadaan näiden erotuksena \[
p_D = \overline{D}-D(\overline{\theta}).
\] Jos osa parametreista on kategorisia, posterioriodotusarvon \(\overline{\theta}\) määrittäminen on ongelmallista. DIC määritellään odotetun devianssin ja tehokkaan parametrien määrän summana \[
\begin{aligned}
\textrm{DIC} &= \overline{D}+p_D=2\overline{D}-D(\overline{\theta}) \\
&= \int -4 \log p(y | \theta) p(\theta | y)\, d\theta - D(\overline{\theta}).
\end{aligned}
\] Malli, jonka DIC-arvo on pienin, on kriteerin mukaan paras. Kriteeri voidaan esittää myös muodossa \[
\begin{aligned}
\textrm{DIC} &= \overline{D}+p_D=D(\overline{\theta})+2 p_D \\
&= -2 \log p(y | \overline{\theta})+2 p_D,
\end{aligned}
\] joka muistuttaa frekventistisessä tilastotieteessä käytettyä Akaiken informaatiokriteeriä (Akaike Information Criterion, AIC), kun \(\overline{\theta}\) tulkitaan suurimman uskottavuuden estimaatiksi ja \(p_D\) parametrien lukumääräksi. JAGS-mallista voidaan generoida DIC:n otoksia funktiolla dic.samples
.
Watanabe-Akaike-informaatiokriteeri (Watanabe-Akaike Information Criterion tai Widely Available Information Criterion, WAIC) käyttää odotetun devianssin ja posterioriodotusarvon sijaan havaintokohtaisia lausekkeita ja noudattaa täten Bayes-filosofiaa paremmin kuin DIC. Eräs WAIC-versio määritellään seuraavasti \[ \textrm{WAIC} =-2 \sum_{i=1}^n \left[ 2 \log \left( \int p(y_i | \theta)p(\theta | y)\, d\theta \right) - \int \log (p(y_i | \theta)) p(\theta | y)\, d\theta \right]. \] Kun käytössä on otos posteriorista \(\theta^{(1)},\ldots,\theta^{(T)}\), WAIC voidaan estimoida kaavasta \[ \widehat{\textrm{WAIC}} = -2\sum_{i=1}^n \left[ 2 \log \left( \frac{1}{T} \sum_{t=1}^T p(y_i | \theta^{(t)}) \right) - \frac{1}{T} \sum_{t=1}^T \log (p(y_i | \theta^{(t)})) \right]. \] NIMBLE sisältää implementaation WAICin laskemiseksi, mutta se käyttää tehokkaan parametrien lukumäärän estimoinnissa edellisestä poiketen otosvariansseja, jolloin WAIC:in estimaattori on \[ \widehat{\textrm{WAIC}}_2 = -2\sum_{i=1}^n \left[\log \left( \frac{1}{T} \sum_{t=1}^T p(y_i | \theta^{(t)}) \right) - \frac{1}{T-1} \sum_{t=1}^T \left(\log (p(y_i | \theta^{(t)}) - \overline{\log (p(y_i | \theta^{(t)}))} \right)^2 \right], \] missä \(\overline{\log (p(y_i | \theta^{(t)}))} = \frac{1}{T} \sum_{t=1}^T \log (p(y_i | \theta^{(t)}))\).
4.6 Bayesin tekijä
Bayesin tekijää (Bayes Factor) voi käyttää kahden mallin vertailemiseen. Olkoot \(M_1\) ja \(M_2\) kaksi mallia, joiden prioritodennäköisyydet ovat \(p(M_1)\) ja \(p(M_2)\). Bayesin tekijäksi kutsutaan suhdetta \[ \textrm{B} = \frac{ p(y | M_1) }{ p(y | M_2) }, \] joka kertoo, kuinka paljon data muuttaa ennakkokäsityksiä. Mallien posterioritodennäköisyyksien suhde on \[ \frac{ p(M_1 | y) }{ p(M_2 | y) } = \frac{ p(M_1)p(y | M_1) }{ p(M_2)p(y | M_2) }= \frac{ p(M_1) }{ p(M_2) } \textrm{B}. \] Bayesin tekijä ei ota huomioon parametrien määrää malleissa. Usein mallien keskiarvoistaminen tai laajentaminen on parempi vaihtoehto kuin mallin valinta Bayesin tekijän avulla.
4.7 Mallien keskiarvoistaminen
Yksi ratkaisu mallin valintaan on mallien keskiarvoistaminen. Tällöin sovitetaan kaikki mallit ja ennusteina käytetään painotettua keskiarvoa mallien antamista ennusteista. Olkoot \(p(M_1),\ldots,p(M_K)\) mallien \(M_1,\ldots,M_K\) prioritodennäköisyydet. Mallien posterioritodennäköisyyksiä \[ p(M_r | y) = \frac{ p(M_r)p(y | M_r) }{ \sum_{k=1}^K p(M_k) p(y | M_k) } \] käytetään painoina laskettaessa posterioriennustejakaumaa \[ p(\widetilde{y} | y)= \sum_{k=1}^K p(\widetilde{y} | y, M_k)p(M_k | y). \]
4.8 Valintapriorit
Tarkastellaan mallinnustilannetta, jossa potentiaalisia kovariaatteja on paljon, mutta on syytä uskoa, että vain pieni määrä niistä on tärkeitä. Toisin sanoen kovariaattien uskotaan kuuluvan kahteen eri ryhmään, mutta etukäteen ei pystytä kertomaan mihin ryhmään kukin kovariaatti kuuluu. Tällaisen ennakkotiedon kuvaamiseen voi käyttää valintaprioreita. Liitetään kuhunkin kovariaattiin \(j=1,\ldots,J\) indikaattorimuuttuja \(I_j\), joka saa arvon 1 mikäli kyseessä on tärkeä selittäjä ja arvon 0 muutoin. Priorit määrätään siten, että todennäköisyys \(p(I_j=1)\), \(j=1,\ldots,J\) on pieni. Kovariaattien regressiokertoimille \(\beta_j\), \(j=1,\ldots,J\) määritetään ehdolliset priorit \[ \begin{aligned} & p(\beta_j | I_j = 0)\textrm{ todennäköisyysmassa keskittyy origon ympäristöön (tai origoon)} \\ & p(\beta_j | I_j = 1)\textrm{ todennäköisyysmassa leviää laajalle alueelle}. \end{aligned} \] Priorijakaumasta tulee tällöin seosjakauma \[ p(\beta_j) = p(I_j = 1)p(\beta_j | I_j = 1) + p(I_j = 0)p(\beta_j | I_j = 0). \] Malli voi olla esimerkiksi yleistetty lineaarinen malli. Posterioritodennäköisyys \(p(I_j = 1 | y)\) kertoo, onko kovariaatti \(j\) tärkeä selittäjä vai ei. On mahdollista sovittaa toinen malli, johon otetaan mukaan vain kovariaatit, jotka ovat tärkeitä valintaposteriorin perusteella.