Bayes-tilastotiede 2

Tekijät

Juha Karvanen

Arto Luoma

Antti Penttinen

Santtu Tikka

Miika Kailas

Opintojakson kuvaus

Opintojaksolla käsitellään bayesiläistä data-analyysia ja posteriorijakauman estimoinnissa tarvittavia menetelmiä, erityisesti Markovin ketju Monte Carloa. Käytännön data-analyysiin sovelletaan R-ohjelmistoa ja erilaisia Monte Carlo -simulointiohjelmistoja. Opintojaksolla käsitellään mallinvalintaa ja mallikritiikkiä Bayes-näkökulmasta ja luodaan myös katsaus edistyneempiin Bayes-menetelmiin.

Tarvittavia ja suositeltuja esitietoja:

  • R
  • Bayes-tilastotiede 1
  • Yleistetyt lineaariset mallit, lineaarinen sekamalli

Osaamistavoitteet

Opintojakson suoritettuaan opiskelija osaa rakentaa hierarkkisia tilastollisia Bayes-malleja kompleksisille ongelmille, osaa käyttää mallinnukseen käytettäviä ohjelmistoja data-analyysissa, pystyy suoriutumaan vaativasta posteriorijakauman laskennasta, ymmärtää MCMC-menetelmien käyttöön liittyvät ongelmat, ja osaa arvioida Bayes-mallien sopivuutta.

Kirjallisuutta

  • Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari ja Donald B Rubin (2013). Bayesian Data Analysis, Third Edition, CRC Press. Saatavilla Gelmanin sivuilta ilmaisena pdf:nä

  • Andrew Gelman, Jennifer Hill, Aki Vehtari (2020). Regression and Other Stories. https://avehtari.github.io/ROS-Examples/

  • Bob Carpenter, Andrew Gelman, Matthew D. Hoffman, Daniel Lee, Ben Goodrich, Michael Betancourt, Marcus Brubaker, Jiqiang Guo, Peter Li, and Allen Riddell. 2017. Stan: A probabilistic programming language. Journal of Statistical Software 76(1). https://dx.doi.org/10.18637/jss.v076.i01

  • Jonah Gabry, Dan Simpson, Aki Vehtari, Michael Betancourt ja Andrew Gelman (2019). Visualization in Bayesian workflow. Journal of the Royal Statistical Society A, 182, 389–402. doi:https://dx.doi.org/0.1111/rssa.12378

Ohjelmistot

Kurssilla pääasiallisena työkaluna toimii probabilistinen ohjelmointikieli Stan, jota myös tuttu brms-paketti käyttää mallien sovittamiseen. Stanista ja muista Bayes-mallinnukseen kehitetyistä ohjelmistoista kerrotaan tarkemmin seuraavassa luvussa.

Listaus kurssilla käytettävistä paketeista

Paketti Käyttötarkoitus
rstan R-käyttöliittymäpaketti Stan-mallien käyttöön
bayesplot Bayes-analyysiin liittyvien kuvien piirtäminen
tidybayes Apuvälineitä Bayes-analyysiin
loo Bayes-ristiinvalidointi
rstanarm brms-paketin kaltainen mallinnuspaketti
ggplot2 Yleinen graafien piirto (jota bayesplot käyttää)
dplyr Datan muokkaus

Lisäksi edellä mainitut paketit tarvitsevat suuren joukon muita paketteja toimiakseen. Windows-koneen käyttäjät tarvitsevat myös Rtools-ohjelman.

Koska yllä mainitut paketit päivittyvät usein, on hyvä pitää myös R ajantasaisena. Luentomateriaalin kirjoittamishetkellä vähintään R 4.4.1 olisi hyvä olla asennettuna, mutta vanhemmallakin voi ehkä pärjätä (jos ei, niin pakettien asennusvaiheessa tulee kyllä tästä ilmoitus).

Kokeile ensin toimiiko pakettien rakentaminen:

library("pkgbuild") # asenna normaalisti jos puuttuu
Warning: package 'pkgbuild' was built under R version 4.4.2
check_build_tools(TRUE)
Found in Rtools 4.4 installation folder
Your system is ready to build packages!

RStudiota käytettäessä tämä aiheuttaa Rtools-ohjelman asennuksen, jos se puuttuu koneelta. Voit myös asentaa Rtoolsin suoraan lataamalla ohjelman täältä: https://cran.r-project.org/bin/windows/Rtools/

Asenna sitten rstan-paketti. Periaatteessa tämän pitäisi onnistua normaalisti komennolla

install.packages("rstan")

Kokeile sitten toimiiko rstan ajamalla stan-funktion dokumentaation esimerkki.

Lisää ohjeita tarvittaessa: https://github.com/stan-dev/rstan/wiki/RStan-Getting-Started