Tehtävä:
Backus–Naur Form

Tässä tehtävässä tutustutaan BNF:ään eli Backus-Naur-formiin. Se on erittäin laajasti käytetty keino määritellä ohjelmointikielten kieliopillisia rakenteita. Matematiikassa sama asia tunnetaan nimellä yhteysriippumaton kielioppi (englanniksi context-free grammar) eli CFG.

John Backus ja Peter Naur toivat BNF:n ohjelmointikielten suunnitteluun vuoden 1960 molemmin puolin. He eivät kuitenkaan olleet sen keksijöitä. Varhaisin tunnettu olennaisesti saman idean käyttäjä oli Pāṇini, joka käytti sitä sanskriitin kielen rakenteiden esittämiseen yli 2400 vuotta sitten. Siitä, että hän ei saanut nimeään maailmanluokan huippukeksintöönsä, hän saa syyttää vain tulospistetyperyyttään: mitäs jätti tuloksensa julkaisematta virallisesti tulospistesertifioiduissa tiedelehdissä.

Tässä vaiheessa on tärkeää tunnistaa ja erottaa toisistaan neljä käsitettä.

Merkki on perusyksikkö, joista kielen ilmaukset rakennetaan. Merkkejä voivat olla esimerkiksi isot ja pienet kirjaimet. Ohjelmointikielten syntaksimäärittelyssä merkit ajatellaan abstraktimmin siten, että merkkien roolissa ovat avainsanat kuten if ja while, välimerkit ja operaattorit kuten ; ja ==, ohjelmoijan tai kielen suunnittelijan antamat nimet kuten n ja string, sellaisenaan ilmoitetut arvot (ns. literaalivakiot) kuten 3.14159 ja "torstai" ja niin edelleen. Kaikkien käytössä olevien merkkien joukkoa kutsutaan aakkostoksi.
Merkkijono on äärellinen määrä merkkejä peräkkäin. Myös nolla merkkiä sallitaan. Merkkijonoa, jossa on nolla merkkiä merkitään symbolilla ε ja kutsutaan tyhjäksi merkkijonoksi. Jokainen merkki on merkkijono, jonka pituus on yksi. Merkkejä ja merkkijonoja voi harjoitella tekemällä tehtävän Merkkijonot.
Kieli on joukko merkkijonoja. Kielen määritelmä matematiikassa on todellakin näin yksinkertainen. Kieli ei ole esimerkiksi merkkijonojen ja niiden merkitysten muodostama järjestelmä, vaan pelkästään ne merkkijonot. Kieli ei ole myöskään säännöstö joka määrää, mitkä merkkijonot ovat mukana ja mitkä ovat ulkona, vaan pelkästään ne mukana olevat merkkijonot. Jankutan tätä, koska aikaisemmin moni opiskelija oli ymmärtänyt kielen käsitteen väärin, joutunut sen vuoksi hakoteille muissakin käsitteissä ja menettänyt tentissä paljon pisteitä. Sinulla on nyt hyvä mahdollisuus olla toistamatta samaa virhettä.
Kielioppi on säännöstö joka määrää, mitkä merkkijonot kuuluvat kieleen ja mitkä eivät kuulu. BNF on keino esittää kielioppeja.

Valitse jokaiselle vasemman reunan olennolle, onko se merkki (vasen ruutu), onko se merkkijono (keskimmäinen ruutu) ja onko se kieli (oikea ruutu) olettaen, että aakkostona on kirjaimet.

`k`	only_no_yes_on ok_text Ensimmäinen kohta oikein! hide_expr 2=hide_expr 0 tai
{`k`}	only_no_yes_on ok_text Toinen kohta oikein! hide_expr 1=hide_expr 0 tai
`koira`	only_no_yes_on ok_text Kolmas kohta oikein! hide_expr 1=hide_expr 0 tai
{`koira`}	only_no_yes_on ok_text Neljäs kohta oikein! hide_expr 1=hide_expr 0 tai
`koira`, `kissa`, `heppa`	only_no_yes_on ok_text Viides kohta oikein! hide_expr 0=hide_expr 0 tai
{`koira`, `kissa`, `heppa`}	only_no_yes_on ok_text Kuudes kohta oikein! hide_expr 1=hide_expr 0 tai
ε	only_no_yes_on ok_text Seitsemäs kohta oikein! hide_expr 1=hide_expr 0 tai
{ε}	only_no_yes_on ok_text Kahdeksas kohta oikein! hide_expr 1=hide_expr 0 tai

Alla on ensimmäinen esimerkkimme BNF-määritelmästä eli BNF:llä ilmaistusta kieliopista. Se määrittelee täsmäävien sulkujonojen kielen.

S ::= A | SA

A ::= ε | (S)

Määritelmä antaa määrittelemänsä kielen nimeksi S. Sen aakkostossa on kaksi merkkiä: ”(” ja ”)”. Määritelmä käyttää apukäsitteenä toista kieltä, jota se kutsuu nimellä A. Kieleen A kuuluvat tyhjä merkkijono sekä kaikki ne merkkijonot, joissa on alussa ”(”, sitten täsmäävä sulkujono ja lopuksi ”)”. Muuta A:han ei kuulu. Kieleen S kuuluvat täsmälleen ne merkkijonot, jotka saadaan liittämällä yhden tai useampia A:han kuuluvia merkkijonoja peräkkäin.

Määritelmä sanoo, että S saadaan korvata A:lla, S saadaan korvata SA:lla, A saadaan korvata tyhjällä merkkijonolla ja A saadaan korvata (S):llä. Määritelmästä voidaan tuottaa merkkijono aloittamalla S:stä ja korvaamalla nykyisestä merkkijonosta mikä tahansa iso kirjain kunnes jäljellä ei enää ole isoja kirjaimia. Esimerkiksi ()(()) voidaan tuottaa seuraavasti:

Aloitetaan symbolilla S.
Säännön S ::= SA nojalla S korvataan SA:lla.
Säännön A ::= (S) nojalla A korvataan (S):llä, jolloin saadaan S(S).
Säännön S ::= A nojalla ensimmäinen S korvataan A:lla, jolloin saadaan A(S).
Säännön A ::= (S) nojalla A korvataan (S):llä, jolloin saadaan (S)(S).
Säännön S ::= A nojalla ensimmäinen S korvataan A:lla, jolloin saadaan (A)(S).
Säännön A ::= ε nojalla A korvataan tyhjällä merkkijonolla, jolloin saadaan ()(S).
Säännön S ::= A nojalla S korvataan A:lla, jolloin saadaan ()(A).
Säännön A ::= (S) nojalla A korvataan (S):llä, jolloin saadaan ()((S)).
Säännön S ::= A nojalla S korvataan A:lla, jolloin saadaan ()((A)).
Säännön A ::= ε nojalla A korvataan tyhjällä merkkijonolla, jolloin saadaan ()(()).

Yllä oleva voidaan esittää tiiviimmin näin: S → SA → S(S) → A(S) → (S)(S) → (A)(S) → ()(S) → ()(A) → ()((S)) → ()((A)) → ()(()). Jos jäljellä on ainakin kaksi isoa kirjainta, ei ole väliä, kumpi niistä korvataan ensiksi. Esimerkiksi osuudessa SA → S(S) → A(S) korvattiin ensin lopusta A ja sitten alusta S, mutta samaan oltaisiin päädytty korvaamalla ensin alusta S ja sitten lopusta A, eli näin: SA → AA → A(S). Merkkijonon tuottaminen voidaan esittää myös kuvana, kuten yllä tehtiin. Tällaisen kuvan esittämä puumainen rakenne tunnetaan nimellä jäsennyspuu. Jäsennyspuu ei ota kantaa siihen, mikä iso kirjain korvataan ensin.

Seuraava kielioppi muistuttaa paljon sitä, miten monien ohjelmointikielten lausekkeet on määritelty. Siinä on kuitenkin jippo tai pari, jotta kaikki kohdat eivät olisi ratkaistavissa yleistiedolla vaan olisi tarpeen hieman miettiä, mitä se todella määrittelee.

Lauseke ::= Tulo | Lauseke + Tulo | Lauseke − Tulo

Tulo ::= Tekijä | Tulo · Tekijä | Tulo / Tekijä

Tekijä ::= Atomi | + Atomi | − Tekijä

Atomi ::= Luku | Muuttuja | ( Lauseke )

”Luku” on epätyhjä jono numeroita ja ”Muuttuja” on kirjain. Klikkaa ruudut sen mukaan mihin kieliin rivin alun merkkijono kuuluu. Rivin ensimmäinen ruutu vastaa atomia, toinen tekijää, kolmas tuloa ja neljäs lauseketta.

6	ok_text Teit oikeat valinnat! only_no_yes_on hide_expr 0 = hide_expr 4 tai
(	ok_text Juuri niin! only_no_yes_on hide_expr 0 = hide_expr 0 tai
−x	ok_text Teit oikeat valinnat! only_no_yes_on hide_expr 0 = hide_expr 3 tai
+x	ok_text Juuri niin! only_no_yes_on hide_expr 0 = hide_expr 3 tai
−−x	ok_text Teit oikeat valinnat! only_no_yes_on hide_expr 0 = hide_expr 3 tai
+−x	ok_text Juuri niin! only_no_yes_on hide_expr 0 = hide_expr 0 tai
2·x·y	ok_text Teit oikeat valinnat! only_no_yes_on hide_expr 0 = hide_expr 2 tai
−2·+x·y	ok_text Juuri niin! only_no_yes_on hide_expr 0 = hide_expr 2 tai
3x	ok_text Teit oikeat valinnat! only_no_yes_on hide_expr 0 = hide_expr 0 tai
x−x	ok_text Juuri niin! only_no_yes_on hide_expr 0 = hide_expr 1 tai
+1++1	ok_text Teit oikeat valinnat! only_no_yes_on hide_expr 0 = hide_expr 1 tai
(3·x+1)	ok_text Juuri niin! only_no_yes_on hide_expr 0 = hide_expr 4 tai

MathCheckin BNF-tehtävissä kielen nimenä on aina iso kirjain ja isot kirjaimet tulkitaan aina kielten nimiksi. Siksi isot kirjaimet eivät kuulu aakkostoon, eli niitä ei voi esiintyä lopullisissa merkkijonoissa. Jos valitaan L = Lauseke, T = Tulo, E = Tekijä, A = Atomi, U = Luku ja M = Muuttuja, korvataan · ja − helpommin kirjoitettavilla * ja - sekä laiskotellaan Luvun ja Muuttujan kohdalla, niin äskeinen kielioppi voidaan esittää MathCheckille näin:

L ::= T | L+T | L-T T ::= E | T*E | T/E E ::= A | +A | -E A ::= U | M | (L) U ::= 0 | 1 | 2 M ::= x | y | z

Tämän esimerkin kieliopeista ylempi on sikäli parempi, että se vastaa matematiikassa ja ohjelmointikielissä tavallisesti noudatettavaa laskujärjestystä, mutta alempi ei vastaa. Siksi yleensä käytetään ylempää. Tästä huolimatta alempikin kielioppi tuottaa saman kielen, sillä se tuottaa samat merkkijonot, eikä matematiikassa kielen käsitteessä millään muulla ole väliä kuin mitkä merkkijonot ovat mukana.

Oikealle vino jäsennyspuu Vasemmalle vino jäsennyspuu Sama kieli saadaan myös määrittelemällä L ja T seuraavasti.

L ::= T | L+L | L-L T ::= E | T*T | T/T

Tässä kieliopissa merkkijonolle 1+x-y (ja hyvin monelle muullekin) saadaan kaksi eri jäsennyspuuta, kuten kuvista näkyy. Kielioppia sanotaan moniselitteiseksi (ambiguous), jos se tuottaa ainakin yhdelle merkkijonolle kaksi eri jäsennyspuuta. Jos halutaan, että jäsennyspuut vastaavat merkkijonoille tarkoitettua merkitystä, niin moniselitteisyyttä pitää välttää. Moniselitteisyyden välttäminen on kuitenkin toisinaan liian vaikeaa, joten ohjelmointikielelle tms. voidaan joutua käyttämään moniselitteistä kielioppia.

Alla on määritelty leikkikielen while-silmukka. Siihen sisältyy ehto ja lause. Ehto muodostuu muuttujasta, vertailuoperaattorista ja numerosta. Esimerkin pitämiseksi lyhyenä erilaisia muuttujia jne. on tarjolla vain muutama, ja lause voi olla vain kahta erilaista muotoa oleva sijoituslause. Välilyöntejä on pakko olla täsmälleen kuten niitä on BNF-määritelmässä. Kirjoita kelvollinen silmukka. Jotta vastauksessa voisi olla välilyöntejä, on se laitettava lainausmerkkeihin, mutta vaivasi säästämiseksi ne on annettu valmiina.

S ::= while E do L

E ::= MVN

L ::= M := M | M := M-N

M ::= x | y

N ::= 0 | 1 | 2

V ::= = | >

Tämä kielioppi syötettiin MathCheckille näin:

S ::= "while E do L" E ::= MVN L ::= "M := M" | "M := M-N" M ::= x | y N ::= 0 | 1 | 2 V ::= = | >

Tässä vaiheessa on tarpeen kertoa, miten symbolin ::= oikealla puolella oleva vaihtoehto kirjoitetaan MathCheckille. Jos siinä ei ole välilyöntejä eikä se ala merkillä " eikä ', niin sen voi kirjoittaa sellaisenaan. Jos siinä ei ole merkkejä ", niin sen voi kirjoittaa merkkien " välissä. Jos siinä ei ole merkkejä ', niin sen voi kirjoittaa merkkien ' välissä. Merkeillä " ja/tai ' rajattuja osuuksia voi olla peräkkäin, jolloin MathCheck yhdistää ne ennen käyttöä. Tämä pätee vaikka niiden välissä olisi välilyöntejä tai rivinsiirtoja.

Rivi X ::= ""|NX tulkitaan siten, että …"" esittää tyhjän merkkijonon, | ilmoittaa että yksi vaihtoehto loppuu ja seuraava alkaa, ja NX tarkoittaa kieleen N kuuluvaa merkkijonoa jatkettuna kieleen X kuuluvalla merkkijonolla. Pystyviiva ei ole osa ensimmäistä vaihtoehtoa, koska lainausmerkki lopettaa ensimmäisen vaihtoehdon juuri ennen sitä.

Määrittele if-lause, jossa on pakollinen then-osa ja vapaaehtoinen else-osa. Sanat if, then ja else pitää erottaa muusta täsmälleen yhdellä välilyönnillä, paitsi aivan alussa ja aivan lopussa. Osa vastauksesta on annettu valmiina. On vaikeaa (kenties mahdotonta) löytää tälle kielioppi, joka ei ole moniselitteinen, mutta voit toki yrittää. (Sen sijaan saattaa olla mahdollista löytää tälle kielioppi, josta MathCheck ei huomaa, että se on moniselitteinen. Kieliopin moniselitteisyyden tutkiminen on laskennallisesti niin vaikeaa, että mikään ohjelma ei voi aina selvitä siitä.)
Kiellä moniselitteisyys

E ::= M>N
L ::= M:=N | I
M ::= x
N ::= 0 | 1

tai

Toivottavasti sait MathCheckiltä esimerkin merkkijonosta, jolla on kaksi jäsennyspuuta. Tämä ilmiö tunnetaan nimellä ”dangling else”. Se ratkaistaan yleensä ilmaisemalla sanallisesti, että kukin else-haara kuuluu siihen lähinnä edeltävään if-lauseeseen, jolla ei jo ole else-haaraa.

Saisimme välilyöntien käytön joustavammaksi määrittelemällä apukielen B ::= " " | " B". Ohjelmointikielten määrittelyssä ei kuitenkaan yleensä tehdä niin, vaan jaetaan määritelmä kahteen tasoon. Niin sanotulla leksikaalisella tasolla määritellään kielen ne rakenneosat, joiden sisällä ei voi olla välilyöntejä lainkaan, kuten avainsanat (esim. while) ja lukuvakiot (esim. 40100). Samalla tasolla määritellään niin sanottu valkoinen tila, joka tyypillisesti voi sisältää ainakin välilyöntejä, rivinsiirtoja ja kommentteja. Niin sanotulla varsinaisen syntaksin tasolla avainsanoja, lukuvakioita jne. käytetään ikään kuin ne olisivat määritelmän merkkejä. Määritelmässä niitä laitetaan peräkkäin ottamatta kantaa valkoisen tilan käyttöön.

Suunnittele kielioppi muuttujan x polynomeille. Matematiikassa esimerkiksi −2x³ + 5 + x − 3x² on polynomi. Polynomi koostuu yhdestä tai useammasta termistä, jotka on yhdistetty toisiinsa operaattorilla + tai -. Lisäksi koko polynomin edessä voi olla -. Potenssilasku esitetään operaattorilla ^. Monimutkaisimmillaan termissä on luku, x, ^ ja luonnollinen luku, mutta alussa oleva luku voi puuttua ja loppuosuus alkaen ^-merkistä voi puuttua. Lisäksi termi voi olla pelkkä luku. Luonnollisia lukuja ovat (vain) 0, 1 ja 2, ja muita lukuja ovat (vain) e ja pi. Jätä välilyönnit kokonaan pois.

tai

Jäljellä olisi vaikka kuinka hienoja BNF-tehtäviä, mutta ehkä toisen kerran!

	Sama merkki voi kuulua kahdesti samaan merkkijonoon.
	Sama merkkijono voi kuulua kahdesti samaan merkkiin.
	Sama kielioppi voi tuottaa kaksi eri kieltä.
	Sama kieli voidaan tuottaa kahdella eri kieliopilla.
	Sama kielioppi voi tuottaa kaksi eri merkkijonoa.

	Kieli on kaikkien merkkijonojen joukko.
	Kieli on merkkijonojen joukko.
	Kieli on joukko merkkijonoja.
	Kieli on kieliopin tuottama joukko merkkijonoja.

Lauseke	::=	Tulo \| Lauseke + Tulo \| Lauseke − Tulo
Tulo	::=	Tekijä \| Tulo · Tekijä \| Tulo / Tekijä
Tekijä	::=	Atomi \| + Atomi \| − Tekijä
Atomi	::=	Luku \| Muuttuja \| ( Lauseke )

S	::= while E do L
E	::= MVN
L	::= M := M \| M := M-N
M	::= x \| y
N	::= 0 \| 1 \| 2
V	::= = \| >

Teh­tä­vä: Backus–Naur Form

Tehtävä:
Backus–Naur Form