Johdatus tietoliikenteeseen (TLI 110) - harjoitustyö
12.12.1998.
Miika Nurminen & Juhani Honkala

MPEG ja videokompressointi

1 Johdanto

Tietoliikenneyhteyksien nopeutumisen ja tallennuskapasiteetin kasvun myötä videokompressoinnin merkitys on kasvanut viime vuosina. Olemme työssämme pyrkineet tutkimaan, miten MPEG-1 -standardi toimii sekä arvioimaan sen vaikutuksia laajemmin. Päädyimme keskittymään MPEG-1 -standardiin, koska muut MPEG:in kehittämät standardit pohjautuvat siihen voimakkaasti ja muiden syvällisempi tutkimus olisi laajentanut työtä kohtuuttomasti. Yleisluontoista materiaalia, MPEG-aiheisia WWW-sivuja löytyi Internetistä runsaasti ja niitä tutkimalla saimme melko hyvän yleisnäkemyksen MPEG:in asemaan videokompressoinnin kentässä. Emme olleet aikaisemmin tutkineet lainkaan MPEG-formaatin sisältöä, vaikka lyhenne toki oli tuttu. MPEG osoittautui kiinnostavaksi tutkimuskohteeksi, joskin suuren tietomäärän ja vaikeahkon sisällön takia työhön olisi voinut varata hieman enemmän aikaa.

2 Esittely

2.1 Kuvanpakkaus

2.1.1 Pakkausmenetelmiä

Liikkuvan kuvan siirtäminen ja tallennus tietokoneelle ei olisi mahdollista ilman kuvanpakkausta. Videokuva veisi pakkaamattomana kohtuuttoman paljon tilaa ja olisi käytännössä mahdotonta siirtää reaaliaikaisena verkkojen yli. Kuvanpakkauksessa pakattava kuva esitetään tavalla, joka vie vähemmän muistitilaa alkuperäiseen verrattuna. Erilaisia pakkaustapoja ovat mm. RLE-pakkaus, jossa tutkitaan, ovatko kuvan peräkkäiset pikselit samaa väriä ja jos ovat, ne korvataan koodilla, joka kertoo montako pikseliä jonossa oli. RLE-pakkausta käytetään PCX-kuvaformaatissa. Deltapulssikoodimodulaatiossa tutkitaan eri ruutujen (yksittäisiä kuvakehyksiä, joista liikkuva kuva muodostuu) pikselien vastaavuuksia ja koodataan arvon sijasta muutos edelliseen pikseliin. Muunnoskoodaustavoissa, joista merkittävin on DCT, diskreetti kosinimuunnos, kuvan väriliu'ut muutetaan taajuuksiksi. Tätä tapaa käytetään still-kuvissa käytetyssä JPG-kuvaformaatissa. Lisäksi kuvan koodeja voidaan tutkia tilastollisesti ja määrittää koodit uudelleen esiintymistiheyden mukaan. Tätä kutsutaan Huffman-koodaukseksi. [5]

2.1.2 Videokompressointiformaatit

Nykyään merkittävimmät tavat koodata videokuvaa ovat ISO:n Moving Picture Experts Group -ryhmän kehittämät standardit MPEG-1 ja MPEG-2. Näistä ensimmäinen on suunnattu lähinnä CD-ROMeille ja muuhun kiinteään tiedon tallennukseen, kun taas toinen on kehitetty digitaalista televisiota varten. MPEG ei ole ainoa tapa koodata videokuvaa. Monet firmat ovat kehittäneet omia formaattejaan pyrkien standardin asemaan. Applen Quicktime-formaatti oli virstanpylväs videokuvan pakkauksessa, koska se ei vaadi erityistä laitteistoa. Kuva on skaalattava, joskin suuremmalla kuvakoolla kuvanlaatu huononee. Pian Quicktimen jälkeen Intel esitti oman Indeo-formaattinsa. Formaatti on useimpien valmistajien tukema ja myös laitteistoversio on olemassa. Quicktime ja Indeo eivät pakkaa ääntä lainkaan, joten ne vaativat vähemmän prosessoritehoa. Toisaalta tiedostojen koko kasvaa. Lisäksi Radiuksella on oma Cinepak-formaatti, joka on tarkempi kuin Indeo, mutta kuvanopeudeltaan hitaampi. [5]

2.2 ISO ja standardit

Kansainvälinen standardointijärjestö ISO on maailmanlaajuinen kansallisten standardointijärjestöjen yhteenliittymä, yli 90 maata on edustettuna. ISO perustettiin 1947 ja sen tehtävänä on tuottaa kansainvälisiä sopimuksia, joita teollisuudessa voidaan käyttää yleisesti. Muita suuria standardointijärjestöjä ovat mm. IEC, kansainvälinen sähkötekninen komissio sekä ITU, kansainvälinen telekommunikaatiounioni.

2.2.1 Yleistä MPEG:sta

1987 päätettiin yhdistää ISO:n tekninen komitea Tietojenkäsittely ja IEC:n komitea Mikroprosessorit. Tuloksena syntyneelle JTC1:lle (Joint Technical Committee 1) annettiin nimeksi Informaatioteknologia. Komitean alikomitea SC29 käsittelee kuvan ja äänen koodausta, multimediaa ja hypermediaa. Alikomitean alla toimii työryhmä WG11, Liikkuvan kuvan ja äänen koodaus. MPEG on tämän alikomitean lempinimi, ja siinä työskentelee noin 300 asiantuntijaa.

Toiminnallisesti MPEG-1 -standardi kehittyi yksittäisten kuvien pakkaukseen suunnitellusta JPEG-formaatista (myös ISO:n alaisuudessa kehitetty), sekä videoneuvotteluissa käytetystä ITU-T:n H.261 -standardista. H.261 on suunnattu ISDN-verkkoja varten ja on yksinkertaisempi kuin MPEG-1.

MPEG:in lähtökohta standardointiin on, että standardit ovat tuotteita, joita järjestö myy yhtiöille. Aikataulut ovat tärkeitä ja niistä on pidettävä kiinni luottamuksen säilyttämiseksi. Eräistä muista standardointielimistä poiketen MPEG:illä on tarkasti määritelty, milloin mitkäkin työvaiheet saavutetaan. Työvaiheita ovat Työluonnos, Komitealuonnos, Standardiluonnos ja Kansainvälinen Standardi.

Toinen tärkeä lähtökohta standardointiin on ns. a-priori -standardointi. Koska jotkut standardointielimet eivät ole saaneet aikaan yleisesti tunnustettuja standardeja, yritysten on täytynyt kehittää omia, teollisia standardeja. Tämän jälkeen standardointielimelle jää vain tehtäväksi hyväksyä tämä. MPEG pyrkii kehittämään itse tarvittavat standardit, kuitenkin kuunnellen yritysten ehdotuksia. Näin kehitettävä tekniikka tulee olemaan mahdollisimman yleiskäyttöistä. Multimedia on alueena hyvin laaja ja sisältää lukuisia teollisuuden aloja, joita kaikkia standardin tulee palvella. MPEG on onnistunut tuottamaan määritysten lisäksi myös täyden ohjelmallisen toteutuksen standardeilleen. [4]

3 MPEG:n merkitys

3.1 Standardoinnista yleensä

Videokompressoinin merkitys ei ole ainoastaan itse videon kompressoinnissa vaan yhtenäisen tallennus- ja levitystavan sopimisessa Video/Audio sovelluksille. ISO/MPEG pyrkii luomaan standardin, jonka kaikki valmistajat hyväksyisivät ja ottaisivat käyttöön. Tämä on etu sekä kuluttajille, että laitteistojen ja sovelluksien tuottajille.

"Valmis" standardi helpottaa valmistajia tuottamaan uusia ratkaisuja, koska taloudelliset riskit ovat oleellisesti pienempiä: Valmistajilta ei kulu rahaa oman (tehdas)standardin kehittämiseen, eikä sen ylläpitoon. Lisäksi valmistajat voivat olla varmoja siitä, etteivät jää yksin tekemään tietyn standardin mukaisia laitteistoja ja sovellutuksia. Myöskään resursseja ja rahaa ei kulu taisteluun muiden valmistajien vastaavia standardeja vastaan. Etenkin pienten yritysten kohdalla yleisen standardin olemassaololla on suuri vaikutus. Niillä ei ole resursseja kehittää omia standardejaan, ja niiden on lähes mahdotonta saada muita valmistajia kehittelemänsä standardin taakse.

Kuluttajien ei puolestaan tarvitse arvuutella, mikä tehdasstandardeista saavuttaa määräävään aseman vaan voivat huoletta ostaa minkä tahansa valmistajan laitteen, koska lähes kaikki yritykset pohjaavat tuotteensa yleiseen standardiin, jos sellainen vain on olemassa.

Historiassa on monia tapauksia, jossa teknisesti huonompi tehdastandardi on jäänyt käyttöön paremman sijasta. Näin on käynyt esimerkiksi analogisten videostandardien kohdalla: Teknisesti huonompi VHS jäi käyttöön Sonyn kehittelemän Beta-standardin sijasta, koska VHS:n takana olleet yhtiöt markkinoivat tuotteitaan paremmin. Tämän kaltainen tilanne on onneksi lähes mahdoton, jos yleinen standardi on olemassa ja valmistajat ovat sen todella hyväksyneet. Koska standardointiorganisaatiot ovat erillään yrityksistä ja markkinoista, ei niillä ole kaupallisia intressejä vaikuttamassa tehtyihin ratkaisuihin. Tämä asia yhdessä sen kanssa, että standardeja kehittämässä ovat alan ammattilaiset, takaa mahdollisimman hyvän standardin julkistamisen ja sen käyttöönoton.

3.2 Miksi pakkausta

Videokuvan tallentaminen vie paljon tilaa. Jo yhden kuvan tallentaminen 800*600 tarkkuudella vie tilaa pakkaamattomana noin yhden megatavun. Liikkeen aikaansaamiseksi pitää kuvia näyttää vähintään yli kaksikymmentä kappaletta sekunnissa. Jo kymmenen minuutin video veisi tilaa 12 gigatavua( 1Mtavu*20*60*10 ). Tavallisen ethernet-väylän siirtonopeus on 10Mbit/s (noin 1.3 megatavua) [6] ja ATM-väyläkin pystyy tehokkaimmillaankin "vain" 622 Mbit/sekunnissa [7]. On siis selvää, että videokuvaa on pakattava, ennen kuin sitä voidaan siirtää nykyisiä tiedonsiirtolinjoja pitkin ja käyttää erilaisissa sovelluksissa. Kompressoinnin sivutuotteena myös kokonaisuuden hallinta helpottuu, koska ääni ja erilliset kuvat on koottu yhteen tiedostoon. Tämä helpottaa suuresti videoiden käsittelyä ja tallennusta.

Esimerkiksi MPEG-1 standardi supistaa datavirran (perustarkkuudella 352*240*30) noin 1.5 megabittiin (0.2 megatavuun) sekunnissa. Tämä on jo tarpeeksi pieni kokoluokka nykyisille tietokoneille ja siirtoväylille.

3.3 Sovellusalueita

3.3.1 Yleistä

Videokompressointi on luonut kokonaan uusia sovellutuksia ja on vaikuttanut moneen jo olemassa olevaan, luoden niihin yhteyksiä muilta aloilta ja uusia mahdollisuuksia. Digitaalisten televisioiden, videoiden ja kameroiden esiinmarssi on ollut pitkälti digitaalisten kuvanpakkausstandardien synnyn ansiota. Etenkin eri MPEG-standardit ovat olleet ja ovat myös tulevaisuudessa tärkeässä osassa digitaalisten audio/video sovellutuksien kehityksessä. MPEG-1:stä voidaan pitää digitaalisen videon synnyttäjä ja MPEG-2 -standardia sanotaan digitaalisen television mahdollistajaksi. Uudesta kehitteillä olevasta MPEG-4 standardista povataan että se tekee mahdolliseksi aivan uudentyyppiset multimediakeskustelut ja - tapaamiset [4:1.0].

3.3.2 MPEG-1

MPEG-1 soveltuu hyvin tavalliseen videokuvan ja äänen pakkaukseen. Tätä standardia käytettiinkin jonkinlaisen suosion saavuttainessa CD-I ja Video-CD levyissä. Rajoitteena oli kuitenkin vain keskinkertainen kuvanlaatu. Tämä ja muutamat muut MPEG-1 määrittelyn rajoitteet estivät sen laajamittaisen käytön eri sovelluksissa.

Nykypäivänä MPEG-1:n merkitys rajoittuu lähinnä internetin kautta siirrettäviin multimedia- ja videoesityksiin sekä pelkkään äänen pakkaukseen. Vaikka MPEG-1 olikin suunnattu etenkin videokuvan pakkaukseen, huomasivat harrastajat nopeasti sen mahdollisuudet pelkän äänen pakkaamiseen ( MPEG-1 layer 3 audio = mp3).

CD-tason ääni saatiin pakattua 1/6:n verran ja tämä mahdollisti kokonaisten CD-levyjen siirron internetin välityksellä (128kbit/s). Nykyään monet CD:t löytyvätkin MP3-pakattuina internetistä hyvin helposti. Myös radioasemat ovat huomanneet MP3:n hyödyt: Ne käyttävät ISDN-linjaa ( 128 kbit/s ) ja MP3-pakkausta siirtääkseen äänimateriaalia studiosta toiseen. Tämän avulla radioasemat ovat saavuttaneet huomattavia kustannussästöjä.

MPEG-1 standardi korvasi myös kokonaan aikaisemmin käytössä olleen kuvapuhelinstandardin H.261:n [4] [1]

3.3.3 MPEG-2

MPEG-1:ssä havaitut puutteet estivät sen soveltamisen laajemmalti. Tämän asianlaidan korjaamiseen kehitettiin MPEG-2 -standardi. Se soveltuu paremmin televisioyhtiöiden tiukkoihin vaatimuksiin. Tämän takia siitä tulikin yleisesti hyväksytty pohja digitaaliselle televisiolle ( HDTV ) . Myös satelliitti- ja kaapeli-TV -yhtiöt käyttävät nykyisin MPEG-2 standardia digitaalisen kuvan siirrossa, koska kaistaleveys saadaan hyödynnettyä paremmin [4:3.1]. Yhden analogisen kanavan tilalle saadaan mahdutettua 5-10 digitaalista televisiokanavaa. Uuden DVD-levyn video- ja äänenpakkausstandardiksi on niin ikään sovittu MPEG2.

3.3.4 MPEG-4

MPEG-4 on vasta kehityksen alla oleva standardi. Kun se on valmis, se mahdollistaa monia uusia sovellutuksia ja helpottaa vanhojen sovellusten toteuttamista. Näitä sovelluksia on esimerkiksi interaktiiviset multimediakeskustelut, videopuhelin (kannettava ja kiinteä), multimediaposti, etäkäyttö, sähköinen sanomalehti, interaktiiviset multimediatietokannat, interaktiivinen tietokonetaiteen yms [1]. Kyseessä on siis vahvasti interaktiivisuuden painottuva standardi kun MPEG-1 ja 2 ovat olleet lähinnä pakkausalgoritmeja.

3.3.5 Muut standardit

Myös monet muut standardit mahdollistavat edellisen kaltaisia asioita. Ne ovat kuitenkin jääneet lähes poikkeuksetta vain yhden tai kahden valmistajan omiksi tehdasstandardeiksi. MPEG on saavuttanut digitaalisen videon ja äänen maailmassa niin määräävän asian, ettei muiden standardien mukaan tehdyillä laitteilla ole juurikaan markkinoita. Tämä siis tarkoittaa ettei niitä juurikaan ole.

3.4 Digitalisoinnin merkitys

Digitalisointi auttaa pääsemään eroon vanhoista analogista siirtoverkoista kokonaan. Entisten erillisten puhelin, fax, tv ja radiosiirtoverkkojen tilalle voidaan rakentaa yksi ainoa digitaalinen siirtotie, joka hoitaa kaikkien aikaisempien analogisten verkkojen toiminnot. Digitaalinen vallankumous on näin askeleen lähempänä, mutta vielä menee vuosia ennen kuin tälläinen siirtotie on todella olemassa.

4 MPEG-standardit

4.1 MPEG 1

MPEG-1, viralliselta nimeltään ISO/IEC 11172, on jaettu viiteen osaan. Kolmessa ensimmäisessä kuvataan kuvan ja äänen koodaus sekä tapa, jolla nämä voidaan yhdistää samaksi datavirraksi. Neljäs osa kuvaa, kuinka MPEG-enkooderien ja dekooderien yhteensopivuutta standardiin voidaan testata. Viidennessä osassa on lähdekoodi standardin soveltamiseen käytännössä. Lähdekoodi ei ole vapaasti saatavissa, mutta se on ostettavissa ISO:lta. MPEG-1 -standardi valmistui vuonna 1992. [1]

4.1.1 MPEG 1 - video

MPEG-1:n standardiprofiilissa videokuva koodataan 352*240 tarkkuuteen valoisuudelta ja 176*120 tarkkuuteen värisävyiltä. Nopeus on 30 ruutua sekunnissa (USA:ssa. Euroopassa hieman poikkeavat arvot). Standardi sallii myös suuremmat tarkkuudet ja nopeudet, mutta laskentatehon ja tietoliikenneyhteyksien puitteissa em. arvot ovat yleisesti käytössä. Valoisuus ja värisävyt koodataan eri tarkkuuksilla, koska silmä ei havaitse värisävyn muutoksia niin hyvin kuin valoisuutta. Menetelmä soveltuu parhaiten luonnollisiin kuviin, joissa ei ole teräviä reunoja. Normaalisti koodauksessa päästään pakkaussuhteeseen 26:1.

Ruututyypit

Yksittäiset ruudut voidaan koodata kolmella eri tavalla. I (intra) eli sisäisesti koodattu, P (predicted, ennustettu) ja B (bilinear, kaksisuuntainen).

I-kuva muistuttaa JPEG-kuvaformaattia. Kuva jaetaan 8*8-kokoisiin lohkoihin (valoisuus ja värikkyys erikseen) ja jokaiselle lohkolle suoritetaan diskreetti kosinimuunnos (DCT), joka muuntaa lohkon väriliukujen nopeutta horisontaalisesti ja vertikaaliseksi kuvaaviksi taajuuksiksi. Tuloksena saadaan 8*8-taulukko, jossa vasemmassa yläkulmassa on nollataajuus - käytännössä keskiarvo lohkon arvoista. Oikealle mentäessä horisontaaliset taajuudet kasvavat ja vastaavasti alas mentäessä vertikaaliset taajuudet. Esimerkiksi oikeassa yläkulmassa on edustettuna suuri horisontaalinen ja olematon vertikaalinen taajuus. Tämä vastaa lohkoa, jossa on vain nopea väriliuku vasemmalta oikealle.

Kosinimuunnoksesta saadut tulokset kvantisoidaan, eli jaetaan tietyllä luvulla. Tällöin moni suuremmista taajuuksista menee nollaksi, eli kuvan laatu huononee, mutta tilastollisesti korkeilla taajuuksilla on vähiten merkitystä kuvan muodostuksessa. Kvantisoinnilla voidaan säätää laatu/pakkaussuhdetta. Mitä enemmän taajuuksia saadaan nollaksi, sitä parempi pakkaussuhde saadaan.

Lopuksi lohkojen nollataajuudet koodataan deltapulssikoodimodulaatiolla (erotus edelliseen arvoon) ja muu kosinimuunnoksesta ja kvantisoinnista saatu data koodataan muunnellulla Huffman-koodilla datavirraksi. Huffman-koodissa tutkitaan, mitkä koodit ovat yleisimpiä datavirrassa ja ryhmitellään ne uudelleen puurakenteeksi siten, että yleisemmillä koodeilla on vähemmän bittejä vievä merkkikoodi.

P-kuva muodostetaan edellisestä I- tai P-kuvasta. Enkooderi tutkii ruudun 16*16-kokoinen makrolohko (sisältää neljä valoisuus- ja kaksi värikkyyslohkoa) kerrallaan ja etsii edellisestä (I -tai P-koodatusta) ruudusta aluetta, joka on lähellä koodattavaa lohkoa. Jos edellisen ruudun lohko on identtinen koodattavan lohkon kanssa, merkitään koodattavaan kuvaan liikevektorit, jotka ilmaisevat, kuinka paljon lohko on liikkunut edellisestä ruudusta koodattavaan x- ja y-suunnassa. Jos lohko on samassa paikassa, merkitään liikevektoreiksi nollat, eikä ylimääräistä tietoa tarvita.

Jos lohkot eivät ole identtiset, niiden arvojen muutokselle suoritetaan diskreetti kosinimuunnos. Koska lohkojen väliset muutokset ovat yleensä pieniä, muunnoksella saadaan hyvä pakkaussuhde. Jos koodattavaan lohkoon ei löydetä vastaavuutta edellisestä ruudusta, se koodataan kokonaan sisäisesti samaan tapaan kuin I-kuvassa, siis edellisestä kuvasta ei käytetä tietoja. Liikevektorit koodataan deltapulssikoodimodulaatiolla.

Enkooderin toteutuksessa nopeuskriittisin osuus on rutiini, joka vertailee lohkojen vastaavuuksia. Dekooderissa tätä ei luonnollisesti tarvita, koska tieto on valmiina liikevektorissa.

B-kuva on laskennallisesti ja tehollisesti vaativin kuvatyyppi, koska kuvan muodostusta varten muistissa täytyy olla purettuna I- ja P-kuva sekä edellä että jäljessä. Toisaalta B-kuva pakkaantuu kaikkein tehokkaimmin. Kuvaan on koodattu liikevektorit eteen ja/tai taakse, jolloin B-kuvan makro muodostetaan joko edellä tai takana olevan kuvan lohkosta, tai sitten interpoloimalla molempia kuvia. Jos kuvat eivät vastaa täysin toisiaan, diskreettiä kosinimuunnosta on taas käytettävä. Jos kummassakaan dekoodatussa kuvassa ei löydy vastaavuutta koodattavaan kuvaan, lohko voidaan koodata sisäisesti, kuin I-kuvassa.

Ruutujen koodaus

MPEG-standardin mukaan I-, P- ja B-kuvien järjestystä ei ole rajoitettu, mutta käytännössä teollisissa järjestelmissä kuvatyypit ovat vakiojärjestyksessä, esim.

IBBPBBPBBIBB…

Esimerkkitapauksessa 2. Ja 3. kuvan dekoodausta varten muistissa täytyy olla etukäteen dekoodattuna 4. P-kuva. Molemmat B-kuvat muodostetaan 1. ja 4. kuvasta. Käytännössä ruutuja ei koodata todellisessa esi tysjärjestyksessä, vaan käsittelyjärjestyksessä. Tässä tapauksessa koodattujen ruutujen järjestys olisi

0312645978… [2]

4.1.2 MPEG 1 - audio

MPEG-standardin ääniosuus jakaantuu kolmeen osaan, joita kutsutaan kerroksiksi (layer). Kerrokset ovat alaspäin yhteensopivia, siis 3. kerroksen dekooderi osaa purkaa myös 2. kerroksen datavirtaa jne. Jokainen kerros pakkaa ääntä edellistä tehokkaammin, mutta on toisaalta monimutkaisempi toteuttaa. MPEG-ryhmä määritteli kolme eri kerrosta, koska yksinään 3. Kerros olisi ollut niin hankala toteuttaa, että se olisi vaikuttanut standardin yleiseen hyväksyntään. MPEG-1:ssä ääni voidaan koodata kahdelle kanavalle, stereona.

Koodauksessa käytetään hyväksi ihmisen korvan ominaisuuksia, kuten sitä, että korva havaitsee eritaajuisia ääniä eri herkkyydellä sekä ns. aikapeittoa: kovan äänen jälkeen kestää hetken, ennen kuin korva kuulee vaimeita ääniä. Ominaisuudet on koodattu psykoakustiseen malliin, jota käytetään kaikissa kerroksissa. Äänen koodauksessa käytetään alikaistakoodausta, jossa signaali jaetaan alitaajuuskaistoiksi. Jokaiselle kaistalle lasketaan psykoakustisen mallin avulla peittokäyrä, jonka alapuolella olevat äänet häipyvät korvan kuulumattomiin. Kaistat koodataan uudelleen ja kvantisoidaan siten, että kvantisoinnista aiheutuva virhe pysyy peittokäyrän alapuolella. Parhaimmillaan vaimeimmat alikanavat voidaan tiputtaa kokonaan pois. Vaikka äänikodaus ei ole hävikitön, kuulija ei käytännössä havaitse eroa alkuperäiseen ääneen.

Kerros 1 jakaa signaalin 32 tasalevyiseen, hieman toistensa päälläolevaan kaistaan, joista jokaisesta otetaan 12 näytettä. Näille 12 näytteen ryhmille lasketaan bittiallokointi ja painokerroin, jolla parannetaan kvantisoinnin tarkkuutta. Ykköskerros pystyy parhaimmillaan 1:4 pakkaussuhteeseen.

Kerros 2 käsittelee äänidataa kolmessa toisiaan seuraavassa 12 näytteen ryhmässä taajuuskaistaa kohden. Se ottaa huomioon äänen aikapeiton ryhmien välillä ja pystyy mahdollisesti pudottamaan kuulumattomiin häipyviä ryhmiä pois. Taajuusalue on kuitenkin jaettu samalla tavalla kuin kerroksessa 1. Kakkoskerroksella päästään 1:6 - 1:8 pakkaussuhteisiin.

Kerros 3 muokkaa kaistojen näytteitä diskreetillä kosinimuunnoksella, jolla parannetaan kaistojen taajuusresoluutiota. Näytteitä käsitellään sekä 12 että 36 näytteen sarjoissa; lyhyempää sarjaa käytetään, kun signaalissa on paljon vaihteluita ja tarvitaan normaalia parempaa aikaresoluutiota. Kerros 3 pakkaa kvantisoidut näytteet Huffman-kompressiolla. Pakkaussuhde on parhaimmillaan 1 : 12. [3]</ P>

4.1.2 MPEG 1 - järjestelmät

MPEG-standardin Järjestelmät -osiossa kuvataan, kuinka kuvan ja äänen koodauksesta tullut data saadaan yhdistettyä yhdeksi datavirraksi, ja toisaalta, kuinka dekooderi purkaa datavirran siten, että kuva ja ääni tulevat synkronoidusti oikeaan aikaan.

Järjestelmäkoodauksen pääperiaate on ns. aikapostimerkkien käyttö, joissa ilmaistaan dekoodaus- ja näyttöaika järjestelmän 90kHZ kellon mukaan. Järjestelmä pystyy dekoodaamaan ja ohjaamaan useita kuva- ja äänivirtoja, sekä muita erikseen määriteltyjä datavirtoja yhtä aikaa. Menetelmä antaa joustavuutta dekooderin suunnitteluun, datavirtojen lukumäärään, kuvan ja äänen tulonopeuteen ja verkon siirtokykyyn. Järjestelmän avulla voi myös määrittää, minkä datavirran osion mukaan aikaa katsotaan varmistaen, että synkrononinti ja tiedon puskurointi toimii. Järjestelmä tukee myös useita samanaikaisia kuvan ja äänen tulonopeuksia. [2]

4.2 Muut MPEG-standardit

4.2.1 MPEG 2

MPEG-2 standardi (ISO/IEC 13818) muistuttaa monessa suhteessa MPEG-1:stä, mutta tarjoaa pohjan laajemmille sovellutuksille. MPEG-2 koodaa TV-laatuista kuvaa bittitaajuuksilla 4 ja 9 Mbit/s. Myöhemmin os oittautui, että MPEG-2 mahdollistaa myös HDTV-laatuisen kuvan koodauksen. Merkittävin MPEG-2:n uudistus 1:een verrattuna on tuki lomitetuille kuville, joita käytetään poikkeuksetta analogisissa TV- ja videojärjestelmissä. Lomitetussa kuvassa ruudun sisältö on koodattu kahteen datavirran kenttään siten, että toisessa kentässä ovat parittomat rivit ja toisessa vastaavasti parilliset. Ongelma kuvan koodauksessa on, onko ruudun koodattava hukkatila vain toisessa kentässä, vai koko ruudussa. MPEG-2 ratkaisee ongelman MPEG-1:stä parannelluilla koodaustekniikoilla. Kun MPEG-1 mahdollisti digitaalisen videon käsitteen lähinnä CD-ROMeille koodatulle videolle, MPEG-2 on mahdollistanut huomattavasti laajemman digitaalisen television. [2]

MPEG-2-datavirrassa on mahdollista kuljettaa samaan aikaan useita TV-ohjelmia, joita voidaan käsitellä itsenäisinä kokonaisuuksina kuva, ääni, aika ja kuvausjaksoineen. Tietosuojan parantamiseksi datavirran sisältämä tieto voidaan myös kryptata tarvittaessa. MPEG-2 audion tärkein uudistus on mahdollisuus koodata saman videosignaalin yhteyteen useita äänisignaaleja. MPEG-2 -standardi saatiin valmiiksi 1994. [4]

4.2.2 MPEG 4

MPEG-4 on viimeisin MPEG-ryhmän aikaansaannos, jonka on tarkoitus mahdollistaa entistä monipuolisemmat multimediayhteydet. MPEG-4:sta tulee kansainvälinen standardiluonnos vuoden 1998 lopussa. MPEG-4 perustuu itsenäisiin audiovisuaalisiin objekteihin, jotka voidaan sijoittaa 3D-ympäristöön. Käyttäjä voi liikkua vapaasti 3D-ympäristössä. Tyypillisiä objekteja voivat olla liikkumaton tausta, kuva puhuvasta henkilöstä (ei taustaa), henkilöön liittyvä ääni, keinotekoinen esine (esim. pöytä), taustamusiikki, ym. Kuvaobjektit voivat olla 2- tai 3-ulotteisia. Standardissa on määritelty valmiiksi 3D-kasvot ja 3D-ihminen, jonka liikkeet, ilmeet, eleet ja kasvonpiirteet voidaan myös määrätä. Audiovisuaalisia objekteja voidaan myös ryhmitellä ja jakaa hierarkkisesti.

MPEG-4:n ääniobjektit voivat esittää luonnollista ääntä, kuten myös tietokoneen generoimaa synteettistä ääntä. Molemmille on myös tehokkaat pakkausmetodit ja muita toimintoja, kuten äänen soitto eri nopeuksilla. Synteettinen ääni voidaan muodostaa tekstin perusteella (puhesynteesi) tai instrumenttiparametreilla ja siihen voidaan lisätä efektejä, kuten kaikua. Puhesynteesissä puhe voidaan yhdistää vastaaviin 3D-kasvoihin, jonka huulet liikkuvat tekstin mukaan. [4]

4.2.3 MPEG 7

MPEGin uusin projekti on multimediatiedon kuvausten standardointiin tähtäävä MPEG-7. Standardi on tällä hetkellä vielä luonnosteluvaiheessa, aikataulun mukaan se valmistuu vuoden 2000 lopussa. MPEG-7:aa alettiin kehittää, koska audiovisuaalisen tiedon määrä on lisääntynyt räjähdysmäisesti, mutta tiedon luokitteluun ja hakuun ei ole olemassa yhtenäistä järjestelmää. MPEG-7 ei keskity tiedon pakkaamiseen, vaan sisällön kuvaukseen. Projektin uutuuden takia yksityiskohtaisempaa tietoa oli vaikea löytää. [1]

5 MPEG-1:n arviointia

5.1 lyhyesti

MPEG-1 standardi suunniteltiin tavalliseen videokuvanpakkaukseen. Standardoinnissa ei juuri ajateltu sen soveltuvuutta kaikkeen mahdolliseen, vaan tavoitteena oli tehdä standardi mikä yksinkertaisesti pakkaisi videokuvaa.

Kun MPEG-1 määrittely oli valmis, huomattiin että sen rakenteessa oli tiettyjä puutteita. Tämän seurauksena standardista ei tullut pohjaa vaativille digitaalisille ratkaisuille. MPEG-1 standardi sopii hyvin sovelluksiin, missä ei tarvita täydellistä kuvan laatua. MPEG-1:n kuvanlaatu on noin VHS-videon tasoa (tavallisesti). Se riittää hyvin erilaisiin multimedia- ja videoneuvottelusovelluksiin. Vakavasti otettavaksi elokuvan tai musiikkivideoiden pakkaamiseen siitä ei ole, koska siinä voi olla vain kaksi erillistä äänikanavaa ja se ei tue lomitettuja kuvia. Nämä puutteet olivat perussyy MPEG-2:n kehittelyn aloittamiselle. Huomattiin myös, että sovellutuksien kannalta olisi parempi, jos eri algoritimit olisi jaettu "työkaluihin" pelkän yhden ison koodinpätkän sijaan.

5.2 MPEG-1:n hyviä ja huonoja puolia

Hyvänä puolena MPEG-1 standardissa on, että sen mukana tulee c-kielinen esimerkki kooderin/dekooderin toteutuksesta. Se oli myös ensimmäinen standardi joka erotti videon koodaamisen videoformaatista. Se oli myös ensimmäinen standardi, joka sisälsi täysin ohjelmistopohjaisen ratkaisun kooderi/dekooderille. MPEG-1 voidaan siis toteuttaa täysin ohjelmallisesti tai integroituna mikropiirinä. Tämä on selvä etu erilaisia sovellutuksia ajatellen.

MPEG-1 on myös suhteellisen mukautuva standardi, koska kuvan ja äänen tarkkuus voidaan asettaa minkälaiseksi halutaan. Kuvan tarkkuudella on suora vaikutus bittivirran suuruuteen ja näin ollen videokuva on helppo mukauttaa eri tasoisille siirtolinjoille. Kuvanlaatu ei kuitenkaan pysy vakiona vaan se voi vaihdella hyvinkin suuresti videon sisällöstä riippuen. Tärkeänä asiana on ettei datavirran koko aikayksikköä kohti juuri vaihtele vaan on lähes vakio esimerkiksi 1.5 mbit/s.

MPEG-1:n ääni on lähes CD-tasoista layer-3 pakkauksella. Tällöin pakkaussuhde on noin 1/6. Se tarkoittaa noin 128-kilobitin datavirtaa sekunnissa kanavaa kohden. Vaikka monissa lähteissä sanotaankin äänen olevan täysin CD:n tasoista, on selviä puutteita havaittavissa. Myös verrattaessa Sonyn ATRAC-järjestelmään, joka on käytössä MiniDisc-laitteissa (samantasoinen pakkaussuhde), on MP3-pakkauksen äänenlaatu huonompi. Se kuitenkin ajaa asiansa ja MPEG-2-standardi soveltaakin samaa pakkausalgoritmia, mutta laajentaa sen monelle määrälle kanavia kahden sijaan.

Kuvan segmentoinnista ja täysikuvien ( I=intra ) vähyydestä johtuva palikoituminen etenkin nopeiden liikkeiden kohdalla ja nopeissa kuvan vaihdoissa on selvästi näkyvää. Tämä johtuu siitä, etteivät I-kuvat pysty näyttämään videossa tapahtuvaa suurta muutosta, ja ennustekuvien ( p=predict ) liikkeen tunnistus ei toimi. Liikkeentunnistus ei löydä liikevektoreita ja korvaa monet segmentit intrasegmenteillä. Nämä kuvat vievät paljon tilaa. Nopeiden liikkeiden johdosta myös b-kuvat ovat hyödyttömiä. Näin ollen datavirran koon pitämiseksi rajoissa pitää I-kuvan tarkkuutta rajoittaa, joka näkyy palikoitumisena ruudussa. Myöskään "Progressive refinement" ei toimi, joka omalta osaltaan lisää kuvan epätarkkuutta. [1][4]

Koska väri-informaatio tallennetaan alhaisemmalla resoluutiolla voi ilmetä värien valumista. Tämä tarkoittaa sitä, että värien rajat eivät mene samoissa paikoissa kuin kuvan ääriviivat värien välissä. Luonnollisessa videossa tätä virhettä ei huomaa, mutta jossain tietokoneella toteutetuissa jyrkkiä värieroja ja suoraviivaisia muotoja sisältävissä kuvissa sen huomaa helpommin. [4]

MPEG-1 videoissa resoluutio voidaan valita vapaasti, ja jos se valitaan liian alhaiseksi on kuvan pikselöityminen huomattavaa. Tämä on kuitenkin totta niin pakatuille kuin pakkaamattomille kuville/videoille. [4]

5.3 Muuta

5.3.1 Ammattikäyttöön soveltuvuus

MPEG-1 videon jälkikäsittely on vaikeaa. vain I-kuvat ovat "todellisia" kuvia.

Näitä on vain muutama sekunnissa. jos halutaan muuttaa yhtä kuvaa pitää video purkaa seuraavaan ja edelliseen i-kuvaan asti ja pakata uudelleen. Tämä huonontaa aina kuvanlaatua ja jo muutaman pakkauskerran jälkeen tuloksena on liian heikkotasoinen kuva. MPEG-1 ei siis sovellu (kuten eivät muutkaan mpeg-standardit) ammattimaiseen videonkäsittelyyn. Kyseessä on selvästi loppukäyttäjille ja harrastajille tarkoitettu standardi.

5.3.2 Pakkauksen vaatima teho

Pakkausalgoritmi ei ole symmetrinen. Se tarkoittaa että videonpakkaus vie huomattavasti enemmän aikaa kuin sen toistaminen. Tämä on hyvä asia. Vaikka kyseessä onkin hyvin monimutkainen pakkaustapa ei sen toistamiseen, joka on aikakriittistä, tarvita tehokasta laitteistoa vaan jopa keskitason i486 kelpaa siihen. Pakkaaminen on taas hyvin tehoa vievää, mutta koska se ei ole aikakriittistä, se voidaan tehdä kotikoneella.

Lähteet

[1] MPEG home page
[2] MPEG-FAQ
[3] Hannu Mallat: MPEG Audio
[4] Leonardo Chiariglione: MPEG and multimedia communications
[5] Digital Video, MPEG and associated artifacts
[6] PC-tekniikan käsikirja: Olavi Lähteinen
[7] Tietojenkäsittely: Heikki Poutsaari, Martti Holopainen, WSOY.

Muita linkkejä

MPEG video webpage
Video on Demand
Multimedia Delivery Systems
MPEG background
JPEG tutorial