Oblika zvočne datoteke je oblika zapisa za shranjevanje digitalnih zvočnih podatkov v računalniškem sistemu. Bitna postavitev zvočnih podatkov se imenuje audio oblika kodiranja zvoka in jo je mogoče stisniti, da se zmanjša velikost datoteke, pogosto se uporablja stiskanje z izgubo. Podatki so lahko neobdelani bitni tok v formatu avdio kodiranja, vendar so običajno vdelani v format vsebnika. Pomembno je razlikovati med formatom avdio kodiranja, vsebnikom, ki vsebuje neobdelane zvočne podatke, in avdio kodekom. Kodek izvede kodiranje in dekodiranje neobdelanih zvočnih podatkov, medtem ko so ti kodirani podatki shranjeni v datoteki vsebnika. Čeprav večina formatov zvočnih datotek podpira samo eno vrsto podatkov za kodiranje zvoka, lahko format večpredstavnostnih vsebnikov podpira več vrst avdio in video podatkov. Več najdete TU.

Na tej spletni strani je podrobno predstavljen format MP3.

Format MP3

KAJ JE MP3?

Zvočni standard MPEG je zelo zapleten, visoko kompresijski in visokokakovostni algoritem. Skupina strokovnjakov za gibanje slik (MPEG), ki se ukvarja s standardi za avdio in video sisteme, je videla prednosti digitalne predstavitve zvočnih podatkov. Njegove prednosti vključujejo visoko odpornost na šum (motnje, ki uničujejo celovitost signalov), stabilnost, ponovljivost in učinkovito izvajanje funkcij obdelave zvoka prek računalnika. Ker gibljive slike pogosto spremlja zvok, je MPEG določil tudi standard za kodiranje zvočnih informacij. Leta 1992 je bil zasnovan standard za kodiranje zvoka in videa, znan kot MPEG-1. MP3 pomeni MPEG-1 Layer 3. Gibanje MP3 se ni začelo s samo industrijo, temveč z veliko publiko ljubiteljev glasbe na internetu. Format MP3 za digitalno glasbo je imel in bo imel velik vpliv na to, kako ljudje zbirajo, poslušajo in distribuirajo glasbo. In prav zaradi priljubljenosti, različni telefoni, tablični računalniki in celo vozila nudijo vgrajeno podporo za predvajanje MP3 datotek.

Kot je bilo prej omenjeno so zvočne datoteke shranjene v digitalni obliki, zato so lahko zelo stisnjene. Prav zaradi tega datoteke potrebujejo veliko manj časa za prenos po podatkovnih linijah, kot sta omrežni kabel in telefonski modemi. Prav tako jih je mogoče shraniti v elektronski obliki na pomnilniške kartice in trde diske. Zaradi tega so idealni za “nalaganje” na prenosni predvajalnik in odhod na pot! Ker gre v bistvu le za računalniške podatke, jih je mogoče shraniti “v pomnilnik”, namesto da bi potrebovali CD z večjim, večjim predvajalnikom.

([2], [5], [8], [9])

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

KOMPRESIJA FORMATA

Zakaj sploh stiskamo audio datoteke?

Zanimivo in priročno je to, da stiskanje, ki ga doseže format datoteke MP3, je 1/10 velikosti datotek .WAV. Oblika audio stiskanja je znana kot “izgubna”, ker je stiskanje nepopravljivo in se med procesom izgubi nekaj izvornih podatkov. Še vedno pa je mogoče imeti dokaj kakovostne glasbene datoteke MP3. Medtem, ko je lahko 3-minutna datoteka brez izgub, na primer zvočna datoteka Waveform (WAV), velika približno 30 MB, bi bila ista datoteka kot stisnjena MP3 datoteka velika le približno 3 MB. To je kar 90% stiskanje, ki ohranja skoraj kakovost CD-ja! Torej res opazimo, da gre kar za 1/10 manjšjo velikost MP3 datoteke kot na primer pri CD-ji in zvočnih datotekah .WAV.

Če povemo malo bolj podrobno, digitalni zvok običajno nastane tako, da vsako sekundo vzamete 44.100 vzorcev zvoka. Ker vsak vzorec zahteva 16 binarnih števk (bitov), da ga kodira do zadovoljive ločljivosti, zahteva ena sekunda stereo zvoka kakovosti CD približno 1,4 milijona bitov podatkov. Razvijalci MP3 so oblikovali algoritem stiskanja, ki zmanjšuje podatke o zvoku, ki jih večina poslušalcev ne more zaznati. Torej se odstranijo deli zvočne datoteke, ki jih človeško uho težje ali skoraj ne sliši – to so najvišji in najnižji deli (Najnižji zvoki, ki jih slišimo, so globoki, ropotajoči basovski orjaki orjaških cerkvenih orgel, najvišji pa so nadležni cvili, ki so bili uporabljeni za prestrahovanje najstnikov. Zanimivo je, da nekatere živali lahko slišijo zunaj tega območja – kiti in sloni na spodnjem koncu, netopirji in miši pa na zgornjem koncu – toda za nas so ti zvoki lahko tudi tišina.). Za povprečnega poslušalca glasbe izguba kakovosti na splošno ni tako opazna, hkrati pa bo zaradi tega na shranjevalno napravo, kot je trdi disk, iPod ali pomnilniška kartica, prišlo več glasbe.

([6], [7], [9], [10])

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Stiskanje z izgubo uporablja lastnosti človeškega slušnega sistema. Odvisno od situacije, ljudje ne slišijo določenih tonov. Primer je pogovor dveh ljudi, ki je skorajda neslišen, ko gre vlak mimo. Zvok vlaka “prikrije” zvok pogovora. Glasen ton določene višine ali frekvence določa območje maskiranja in vsi toni znotraj tega območja maskiranja niso slišni. Ko datoteka izgubi te človeku neslišne podatke, nato uporabi nadaljnjo tehniko stiskanja, imenovano Huffmanovo kodiranje (delovanje je razloženo na podstani Grafika – PDF), da datoteko še dodatno zmanjša. Končni rezultat je, da format MP3 omogoča stiskanje zvočnih datotek CD, kakovosti s faktorjem od 10 do 12, z zelo majhno izgubo kakovosti. Tako bi lahko 4-minutni zvočni posnetek, ki bi shranil 40,36 MB kot RAW zvočne podatke, stisnili na 3,36 MB brez kakršne koli zvočne izgube kakovosti. Stiskanje z izgubo poskuša ugotoviti, katerih tonov ne slišimo ali jih skoraj ne slišimo, in jih izključi iz shranjenih ali prenesenih datotek.

([10], [11])

Nekatere ne moti, če izgubijo del audio posnetka, saj MP3 datoteke poslušajo v hrupnem okolju, na primer v avtomobilu. Če poslušate glasbo v mirnem okolju, kot je na primer vaša dnevna soba, se morda bolj zavedate izgube kakovosti. Gumb za nastavitev procesa izgub je znan kot bitna hitrost. Bitne hitrosti so kvantificirane v bitih na sekundo bps. MP3 se giblje od 96 kbps do 320 kbps. Na spodnjem koncu lestvice je od 96kbps do128kbps, kar je primerljivo s FM radiem, medtem ko je na visokem koncu lestvice od 256kbps do 320kbps primerljivo s CD-jem. Izvedenih je bilo več poskusov, ki so pokazali, da ljudje na splošno ne morejo razlikovati med zvočnim posnetkom, kodiranim kot MP3 s 256 kbps, in posnetkom s CD-ja. Edina smiselna razlaga je, da če določeno skladbo zelo dobro poznamo s CD-ja, je verjetneje, da bomo stiskanje zasledili v MP3-kodirani različici, kot če poslušamo skladbo, ki je še nismo slišali.

([1], [6])

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Algoritem za stiskanje

MP3 datoteke uporabljajo MDCT kompresijski algoritem, ki je v splošnem DCT algoritem, ki ga srečamo pri stiskanju slik JPEG, kateremu je dodana vrednst modifikacije. Kratice DCT stojijo za Digitalno kosinusno transformacijo, kar nem že samo ime pove, se ukravjamo s kosinusno krivuljo.

Algoritem MDCT si bomo pogledali skozi algoritem DCT, torej stiskanja slik JPEG in ga vzporedno poskušali pokazati, kako deluje na audio datotekah. Na koncu pa vam izdam, čemu se uporablja MDCT = modifikacija DCT pri audio datotekah.

DCT algoritem (prikaz na formatu slik):

Kratek povzetek delovanja DCT algoritma na slikah:

Vzemimo sliko in jo razrežimo na koščke, ki so velikosti 8×8 blokov slikovnih pikslov. Prav na vsakem bloku naredimo DCT algoritem, ki bo kasneje opisan. Vsak blok je kompresiran s kvantizacijo. S tem je niz stisnjenih blokov drastično zmanjšal velikost naše slike.

Pri DCT algoritmu potrebujemo posebno matriko, ki jo sicer pridobimo s pomočjo naslednje formule:

In dobimo našo matriko T, ki jo bom oporabili nekoliko kasneje.

Predno pa začnemo naj omenin, da so piksli črno bele slike različnih vrednosti in sicer se te vrednosti gibljejo od 0-(črna) do 255-(bela).

Izberemo si na primer nek 8×8 del slike in zapišemo matriko Original (s tem povemo, da gre za dejanski del slike):

Ker pa je DCT matrika narejena tako, da zna brati le vrednosti od -128 do 127 moramo od vsake vrednosti odšteti 128. In tako dobimo naslednje vrednosti v matriki M:

S tem smo matriko pripravili in lahko na njej izvedemo DCT algoritem. In sicer bomo naredili matriko D = TMT’ (množenje matrik). In dobimo matriko D:

Kot lahko vidimo smo dobili 64 DCT koeficientov. Prvi koeficient čisto desno zgoraj z vrednostjo 162.3 je povezan z nizkimi frekvencami izvirnega slikovnega bloka. Ko se odmikamo bolj desno in pa dol, večje so frekvence izvirnega slikovnega bloka in koeficien levo spodaj z vrednostjo 10.7 prikazuje najvišjo frekvenco. Naj omenim, da je človeško oko najbolj občutljivo na nizke frekvence in ne toliko na višje. In prav to se bo v naslednjem koraku kvantizacije najbolj opazilo.

Sedaj je 8×8 blokov slikovnih pikslov pripravljenih za kvantizacijo. Kvantizacija ima 100 različnih nivojev. Lahko vzamemo nivo 1 in bomo dobili najslabšo kvaliteto slike a hkrati imeli najboljšo kompresijo, medtem ko če vzmamemo nivo 100 bomo imeli najboljšo kvaliteto in najslabšo kompresijo. Če malce logično premislimo bomo najboljše dobili, če vzamemo nivo 50. Za ta nivo obstaja posebna matriko Q 50.

Kvantizacijo dosežemo, če vsak element matrike D delimo z istoležečim elementom v matriki Q in zaokrožimo k najbližjemu celemu številu.

Kot smo rekli, se koeficient v desnem zgornjem kotu nanaša na nižje frekvence. In če gremo sedaj vedno bolj proti desni in pa navzdol kmalu vidimo, da elementi v matriki postanejo ničelni. S tem prikažemo, da tistih črno-belih odtenkov, človeško oko ne loči med seboj in niso tako pomembni za ljudi, zato jih lahko brez kakršne škode kar izpustimo in s tem prihranimo na prostru.

Še zadnji korak pri striskanju pa je pretvorba posameznih blokov v binarni zapis. Kakšen točno je ta zapis za razumevanje ni tako zelo pomemben, zato bomo prikazali analogno, kako se izvaja zapis kompresije.

Pred seboj vidite 4×4 model. Seveda se analogno naredi za naš 8×8 model, vendar nam model 4×4 zadošča za prikaz bistva. Torej vzamemo prvi blok slikovnih pikslov in mu priredimo vrednost (0,0), saj leži v ničti vrstici in ničtem stoplcu. Kot lahko vidite na sliki nadaljujemo z označevanjem teh blokov. Končni zapis pa poteka “cik-cak” kot lahko vidite na sliki zgoraj.

Na koncu dobimo končni zapis, ki je v binarni obliki, kot ga prikazuje ta zapis 01011010111001… ([3])

DCT algoritem (prikaz na audio formatu):

Kako to analogno povezati z audio zapisom?

Pri audio zapisu imamo signal, ki ga ne moremo razrezati za kvadrate ampak, ga lahko razrežemo na intervale enakih dolžin. In na primer se odločimo, da so posamezni intervali dolgi par sekund. Žal tu nimamo najboljše primerjave z matrikami, ki jih uporabljamo pri slikah, vendar vam razložim malce drugače.

Na sliki vidite audio signal. Kot lahko vidite zelo skače gor in dol.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Če malce približamo signal vidimo, kako je sestavljen iz posameznih zaznamkov signala.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Še malo ga približajmo in si ogljemo signal. Črta, ki poteka zgoraj in spodaj, označuje območje, ki ga človek sliši. Kot smo v uvodu pri MP3 povedali, človek ne sliši vseh zelo visokih in zelo nizkih frekvenc. Roza črta prikazuje območje, v katerem človek še sliši in loči različne frekvence.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Zato brez škode oziroma izgube kvalitete, te frekvence, ki gledajo izven slušnega območja znižamo in s tem tudi zmanjšamo datoteko.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Torej vse frekvence, ki so prečrtane, zmanjšamo tako, da padejo v območje, katerega človek še sliši, kot je prikazano na spodnji sliki.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

S tem smo uspeli zmanjšati samo zvočno datoteko, saj smo tiste neslišne frekvence prilagodili človeškemu sluhu, saj bi bile nespremenjene čisto odveč.

Hkrati pa je signal razrezan na določene intervale. Te intervale najlažje pokažemo takole:

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

To so zaznamki signala, kot je prikazano zgoraj. Če sedaj skozi te zaznamke narišemo kosinusno funkcijo, ki se najbolj prilega, dobimo naslednjo sliko. Pozorni bodite na odstopanja nekaterih zaznamkov.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Kaj naredimo s frekvencami, ki odstopajo? To smo razložili malce višje in kot sem prej omenila, je potrebno signal razrezati na intervale. To naredimo takole…

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

Tako in sedaj se zapiše le še te posamezne intervale prav tako v binarni način, kot smo prej zapisali 8×8 bloke slikovnih pikslov.

S tem smo na kratko in čimbolj nazorno poskušali prikazati, kako poteka algoritem DCT na audio formatu in kako ima ta algoritem podobno ozadje, ki ga lahko dobro razumemo pri stiskanju slik in ga nato prenesemo na naš audio signal.

MDCT

Kot pa sem obljubila vam izdam, kaj naredimi modifikacija pri DCT algoritmu. Spomnimo se zadnje slike, ko smo signal razdelili na intervale.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

S takim razrezom modificiramo naš signal. Kot lahko opazite, je veliko več intervalov kot pri prejšnjem razrezu. Kar lahko opazite je tudi to, da se intervali med seboj prekrivajo. Prav v tem pa je čar modifikacijskega elementa. Ko teče en interval se na polovici tekočega intervala prične izvajati drugi interval, in na sredini drugega, kjer se konča prv interval se hkrati začne tretji interval. Kot lahko iz opisa predvidite, se uporablja modifikacijski nivo 50%. S tem smo odpravili slišnost teh razrezov. In prav to povzdvigne kakovost MP3 formata, da je tako zelo popularen in v obsežni rabi med uporabniki. ([4])

Ko signal takole razrežemo na intervale se med predvajanjem zvočnega posnetka slišijo vsi ti razrezi. Torej sliši se, da na primer prestopimo iz 1. intervala v 2. interval, kar pa se izkaže za moteč dejavnik. Seveda to opazimo, če dobro poznamo predvajano pesem ali pa jo poslušamo zelo na glas in pozorno. Vendar so se razvijalci želeli ogniti temu problemu, ki z nujnim razrezom na intervale nastane. Zato so se odločili, za nekoliko drugačen razrez.

To delo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna.

PREVERITE SE

VIRI

[1] How MP3 compression works. (2011). Pridobljeno s https://www.techradar.com/news/audio/how-mp3-compression-works-916093/2

[2] How MP3 Files Work. (b.d.). Pridobljeno s https://computer.howstuffworks.com/mp3.htm#pt1

[3] K. Cabeen, P. Gent. (b.d.). Image Compression and the Discrete Cosine Transform. Pridobljeno s https://www.math.cuhk.edu.hk/~lmlui/dct.pdf

[4] MDCT. (2020). Pridobljeno s https://www.mathworks.com/help/audio/ref/mdct.html

[5] MP3: An Overview. (b.d.). Pridobljeno s https://cs.stanford.edu/people/eroberts/courses/soco/projects/data-compression/lossy/mp3/index.htm

[6] MP3 Audio Compression. (2020). Pridobljeno s https://teachcomputerscience.com/mp3-audio-compression/

[7] MP3: Lossy compression. (b.d.). Pridobljeno s https://alness.gnomio.com/pluginfile.php/258/mod_resource/content/1/On-line%20Resources/Multimedia/3%20Digitised%20Sound%20Data/mp3_lossy_compression.html

[8] What Is an MP3 File? (2020). Pridobljeno s https://www.lifewire.com/mp3-file-2622780

[9] What is MP3? (b.d.). Pridobljeno s https://www.khouse.org/pages/mcat/mp3/what_is_mp3/

[10] What Is An MP3 File (And How Do I Open One)? (2018). Pridobljeno s https://www.howtogeek.com/361516/what-is-an-mp3-file-and-how-do-i-open-one/

[11] What Is a MP3 File?. (b.d.). Pridobljeno s https://docs.fileformat.com/audio/mp3/