Kaj je globoka zvočna kodiranja? Definicija, formula

Avdio kodiranje se nanaša na načine shranjevanja in pošiljanja avdio podatkov. Naslednji članek opisuje delovanje teh kodiranj.

Vsebina

Kako najti globino kodiranja zvoka
Kaj je globoka zvočna kodiranja?
Stopnja vzorčenja
Globina bit
Nekomprimiran zvok
Stisnjen zvok
Lossless
Izguba kompresije
Druge oblike stiskanja

Upoštevajte, da je to precej zapletena tema - "Globinsko kodiranje zvoka". Definicija tega koncepta bo podana tudi v našem članku. Koncepti, predstavljeni v tem članku, so namenjeni le splošnemu pregledu. Naj nam razkrijejo koncepte globine zvočnega kodiranja. Nekateri od teh referenčnih podatkov so lahko koristni za razumevanje delovanja API-ja in kako oblikovati in obdelovati zvok v svojih aplikacijah.

Kako najti globino kodiranja zvoka

Avdio format ni enakovreden kodiranju zvoka. Na primer, priljubljena oblika zapisa datoteke, kot je WAV, določa obliko glave zvočne datoteke, vendar sam po sebi ni zvočno kodiranje. WAV avdio datoteke pogosto, vendar ne vedno uporablja linearno PCM kodiranje.

FLAC je format datoteke in kodiranje, kar včasih povzroči zmedo. V okviru API-ja za glasovni API je globina zvočnega kodiranja edino kodiranje, ki zahteva, da zvočni podatki vključujejo glavo. Vsa ostala kodiranja kažejo tiho zvočne podatke. Ko se v API govora nanašamo na FLAC, se vedno sklicujemo na kodek. Ko se sklicujemo na format datoteke FLAC, bomo uporabili obliko ».FLAC«. globina kodiranja zvoka je

Ni vam treba določiti kodiranja in vzorčenja za datoteke WAV ali FLAC. Če je ta parameter izpuščen, Cloud API samodejno določi stopnjo kodiranja in vzorčenja datotek WAV ali FLAC na podlagi glave datoteke. Če določite vrednost kodiranja ali stopnjo vzorca, ki se ne ujema z vrednostjo v glavi datoteke, bo API za oblake vrnil napako.

Kaj je globoka zvočna kodiranja?

Avdio je sestavljen iz oscilogramov, sestavljenih iz interpolacijskih valov različnih frekvenc in amplitud. Za predstavitev teh valovnih oblik v digitalnih okoljih je treba signale zavrniti s hitrostjo, ki lahko predstavlja največje frekvence, ki jih želite reproducirati. Prav tako je potrebno, da shranijo dovolj globine bitov, da predstavljajo pravilno amplitudo (glasnost in mehkobo) oscilogramov glede na vzorec zvoka.

Sposobnost naprave za obdelavo zvoka, da ponovi frekvence, je znana kot frekvenčni odziv, zmožnost ustvarjanja pravilne glasnosti in mehkosti pa je znana kot dinamično območje. Skupaj se ti izrazi pogosto imenujejo zvestoba zvočne naprave. Globina kodiranja zvoka je sredstvo, s katerim lahko obnovite zvok s tema dvema osnovnima načeloma, kot tudi sposobnost za učinkovito shranjevanje in prenašanje teh podatkov.

Stopnja vzorčenja

Zvok obstaja kot analogna valovna oblika. Segment digitalnega zvoka približuje ta analogni val in vzorčuje njegovo amplitudo z dovolj veliko hitrostjo za simulacijo naravnih frekvenc vala. Frekvenca vzorčenja digitalnega zvočnega signala določa število vzorcev, odvzetih iz izvirnega zvočnega materiala (na sekundo). Visoka stopnja vzorčenja povečuje sposobnost digitalnega zvoka, da natančno predstavlja visoke frekvence. globina kodiranja zvoka je 8 bitov

Kot posledica izreka Nyquist-Shannon je običajno treba poskusiti vsaj dvakratno frekvenco zvokov, ki jih je treba digitalno zapisati. Na primer, če želite predstaviti zvok v območju človeškega sluha (20-20000 Hz), naj digitalni zvočni format prikazuje vsaj 40.000 krat na sekundo (zaradi tega zvok CD uporablja frekvenco vzorčenja 44,100 Hz).

Globina bit

Globina kodiranja zvoka je učinek na dinamični razpon določenega zvočnega vzorca. Večja bitna globina omogoča natančnejše amplitude. Če imate v istem vzorcu zvokov veliko glasnih in mehkih zvokov, boste potrebovali več bitov za pravilno prenašanje teh zvokov.

Višje bitne globine prav tako zmanjšajo razmerje med signalom in šumom v zvočnih vzorcih. Če je globina zvočnega kodiranja 16 bitov, se glasbeni zvok CD-ja prenaša s temi vrednostmi. Nekatere metode kompresije lahko kompenzirajo manjše bitne globine, vendar so običajno izgube. DVD Audio uporablja 24 bitov globine, medtem ko je v večini telefonov globina zvočnega kodiranja 8 bitov.

Nekomprimiran zvok

Večina digitalne obdelave zvoka uporablja ta dva načina (frekvenca vzorčenja in bitna globina) za enostavno shranjevanje podatkov zvoka. Ena izmed najbolj priljubljenih digitalnih zvočnih tehnologij (priljubljena z uporabo CD-ja) je znana kot modulacija pulzne kode (ali PCM). Avdio se izbere v določenih intervalih, amplituda vzorčenega vala pa se na tej točki shrani kot digitalna vrednost z uporabo bitne globine vzorca.

Linearni PCM (ki kaže, da je amplitudni odziv v vzorcu linearno homogen) je standard, uporabljen na CD-jih in kodiranju LINEAR16 Speech API. Oba kodiranja ustvarjajo nekompresiran tok bajtov, ki ustreza neposredno avdio podatkovam, oba standarda pa vsebujeta 16 bitov globine. Linearni PCM uporablja frekvenco vzorčenja 44.100Hz na CD-jih, kar je primerno za ponovno sestavljanje glasbe. Vendar pa je hitrost vzorčenja 16.000 Hz bolj primerna za rekompozicijo govora.

Linearni PCM (LINEAR16) je primer nestisnjenega zvoka, saj so digitalni podatki shranjeni na podoben način. Pri branju enokanalnega bajtnega toka, kodiranega z Linearnim PCM, lahko vsakih 16 bitov (2 bajtov) šteje, da dobite drugo vrednost amplitude signala. Skoraj vse naprave lahko sprva manipulirajo s takimi digitalnimi podatki - lahko z Linear PCM zvočnimi datotekami prilepite z urejevalnikom besedil, vendar nestruženi zvok ni najučinkovitejši način za prenos ali shranjevanje digitalnega zvoka. Zato večina zvoka uporablja digitalne metode stiskanja.

Stisnjen zvok

Avdio podatki, tako kot vsi podatki, so pogosto stisnjeni, kar olajša njihovo shranjevanje in prevoz. Stiskanje v kodiranju zvoka se lahko pojavi brez izgube ali z izgubo. Stiskanje z izgubo se lahko dekompresira, da se digitalni podatki obnovijo v prvotno obliko. Stiskanje nujno odstrani nekaj informacij med postopkom dekompresije in je parameterizirano, da označuje stopnjo tolerance za tehniko stiskanja za brisanje podatkov. razširiti koncepte globine zvočnega kodiranja

Lossless

Brez izgube se digitalni zvok stisne s kompleksnimi permutacijami shranjenih podatkov, kar ne povzroča poslabšanja kakovosti izvirnega digitalnega vzorca. Z kompresijo brez izgub, ko se podatki razpakirajo v izvirno digitalno obliko, podatki ne bodo izgubljeni.

Torej, zakaj v stiskanju metod brez stiskanja včasih obstajajo optimizacijski parametri? Ti parametri pogosto obdelujejo velikost datoteke za čas dekompresije. Na primer, FLAC uporablja parameter stopnje stiskanja od 0 (najhitrejši) do 8 (najmanjša velikost datoteke). Večja kompresija FLAC ne bo izgubila nobenih informacij v primerjavi z nižjim stiskanjem. Namesto tega bo stiskalni algoritem preprosto moral porabiti več računalniške moči pri gradnji ali dekonstrukciji prvotnega digitalnega zvoka.

API govora podpira dve kodi brez izgub: FLAC in LINEAR16. Tehnično LINEAR16 ni "stiskanje brez izgub", ker se stiskanje ne uporablja predvsem. Če je velikost datoteke ali prenos podatkov pomembna za vas, izberite možnost FLAC kot možnost kodiranja zvoka.

Izguba kompresije

Stiskanje zvočnih podatkov odpravi ali zmanjša nekatere vrste podatkov pri gradnji stisnjenih podatkov. API govora podpira več izgubnih formatov, čeprav se jim je treba izogibati, saj lahko izguba podatkov vpliva na točnost prepoznavanja. globina zvočnega kodiranja

Priljubljen MP3 kodek je primer metode kodiranja z izgubo. Vse metode kompresije MP3 odstranijo zvok zunaj običajnega zvočnega območja osebe in prilagajajo stopnjo stiskanja z nastavitvijo efektivne hitrosti prenosa MP3-kode ali števila bitov na sekundo za shranjevanje datuma zvoka.

Na primer, stereo CD z linearnim PCM s 16 bitov ima efektivno bitno hitrost. Formula za globino zvočnega kodiranja:

441000 * 2 kanala * 16 bitov = 1411200 bitov na sekundo (bps) = 1411 Kbps

Tako na primer kompresija MP3 odstrani takšne digitalne podatke s hitrostjo prenosa podatkov, kot je 320 kbit / s, 128 kbps ali 96 kbps, kar ima za posledico poslabšanje kakovosti zvoka. MP3 podpira tudi spremenljive bitne hitrosti, ki lahko nadalje stiskajo zvok. Obe metodi izgubljajo informacije in lahko vplivata na kakovost. Z zaupanjem lahko rečemo, da lahko večina ljudi ugotovi razliko med kodirano glasbo MP3 96 kbit / s ali 128 kbps. kodirna globina definicije zvoka

Druge oblike stiskanja

MULAW je 8-bitno PCM kodiranje, kjer je amplituda vzorčenja logaritmično modulirana in ne linearna. Posledično uLaw zmanjša učinkovit dinamični razpon stisnjenega zvoka. Čeprav je bil uLaw uveden posebej za optimizacijo kodiranja govora, za razliko od drugih vrst avdio, 16-bitni LINEAR16 (nestisnjeni PCM) še vedno precej presega 8-bitni stisnjen uLaw zvok.

AMR in AMR_WB modulirajo kodirane avdio kasete z uvedbo spremenljive bitne hitrosti v izvirni zvočni vzorec. Kako najti globino kodiranja zvoka

Čeprav API govora podpira več izgubnih formatov, jih morate izogibati, če imate nadzor nad izvornim zvokom. Črtanje takih podatkov s stiskanjem z izgubo morda ne bo imelo pomembnega vpliva na zvok, ki ga sliši človeško uho, lahko izguba takih podatkov za mehanizem prepoznavanja govora bistveno zmanjša točnost.

Zdieľať na sociálnych sieťach:

Príbuzný