I paramenti fondamentali riguardo al campionamento audio sono, frequenza di campionamento e numero di bit.
Quando un segnale audio viene campionato, viene trasformato in una scala con tanti gradini. La frequenza di campionamento determina la larghezza dei gradini ed il numero per secondo, mentre i bit determinano l'altezza
La frequenza di campionamento rappresenta il numero di misurazioni al secondo compiute dal convertitore. Con frequenza di campionamento pari a 44,100 Hz è possibile campionare correttamente un segnale con frequenza pari alla metà, 22.050 Hz (frequenza di Niquist)
In teoria la banda udibile del nostro udito arriva fino a 20 kHz, quindi basta e avanza un frequenza pari a 40 kHz per campionare correttamente un segnale audio. Vero, ma a livello elettronico non è così perché si ha a che fare con i filtri anti aliasing che servono ad eliminare tutte le frequenze che vanno oltre la frequenza di Niquist. Questi filtri hanno una pendenza, per questo ci vuole un piccolo margine in più di banda per costruire filtri con una pendenza non troppo estrema.
Quindi una frequenza di campionamento superiore facilita la costruzione di filtri anti aliasing. E comporta anche una risposta in frequenza migliore del suono campionato.
Registriamolo a 48 kHz il disco "perché è meglio"
Avete mai sentito l'affermazione “la frequenza di campionamento più è, meglio è?”
Non è del tutto vero.
Molti credono che registrare ad una frequenza di campionamento di 48 kHz sia migliore rispetto a 44,1 kHz. Dal punto di vista matematico è così. Bisogna però tenere in considerazione l'SRC (sample rate conversion) che è uno dei processi più dannosi per un segnale digitale. Registrare a 48 kHz comporterà, ad un certo punto della produzione, di convertire il segnale a 44.1 kHz per adattarlo al prodotto finale, il CD. Ognuno dei 48.000 campioni è già un'approssimazione del segnale originale fatta secondo i parametri di campionamento scelti. Durante la SRC questi valori andranno ricalcolati ed arrotondati generando ulteriori approssimazioni
Esiste però la possibilità di usare una frequenza di campionamento con valore multiplo rispetto al supporto finale di destinazione. Per esempio 88,2 kHz. In questo caso, i campioni relativi alla frequenza 44,1 kHz coincidono e non dovranno essere ricalcolati. Sono infatti quelli già presente nel segnale. Nella conversione da 88,2 kHz a 44,1 kHz ne verranno considerati uno ogni 2
Approfondimento matematico
Perché proprio 44.100 Hz e non 40.000 Hz?
Ottima domanda. Vi siete ma chiesti perché il CD audio ha come frequenza di campionamento un valore così strano? In base al teorema di Niquist basterebbe una frequenza di 40 kHz. E' vero, c'è da aggiungere la banda di guardia per la costruzione dei filtri anti aliasing, 42 kHz, 43 kHz sono sufficienti. Perché è stato scelto proprio 44,100 Hz?
Alla fine degli anni 70 Sony e Philips erano alle prese con i primi test riguardo al CD audio ed uno dei problemi più importanti riguardava l'archiviazione dei dati digitali.
Il flusso dei dati era elevatissimo, circa 10 Mbyte al minuto e gli hard disk dell'epoca erano limitati e soprattutto molti costosi. Nel 1980, da 5 Mbyte costava circa 1500$.
Un mezzo abbastanza economico per archiviare dati era il nastro magnetico, ma anche qui non c'era abbastanza banda per archiviare questo grande flusso di dati. Si pensò quindi di utilizzare una tecnologia già abbastanza diffusa in ambito broadcast. I registratori video a nastro.
Venivano prodotti registratoti NTSC e PAL entrambi con caratteristiche tecniche leggermente diverse.
Il sistema NTSC prevede 525 linee per 30 fotogrammi al secondo, mentre il sistema PAL prevede 625 linee per 25 fotogrammi al secondo. La grandezza di ogni linea permetteva di incedere correttamente su di essa 3 campioni audio.
Adesso rimaneva il problema di trovare una frequenza di campionamento superiore a 40 kHz e che fosse multipla con i valori tecnici del sistema NTSC e PAL. A questo punto compare il valore magico: 44,100 Hz.
Nelle macchine NTSC
3 x 490 x 30 = 44100
vengono utilizzate 490 linee per frame, su 525 disponibili
Nelle macchine PAL
3 x 588 x 25 = 44100
Vengono utilizzate 588 linee, su 625 disponibili
In questo modo i registratori video esistenti erano in grado di archiviare i dati provenienti dai convertitori audio digitali
Perché per il video si usa 48.000 Hz?
La risposta sta nell'individuare la più piccola suddivisione in campo video. Sia nei 24 fps (cinema), 25 fps (PAL), che 30 fps (NTSC), ogni fotogramma è suddiviso in 80 subframes. I subframes corrispondo ai bit del codice SMPTE
Quando viene utilizzato un segnale audio in un contesto video, il numero dei campioni audio al secondo deve essere un multiplo intero dell'unità di misura più piccola, il subframe, In questo casso il subframe coincide sempre con la fine di un campione audio e l'inizio di quello successivo.
Se ciò non avvenisse , un subframe potrebbe trovarsi nel mezzo di un campione audio causando problemi di sincronizzazione
Considerando che ogni fotogramma è formato da 80 subframes:
25 fps contengono 2000 subframes al secondo
24 fps contengono 1920 subframes al secondo
30 fps contengono 2400 subframes al secondo
In ogni caso, la frequenza di campionamento deve essere un multiplo intero del numero di subframes al secondo, Il valore idelae è quindi 48,000 Hz, poiché è divisibile 2000, per 1920 e per 24000.
Fonte Immagini ed argomentazioni prese da MITB. Acquista il libro qui
Comments