Audio immersivo: ascolto, percezione e soundscape

Torno a parlare liberamente del mio lavoro in questo spazio che gentilmente ZioGiorgio mi riserva al riparo dagli strali delle (il)logiche di mercato e dai costosi trabocchetti delle “convinzioni-dettate-dalle-convenzioni” pseudo-scientifiche. Vi ringrazio prima di tutto per la vostra attenzione, per il tempo prezioso che ci state dedicando leggendo/ascoltando queste parole. Sì, ascoltando. Perché chi legge, se ci pensate bene, lo fa immaginando istintivamente dei suoni, compreso quello della sua voce interiore, quella voce che soltanto noi conosciamo e usiamo per leggere, sognare e pensare. Il vento che ululando spalanca la finestra, portando con sé le note di un carillon lontano che suona Yesterday, rompe il silenzio della stanza virtuale che ho appena evocato per voi scrivendo questa frase, ed è un piccolo esempio di paesaggio sonoro ideato dallo scrittore ma “sonorizzato” da chi legge. Lo avete appena fatto.

Il soundscape può essere costituito in parte da suoni condivisi dall’immaginario collettivo (la melodia di Yesterday) ma sarà sempre diverso per ognuno di noi perché diversi saranno i suoni che useremo per immaginare il vento, la finestra e il carillon, suoni scelti tra quelli che ricorderemo o semplicemente preferiremo utilizzare in base al nostro senso estetico. Questo stesso processo, anche se in senso inverso, entra in funzione anche quando un sound designer propone in un modo o l’altro, con una tecnologia o l’altra, un soundscape al pubblico. Le emozioni evocate negli ascoltatori saranno sempre diverse perché i suoni sono legati nelle loro menti, nella loro memoria, ad esperienze diverse.

Molti anni fa, stavo preparando una demo per i distributori internazionali del mio hardware per la spazializzazione che all’epoca si chiamava X-spat boX II.

X-spat boX II (fuori produzione), l’audio immersivo ante-litteram.

Uno di loro arrivò in anticipo mentre stavo collegando il secondo monitor per la parte video e il soundscape era già in riproduzione. C’erano dei campionamenti di gabbiani che passavano sopra le teste degli ascoltatori in diagonale e lui mi disse che non li sentiva abbastanza in alto, con un sistema 3D come il mio avrebbe voluto sentire un effetto più pronunciato.
Gli chiesi scusa perché non potevo dargli ascolto, facendogli notare che stavano arrivando gli altri e che non avevo ancora finito di montare tutto e lui si allontanò per andare a salutare gli altri distributori, appunto. Quando tornò il video era in riproduzione e mostrava uno stormo di gabbiani che passavano sopra una spiaggia. Tutto soddisfatto mi disse “Aaaah! Adesso sì che li sento bene, cosa hai modificato?” Niente, gli risposi, ho soltanto fornito al tuo cervello le informazioni visive necessarie per catalogare nel modo giusto gli stessi suoni di prima.

Ricapitolando, abbiamo evidenziato nell’articolo precedente, che ascoltare significa sentire, sentire serve a capire, e nel paragrafo precedente abbiamo visto come per capire dobbiamo sempre interpretare il significato dei contenuti, utilizzando il bagaglio culturale che abbiamo “registrato” semplicemente vivendo, memorizzando le nostre esperienze passate.

In conclusione, possiamo affermare tranquillamente che “sentire” è fondamentale per dare un senso alla nostra stessa esistenza e che, anche per questo, noi “sentiamo” e comprendiamo il mondo intorno a noi utilizzando quasi sempre un metodo comparativo (vedi neuroni specchio e meccanismo imitativo) basato su di una libreria di esperienze multisensoriali.

Questo ascolto più consapevole porterà alcuni di noi, dannati da un istinto creativo mai domo, a voler modificare o meglio ancora evocare (niente si crea, niente si distrugge, tutto si trasforma) delle più o meno artistiche interpretazioni del paesaggio sonoro che cercheremo di condividere con gli altri, attraverso il cinema. il teatro o delle installazioni. Tutti noi utilizzeremo in seguito gli stessi strumenti fisici (orecchie, torso, movimenti della testa, vista e tatto) tentando di provare la stessa esperienza estetica, ma i risultati rilevati da questi sensori saranno inevitabilmente diversi per tutti, magari soltanto leggermente diversi, ma tutti squisitamente a carattere soggettivo. Dobbiamo accettare il dato di fatto che la tecnologia è una tavolozza di colori bellissimi e innumerevoli, ma se il pittore non è ispirato e il pubblico non ha il bagaglio culturale necessario per metabolizzare il messaggio… D’altro canto, innegabilmente, i mezzi tecnici sono fondamentali per coadiuvare la comprensione o facilitare la distribuzione dei contenuti, tanto per sottolineare una ovvietà, quindi veniamo a più miti consigli e, inseguendo ancora una volta la chimera della riproduzione di un soundscape quasi uguale all’originale, facciamo i conti con le leggi della fisica, della psicoacustica, e soprattutto con i nostri limiti spesso sottovalutati, ponendoci delle domande in tal senso.

Come funziona il nostro apparato uditivo? Come fa il nostro cervello a ricavare informazioni abbastanza precise (20 centimetri di scarto secondo la maggior parte dei test eseguiti) con dati così approssimativi? La risposta esatta è “tira ad indovinare”, ma da buon vecchio estimatore del metodo scientifico vi rimando alla figura 2 allegata al presente articolo dove vi presento le prime convenzioni che abbiamo adottato per capirci qualcosa e non restare in balia delle onde. In caso di frequenze inferiori a ∼2 kHz, la differenza nel tempo di arrivo di un’onda sonora alle due orecchie viene utilizzata dal nostro cervello per localizzare una sorgente sonora sul piano orizzontale.
L’acronimo che useremo per identificare queste differenze temporali interaurali (Interaural time difference) è ITD. In alto a destra abbiamo invece le differenze di livello interaurale (ILD, Interaural level difference). Per frequenze superiori a ∼2 kHz, l’effetto shadowing della testa crea differenze nell’intensità del suono percepito dalle due orecchie (ΔI). Anche queste differenze vengono utilizzate per la localizzazione sul piano orizzontale. Anche queste, non solo queste. Analizzando il modo in cui la variazione di pressione dell’aria che ci circonda (vibrazione) arriva con la sua prima onda ad infrangersi contro lo scoglio rappresentato dalla nostra testa dura con le due orecchie abbarbicate come mitili su due superfici agli antipodi, si nota facilmente come i segnali binaurali per la localizzazione del suono dipendono sì dalla frequenza del suono stesso, ma soprattutto dalle dimensioni, dalla conformazione e dalla posizione della testa rispetto al punto di emissione della sorgente audio.

Possiamo anche sfatare subito uno dei miti più diffusi nel nostro ambiente di lavoro, quello secondo il quale le “basse frequenze non hanno direzionalità”, dovuto probabilmente ad una considerazione affrettata e parziale del fenomeno che tiene conto soltanto delle ILD. Siamo sempre sul piano orizzontale e già abbiamo fatto confusione. Ma la situazione è ancora più complessa di quanto sembra. Prima di tutto le riflessioni non sono certo tre o quattro come può sembrare leggendo i vari corsi più o meno gratuiti che si trovano in rete. Molti di questi parlano solo del suono diretto e delle prime riflessioni, accennando soltanto al resto delle tante altre componenti (coda di riverberazione, ne riparleremo in modo esteso in un altro articolo). Componenti che, tra l’altro, possono influenzare e non poco l’operato del nostro cervello, non soltanto per il loro livello di intensità e tempo di arrivo alle orecchie, ma anche e soprattutto per le variazioni che determinano nella gamma di frequenze da noi rilevata (codificata) come caratteristica timbrica del suono. Quest’ultima poi è chiaramente influenzata anche dall’ambiente nel quale ci troviamo sia noi che la sorgente audio, dagli ostacoli che le onde incontrano sui percorsi che devono fare per raggiungerci e dagli oggetti che possono essere messi in vibrazione a loro volta sommando il loro contributo con il suono che inutilmente cerchiamo di isolare. Ma non siamo in grado di determinare quali di queste componenti siano determinanti nel processo di interpretazione da parte del nostro cervello e quali invece siano d’ostacolo, anche perché, ripeto, il giudizio sarebbe sempre soggettivo.

Walter Benjamin

Allora perché rinunciare alla vera essenza dell’evento preferendo una simulazione incompleta della stessa? Se lo chiedeva già Walter Benjamin scrivendo L’opera d’arte nell’epoca della sua riproducibilità tecnica quasi un secolo fa. Esistono cinque differenti versioni del saggio, tutte incompiute, e l’unica pubblicata dall’autore è stata sconfessata da lui stesso per i tagli redazionali apportati senza il suo consenso e le manipolazioni conseguenti del suo pensiero. Il soggetto e i temi del saggio, comunque, influenzarono campi come la storia dell’arte e la teoria dell’architettura, gli studi culturali e quelli sul ruolo dei mass media nei decenni successivi alla sua pubblicazione. Suonano attuali anche adesso, senza arrivare a disquisizioni filosofiche che rappresenterebbero una digressione eccessiva, specialmente quando afferma (pare) che la contrapposizione tra autentico e falso perde senso ne “l’età della riproduzione tecnica”, poiché essa non si limita a riprodurre, ma “propone l’opera d’arte in un contesto diverso rispetto a quello tradizionale della sua fruizione”. Nel nostro caso la riproduzione digitale, come allora il cinema e la fotografia, consente di ‘trasportare’ l’opera in un contesto di consumo quotidiano dove la facilità di riproduzione “sbiadisce” l’opera d’arte, sottraendole l’autenticità che costituiva nel passato la sua caratteristica fondamentale. Da evento irripetibile l’opera si trasforma attraverso la moltiplicazione delle riproduzioni. Questo non vuol dire che la vostra registrazione di un concerto dal vivo preferita o che la presa diretta di un film da oscar siano cose inutili da buttare, spesso sono anch’esse delle opere d’arte o perlomeno d’artigianato, ma non devono essere confuse con l’evento originale, realizzato dagli autori come volevano e in quel determinato momento storico.

Dobbiamo decisamente cambiare rotta e (ri)trovare un possibile equilibrio tra arte e tecnica

Sono l’una dipendente dall’altra e nessuna delle due deve prevalere in modo eccessivo e per troppo tempo nel pensiero collettivo dell’umanità, se qualcosa del genere può esistere. Siamo arrivati a delle esagerazioni tragicomiche, come la compressione mp3 o le tecnologie che richiedono l’equivalente del prodotto pro-capite lordo di una nazione per essere implementate. Pensate ad esempio alla maniacale ricerca della “chiarezza” nelle registrazioni audio che ci ha portato a peggiorare la situazione invece di migliorarla.

Perdurando nella nostra illusoria ed errata convinzione che la definizione di una registrazione possa essere ricreata per mezzo dell’editing digitale invece di ottenerla direttamente al momento della registrazione stessa con l’applicazione delle metodologie adeguate, arriviamo a chiamare “rumore di fondo” TUTTE le componenti del suono con ampiezza minore della principale (dico tutte). Cerchiamo così di eliminarle digitalmente con vari algoritmi (denoiser) che utilizzano “finestre” temporali, leggi frammenti di rumore(?), per rimuoverlo in modo approssimato da tutta la registrazione, salvo poi rimetterlo (dithering) utilizzando del rumore (questo propriamente detto) digitale che sia in grado di ridare “calore” alla registrazione (!?!?).
Quale calore se oltretutto il materiale è stato registrato utilizzando dei semplici microfoni, quando va bene sincronizzati con delle telecamere (altro non abbiamo per ora a disposizione), per acquisire una copia dell’insieme di vibrazioni che ci hanno “avvolto” a livello tattile su tutto il corpo, stimolato i nostri timpani e il nostro cervello in concerto con i segnali visivi provenienti dalla sorgente di emissione, sottolineati dall‘odore diffuso nell’ambiente durante l’esperienza estetica che abbiamo vissuto… ci inganniamo raccontando di aver “catturato la magia dell’evento” fissando su supporto digitale 48000 campionamenti al secondo degli infiniti momenti che in ogni secondo ci hanno avvolto in un ambiente del quale avremo come pallida imitazione circa una trentina di fotografie al secondo scelte a caso tra le miriadi di sfumature della luce che ci scaldava anche la pelle e quasi “sembrava liquefarsi” nel profumo di quella sera, magari d’estate…

Dobbiamo essere consapevoli dei limiti della nostra tecnologia e del nostro corpo e tornare a dar valore all’evento artistico reale, vissuto in prima persona, in un ambiente adatto e nel momento storico che lo significa, magari utilizzando le tecnologie in modo più umano, mettendo anche il pubblico in grado di interagire e far parte di quel momento unico e irripetibile nel tempo nel quale nasce e muore un’opera d’arte.

Luigi Agostini
ZioGiorgio Contributor
© 2001 – 2022 NRG30 srl. All rights reserved

Vai alla barra degli strumenti