Avete sentito parlare di Stable Diffusion, il modello di intelligenza artificiale open-source che genera immagini da un testo?
Due svilluppatori, Seth Forsgren e Hayk Martiros, come progetto hobbistico, hanno perfezionato il modello per generare immagini di spettrogrammi, come questo:
La magia è che questo spettrogramma può essere convertito in un clip audio. Davvero? Sì!
Lo spettrogramma audio è un modo per rappresentare visivamente il contenuto di frequenza di un clip audio. L’asse x rappresenta il tempo e l’asse y la frequenza. Il colore di ciascun pixel indica l’ampiezza dell’audio alla frequenza e al tempo indicati dalla riga e dalla colonna.
Non avete ancora capito bene di cosa si tratta? Ecco dove viene spiegato meglio come funziona: https://www.riffusion.com/about
App web interattiva
Seth Forsgren e Hayk Martiros hanno realizzato un’applicazione web interattiva che consente di digitare le richieste e generare all’infinito contenuti interpolati in tempo reale, visualizzando al contempo la timeline dello spettrogramma in 3D.
Dunque Riffusion genera musica a partire da richieste di testo. Sembra incredibile, ma è proprio così.
Perciò, ivdertitevi a provare i vostri stili preferiti, strumenti come il sassofono o il violino, modificatori come l’arabo o il giamaicano, generi come il jazz o il gospel, suoni come le campane della chiesa o la pioggia, o qualsiasi combinazione.
Info: www.riffusion.com