Come funzionano le app di identificazione musicale come Shazam?


All’inizio le app di ID musicale sembrano magiche, ma sotto il cofano c’è un sofisticato algoritmo in grado di trovare le canzoni in un istante. Ecco come funzionano.

La magia dell’identificazione musicale

Probabilmente è successo a tutti noi. Stai cenando in un buon ristorante, esci in un bar o cammini per un negozio, quando all’improvviso senti una bella canzone dagli altoparlanti. Forse è una canzone che hai ascoltato prima o una traccia che non hai mai sentito. Quindi estrai il telefono, apri Shazam e tieni il dispositivo al soffitto. In un lampo, l’app ti dice qual è la canzone, chi è l’artista e dove trasmetterla in streaming.

Sono veloci, straordinariamente precisi e possono identificare anche le canzoni più oscure. In poche parole, funzionano isolando la canzone da una registrazione e cercandola in un ampio database di tracce. Ma la tecnologia alla base del modo in cui lo fanno è piuttosto complessa e impressionante.

Potresti rimanere scioccato nel sapere che l’app Shazam che conosciamo oggi è stata lanciata nel 2002 e il sistema era preciso e veloce come lo era allora. Tutto questo grazie ad un algoritmo unico che rivoluzionerebbe il mondo della musica.

Non sono solo i testi

A prima vista, le app di identificazione musicale come Shazam possono sembrare semplici. Potresti pensare che stiano solo ascoltando i testi, come qualsiasi assistente vocale, e li stanno cercando in un database di testi di canzoni per dirti qual è la canzone.

Tuttavia, la maggior parte delle app di identificazione musicale sono in grado di dire qual è il titolo di uno strumentale, o anche il cantante di una cover. Infatti, invece di analizzare i testi della traccia, cercano “impronte digitali” specifiche per ogni canzone nei loro vasti database.

Presto: Come visualizzare i testi delle canzoni su iPhone, iPad, Mac o Apple TV

Tecnologia delle impronte digitali

Probabilmente hai dispositivi che possono essere sbloccati usando la tua impronta digitale, che è la disposizione delle piccole linee sul tuo dito che sono uniche per te. Allo stesso modo, quando tieni il microfono per registrare un breve snippet di una canzone, quella clip viene trasformata in modelli di dati che Shazam o un’altra app possono cercare nel loro database.

A prima vista, questo metodo sembra soggetto a diversi problemi. La maggior parte delle volte che ascolti musica in pubblico, c’è rumore di fondo e distorsione causati dagli altoparlanti, che possono rendere le canzoni non identificabili o provocare corrispondenze imprecise. Inoltre, ci sono molti dati catturati anche in un breve clip audio, che può rallentare la ricerca di tali pattern in un database di milioni di canzoni.

Relazionato :  PSA: le app di aggiornamento del produttore sono davvero utili su Windows

In un’intervista con Scienziato americano nel 2003, Avery Li-Chun Wang, chief data scientist e co-fondatore di Shazam, spiega come il loro algoritmo risolve questi problemi. Le informazioni di un clip audio possono essere visualizzate con un grafico 3D noto come spettrogramma, che rappresenta un cambiamento nelle frequenze in un periodo di tempo. Tiene anche conto dell’ampiezza, cioè della forza di un suono. Questo è rappresentato in uno spettrogramma usando l’intensità del colore.

Spettrogramma musicale Shazam

Allo stesso modo in cui gli esseri umani non possono percepire il suono a meno che non sia a una particolare frequenza, invece di considerare un’intera canzone in una ricerca, Shazam considera solo i “picchi”, che è il più alto contenuto di energia in una clip audio. . Le impronte digitali catturate prendono solo i punti di frequenza più alta in un dato periodo di tempo e quindi i punti di ampiezza di picco in quelle frequenze.

In un documento di ricerca per Università della ColumbiaWang ha detto che il metodo consente loro di rimuovere la maggior parte delle parti non necessarie da una clip audio come il rumore di fondo ed eliminare la distorsione. Rende anche la dimensione delle impressioni abbastanza piccola da richiedere solo pochi millisecondi per identificare una canzone dal loro ampio database.

L’impatto di Shazam

Oltre ad essere utili per gli ascoltatori medi che ascoltano una canzone che amano, le app di identificazione musicale aiutano anche a plasmare il mondo della musica.

Le stazioni radio e i servizi di streaming utilizzano spesso i dati su ciò che le persone stanno più cercando per determinare quali brani vengono ascoltati dal pubblico. Ciò è utile perché indica il carattere orecchiabile e la potenziale popolarità di una canzone, indipendentemente dall’artista. Quando tagghi un brano con l’app, vedi immediatamente quante persone hanno provato a taggarlo.

Identificazione musicale di Soundhound

Dall’ascesa di Shazam, sono emersi anche una manciata di concorrenti. Soundhound afferma di essere in grado di identificare una canzone semplicemente cantandola o canticchiandola, con risultati contrastanti. C’è anche un ID brano integrato in app vocali come Google Assistant che funzionano in modo molto simile al sistema di Shazam.

Presto: I migliori siti per lo streaming di musica gratis

Moyens Staff
Lo staff di Moyens I/O ti ha motivato, dandoti consigli su tecnologia, sviluppo personale, stile di vita e strategie che ti aiuteranno.