Nvidia dévoile son modèle d’IA générative Fugatto, capable de synthétiser des sons qui n’ont jamais existé.
La récente annonce de Nvidia concernant son nouveau générateur audio IA, « Fugatto », a suscité un grand intérêt. Ce modèle est capable de synthétiser de la musique, de la parole ou des sons à partir d’une simple description textuelle. Ce qui distingue Fugatto des autres modèles audio IA génératifs, c’est sa capacité à transformer n’importe quel mélange audio, y compris la création de sons qui n’ont jamais été entendus auparavant.
Un « couteau suisse du son » révolutionnaire
Fugatto peut assembler des morceaux musicaux sur la base de descriptions novatrices, telles que la création d’une trompette qui miaule ou d’un saxophone qui aboie. Peu importe ce qu’un utilisateur peut décrire, le modèle peut le créer, selon Nvidia. D’autres exemples fournis par l’entreprise incluent la capacité à produire des effets sonores uniques à partir d’une description : « Des pulsations de basse profonde et grondante associées à des gazouillements numériques intermittents et aigus, rappelant le son d’une machine géante et consciente qui se réveille ».
Le modèle est également capable d’éditer de la musique, comme isoler les voix dans une chanson, changer les instruments ou modifier la mélodie. Fugatto peut même transformer le son de la voix de quelqu’un, en changeant son accent ou en lui donnant un ton calme ou en colère.
Une approche humaine de la génération sonore
“Nous voulions créer un modèle qui comprend et génère du son comme le font les humains,” a déclaré Rafael Valle, chef de projet en recherche audio appliquée chez Nvidia et l’un des chercheurs derrière Fugatto, qui est également chef d’orchestre et compositeur. « Fugatto est notre premier pas vers un avenir où l’apprentissage multitâche non supervisé dans la synthèse et la transformation audio émerge des données et de l’échelle du modèle ».
Le développement d’un modèle aussi robuste a été l’un des défis les plus difficiles, selon l’entreprise, en raison de la création d’un ensemble de données combinées contenant des millions d’échantillons audio utilisés pour l’entraînement. “L’équipe a mis en place une stratégie multifacette pour générer des données et des instructions qui ont considérablement élargi la gamme de tâches que le modèle pouvait accomplir, tout en améliorant sa performance et en permettant de nouvelles tâches sans nécessiter de données supplémentaires,” explique Nvidia.
Actuellement non disponible au public, la société n’a pas révélé de calendrier pour sa disponibilité future, ni si elle sera un jour largement accessible. Un site web rempli d’échantillons illustre ses utilisations, offrant un aperçu de ce que l’avenir nous réserve avec une IA générative éthique.