DOUWES Constance

PhD student at Sorbonne University
Team : SMA

Supervision : Jean-Pierre BRIOT

Co-supervision : ESLING Philippe

On the environmental impact of deep generative models for audio

Cette thèse étudie l’impact environnemental des modèles d’apprentissage profond pour la génération audio et vise à mettre le coût de calcul au cœur du processus d’évaluation. En particulier, nous nous concentrons sur différents types de modèles d’apprentissage profond spécialisés dans la synthèse audio de formes d’onde brutes. Ces modèles sont désormais un élément clé des systèmes audio modernes, et leur utilisation a considérablement augmenté ces dernières années. Leur flexibilité et leurs capacités de généralisation en font des outils puissants dans de nombreux contextes, de la synthèse de texte à la parole à la génération audio inconditionnelle. Cependant, ces avantages se font au prix de sessions d’entraînement coûteuses sur de grandes quantités de données, exploitées sur du matériel dédié à forte consommation d’énergie, ce qui entraîne d’importantes émissions de gaz à effet de serre. Les mesures que nous utilisons en tant que communauté scientifique pour évaluer nos travaux sont au cœur de ce problème. Actuellement, les chercheurs en apprentissage profond évaluent leurs travaux principalement sur la base des améliorations de la précision, de la log-vraisemblance, de la reconstruction ou des scores d’opinion, qui occultent tous le coût de calcul des modèles génératifs. Par conséquent, nous proposons d’utiliser une nouvelle méthodologie basée sur l’optimalité de Pareto pour aider la communauté à mieux évaluer leurs travaux tout en ramenant l’empreinte énergétique – et in fine les émissions de carbone – au même niveau d’intérêt que la qualité du son.
Dans la première partie de cette thèse, nous présentons un rapport complet sur l’utilisation de diverses mesures d’évaluation des modèles génératifs profonds pour les tâches de synthèse audio. Bien que l’efficacité de calcul soit de plus en plus abordée, les mesures de qualité sont les plus couramment utilisées pour évaluer les modèles génératifs profonds, alors que la consommation d’énergie n’est presque jamais mentionnée. Nous abordons donc cette question en estimant le coût en carbone de la formation des modèles génératifs et en le comparant à d’autres coûts en carbone notables pour démontrer qu’il est loin d’être insignifiant.
Dans la deuxième partie de cette thèse, nous proposons une évaluation à grande échelle des vocodeurs neuronaux pervasifs, qui sont une classe de modèles génératifs utilisés pour la génération de la parole, conditionnée par le mel-spectrogramme. Nous introduisons une analyse multiobjective basée sur l’optimalité de Pareto à la fois de la qualité de l’évaluation humaine et de la consommation d’énergie. Dans ce cadre, nous montrons que des modèles plus légers peuvent être plus performants que des modèles plus coûteux. En proposant de s’appuyer sur une nouvelle définition de l’efficacité, nous entendons fournir aux praticiens une base de décision pour choisir le meilleur modèle en fonction de leurs exigences.
Dans la dernière partie de la thèse, nous proposons une méthode pour réduire les coûts associés à l’inférence des modèles génératifs profonds, basée sur la quantification des réseaux de neurones. Nous montrons un gain notable sur la taille des modèles et donnons des pistes pour l’utilisation future de ces modèles dans des systèmes embarqués.
En somme, nous fournissons des clés pour mieux comprendre l’impact des modèles génératifs profonds pour la synthèse audio ainsi qu’un nouveau cadre pour développer des modèles tout en tenant compte de leur impact environnemental. Nous espérons que ce travail permettra de sensibiliser les chercheurs à la nécessité d’étudier des modèles efficaces sur le plan énergétique tout en garantissant une qualité audio élevée.

Defence : 03/10/2023

Jury members :

Nick Bryan-Kinns, Professeur, Queen Mary University of London [Rapporteur]
Sébastien Loustau, Chargé de recherche (HdR), INRIA-Université de Pau et des Pays de l’Adour [Rapporteur]
Emma Strubell, Professeure, Carnegie Mellon University
Peter Bryzgalov, Chercheur, STAIR Lab, Chiba Institute of Technology
Evripidis Bampis, Professeur, LIP6, Sorbonne Université-CNRS
Geoffroy Peeters, Professeur, LTCI, Télécom-Paris
Philippe Esling, Maître de conférences (HdR), STMS, Sorbonne Université-IRCAM
Jean-Pierre Briot, Directeur de recherche, LIP6, Sorbonne Université-CNRS

Departure date : 03/15/2023