AUCOUTURIER Jean-Julien
Supervision : Jean-Pierre BRIOT
Co-supervision : PACHET François
Dix Expériences sur la Modélisation du timbre polyphonique
La grande majorité des systèmes d’extraction de metadonnées haut-niveau à partir de signaux musicaux repose sur un modèle implicite de leur “son” ou timbre polyphonique. Ce modèle représente le timbre comme la distribution statistique globale d’attributs spectraux instantanés, calculés sur des trames de quelques dizaines de millisecondes. L’hypothèse sous-jacente, rarement explicitée, est que le timbre perçu d’une texture polyphonique correspond à ses attributs instantanés les plus représentés statistiquement. Cette thèse remet en cause la validité de cette hypothèse. Pour ce faire, nous construisons une mesure explicite de la similitude timbrale entre deux textures polyphoniques, déclinée sous un grand nombre de variantes typiques du domaine. Nous montrons que la précision de telles mesures est limitée et que leur taux d’erreur résiduel n’est pas accidentel. Notamment, cette classe de mesures tend à créer de faux-positifs qui sont toujours les mêmes chansons, indépendamment de la requête de départ: des hubs. Leur étude établit que l’importance perceptuelle des attributs instantanés ne dépend pas de leur saillance statistique par rapport à leur distribution à long-terme. En d’autres termes, nous “entendons” quotidiennement dans la musique polyphonique des choses qui ne sont pourtant pas présentes de façon significative (statistiquement) dans le signal sonore, mais qui sont plutôt le résultat de raisonnement cognitifs évolués, dépendant par exemple du contexte d’écoute et de la culture de l’auditeur. La musique que nous entendons être du piano est surtout de la musique que nous nous attendons à être du piano. Ces paradoxes statistico-perceptifs expliquent en grande partie le désaccord entre les modèles étudiés ici et la perception humaine.
Defence : 06/06/2006
Jury members :
Samy Bengio, IDIAP (rapporteur)
Jean-Pierre Briot, CNRS (co-directeur)
Patrick Gallinari, Paris 6 (examinateur)
François Pachet, SONY CSL (co-directeur)
Xavier Rodet, IRCAM (rapporteur)
David Wessel, University of California, Berkeley (examinateur)
2006 Publications
-
2006
- J.‑J. Aucouturier : “Dix ExpĂ©riences sur la ModĂ©lisation du timbre polyphonique”, thesis, phd defence 06/06/2006, supervision Briot, Jean-Pierre, co-supervision : Pachet, François (2006)