LAMPLE Guillaume
Direction de recherche : Ludovic DENOYER
Traduction Automatique Non-Supervisée
Les dernières avancées en traduction automatique ont obtenu des résultats très prometteurs : les modèles basés sur l'apprentissage profond génèrent désormais des traductions proches d'une qualité professionnelle. Cependant, ces modèles nécessitent une quantité très importante de données bilingues, disponibles en pratique dans seulement peu de paires de langues (telles que Anglais-Français). Pour la majorité des langues, les ressources bilingues sont rares et les modèles traditionnels ne fournissent pas de traductions de qualité satisfaisante. Les données monolingues, en revanche, existent en quantitée abondante. Plusieurs études ont montré que les données monolingues peuvent améliorer la performance des modèles supervisés traditionnels, mais ces méthodes se basent toujours sur l'existence de corpus bilingues très larges.
Dans cette thèse, on s'intéresse au problème de la traduction non-supervisée, où l'on tentera de créer un système de traduction automatique entre deux langues, en se basant exclusivement sur l'existence de corpus monolingues.
On montrera que la traduction totalement non-supervisée est non seulement possible, mais qu'elle peut également avoir un impact significatif, surpassant la qualité de traduction des modèles supervisés dans certaines paires de langues avec peu de ressources bilingues, telles que Anglais-Urdu ou Anglais-Népalais.
Soutenance : 17/10/2019
Membres du jury :
Fraçois Yvon (LIMSI-CNRS)
Kevin Knight (Department of Computer Science of the University of Southern California)
Nico Sennrich (University of Edinburgh)
Alexander Rush (Harvard School of Engineering and Applied Sciences)
Patrick Gallinari (Sorbonne University)
Mikaela Keller (Centre de Recherche en Informatique, Signal et Automatique de Lille)
Marc'Aurelio Ranzato (Facebook AI Research)
Ludovic Denoyer (Sorbonne University)
Publications 2017-2019
-
2019
- G. Lample : “Unsupervised Machine Translation”, soutenance de thèse, soutenance 17/10/2019, direction de recherche Denoyer, Ludovic (2019)
-
2018
- A. Conneau, G. Kruszewski, G. Lample, L. Barrault, M. Baroni : “What you can cram into a single \$&!#* vector: Probing sentence embeddings for linguistic properties”, ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, vol. 1, Melbourne, Australia, pp. 2126–2136, (Association for Computational Linguistics) (2018)
-
2017
- G. Lample, N. Zeghidour, N. Usunier, A. Bordes, L. Denoyer, M. Ranzato : “Fader Networks: Generating Image Variations by Sliding Attribute Values”, 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, United States, pp. 5969-5978 (2017)