L'objectif de cette proposition de thèse est de définir et de développer de nouvelles solutions pour la découverte de données tabulaires structurées en apprenant des représentations de tableaux à l'aide de grands modèles de langage (Large Language Models, LLM) et de réseaux neuronaux pour les graphes (Graph Neural Networks, GNN). L'approche proposée suggère que les capacités d'apprentissage par transfert sous-jacentes et la capacité à traiter des données basées sur des graphes fournissent un cadre robuste pour les défis de l'intégration de données moderne, permettant une analyse plus profonde et des modèles précis pour découvrir et intégrer des ensembles de données hétérogènes dans un lac de données. L'approche scientifique nécessite une expérience théorique et pratique en traitement de données structurées et en apprentissage profond.