FUGUET TORTOLERO Cesar
Direction de recherche : Alain GREINER
Introduction de mécanismes de tolérance aux pannes franches dans les architectures de processeur many-core à mémoire partagée cohérente
L'augmentation continue de la puissance de calcul requise par les applications telles que la cryptographie, la simulation, ou le traitement du signal a fait évoluer la structure interne des processeurs vers des architectures massivement parallèles (dites « many-core »). Ces architectures peuvent contenir des centaines, voire des milliers de cœurs afin de fournir une puissance de calcul importante avec une consommation énergétique raisonnable.
Néanmoins, l'importante densité de transistors fait que ces architectures sont très susceptibles aux pannes matérielles. L'augmentation dans la variabilité du processus de fabrication, et dans les facteurs de stress des transistors, dégrade à la fois le rendement de fabrication, et leur durée de vie.
Nous proposons donc un mécanisme complet de tolérance aux pannes franches, permettant les architectures « many-core » à mémoire partagée cohérente de fonctionner dans un mode dégradé. Ce mécanisme s'appuie sur un logiciel embarqué et distribué dans des mémoires sur puce (« firmware »), qui est exécuté par les cœurs à chaque démarrage du processeur. Ce logiciel implémente plusieurs algorithmes distribués permettant de localiser les composants défaillants (cœurs, bancs mémoires, et routeurs des réseaux sur puce), de reconfigurer l'architecture matérielle, et de fournir une cartographie de l'infrastructure matérielle fonctionnelle au système d'exploitation. Le mécanisme supporte aussi bien des défauts de fabrication, que des pannes de vieillissement après que la puce est en service dans l'équipement.
Notre proposition est évaluée en utilisant un prototype virtuel précis au cycle d’une architecture « many-core » existante.
Soutenance : 25/11/2015
Membres du jury :
M. Philippe Coussy, Lab-STICC, Univ Bretagne-Sud [Rapporteur]
M. Gilles Sassatelli, LIRMM, Univ Montpellier 2 [Rapporteur]
M. Fabien Clermidy, CEA
Mme. Agnès Fritsch, Thales Communications & Security
M. Lionel Lacassagne, LIP6, Univ Paris 6
M. Alain Greiner, LIP6, Univ Paris 6
Publications 2014-2021
-
2021
- P. VIVET, E. Guthmuller, Y. Thonnart, G. Pillonnet, C. Fuguet, I. Miro‑Panades, G. Moritz, J. Durupt, Ch. Bernard, D. Varreau, J. Pontes, S. Thuries, D. Coriat, M. Harrand, D. Dutoit, D. Lattard, L. Arnaud, J. Charbonnier, P. Coudrain, A. Garnier, F. Berger, A. Gueugnot, A. Greiner, Q. Meunier, A. Farcy, A. Arriordaz, S. Chéramy, F. Clermidy : “IntAct: A 96-Core Processor With Six Chiplets 3D-Stacked on an Active Interposer With Distributed Interconnects and Integrated Power Management”, IEEE Journal of Solid-State Circuits, vol. 56 (1), pp. 79-97, (Institute of Electrical and Electronics Engineers) (2021)
-
2020
- P. VIVET, E. Guthmuller, Y. Thonnart, G. Pillonnet, G. Moritz, I. Miro‑Panades, C. Fuguet, J. Durupt, Ch. Bernard, D. Varreau, J. Pontes, S. Thuries, D. Coriat, M. Harrand, D. Dutoit, D. Lattard, L. Arnaud, J. Charbonnier, P. Coudrain, A. Garnier, F. Berger, A. Gueugnot, A. Greiner, Quentin L. Meunier, A. Farcy, A. Arriordaz, S. Chéramy, F. Clermidy : “A 220GOPS 96-Core Processor with 6 Chiplets 3D-Stacked on an Active Interposer Offering 0.6ns/mm Latency, 3Tb/s/mm 2 Inter-Chiplet Interconnects and 156mW/mm 2 @ 82%-Peak-Efficiency DC-DC Converters”, 2020 IEEE International Solid- State Circuits Conference - (ISSCC), San Francisco, United States, pp. 46-48, (IEEE) (2020)
-
2015
- C. Fuguet Tortolero : “Introduction of fault-tolerance mechanisms for permanent failures in coherent shared-memory many-core architectures”, soutenance de thèse, soutenance 25/11/2015, direction de recherche Greiner, Alain (2015)
-
2014
- C. Fuguet, A. Greiner : “Fault-Tolerance Mechanisms for Permanent Failures in a Coherent Shared-Memory Many-Core Architecture”, Colloque GDR SoC-SiP, Paris, France (2014)