Nos travaux décrits dans cette thèse portent sur l’apprentissage d’une représentation pour la classification automatique basée sur la découverte de motifs à partir de séries temporelles. L’information pertinente contenue dans une série temporelle peut être encodée temporellement sous forme de tendances, de formes ou de sous-séquences contenant habituellement des distorsions. Des approches ont été développées pour résoudre ces problèmes souvent au prix d’une importante complexité calculatoire. Parmi ces techniques nous pouvons citer les mesures de distance et les représentations de l’information contenue dans les séries temporelles.
Nous nous concentrons sur la représentation de l’information contenue dans les séries temporelles. Nous proposons un cadre (framework) pour générer une nouvelle représentation de séries temporelles basée sur la découverte automatique d’ensembles discriminants de sous-séquences. Cette représentation est adaptée à l’utilisation d’algorithmes de classification classiques basés sur des attributs. Le framework proposé transforme un ensemble de séries temporelles en un espace d’attributs (feature space) à partir de sous-séquences énumérées des séries temporelles, de mesures de distance et de fonctions d’agrégation. Un cas particulier de ce framework est la méthode notoire des « shapelets ».
L’inconvénient potentiel d’une telle approache est le nombre très important de sous-séquences à énumérer en ce qu’il induit un très grand feature space, accompagné d’une très grande complexité calculatoire. Nous montrons que la plupart des sous-séquences présentes dans un jeu de données composé de séries temporelles sont redondantes. De ce fait, un sous-échantillonnage aléatoire peut être utilisé pour générer un petit sous-ensemble de sous-séquences parmi l’ensemble exhaustif, en préservant l’information nécessaire pour la classification et tout en produisant un feature space de taille compatible avec l’utilisation d’algorithmes d’apprentissage automatique de l’état de l’art avec des temps de calculs raisonnable. On démontre également que le nombre de sous-séquences à tirer n’est pas lié avec le nombre de séries temporelles présent dans l’ensemble d’apprentissage, ce qui garantit le passage à l’échelle de notre approche.
La combinaison de cette découverte dans le contexte de notre framework nous permet de profiter de techniques avancées (telles que des méthodes de sélection d’attributs multivariées) pour découvrir une représentation de séries temporelles plus riche, en prenant par exemple en considération les relations entre sous-séquences.
Ces résultats théoriques ont été largement testés expérimentalement sur une centaine de jeux de données classiques de la littérature, composés de séries temporelles univariées et multivariées. De plus, nos recherches s’inscrivant dans le cadre d’une convention de recherche industrielle (CIFRE) avec Arcelormittal, nos travaux ont été appliqués à la détection de produits d’acier défectueux à partir des mesures effectuées par les capteurs sur des lignes de production.