CEA, LITEN,
Laboratoire des systèmes solaires (L2S).
50 av. du Lac Léman,
73375 LE BOURGET DU LAC - CEDEX

 

Lespinats, S., Fertil, B. and Hérault, J. (2007), "Visualisation de clusters dans les espaces de grande dimension." 14èmes Rencontres de la Société Francophone de classification, SFC07, 2007 sep.

Résumé :
Quel que soit le domaine d’activité, il est courant de chercher à analyser des données de grande dimension (c’est-à-dire des données décrites par un grand nombre de paramètres). Or, s’il est aisé de visualiser des données de deux dimensions, l’exploration de données de plus grande dimension est évidemment moins immédiate. On fait alors souvent appel à des méthodes de réduction de dimension qui peuvent se baser sur des projections linéaires (comme l’analyse en composantes principales) ou non-linéaires (comme l’analyse en composantes curvilignes).
Pourtant, les espaces de grande dimension possèdent des propriétés particulières (regroupées sous le nom de « fléau de la dimension ») qu’il convient de ne pas ignorer. Parmi ces propriétés (souvent déconcertantes pour notre intuition adaptée aux espaces de deux ou trois dimensions) nous citerons en particulier la « concentration de la mesure » : la différence relative entre les « courtes » et les « grandes » distances se réduit rapidement pour tendre vers 0 lorsque la dimension de l’espace augmente. Cette propriété pose un véritable problème aux méthodes de visualisation classiques, en effet, celles-ci s’appuient en général sur les distances entre données (ou sur les produits scalaires, ce qui revient presque au même). Nous avons présenté précédemment une méthode de visualisation des données (baptisée DD-HDS pour Data-Driven High Dimensional Scaling) adaptée à ce contexte difficile. Notre méthode se distingue par une fonction pondération qui 1) est de forme sigmoïde s’adaptant à l’histogramme des distances de façon à réellement avantager la représentation des distances courtes malgré la concentration de la mesure et 2) s’appuie sur les distances d’origine ET sur les distances dans la représentation, ce qui permet de pénaliser à la fois les « faux voisinages » ET les « déchirements ». Bien que cette méthode ait montré une efficacité réelle pour la représentation de données de grande dimension, nous avons pu mettre en évidence des jeux de données pour lesquels des clusters manifestes étaient mal séparés dans la représentation.


Télécharger l'article                                                Télécharger la présentation