Créer des visualisations de données convaincantes
Par : Alden Chen, Statistique Canada
Introduction
La visualisation des données est un élément clé de nombreux projets de science des données. Pour certains intervenants, notamment les spécialistes du domaine et les cadres qui ne sont pas nécessairement des experts techniques, il s'agit de la principale voie par laquelle ils voient, comprennent et interagissent avec les projets de données. Par conséquent, il est important que les visualisations communiquent des renseignements aussi clairement que possible. Trop souvent, les visualisations sont entravées par certains défauts courants qui les rendent difficiles à interpréter ou, pire encore, sont trompeuses. Cet article passe en revue trois pièges courants de la visualisation que les communicateurs de données et les consommateurs de données devraient comprendre, ainsi que quelques suggestions pratiques pour les contourner.
Distorsion et perception
La qualité la plus importante d'une visualisation efficace est qu'elle représente fidèlement les données sous-jacentes. Il y a distorsion lorsque les données présentées ne peuvent être perçues avec précision. Le degré de distorsion de la visualisation est directement lié à la facilité de perception de l'information présentée. Lors de la conception de visualisations, il est important de se souvenir que des encodages visuels différents sont perçus différemment, ce qui peut mener à des résultats déformés et mal interprétés.
En 1957, le psychologue Stanley Smith Stevens, dans son ouvrage intitulé On the psychophysical law (le contenu de cette page est en anglais) a démontré l'existence d'une relation empirique, généralement non linéaire, entre l'ampleur physique et l'ampleur perçue d'un certain stimulus. Il a dégagé une relation de la formule , où représente l'intensité physique du stimulus et représente la sensation perçue (Stevens, 1957). La variable la plus importante ici est , l'exposant qui relie la perception du stimulus à la magnitude physique réelle du stimulus ( est une constante de proportionnalité pour adapter les unités). Notre perception varie en fonction de la manière dont les données sont encodées. Lors de l'expérience d'un codage avec inférieur à un, l'ampleur du stimulus a tendance à être sous-estimée. Lors de l'expérience d'un codage avec supérieur à un, l'ampleur du stimulus a tendance à être surestimée.
Aujourd'hui, cette relation connue sous le nom de la loi de puissance de Stevens est l'un des résultats les plus connus de la psychophysique et il est important de la comprendre pour la visualisation des données. La figure 1 illustre certains des encodages visuels testés par Stevens, ainsi que l'activité électrique à titre de référence. Certains codages, comme la saturation des couleurs, mènent à une surestimation de l'effet, tandis que d'autres codages, comme la zone, mènent à une sous-estimation de l'effet réel. Lorsque l'on utilise ces codages pour représenter des données, l'incapacité à percevoir les véritables données ou effets mènent à une distorsion. Il faut noter que si la capacité à percevoir la plupart des codages est non linéaire, la capacité à percevoir la longueur est linéaire.
Prenons l'exemple suivant, qui code les mêmes données en utilisant la zone et la longueur. Il est beaucoup plus difficile de discerner à quel point 96 est supérieur à 32 en regardant les cercles de la figure 2 qu'en regardant le diagramme à barres de la figure 3. De plus, il est presque indiscernable que l'aire du cercle 100 est plus grande que l'aire du cercle 96, alors qu'il est clair que 100 est plus grand que 96 quand on regarde la longueur des barres. La différence entre 100 et 96 est déformée lors de l'encodage de l'information en utilisant la zone.
Les deux graphiques codent les mêmes données. Le premier graphique utilise la surface de chaque cercle pour coder les données, tandis que le second graphique utilise la longueur de chaque barre. Deux des cercles ont une surface presque indiscernable, alors qu'il est clair que les deux barres correspondantes sont de longueur différente.
Les visualisations de données utilisent souvent des encodages qui déforment les données, comme les cartes thermiques (saturation des couleurs, ) et les diagrammes circulaires (surface, ). Il est important de reconnaître les distorsions et d'examiner les chiffres réels qui sous-tendent la visualisation avant de porter des jugements hâtifs. Lorsque vous réalisez des visualisations et choisissez des encodages visuels, il est utile de comprendre la théorie de la perception visuelle. Ce sont souvent les visuels les plus simples qui sont les plus efficaces. Prenons le classement des encodages visuels du tableau 1 comme point de départ (Mackinlay, 1986). Mackinlay a formulé des recommandations sur l'encodage des différents types de données : données quantitatives, ordinales et nominales. L'efficacité des codages dépend du type de données. Par exemple, la couleur n'est pas un codage efficace pour les données quantitatives; en revanche, elle est très efficace pour les données nominales. Il est bon de coder les renseignements les plus importants en utilisant le codage le plus efficace et le moins déformé.
Tableau 1 : Le classement d'encodages visuels de Mackinlay pour différents types de données, classés du plus efficace au moins efficace.
Données quantitatives | Données ordinales | Données nominales |
---|---|---|
Position | Position | Position |
Longueur | Densité | Nuance des couleurs |
Angle | Saturation des couleurs | Texture |
Pente | Nuance des couleurs | Connexion |
Zone | Texture | Contour |
Volume | Connexion | Densité |
Densité | Contour | Saturation des couleurs |
Saturation des couleurs | Longueur | Forme |
Nuance des couleurs | Angle | Longueur |
Texture | Pente | Angle |
Connexion | Zone | Pente |
Contour | Volume | Zone |
Forme | Forme | Volume |
Occlusion et surreprésentation
L'occlusion dans la visualisation des données se produit lorsque deux points de données se chevauchent, partiellement ou entièrement. Par exemple, deux points peuvent être directement superposés, ce qui ne permet pas au lecteur de savoir qu'il y a en fait plusieurs points de données. Par conséquent, il devient difficile de voir toute l'étendue des données présentées, et l'effet des points occultés ne peut être vu.
La surreprésentation, c'est-à-dire l'affichage de trop de données, est une cause fréquente d'occlusion. Cela peut se produire dans le but d'afficher le plus de données possible afin de donner au public une image entière. Prenons les figures 4 à 7, qui illustrent l'occlusion causée par la surreprésentation et présentent quelques solutions potentielles. Chacun de ces graphiques affiche le même ensemble de 10 000 points. Dans la figure 4, la répartition des points ne peut pas vraiment être vue à cause de l'occlusion. Il y a tellement de points qui se chevauchent que tout ce que l'on peut voir est une grande masse de points couvrant presque tout le quadrant inférieur gauche du graphique. Les graphiques suivants montrent quelques options possibles pour aider à réduire l'occlusion.
Les points de la figure 5 sont légèrement plus petits et plus transparents. En modifiant la transparence (souvent représentée par ) le public peut mieux voir la répartition et les points occultés, bien que de nombreux points soient encore occultés près de l'origine.
Dans la figure 6, aucun point n'est représenté. Il y a plutôt un tracé de contours montrant la distribution des points, où les points sont fortement concentrés autour d'une petite région près de l'origine. Souvent, lorsqu'on traite de grands ensembles de données, tels que ceux générés par les simulations, les points spécifiques ne sont pas particulièrement intéressants; c'est plutôt le modèle général qui est important, et qui est saisi clairement par le tracé de contours.
La figure 7 montre un histogramme tridimensionnel. Les créateurs de visualisations qui souhaitent afficher un grand nombre de données peuvent être tentés d'ajouter un axe supplémentaire à une visualisation 3D, mais les graphiques en 3D rendent rarement la visualisation plus claire, car ils provoquent eux-mêmes une occlusion. Dans la figure 7, la nature tridimensionnelle du tracé signifie que les barres les plus hautes occultent les barres les plus courtes et que les barres à l'avant occultent les barres à l'arrière. Ainsi, si l'utilisation de la 3D peut réduire la surreprésentation, elle ne résout pas le problème de l'occlusion, et le public ne peut toujours pas voir l'ensemble des données. Les graphiques en 3D donnent presque toujours lieu à des occlusions, et la gestion des occlusions dans la visualisation 3D est un domaine de recherche assez actif en infographie. (Voir Trapp et coll., 2019; Wang et coll., 2019.)
En résumé, s'il est généralement judicieux de montrer aux lecteurs les données réelles, la représentation graphique excessive est contre-productive. L'occlusion causée par la surreprésentation peut parfois cacher la tendance principale des données. L'adaptation de certains éléments visuels, tels que la taille et la transparence des points, peut aider, mais il est également important de se demander si le tracé de tous les points de données individuels est nécessaire pour l'analyse présentée.
Redondance et encombrement
Pour mieux délimiter les différences dans les données, vous pouvez choisir de coder certaines valeurs de manière redondante en utilisant plusieurs caractéristiques; cette pratique est appelée codage redondant. Par exemple, vous pouvez choisir de distinguer deux classes en utilisant à la fois la couleur et la forme, par exemple des triangles orange et des carrés bleus, dans un nuage de points. Les codages redondants sont largement utilisés et sont censés améliorer la clarté des visualisations. En fait, plusieurs logiciels utilisent des encodages redondants par défaut pour certains visuels; le soutien empirique de cette pratique est cependant mitigé (Nothelfer et coll., 2017; Chun, 2017).
Il est important de se souvenir que les codages redondants ont un défaut, c'est-à-dire qu'ils sont encombrants et ne sont pas toujours utiles. Prenons les figures 8 et 9. La figure 8 présente un diagramme à barres avec la même information (32, 96, 100) codée de quatre manières différentes. Les termes le long de l'axe du x (faible, moyen, élevé) codent déjà les données, bien que de manière grossière. Il y a ensuite la longueur des barres elles-mêmes, qui sont également accompagnées de chiffres indiquant explicitement la valeur. Enfin, il existe une échelle de couleurs discrète où la couleur des barres représente également la valeur. Il existe quatre indices visuels distincts qui codent tous la même information. Ce graphique à barres représente un environnement sans pollution visuelle; c'est un graphique simple avec seulement trois barres. Dans les environnements à faible niveau de distraction visuelle, la redondance se résume généralement à un encombrement. Comparons la figure 9, qui est sans codage de couleurs. On pourrait dire que la visualisation est rendue plus efficace par la suppression d'un codage inutile qui aurait pu distraire les lecteurs des données réelles.
Comparons maintenant les figures 8 et 9 avec des environnements plus distrayants, comme le montrent les figures 10 à 12, qui présentent des données avec trois catégories qui ne sont pas clairement séparées. Dans des cas comme celui-ci, il existe des preuves empiriques que les encodages redondants aident à mieux segmenter les données, c'est-à-dire à distinguer les classes (Nothelfer et coll., 2017). Dans la figure 10, la catégorie est codée uniquement par la forme, dans la figure 11, la catégorie est codée uniquement par la couleur et dans la figure 12, la catégorie est codée de manière redondante en utilisant à la fois la forme et la couleur. Si l'on prend en considération uniquement la forme (figure 10), il est plus difficile de segmenter les catégories. Dans les figures 11 et 12, il est plus facile de dire qu'une catégorie a une variance plus faible que les autres catégories, qu'elle est étroitement groupée près de l'origine, et que la troisième catégorie est plus étalée. Dans un affichage distrayant comme celui-ci, le fait d'utiliser la redondance plutôt que l'encombrement, comme dans l'exemple précédent, peut en fait aider à réduire les distractions pour mieux délimiter les catégories. Cependant, les différentes catégories sont déjà assez clairement segmentées par la couleur. Cela tient probablement au fait que la couleur est un encodage plus efficace que la forme pour distinguer les groupes. L'encodage redondant peut ne pas apporter grand-chose dans ce cas, ce qui en fait un choix plus esthétique.
Il est important de tenir compte de la différence entre redondance et encombrement lors de la conception de visualisations. Dans le cas de visuels simples, il est peu probable que des codages redondants rendent le visuel plus clair, ils ne font que l'encombrer. Dans un affichage plus distrayant, certaines preuves empiriques laissent entendre que des encodages redondants peuvent aider; cependant, le choix d'un seul encodage très efficace peut également donner de bons résultats. La redondance dans un affichage distrayant ne fait probablement pas de mal et devient davantage un choix de style.
Conclusion
De bons visuels sont essentiels pour raconter l'histoire des données aussi efficacement que possible, et une visualisation efficace peut rendre les données plus faciles à comprendre pour un public plus large. Pour qu'une visualisation soit efficace, elle doit représenter fidèlement les données sous-jacentes. La visualisation des données pose fréquemment certains problèmes qui peuvent mener à des erreurs d'interprétation. Une certaine compréhension de la théorie de la perception visuelle peut aider les scientifiques des données à mieux concevoir et interpréter les visualisations de données afin de réduire la distorsion. L'affichage d'un trop grand nombre de données peut également être trompeur, car il peut entraîner une occlusion. Il faut envisager des modifications simples, comme la taille et la transparence, pour aider à réduire l'occlusion et se demander si le tracé de toutes les données est nécessaire aux fins de la visualisation. Enfin, il faut choisir la netteté plutôt que la redondance lorsque c'est possible. Les codages redondants n'apportent souvent pas beaucoup de valeur ajoutée et l'encombrement qu'ils créent peut nuire à l'histoire.
References
Chun, R. (2017). Redundant Encoding in Data Visualizations: Assessing Perceptual Accuracy and Speed. Visual Communication Quarterly (le contenu de cette page est en anglais), 24(3), 135-148.
Mackinlay, J. (1986). Automating the design of graphical presentation of relational information. ACM Transactionson Graphics (le contenu de cette page est en anglais), 5(2), 110-141.
Nothelfer, C., Gleicher, M.,& Franconeri, S. (2017). Redundant encoding strengthens segmentation and grouping in visual displays of data (le contenu de cette page est en anglais). Journal of Experimental Psychology: Human Perception and Performance, 43(9), 1667–1676.
Stevens, S. S. (1957). On the psychophysical law (le contenu de cette page est en anglais). Psychological Review, 64(3), 153–181.
Trapp, M., Dumke,F., & Döllner, J. (2019). Occlusion Management Techniques for the Visualization of Transportation Networks in Virtual 3D City Models (le contenu de cette page est en anglais). Proceedings of the 12th International Symposium on Visual Information Communication and Interaction
Wang, L., Zhao, H., Wang, Z., Wu, J.,Li, B., He, Z., & Popescu, V. (2019). Occlusion Management in VR: A Comparative Study (le contenu de cette page est en anglais). 2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), 708-706.
- Date de modification :