skip to Main Content

Vous avez des questions ? Contactez-nous !

 02 85 52 42 36

6 rue René Viviani - Octopus - 44200 Nantes

Demande d'information

Vous souhaitez en savoir plus sur notre logiciel ?

Envoyer un email

Pour tout autre type de demande, merci de nous envoyer un email en remplissant le formulaire ci-dessous.

Nom

Téléphone

Entreprise

Email

Sujet

Votre message

Comment nous rendre visite ?

Les nuages de mots ont débarqué sur le web à la fin des années 1990 avec l’explosion des blogs et wiki, où ils servaient à naviguer dans une liste d’articles sans structure. Le nuage de mots est vite devenu un outil populaire pour synthétiser visuellement une masse d’informations écrites. Comment sont conçus les nuages de mots ? À quoi servent-ils ?

nuage de mots wordcloud

Exemple de nuages de mots issus d’un blog

Le principe de visualisation en nuage de mots est simple : les mots tirés d’un ou plusieurs textes sont affichés les uns à côté des autres de sorte que la taille de la police utilisée soit proportionnelle à leur fréquence. Aujourd’hui, de nombreux outils gratuits permettent de générer de telles visualisations sans effort.

Le recours à des nuages de mots comme outil de dataviz est largement critiqué, car ils ne respectent bien souvent pas les bonnes pratiques de visualisation, mais surtout parce que les mots affichés sont mal choisis. Ainsi, Data Skeptic appelle carrément à la mort du wordcloud, d’autres plus modérés (ici et ) expliquent les biais de l’outil pour certains usages.

Dans ce cas, pourquoi continuer à utiliser des nuages de mots pour visualiser du texte ? Certainement parce qu’en comparaison de la difficulté à appréhender un texte, les nuages de mots sont simples à utiliser… Aussi simples à utiliser qu’ils sont difficiles à produire !

Quels mots afficher dans un nuage de mots ?

Lorsque le nuage de mots est utilisé comme moyen pour visualiser le contenu d’un ou plusieurs textes, le choix des mots affichés est fondamental. En effet, du point de vue du sens tous les mots ne se valent pas.

Si vous découpez un texte en mots en segmentant naïvement sur les espaces, vous allez rapidement vous rendre compte de deux limites :

  • certaines constructions lexicales qui ne sont pas vraiment des mots vont polluer votre nuage à cause des phénomènes d’élision sur les articles et pronoms (ex : l’élégance, d’autre, d’après…) ;
  • les mots les plus fréquents ne seront pas les plus pertinents car les mots naturellement les plus présents dans un texte sont des mots outils (ex : le, il, ce…).

Regardez l’exemple ci-dessous, conçu avec l’outil gratuit Wordcloud : je ne sais pas ce que vous en pensez, mais moi je ne vois pas ce que je pourrais en tirer !

nuage de mots

Il faut donc nettoyer le “bruit” et supprimer les mots-outils. Mais si l’on supprime les mots-outils, alors quels mots afficher ?

A priori, ce sont les substantifs que l’on souhaite voir apparaître en priorité, puisqu’ils contribuent directement à l’expression du sens dans les phrases : facture, prix, livraison, colis… Si on supprime du nuage de mots tout ce qui n’est pas un substantif, le rendu est déjà plus fidèle au sens du texte, comme vous pouvez le constater ci-dessous. 

nuage de mots

Malheureusement, identifier les substantifs est plus facile à dire qu’à faire.

  • Contrairement aux mots outils, les substantifs constituent une classe ouverte : il n’est pas possible de produire une liste exhaustive des substantifs.
  • De nombreux substantifs sont également des formes verbales, des adverbes ou des adjectifs : “conseiller”, “frais”, “mort”, “ensemble”… 
  • Il faut être en mesure de détecter les mots composés : “salle de bains”, “rapport qualité prix”, “service client”….

Imaginons tout de même que vous réussissiez à sélectionner tous les substantifs d’un texte, une autre difficulté vous attend. Le français est une langue flexionnelle : la forme des mots change en fonction du nombre, du genre, du temps… On dit que les mots sont variables. C’est une difficulté supplémentaire puisque dans l’objectif de synthèse du nuage de mots, il est contradictoire d’afficher plusieurs formes d’un même mot. Dans l’exemple précédent, vous voyez à la fois le mot “produit” et le mot “produits”, ce qui fausse votre perception de l’importance de la notion de produit.

Il faut donc opérer une normalisation pour revenir à une forme standard. La forme standard utilisée par les dictionnaires est le lemme. Ainsi, “conseiller” au singulier et au masculin sera le lemme correspondant aux variantes “conseillère”, “conseillers”… En lemmatisant les mots on donc aura ainsi un nuage de mots encore plus précis.

Toutefois, vous ne serez toujours au bout de vos peines. En effet, le sens des mots ne se construit pas exclusivement à partir de leur forme lexicale, il se construit à partir du contexte dans lequel le mot est utilisé. Par conséquent, si vous n’affichez dans votre nuage que les mots sans leur contexte, vous risquez de biaiser l’interprétation qui va en être faite par votre lecteur.

Regardez à nouveau le nuage de mots précédent : que signifie le mot “frais” sorti de son contexte ? Les clients parlent-ils du rayon frais ? De frais de ports ? De frais de virement ? Et le mot impression : mentionne-t-on une bonne ou une mauvaise impression ? Une première impression ? Ou l’impression d’une facture ?

Comme vous le voyez, la production d’un bon nuage de mot est un exercice difficile qui nécessite d’optimiser deux objectifs contradictoires : maximiser l’aspect synthétique du nuage et minimiser les risques de mauvaise interprétation.

Et nous chez Dictanova, on fait comment ?

Chez Dictanova, nous avons longtemps rechigné à proposer une visualisation en nuage de mots. Nous étions extrêmement conscients de toutes les difficultés énoncées précédemment, et de tous les biais de ce type de visualisation.

Pour autant nous aimons relever les challenges, surtout quand il s’agit de répondre aux attentes de nos clients : or, nos clients nous réclamaient souvent ce fameux nuage de mots ! Nous avons donc travaillé sur notre vision de cet outil de visualisation.

En synthèse, voici les trois grandes règles que nous suivons :

  • ne faire apparaître que les mots ou groupes nominaux les plus fréquents et filtrer tous les mots outils,
  • afficher les mots sélectionnés dans leur forme fléchie la plus courante (plutôt que le lemme qui a tendance à déshumaniser le nuage),
  • intégrer le contexte immédiat (quelques mots) lorsqu’il apporte une richesse sémantique pertinente pour l’interprétation.
nuage de mots

Nuage de mots issus du logiciel Dictanova

Bien entendu, l’exécution repose sur la puissance de nos algorithmes d’analyse sémantique, sans lesquels nous ne pourrions générer automatiquement des nuages de mots de grande qualité à partir de dizaines de milliers de verbatims.

Par ailleurs, notre solution permet de générer deux types de nuages de mots :

  • Le premier, le plus classique : la taille d’un mot dans le nuage dépend du nombre de verbatims qui contiennent ce mot (sur une période donnée, par exemple). Ainsi seuls les mots et expressions les plus fréquents seront utilisés. Il s’agit d’une photographie de la Voix du Client à un instant T, mais cela a inconvénient : on constatera généralement peu de différences d’une période à l’autre.
  • Le deuxième, qui (selon nous) est nettement plus intéressant : la taille du mot dépend de sa fréquence d’apparition sur une période donnée, par rapport à une autre période. L’objectif est de faire apparaître en priorité les mots et expressions beaucoup qui sont présents dans les verbatims d’une période P et qui n’étaient pas ou peu présents dans les verbatims de la période précédente. Ainsi, sans surprise, le nuage de mots du mois de décembre fera apparaître les sujets liés aux courses de Noël ! Mais cela permettra également de mettre en lumière un nouveau problème ou un besoin émergent.

Quel usage pour le nuage de mots ?

Maintenant que nous savons quoi afficher dans les nuages de mots, on peut tout de même se poser la question : à quoi ça sert, lorsque l’on veut analyser et synthétiser des verbatims clients ?

Voici les 2 principaux cas d’utilisation du nuage de mots pour un professionnel de l’écoute client :

  • Navigation et recherche : le nuage de mots peut être un outil intéressant pour naviguer dans vos verbatims clients et détecter des signaux faibles. Affichez le nuage de mots correspondant à une recherche précise (exemple : les verbatims collectés le mois dernier, émis par des clients de la région Ouest dont la note de satisfaction est inférieure à 7/10). Vous pouvez ensuite cliquer sur les mots qui vous intéressent pour lire les verbatims correspondant.
  • Illustration de rapports, animation de réunion, partage en interne : l’avantage du nuage de mots, c’est qu’il donne une photographie immédiate et très visuelle de vos feedbacks clients. Il est donc un outil de communication efficace à destination des opérationnels et de la direction, que ce soit pour mettre en avant des sources de satisfaction client ou pour mettre le doigt sur un dysfonctionnement.

Fabien Poulard

CEO et fondateur de Dictanova, je suis docteur en informatique spécialisé dans le traitement automatique du langage naturel.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Back To Top