skip to Main Content

On nous pose souvent cette question : “Mais votre outil, comment ça marche ?”. Entre analyse sémantique, analyse lexicale, fouille d’opinion… pour la plupart d’entre nous, ces notions sont floues et se mélangent. Nous avons donc décidé de rédiger cet article afin de tenter d’éclairer votre lanterne.

L’analyse sémantique : une courte définition

La sémantique est l’étude du sens des mots, dans une phrase et dans le contexte de cette phrase. L’analyse sémantique d’un texte consiste à établir sa signification en utilisant le sens des éléments du texte ; a contrario, les analyses lexicales ou grammaticales ne font que décomposer le message à l’aide d’un lexique (dictionnaire) ou d’une grammaire. On parle ainsi beaucoup d’analyse sémantique des discours politiques comme dans cet exemple, ou d’analyse sémantique des textes religieux.

Par extension, lorsqu’aujourd’hui on parle d’analyse sémantique, on fait référence le plus souvent aux applications du Traitement Automatique des Langues (TAL), c’est à dire aux diverses méthodes informatiques dédiés au traitement du langage humain. Les applications du TAL sont larges (traduction, correction orthographique, reconnaissance de l’écriture manuscrite…).

Comme l’expliquait Fabien Poulard, fondateur de Dictanova en 2013 dans cette vidéo, le traitement automatique des langues s’appuie sur plusieurs approches :

  • l’approche linguistique, où l’on établit à priori des règles en étudiant le langage ;
  • l’approche statistique, qui s’appuie sur l’analyse de corpus importants, à partir desquels la machine va extraire automatiquement des règles grâce à l’apprentissage automatique (machine learning);
  • les approches hybrides entre linguistique et statistique qui permettent en général d’obtenir de meilleurs résultats.

Mais l’analyse sémantique passe obligatoirement par deux étapes :

  • L’analyse lexicale ou morphologique, qui permet de découper un texte en lexèmes (mots et expressions) ;
  • L’analyse syntaxique, qui s’appuie sur les règles grammaticales pour définir quelles fonction ont les mots à l’intérieur d’un texte, et les relations entre eux (ex: relation entre sujet et objet).

A partir de là on va pouvoir ajouter une couche de “fouille d’opinions” (ou analyse de sentiments) qui permet de détecter les éléments subjectifs au sein d’une phrase (prise de position, émotion, sentiment).

Le moteur d’analyse sémantique de Dictanova

Un peu d’histoire

Notre logiciel s’appuie sur un moteur d’analyse sémantique propriétaire développé, à l’origine, au sein du LINA (UMR CNRS de Nantes) dans le cadre du premier projet de recherche en France dédié à l’analyse d’opinions. Les docteurs à l’origine de ce moteur ont fondé la société Dictanova en 2011 pour en continuer le développement. Depuis, l’équipe R&D de Dictanova l’améliore en permanence en suivant à la fois les avancées de la recherche académique mais également au contact des besoins de nos clients-utilisateurs. Nous accueillons des doctorants au sein de notre équipe et continuons de publier nos travaux de recherche.

Une approche originale

Nous avons fait le choix de techniques hybrides entre les approches linguistiques, qui donnent des résultats extrêmement précis mais nécessitent beaucoup de travail sur mesure, et les approches par apprentissage (machine learning) qui permettent d’étendre semi-automatiquement les règles linguistiques.

La détection automatique

La détection des mots et expressions porteurs de sens et de leur polarité (qui dépend du contexte dans lequel ils apparaissent) est totalement automatisée. Le moteur détecte également l’implication du locuteur et procède à un premier niveau de lemmatisation (il s’agit de rapprocher les mots équivalents : singulier/pluriel, formes verbales, féminin/masculin, fautes d’orthographes…). Pour plus d’explications consultez cet article: Créer un nuage de mots, plus difficile qu’il n’y paraît

L’animation ci-dessous explique brièvement comment le moteur Dictanova analyse le contenu des verbatims.

analyse sémantique

Le classement en thématiques

Les verbatims sont ensuite classés automatiquement selon les thématiques qu’ils abordent. Les thématiques sont des regroupements de mots et expressions détectés lors de l’étape précédente : ainsi, “tarif” “tarification” “prix” et “coût” étant classés dans une même thématique “Les Prix”, tous les verbatims contenant ces mots seront classés dans cette même thématique.

Les thématiques sont le fruit d’un travail humain, et sont personnalisées pour chacun de nos clients. Elles sont créées en début de projet à partir d’un corpus existant (un historique de verbatims) et s’adaptent donc aux besoins d’analyse, mais également à la façon de s’exprimer des clients, et aux spécificités de chaque marque ou chaque enseigne. Elles sont totalement évolutives et s’adaptent donc aux nouvelles offres de nos clients, aux nouvelles attentes des clients, à l’évolution du langage et des besoins d’analyse. Les thématiques peuvent elles-aussi être regroupées en thématiques “principales” afin d’avoir deux niveaux de hiérarchisation des données.

thematiques

La satisfaction client, une spécialisation

Au-delà des partis-pris technologiques, le moteur d’analyse de Dictanova a une spécificité :  il a été conçu pour l’analyse des verbatims clients. Là où d’autres acteurs du marché mutualisent leurs technologies pour des tâches variées (catégorisation d’emails, analyse de sites web, d’articles de presse ou de CV…), nous avons spécialisé notre moteur pour l’analyse de verbatims, notamment dans une optique d’optimisation de la satisfaction.
Découvrir le logiciel Dictanova

Ainsi, le moteur intègre différents indicateurs de satisfaction (NPS, CSAT, CES). La note de satisfaction est associée au contenu du verbatim ce qui permet, une fois les informations consolidées, de recalculer une note par thématique et d’identifier ainsi les sujets qui impactent le plus la satisfaction client, comme dans l’exemple ci-dessous.

 

note par thematique.png

La spécialisation est un choix difficile, mais que nous considérons comme un atout. D’ailleurs, des cabinets d’études spécialisés comme Gartner ou Forrester alertent les entreprises sur les solutions génériques, qui sont plus difficiles à mettre en oeuvre. Pour en savoir plus sur les différents acteurs de l’analyse sémantique, lisez cet article : Comment choisir un logiciel d’analyse sémantique ?

Fonctionnement en mode API

Dernier point important pour comprendre comment fonctionne notre moteur : il est entièrement accessible via une API, c’est à dire indépendamment des écrans de notre application. Qu’est-ce que cela veut dire pour nos clients ?

Cela signifie qu’il est conçu pour s’intégrer au sein d’un écosystème : il est facile, via notre API, de “pousser” des verbatims dans notre plateforme, d’accéder aux résultats, et de réinjecter des données dans d’autres plateformes (CRM…)

Cela signifie aussi que notre moteur d’analyse est un produit à part entière, qui peut être utilisé par des sites web ou des éditeurs de logiciels ayant des besoins d’analyse sémantique. Plusieurs éditeurs comme Wisembly utilisent aujourd’hui notre API pour enrichir leur application avec des fonctionnalités d’analyse sémantique.

Maintenant que vous avez tout compris, n’hésitez pas à regarder la démo sur notre product tour !

Claire Michard

Je suis responsable du marketing chez Dictanova. Je partage sur ce blog les actualités de l'entreprise ainsi que le résultat de notre veille sur les sujets qui nous tiennent à coeur : expérience client, écoute client, mesure de la satisfaction.

Cet article comporte 1 commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Back To Top