Opinion Mining et Sentiment Analysis
Présentation
- Enseignants : Didier Donsez (EA2015)
- Sujet : Opinion Mining and Sentiment Analysis
- Date : 25 mars 2015
- Auteur : Benoit Perruche
- Lien vers les slides de la présentation : []
Abstract
Opinion mining is sentiment analysis from dematerialized textual sources on large amounts of data (big data). This process appears in the early 2000s and knows a growing success due to the abundance of data provided by the social network Twitter. The objective of the opinion mining is to analyze large amounts of data in order to deduce the different feelings that are expressed. The extracted feelings can then be subject of statistics on a community overall feeling.
Key Words
big data, social networks, feelings, statistics, forecast
Synthèse
Qu'est-ce que l'Opinion Mining ?
- une discipline récente basée sur des méthodes de programmation issues de neuro-linguistique, d'intelligence artificielle et/ou de spectrocospie infrarouge pour l'extraction d'opinions.
- de manière plus conventionnelle, l'opinion mining traite de l'extraction de sentiments ou d'opinions à partir d'un texte.
- Internet aujourd'hui et le nombre toujours croissant de personnes utilisant les réseaux sociaux fourni une quantité astronomique de données texte traitant de différents sujets comme l'appréciation d'un produit ou d'une personne par exemple.
- ces sources d'information intéressent evidemment les entreprises, mais aussi les possibles acheteurs d'un produit qui souhaiteraient connaitre les appréciations des utilisateurs.
Motivations
Le but est de savoir ce qu'une personne pense en fonction de ce qu'elle a écrit. Tous les utilisateurs ne désirent pas la même chose d'un produit (certains seront plus intéréssés par la durée de vie, d'autres par un prix avantageux, ou encore la vitesse de livraison). Prenons l'exemple d'amazon, un acheteur potentiel va normalement se renseigner sur le produit et jeter un oeil aux différents commentaires. Une personne qui vient d'acheter ce produit va parler de son expérience et exprimer son ressenti. C'est donc dans l'interet de l'entreprise de rester au courant et d'analyser les retours que les acheteurs font, afin d'améliorer leurs produits et ajuster leur stratégie de marketing.
Marché
Il existe déjà plusieurs applications analysant les sentiments de commentaires sur certains réseaux sociaux :
- Twitter sentiment : http://twittersentiment.appspot.com/ (nécessite un compte twitter)
- SocialMention: http://socialmention.com/
Ces applications permettent une recherche d'opinions facile pour des personnalitées ou des marques connues, recherche bien plus compliquée pour des sujets plus abstraits. Ces applications, basées essentiellement sur l'analyse de la positivité ou négativité d'un terme (utilisation d'un dictionnaire attribuant un score positif ou negatif aux mots), ne fonctionnent pas bien :
- analyse des tweets possédant le mot-clé, pas des tweets dont le mot-clé en est le thème.
- il n'y a pas de corrélation entre le tweet et le mot-clé, le sentiment du tweeter s'attribue à l'ensemble du commentaire.
Derwent Capital Markets est une entreprise pionière pour l'utilisation de l'analyse de sentiments dans les réseaux sociaux afin d'élaborer des prédictions sur le cours de la bourse. Ils ont en effet établi certaines corrélations entre des mots à caractères émotionnels apparaissant dans les posts de Twitter et les variations de l'indice boursier. S'attendant au résultat selon lequel une baisse de l'indice boursier induisait une dégradation de l'humeur des gens sur Twitter, DCM ne s'attendait pas à découvrir que c'était la baisse de l'humeur des gens qui précédait une chute du cours boursiers. Cependant, leurs résultats doivent être pris avec précautions. En effet, les résultats proposés par Derwent Capital Markets comporteraient de nombreuses failles. S'il était vraiment possible de prévoir les variations de l'indice boursier avec cette méthode, son utilisation serait beaucoup plus répandue.
Méthode pour l'analyse d'opinion
S'en tenir à l'opinion d'un spécialiste pour répondre à une question technique est plus sûr que l'opinion générale. L'opinion mining doit donc seulement être utilisé pour certaines tâches. Mais si l'on se retrouve en présence de plusieurs spécialistes, certaines études montrent que l'on aurait tendance à attribuer plus de poids au spécialiste le plus crédible qu'à la majorité. Des notions comme la confiance, l'autorité et l'influence sont donc relatées à l'opinion mining. Il est nécessaire de séparer confiance relationnelle et confiance par réputation.
L'enjeu dans un tweet est d'extraire la partie représentant l'opinion. La deuxième étape est l'extraction de la polarité (positif, neutre, negatif ou bien à l'aide d'une échelle numérique) de l'opinion. Pour finir, la somme globale des scores sur les opinions représentera le sentiment général sur ce sujet. La première amélioration consiste à déterminer dans un texte quelle opinion est attribuée à quelle caractéristique.Il est important de connaitre la source (la personne à l'origine) et la cible (le sujet) de chaque opinion.
L'un des problème à résoudre lors de l'analyse de sentiments est la détection de spams. En effet, c'est une pratique assez répandu chez les entreprises de payer certaines personnes pour écrire des commentaires positifs (ou négatifs) sur un produit, une entreprise ou même un gouvernement.
Les réseaux sociaux fournissent trois types d'intérêts à propos d'un utilisateur :
- explicite : la personne aime le cinéma.
- implicite : quelqu'un aimant les sports extrèmes aura tendance à aimer prendre des risques.
- associatif : les gens qui achètent des produits de la marque Zara auront aussi tendance à acheter des produits Apple.
Le but est de définir des clusters d'intérêts et d'opinions sur de larges groupes de personnes. En effet, les entreprises pourront ensuite cibler leur publicité aux différents groupes de personnes.
Démo
Etude des sentiments sur la personne Bill Gates:
Exemple d'application attribuant un score aux termes à caractères émotionnels dans un texte : Avec le texte Wikipedia sur Bill Gates