Difference between revisions of "EA2013 Social data engineering"

From air
Jump to navigation Jump to search
Line 40: Line 40:
   
   
==== Hadoop Distributed ====
+
==== Hadoop Distributed file system ====

Revision as of 20:31, 10 November 2013

Présentation

Abstract

Social networks have a more and more large part in our daily life.Users in the millions and shared datas on these networks are evaluated in petabytes. this is called big data. Big data represent large volumes of unstructured data. You have to arrange them in order to exploit them. For that, there are powerful tools as Hadoop used by facebook, linkedIn, amazon...


Résumé

Les réseaux sociaux occupent un.e part de plus en plus importante dans notre vie quotidienne. Les utilisateurs se comptent en millions et les données partagées sur ces réseaux sont évaluées en pétaoctets. C'est ce qu'on appelle les big data. les big data représentent de gros volumes de données non structurées. Il faut donc trier ces données afin de les exploiter. Pour cela il existe des outils puissants comme Hadoop utilisés par facebook, linkedin, amazon etc etc...


Synthèse

Contexte

Aujourd'hui l'utilisation des réseaux sociaux prend une part de plus en plus important dans notre vie quotidienne. Par exemple, on compte plus de 800 millions utilisateurs sur facebook, 200 millions de connectés sur twitter et environ 490 millions de visiteurs chaque mois. Quotidiennement, ces abonnés sont très actifs sur les réseaux sociaux : par jour, on dénombre 50 millions de tweets, 60 millions d'actualités facebook et 1 milliard de mise à jour de profils facebook. Toutes ces données partagées sont évaluées en pétaoctets : c'est ce que l'on appelle les Big Data.


Big Data

Les données des médias sociaux participent au phénomène dit des «Big Data» qui englobe également la croissance des données traditionnelles et des documents bureautiques, emails, images et autres fichiers numériques. Contrairement aux données relationnelles des applications d’entreprise classiques (ERP, CRM, applications analytiques), la plupart des données des médias sociaux ne sont pas structurées. Les pétaoctets d’information participant au Big Data ont donné naissance à des infrastructures matérielles et logicielles spécialement conçues pour traiter ces volumes extrêmes. C’est le cas de la plate-forme open source Hadoop et des applications de datawarehousing.


Pour qui ? Pourquoi?

Hadoop

Hadoop est un framework open source écrit en Java et géré par la fondation Apache. Il a été conçu pour réaliser des traitements de volumes de données en masse. Il est utilisé par des entreprises ayant de très fortes volumétries de données à traiter. Parmi elles, on trouve notamment des géants du web comme Twitter, LinkedIn, ou encore eBay et Amazon. Hadoop fonctionne sur le principe des grilles de calcul consistant à répartir l'exécution d'un traitement intensif de données sur plusieurs noeuds ou grappes de serveurs. Il repose sur le système de fichiers HDFS (Hadoop Distributed File System) et MapReduce pour distribuer et gérer les calculs.


Hadoop Distributed file system