Apache Hadoop: Difference between revisions
Jump to navigation
Jump to search
No edit summary |
|||
(3 intermediate revisions by 2 users not shown) | |||
Line 3: | Line 3: | ||
* Eleve: Mathieu Dewulf |
* Eleve: Mathieu Dewulf |
||
* mail: Mathieu.Dewulf@e.ujf-grenoble.fr |
* mail: Mathieu.Dewulf@e.ujf-grenoble.fr |
||
Line 9: | Line 8: | ||
[[File:Hadoop-logo.jpg|center|hadoop]] |
[[File:Hadoop-logo.jpg|center|hadoop]] |
||
=Informations= |
|||
⚫ | |||
=Description= |
|||
⚫ | |||
Il permet d'effectuer des algorithmes utilisant le principe de MapReduce pour gérer de grande quantité de données, de pouvoir superviser les différents serveurs et ressources utilisés. |
Il permet d'effectuer des algorithmes utilisant le principe de MapReduce pour gérer de grande quantité de données, de pouvoir superviser les différents serveurs et ressources utilisés. |
||
Hadoop gère également la tolérance aux pannes, c'est-à-dire qu’il réaffecte les tâches de manière transparente en cas de panne d’un serveur. |
Hadoop gère également la tolérance aux pannes, c'est-à-dire qu’il réaffecte les tâches de manière transparente en cas de panne d’un serveur. |
||
Les données sources, intermédiaires ou résultats sont stockées dans un système de fichiers ([[HDFS]], Amazon S3, ...) supportant la réplication. |
|||
Plusieurs autres canevas utilisent les fonctionnalités d'Apache Hadoop : |
|||
* [[Apache Hive]] un système de gestion d'entrepôts de données (datawarehouse) |
|||
* [[Apache Mahout]] un canevas de data mining |
|||
* ... |
|||
=Sources= |
=Sources= |
Latest revision as of 13:57, 3 March 2013
- Enseignant: Didier Donsez et Georges-Pierre Bonneau
- UE/Module: EAR en RICM5 option S&R
- Eleve: Mathieu Dewulf
- mail: Mathieu.Dewulf@e.ujf-grenoble.fr
Description
Apache Hadoop est un projet Open Source géré par Apache et qui est basé sur MapReduce et Google File System. Il a été crée en 2009 par Doug Cutting.
Il permet d'effectuer des algorithmes utilisant le principe de MapReduce pour gérer de grande quantité de données, de pouvoir superviser les différents serveurs et ressources utilisés.
Hadoop gère également la tolérance aux pannes, c'est-à-dire qu’il réaffecte les tâches de manière transparente en cas de panne d’un serveur.
Les données sources, intermédiaires ou résultats sont stockées dans un système de fichiers (HDFS, Amazon S3, ...) supportant la réplication.
Plusieurs autres canevas utilisent les fonctionnalités d'Apache Hadoop :
- Apache Hive un système de gestion d'entrepôts de données (datawarehouse)
- Apache Mahout un canevas de data mining
- ...