VT2016 OpenTSDB: Difference between revisions

From air
Jump to navigation Jump to search
 
(21 intermediate revisions by 2 users not shown)
Line 6: Line 6:


= Mot clés =
= Mot clés =
Base de données de séries chronologique, Time Series Daemon, HBase.
Base de données de séries chronologiques, Time Series Daemon, HBase.


= Résumé =
= Résumé =
OpenTSDB est une base de données de séries chronologique. Chaque cluster communique ses informations à son Time Series Daemon (TSD) qui par la suite les enregistre dans HBase. Les TSDs sont aussi capables de récupérer les données stockées pour permettrent leur visualisation par un utilisateur. Il est aussi possible de mettre en place des routines (alertes, messages, ...), dans le but d'informer l'utilisateur lorsque cela est nécessaire.
OpenTSDB est une base de données de séries chronologiques. Chaque serveur communique ses informations à son Time Series Daemon (TSD) qui par la suite les enregistre dans HBase. Les TSDs sont aussi capables de récupérer les données stockées pour permettrent leur visualisation par un utilisateur. Il est aussi possible de mettre en place des routines (alertes, messages, ...), dans le but d'informer l'utilisateur lorsque cela est nécessaire.


= Abstract =
= Abstract =
OpenTSDB is a time series database. Each cluster sends his data to his own Time Series Daemon (TSD), and then it store it into HBase. TSDs are able to get stored data in order to show it to an user. It is also possible to create routines (alerts, messages, ...) in order to inform users of anything.
OpenTSDB is a time series database. Each server sends his data to his own Time Series Daemon (TSD), and then it store it into HBase. TSDs are able to get stored data in order to show it to an user. It is also possible to create routines (alerts, messages, ...) in order to inform users of anything.


= Synthèse =
= Synthèse =
== Contexte ==
== Contexte ==
De nos jours, le stockage en continue d'importante quantité de données est habituel, cependant il est difficile de le faire via des bases de données relationnelles classiques.
De nos jours, le stockage en continu d'importantes quantités de données est habituel, cependant il est difficile de le faire via des bases de données relationnelles classiques.


=== Objectifs ===
=== Objectifs ===
Line 25: Line 25:
=== Problèmatique ===
=== Problèmatique ===
* Stockage de point : nom + timestamp + valeur + tags.
* Stockage de point : nom + timestamp + valeur + tags.
* Stockage de masse de l'odre de la dizaine de millions par an.
* Stockage de masse de l'odre de la dizaine de millions de points par an.
* Fonctionnalités mathématiques telles que : comptages, moyennes, interpolations, lissages, maximums, minimums...
* Fonctionnalités mathématiques telles que : comptages, moyennes, interpolations, lissages, maximums, minimums...


Line 34: Line 34:
* La précision des données se fait au détriment de la taille de la base.
* La précision des données se fait au détriment de la taille de la base.


<br>
== ==
Les bases de données suivantes ont toutes ces points communs :
Les bases de données suivantes ont toutes ces points communs :
* Une architecture industrielle et scalable.
* Une architecture industrielle et scalable.
Line 45: Line 45:


=== KairosDB ===
=== KairosDB ===
* Elle est très similaire à OpenTSDB si ce n'est qu'elle peut s'utiliser avec H2 ou Cassandra en plus d'HBase.
* Elle est très similaire à OpenTSDB, si ce n'est qu'elle peut s'utiliser avec H2 ou Cassandra en plus d'HBase.


=== InfluxDB ===
=== InfluxDB ===
* Elle est capable de stocker des événements en plus des points.
* Elle est capable de stocker des événements en plus des points.
* Elle est basée sur LevelDB, la librairie clé / valeur écrite pour être rapide par Google.
* Elle est basée sur LevelDB, la librairie clé / valeur écrite par Google.


== Fonctionnement ==
== Fonctionnement ==
Les caractéristiques principales d'OpenTSDB sont les suivantes :
* Une architecture scalable.
* Une API pour la lecture et l'écriture des données.
* Des opérations statistiques intégrées.
* Une capacité de stockage à la milliseconde.
* Le stockage d'un milliard de points par jour.


[[Image:NOUGUIER-tsdb-architecture.png|800px|left cetnter|Architecture]]
[[Image:NOUGUIER-tsdb-architecture.png|400px|left center|Architecture]]

La lecture et l'écriture des données se fait via les Time Series Daemon. En effet chaque serveur est lié à un TSD et lui communique ses données. Ensuite, le TSD dans un délais d'une seconde maximum, va enregistrer ces informations dans HBase. Des routines internes au TSD peuvent être déclenchées lors du passage des données. Pour permettre la visualisation du contenu de HBase le TSD peut récupérer les données et les envoyer aux utilisateurs via une page internet.

=== Evolutivité ===
* Un TSD par cluster HBase, un cluster HBase par datacenter.
* Capacité d'écriture : 2000 points (minimum) par seconde et par coeur.
* Capacité de lecture : moins de 2 secondes.

=== Fiabilité ===
* Echec : sauvegarde dans un buffer si HBase ne fonctionne plus.
* Persistance des données : les données restent 1 seconde maximum dans le buffer d'un TSD avant d'être enregistrées dans HBase.


= Démonstration =
= Démonstration =
* La démonstration consiste à lancer une image docker localement contenant OpenTSDB et HBase préconfigurés.
sudo docker pull petergrace/opentsdb-docker
sudo docker start --attach container_id

* Ensuite il faut se connecter à OpenTSDB localement via le protocole telnet (ou via http).
telnet localhost 4242

* Parallèlement j'ai créé un script bash générant des sorties simulant les connexions, les achats et les ventes d'un site de commerce sur une journée.
# Nombre de connexions par heure
heure=0
valeur=( "1000" "900" "700" "400" "100" "40" "150" "500" "1600" "3700" "600" "4500" "9800" "10000" "9900" "4800" "3100" "2600" "1500" "2500" "2900" "3300" "3100" "2000" )
timestamp=1477954800
while [ "$heure" != 24 ]
do
echo "put connexions $timestamp ${valeur[$heure]} particulier=1"
timestamp=$(( $timestamp + 3600 ))
heure=$(( $heure + 1 ))
done
# Nombre d'achats par heure
heure=0
valeur=( "100" "60" "10" "0" "0" "0" "0" "20" "100" "1000" "300" "1700" "4000" "5300" "4300" "2000" "600" "300" "70" "200" "300" "500" "400" "100" )
timestamp=1477954800
while [ "$heure" != 24 ]
do
echo "put achats $timestamp ${valeur[$heure]} particulier=1"
timestamp=$(( $timestamp + 3600 ))
heure=$(( $heure + 1 ))
done
# Nombre de ventes par heure
heure=0
valeur=( "150" "20" "0" "0" "0" "0" "20" "40" "200" "500" "200" "1000" "2000" "3000" "5800" "4500" "2000" "200" "100" "400" "1000" "700" "100" "150" )
timestamp=1477954800
while [ "$heure" != 24 ]
do
echo "put ventes $timestamp ${valeur[$heure]} particulier=1"
timestamp=$(( $timestamp + 3600 ))
heure=$(( $heure + 1 ))
done

* Ensuite il faut rediriger la sortie du script vers la commande telnet que j'ai lancé avant, ce qui aura pour effet d'ajouter toutes les valeurs dans la base de données.

<br>
[[Image:NOUGUIER DEMO OpenTSDB.png|1200px|left center|Demo]]
<br>

* Voici donc le résultat dans OpenTSDB. Grâce au graphique, différentes analyses et interprétations peuvent être faites :
** Les connexions / achats / ventes en fonctions de l'heure.
** Les achats / ventes en fonctions des connexions.


= Bibliographie =
= Webographie =
* http://opentsdb.net/
* http://opentsdb.net/
* https://wooster.checkmy.ws/2013/12/time-series-databases/
* https://wooster.checkmy.ws/2013/12/time-series-databases/
* https://en.wikipedia.org/wiki/Time_series_database
* https://en.wikipedia.org/wiki/Time_series_database
* http://fr.slideshare.net/HBaseCon/ecosystem-session-6?next_slideshow=1

Latest revision as of 11:42, 3 November 2016

Présentation

  • Sujet : OpenTSDB
  • Auteur : Thibaut NOUGUIER
  • Enseignants : Didier DONSEZ, Georges-Pierre BONNEAU

Mot clés

Base de données de séries chronologiques, Time Series Daemon, HBase.

Résumé

OpenTSDB est une base de données de séries chronologiques. Chaque serveur communique ses informations à son Time Series Daemon (TSD) qui par la suite les enregistre dans HBase. Les TSDs sont aussi capables de récupérer les données stockées pour permettrent leur visualisation par un utilisateur. Il est aussi possible de mettre en place des routines (alertes, messages, ...), dans le but d'informer l'utilisateur lorsque cela est nécessaire.

Abstract

OpenTSDB is a time series database. Each server sends his data to his own Time Series Daemon (TSD), and then it store it into HBase. TSDs are able to get stored data in order to show it to an user. It is also possible to create routines (alerts, messages, ...) in order to inform users of anything.

Synthèse

Contexte

De nos jours, le stockage en continu d'importantes quantités de données est habituel, cependant il est difficile de le faire via des bases de données relationnelles classiques.

Objectifs

Les bases de données de séries chronologiques ont principalement deux objectifs :

  • Le stockage de données horodatées de source et de nature diverses (températures, humidité, ...).
  • La visualisation de celles-ci sous forme de graphique.

Problèmatique

  • Stockage de point : nom + timestamp + valeur + tags.
  • Stockage de masse de l'odre de la dizaine de millions de points par an.
  • Fonctionnalités mathématiques telles que : comptages, moyennes, interpolations, lissages, maximums, minimums...

Historique

RRD Tool

  • Elle est la première base de données de séries chronologiques.
  • Il est difficile de l'exploiter au quotidien (sauvegarde, export, scalabilité).
  • La précision des données se fait au détriment de la taille de la base.


Les bases de données suivantes ont toutes ces points communs :

  • Une architecture industrielle et scalable.
  • Une API permettant le stockage et requetage des données.
  • Des fonctions mathématiques intégrées.

Whisper

  • Elle est vue comme la transition entre RRD Tool et les TSDB suivantes.
  • Elle est difficilement utilisable sans le projet Graphite.

KairosDB

  • Elle est très similaire à OpenTSDB, si ce n'est qu'elle peut s'utiliser avec H2 ou Cassandra en plus d'HBase.

InfluxDB

  • Elle est capable de stocker des événements en plus des points.
  • Elle est basée sur LevelDB, la librairie clé / valeur écrite par Google.

Fonctionnement

Les caractéristiques principales d'OpenTSDB sont les suivantes :

  • Une architecture scalable.
  • Une API pour la lecture et l'écriture des données.
  • Des opérations statistiques intégrées.
  • Une capacité de stockage à la milliseconde.
  • Le stockage d'un milliard de points par jour.

Architecture

La lecture et l'écriture des données se fait via les Time Series Daemon. En effet chaque serveur est lié à un TSD et lui communique ses données. Ensuite, le TSD dans un délais d'une seconde maximum, va enregistrer ces informations dans HBase. Des routines internes au TSD peuvent être déclenchées lors du passage des données. Pour permettre la visualisation du contenu de HBase le TSD peut récupérer les données et les envoyer aux utilisateurs via une page internet.

Evolutivité

  • Un TSD par cluster HBase, un cluster HBase par datacenter.
  • Capacité d'écriture : 2000 points (minimum) par seconde et par coeur.
  • Capacité de lecture : moins de 2 secondes.

Fiabilité

  • Echec : sauvegarde dans un buffer si HBase ne fonctionne plus.
  • Persistance des données : les données restent 1 seconde maximum dans le buffer d'un TSD avant d'être enregistrées dans HBase.

Démonstration

  • La démonstration consiste à lancer une image docker localement contenant OpenTSDB et HBase préconfigurés.
sudo docker pull petergrace/opentsdb-docker
sudo docker start --attach container_id
  • Ensuite il faut se connecter à OpenTSDB localement via le protocole telnet (ou via http).
telnet localhost 4242
  • Parallèlement j'ai créé un script bash générant des sorties simulant les connexions, les achats et les ventes d'un site de commerce sur une journée.
# Nombre de connexions par heure
heure=0
valeur=( "1000" "900" "700" "400" "100" "40" "150" "500" "1600" "3700" "600" "4500" "9800" "10000" "9900" "4800" "3100" "2600" "1500" "2500" "2900" "3300" "3100" "2000" )
timestamp=1477954800

while [ "$heure" != 24 ]
do
    echo "put connexions $timestamp ${valeur[$heure]} particulier=1"
    timestamp=$(( $timestamp + 3600 ))
    heure=$(( $heure + 1 ))
done

# Nombre d'achats par heure
heure=0
valeur=( "100" "60" "10" "0" "0" "0" "0" "20" "100" "1000" "300" "1700" "4000" "5300" "4300" "2000" "600" "300" "70" "200" "300" "500" "400" "100" )
timestamp=1477954800

while [ "$heure" != 24 ]
do
    echo "put achats $timestamp ${valeur[$heure]} particulier=1"
    timestamp=$(( $timestamp + 3600 ))
    heure=$(( $heure + 1 ))
done

# Nombre de ventes par heure
heure=0
valeur=( "150" "20" "0" "0" "0" "0" "20" "40" "200" "500" "200" "1000" "2000" "3000" "5800" "4500" "2000" "200" "100" "400" "1000" "700" "100" "150" )
timestamp=1477954800

while [ "$heure" != 24 ]
do
    echo "put ventes $timestamp ${valeur[$heure]} particulier=1"
    timestamp=$(( $timestamp + 3600 ))
    heure=$(( $heure + 1 ))
done
  • Ensuite il faut rediriger la sortie du script vers la commande telnet que j'ai lancé avant, ce qui aura pour effet d'ajouter toutes les valeurs dans la base de données.


Demo

  • Voici donc le résultat dans OpenTSDB. Grâce au graphique, différentes analyses et interprétations peuvent être faites :
    • Les connexions / achats / ventes en fonctions de l'heure.
    • Les achats / ventes en fonctions des connexions.

Webographie