VT2016 OpenTSDB

From air
Jump to navigation Jump to search

Présentation

  • Sujet : OpenTSDB
  • Auteur : Thibaut NOUGUIER
  • Enseignants : Didier DONSEZ, Georges-Pierre BONNEAU

Mot clés

Base de données de séries chronologique, Time Series Daemon, HBase.

Résumé

OpenTSDB est une base de données de séries chronologique. Chaque cluster communique ses informations à son Time Series Daemon (TSD) qui par la suite les enregistre dans HBase. Les TSDs sont aussi capables de récupérer les données stockées pour permettrent leur visualisation par un utilisateur. Il est aussi possible de mettre en place des routines (alertes, messages, ...), dans le but d'informer l'utilisateur lorsque cela est nécessaire.

Abstract

OpenTSDB is a time series database. Each cluster sends his data to his own Time Series Daemon (TSD), and then it store it into HBase. TSDs are able to get stored data in order to show it to an user. It is also possible to create routines (alerts, messages, ...) in order to inform users of anything.

Synthèse

Contexte

De nos jours, le stockage en continue d'importante quantité de données est habituel, cependant il est difficile de le faire via des bases de données relationnelles classiques.

Objectifs

Les bases de données de séries chronologiques ont principalement deux objectifs :

  • Le stockage de données horodatées de source et de nature diverses (températures, humidité, ...).
  • La visualisation de celles-ci sous forme de graphique.

Problèmatique

  • Stockage de point : nom + timestamp + valeur + tags.
  • Stockage de masse de l'odre de la dizaine de millions par an.
  • Fonctionnalités mathématiques telles que : comptages, moyennes, interpolations, lissages, maximums, minimums...

Historique

RRD Tool

  • Elle est la première base de données de séries chronologiques.
  • Il est difficile de l'exploiter au quotidien (sauvegarde, export, scalabilité).
  • La précision des données se fait au détriment de la taille de la base.

Les bases de données suivantes ont toutes ces points communs :

  • Une architecture industrielle et scalable.
  • Une API permettant le stockage et requetage des données.
  • Des fonctions mathématiques intégrées.

Whisper

  • Elle est vue comme la transition entre RRD Tool et les TSDB suivantes.
  • Elle est difficilement utilisable sans le projet Graphite.

KairosDB

  • Elle est très similaire à OpenTSDB si ce n'est qu'elle peut s'utiliser avec H2 ou Cassandra en plus d'HBase.

InfluxDB

  • Elle est capable de stocker des événements en plus des points.
  • Elle est basée sur LevelDB, la librairie clé / valeur écrite pour être rapide par Google.

Fonctionnement

Les caractéristiques principales d'OpenTSDB sont les suivantes :

  • Une architecture scalable.
  • Une API pour la lecture et l'écriture des données.
  • Des opérations statistiques intégrées.
  • Une capacité de stockage à la milliseconde.
  • Le stockage d'un milliard de points par jour.

Architecture

La lecture et l'écriture des données se fait via les Time Series Daemon. En effet chaque serveur est lié à un TSD et lui communique ses données. Ensuite, le TSD dans un délais d'une seconde maximum, va enregistrer ces informations dans HBase. Des routines internes au TSD peuvent être déclenchées lors du passage des données. Pour permettre la visualisation du contenu de HBase le TSD peut récupérer les données et les envoyer aux utilisateurs via une page internet.

Evolutivité

  • Un TSD par cluster HBase, un cluster HBase par datacenter.
  • Capacité d'écriture : 2000 points (minimum) par secondes et par coeur.
  • Capacité de lecture : moins de 2 secondes.

Fiabilité

  • Echec : sauvegarde dans un buffer si HBase ne fonctionne plus.
  • Persistance des données : les données restent 1 seconde maximum dans le buffer d'un TSD avant d'être enregistrées dans HBase.

Démonstration

Bibliographie