VT2020-Apache Arrow-Demo

From air
Revision as of 16:08, 7 December 2020 by Robin.Delbos (talk | contribs)
Jump to navigation Jump to search

Code utilisé

Pour cette démonstration, le code que j'ai utilisé ne m'appartient pas. Vous pouvez retrouver ce code sur le github suivant : https://github.com/animeshtrivedi/ArrowExample

Démonstration

Une fois le code téléchargé, il vous faudra exécuter le script build-single-assembly.sh afin de créer un fichier jar contenant toutes les classes.

./build-single-assembly.sh

Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires Arrow et de les écrire dans le fichier "example.arrow".

./run-write.sh

Enfin, il vous faudra exécuter le script run-read.sh afin de pouvoir lire les données générer dans le fichier "example.arrow".

./run-read.sh

On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune de ces colonnes contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne float ne contient que des float, ...

Maintenant que les données sous le format Apache Arrow, elles pourront être transféré à tout autre système où langage de programmation supporté par Arrow, et cela, sans devoir copié ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert efficace.


Veille Technologique 2020