VT2020-Apache Arrow-Demo

From air
Jump to navigation Jump to search

Code utilisé

Pour cette démonstration, le code que j'ai utilisé ne m'appartient pas. Vous pouvez retrouver ce code sur le github suivant : https://github.com/animeshtrivedi/ArrowExample

Démonstration

Une fois le code téléchargé, il vous faudra exécuter le script build-single-assembly.sh afin de créer un fichier jar contenant toutes les classes.

./build-single-assembly.sh

Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires en format Arrow et de les écrire dans le fichier "example.arrow".

./run-write.sh

Enfin, il vous faudra exécuter le script run-read.sh afin de pouvoir lire les données générer dans le fichier "example.arrow".

./run-read.sh

On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune d'elle contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne bigIntAccessor ne contient que des long int, la colonne varBinaryAccessor ne contient que des variables binaires et la colonne float ne contient que des float.

Maintenant que les données sont sous le format Apache Arrow, elles pourront être transférées à tout autre système ou langage de programmation supporté par Arrow, et cela, sans devoir copier ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert plus efficace.

Veille Technologique 2020