Difference between revisions of "VT2020-Apache Arrow-Demo"

From air
Jump to navigation Jump to search
Line 12: Line 12:
 
</pre>
 
</pre>
   
Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires Arrow et de les écrire dans le fichier "example.arrow".
+
Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires en format Arrow et de les écrire dans le fichier "example.arrow".
   
 
<pre>
 
<pre>
Line 24: Line 24:
 
</pre>
 
</pre>
   
On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune de ces colonnes contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne float ne contient que des float, ...
+
On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune d'elle contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne bigIntAccessor ne contient que des long int, la colonne varBinaryAccessor ne contient que des variables binaires et la colonne float ne contient que des float.
 
Maintenant que les données sous le format Apache Arrow, elles pourront être transféré à tout autre système langage de programmation supporté par Arrow, et cela, sans devoir copié ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert efficace.
 
   
 
Maintenant que les données sont sous le format Apache Arrow, elles pourront être transférées à tout autre système ou langage de programmation supporté par Arrow, et cela, sans devoir copier ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert plus efficace.
   
 
= Veille Technologique 2020 =
 
= Veille Technologique 2020 =

Revision as of 16:12, 7 December 2020

Code utilisé

Pour cette démonstration, le code que j'ai utilisé ne m'appartient pas. Vous pouvez retrouver ce code sur le github suivant : https://github.com/animeshtrivedi/ArrowExample

Démonstration

Une fois le code téléchargé, il vous faudra exécuter le script build-single-assembly.sh afin de créer un fichier jar contenant toutes les classes.

./build-single-assembly.sh

Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires en format Arrow et de les écrire dans le fichier "example.arrow".

./run-write.sh

Enfin, il vous faudra exécuter le script run-read.sh afin de pouvoir lire les données générer dans le fichier "example.arrow".

./run-read.sh

On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune d'elle contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne bigIntAccessor ne contient que des long int, la colonne varBinaryAccessor ne contient que des variables binaires et la colonne float ne contient que des float.

Maintenant que les données sont sous le format Apache Arrow, elles pourront être transférées à tout autre système ou langage de programmation supporté par Arrow, et cela, sans devoir copier ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert plus efficace.

Veille Technologique 2020