Difference between revisions of "VT2020-Apache Arrow-Demo"

From air
Jump to navigation Jump to search
(Created page with "= Code utilisé = Pour cette démonstration, le code que j'ai utilisé ne m'appartient pas. Vous pouvez retrouver ce code sur le github suivant : https://github.com/animeshtr...")
 
Line 12: Line 12:
 
</pre>
 
</pre>
   
Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires et de les écrire dans le fichier "example.arrow".
+
Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires Arrow et de les écrire dans le fichier "example.arrow".
   
 
<pre>
 
<pre>
Line 23: Line 23:
 
./run-read.sh
 
./run-read.sh
 
</pre>
 
</pre>
  +
  +
On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune de ces colonnes contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne float ne contient que des float, ...
  +
  +
Maintenant que les données sous le format Apache Arrow, elles pourront être transféré à tout autre système où langage de programmation supporté par Arrow, et cela, sans devoir copié ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert efficace.
   
   

Revision as of 16:08, 7 December 2020

Code utilisé

Pour cette démonstration, le code que j'ai utilisé ne m'appartient pas. Vous pouvez retrouver ce code sur le github suivant : https://github.com/animeshtrivedi/ArrowExample

Démonstration

Une fois le code téléchargé, il vous faudra exécuter le script build-single-assembly.sh afin de créer un fichier jar contenant toutes les classes.

./build-single-assembly.sh

Ensuite il vous faudra exécuter le script run-write.sh afin de générer des données aléatoires Arrow et de les écrire dans le fichier "example.arrow".

./run-write.sh

Enfin, il vous faudra exécuter le script run-read.sh afin de pouvoir lire les données générer dans le fichier "example.arrow".

./run-read.sh

On obtient un tableau a 4 colonnes (intAccessor, bigIntAccessor, varBinaryAccessor et float) où chacune de ces colonnes contient les éléments qui lui sont associés : La colonne intAccessor ne contient que des short int, la colonne float ne contient que des float, ...

Maintenant que les données sous le format Apache Arrow, elles pourront être transféré à tout autre système où langage de programmation supporté par Arrow, et cela, sans devoir copié ni convertir les données. Cela va donc nous permettre de gagner du temps et de la mémoire et de rendre le transfert efficace.


Veille Technologique 2020