Tous nos articles
#Spark
Retour
Franck Cussac
Franck Cussac
19/7/2022
DataFrames PySpark & Pandas : très similaires à l'usage, mais un fonctionnement interne très différent

Lorsque l’on développe dans un Notebook en PySpark, on peut être amené à convertir nos DataFrames Spark en DataFrames Pandas afin de profiter de superbes bibliothèques comme PyPlot pour créer des graphiques, ce qui est très pratique. Mieux encore, les APIs étant très proches, on peut facilement migrer un code Pandas en Pyspark lorsque la volumétrie le demande. Cependant il faut faire attention et ne pas oublier que ça reste deux technologies différentes qui répondent à des besoin différents.

Franck Cussac
Franck Cussac
17/5/2022
Spark : quand faire un cache sur une DataFrame ?

Pour améliorer les performances de votre job Spark, vous avez probablement déjà pensé à ajouter un cache sur une ou plusieurs de vos DataFrames. C’est même peut-être devenu une habitude.

dataframe cache pyspark spark cache persist
Benchmark Apache Spark : Préparation du test TPC-DS

Cette année, nous nous sommes lancés dans un projet de benchmark d’Apache Spark avec pour objectif d'être capable de déterminer les différences de temps d’exécution entre Spark avec Yarn et Spark sur Kubernetes. Nous partagerons nos différentes découvertes au fur et à mesure dans cette série d’articles.

#Passion

C’est la passion pour notre métier qui nous guide au quotidien. Cette passion est notre motivation intrinsèque.

#Intégrité

Nous sommes des êtres accomplis, qui prennent la responsabilité de leurs actions et idées.

#Pragmatisme

Nous sommes des doers, animés par un mindset agile et de test & learn. Nous faisons en sorte que actions débouchent sur des résultats concrets et mesurables.

illustration valeurs
Nos valeurs