Default title header
Initiation IA & Data Science Probayes

Python pour la data science Initiation au Big Data avec PySpark

Spark est un des principaux frameworks d’analyse de données Big Data. Il est massivement déployé sur les infrastructures de type Data Lake, soit directement, soit au travers d’autres outils tels que Dataiku DSS. PySpark est une bibliothèque permettant d’utiliser ce framework en Python.

Objectifs de la formation :

  • Reconnaître les spécificités du traitement de données en environnement Big Data.
  • Comprendre les notions principales liées au traitement de données distribué sur un cluster de calcul Spark :
    • Driver, master, exécuteur
    • Partitionnement, shuffle
  • Appliquer les principaux types de manipulation de données avec la bibliothèque PySpark

Publics :

Toute personne ayant déjà manipulé des données en Python notamment avec la bibliothèque Pandas et désirant transposer ces traitements avec PySpark.

Prérequis :

  • Connaitre les bases de l’architecture d’un cluster Spark (driver, master, exécuteurs).
  • Comprendre les spécificités du traitement de données distribué (partitionnement des données, shuffle).
  • Savoir réaliser les principaux types de manipulation de données avec PySpark. 

Atouts - bénéfices de la formation :

  • Formation articulée autour de jeux de données réalistes
  • Un parcours complet pour pouvoir mener des analyses sur des données volumineuses
  • Un support de cours exploitable et personnalisé

Programme détaillé :

  • Big Data & Spark clusters
  • Lecture et écriture de données (partitionnement)
  • Exécution paresseuse et récupération de données
  • Spark Dataframes et Manipulation de données de base
  • Structure d’une application Spark (Jobs, Stages, Tasks) + notion de shuffle
  • Spark UI
  • Group by et Jointure
  • Spark et SQL

Moyens pédagogiques :

  • Alternances entre exposés théoriques et mises en pratique.
  • Etude d’un jeu de données fil rouge.
  • Utilisation des notebooks Jupyter pour rassembler explications et exercices   pratiques dans un même document. 

Modalité - Présentiel :

  • Exposé : 70%
  • Exercices : 30%

Validation des acquis :

  • Exercices d’auto-évaluation.

Dispositif de suivi et d'évaluation de la formation :

  • Feuille de présence
  • Formulaire d’évaluation de la formation

Intervenants :

Alexis est docteur en informatique spécialisé en vision par ordinateur et apprentissage automatique. Il travaille depuis 2013 chez Probayes en tant que Directeur Scientifique et chef de projet sur des sujets d’apprentissage automatique. Il utilise Python dans le cadre de son travail et de ses projets personnels depuis plus de 20 ans.

Ann’Sophie est docteur en physique atmosphérique. Depuis 2019, elle travaille en tant que Data Scientist et chef de projet à Probayes. Elle travaille sur des projets variés principalement sur des sujets d’apprentissage automatique, comme la maintenance prédictive, la modélisation de séries temporelles, l’analyse sémantique de conversations. Elle utilise quotidiennement Python pour l’analyse de données, l’apprentissage automatique et la mise en production des solutions.

N° SIRET : 45053883000073 - Code NAF : 6202A - TVA : FR72 450 538 830
Déclaration d’activité enregistrée sous le numéro 84 38 06761 38 auprès du préfet de la région Auvergne-Rhône-Alpes.
Cet enregistrement ne vaut pas agrément.

Réservez votre place dès à présent

Formation ouverte en inter et intra

Présentiel / distanciel :
1 jour 7 heures
De 5 à 15 pers.
Tarifs
Inter : 990 € HT / stagiaire
Intra : Sur devis

Accessible à toutes les personnes porteuses d’un handicap

À voir également

Acculturation & Accompagnement

Acculturation à l’Intelligence artificielle

Nous vous présentons un tour d’horizon des notions clés liées à l’Intelligence Artificielle, de ses différentes approches et des avancées récentes dans le domaine. Nous abordons les aspects pratiques de l’utilisation de solutions d’IA, depuis la...

Présentiel / distanciel : 1 jour 7 heures
10 pers. maximum
Acculturation & Accompagnement

Initiation à la Recherche Opérationnelle et à l'Optimisation Combinatoire

Découvrez les fondements de cette discipline et comment, elle peut s’appliquer à de multiples cas d’usages quotidiens comme l’optimisation des itinéraires, des transports de colis, la recherche du billet d’avion au meilleur prix, la planification des...

Présentiel / distanciel : 1 jour 7 heures
De 6 à 15 pers.
Initiation IA & Data Science

Python pour la data science : Le langage Python

Cette formation est la première d’une série de formations autour de la Data Science et du langage Python. Elle a pour objectif de présenter les bases du langage Python.

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Initiation IA & Data Science

Python pour la data science : Exploration de données

Cette formation est la deuxième d’une série de formations autour de la Data Science et du langage Python. Alors que la précédente formation présentait les bases du langage Python, cette formation présente les principaux outils utilisés pour la...

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Renforcement IA & Data Science

Machine Learning Tronc - Commun 2

Cette formation est la quatrième d’une série de formations autour de la Data Science et du langage Python. La précédente formation présentait l’analyse exploratoire et la préparation des données, ainsi que la modélisation et le déploiement. Cette...

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Renforcement IA & Data Science

Natural Language Processing et IA Générative

Cette formation, vous permettra de maîtriser les techniques modernes de NLP pour extraire des informations précieuses, d’automatiser des tâches complexes et de développer des applications intelligentes à partir des textes.

Présentiel / distanciel : 3 jours 21 heures
De 6 à 15 pers.
Renforcement IA & Data Science

Machine Learning Tronc - Commun 1

Cette formation est la troisième d’une série de formations autour de la Data Science et du langage Python. Alors que la précédente formation présentait la manipulation de données en Python, cette formation présente les principaux outils et concepts...

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Renforcement IA & Data Science

Approche technique à la Recherche Opérationnelle et à l'Optimisation Combinatoire

Présentiel / distanciel : 2 jours 14 heures
De 6 à 15 pers.