+33 (0)1 53 89 99 93 info@xebia-training.fr

Data

Formation Analyse de données et Machine Learning avec Spark

Avec Yoann Benoit

1 jour, soit 7 heures

Passez au niveau supérieur en termes de connaissances grâce à la formation Analyse de données et Machine Learning avec Spark.

Cette formation “Hands’ On” de trois jours, axée sur Spark SQL et Spark ML, vous apprendra à appliquer l’analyse traditionnelle des données, l’analyse statistique et des algorithmes de Machine Learning au Big Data.

Apache Spark permet d’écrire simplement des applications distribuées complexes qui permettent de prendre des meilleures décisions plus rapidement et des actions en temps réel, appliquées à une grande variété de cas d’utilisations, d’architectures et de secteurs d’activités.

Spark SQL est le module de Spark permettant de gérer de la donnée structurée. Il permet l’utilisation de DataFrames, une collection de données organisées en colonnes, donnant accès à de multiples fonctionnalités pour l’analyse et de traitement de données.

Spark ML est un des modules de Spark pour le Machine Learning. Il permet l’utilisation d’un grand nombre d’algorithmes de traitement de la donnée et de Machine Learning (classification, régression, clustering), ainsi que de nombreuses étapes de pré-processing de la donnée (Feature Engineering).

Programme

Partie 1 : Analyse de données structurées avec Spark DataFrames

Introduction à Spark sur Hadoop
  • RDD (Resilient Distributed Datasets)
  • Interagir avec HDFS
  • Soumettre une requête Python
DataFrame
  • L’API de base
  • Chargement de données structurées
  • Manipulations basiques
  • Types de données
  • Opérations et statistiques
Manipulations avancées des DataFrames
  • Aggregations
  • Jointures
  • Window aggregations
  • Chargement et sauvegarde pour différents formats
  • SQL sur Spark
Bonnes pratiques et performances
  • Format des données et compression
  • Fonctionnement de Catalyst
  • Partition discovery
  • Python, R ou Scala pour Spark, que choisir ?

Partie 2 : Machine Learning avec Spark ML

Rappels sur le Machine Learning Spark ML – MLib
  • Structure de l’API & Concepts clés
  • Données d’entrée
  • Exemples supervisé et non supervisé
  • Limites de l’API
Spark ML
  • Structure de l’API & Concepts clés
  • Transformer / Estimator
  • Paramètres
  • Évaluation de modèles (classification, régression)
Feature Engineering
  • Indexing
  • Encoding
  • Text Processing
  • Scaling
Tuning de paramètres
  • Train-Validation Split
  • Grid-Search
  • Cross Validation
Pipeline
  • Construction de Pipeline de Machine Learning
Autres applications
  • Réduction de Dimension
  • Clustering
  • Systèmes de Recommandation

Objectif

À la suite de cette formation, les participants pourront travailler sur les différentes fonctionnalités de Spark. Ils adresseront aisément les sujets suivants :

  • Notions fondamentales de Spark et son fonctionnement sur Hadoop.
  • Comment charger, explorer et analyser des données provenant de diverses sources avec les DataFrames de Spark SQL.
  • Comment préparer et transformer des données puis utiliser des algorithmes de Machine Learning avec Spark ML.

Méthodes pédagogiques

⅓ de pratique et ⅔ de théorie.

Au travers de discussions dirigées par le formateur et d’exercices “Hands-On” interactifs, les participants apprendront à travailler sur les différentes fonctionnalités de Spark.

La partie pratique s’articulera autour d’un projet fil rouge tout au long de la formation. Dans un premier temps, l’accent sera mis sur la manipulation avancée de données sur les tables à disposition. Sur la partie Machine Learning, les participants travailleront sur l’élaboration d’un premier modèle supervisé simple et son évaluation, pour ensuite l’améliorer en le complexifiant avec les différentes notions vues dans les différents chapitres.

Tarif HT

Inter : 1 540 €

Intra : Selon demande

Prochaines dates de formation

Date à venir

Biographie

Yoann Benoit

Yoann Benoit est Data Scientist et Chief Data Officer chez Xebia. Il est spécialisé dans la collecte, le traitement et l’analyse de données, de leur exploration à la mise en production des projets. Il intervient sur de nombreux sujets autour de la Data Science, de l'Intelligence Artificuelle et du Big Data. Speaker et blogueur à la fois sur les concepts et les technologies liées à la Data Science, il travaille principalement avec Python, Scala et Spark.

Yoann a été speaker lors de ces conférences :

  • On-Device Intelligence : Intégrez du Deep Learning sur vos Smartphones (DevFest Nantes 2017, XebiCon 2017, AndroidMakers 2017)
  • Le Deep Learning dans la vraie vie (XebiCon 2017)
  • Data Science & Craftsmanship : Je t'aime, moi non plus (XebiCon 2016, PyData 2016)
  • Utiliser du Deep Learning pour interpréter des photographies (XebiCon 2016)
  • Machine Learning sur Spark (Devoxx 2015, Mix-IT 2015, BreizhCamp 2015)

Quelques publications :

Retrouvez égalemeent ses articles sur le blog Technique de Xebia.

Public visé

  • Data Scientists
  • Data Engineers
  • Chefs de projet
  • Scrum master
  • Product owner

Prérequis

Il n’y a pas de prérequis éxigés pour suivre la formation.

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

SOFTWARE TRAINING DONE RIGHT