+33 (0)1 53 89 99 93 info@xebia-training.fr

Data Science

Formation Analyse de données et Machine Learning avec Spark

Avec Yoann Benoit
3 jours, soit 21 heures
Passez au niveau supérieur en termes de connaissances grâce à la formation Analyse de données et Machine Learning avec Spark.
Cette formation de trois jours, axée sur Spark SQL et Spark ML, vous apprendra à appliquer l’analyse traditionnelle des données, l’analyse statistique et des algorithmes de Machine Learning au Big Data.

Vue globale :
Apache Spark permet d’écrire simplement des applications distribuées complexes qui permettent de prendre des meilleures décisions plus rapidement et des actions en temps réel, appliquées à une grande variété de cas d’utilisations, d’architectures et de secteurs d’activités.

Spark SQL est le module de Spark permettant de gérer de la donnée structurée. Il permet l’utilisation de DataFrames, une collection de données organisées en colonnes, donnant accès à de multiples fonctionnalités pour l’analyse et de traitement de données.

Spark ML est un des modules de Spark pour le Machine Learning. Il permet l’utilisation d’un grand nombre d’algorithmes de traitement de la donnée et de Machine Learning (classification, régression, clustering), ainsi que de nombreuses étapes de pré-processing de la donnée (Feature Engineering).

Programme

Analyse de données structurées avec Spark DataFrames

Introduction à Spark sur Hadoop

  • RDD (Resilient Distributed Datasets)
  • Interagir avec HDFS
  • Soumettre une requête Python

Hands-On : DataFrame

  • L’API de base
  • Chargement de données structurées
  • Manipulations basiques
  • Types de données
  • Opérations et statistiques

Hands-On : Manipulations avancées des DataFrames

  • Aggregations
  • Jointures
  • Window aggregations
  • Chargement et sauvegarde pour différents formats
  • SQL sur Spark

Hands-On : Bonnes pratiques et performances

  • Format des données et compression
  • Fonctionnement de Catalyst
  • Partition discovery
  • Python, R ou Scala pour Spark, que choisir ?

Questions – Réponses

Machine Learning avec Spark ML

Rappels sur le Machine Learning Spark ML – MLib

  • Structure de l’API & Concepts clés
  • Données d’entrée
  • Exemples supervisé et non supervisé
  • Limites de l’API

Hands-On : Spark ML

  • Structure de l’API & Concepts clés
  • Transformer / Estimator
  • Paramètres
  • Évaluation de modèles (classification, régression)

Hands-On : Feature Engineering

  • Indexing
  • Encoding
  • Text Processing
  • Scaling

Hands-On : Tuning de paramètres

  • Train-Validation Split
  • Grid-Search
  • Cross Validation

Hands-On : Pipeline

  • Construction de Pipeline de Machine Learning

Hands-On : Autres applications

  • Réduction de Dimension
  • Clustering
  • Systèmes de Recommandation

Questions – Réponses

Objectifs

À la suite de cette formation, les participants pourront travailler sur les différentes fonctionnalités de Spark. Ils adresseront aisément les sujets suivants :

  • Notions fondamentales de Spark et son fonctionnement sur Hadoop.
  • Comment charger, explorer et analyser des données provenant de diverses sources avec les DataFrames de Spark SQL.
  • Comment préparer et transformer des données puis utiliser des algorithmes de Machine Learning avec Spark ML.

Méthodes pédagogiques

⅓ de pratique et ⅔ de théorie.

Au travers de discussions dirigées par le formateur et d’exercices “Hands-On” interactifs, les participants apprendront à travailler sur les différentes fonctionnalités de Spark.

La partie pratique s’articulera autour d’un projet fil rouge tout au long de la formation. Dans un premier temps, l’accent sera mis sur la manipulation avancée de données sur les tables à disposition. Sur la partie Machine Learning, les participants travailleront sur l’élaboration d’un premier modèle supervisé simple et son évaluation, pour ensuite l’améliorer en le complexifiant avec les différentes notions vues dans les différents chapitres.

Tarif HT

Inter : 2 100 €

Prochaines dates de formation

19 – 21 septembre

5 – 7 décembre

Biographie

Yoann Benoit

Yoann Benoit est Data Scientist et Chief Data Officer chez Xebia. Il est spécialisé dans la collecte, le traitement et l’analyse de données, de leur exploration à la mise en production des projets. Il intervient sur de nombreux sujets autour de la Data Science, de l'Intelligence Artificuelle et du Big Data. Speaker et blogueur à la fois sur les concepts et les technologies liées à la Data Science, il travaille principalement avec Python, Scala et Spark.

Yoann a été speaker lors de ces conférences :

  • On-Device Intelligence : Intégrez du Deep Learning sur vos Smartphones (DevFest Nantes 2017, XebiCon 2017, AndroidMakers 2017)
  • Le Deep Learning dans la vraie vie (XebiCon 2017)
  • Data Science & Craftsmanship : Je t'aime, moi non plus (XebiCon 2016, PyData 2016)
  • Utiliser du Deep Learning pour interpréter des photographies (XebiCon 2016)
  • Machine Learning sur Spark (Devoxx 2015, Mix-IT 2015, BreizhCamp 2015)

Quelques publications :

Retrouvez égalemeent ses articles sur le blog Technique de Xebia.

Public visé

Cette formation Analyse de données et Machine Learning est parfaitement adaptée aux analystes de données, Data Scientists ou développeurs ayant une appétence pour le Machine Learning.

Prérequis

Une connaissance de Python, R, Scala ou SQL, est préférable.

Une connaissance préalable de Java, et Spark n’est pas requise.

Veuillez noter que cette formation se focalise sur l’utilisation de Spark dans le cadre de l’Analyse de Données et du Machine Learning et n’est pas une formation dédiée au fonctionnement interne de Spark d’un point de vue développeur. Si vous souhaitez une formation 100% dédiée au développement sur Spark (et donc moins de focus sur ses APIs d’analyse de données), nous conseillons plutôt la formation Apache Spark pour développeurs que nous proposons également.

Les postes de travail et les logiciels nécessaires au bon déroulement de la formation sont fournis par Xebia. Les participants peuvent amener leurs propres postes s’ils le souhaitent, sans configuration particulière préalable.

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

SOFTWARE TRAINING DONE RIGHT