Data
La sécurité Hadoop c’est bien. Ne pas en avoir ça craint.
Ce cours, avant tout pratique, se propose d’aborder une grande partie des aspects sécurité à mettre en place sur un cluster.
Programme
Sécurité Linux
- Réseau : Modes d’accès, découpage logique, protection
- Authentification : PAM
- Autorisations : DAC, MAC, SE Linux (LSM, macro fonctionnement)
- Chiffrement
- Audit
Exercice n°1 : Introduction à la sécurité Linux
Sécurité Hadoop par défaut
-
Présentation de la sécurité par défaut
Exercice n° 2 : Sécurité Hadoop par défaut
Authentification : Kerberos
-
Qu’est-ce-que Kerberos ? Pourquoi Kerberos sur Hadoop ?
-
Déroulement d’une authentification
-
Installation
-
Configuration
-
Administration
Exercice n°2 : Fonctionnement de Kerberos
Impacts Kerberos
-
Services de l’écosystème Hadoop impactés
-
Authentification Java
Exercice n°3 : Intégration Hadoop – Kerberos
Group Mapping
-
Définition
-
Différentes méthodes possibles
Exercice n°4 : Manipulation du Group Mapping par défaut
LDAP
-
Définition
-
Utilisation
-
Hue
Exercice n°5 : Intégration LDAP
Autorisations
-
Gestion des autorisations
-
Apache Sentry
-
Administration
Exercice n°6 : Manipulation de Sentry
Chiffrement
-
SSL
-
Key Store
-
Chiffrement des données
Exercice n°7 : Chiffrement
Next steps
-
Autres distributions
-
Audit
Conclusion
Objectif
Connaître les composants utilisés pour sécuriser un système Linux.
Connaître la sécurité Hadoop autours des axes
-
Réseau
-
Authentification
-
Autorisations
-
Chiffrement
-
Audit
Savoir installer, configurer, dimensionner les composants Hadoop pour être en mesure d’appliquer la sécurité dans son ensemble.
A l’issue de cette formation, vous serez en mesure de sécuriser un cluster Hadoop et de gérer les autorisations d’usage de la majorité des composants.
-
Hive
-
Impala
-
HBase
-
SolR
-
HDFS
-
Kafka
-
Flume
-
Hue
Vous connaîtrez les impacts de la sécurité aussi bien en terme de code, de configuration que de performance.
Un ensemble de bonnes pratiques seront transmises pour implémenter correctement la sécurité.
Méthodes pédagogiques
Tarif HT
Inter : 1 800 €
Intra : Selon demande
Prochaines dates de formation
30-31 août
22 – 23 octobre
Biographie
Bruno Bouchahoua
Bruno Bouchahoua est un ingénieur Systèmes & logiciels spécialisé dans les systèmes distribués.
- Développement logiciel sur écosystème Hadoop avec Spark
- Administration de cluster.
- NoSQL avec HBase et Mongo Db.
- Conception & développement d'applications distribuées.
- Industrialisation des développements.
- DevOps autour des stack Data
- Sécurité des systèmes distribués
- Déploiement dans le Cloud et définition d'architectures Cloud
Actuellement, il oeuvre au sein de missions d'expertise en tant que Data Architect sur des environnements à forte volumétrie dans différents secteurs d'activité.
Bruno anime plusieurs formations chez Xebia Training autour du domaine de la data.
Il a également été speaker lors du Mois de la Data et participé à l'élaboration d'articles sur le blog technique de Xebia.
Biographie
Jonathan Norblin
Jonathan Norblin est un Data Engineer très attaché à la qualité et aux bonnes pratiques de développement (software craftsmanship).
Résumé de son expertise :
- Développement logiciel sur écosystème Hadoop avec Spark
- Utilisation des outils de l’écosystème Hadoop (Hive, Impala, HBase, Zookeeper, Flume, ...)
- DevOps (systèmes GNU/Linux, Docker, Packer)
- Compétences Cloud (Google Cloud Platform)
- Sécurité des Systèmes d’Information
Actuellement, il œuvre au sein de missions en tant que Data Engineer confirmé, dans différents secteurs d’activité.
Il a également été speaker lors du Mois de la Data, participé à l'élaboration d'articles sur le blog technique de Xebia et à des présentations en interne (Xebia Knowledge Exchange).
Validation
À la fin de cette formation, les stagiaires recevront une attestation de présence.

SOFTWARE TRAINING DONE RIGHT