SPARK – Traitement des données en python ou scala
Le big data, littéralement « grosses données », ou métadonnées, également appelées données massives, désigne des ensembles de données tellement volumineux qu’il devient difficile à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information.
Le big data est essentiel pour répondre aux nouveaux enjeux de traitement de très hautes volumétries de données structurées et non structurées à grande vitesse afin de créer de la valeur pour l’entreprise.
40 formations
+20 années d’expérience
+800 participants
99% clients satisfaits
Contenu de la formation
OBJECTIFS
- Appréhender le fonctionnement de Spark
- Développer des applications avec Apache Spark
- Optimiser une application Spark
- Utiliser Spark SQL et les dataframes
- Faire de l’analyse en temps réel avec Spark streaming
- Développer un producteur et un consommateur Kafka avec Spark
- Découvrir MLLib pour du machine learning sur Spark
PUBLIC
- Développeur, Ingénieur d’études, Architecte technique
PRE-REQUIS
- Aucune connaissance sur Spark n’est requise.
- Connaissances de base en programmation ou en scripting (Python/Scala)
- Des notions basiques en machine learning, probabilité, en algèbre linéaire et en calcul mathématique sont un plus pour certaines parties du cours.
- Aucune connaissance sur Hadoop n’est requise
- Connaissances en SQL utiles mais non obligatoire
Introduction à Spark
- Présentation Spark, origine du projet
- Apports, principe de fonctionnement
- Spark vs Mapreduce
- Langages supportés.
Premiers pas
- Utilisation du shell Spark avec Scala ou Python
- Gestion du cache
Travailler avec les RDD
- Créer des RDD
- Opérations principales avec les RDD
Agrégation des données avec les paires RDD
- Key-value Pair RDD
- Map Reduce
- Autres opérations avec les Paires-RDD
Ecrire et exécuter des applications Spark
- Spark Shell versus Spark Application
- Création du Spark Context
- Construction d’une application Spark
- Lancement d’une application Spark
- Web UI relatives à Spark
Configuration des applications Spark
- Propriétés de configuration de Spark
- Gestion des log
Exécution distribuée
- Spark en exécution sur un cluster
- Partition des RDD
- Partition des RDD basés sur des fichiers
- “Data Locality” sur HDFS
- Exécution des opérations en parallèle
- Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
- Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
- Soumission de jobs, supervision depuis l’interface web
- Travaux pratiques avec YARN
- Création et exploitation d’un cluster Spark/YARN
Cacher et persister la donnée
- Cache et persistance
- Mise en pratique : “cacher et persister la donnée”
- Exemple d’application itérative : PageRank
- Checkpointing
- Mise en pratique : “Checkpointing et RDD lineage”
Fonctionnalités avancées et amélioration des performances
- Exécution des opérations en parallèle
- Accumulateurs
- Mise en pratique : “Utiliser les accumulateurs pour vérifier la qualité des données”
- Variables « broadcast »
- Mise en pratique : “Utiliser les variables broadcast”
- Partitionnement avancé et opérations
- Point de départ pour l’optimisation
DataFrame et Apache Spark SQL
- Apache Spark SQL et le SQL Context
- Création des Dataframes
- Transformer et requêter un Dataframe
- Persister un Dataframe
- Dataframes et RDD
- Comparaison entre Spark SQL, Impala et Hive On Spark
Traitement des messages avec Apache Kafka
- Qu’est ce que Apache Kafka ?
- Architecture d’un cluster Kafka
- Création d’un consommateur et d’un producteur Kafka avec spark
Apache Spark Streaming: Introduction DStream
- Présentation d’Apache Spark Streaming
- Exemple de cas d’utilisation temps réel
- DStreams
- Développement d’application temps réel
Apache Spark MLLIB
- Vue d’ensemble de MLLib
- Apprentissage supervisé
- Apprentissage non supervisé
Les plus de la formation
Les formateurs sont des experts techniques et business en activité travaillant pour de grands comptes sur des projets à fortes valeurs ajoutées liés au Big Data.
Les stagiaires pourront bénéficier de leurs expertises et de leurs retours d’expériences. Le but n’est pas de présenter les technologies Big Data comme une solution miracle. Nous partagerons aussi les difficultés rencontrées par nos experts lors de leurs mises en œuvre.
Nous vous offrirons également un kit d’outils et de documents qui vous permettront d’être autonome en disposant d’un environnement Big Data avec tout l’écosystème nécessaire pour travailler sur vos propres PC.
La formation s’appuie sur de nombreux cas pratiques inspirés de cas d’usages réels rencontrés par nos experts en entreprise.
Ces professionnels nous font confiance
Ils témoignent de leurs expériences
“Formation avec beaucoup d’exercice, ce qui simplifie véritablement la compréhension. Encore merci pour le café et les biscuits 🙂 ”
“Tout était clair et facile à comprendre avec beaucoup de patience du prof. La formation m’a apporté une vision d’ingénieur Bi.”
Des formations qui pourraient vous intéresser
Nous vous proposons des formations de qualité, soigneusement préparées par des professionnels.
Ce que nos clients pensent de nous
“Après de sincères et profonds remerciements, je tiens à féliciter notre intervenant et par extension tout ceux qui ont contribué à cette formation, pour l’ apport que ce soit à un niveau personnel ou professionnel.
En effet , cette formation m’a permis non seulement de revisiter certains aspects du Big Data avec une vision nouvelle et plus précise mais également d’assimiler de nombreuses connaissances . Les remarques pertinentes avec les détails pratiques ont permis de bénéficier du recul et de l’expérience de notre formateur.”
” Très bonne formation, ne surtout pas hésiter à partager ses expériences professionnels, que ce soit en terme de projets, de problèmes rencontrés dans le monde de l’entreprise ou encore de questions rencontrées en entretien.
Les plus de cette formation ont été la vision plus large qu’on peut se faire des projets de la vie réelle et des domaines qui accompagne le nôtre (data science), ainsi que de la culture pouvant aider à se démarquer lors d’un entretien. Pour finir, les supports étaient très clairs et les schémas rendaient les idées très simples à comprendre et retenir.”
Newsletter
Retrouvez l’essentiel de l’actualité du Big Data directement par mail !
Les experts de Formation-BigData décortiquent chaque mois l’actualité, les dernières innovations.