SPARK – Traitement des données en python ou scala

Le big data, littéralement « grosses données », ou métadonnées, également appelées données massives, désigne des ensembles de données tellement volumineux qu’il devient difficile à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information.

Le big data est essentiel pour répondre aux nouveaux enjeux de traitement de très hautes volumétries de données structurées et non structurées à grande vitesse afin de créer de la valeur pour l’entreprise.

https://www.formation-bigdata.com/formateur-big-data

40 formations

+20 années d’expérience

+800 participants

99% clients satisfaits

Contenu de la formation

OBJECTIFS

  • Appréhender le fonctionnement de Spark
  • Développer des applications avec Apache Spark
  • Optimiser une application Spark
  • Utiliser Spark SQL et les dataframes
  • Faire de l’analyse en temps réel avec Spark streaming
  • Développer un producteur et un consommateur Kafka avec Spark
  • Découvrir MLLib pour du machine learning sur Spark

PUBLIC

  • Développeur, Ingénieur d’études, Architecte technique

PRE-REQUIS

  • Aucune connaissance sur Spark n’est requise.
  • Connaissances de base en programmation ou en scripting (Python/Scala)
  • Des notions basiques en machine learning, probabilité, en algèbre linéaire et en calcul mathématique sont un plus pour certaines parties du cours.
  • Aucune connaissance sur Hadoop n’est requise
  • Connaissances en SQL utiles mais non obligatoire

Introduction à Spark

  • Présentation Spark, origine du projet
  • Apports, principe de fonctionnement
  • Spark vs Mapreduce
  • Langages supportés.

Premiers pas

  • Utilisation du shell Spark avec Scala ou Python
  • Gestion du cache

Travailler avec les RDD

  • Créer des RDD
  • Opérations principales avec les RDD

Agrégation des données avec les paires RDD

  • Key-value Pair RDD
  • Map Reduce
  • Autres opérations avec les Paires-RDD

Ecrire et exécuter des applications Spark

  • Spark Shell versus Spark Application
  • Création du Spark Context
  • Construction d’une application Spark
  • Lancement d’une application Spark
  • Web UI relatives à Spark

Configuration des applications Spark

  • Propriétés de configuration de Spark
  • Gestion des log

Exécution distribuée

  • Spark en exécution sur un cluster
  • Partition des RDD
  • Partition des RDD basés sur des fichiers
  • “Data Locality” sur HDFS
  • Exécution des opérations en parallèle
  • Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
  • Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
  • Soumission de jobs, supervision depuis l’interface web
  • Travaux pratiques avec YARN
  • Création et exploitation d’un cluster Spark/YARN

Cacher et persister la donnée

  • Cache et persistance
  • Mise en pratique : “cacher et persister la donnée”
  • Exemple d’application itérative : PageRank
  • Checkpointing
  • Mise en pratique : “Checkpointing et RDD lineage”

Fonctionnalités avancées et amélioration des performances

  • Exécution des opérations en parallèle
  • Accumulateurs
  • Mise en pratique : “Utiliser les accumulateurs pour vérifier la qualité des données”
  • Variables « broadcast »
  • Mise en pratique : “Utiliser les variables broadcast”
  • Partitionnement avancé et opérations
  • Point de départ pour l’optimisation

DataFrame et Apache Spark SQL

  • Apache Spark SQL et le SQL Context
  • Création des Dataframes
  • Transformer et requêter un Dataframe
  • Persister un Dataframe
  • Dataframes et RDD
  • Comparaison entre Spark SQL, Impala et Hive On Spark

Traitement des messages avec Apache Kafka

  • Qu’est ce que Apache Kafka ?
  • Architecture d’un cluster Kafka
  • Création d’un consommateur et d’un producteur Kafka avec spark

Apache Spark Streaming: Introduction DStream

  • Présentation d’Apache Spark Streaming
  • Exemple de cas d’utilisation temps réel
  • DStreams
  • Développement d’application temps réel

Apache Spark MLLIB

  • Vue d’ensemble de MLLib
  • Apprentissage supervisé
  • Apprentissage non supervisé

Les plus de la formation

Les formateurs sont des experts techniques et business en activité travaillant pour de grands comptes sur des projets à fortes valeurs ajoutées liés au Big Data.

Les stagiaires pourront bénéficier de leurs expertises et de leurs retours d’expériences. Le but n’est pas de présenter les technologies Big Data comme une solution miracle. Nous partagerons aussi les difficultés rencontrées par nos experts lors de leurs mises en œuvre.

Nous vous offrirons également un kit d’outils et de documents qui vous permettront d’être autonome en disposant d’un environnement Big Data avec tout l’écosystème nécessaire pour travailler sur vos propres PC.

La formation s’appuie sur de nombreux cas pratiques inspirés de cas d’usages réels rencontrés par nos experts en entreprise.

SPARK – Traitement des données en python ou scala

  Code : SPKPS

  Prix : 2400€ (HT)

  Prix Repas: 35 €

  Durée: 4 jours

  Lieu : Paris


Sessions

26/03/2018
18/06/2018
17/09/2018
23/10/2018

 

Inscription

Ces professionnels nous font confiance

Ils témoignent de leurs expériences

“Formation avec beaucoup d’exercice, ce qui simplifie véritablement la compréhension. Encore merci pour le café et les biscuits 🙂  ”

Sebastien M

“Tout était clair et facile à comprendre avec beaucoup de patience du prof. La formation m’a apporté une vision d’ingénieur Bi.”

Zahojun H

Des formations qui pourraient vous intéresser

Nous vous proposons des formations de qualité, soigneusement préparées par des professionnels.

Ce que nos clients pensent de nous

“Après de sincères et profonds remerciements, je tiens à féliciter notre intervenant et par extension tout ceux qui ont contribué à cette formation, pour l’ apport que ce soit à un niveau personnel ou professionnel.
En effet , cette formation m’a permis non seulement de revisiter certains aspects  du Big Data avec une vision nouvelle et plus précise mais également d’assimiler de nombreuses connaissances . Les remarques pertinentes avec les détails pratiques ont permis de bénéficier du recul et de l’expérience de notre formateur.”

Mehdi Z

” Très bonne formation, ne surtout pas hésiter à partager ses expériences professionnels, que ce soit en terme de projets, de problèmes rencontrés dans le monde de l’entreprise ou encore de questions rencontrées en entretien.
Les plus de cette formation ont été la vision plus large qu’on peut se faire des projets de la vie réelle et des domaines qui accompagne le nôtre (data science), ainsi que de la culture pouvant aider à se démarquer lors d’un entretien. Pour finir, les supports étaient très clairs et les schémas rendaient les idées très simples à comprendre et retenir.”

Alexandre T

Newsletter

Retrouvez l’essentiel de l’actualité du Big Data directement par mail !

Les experts de Formation-BigData décortiquent chaque mois l’actualité, les dernières innovations.