Schița de curs
- Introducere Scala O scurtă introducere în Scala Labs: Cunoașterea Scala Spark Elemente de bază Context și istorie Concepte și arhitectură Spark și Hadoop Spark Ecosistem Spark (core, spark sql, mlib, streaming) Labs: Instalarea și rularea Spark Prima privire la Spark Running Spark în mod local Spark web UI Spark shell Analiza setului de date – partea 1 Inspectarea RDD-urilor Labs: Spark shell explorare RDD-uri Concepte RDD-uri Partiții RDD Operații / transformări Tipuri RDD Pereche cheie-valoare RDD-uri MapReduce pe RDD Laboratoare de cache și persistență: creare și inspectare RDD; Memorarea în cache RDD-uri Programare API Spark Introducere în API-ul Spark / API-ul RDD Trimiterea primului program la Spark Depanare/înregistrare Proprietăți de configurare Laboratoare: Programare în API-ul Spark, Trimiterea job-urilor Suport Spark SQL SQL în Spark Dataframes Definirea tabelelor și importarea seturilor de date Interogarea datelor cadre folosind SQL Formate de stocare : JSON / Parquet Labs : Crearea și interogarea cadrelor de date; evaluarea formatelor de date MLlib MLlib intro Algoritmi MLlib Labs: Scrierea aplicațiilor MLib Prezentare generală a bibliotecii GraphX GraphX API-urile GraphX Labs: Procesarea datelor grafice folosind Spark Spark Streaming Prezentare generală Streaming Evaluarea platformelor de Streaming Operațiuni de Streaming Operațiuni cu ferestre glisante Labs: Scriere aplicații Hadoop și Spark Spark (streaming) HDFS / YARN) Arhitectura Hadoop + Spark Rularea Spark pe Hadoop YARN Procesarea fișierelor HDFS folosind Spark Spark Performanță și reglare Variabile de difuzare Acumulatoare Gestionare memorie și stocare în cache Operații Spark Implementarea Spark în producție Exemple de șabloane de implementare Configurații Monitorizare Depanare
Cerințe
CONDIȚII PREALABILE
familiaritate cu limbajul Java / Scala / Python (laboratoarele noastre în Scala și Python) înțelegere de bază a mediului de dezvoltare Linux (navigare în linia de comandă / editarea fișierelor folosind VI sau nano)
Mărturii (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curs - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curs - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curs - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curs - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Curs - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.