Descripción
Presentacion
Apache Spark es un entorno &ldquo,open source&rdquo, de computación.
Originalmente desarrollado por la Universidad de California, Berkeley',s AMPLab, AMPLab. El objetivo de este curso es proporcionar una visión general sobre todos los elementos de este entorno su funcionalidad, uso y utilidad para implementar proyectos en compañías.
Dirigido a
Profesionales de tecnología con experiencia en arquitectura y desarrollo.
Temario
Temario
Módulo 1. Visión General 2 Hora
- El ecosistema Spark
- Spark en distribuciones Big Data
- Spark as a Service (cloud)
- Arquitectura
Módulo 2. Spark Core 3 Horas
- SparkContext y RDDs
- API: Operaciones con RDDs
- Taller programación API
- Despliegue de aplicaciones
Módulo 3. Spark SQL 5 Horas
- SQLContext y DataFrames
- API:
* Operaciones con dataframes
* Creación de tablas
- Lenguaje de consultas: HiveQL
- Thriftserver
Módulo 4. Spark Streaming 5 Horas
- Modelo de procesamiento de Spark Streaming
- Stream de datos
- Arquitectura de Spark Streaming
- API
* Transformaciones y output
* Operaciones en ventana
- Tolerancia a fallos
- Monitorización de Trabajos de Streaming en Web UI
Módulo 5. Mlib Machine Learning Library 3 Horas
- Principios básicos de Machine Learning
- Machine Learning con RDD
- Uso de pipelines y DataFrames con Machine Learning
- Patrones Spark ML API
- Algoritmos implementados en Spark ML API