Descripción
Presentacion
R se ha convertido en un estándar mundial para el análisis de información y para aprovechar al máximo sus capacidades se une a al ecosistema Spark permitiendo el análisis de grandes volúmenes de información que nos permiten contestar a preguntas que antes nos resultaban muy complicadas, dando a nuestro negocio ventaja competitivas sobre el resto
Dirigido a
Profesionales en el análisis de información que quieren ampliar los métodos analíticos en un ecosistema Big Data como Spark.
Temario
Temario
Modulo 1. Big Data Engineering & Data Science 1 Hora
- Vision general del rol de Data Big Data Engineering
- Visión General del rol de Data Science
Modulo 2. Programación Básica con R 1 Horas
- Conceptos básicos del uso de R
- Entorno R
- R Studio
Módulo 3. Análisis de Información 4 Horas
- Análisis clásico (PCA, Factor Analysis, &hellip,)
- Análisis no lineal (Métodos Kernel)
- Preparación de Datos
- Selección de Variables y modelos
Módulo 4. Análisis Supervisado y No Supervisado 4 Horas
- Análisis No Supervisados. Cluster
- Análisis Supervisado. Regresiones.
- Análisis Supervisado. Clasificación.
Módulo 5. Ecosistema Spark 1 Horas
- El ecosistema Spark
- Spark en distribuciones Big Data
- Spark as a Service (cloud)
- Arquitectura
Módulo 6. Spark Core 2 Horas
- SparkContext y RDDs
- API: Operaciones con RDDs
- Taller programación API
Módulo 7. Spark SQL 2 Horas
- SQLContext y DataFrames
- API:
* Operaciones con dataframes
* Creación de tablas
- Lenguaje de consultas: HiveQL
- Thriftserver