Descripción
Presentacion
La materia prima de Big Data son los datos y uno de los problemas básicos es como almacenamos y consultamos grandes volúmenes de información en este curso veremos buenas practicas que nos permitan gestionar el almacenamiento y la consulta de nuestros datos de la forma más eficiente.
Dirigido a
Profesionales de tecnología con experiencia en arquitectura y desarrollo.
Temario
Temario
Módulo 1. Introducción al Almacenamiento de datos 2 Hora
- Introducción general al concepto de Big Data.
- Importancia del almacenamiento con sentido y ordenado. Concepto de Big Trash.
- Como hacer el dato manejable y como acceder a él (introduce los siguientes apartados)
Módulo 2. Consultas SQL-Like 5 Horas
- Herramientas que permiten transformar/consultar la información usando un lenguaje SQL-Like, ampliamente extendido en el mercado actual, lo que facilita su implantación y uso.
- HIVE. Más enfocado a la transformación a través de scripts ejecutados en Batch. Soporta el estándar SQL casi en su totalidad. Usa un motor para realizar los cálculos transformando el script &ldquo,SQL&rdquo, en código interpretable por el motor.
- IMPALA (consultas near real time). También usa un lenguaje muy próximo al SQL y ofrece respuestas a las consultas en lapsos cercanos al tiempo real.
Módulo 3. Consultas NoSQL 5 Horas
- BDD NoSQL (Hbase). Bases de datos preparadas para hacer cantidades ingentes de consultas de datos que no emplean el estandar SQL, sino que, generalmente, usan sentencias scan, put y get. Se ve el ejemplo de Hbase
- Indexación de documentos (ElasticSearch). Herramientas con un comportamiento similar a las bases de datos no SQL en cuanto a que permite almacenar información y realizar consultas complejas sobre la información. Están más enfocados al análisis complejo de cadenas de texto e indicadores sobre la información.
Módulo 4. Herramientas de Gestión y Ejecución 3 Horas
- Distribución Hadoop Cloudera. Ejemplo de Interfaz web para la gestión de consultas y scripts:
- HUE. Como front-end y herramienta de gestión de los scripts y consultas SQL, es básico, pero funcional
Módulo 5. Visualización (informes y cuadros de mando) 3 Horas
- Kibana (elasticSearch). Herramienta que se integra a la perfección con Elastic Search (Ecosistema ElasticSearch-Kibana-logstash)
- ClickView. Solución de visializaciín que además de los conectores anteriores permite conectar con casi cualquier origen con un conector odbc/jdbc.