hadooppython
28 horas (usualmente 4 días, incluidas las pausas)
Hadoop es un popular marco de procesamiento Big Data. Python es un lenguaje de programación de alto nivel famoso por su claridad de sintaxis y código.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán cómo trabajar con Hadoop, MapReduce, Pig y Spark utilizando Python, ya que pasan por múltiples ejemplos y casos de uso.
Al final de esta capacitación, los participantes podrán:
Introducción
Comprender la arquitectura y los conceptos clave de Hadoop
Comprender el Sistema de archivos distribuidos de Hadoop (HDFS)
Descripción general de HDFS y su diseño arquitectónico
Interactuando con HDFS
Realización de operaciones de archivos básicos en HDFS
Descripción general de la referencia de comandos de HDFS
Descripción de Snakebite
Instalando Snakebite
Uso de la biblioteca del cliente de Snakebite
Usando el CLI Client
Aprendiendo el modelo de programación MapReduce con Python
Descripción general del modelo de programación de MapReduce
Comprender el flujo de datos en el Framework MapReduce
Mapa
Mezclar y ordenar
Reducir
Uso de la herramienta Hadoop Streaming
Comprender cómo funciona la herramienta Hadoop Streaming
Demostración: Implementación de la aplicación WordCount en Python
Usando la biblioteca mrjob
Descripción de mrjob
Instalando mrjob
Demostración: Implementación del algoritmo WordCount con mrjob
Comprender cómo funciona un trabajo MapReduce escrito con la biblioteca mrjob
Ejecutando una aplicación MapReduce con mrjob
Práctico: calcular los mejores sueldos usando mrjob
Learning Pig con Python
Descripción del cerdo
Demostración: Implementación del algoritmo WordCount en Pig
Configurando y Ejecutando Pig Scripts y Pig Statements
Usando los modos de ejecución Pig
Usando el modo interactivo Pig
Usando el modo Pic Batch
Comprender los conceptos básicos del lenguaje Pig Latin
Usando declaraciones
Cargando datos
Transformando datos
Almacenamiento de datos
Extender la funcionalidad de Pig con las UDF de Python
Registrar un archivo UDF de Python
Demostración: Un UDF simple de Python
Demostración: manipulación de cadenas mediante Python UDF
Hands-on: Cálculo de las 10 películas más recientes con Python UDF
Usando Spark y PySpark
Descripción de Spark
Demostración: Implementación del algoritmo WordCount en PySpark
Descripción de PySpark
Usando un Shell interactivo
Implementando aplicaciones autónomas
Trabajar con conjuntos de datos distribuidos (RDD) resilientes
Crear RDD desde una colección de Python
Crear RDD a partir de archivos
Implementando transformaciones RDD
Implementando acciones RDD
Hands-on: Implementando un programa de búsqueda de texto para títulos de películas con PySpark
Administrar el flujo de trabajo con Python
Descripción de Apache Oozie y Luigi
Instalando Luigi
Comprender los conceptos de Luigi Workflow
Tareas
Objetivos
Parámetros
Demostración: examen de un flujo de trabajo que implementa el algoritmo WordCount
Trabajando con Hadoop Workflows que controlan MapReduce y Pig Jobs
Usando los archivos de configuración de Luigi
Trabajando con MapReduce en Luigi
Trabajando con cerdo en Luigi
Resumen y conclusión
We are looking to expand our presence in Guatemala!
If you are interested in running a high-tech, high-quality training and consulting business.
Apply now!























.png)






_ireland.gif)
















