¿Hay alguna empresa que proporcione la certificación Hive o Pig por separado? Educación te da un futuro mejor

Puedes optar por estos cursos.

Curso de certificación de colmena

Curso integral de certificación de cerdos

Pero antes de eso, le recomendaría que comprenda Big Data y Hadoop para obtener el máximo beneficio. Para que comprenda estos temas en detalle, le recomendaría que primero comprenda Big Data y los desafíos asociados con Big Data. Entonces, puede entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog Qué es Hadoop y Hadoop Tuorial te presentará eso.

Entonces debe comprender cómo funciona la arquitectura Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto lo ayudará a comprender los aspectos prácticos en detalle.

Continuando, sumérjase en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Entonces, aprenderá a crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es el Big Data?

Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre información sobre los datos y aproveche al máximo.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NameNode

Es el demonio maestro que mantiene

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que tienen lugar en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, NameNode lo registrará inmediatamente en EditLog. Regularmente recibe un Heartbeat y un informe de bloque de todos los DataNodes en el clúster para garantizar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos según las decisiones tomadas por NameNode.

Para el procesamiento, usamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Gestiona recursos y programa aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar contenedores y monitorear la utilización de recursos en cada contenedor. También realiza un seguimiento de la salud del nodo y la gestión de registros. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica del procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y ordenar. Mientras que la función Reduce agrega y resume el resultado producido por la función map. El resultado generado por la función Map es par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede leer este video para comprender Hadoop y su arquitectura en detalle.

Este video le dará una idea clara sobre Big Data y Hadoop:

Instale Hadoop Single Node y Multi Node Cluster

Luego, puede consultar este blog de Hadoop Ecosystem para aprender en detalle sobre Hadoop Ecosystem.

También puede leer este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , el idioma y el tiempo de ejecución de Pig , para el entorno de ejecución. Puede entenderlo mejor como Java y JVM. Es compatible con el lenguaje latino porcino .

Como no todos pertenecen a un fondo de programación. Entonces, Apache PIG los alivia. ¿Puede ser curioso saber cómo?

Bueno, te diré un hecho interesante:

10 líneas de latín de cerdo = aprox. 200 líneas de código Java Map-Reduce

Pero no se sorprenda cuando digo que al final del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como un cuadro negro). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesar y analizar grandes conjuntos de datos.

Colmena

Facebook creó HIVE para personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza lectura, escritura y gestión de grandes conjuntos de datos en un entorno distribuido utilizando una interfaz similar a SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar al SQL. La colmena es altamente escalable. Como, puede servir tanto para los propósitos, es decir, el procesamiento de grandes conjuntos de datos (es decir, el procesamiento de consultas por lotes) y el procesamiento en tiempo real (es decir, el procesamiento de consultas interactivas). La colmena se convierte internamente en programas MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede utilizar funciones predefinidas o escribir funciones definidas por el usuario (UDF) personalizadas también para cumplir con sus necesidades específicas.

Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop .