Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . También puede consultar la lista de reproducción de videos tutoriales de Spark y la serie de blogs de Spark . Su aprendizaje debe estar alineado con la certificación Hadoop .
La capacitación de Edureka Hadoop está diseñada para convertirlo en un profesional certificado de Big Data al brindarle una capacitación práctica enriquecedora sobre el ecosistema de Hadoop y las mejores prácticas sobre HDFS, MapReduce, HBase, Hive, Pig, Oozie, Sqoop. Este curso es un trampolín para su viaje de Big Data y tendrá la oportunidad de trabajar en un proyecto de análisis de Big Data después de seleccionar un conjunto de datos de su elección. Obtendrá la certificación edureka Hadoop después de la finalización del proyecto.
La capacitación de Edureka hadoop está diseñada para ayudarlo a convertirse en uno de los principales desarrolladores de Hadoop. Durante este curso, nuestros instructores expertos lo capacitarán para:
- Domine los conceptos del marco HDFS y MapReduce
- Comprender la arquitectura de Hadoop 2.x
- Configure Hadoop Cluster y escriba programas complejos de MapReduce
- Aprenda técnicas de carga de datos utilizando Sqoop y Flume
- Realice análisis de datos con Pig, Hive y YARN
- Implemente la integración de HBase y MapReduce
- Implemente el uso avanzado y la indexación
- Programar trabajos con Oozie
- Implemente las mejores prácticas para el desarrollo de Hadoop
- Comprender Spark y su ecosistema
- Aprenda a trabajar en RDD en Spark
- Trabaja en un proyecto de la vida real en Big Data Analytics
También me gustaría decirles que los proyectos y la práctica son muy importantes durante el curso. Algunos de los proyectos por los que pasará son:
- Proyecto # 1: Analice los sitios de marcadores sociales para encontrar información
- Proyecto # 2: Análisis de quejas de clientes
- Proyecto # 3: Análisis de datos turísticos
- Proyecto # 4: Análisis de datos de la aerolínea
- Proyecto # 5: Analizar el conjunto de datos de préstamos
- Proyecto # 6: Analizar clasificaciones de películas
- Proyecto # 7: Analiza datos de YouTube
y muchos más.
En Edureka obtienes:
Sesiones dirigidas por un instructor: 30 horas de clases en vivo en línea dirigidas por un instructor. Clase de fin de semana: 10 sesiones de 3 horas cada una y clase de lunes a viernes: 15 sesiones de 2 horas cada una.
Estudios de casos de la vida real: proyecto en vivo basado en cualquiera de los casos de uso seleccionados, que involucra Big Data Analytics.
Asignaciones: a cada clase le seguirán tareas prácticas que se pueden completar antes de la próxima clase.
Acceso de por vida: obtienes acceso de por vida al Sistema de gestión de aprendizaje (LMS). Las grabaciones de clase y las presentaciones se pueden ver en línea desde el LMS.
Asistencia experta las 24 horas del día, los 7 días de la semana: tenemos un equipo de asistencia en línea disponible las 24 horas del día, los 7 días de la semana para ayudarle con cualquier consulta técnica que pueda tener durante el curso
Certificación: hacia el final del curso, estará trabajando en un proyecto. Edureka lo certifica como un experto en Big Data y Hadoop basado en el proyecto.
Foro: Tenemos un foro comunitario para todos nuestros clientes en el que puede enriquecer su aprendizaje a través de la interacción entre pares y el intercambio de conocimientos.
Le recomendaría que primero comprenda Big Data y los desafíos asociados con Big Data. Entonces, puede entender cómo Hadoop surgió como una solución a esos problemas de Big Data.
Entonces debe comprender cómo funciona la arquitectura Hadoop con respecto a HDFS, YARN y MapReduce. Después de esto, debe instalar Hadoop en su sistema para poder comenzar a trabajar con Hadoop. Esto lo ayudará a comprender los aspectos prácticos en detalle.
Continuando, sumérjase en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Entonces, aprenderá a crear una solución personalizada de acuerdo con sus requisitos.
¿Qué es el Big Data?
Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.
Se caracteriza por 5 V’s.
VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.
VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.
VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.
VALOR: Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y aproveche al máximo.
VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos.
¿Qué es Hadoop y su arquitectura?
Los componentes principales de HDFS son NameNode y DataNode .
NameNode
Es el demonio maestro que mantiene
y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que tienen lugar en los metadatos del sistema de archivos.
Por ejemplo, si un archivo se elimina en HDFS, NameNode lo registrará inmediatamente en EditLog. Regularmente recibe un Heartbeat y un informe de bloque de todos los DataNodes en el clúster para garantizar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.
DataNode
Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicar los mismos en función de las decisiones tomadas por NameNode.
Para el procesamiento, usamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .
Administrador de recursos
Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Gestiona recursos y programa aplicaciones que se ejecutan sobre YARN.
NodeManager
Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar contenedores y monitorear la utilización de recursos en cada contenedor. También realiza un seguimiento de la salud del nodo y la gestión de registros. Se comunica continuamente con ResourceManager para mantenerse actualizado.
Puede realizar el procesamiento paralelo en HDFS usando MapReduce.
Mapa reducido
Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica del procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función de mapa realiza acciones como filtrado, agrupación y clasificación. Mientras que la función Reducir agrega y resume el resultado producido por la función de mapa. El resultado generado por la función Mapa es un par de valores clave (K, V) que actúa como entrada para la función Reducir.
Puede leer este video para comprender Hadoop y su arquitectura en detalle.
Instale Hadoop Single Node y Multi Node Cluster
Luego, puede consultar este blog de Hadoop Ecosystem para aprender en detalle sobre Hadoop Ecosystem.
También puede leer este video tutorial de Hadoop Ecosystem.
Chispa – chispear
Apache Spark es un marco para el análisis de datos en tiempo real en un entorno informático distribuido. The Spark está escrito en Scala y fue desarrollado originalmente en la Universidad de California, Berkeley. Ejecuta cálculos en memoria para aumentar la velocidad del procesamiento de datos sobre Map-Reduce. Es 100 veces más rápido que Hadoop para el procesamiento de datos a gran escala al explotar los cálculos en memoria y otras optimizaciones. Por lo tanto, requiere un alto poder de procesamiento que Map-Reduce.
Como puede ver, Spark viene con bibliotecas de alto nivel, que incluyen soporte para R, SQL, Python, Scala, Java, etc. Estas bibliotecas estándar aumentan las integraciones integradas en el flujo de trabajo complejo. Sobre esto, también permite que varios conjuntos de servicios se integren con él como MLlib, GraphX, SQL + Data Frames, servicios de transmisión, etc. para aumentar sus capacidades.
También puede leer este video de preguntas de la entrevista de Hadoop para tener una idea de las preguntas formuladas en una entrevista de Hadoop.