Cloudera y Hortonworks proporcionan la certificación Spark. Pero recomendaría pasar por la certificación Cloudera CCA Spark & Hadoop Developer.
Certificación Cloudera:
Los exámenes de CCA evalúan sus habilidades básicas y establecen las bases para que un candidato obtenga la certificación en el programa CCP. Cloudera tiene 3 exámenes de certificación a nivel CCA (Cloudera Certified Associate).

Desarrollador CCA Spark y Hadoop (CCA175)
La persona que obtuvo la certificación CCA Spark y Hadoop Developer ha demostrado sus habilidades básicas para ingerir, transformar y procesar datos utilizando Apache Spark y las herramientas centrales de Cloudera Enterprise. Los detalles básicos para aparecer CCA 175 son:
- Número de preguntas : 8–12 tareas basadas en el rendimiento (prácticas) en el clúster de Cloudera Enterprise
- Límite de tiempo : 120 minutos
- Puntaje de aprobación : 70%
- Precio : USD $ 295
Cada pregunta de CCA requiere que resuelva un escenario particular. En algunos casos, se puede usar una herramienta como Impala o Hive y en otros casos, se requiere codificación. Para acelerar el tiempo de desarrollo de las preguntas de Spark, a menudo se proporciona una plantilla que contiene un esqueleto de la solución, pidiéndole al candidato que complete las líneas faltantes de código funcional. Esta plantilla está escrita en Scala o Python.
No es obligatorio usar la plantilla. Puede resolver el escenario utilizando un lenguaje de programación. Sin embargo, debe tener en cuenta que codificar cada problema desde cero puede llevar más tiempo del asignado para el examen.
Su examen se califica inmediatamente después de la presentación y se le envía por correo electrónico un informe de puntaje el mismo día de su examen. Su informe de puntaje muestra el número del problema para cada problema que intentó y una calificación sobre ese problema. Si aprueba el examen, recibirá un segundo correo electrónico a los pocos días de su examen con su certificado digital en formato PDF, su número de licencia, una actualización del perfil de LinkedIn y un enlace para descargar sus logotipos de CCA para usar en su red social. perfiles de medios.
Ahora, háganos saber el conjunto de habilidades requeridas para obtener la certificación CCA 175.
Habilidades requeridas:
Ingesta de datos
Las habilidades para transferir datos entre sistemas externos y su clúster. Esto incluye lo siguiente:
- Importe datos de una base de datos MySQL a HDFS usando Sqoop
- Exportar datos a una base de datos MySQL desde HDFS usando Sqoop
- Cambie el delimitador y el formato de archivo de datos durante la importación utilizando Sqoop
- Ingreso de datos de transmisión en tiempo real y casi en tiempo real en HDFS
- Procese los datos de transmisión a medida que se cargan en el clúster
- Cargue datos dentro y fuera de HDFS utilizando los comandos del sistema de archivos Hadoop
Transformar, escenificar y almacenar
La habilidad de convertir un conjunto de valores de datos, que se almacena en HDFS en nuevos valores de datos o un nuevo formato de datos y escribirlos en HDFS.
- Cargue datos RDD de HDFS para usar en aplicaciones Spark
- Escriba los resultados de un RDD nuevamente en HDFS usando Spark
- Leer y escribir archivos en una variedad de formatos de archivo
- Realizar procesos estándar de extracción, transformación, carga (ETL) en datos
Análisis de los datos
Use Spark SQL para interactuar con el metastore programáticamente en sus aplicaciones. Genere informes utilizando consultas contra datos cargados.
- Utilice las tablas de metastore como fuente de entrada o sumidero de salida para aplicaciones Spark
- Comprender los fundamentos de las consultas de conjuntos de datos en Spark
- Filtrar datos usando Spark
- Escribir consultas que calculen estadísticas agregadas
- Únase a conjuntos de datos dispares con Spark
- Producir datos clasificados u ordenados
Avancemos y veamos la segunda certificación de Cloudera, es decir, CCA Data Analyst.
Analista de datos de CCA
La certificación de CCA Data Analyst de la persona que acredita ha demostrado sus habilidades de analista principal para cargar, transformar y modelar datos de Hadoop para definir relaciones y extraer resultados significativos de la entrada sin procesar. Los detalles básicos para aparecer CCA Data Analyst son:
- Número de preguntas : 8–12 tareas basadas en el rendimiento (prácticas) en el clúster CDH 5
- Límite de tiempo : 120 minutos
- Puntaje de aprobación : 70%
- Idioma : ingles
Para cada problema, debe implementar una solución técnica con un alto grado de precisión que cumpla con todos los requisitos. Puede usar cualquier herramienta o combinación de herramientas en el clúster. Debe poseer suficiente conocimiento para analizar el problema y llegar a un enfoque óptimo dado el tiempo permitido.
A continuación se presentan las habilidades requeridas para obtener la certificación CCA Data Analyst.
Habilidades requeridas:
Prepara los datos
Utilice los procesos de Extracción, Transferencia, Carga (ETL) para preparar datos para consultas.
- Importe datos de una base de datos MySQL a HDFS usando Sqoop
- Exportar datos a una base de datos MySQL desde HDFS usando Sqoop
- Mover datos entre tablas en el Metastore
- Transforme valores, columnas o formatos de archivo de datos entrantes antes del análisis
Proporcionar estructura a los datos
Utilice las instrucciones del lenguaje de definición de datos (DDL) para crear o alterar estructuras en el metastore para uso de Hive e Impala.
- Cree tablas utilizando una variedad de tipos de datos, delimitadores y formatos de archivo.
- Crear nuevas tablas usando tablas existentes para definir el esquema
- Mejore el rendimiento de las consultas mediante la creación de tablas particionadas en el metastore
- Alterar tablas para modificar el esquema existente
- Crear vistas para simplificar consultas
Análisis de los datos
Use las declaraciones del lenguaje de consulta (QL) en Hive e Impala para analizar los datos en el clúster.
- Prepare informes utilizando comandos SELECT, incluidas uniones y subconsultas
- Calcular estadísticas agregadas, como sumas y promedios, durante una consulta
- Cree consultas contra múltiples fuentes de datos mediante el uso de comandos de unión
- Transforme el formato de salida de las consultas utilizando funciones integradas
- Realizar consultas en un grupo de filas utilizando funciones de ventanas
Los candidatos para CCA Data Analyst pueden ser desarrolladores de SQL, analistas de datos, especialistas en inteligencia de negocios, desarrolladores, arquitectos de sistemas y administradores de bases de datos. No hay requisitos previos.
Ahora, analicemos la tercera certificación de Cloudera Hadoop, es decir, el Administrador de CCA.
Certificación de Hortomworks:
Hay cinco certificaciones de Hadoop proporcionadas por Hortonworks relacionadas con Hadoop:

HDPCD: EXAMEN DE CHISPA
Core Spark
- Escribir una aplicación Spark Core en Python o Scala
- Inicializar una aplicación Spark
- Ejecute un trabajo de Spark en YARN
- Crear un RDD
- Crear un RDD desde un archivo o directorio en HDFS
- Persistir un RDD en la memoria o en el disco
- Realizar transformaciones de Spark en un RDD
- Realizar acciones de Spark en un RDD
- Crear y usar variables de difusión y acumuladores.
- Configurar propiedades de Spark
Spark SQL
- Crear Spark DataFrames a partir de un RDD existente
- Realizar operaciones en un DataFrame
- Escribir una aplicación Spark SQL
- Use Hive con ORC de Spark SQL
- Escriba una aplicación Spark SQL que lea y escriba datos de las tablas de Hive
Para borrar estos exámenes de certificación, necesita una capacitación estructurada que lo ayude a completar estos exámenes y que también lo capacite para cumplir con los requisitos de la industria y las mejores prácticas.
Edureka Spark Certification Training está diseñado por expertos de la industria para convertirlo en un desarrollador certificado de Spark. El curso Spark Scala ofrece:
- Descripción general de Big Data y Hadoop, incluido HDFS (sistema de archivos distribuidos de Hadoop), YARN (otro negociador de recursos)
- Amplio conocimiento de varias herramientas que se encuentran en el ecosistema de Spark como Spark SQL, Spark MlLib, Sqoop, Kafka, Flume y Spark Streaming
- La capacidad de ingerir datos en HDFS usando Sqoop & Flume, y analizar esos grandes conjuntos de datos almacenados en el HDFS
- El poder de manejar los datos en tiempo real a través de un sistema de mensajería de publicación-suscripción como Kafka
- La exposición a muchos proyectos basados en la industria de la vida real que se ejecutarán utilizando CloudLab de Edureka
- Proyectos de naturaleza diversa que abarcan la banca, las telecomunicaciones, las redes sociales y los dominios gubernamentales.
- Participación rigurosa de una PYME a lo largo de Spark Training para aprender los estándares de la industria y las mejores prácticas
Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . También puede consultar la lista de reproducción de videos tutoriales de Spark y la serie de blogs de Spark . Su aprendizaje debe estar alineado con la certificación Hadoop .