¿Cuáles son las mejores certificaciones en Apache Spark?

Es una idea brillante para la certificación de Apache Spark . Dado que, además de su conocimiento práctico de Spark, las empresas prefieren contratar candidatos certificados. Hay muchas certificaciones de Apache Spark disponibles. Aún así, los mejores son:

1. Desarrollador Cloudera Spark y Hadoop

La característica que separa este proceso de certificación es la participación de la tecnología Hadoop. Básicamente, es lo mejor para aquellos que quieren trabajar en ambos simultáneamente. Además, esta certificación incluye un número diverso de temas. Por ejemplo , Flume , HDFS , Spark con Scala y Python , Avro, Sqoop, Avro e Impala. Además, las preguntas formuladas en la prueba de certificación se basan en la aptitud de programación. Además, eso puede estar en cualquier lugar dentro del rango de 10 a 15.

2. Desarrollador Apache Spark certificado por HDP

Una de las mejores certificaciones que puede obtener en Spark es el desarrollador Apache Spark certificado por Hortonworks HDP. Básicamente, pondrán a prueba sus conocimientos de Spark Core, así como Spark Data Frames en esta certificación. Además, aquellos que lo están considerando muy fácil, no es un simple examen de preguntas de opción múltiple. Además, este examen verificará sus habilidades para realizar tareas de programación en el clúster Spark a fondo.

3. Desarrollador Spar Certified Spark

Esta es una de las mejores certificaciones porque está diseñada para todos los interesados ​​en trabajar con Spark. No hay condición para ser programador, ingeniero o desarrollador para esto. Además, te ayuda a evaluar tus habilidades con Spark. Con un enfoque en la programación de tareas relacionadas, hay 60-80 preguntas en el examen con el nivel de producción Spark. Además, el único requisito para esta certificación es la experiencia de programación Java y Scala.

4. Certificaciones Databricks Apache Spark

En primer lugar, debe conocer Scala o Python para esta certificación. Al comparar con la certificación HDP, la certificación Databricks es relativamente diferente. Además, esto prueba solo tus habilidades de programación en Spark. Dado que el examen completo cubre solo la sección de programación. En última instancia, su conocimiento general se pondrá a prueba aquí.

5. O’Reilly Developer Certificaciones Apache Spark

La mejor parte de este proceso de certificación es la colaboración de Databricks y O’Reilly. De alguna manera, parece muy similar a la certificación Databricks. Aunque, también hay algunos aportes del equipo editorial de medios de O’Reilly. Básicamente, hemos visto una cosa que si quieres destacar entre la multitud, es una buena opción.

Hay muchas más ideas para saber sobre estas certificaciones, como el costo, la duración del tiempo para los exámenes, etc. Para aprender todo, siga el enlace: Las 5 mejores certificaciones de Apache Spark para su carrera en Spark

Hay 3 certificaciones Spark en el mercado:

  1. Hortonworks (HDCPD – Desarrollador Spark)
  2. Cloudera
  3. Databricks

Cuando busco en google, no encuentro más exámenes de certificación de Spark en el mercado. Cuando revisa las certificaciones anteriores, Hortonworks and Clouders se convierte en la certificación más popular y demandada en el mercado. Tienen buena base de usuarios para su plataforma.

Mi sugerencia es que, casi todos los exámenes de certificación tienen temas y cobertura similares. Por lo tanto, debe probar según la plataforma con la que esté trabajando. Si está trabajando en Hortonworks, entonces debe prepararse para la certificación de Hortonworks, eso lo ayudaría.

Si está buscando preparar el examen de certificación HDPCD, Whizlabs ofrece capacitación para este curso. Te puede ser útil:

  • Certificación de desarrollador de Spark (HDPCD)

Si tiene alguna pregunta, envíeme un mensaje.

Big data es una colección de grandes volúmenes de datos que no pueden procesarse utilizando los sistemas tradicionales de administración de bases de datos. Esta gran cantidad de datos proviene de varias fuentes, como teléfonos inteligentes, Twitter, Facebook y otras fuentes. Según diversas encuestas, el 90% de los datos mundiales se generan en los últimos dos años.

Para abordar estos problemas, los laboratorios de Google idearon un algoritmo para dividir su gran cantidad de datos en fragmentos más pequeños y asignarlos a muchas computadoras y, cuando se hicieron los cálculos, recuperar los resultados para consolidarlos. Este marco de software para almacenar y procesar big data se conoce como Hadoop. El framework Hadoop tiene muchos componentes como HDFS, MapReduce, HBase, Hive, Pig, sqoop, zookeeper para analizar datos estructurados y no estructurados utilizando hardware básico. Este es un curso de capacitación reconocido en la industria que es una combinación de los cursos de capacitación en desarrolladores de Hadoop, administrador de Hadoop, pruebas de Hadoop y análisis de big data. La capacitación de Cloudera Hadoop lo preparará para eliminar la certificación de Big Data.

En el curso de certificación de Big Data Hadoop de los servicios de capacitación de habilidades de TI, los alumnos obtendrán un conjunto de habilidades prácticas en Hadoop en detalle, incluidos sus módulos fundamentales y más recientes, como HDFS, Map Reduce, Hive, HBase, Sqoop, Flume, Oozie, Zoopkeeper, Spark y Storm . Al final del programa, los aspirantes reciben la certificación Big Data & Hadoop. También trabajará en un proyecto como parte de su capacitación que lo preparará para asumir tareas en Big Data.

No hay requisitos previos predefinidos o estrictos para aprender Hadoop, pero el curso completo de capacitación de certificación de Hadoop puede ayudarlo a obtener un trabajo de Big data en Hadoop si está listo para desarrollar una carrera en Big Data Domain.

Cloudera y Hortonworks proporcionan la certificación Spark. Pero recomendaría pasar por la certificación Cloudera CCA Spark & ​​Hadoop Developer.

Certificación Cloudera:

Los exámenes de CCA evalúan sus habilidades básicas y establecen las bases para que un candidato obtenga la certificación en el programa CCP. Cloudera tiene 3 exámenes de certificación a nivel CCA (Cloudera Certified Associate).

Desarrollador CCA Spark y Hadoop (CCA175)

La persona que obtuvo la certificación CCA Spark y Hadoop Developer ha demostrado sus habilidades básicas para ingerir, transformar y procesar datos utilizando Apache Spark y las herramientas centrales de Cloudera Enterprise. Los detalles básicos para aparecer CCA 175 son:

  • Número de preguntas : 8–12 tareas basadas en el rendimiento (prácticas) en el clúster de Cloudera Enterprise
  • Límite de tiempo : 120 minutos
  • Puntaje de aprobación : 70%
  • Precio : USD $ 295

Cada pregunta de CCA requiere que resuelva un escenario particular. En algunos casos, se puede usar una herramienta como Impala o Hive y en otros casos, se requiere codificación. Para acelerar el tiempo de desarrollo de las preguntas de Spark, a menudo se proporciona una plantilla que contiene un esqueleto de la solución, pidiéndole al candidato que complete las líneas faltantes de código funcional. Esta plantilla está escrita en Scala o Python.

No es obligatorio usar la plantilla. Puede resolver el escenario utilizando un lenguaje de programación. Sin embargo, debe tener en cuenta que codificar cada problema desde cero puede llevar más tiempo del asignado para el examen.

Su examen se califica inmediatamente después de la presentación y se le envía por correo electrónico un informe de puntaje el mismo día de su examen. Su informe de puntaje muestra el número del problema para cada problema que intentó y una calificación sobre ese problema. Si aprueba el examen, recibirá un segundo correo electrónico a los pocos días de su examen con su certificado digital en formato PDF, su número de licencia, una actualización del perfil de LinkedIn y un enlace para descargar sus logotipos de CCA para usar en su red social. perfiles de medios.

Ahora, háganos saber el conjunto de habilidades requeridas para obtener la certificación CCA 175.

Habilidades requeridas:

Ingesta de datos

Las habilidades para transferir datos entre sistemas externos y su clúster. Esto incluye lo siguiente:

  • Importe datos de una base de datos MySQL a HDFS usando Sqoop
  • Exportar datos a una base de datos MySQL desde HDFS usando Sqoop
  • Cambie el delimitador y el formato de archivo de datos durante la importación utilizando Sqoop
  • Ingreso de datos de transmisión en tiempo real y casi en tiempo real en HDFS
  • Procese los datos de transmisión a medida que se cargan en el clúster
  • Cargue datos dentro y fuera de HDFS utilizando los comandos del sistema de archivos Hadoop

Transformar, escenificar y almacenar

La habilidad de convertir un conjunto de valores de datos, que se almacena en HDFS en nuevos valores de datos o un nuevo formato de datos y escribirlos en HDFS.

  • Cargue datos RDD de HDFS para usar en aplicaciones Spark
  • Escriba los resultados de un RDD nuevamente en HDFS usando Spark
  • Leer y escribir archivos en una variedad de formatos de archivo
  • Realizar procesos estándar de extracción, transformación, carga (ETL) en datos

Análisis de los datos

Use Spark SQL para interactuar con el metastore programáticamente en sus aplicaciones. Genere informes utilizando consultas contra datos cargados.

  • Utilice las tablas de metastore como fuente de entrada o sumidero de salida para aplicaciones Spark
  • Comprender los fundamentos de las consultas de conjuntos de datos en Spark
  • Filtrar datos usando Spark
  • Escribir consultas que calculen estadísticas agregadas
  • Únase a conjuntos de datos dispares con Spark
  • Producir datos clasificados u ordenados

Avancemos y veamos la segunda certificación de Cloudera, es decir, CCA Data Analyst.

Analista de datos de CCA

La certificación de CCA Data Analyst de la persona que acredita ha demostrado sus habilidades de analista principal para cargar, transformar y modelar datos de Hadoop para definir relaciones y extraer resultados significativos de la entrada sin procesar. Los detalles básicos para aparecer CCA Data Analyst son:

  • Número de preguntas : 8–12 tareas basadas en el rendimiento (prácticas) en el clúster CDH 5
  • Límite de tiempo : 120 minutos
  • Puntaje de aprobación : 70%
  • Idioma : ingles

Para cada problema, debe implementar una solución técnica con un alto grado de precisión que cumpla con todos los requisitos. Puede usar cualquier herramienta o combinación de herramientas en el clúster. Debe poseer suficiente conocimiento para analizar el problema y llegar a un enfoque óptimo dado el tiempo permitido.

A continuación se presentan las habilidades requeridas para obtener la certificación CCA Data Analyst.

Habilidades requeridas:

Prepara los datos

Utilice los procesos de Extracción, Transferencia, Carga (ETL) para preparar datos para consultas.

  • Importe datos de una base de datos MySQL a HDFS usando Sqoop
  • Exportar datos a una base de datos MySQL desde HDFS usando Sqoop
  • Mover datos entre tablas en el Metastore
  • Transforme valores, columnas o formatos de archivo de datos entrantes antes del análisis

Proporcionar estructura a los datos

Utilice las instrucciones del lenguaje de definición de datos (DDL) para crear o alterar estructuras en el metastore para uso de Hive e Impala.

  • Cree tablas utilizando una variedad de tipos de datos, delimitadores y formatos de archivo.
  • Crear nuevas tablas usando tablas existentes para definir el esquema
  • Mejore el rendimiento de las consultas mediante la creación de tablas particionadas en el metastore
  • Alterar tablas para modificar el esquema existente
  • Crear vistas para simplificar consultas

Análisis de los datos

Use las declaraciones del lenguaje de consulta (QL) en Hive e Impala para analizar los datos en el clúster.

  • Prepare informes utilizando comandos SELECT, incluidas uniones y subconsultas
  • Calcular estadísticas agregadas, como sumas y promedios, durante una consulta
  • Cree consultas contra múltiples fuentes de datos mediante el uso de comandos de unión
  • Transforme el formato de salida de las consultas utilizando funciones integradas
  • Realizar consultas en un grupo de filas utilizando funciones de ventanas

Los candidatos para CCA Data Analyst pueden ser desarrolladores de SQL, analistas de datos, especialistas en inteligencia de negocios, desarrolladores, arquitectos de sistemas y administradores de bases de datos. No hay requisitos previos.

Ahora, analicemos la tercera certificación de Cloudera Hadoop, es decir, el Administrador de CCA.

Certificación de Hortomworks:

Hay cinco certificaciones de Hadoop proporcionadas por Hortonworks relacionadas con Hadoop:

HDPCD: EXAMEN DE CHISPA

Core Spark

  • Escribir una aplicación Spark Core en Python o Scala
  • Inicializar una aplicación Spark
  • Ejecute un trabajo de Spark en YARN
  • Crear un RDD
  • Crear un RDD desde un archivo o directorio en HDFS
  • Persistir un RDD en la memoria o en el disco
  • Realizar transformaciones de Spark en un RDD
  • Realizar acciones de Spark en un RDD
  • Crear y usar variables de difusión y acumuladores.
  • Configurar propiedades de Spark

Spark SQL

  • Crear Spark DataFrames a partir de un RDD existente
  • Realizar operaciones en un DataFrame
  • Escribir una aplicación Spark SQL
  • Use Hive con ORC de Spark SQL
  • Escriba una aplicación Spark SQL que lea y escriba datos de las tablas de Hive

Para borrar estos exámenes de certificación, necesita una capacitación estructurada que lo ayude a completar estos exámenes y que también lo capacite para cumplir con los requisitos de la industria y las mejores prácticas.

Edureka Spark Certification Training está diseñado por expertos de la industria para convertirlo en un desarrollador certificado de Spark. El curso Spark Scala ofrece:

  • Descripción general de Big Data y Hadoop, incluido HDFS (sistema de archivos distribuidos de Hadoop), YARN (otro negociador de recursos)
  • Amplio conocimiento de varias herramientas que se encuentran en el ecosistema de Spark como Spark SQL, Spark MlLib, Sqoop, Kafka, Flume y Spark Streaming
  • La capacidad de ingerir datos en HDFS usando Sqoop & Flume, y analizar esos grandes conjuntos de datos almacenados en el HDFS
  • El poder de manejar los datos en tiempo real a través de un sistema de mensajería de publicación-suscripción como Kafka
  • La exposición a muchos proyectos basados ​​en la industria de la vida real que se ejecutarán utilizando CloudLab de Edureka
  • Proyectos de naturaleza diversa que abarcan la banca, las telecomunicaciones, las redes sociales y los dominios gubernamentales.
  • Participación rigurosa de una PYME a lo largo de Spark Training para aprender los estándares de la industria y las mejores prácticas

Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . También puede consultar la lista de reproducción de videos tutoriales de Spark y la serie de blogs de Spark . Su aprendizaje debe estar alineado con la certificación Hadoop .

Aquí están las 4 principales certificaciones de Apache Spark disponibles:

  • Cloudera (CCA175)
  • MapR
  • Hortnworks (HDPCD)
  • Databricks

Pero cuál de ellos debe elegir depende principalmente de la certificación o, más bien, de la cantidad de conocimiento de las tecnologías subyacentes.

  • Hadoop
  • Cucharón
  • Canal artificial
  • Kafka

Si no está certificado con lo anterior, le recomendaría que obtenga la Certificación de Desarrollador Cloudera CCA175 Spark y Hadoop . Por el contrario, puedes elegir cualquiera de los tres restantes.

El CCA175 de Cloudera es un examen basado en escenarios, que es realmente bueno para obtener una experiencia similar a la de la industria.

Para prepararse para estos exámenes, debe comenzar desde

  1. Conceptos básicos de Hadoop y por qué llegó a existir, con conocimiento de
  • HDFS (Sistema de archivos distribuidos de Hadoop)
  • HILO
  • Mapa reducido
  • Sqoop

2. En el futuro, debe centrarse en Scala , que es el lenguaje de scripting básico para spark.

3. A continuación, debe saber por qué exactamente surgió la chispa y cómo resuelve los problemas de big data, y el cálculo en memoria de Spark

4. Luego viene RDD , que son los bloques de construcción básicos para cualquier código de chispa.

  • RDD (Resilient Distributed Dataset) es una abstracción de memoria distribuida que permite a los programadores realizar cálculos en memoria en grandes grupos de manera tolerante a fallas.
  • Son una colección de solo lectura de objetos particionados en un conjunto de máquinas que se pueden reconstruir si se pierde una partición.
  • Los RDD se pueden crear a partir de múltiples fuentes de datos, por ejemplo, colección Scala, sistema de archivos local, Hadoop, Amazon S3, tabla HBase, etc.

5. SparkSQL es otro componente principal de Spark que es muy importante para procesar datos estructurados en un formato de estilo sql.

6. Luego viene la biblioteca de aprendizaje automático de Spark, es decir. MLlib . Cómo se usa para realizar varios algoritmos de ML a través de Spark. (Regresiones y agrupamiento K-means)

7. Flume también juega un papel importante en el proceso de transmisión de datos y Kafka también.

8. Spark tiene la capacidad de procesar y transmitir datos, lo que se hace a través de Spark Streaming usando DStreams.

Capacitación de Certificación Apache Spark y Scala de Edureka ofrece un curso detallado diseñado específicamente para el examen CCA175, que cubre todos los temas mencionados anteriormente.

Espero eso ayude.

Obtener la certificación en Apache Spark es muy bueno en este mundo eficiente en tecnología. Además de obtener un conocimiento sutil de Spark, las empresas hoy en día prefieren contratar candidatos calificados que posean un conocimiento profundo en Apache Spark. Para perfeccionar sus habilidades analíticas, la certificación Apache Spark de DexLab Analytics es de primera línea. Desde la absorción de los trucos de la codificación hasta los aspectos prácticos de esta parte de la ciencia de datos, la certificación en Apache Spark es un plan de estudios de 360 ​​grados que lo ayuda a impulsar el gráfico de carrera hacia arriba.

DexLab Analytics es una excelente plataforma de capacitación en línea de ciencia de datos que ofrece una excelente capacitación de habilidades bajo demanda en una gran cantidad de temas, incluidos Hadoop, Apache Spark, R Programming y mucho más. Con sede en Delhi, NCR, visite este instituto hoy.

CCA-175 de Cloudera

Aunque dice Certificación Hadoop y Spark, pero se centra principalmente en Spark solamente. Puede consultar el programa de estudios desde el siguiente enlace.
https://www.cloudera.com/more/tr

Sin duda, la certificación Cloudera’s Spark y Hadoop es definitivamente la mejor y la más relevante. Certificación de desarrollador de CCA Spark y Hadoop – Cloudera

La certificación Simplilearn’s Spark & ​​Scala también es buena. Entrenamiento de certificación Apache Spark y Scala

Hortonworks también ofrece una certificación en Spark y su desarrollador HP Apache Spark realmente certificado (HDPCD: Apache Spark) – Hortonworks

Hay uno de IBM, puede ver esto también Desarrollador certificado de IBM – Apache Spark 1.6

Yo diría que las cuatro son opciones brillantes. Su experiencia laboral y planes futuros pueden ayudarlo a hacer una distinción clara de las cuatro opciones.

¡CCA Spark and Hadoop Developer [Cloudera] es considerado como uno de los mejores certificados de Spark disponibles en este momento!

Número de preguntas: 8–12 tareas basadas en el rendimiento (prácticas) en el clúster de Cloudera Enterprise.

Límite de tiempo: 120 minutos

Puntaje de aprobación: 70%

Precio: USD $ 295

Enlace para más detalles: Certificación de desarrollador de CCA Spark y Hadoop – Cloudera

Puede prepararse para cualquiera de los materiales de preparación de certificación que se proporcionan a continuación. Estos son buenos materiales de preparación para una de las tecnologías más populares Apache Spark.

  1. Entrenamiento profesional de Apache Spark con sesiones prácticas de laboratorio
  2. Oreilly Databricks Simulador de certificación de desarrollador Apache Spark
  3. Certificación de desarrollador de Hortonworks Spark
  4. Cloudera CCA175 Hadoop and Spark Developer Certification

La siguiente página te ayudará mejor

Principales certificaciones de Big Data para elegir en 2016