¿Qué curso o especialización debo seguir para ser un científico de datos?

Le sugiero que analice estas 7 cosas y vea cuánto sabe de cada una, y practique las que le parezcan desconocidas. Estas fueron las 7 cosas más comunes que vi cuando entrevisté en grandes empresas (Facebook, Intel, Square, eBay, etc.) para puestos relacionados con la ciencia de datos.

Lenguajes de programación básicos : debe conocer un lenguaje de programación estadística, como R o Python (junto con las bibliotecas Numpy y Pandas), y un lenguaje de consulta de bases de datos como SQL

Estadísticas : debe poder explicar frases como hipótesis nula, valor P, estimadores de máxima verosimilitud e intervalos de confianza. Las estadísticas son importantes para analizar datos y seleccionar las cifras más importantes de un gran conjunto de datos. Esto es crítico en el proceso de toma de decisiones y para diseñar experimentos.

Aprendizaje automático : debe poder explicar los vecinos K más cercanos, los bosques aleatorios y los métodos de conjunto. Estas técnicas generalmente se implementan en R o Python. Estos algoritmos muestran a los empleadores que usted está expuesto a cómo la ciencia de datos puede usarse de maneras más prácticas.

Disposición de datos : debe poder limpiar los datos. Esto básicamente significa entender que “California” y “CA” son lo mismo: no puede existir un número negativo en un conjunto de datos que describa la población. Se trata de identificar datos corruptos (o impuros) y corregirlos / eliminarlos.

Visualización de datos : el científico de datos es inútil por sí solo. Necesitan comunicar sus hallazgos a los gerentes de producto para asegurarse de que esos datos se manifiesten en aplicaciones reales. Por lo tanto, la familiaridad con las herramientas de visualización de datos como ggplot es muy importante (para que pueda MOSTRAR datos, no solo hablar de ellos)

Ingeniería de software : debe conocer algoritmos y estructuras de datos, ya que a menudo son necesarios para crear algoritmos eficientes para el aprendizaje automático. Conozca los casos de uso y el tiempo de ejecución de estas estructuras de datos: colas, matrices, listas, pilas, árboles, etc.

Gestión del producto : este es definitivamente discutible, pero aquellos que entienden el producto son los que sabrán qué métricas son las más importantes. Hay toneladas de números que uno puede probar A / B, por lo que el científico de datos orientado al producto elegirá las métricas correctas para experimentar. Sepa lo que significan estos términos: pruebas de usabilidad, tramas de alambre, tasas de retención y conversión, análisis de tráfico, comentarios de clientes, registros internos, pruebas A / B.

En cada campo, mencioné algunas palabras de moda que debería conocer. Hay toneladas de sitios web que podría usar, por lo que le recomiendo usar estas 7 sucursales como una hoja de ruta para guiarse.

¡Bienvenido a Data Science!