¿Cómo me convierto en un científico de datos sin un doctorado?

Soy un científico de datos con una Licenciatura en Ciencias en Sistemas de Información. Honestamente, nunca planeé convertirme en científico de datos, y si supiera cuánto trabajo me llevó, tal vez nunca me aventuraría en este camino.

La ciencia de datos es la supervivencia de locos y obsesivos. Obtener una educación de posgrado de instituciones acreditadas es una forma de demostrar esa obsesión. Hacer fila en Disneyland, el lugar supuestamente más feliz del mundo y pensar en la creación de características y el ajuste de hiperparámetros de los modelos de árboles potenciados es otra forma (que fue lo que hice y enfureció mi SO).

Entonces, ¿cómo convertirse en un científico de datos? Tengo fórmulas para eso

Comience con la fórmula 66 mini infierno :

  • De ahora en adelante, pase 60 minutos todos los días en ciencia de datos . Comience con MOOC de temas amplios de Coursera, edX y otros recursos en línea. que cubre los conceptos básicos de aprendizaje automático y estadísticas. No te avergüences si no entiendes nada. Pregunte en Quora, pregunte en foros, descubra más y continúe.
  • Haga esto durante 6 meses , sin parar todos los días. Luego evalúe si todas estas cosas de aprendizaje automático le interesan.

Si incluso después de la 66 mini gira infernal no se inmuta, ahora está listo para enfrentar la fórmula completa 666 del infierno .

  1. De ahora en adelante, pase 60 minutos todos los días en ciencia de datos . Cubra temas de profundidad que le interesen, como PNL, sistemas de recomendación, aprendizaje profundo y MOOC completos en tecnologías de big data como Spark y Hadoop.
  2. Hacer 6 proyectos relacionados con la ciencia de datos al año . Puede dar charlas, realizar capacitación en ciencia de datos 101 para otros, competir en Kaggle, crear productos de datos con datos abiertos, iniciar un blog de ciencia de datos o comenzar / unirse a un grupo de reunión de ciencia de datos, ser voluntario con organizaciones de datos, pasante, trabajar en un contrato de datos trabajos.
  3. Haz (1) y (2) durante 6 años . Eso fue más o menos el tiempo que tardé, aunque honestamente puse más de 60 minutos por día, así que YMMV.

Los 60 minutos que pasas todos los días construyen tu base. Los 6 proyectos que haces muestran tus capacidades (siéntete orgulloso de compartirlos durante las entrevistas). Te sorprenderá cuánto sabes al final de 6 años.

Si lo piensas bien, un doctorado demora entre 5 y 6 años en ganar (más si tomas Masters además de eso). Por lo tanto, la fórmula 666 esencialmente intercambia esos años por autoaprendizaje y una gama más amplia de experiencia.

Edición 1: ¿Soy competitivo con los candidatos a doctorado? Tengo más experiencia práctica y conjuntos de habilidades más amplios, desde habilidades técnicas hasta la comprensión de los procesos comerciales y la contratación. Los doctores en mi equipo tienen un enfoque más láser en su dominio. Aprendo mucho de su profundidad y ellos aprenden sobre mi amplia gama de herramientas. Diré que un buen equipo de datos necesita personas con la amplitud y la profundidad para funcionar. Tengo un gran respeto por la gente de doctorado, simplemente no soy el tipo de persona que puede sentarse y estudiar un tema durante 6 años.

Edición 2: Una pregunta de seguimiento común es: ” Si necesitamos experiencia laboral para ser contratados para roles de ciencia de datos, ¿cómo podemos poner el pie en el lugar ?” Bueno, la buena noticia es que no tienes que esperar 6 años para ser contratado. Mi camino:

Pasante en un proveedor de software de análisis> ingeniero junior en una empresa de hardware de big data> analista de negocios> científico de datos.

Con cierta base en matemáticas y programación, puede comenzar de inmediato, pero puede tomar un tiempo obtener un título de científico de datos; es posible que no pueda trabajar en el equipo de ciencia de datos de Facebook directamente desde la escuela y eso es perfectamente normal.

En definitiva, el mundo es tu ostra. Conocí a varios amigos maestros que comenzaron como pasantes en empresas durante sus estudios. Algunos se unieron a nuevas empresas para el desafío y la exposición. También puede crear una cartera a través de trabajos de contrato de datos en portales como Experfy.com, concursos en Kaggle.com. Muchas empresas más pequeñas están buscando talentos de datos en estos días, pero debe entablar una conversación y contar con una sólida cartera de proyectos de ayuda. Vea mi respuesta a ¿Cuál es la mejor entrevista de ciencia de datos que ha tenido?

Edición 3: ahora estoy haciendo una maestría en informática a través del programa OMSCS de Georgia Tech. Georgia Tech es famosa por su investigación en inteligencia artificial y robótica y espero aprender más sobre la especialización en robótica del programa de maestría.

Soy un científico de datos con una maestría. Esto es lo que realmente funcionó para mí en la entrevista para mi lugar actual:

  1. Sea muy sólido con los conceptos matemáticos detrás de varios algoritmos. Sin un doctorado, se supondría que sería prescriptivo en su comprensión del área, por lo que esto es algo que simplemente no puede permitirse; necesitas probar que la suposición es incorrecta
  2. Manténgase actualizado con los desarrollos en su área; Las publicaciones de blog y los artículos son una posible fuente, pero también debe consultar las publicaciones en las principales revistas / conferencias. DM / ML es un área en evolución, y gran parte del desarrollo solo se puede controlar observando lo que publican los principales grupos de investigación.
  3. Haga un proyecto paralelo serio, o una serie de ellos. Independientemente de si le preguntan sobre ellos en la entrevista, estos le brindan una perspectiva práctica inmensa. Por lo general, se le preguntará acerca de ellos, o en general su experiencia con el área, por lo que tendrá la oportunidad de describirlos.
  4. Trabaja en un papel. Beneficios similares a los anteriores. Si se publica, toneladas de puntos brownie. Un consejo: apunte a conferencias de buena reputación. La publicación en una mala no prueba mucho.

Entre los anteriores, 1 y 2 me llevaron a través de la entrevista. Especialmente 1.

EDITAR:
Me di cuenta de que no había respondido explícitamente esta parte de tu pregunta:

¿Qué debo agregar a mi currículum que realmente haga que mi CV se encuentre entre los doctores que solicitan un trabajo de científico de datos?

Proyectos y publicaciones de ayuda. O tal vez no, como había sucedido en mi caso. Me habían llamado a la entrevista con una posición diferente (pero relacionada) en mente, pero pude convencerlos de que era lo suficientemente bueno como para ser considerado como un científico de datos para el grupo RnD.

Muchos trabajos para científicos de datos / profesionales de análisis requieren solo EM y algo de experiencia: consulte Data Scientist en el inicio de Stealth, Palo Alto, CA o Data Scientist en Knewton, Nueva York, NY, por lo que si tiene el conocimiento y Kaggle u otras competiciones, falte de doctorado no es un problema

Si quieres convertirte en un gran científico de datos, entonces no creo que Ph.D. es un deber. Lo único que debe hacer es saber cuánto tiempo le dedica a su tiempo con plena concentración.

Totalmente de acuerdo con Thia Kai. Si va a trabajar duro en su campo continuamente, entonces puede competir con los académicos.

Ahora vamos al punto de que las habilidades necesarias para convertirse en un Data Scientist.

Así que veamos las habilidades más valiosas para aprender para un Científico de Datos.

  • Conocimiento profundo de la codificación Python. Es el lenguaje más común, incluido Perl, Ruby, etc.
  • Conocimiento sólido de SAS / R Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que provenga de videos, redes sociales, etc. Habilidad sólida en la codificación de bases de datos SQL.
  • Data Scientist debería tener una buena comprensión de varias funciones analíticas. Por ejemplo rango, mediana, etc.
  • Se requiere un conocimiento profundo del aprendizaje automático.
  • Un científico de datos debe estar familiarizado con Hive , mahout, redes bayesianas , etc. En ciencia de datos, el conocimiento de MySQL es como una ventaja adicional.

Ahora veamos las responsabilidades de Data Scientist, de acuerdo con las responsabilidades que puede juzgar usted mismo que puede administrar esos roles o no, y si no, intente agregar esas habilidades en usted mismo.

Responsabilidades de un científico de datos

  • Limpieza y procesamiento de datos.
  • Predicción del problema empresarial.
  • Su papel es dar resultados futuros de ese negocio.
  • Desarrollar modelos de aprendizaje automático y métodos analíticos.
  • Encuentre nuevas preguntas comerciales que luego puedan agregar valor al negocio.
  • Minería de datos utilizando métodos de vanguardia. Presentar resultados de manera clara y hacer el análisis ad-hoc.

Para saber más sobre las habilidades y roles de Data Scientist, consulte el siguiente enlace:

Habilidades necesarias para convertirse en Data Scientist

Hola,

Revisando este libro (incluso algunas veces si es necesario) y realmente entendiendo las matemáticas detrás de él. La primera es considerada la biblia del aprendizaje automático, por la comunidad de aprendizaje automático. El segundo es un poco más fácil de seguir. Reconocimiento de patrones y aprendizaje automático (ciencias de la información y estadísticas): Christopher M. Bishop: 9780387310732: Amazon.com: Libros

y

https://www.amazon.com/gp/produc

Es todo el aprendizaje automático bastante tradicional que realmente debería convertirse en los fundamentos / conocimiento de fondo antes de ir al aprendizaje profundo y cosas por el estilo.

Aquí hay un consejo del Vicepresidente de Ciencia de Datos de una compañía de ciencia de datos: Sentiance. Da una visión general sobre las habilidades técnicas y los requisitos en los que los científicos de datos deben centrarse.

¿QUÉ HABILIDADES Y LENGUAS DE PROGRAMACIÓN UTILIZA UN CIENTÍFICO DE DATOS EN SENTIANCE CON MÁS FRECUENCIA?

Nuestro lenguaje de programación de elección es Python. El ecosistema Python contiene una gran cantidad de bibliotecas y herramientas para el procesamiento de señales y el aprendizaje automático. Para nosotros, Python representa el equilibrio perfecto entre la necesidad de prototipos rápidos e iteraciones de investigación, por un lado, y la entrega de código listo para producción, por otro lado. Además de eso, importantes marcos de computación distribuida como Spark admiten Python fuera de la caja.

Aunque Python es el lenguaje que hablamos, esperamos que cada científico de datos tenga una sólida formación en ingeniería de software, lo que le permite jugar con otros lenguajes como C ++, Java o incluso Lua si es necesario.

En el frente de la investigación, los científicos de datos deberían poder escanear, interpretar, comprender y evaluar rápidamente los trabajos académicos. Esto significa estar familiarizado con las notaciones matemáticas, el álgebra lineal y la jerga académica.

Finalmente, una habilidad crucial de cualquier científico de datos es la capacidad de hacer coincidir los requisitos comerciales con los objetivos de la investigación y comprender el panorama general. ¿Realmente necesitamos utilizar el aprendizaje profundo para cada proyecto o es un enfoque de regresión logística simple suficiente para una tarea específica? ¿Deberíamos maximizar la precisión o la eficiencia computacional? ¿Podríamos reutilizar un enfoque específico para otros proyectos en el futuro cercano? etc.

Se espera que un científico de datos junior en Sentiance tenga una sólida formación en al menos uno de estos dominios, mientras que un científico de datos es un experto en dos de ellos.

Para los nuevos empleados, esto generalmente se reduce a dos requisitos; Una sólida formación en ingeniería de software y una comprensión matemática de los conceptos de aprendizaje automático, como la teoría bayesiana, la reducción de la dimensionalidad, los métodos del núcleo, etc.

Como cada vez es más difícil encontrar estos unicornios, un tercer requisito es la capacidad de trabajar con miembros del equipo de diferentes orígenes y con diferentes conjuntos de habilidades. En Sentiance trabajamos en equipos pequeños e interfuncionales formados por científicos de datos, ingenieros de datos, desarrolladores móviles y arquitectos de soluciones.

Como consejo final:

Hackea y comienza algunos proyectos de aprendizaje automático en tu tiempo libre. No se centre simplemente en seguir MOOC o completar competiciones de Kaggle con XgBoost. Lo que necesitamos no son solo ingenieros de software o matemáticos, sino empresarios con una formación increíblemente sólida en estos dos campos.

Tal vez sería útil enumerar lo que definitivamente no estamos buscando:

  1. Investigadores académicos sin experiencia en ingeniería de software, aparte de los scripts ocasionales de Matlab.
  2. Autoproclamados expertos de aprendizaje profundo sin experiencia o experiencia general en aprendizaje automático.
  3. Científicos de datos ciudadanos que saben cómo usar las bibliotecas de aprendizaje automático pero no saben cómo funcionan internamente.

¡Espero que esto ayude!

¿Qué se necesita para ser un científico de datos en Sentiance? El | Sentimiento

Tengo una licenciatura en Matemáticas de una escuela sin nombre (Universidad Estatal de California, …), y un título de científico de datos en una de las 5 mejores compañías en Silicon Valley. Aquí estaba mi camino, que me ha llevado a alcanzar mis 20 años.

1. Esperemos que haya obtenido buenas calificaciones en su licenciatura y haya tenido una carga de curso razonablemente difícil. Estas compañías se preocuparán más por lo que te especializaste y por lo que hiciste relativamente bien, y probablemente no pensarán mucho más en ello. Para aclarar, nunca llegué al paso de doctorado porque varias escuelas me rechazaron (solo solicité entre 20 y 30 escuelas principales en Matemáticas / Estadísticas, me rechazaron durante los 2 años consecutivos).

2. Se beneficiará de algún tipo de experiencia profesional en estadística. Para mí, esto fue una pasantía en una universidad superior durante la universidad y un trabajo en una agencia estatal.

3. Autodidacta mucho, o trabajar con alguien más, lo que sea, siempre y cuando seas bastante bueno en programación / estadística / aprendizaje automático básico. Para mí, esto involucró miles de horas de codificación en R durante varios años (incluida la producción de un paquete relativamente oscuro, un blog de R, un buen número de respuestas de desbordamiento de pila), una inmersión razonablemente profunda en Python (avance de su carrera a través del proyecto) Cursos de clases en línea (¡buena publicidad allí, Quora!), Varias competiciones de Kaggle con calificaciones mediocres (el 25% superior en el mejor de los casos), y algunos trabajan en un trabajo inacabado con una conexión que hice durante mi pasantía universitaria. Haga un repositorio público de github con su código. Anúncialo en tu currículum. Distribuye tu blog.

4. En este punto, es posible que pueda obtener un trabajo de ciencia de datos en una empresa pequeña (<50 personas). Hay todo tipo de estos, buscando personas que trabajen duro por salarios bajos (piense en la mitad del valor de la industria, o incluso menos). Haga algo de lo que esté orgulloso y que esté relacionado con la ciencia de datos en esta empresa, y sea capaz de explicarlo bien. En el peor de los casos, trabajas por bajos salarios por un tiempo, aprendes un montón de cosas sobre Data Science, haces excelentes conexiones con la industria y la empresa se cae. En el mejor de los casos, la compañía continúa creciendo y usted se beneficia enormemente (experimenté lo primero).

5. Ahora, en este punto, comenzaba a ser cortejado por compañías más grandes e impresionantes, pero no tuve la suerte de ser contratado por ninguna de ellas. Asumí el rol de analista de datos en una empresa mediana y me aseguré de utilizar técnicas avanzadas siempre que tuve la oportunidad. Mientras trabaja en sus tareas “analistas” en esa compañía (que no son terriblemente diferentes de las de un científico de datos), asegúrese de probar técnicas más avanzadas más allá de las estadísticas básicas. Ser capaz de hablar e implementar todas las técnicas básicas en el kit de herramientas de ciencia de datos (ingenuos bayes, bosques aleatorios, modelado lineal, pronóstico de series de tiempo, k significa, knn, LDA, PCA, redes neuronales, …), idealmente en Python y R. Conviértase en experto en SQL / quizás en alguna tecnología NoSQL. Tal vez tome un curso en técnicas de ciencia de datos, en línea o a través de una universidad / escuela independiente. Continúa trabajando en tu blog, concursos de Kaggle.

6. Intente postularse en otras compañías una vez que realmente se haya distinguido como un experto en su posición actual, o pase a un puesto de ciencia de datos en su compañía actual. Debe tener confianza en sus habilidades de programación y conocimiento básico de las técnicas y cuándo son útiles, lo suficiente como para hablar de ellas con alguien que las conozca en una entrevista. También es extremadamente importante que sepa cómo aplicar su conocimiento a los problemas que enfrenta la empresa, en lugar de simplemente aplicar ciegamente técnicas de ciencia de datos a los problemas. Si elige mudarse a una nueva empresa, solicite un lote. Puede fallar en muchas entrevistas, pero eso le dará experiencia, y la entrevista realmente es un juego de probabilidades de todos modos.

Añadir a su currículum:
Cosas que muestran su pasión y conocimiento en relación con el puesto que está solicitando. Proyectos paralelos, premios, trabajos, logros, código, educación relacionada con la ciencia de datos.

Mantenga un perfil fuerte de LinkedIn con todas las conexiones que haga en el camino (a quién también le gustará). Los reclutadores saltarán sobre ti si tienes R, Python, Estadísticas, etc., listados y respaldados por personas que te conocen.

Hace un tiempo, escribí sobre algunos recursos gratuitos que puedes usar para aprender ciencia de datos por tu cuenta. Esto estaba orientado principalmente a las personas que querían postularse a la Data Science Fellowship gratuita de The Data Incubator como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos. Romperé mi respuesta en tres partes:

  1. Recursos gratuitos desglosados ​​por tema: si bien se trata de esto con una experiencia en aprendizaje automático, hay otros aspectos útiles de la ciencia de datos para aprender. La respuesta es de interés más general.
  2. Fuentes de datos gratuitas con las que puede obtener experiencia práctica. Uno de los pilares de nuestra comunidad de ciencia de datos es la construcción de un proyecto final que se utiliza para mostrar sus nuevos conocimientos de ciencia de datos.
  3. Solicite ser becario en The Data Incubator: Obviamente, soy parcial pero creo que tenemos una gran comunidad para ayudar a las personas a hacer la transición a la ciencia de datos. Está abierto a personas con maestrías y personas con experiencia laboral previa. También he incluido algunos testimonios de antiguos alumnos.

# 1: Nuevos temas para aprender [publicación original]

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchos de ellos.

  1. Desguace : hay una gran cantidad de datos disponibles, por lo que deberá aprender cómo acceder a ellos. Ya sea JSON, HTML o algún formato homebrew, debería poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, mire paquetes como urllib2, solicitudes, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen manejo de errores (reintentos) y paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlos y procesarlos. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R hasta Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL fácil de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje automático y visualización. Por lo tanto, el flujo de trabajo a menudo es utilizar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos usando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó los pandas, tiene un gran video tutorial en youtube. Míralo aquí y sigue leyendo el código de Github.
  4. Aprendizaje automático : se puede hacer mucha ciencia de datos con seleccionar, unir y agrupar (o, de forma equivalente, asignar y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbm. Debes asegurarte de entender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos se trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si carece ascéticamente. R ofrece ggplot, que es más bonito. Por supuesto, si realmente tomas en serio las visualizaciones dinámicas, prueba d3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y reducción de mapas), este es un gran comienzo. Para obtener una lista más detallada de temas, puede consultar esta gran infografía:

# 2: Fuentes de datos interesantes: [publicación original]

En The Data Incubator, llevamos a cabo una beca gratuita de seis semanas de ciencia de datos para ayudar a nuestros Fellows a trabajar en la industria de la tierra. A nuestros socios de contratación les encanta considerar a los Fellows a quienes no les importa ensuciarse las manos con los datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para proyectos exitosos ha sido obtener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:

Datos económicos:

  1. Datos de mercado negociados públicamente : Quandl es una fuente sorprendente de datos financieros. Google Finance y Yahoo Finance son buenas fuentes adicionales de datos. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
  2. Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de viviendas y el precio medio histórico de la vivienda por región (use esta herramienta para traducir entre código postal y lat / long).
  3. Datos de préstamos: puede encontrar los impagos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Lending Club y Prosper, las dos plataformas más grandes en el espacio.
  4. Datos de la hipoteca de la vivienda: la Ley de Divulgación de Hipotecas de Vivienda pone a disposición datos y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.

Datos de contenido:

  1. Revise el contenido: puede obtener reseñas de restaurantes y lugares físicos de Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de reseñas de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Rotten Tomatoes Los comentarios de películas están disponibles en Kaggle.
  2. Contenido web: ¿ busca contenido web? Wikipedia proporciona volcados de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos de música están disponibles en la Base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
  3. Datos de los medios: hay artículos anotados abiertos del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan a 1800.
  4. Datos de comunicaciones: hay acceso a mensajes públicos de Apache Software Foundation y de comunicaciones entre ex ejecutivos de Enron.

Datos del gobierno:

  1. Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
  2. Datos de transporte: los viajes en taxi de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos de bicicletas compartidas de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
  3. Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010,2000,1990. De los datos del censo, el gobierno también ha derivado datos sobre el uso del tiempo. Datos del censo de la UE. Vea los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
  4. Banco Mundial: tienen muchos datos disponibles en su sitio web.
  5. Datos electorales: los datos de contribución política de las últimas elecciones estadounidenses se pueden descargar de la FEC aquí y aquí. Los datos de las encuestas están disponibles en Real Clear Politics.
  6. Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno alimentario en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.

Datos con una causa:

  1. Datos ambientales: los datos sobre el uso de energía en el hogar están disponibles, así como los datos climáticos de la NASA.
  2. Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lectura remota de sensores para individuos, hasta datos sobre los genomas de 1000 individuos.

Diverso:

  1. Datos geográficos: intente buscar en estos conjuntos de datos de Yelp lugares cercanos a las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map también tiene datos abiertos sobre lugares.
  2. Datos de Twitter: puede obtener acceso a los Datos de Twitter utilizados para el análisis de sentimientos, los Datos de Twitter de la red y los datos sociales de Twitter, además de su API.
  3. Datos de juegos: se encuentran disponibles conjuntos de datos para juegos, que incluyen un gran conjunto de datos de manos de póker, un conjunto de datos de Domion Games en línea y conjuntos de datos de juegos de ajedrez. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
  4. Datos de uso de la web : los datos de uso de la web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.

Metasources: estas son excelentes fuentes para otras páginas web.

  1. Datos de la red de Stanford: http://snap.stanford.edu/index.html
  2. Cada año, el ACM lleva a cabo una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
  3. UCI mantiene archivos de datos para el aprendizaje automático.
  4. Datos del censo de EE. UU.
  5. Amazon aloja conjuntos de datos públicos en s3.
  6. Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
  7. Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
  8. Yahoo mantiene muchos datos sobre sus propiedades web que pueden obtenerse escribiéndolos.
  9. BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
  10. GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web MovieLens.
  11. Finalmente, si hay un sitio web con datos que le interesen, ¡búsquelo!

# 3: Aquí hay algunas razones para unirse:

  1. Conozca las últimas tecnologías de la industria: no desea invertir 6 meses aprendiendo una herramienta que nadie usa. Pero con tantas herramientas de código abierto, puede ser difícil saber qué herramientas tienen una adopción generalizada en la industria y cuáles son proyectos académicos favoritos. Trabajamos con cientos de empleadores para estar al tanto de las últimas tendencias de la industria para dar forma y modelar nuestro plan de estudios a las herramientas y técnicas que han ganado (o están ganando) una adopción a gran escala. También tenemos acceso a herramientas y hardware a los que una persona típica puede tener dificultades para acceder.
  2. Conozca a los científicos de datos en las principales empresas : si se está moviendo hacia big data desde la academia u otra industria, puede ser difícil poner el pie en la puerta. Brindamos a los estudiantes acceso a los mejores científicos de datos de todo el país y les ayudamos a encontrar oportunidades de entrevistas en compañías increíbles como Yelp, EBay, Palantir, Genentech o el New York Times.
  3. Gratis para becarios: el programa es gratuito para los becarios cuya matrícula se apoya en las tarifas de colocación de las empresas de contratación participantes. Si bien el programa de becas es muy competitivo, también tenemos una opción Académica paga para aquellos que no logran el recorte o no cuentan con el patrocinio del empleador.
  4. Peer and Alumni Group: Sea parte de una gran red de científicos de datos de primer nivel. Como Fellow o Scholar, trabajará y aprenderá de otros estudiantes brillantes y motivados, estableciendo conexiones profesionales duraderas y creando una red profesional increíble. Conocerá a Fellows anteriores que ahora están contratando gerentes que buscan contratar a la comunidad.

# 4: Esto es lo que nuestros compañeros dicen sobre nosotros:

  • Dorian Goldman (NYTimes) : “El equipo de Data Incubator hizo un trabajo increíble al enfatizar los conceptos más importantes y fundamentales que un científico de datos necesita saber en su carrera. Lo sé, porque todas estas cosas fueron confirmadas en mi primera semana en mi Nuevo trabajo.”
  • Justin Bush (Palantir) : “Ya en la segunda y tercera semana de la Incubadora de datos había empresas que se contactaban conmigo y que de lo contrario no habrían notado mi currículum tan fácilmente. También tuve una tremenda exposición a la variedad de trabajos de ciencia de datos que existen, algo que no hubiera sucedido si hubiera tomado un trabajo directamente de la escuela de posgrado “.
  • Brian Farris (Capital One) : “… fue una forma extremadamente eficiente de establecer muchas redes en un corto período de tiempo, lo que aumenta enormemente la posibilidad de encontrar un trabajo. Es mucho más fácil iniciar un diálogo con un compañero de contratación si ya conociste a alguien de la compañía en persona “.
  • Yash Shah (AppNexus) : “En The Data Incubator hay tantas compañías de contratación que buscan un conjunto variado de habilidades, hay muchas oportunidades para encontrar tu pareja perfecta.
  • Sam Swift (mejora) : ” La intensa experiencia de incubadora también fue una excelente manera de hacer una transición rápida de mi pensamiento y lenguaje de la abstracción académica al pragmatismo empresarial. Al igual que la falta de comunicación entre dos campos, descubrí que había muchas cosas en común sobre las ideas, pero que estaba ofuscado por una jerga especializada en ambos lados “.

¡No estas solo! Hay muchas personas que preguntan si pueden convertirse en científicos de datos sin un título. No existe una regla que establezca que para convertirse en un científico de datos se requiere un doctorado. Realmente dudo de la fuente donde lees esto. Si bien el tema forma su base en conceptos matemáticos y estadísticos, no es todo lo que la ciencia de datos tiene para ofrecer. En mi opinión, la ciencia de datos es mucho más que eso. Y de todos modos, no importa cuán lejos esté de este campo y sus conceptos, siempre puede aprenderlos. Con la dedicación y determinación necesarias, siempre puede llegar allí.

Sin embargo, hay ciertas habilidades que no puede aprender simplemente haciendo algunos cursos en línea, siempre se recomienda asistir a un programa en un modelo de aula con una persona experimentada. Al igual que la ciencia de los datos de la ciencia médica, no puede aprenderla usted mismo. Por ejemplo, dado que todas las fuentes necesarias para convertirse en médico están disponibles en línea, simplemente no puede convertirse en médico al estudiar en línea, de manera similar con la ciencia de datos.

Le recomendaría que considere un programa que lo ayude a fortalecer su perfil mediante la creación de aplicaciones de grado industrial. Recuerde, los posibles empleadores contratan con HABILIDAD DEMOSTRADA en lugar de con pedigrí O certificaciones. . Debe tener la exposición de la industria y las últimas actualizaciones que siguen sucediendo. Únase a un programa que lo ayudaría a hacer su presencia en GitHub, StackOverflow y mostrar su trabajo a los empleadores. Eventualmente debería prepararlo para la industria.

Aquí hay algunas cosas que debe saber para aprender ciencia de datos. Si tiene un amplio conocimiento de ellos y solicita un puesto como científico de datos, se convertirá en un científico de datos.

  • Estadística, probabilidad y álgebra lineal
  • Regresión lineal, series de tiempo y función de costo
  • Análisis exploratorio de datos
  • Tipos de datos
  • Recopilación, extracción, consulta, limpieza y agregación de datos para análisis
  • Fuentes de datos, limpieza y disputas
  • Raspado web
  • Trabajando con API
  • Regresión y series de tiempo
  • Desarrolle una comprensión profunda de las aplicaciones del mundo real de algoritmos de ML supervisados.
  • Regresión polinómica, cresta y logística
  • Validación cruzada K-fold
  • Árboles de decisión, árboles condicionales y redes neuronales
  • Técnicas de conjunto
  • K vecino más cercano
  • SVM
  • Agrupación, reducción de dimensiones, PNL
  • Desarrolle una comprensión profunda de las aplicaciones del mundo real de algoritmos de ML no supervisados.
  • K- Propagación de medias / afinidad y cambio medio
  • Ward / Agrupación aglomerativa / DBSCAN
  • Bayes ingenuos
  • PNL / Agrupación de texto / NLTK
  • PCA y reducción de dimensiones

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

Algunos enlaces rápidos

  • Programa – Full Stack Data Science Engineering | Greyatom
  • Chatee con un consejero académico: le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co

En primer lugar, no necesita un doctorado para convertirse en científico de datos. Si se graduó y tiene la voluntad de convertirse en un científico de datos, entonces ese es el principal requisito aquí.

He escrito muchas respuestas sobre cómo alguien puede iniciarse en la ciencia de datos. Aquí están los métodos y la forma en que lo he seguido.

Hay muchos lugares donde puedes aprender “Ciencia de datos” desde cero. Primero necesitas una hoja de ruta para aprender ciencia de datos.

La mejor hoja de ruta para prepararse para la ciencia de datos:

  • Aprender lenguaje de programación: ¡Sí! necesitas aprender lenguajes de programación. Pruebe Python primero, ya que es muy fácil de aprender y pertenece a la categoría de código abierto. Aprenda Python aquí: Tutoriales de Python: Temporada 1 (No necesita ser Python Ninja, solo se necesita información básica). A continuación, pruebe el lenguaje de programación “R”. También es de código abierto. Aprenda R aquí: DataCamp: la forma más fácil de aprender R y ciencia de datos (es gratis)
  • El conocimiento de SQL es necesario: como vas a jugar con muchos datos, mi recomendación es aprender SQL. Puede aprender SQL aquí: SQLZOO o del canal de youtube de “Manish Sharma”: tutoriales de SQL para principiantes / tutoriales de Oracle Database.
  • Aprendamos Estadística y Probabilidad: La probabilidad también se llama la ciencia de la incertidumbre y ese concepto es más importante en el campo de la DS. Puedes aprenderlo de los cursos del MIT. Aquí está el enlace de youtube: Probabilidad y estadísticas MIT
  • Aprendizaje automático: Otro tema importante que todos deberían aprender es el “Aprendizaje automático”. Necesitas tener conocimientos de matemáticas para aprender ML. Aquí está el mejor tutorial del mundo sobre ML: Lecture Collection | Aprendizaje automático
  • Aprenda el procesamiento del lenguaje natural: esta es la mejor referencia, procesamiento del lenguaje natural con Python

Hay muchos proyectos ficticios disponibles en internet. Intenta terminarlo. Hacer el hogar de la ciencia de datos, etc.

[Necesito más ayuda, entonces no dudes en enviarme un mensaje]

Feliz aprendizaje 🙂

Referencias

La respuesta de Akash Dugam a ¿Cómo aprendo SAS o R por mí mismo?

La respuesta de Akash Dugam a ¿Dónde debería comenzar para aprender el desarrollo de big data?

La respuesta de Akash Dugam a ¿Cuál es la diferencia entre analista de datos y analista de negocios?

La respuesta de Akash Dugam a ¿Hay algún sitio web donde podamos aprender ciencia de datos de forma gratuita?

La respuesta de Akash Dugam a Qué hace que Python sea tan rápido para el análisis de datos a gran escala en comparación con R o SAS

Aquí hay un Q&A muy interesante con Xavier Conort, quien en abril de 2013, era el Data Scientist mejor clasificado en Kaggle en función del rendimiento en sus competiciones. Él no tiene un doctorado.
(Kaggle cruzó 100 mil miembros científicos de datos en julio de 2013).

Estoy en un bote similar al tuyo. Aquí están los pasos que estoy tomando. Te lo haré saber en un año si tengo éxito.

Mi pasado
1. Ingeniería eléctrica – pregrado
2. MBA – Finanzas – las 10 mejores escuelas de EE. UU.
3. Trabajo en una gran empresa de consultoría. Consultoría en TI y Operaciones.

Suposiciones clave a mi fin
1. La ciencia de datos hoy significa desarrollar algoritmos. El desarrollo de algoritmos de Machine Learning a gran escala es lo que Silicon Valley ve como el trabajo de un científico de datos. Aquí es donde se requieren doctorados.

2. La vista anterior cambiará cuando Data Science se convierta en la corriente principal. Para escalar cualquier rol de trabajo, no puede requerir un doctorado como punto de partida. Dado que Mckinsey proyecta una escasez de talento analítico del 40% al 50% para 2018, comenzando con un doctorado ya que la línea de base no llegará a ningún lado. El mercado encontrará mejores formas de satisfacer esta demanda a través de software y herramientas.

Qué estoy haciendo
1. Desarrollar habilidades analíticas no tradicionales. es decir, olvidarse de SAS, SPSS. Pase a R / python y un enfoque programático. La mejor fuente aquí es Coursera. Mi objetivo es que en 1 año necesito sobresalir en las siguientes clases
a) Análisis de datos
b) Computación para el análisis de datos
c) Aprendizaje automático
d) Redes neuronales

2. Mi objetivo también es participar y obtener una clasificación decente en Kaggle. Esto es muy difícil para mí, ya que tengo un trabajo ocupado. Las competiciones de Kaggle requieren tiempo.

3. También voy a intentar obtener el certificado EMC Data Science este año. Capacitación en Data Science y Big Data Analytics. No estoy seguro si hay otras certificaciones de la industria. Cloudera tiene uno, pero está más en sintonía con los administradores y la tecnología.

4. Northwestern / NYU Sterns han comenzado a ofrecer algunos cursos nuevos sobre análisis. Pero no estoy seguro si quiero volver a la escuela.

Que ha estado trabajando para mi
1. Creo que el lugar donde puedo brillar en Data Science es aplicar técnicas cuantitativas a los problemas comerciales tradicionales. Las técnicas cuantitativas de ML en marketing aún son nuevas. Solo las nuevas empresas en línea usan estos. Hay una gran mayoría de empresas tradicionales que aún confían en la intuición y en los gurús. Entonces, he elegido alejarme del Silicon Valley solo porque veo una mayor oportunidad de aplicar estas técnicas en las empresas tradicionales.

2. Me encanta el término “ciencia de datos”, porque separa lo viejo de lo nuevo. Estoy usando la confusión en el “mercado de ciencia de datos para mi ventaja. Por un lado, tienes a estos tipos tradicionales de SAS y SPSS que han estado haciendo GLM durante 30 años. Si bien estos tipos entienden muy bien las estadísticas, no tienen idea del nuevo proceso ágil que se puede seguir utilizando enfoques programáticos y aprendizaje automático. Si bien estos tipos usarán redes neuronales en SPSS o SAS, en su mayoría no pueden programar.

Tengo experiencia en programación y, por lo tanto, mi objetivo es adelantarme a la multitud de programación que intenta ingresar a Data Science. Esto sigue siendo una pequeña multitud, pero, creciendo rápidamente

No he visto esto mencionado todavía, pero Udacity está ofreciendo un Programa de Nanodegree de Data Analyst (Data Analyst Nanodegree), que parece ofrecer una buena base para carreras en ciencia de datos. Estoy tomando este curso en este momento, y lo he encontrado adecuadamente intenso (tengo antecedentes en matemáticas y economía) e informativo.

Existe mucha literatura sobre las diferencias entre un rol de analista de datos y un rol de científico de datos (Data Scientist vs Data Analyst, ¿Cuál es la diferencia entre un arquitecto de datos, un analista de datos, un ingeniero de datos y un científico de datos?).

En mi opinión (ciertamente aficionado), ciertamente ayudaría comenzar desde el principio, tener una idea del análisis de datos (procesar datos y aprender herramientas como Python, R, etc.), y luego pasar a la ciencia de datos (figurar averiguar qué análisis ejecutar, una interpretación más profunda del análisis y los resultados, derivando relaciones).

No necesitas un doctorado para ser un científico de datos increíble. Ten curiosidad por los datos. Encuentre un conjunto de datos disponible y publique un proyecto interesante en línea o publique un documento sobre su metodología. Sea curioso, riguroso y metódico. Esa es una de las mejores cosas para usar cuando buscas trabajo.

Contraté a algunos científicos de datos / profesionales de análisis y consulté a muchas organizaciones para contratar puestos similares. Mi enfoque ha sido la aplicación comercial y no la investigación o actividades académicas. Considero la 1) comprensión del sector industrial / modelo de negocio, 2) aptitud estadística / econométrica, y 3) personalidad / visión / espíritu de curiosidad en una medida casi igual.

He visto demasiados doctorados con excelentes habilidades de datos pero conocimiento de campo limitado muy lentamente. Por el contrario, tengo MBA de escena, MS y algunos MA realizan una investigación brillante con resultados procesables. Aunque un doctorado es de gran ayuda, me enfocaría en su comprensión del negocio del empleador y sus habilidades para comunicar la gran posibilidad de comunicar datos. Es más probable que este último me impresione que cualquier credencial académica.

No estoy cerca de ser llamado científico de datos ni analista de nivel de entrada, pero aquí está mi experiencia sobre cómo pasé de cero conocimiento a escribir códigos de ciencia de datos en Python en 2 días. Mantengo un blog semanal sobre mis experiencias.


Ciencia de datos de Dezyre para Python – Clase 2

¡Así pasé de tener absolutamente cero experiencia en programación de Python a escribir funciones en mi segundo día!

Como dije en mi revisión de la primera sesión, Dezyre’s Data Science en Python, estaba buscando, ehhh, una clase de buena reputación de certificación de programación. Antes de continuar con mi revisión de la segunda clase, me gustaría responder a una pregunta que recibí ayer. “Camille, ¿por qué pagaste? Sabes que podrías haber tomado una clase gratis ”. Soy consciente de los diversos recursos gratuitos en línea y he tenido la oportunidad de tomar muchos en varias áreas. Estoy apuntando a una pasantía específica dentro de un período de tiempo establecido. Si bien me enorgullezco de ser disciplinado y lo suficientemente motivado para participar en un estudio independiente, estaba buscando algo más multidimensional (tutoría, certificado, proyectos, etc.). En este curso completamos 4 proyectos junto con la recepción de un certificado de IBM después de haber tenido éxito terminando con marcas de aprobación. Más que nada, espero con ansias las 8 horas de tutoría con los profesionales de IBM de Dezyre, así como utilizar esa ayuda para completar algunas competencias de Kaggle.

Durante la clase de hoy cuando completamos el Módulo 1, repasamos varias funciones que se construyeron sobre la base que recibimos ayer. El audio comenzó GRANDE, luego se desvaneció en galimatías apenas audibles hasta que me di cuenta de que el problema venía de mi parte, no de Dezyre. Cambié rápidamente de escuchar en mi PC a escuchar en mi teléfono llamando a la línea que figuraba en mi tablero. ¡Lamento no haber llamado antes porque marcó una gran diferencia! Durante mis problemas técnicos, perdí una buena cantidad de numpy (palabra muy divertida para decir una y otra vez), y tuve que rogarle al instructor que me aclarara más en el registro de chat. Mientras me repetía “numpy”, el instructor me explicó las similitudes con las operaciones de matriz y finalmente tenía sentido. El moderador / instructor de la sala de chat también proporcionó a la clase un enlace para leer más sobre la matriz numpy. ¡Gracias a Dios por eso!

Por suerte para mí, se grabó toda la sesión del seminario web, por lo que haré referencia a ese video más adelante mientras complete la primera tarea. Nuestra primera asignación es en el laboratorio de Dezyre y consta de 7 declaraciones de Python. Se da un conjunto de instrucciones sobre todo desde el día 1 y 2. Revisé la tarea y me siento cómodo de que las preguntas sean razonables, pero lo suficientemente desafiantes como para hacerme pensar. Te diré cómo va eso en la próxima publicación.

Uno de los últimos temas que cubrimos en el final de la sesión de 3 horas fueron las funciones. De alguna manera, las funciones me dejaron todo claro. Se tambaleó en todas las declaraciones individuales de una manera en la que realmente podía ver cómo podría manejar trabajar con Python. Antes de la primera clase, estaba completamente nervioso y un poco aterrorizado de que mi cerebro, ya con exceso de trabajo y con falta de sueño, no pudiera internalizar la información. A partir del día 2, puedo decir honestamente que, si bien no soy un profesional de Python, todavía … estoy significativamente más informado que antes de comenzar. Estoy oficialmente en camino de convertirme en Pythonista, ¡así que los subordinados se apartan de mi camino!

¡Así es como entraré en el próximo seminario web!

Para ser claros, ¡realmente ME ENCANTAN las funciones! Todavía no puedo decir por qué, pero toda la declaración dentro de una declaración es fascinante.

“¡Si te gusta, entonces es mejor que llames a una función para ello!” (A tono de Beyonce – Single Ladies)

El instructor pasa por cada paso con una sincera sinceridad y una especie de enfoque de “maestro feliz”. Puede sentir su preocupación mientras repite algo con una gentileza suave, sin perder el ritmo y asegurándose de que atienda las preguntas de los estudiantes. Esto es grande para mi. Mi viaje a la ciencia de datos ha sido solitario en los últimos meses y digamos que mi círculo no ha crecido debido a eso . Aprender de un científico de datos sénior que tiene años de experiencia en el mundo real, pero que también está interesado en saber si lo entiendo o no, es alentador y motivador. No pude conseguir eso con un MOOC gratis. Esto es lo que pagué.

Hacia el final del Módulo 1: Día 2, revisamos lo que se tratará en el Módulo 2. Cosas como el análisis exploratorio de datos y las visualizaciones estuvieron entre los temas de las clases de la próxima semana. ¡Esto será emocionante! Casi todas las lecciones tenían gráficos / tablas y vi algunos teoremas hacia el final. No lo puedo creer! ¡En unos días más estaré trazando datos por mi cuenta!

Si ha estado pensando en Python para Data Science, hasta ahora recomendaría esta clase. Aunque puede ser demasiado pronto para saberlo, pero si todas las demás clases se presentan de esta manera, ¡debería estar rockeando en poco tiempo! Si decides echar un vistazo al curso de ciencia de datos en Python de Dezyre, ¡diles que Data Cami te envió!


Tengo una maestría pero doctorado en estadística. He trabajado en dos compañías como científico de datos. Aquí no voy a enfatizar qué conjunto de habilidades debe prepararse como científico de datos. Me centraré principalmente en el proceso de la entrevista.

1. Necesita un currículum profesional especializado para el puesto de científico de datos. No estoy diciendo que adaptes tu currículum actual a tu voluntad. Debe leer el currículum de un científico de datos experimentado y un científico de datos a su nivel. La fuente que encontré útil es, de hecho, donde puedes ver a otros reanudar de forma gratuita. Simplemente ajuste los filtros en el sitio web a los buscadores de empleo que tengan antecedentes similares a los suyos.

Debería centrarse principalmente en cómo describen su proyecto pasado de una manera más profesional. ¿Cuál es el conjunto de habilidades que enumeraron en su sección de habilidades de programación? Solo para enumerar las habilidades que son relevantes para la ciencia de datos.

2. Sitios web útiles para buscar trabajo:

  • Dados (especializados en empresas tecnológicas. Uno de los reclutadores me dijo más tarde que encontraron mi currículum allí)
  • Monster and Indeed: habrá reclutadores que se comunicarán con usted una vez que publique su currículum allí.

3. Material de preparación de la entrevista:

  • Recomiendo encarecidamente al quora data scientist Preguntas sobre la entrevista de Data Science

Hay muchos cursos (MOOC o tradicionales) disponibles en todo el mundo, pero muchos olvidan que un Data Scientist debe ser bueno en CS / IT y ciencias duras, pero también en aplicaciones comerciales y ética y derecho. Esto último se olvida con demasiada frecuencia en los planes de estudio, pero es un desafío enorme.

Visítenos en el Data ScienceTech Institute, con nuestros programas de maestría más intensivos de 1,600 horas 😉

Tener una sólida comprensión de la teoría de estadística / probabilidad, aprendizaje automático y un lenguaje de programación o dos (preferiblemente R / Python). Si necesita una buena descripción general y una lista de referencias de trabajos académicos para los algoritmos de aprendizaje automático que se usan comúnmente en la actualidad, consulte: https://www.slideshare.net/Colle

Un máster es un buen compromiso: obtuve uno con mucha experiencia práctica en el análisis de datos y el desarrollo de algoritmos de aprendizaje automático.

Se están acercando a esto de la manera incorrecta, muchachos. Simplemente publique parte de su investigación para demostrar su destreza y estas compañías vendrán en masa a usted. ¿No es mejor para ellos venir a usted que enviar currículums a estas compañías a ciegas?

Soy prueba viviente de que esto es posible, ni siquiera tengo un currículum. Y de las personas que postulan en nuestra empresa, buscamos habilidades analíticas demostradas y redacción sólida, no un currículum. Tenemos medio billón de impresiones recopiladas en Facebook, ¡así que eso nos calificaría para estar en el espacio de big data!

Excelente pregunta planteada y algunos excelentes comentarios! Yo también estoy profundizando en el proceso de encontrar un lugar en el mundo analítico actual. Sin doctorado, pero con una maestría en Investigación de Operaciones de una Universidad respetable (FIT) y una gran experiencia (Director de Marketing para Mejora de Procesos y Estudios) en liderazgo, estadísticas y pruebas. Ahora enseñarme a mí mismo R, ya que parece ser un experto en MS Excel, no es lo suficientemente bueno. También viene de un fondo de ingeniería. Creo que varias personas aquí son acertadas, no se requiere doctorado. ¡Se relevante!