¿Cómo es diseñar una clase de ciencia de datos? En particular, ¿cómo fue diseñar la nueva clase de ciencia de datos de Harvard, impartida por los profesores Joe Blitzstein y Hanspeter Pfister?

Desafiante, pero divertido e interesante. Un desafío es que todavía no existe una definición ampliamente aceptada de “ciencia de datos”. ¿Hay alguna diferencia entre ciencia de datos y estadística? Algunos estadísticos han reaccionado negativamente al término, pero creo que los estadísticos deberían colaborar con personas de CS y otros antecedentes cuando existe un interés común en obtener información interesante, útil y válida de los datos.

La cantidad y la complejidad de los datos han aumentado mucho en los últimos años, por lo que las fuertes habilidades de CS se están volviendo cada vez más importantes. La visualización y la comunicación también son cada vez más importantes. Véase también el editorial de la presidenta de la Asociación Americana de Estadística, Marie Davidian, en
¿No somos ciencia de datos?

Volviendo a los desafíos en el diseño de dicho curso, tenga en cuenta que no hay un plan de estudios estándar ni un libro de texto estándar. Sin embargo, esto también es divertido, ya que hay más posibilidades de ser creativo y pensar desde los primeros principios sobre cuáles son las cosas más importantes para aprender.

Otro desafío es el tiempo; hay tanto material tanto de estadísticas como de CS, por lo que los temas deben seleccionarse y organizarse con mucho cuidado.

Otro desafío es mantener modestos los requisitos previos (estadísticas introductorias y CS), mientras se crean ejemplos y problemas donde los estudiantes pueden explorar conjuntos de datos reales y emocionantes y obtener conclusiones que a las personas realmente les interesan (en lugar de simplemente hacer problemas con los juguetes o aprender métodos para por el bien de los métodos).

Hanspeter Pfister y yo estamos organizando nuestro nuevo curso (CS 109 / Stat 121 / AC 209 / E-109 en Harvard) en torno a lo que llamamos el proceso de ciencia de datos . Este proceso se muestra en el diagrama a continuación y es muy iterativo y no lineal.


A diferencia de la mayoría de los cursos de estadística o CS, el curso es una verdadera fusión de los dos campos, y el objetivo es familiarizarse con todo el proceso de una investigación (y luego otros cursos pueden entrar en más detalles sobre componentes específicos como el ajuste del modelo o visualización). Elegimos los tres módulos para reflejar temas que son de gran interés en estos días: predicción y elecciones (por ejemplo, el trabajo de Nate Silver), recomendaciones y análisis de negocios (por ejemplo, el Premio Netflix), y análisis de muestreo y redes sociales (por ejemplo, Twitter o colaboración redes).