¿Cuáles son algunos temas interesantes para el proyecto Master en áreas de aprendizaje automático / ciencia de datos? Soy estudiante graduado de CS.

Yo guío a algunos estudiantes de MS que están haciendo tesis / proyectos en ML o analizando grandes datos. Y podría enumerar algunos temas, incluidos los que están trabajando (puede ir a varios grupos y encontrar los temas usted mismo leyendo descripciones de proyectos, títulos de nuevas tesis y documentos, etc.). Sin embargo, eso no será de mucha ayuda. Obtener algunos de los temas enumerados aquí no es una buena respuesta a lo que probablemente necesite.

La forma correcta de elegir un tema es consultar con su asesor (que podría ser su asesor de profesor / facultad, un mentor en una industria o un estudiante de doctorado / Postdoc en el laboratorio en el que está trabajando). Considere esto, “encontrar la pregunta es más difícil que obtener la respuesta” (atribuido a James Hendler) y debe comprender bastantes cosas:

  • Por qué, qué y cómo (vea este video muy importante sobre la importancia de Por qué).
  • ¿Tienes acceso a los datos? En muchos proyectos de ciencia de datos / ML tanto en la academia como en la industria, el acceso a datos de buena calidad sin privacidad u otros desafíos es un gran problema. Muchos datos del mundo real requerirán un trabajo extenso para reducir el ruido, limpiar y garantizar que sea representativo (por ejemplo, sin sesgo / sesgo). ¿Puedes encontrar datos abiertos / no propietarios típicamente utilizados para competiciones (por ejemplo, Kaggle)? ¿Puedes usar Twitter u otros datos sociales o de sensores abiertos?
  • ¿Tienes acceso a evaluadores? Probar que sus resultados son buenos o útiles puede ser increíblemente difícil sin acceso a expertos, usuarios o evaluadores del dominio.
  • ¿Tienes acceso a recursos? (Por ejemplo, mi estudiante estaba procesando datos sociales y de sensores de 1 año del área de SF, pero tenía acceso a un grupo masivo de cientos de núcleos, muchos TB de memoria principal y cientos de TB de disco).

Algunos de los lectores pueden estar interesados ​​en las respuestas a una pregunta relacionada:
¿La opción de tesis es mejor desde la perspectiva de trabajo / carrera en MS-Computer Science?

He respondido una pregunta similar aquí.

TL; DR

Los siguientes son temas interesantes en las áreas de aprendizaje automático / ciencia de datos,

  1. Puedes seleccionar una de las competencias en curso / nuevas en Kaggle. Por ejemplo, el desafío del algoritmo de detección de pasajeros.
  2. Basado en la tendencia actual, un proyecto sobre conducción autónoma de automóviles. Este repositorio puede usarse como punto de partida.
  3. En función de su interés específico en el dominio de análisis numérico, de imágenes o PNL, hay muchos temas de investigación que pueden analizarse. Puedes encontrar la lista aquí.

La decisión del tipo de proyecto debe basarse en la disponibilidad de recursos y tiempo. Profundizar en los problemas de investigación es interesante, pero puede llevar mucho más tiempo.

Independientemente de cualquier tema en el que se pueda trabajar en el aprendizaje automático, la configuración del entorno, el control de versiones de modelos es una molestia que siempre se enfrenta. Por lo tanto, creamos la herramienta, datmo. Esta herramienta maneja el entorno, los controles de versión y permite la colaboración.

Deep Learning es el campo más candente en Machine Learning en estos días.

Tiene aplicaciones en áreas como robótica, visión artificial, procesamiento de voz, procesamiento de texto y lenguaje natural, y análisis de series temporales.

Elija el área que desee (¡una guía con el fondo adecuado es importante!), ¡Y presente una aplicación interesante!

Puede verificar APT (Amenaza persistente avanzada), cómo funcionan y cómo puede correlacionar que dos ataques provienen de la misma organización para el mismo propósito.
Solo otra idea.