Intente implementar un algoritmo de aprendizaje automático de Apache Mahout. Hay muchos datos, como los datos del banco mundial, disponibles de forma gratuita en línea. Elija un algoritmo de Mahout e intente implementarlo en un enorme conjunto de datos disponible. Puede usar Amazon Elastic Map Reduce o cualquier otro servicio de clúster en línea en caso de que no tenga una configuración de clúster.
Edit1: Entonces Mahout puede ser un poco complicado para algunas personas, así que lo desglosaré:
Paso 1: intente aprender a configurar una VM desde Cloudera of Hortonworks.
Paso 2: aprenda a configurar Pig, Hive, Flume y cualquier otro si tiene un requisito muy específico. Pig and Hive es un deber.
- Soy estudiante de tercer año ece. ¿Qué debo hacer para obtener una buena ubicación?
- Si quiero cambiar mi carrera de ingeniero civil, ¿cuáles son buenas alternativas con 4 años de experiencia y un título de 4 años?
- Soy un estudiante de 5º semestre que persigue ingeniería informática y quiero hacer un proyecto en Java, ¿debo ir a capacitarme? En caso afirmativo, por favor, hágame saber dónde puedo tomar el entrenamiento
- Estoy estudiando en ingeniería mecánica, ¿qué debo hacer después de esto y en qué campo del alcance de la ingeniería mecánica es grande?
- Soy ingeniero informático y recientemente escuché sobre un curso llamado MEM (Master in Engineering Mng) que sentí que era una mejor opción que MBA, ya que me mantendría afiliado a la ingeniería. Como no estoy completamente al tanto de este curso, ¿puede proporcionarme una idea al respecto?
Paso 3: aprenda los conceptos básicos de HDFS, intente mover archivos de sistemas de archivos locales a HDFS, y simplemente obtenga la mano del sistema de archivos y navegue por él.
Paso 3: Intenta leer un archivo de prueba usando PIG y volcarlo en la consola de la pantalla. Juguete alrededor. Luego intente escribir en un sistema de archivos y, finalmente, en una tabla externa de Hive.
Paso 4: Ahora escriba un UDF de Java y llámelo a través de PIG. HAGA alguna transformación básica en sus datos como Substring o Concat o Sum. Esto sabrá cómo leer una tupla en Java y hacer algunas operaciones básicas en él. Nota: esto sería un UDF y no un MAP REDUCE algo.
Paso 5: Ahora que conoce los conceptos básicos de HDFS, PIG, HIVE y JAVA UDF, puede transferir un problema a Hadoop y hacer un proyecto 🙂
Paso 6: REGRESE e intente hacer esto.
Paso 7: UP vota la respuesta 🙂