Capacitación en línea: quiero aprender big data desde el principio. ¿Dónde y cómo empiezo?

El análisis de Big Data es el proceso de examinar grandes conjuntos de datos que contienen una variedad de tipos de datos, es decir, Big Data, para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias del cliente y otra información comercial útil. Los resultados analíticos pueden conducir a nuevas oportunidades de ingresos de marketing más eficaces, un mejor servicio al cliente, una mejor eficiencia operativa, ventajas competitivas sobre las organizaciones rivales y otros beneficios comerciales.

Visite este enlace: Cursos de Big Data en Intellipaat El objetivo principal del análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden ser aprovechados por los programas convencionales de inteligencia de negocios (BI). Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas,

Registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET Cosas Algunas personas asocian exclusivamente grandes datos con datos semiestructurados y no estructurados de ese tipo, pero empresas consultoras como Gartner Inc. y Forrester Research Inc. también consideran las transacciones y otros datos estructurados para ser componentes válidos de aplicaciones de análisis de big data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional.

Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

Prerrequisitos

Antes de comenzar con este tutorial, asumimos que tiene una exposición previa a Core Java, conceptos de bases de datos y cualquiera de los sabores del sistema operativo Linux.

-Aprender conceptos básicos sobre conectividad Java y JDBC

Aquí hay algunos datos rápidos sobre el marco de Hadoop:

Funciona con los sistemas operativos Windows y Linux, pero también puede funcionar en BSD y OS X.

Hadoop es uno de los marcos más populares para implementaciones a gran escala e intensivas en datos. Hadoop puede procesar grandes cantidades de datos desde terabytes a petabytes y más.

Hadoop está diseñado para procesar de manera eficiente grandes cantidades de datos conectando muchas computadoras comunes para que puedan trabajar en paralelo, resolviendo así el problema de tener demasiados datos en una máquina.

Hadoop no requiere que estructure los datos que ingresa. Los usuarios pueden literalmente descargar su información en el marco sin necesidad de volver a formatearla. (Requiere algo de limpieza de datos, pero al menos no requiere transformaciones de esquema a esquema).

Es rentable porque controla los costos almacenando datos de manera más asequible por terabyte (en comparación con otros marcos). En lugar de gastar miles o decenas de miles por terabyte, Hadoop ofrece servicios de cómputo y almacenamiento solo por cientos de dólares por terabyte.

Según los expertos, la tolerancia a fallas de Hadoop es una de sus ventajas más importantes. Incluso si los nodos individuales experimentan fallas, los datos se replican en un clúster para que puedan recuperarse fácilmente ante diferentes tipos de fallas (disco, nodo o bastidor).

Hay muchas fuentes gratuitas para aprender Hadoop y tecnologías relacionadas.
He mencionado algunos enlaces de los que estoy familiarizado.

Hadoop Eco System – Tutoriales en línea de Hadoop
Cursos de video
Aprenda de los mejores de la industria – Big Data University
Página en mapr.com
Página en udacity.com
itversidad
Para tecnologías relacionadas con Nosql como Cassandra
Tutoriales y capacitación gratuitos de Cassandra

Puede comenzar a consultar algunos blogs y videos informativos de Big Data disponibles en Internet para comprender los conceptos básicos. He encontrado un recurso útil para el libro electrónico Bigdata, lo encontré muy interesante.
Además, también puede planear tomar una capacitación en línea sobre Bigdata y Hadoop para obtener experiencia y dominar las habilidades.

Hola. Como otros han dicho, comience en línea. Puedes leer blogs como ¿Qué es Big Data & Hadoop? ¿Cuál es el problema? o visite youtube para sesiones detalladas

Dataconomy enumera el curso Big Data de Jigsaw en su Lista de los mejores cursos de Big Data. Mira el enlace

Página en analyticstraining.com
Puedes comenzar a aprender desde lo más básico a través de sus cursos.

use Coursera y encontrará cursos en Big Data …

para aprender hadoop de big data también puede consultar: http://www.optnation.com/hadoop-