Oracledbacr, por simple pasión ...-Copyleft Miembro Comunidad Tecnológica de Oracle Latinoamérica: Cómo explicar Hadoop a personas no IT

miércoles, 29 de julio de 2015

Cómo explicar Hadoop a personas no IT

http://www.informationweek.com.mx/

Los Big Data son un tópico popular en estos días, no sólo en los medios técnicos, sino también entre los medios noticiosos masivos.

Pero aunque quien está leyendo esto ahora entiende claramente la importancia de Hadoop, existe una alta probabilidad de que muchas personas en la empresa para la que trabaja (incluyendo más que unos cuantos ejecutivos de Nivel C) no estén realmente seguros de lo que es Hadoop, qué hace o por qué es importante.

¿Cómo explicar Hadoop a personas sin formación técnica? Un método consiste en centrarse en los beneficios de Hadoop y los Big Data, en lugar de proporcionar detalles aturdidores (con acrónimos que se olvidan fácilmente) sobre cómo todo funciona.

En analista de Forrester, Mike Gualtieri, empleó este enfoque de “beneficios” en junio cuando publicó en el blog de la firma analista un breve tutorial en video que brinda una descripción de Hadoop fácil de entender. Él lo llama una plataforma que facilita el manejo de los Big Data. “Para entender Hadoop, tiene que entender dos aspectos fundamentales de éste”, explicó Gualtieri en su video. Éstos son: cómo almacena archivos Hadoop y cómo procesa datos.

Y agregó: “Imagine que tuviera un archivo más grande que la capacidad de almacenamiento de su PC. No podría guardar ese archivo, ¿verdad? Hadoop le permite almacenar archivos más grandes de los que se pueden alojar en un nodo o servidor en particular. De modo que puede almacenar archivos muy, muy grandes. También le permite almacenar muchos, muchos archivos”.

Enfocándose menos en la jerga de Hadoop y los Big Data, y más en los beneficios reales de la plataforma, los expertos pueden transmitir su valor de manera efectiva a colegas de negocios que no tienen una formación en ciencia de datos.

Gualtieri, analista principal de Forrester

“Los usuarios de negocios convencionales no necesitan saber cómo funciona Hadoop –explicó Gualtieri a InformationWeek en Estados Unidos–, pero sí requieren entender que las restricciones que alguna vez tuvieron para almacenar y procesar datos se eliminan cuando se instala Hadoop.” Como resultado, “la empresa puede comenzar a pensar en grande de nueva cuenta cuando de datos se trate”, añadió.

El aluvión de informes noticiosos acerca de todas las facetas de los Big Data –incluyendo su potencial de combatir diversas enfermedades, reducir la burocracia en el gobierno, ubicar terroristas y, en un nivel más mundano, ayudar a las empresas a vender más cosas– ha ayudado a introducir a personas de negocios a Hadoop, aunque se necesita aprender mucho más.

“Existe menos confusión de la que había hace 12 meses”, admitió Gualtieri, puntualizando que los ejecutivos “simplemente saben que es una tecnología de Big Data, y con eso les basta”.

Bueno, ¿entonces qué es esta cosa “MapReduce”? Es parte de Hadoop también, ¿verdad? Como explicó Gualtieri en su video: la segunda característica de Hadoop es su capacidad de procesar esos datos, o al menos (proveer) una estructura para procesar esos datos. A esa estructura se la llama MapReduce”.

Pero en vez de dar el paso convencional de trasladar datos a través de una red para ser procesados por software, MapReduce emplea un enfoque más astuto hecho a la medida de los grupos de Big Data.

Trasladar datos a través de una red “puede ser muy, muy lento, en especial con grupos de datos realmente grandes”, agregó Gualtieri en el video. “Imagine si abre un archivo realmente grande en su laptop: tomará mucho tiempo en abrirlo. Toma mucho más tiempo que si se trata de un archivo pequeño”.

Así que en lugar de trasladar los datos al software, MapReduce traslada el software de procesamiento a los datos. Hadoop sigue siendo muy complejo de usar, pero muchas nuevas compañías están creando herramientas para cambiar eso, la cual es una tendencia prometedora que debería ayudar a eliminar mucho del misterio y de la complejidad que cubre a Hadoop hoy.

“La innovación en Hadoop se está dando a una velocidad increíble”, dijo convencido Gualtieri. “La comunidad del código abierto y los proveedores comerciales están trabajando a paso firme para hacer el acceso a SQL súper rápido en Hadoop. Eso abrirá conexiones desde muchas otras herramientas como Tableau, y otras herramientas de inteligencia de negocios que se enlazan con datos utilizando SQL.”

Solo, como un consejo, no conviene utilizar ese último párrafo para explicar Hadoop a novatos, por favor.