¿Qué es Big Data?

Antes de introducirnos en los entornos Big Data, tenemos que dar respuesta a la pregunta ¿Qué es Big Data?

El término Big Data está de moda, podríamos traducirlo por “flujo de datos masivos” y viene a representar el aumento exponencial de los datos que generamos, almacenamos y manejamos. Estos datos se han convertido en un activo muy valioso para las compañías, que se encuentran con el reto de saber gestionarlos y convertirlos en información útil para el negocio, para ayudar a la toma de decisión en tiempo real. De ahí la manida expresión de los datos son el petróleo del futuro.

Durante los últimos tiempos, esta cantidad de datos ha crecido significativamente, hasta el punto de que los sistemas de gestión de datos tradicionales no dan una respuesta satisfactoria a esta nueva realidad. Y cuando hablo de sistemas tradicionales, me refiero fundamentalmente a las bases de datos relacionales.

Seguramente, habréis escuchado en alguna ocasión, que un Smartphone tiene más capacidad de almacenamiento y computación de la que dispuso la NASA para colocar al hombre en la luna y traerlo de vuelta sano y salvo. Lo cierto es actualmente, en un día, enviamos más de 250 mil millones de correos, realizamos más de 6 mil millones de búsquedas en Google, casi 7 mil millones de reproducciones de videos en YouTube o más de 700 millones de tweets diarios.

Puede pensarse que esto sólo aplica a las mega compañías tecnológicas, pero nada más lejos de la realidad. Cualquier negocio que adquiera cierto tamaño y opere en Internet utilizando varios canales, estaría recibiendo un torrente de datos de manera continua, desde todos los canales. Veremos esto más adelante con un ejemplo figurado, el de nuestro ya famoso amigo Antonio y su supermercado, pero primero veamos que es lo que nos ha llevado a esta situación.

La aparición del Big Data

Mayoritariamente, se localiza la aparición del Big Data en Google en el año 2003, cuando desarrollan el sistema de ficheros distribuidos GFS (Google File System), del que hablaremos más adelante.

No obstante, antes de este hecho, se fueron produciendo una serie de avances tecnológicos que propiciaron que generáramos muchos más datos, que obviamente queríamos guardar, incluso aunque no fuéramos a usarlos en el corto plazo. Paralelamente, se producían otros avances tecnológicos posibilitaban el tratamiento de dichos datos.

Los principales avances que dieron lugar a la aparición del Big Data son:

  • El aumento de la capacidad de almacenamiento: La evolución de la capacidad de los dispositivos digitales de almacenamiento ha sido impresionante. Por ejemplo, prestando atención a la evolución de la capacidad de los discos duros, vemos que su capacidad se duplica más o menos cada año, como pronostica la ley de Kryder:
Ley de Kryder
Ley de Kryder

Y el caso de los discos duros es sólo una parte. Los medios extraíbles han evolucionado desde los primeros discos magnéticos flexibles con capacidades de cientos de Kilobytes (KB) a los pen drives actuales, algunos de los cuales tienen capacidades de Terabytes (TB).

  • El abaratamiento de los dispositivos de almacenamiento: El coste de almacenamiento se ha ido reduciendo drásticamente a lo largo de los años, lo que también ha contribuido a que almacenemos muchos más datos. En la gráfica siguiente puede apreciarse la evolución del coste de almacenamiento de un Gigabyte, desde casi un millón de dólares en la década de los ochenta, a unos céntimos entrando en la segunda década del siglo XXI.
Gráfica con la evolución del coste del Gigabyte
Evolución del coste del Gigabyte

Por tanto, podemos decir que la evolución de los dispositivos de almacenamiento ha contribuido a la aparición del Big Data. En concreto, el aumento de la capacidad, la reducción del coste y la miniaturización de estos dispositivos ha resultado clave.

  • El incremento de la capacidad de computación: Desde la aparición del transistor, el incremento de la capacidad de computación ha sido exponencial. El número de estos elementos que se integran en los distintos circuitos electrónicos ha ido duplicándose más o menos cada dos años, como establece la conocida ley de Moore. Quien quiera leer un poco más de este tema puede dirigirse a este otro post que tengo dedicado al tema.
  • La captura automática de datos: Otro factor determinante en la aparición del Big Data ha sido la automatización en la captura y registro de los datos. El flujo inmenso de datos y la inmediatez de los mismos no sería posible si tuviéramos que registrarlos de manera manual.

Hace algunos años, las empresas realizaban entrevistas a clientes, les preguntaban sobre sus gustos, sus necesidades, la opinión sobre los servicios y productos que ofrecían. Hoy en día, con el ecosistema digital, las empresas reciben una cantidad ingente de datos con cada interacción que tiene con el cliente. No hace falta preguntar nada a los clientes, cada vez que entran en la web de la empresa, automáticamente se captura toda una serie de información que va desde las páginas visitas, el tiempo de permanencia, incluso las zonas más calientes donde el usuario clicado o ha permanecido más tiempo.

Con este panorama, la preocupación de las empresas a virado de capturar datos de sus clientes a saber que hacer con ellos, entender como hay que tratar estos datos para convertirlos en información de negocio que ayude a la toma de decisiones.

  • El internet de las cosas (IoT): El auge de Internet como red de redes que todo lo conecta, nos ha llevado a querer conectar a esta red todo tipo de dispositivos, no sólo ordenadores o móviles, sino cualquier cosa. El internet de las cosas no es más que eso, el Internet que comunica todos estos dispositivos que pueden ir desde un termostato a una báscula. Cada “cosa” tiene su dirección IP que la localiza en la red, y le da la posibilidad de comunicarse con otras “cosas”.

En la práctica, lo anterior ha supuesto que multitud de dispositivos con sensores, estén capturando datos de manera continua y desatendida, para volcarlos luego en distintas bases de datos. Otro factor que ha contribuido poderosamente a la aparición del Big Data.

Las 3Vs + 2Vs

No obstante, cuando nos referimos a Big Data, no basta con que estemos manejando una cantidad muy grande datos, sino que además deben de darse una serie de características que están representadas por las denominadas Vs.

Inicialmente se hablaba de 3 Vs:

  • Volumen: Hace referencia a que disponemos de una cantidad de datos muy grande. Es la característica más intuitiva, necesaria pero no suficiente. Es decir, por el hecho de tener muchos datos no quiere decir que estemos en Big Data.

Si tomamos el ejemplo del supermercado Gades de Antonio. Lo normal sería que el negocio tuviera una web, en la que probablemente vendería productos online. Empezaríamos a recibir datos de toda la actividad en la web, desde las visitas, tiempo de permanencia, pedidos, etc. Al final, Antonio acaba manejando un volumen de datos muy superior al que manejaba cuando no tenía presencia en Internet.

  • Variedad: En Big Data manejaremos datos de muy diversas fuentes que además tendrán estructuras diferentes.

Aplicando el ejemplo del supermercado Gades, además de su página web, el negocio tendría una cuenta en Facebook y otra en Twitter. La variedad de los datos que tendría que manejar queda patente, no sólo por el tipo de datos: videos, imágenes, textos, sino por las distintas estructuras de datos de todas sus fuentes: la web, las redes sociales, el correo, sus bases de datos corporativas, etc.

  • Velocidad: Otro requisito para poder hablar de Big Data, es que la velocidad de llegada de los datos sea incesante, continua. Esto es lo que nos ocurre con la web o las redes sociales, que nunca duermen, en las que el cliente puede entrar y interactuar en cualquier momento.

Realmente, este es el último factor que hay que cumplir para poder decir que hablamos de Big Data.

Entonces, para poder hablar de Big Data, no sólo tenemos que hablar de datos masivos, sino que deben de cumplirse las características anteriores. Por ejemplo, si hablamos de los datos del censo, no estaríamos hablando de Big Data, ya que no tendrían gran variedad ni velocidad, sencillamente estaríamos hablando de una gran cantidad de datos, que podríamos manejar con las herramientas convencionales, como las bases de datos relacionales.

Posteriormente, se han añadido un par de factores más, dos Vs nuevas:

  • Veracidad: Se refiere al hecho de que hay que establecer un grado de confianza sobre los datos con los que se trabaja. No todos ni todas las fuentes manejadas tendrán la misma validez.
  • Valor: Hace referencia a la información que hay en los datos y que hay que saber extraer. Esta debe aportar valor al negocio, lo que debe entenderse como información valiosa que ayude a la mejor toma de decisiones.

NOTA:

Este post es parte de la colección “Sistemas de acceso y almacenamiento de datos”. Puedes ver el índice de esta colección aquí.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.