Dos acontecimientos separados por un siglo marcan el éxito de la estadística. El primero fue el establecimiento de esta disciplina derivada de las matemáticas, gracias a las revoluciones de Francis Galton (1822-1911) y Karl Pearson (1857-1936), a finales del siglo XIX.
Y el segundo, el surgimiento del big data, el término que fue acuñado a finales del siglo XX por el informático norteamericano John Mashey (1946) para referirse a los datos masivos procedentes de los ciudadanos debido a la popularización de internet y su mayor acceso a través de celulares, por los cuales enviamos millones de datos de los más diversos temas.
"Hoy en día, las empresas, la administración, los hospitales, las universidades y otros organismos públicos o privados recurren a técnicas de e-comercio, marketing directo, geolocalización, presencia virtual en internet, etc. por lo que se genera mucha información, que se presenta en diferentes formatos: páginas web, tuits y post en redes sociales, documentos PDF, correos electrónicos, pagos en línea, video, sonido… Una vez que la información es transmitida, los datos quedan almacenados en bases de datos", explica Rafael Lahoz Beltra en su libro En las entrañas del big data. Una aproximación a la estadística.
Precisamente, el matemático y divulgador científico realiza una completa caracterización de este concepto que, a pesar de haber desarrollado sofisticadas herramientas estadísticas exclusivas (llamadas minería de datos, o data mining), modelos de inteligencia artificial para analizar grandes volúmenes de información, e inclusive modernos software de extracción de tendencias o patrones de regularidad, halla sus raíces en la estadística de finales del siglo antepasado, gracias a sus funciones de organización y clasificación de información, y de predicción, y a su versatilidad, que han motivado análisis de todo tipo; algunos tan curiosos como el que hizo Paul Morand (1888-1976): "Las estadísticas demuestran que 480 besos acortan la vida en un día, que 2.360 besos os privan de una semana y que 148.071 besos son sencillamente un año perdido".
BIG DATA
Los macrodatos, también llamados datos masivos, inteligencia de datos, datos a gran escala (del inglés big data) es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos
para tratarlos adecuadamente. Los datos son la reproducción simbólica
de un atributo o variable cuantitativa o cualitativa; según la RAE
«Información sobre algo concreto que permite su conocimiento exacto o
sirve para deducir las consecuencias derivadas de un hecho». Por ende, los procedimientos usados para encontrar patrones repetitivos
dentro de esos datos son más sofisticados y requieren un software
especializado. En textos científicos en español, con frecuencia se usa
directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.
El uso moderno del término macrodatos tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos.
Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos, en las búsquedas, las comparticiones, y los análisis, y en las visualizaciones y representaciones. La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.
El límite superior de procesamiento ha ido creciendo a lo largo de los años. Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.
Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica, la conectómica (una aproximación al estudio del cerebro; en inglés:Connectomics; en francés: Conectomique), las complejas simulaciones de procesos físicos y las investigaciones relacionadas con los procesos biológicos y ambientales.
Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros), las cámaras (sistemas de teledetección), los micrófonos, los lectores de identificación por radiofrecuencia.
La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980. Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.
MÁS INFORMACIÓN
- Libro: La revolución algebraica. El nacimiento de la teoría de grupos. Grandes Ideas de las Matematicas
- Libro: Teoría de juegos. Sin riesgo no hay ganancia. Grandes Ideas de las Matematicas
- Libro: Análisis funcional. Una historia de matemáticos en las trincheras. Grandes Ideas de las Matematicas
Autor(es): Rafael Lahoz-Beltra
Editorial: EMSE EDAPP
Páginas: 144
Tamaño: 16 x 23,5 cm.