Libro: En las entrañas del big data. Una aproximación a la estadística. Grandes Ideas de las Matematicas

lunes, 29 de abril de 2024

Libro: En las entrañas del big data. Una aproximación a la estadística. Grandes Ideas de las Matematicas

Dos acontecimientos separados por un siglo marcan el éxito de la estadística. El primero fue el establecimiento de esta disciplina derivada de las matemáticas, gracias a las revoluciones de Francis Galton (1822-1911) y Karl Pearson (1857-1936), a finales del siglo XIX.

Y el segundo, el surgimiento del big data, el término que fue acuñado a finales del siglo XX por el informático norteamericano John Mashey (1946) para referirse a los datos masivos procedentes de los ciudadanos debido a la popularización de internet y su mayor acceso a través de celulares, por los cuales enviamos millones de datos de los más diversos temas.

"Hoy en día, las empresas, la administración, los hospitales, las universidades y otros organismos públicos o privados recurren a técnicas de e-comercio, marketing directo, geolocalización, presencia virtual en internet, etc. por lo que se genera mucha información, que se presenta en diferentes formatos: páginas web, tuits y post en redes sociales, documentos PDF, correos electrónicos, pagos en línea, video, sonido… Una vez que la información es transmitida, los datos quedan almacenados en bases de datos", explica Rafael Lahoz Beltra en su libro En las entrañas del big data. Una aproximación a la estadística.

Precisamente, el matemático y divulgador científico realiza una completa caracterización de este concepto que, a pesar de haber desarrollado sofisticadas herramientas estadísticas exclusivas (llamadas minería de datos, o data mining), modelos de inteligencia artificial para analizar grandes volúmenes de información, e inclusive modernos software de extracción de tendencias o patrones de regularidad, halla sus raíces en la estadística de finales del siglo antepasado, gracias a sus funciones de organización y clasificación de información, y de predicción, y a su versatilidad, que han motivado análisis de todo tipo; algunos tan curiosos como el que hizo Paul Morand (1888-1976): "Las estadísticas demuestran que 480 besos acortan la vida en un día, que 2.360 besos os privan de una semana y que 148.071 besos son sencillamente un año perdido".

BIG DATA

Los macrodatos, también llamados datos masivos, inteligencia de datos, datos a gran escala (del inglés big data) es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa; según la RAE «Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho». Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado. En textos científicos en español, con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.

El uso moderno del término macrodatos tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos.

Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos, en las búsquedas, las comparticiones, y los análisis, y en las visualizaciones y representaciones. La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.

El límite superior de procesamiento ha ido creciendo a lo largo de los años. Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.

Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica, la conectómica (una aproximación al estudio del cerebro; en inglés:Connectomics; en francés: Conectomique), las complejas simulaciones de procesos físicos y las investigaciones relacionadas con los procesos biológicos y ambientales.

Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros), las cámaras (sistemas de teledetección), los micrófonos, los lectores de identificación por radiofrecuencia.

La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980. Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.

Los sistemas de gestión de bases de datos relacionales y los paquetes de software utilizados para visualizar datos, a menudo tienen dificultades para manejar los macrodatos. Este trabajo puede requerir "un software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores". Lo que se califica como macrodatos varía según las capacidades de los usuarios y sus herramientas, y las capacidades de expansión hacen que los macrodatos sean un objetivo en movimiento. "Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante".

MÁS INFORMACIÓN

Autor(es): Rafael Lahoz-Beltra

Editorial: EMSE EDAPP

Páginas: 144

Tamaño: 16 x 23,5 cm.

Año: 2023