¿Qué es Big Data? Quizás la versión más conocida proviene de los científicos de IBM. Definieron Big Data como cantidades masivas de datos que pueden provenir de múltiples fuentes y estar presentes en varios formatos.
Se pueden caracterizar por alguna de las tres palabras: volumen, variedad y velocidad. El término volumen se refiere a la cantidad enorme de datos. Por ejemplo, los datos recopilados de una variedad de dispositivos y sensores conectados en la red de Internet.
La variedad se refiere al uso de múltiples tipos de datos que tienen diversos orígenes. Millones de dispositivos electrónicos (teléfonos celulares, laptops, computadoras, etc.) generan un flujo constante de datos que dan como resultado un gran volumen de datos de diferentes tipos. Por ejemplo, monitoreo de las condiciones de salud a través de datos obtenidos con rastreadores electrónicos sujetos al cuerpo de las personas, la información obtenida de los diferentes sensores de los teléfonos y la información que se obtiene de las redes sociales generan diferentes tipos de datos estructurados. Ciertamente, los dispositivos y sensores no son las únicas fuentes de datos. Todos dispositivos electrónicos conectados a Internet generan un conjunto masivo y muy diverso de datos estructurados y no estructurados. En 2011, había 555 millones de sitios web y más de 100 millones de blogs, muchos de los cuales incluían texto, imágenes, audio y video no estructurados.
La velocidad con la que se generan los datos también ha aumentado exponencialmente con el tiempo, por lo que se tiene la necesidad de sistematizarlos y analizarlos para tomar decisiones.
La ciencia de datos se ocupa del análisis sistemático de grandes volúmenes de datos utilizando herramientas de computación, modelado matemático, algoritmos numéricos y algoritmos complejos de aprendizaje automático para descubrir patrones invisibles, con el objetivo de construir modelos predictivos y obtener información significativa.
El aprendizaje automático es un método de análisis de datos que automatiza la construcción de modelos matemáticos. Es una rama de la inteligencia artificial basada en la idea de que los sistemas pueden aprender a partir de los datos, identificar patrones y tomar decisiones con una intervención humana mínima.
Algunos de los temas principales que requiere la ciencia de datos son los siguientes:
- Aprendizaje automático: El aprendizaje automático es la columna vertebral de la ciencia de datos. Los científicos de datos deben tener una sólida comprensión del aprendizaje automático además de los conocimientos básicos de estadística.
- Modelado matemático: Los modelos matemáticos permiten realizar cálculos y predicciones con base en la sistematización de los datos. El modelado matemático también es parte del aprendizaje automático e implica la identificación del algoritmo más adecuado para resolver un problema específico sugiriendo algunas ideas para el entrenamiento de los modelos.
- Estadísticas: Las estadísticas constituyen el núcleo de la ciencia de datos. Un análisis estadístico cuidadoso de los datos contribuye a extraer información significativa para proponer modelos matemáticos.
- Lenguajes de programación: Los lenguajes de programación constituyen una herramienta esencial para ejecutar un proyecto exitoso. Los lenguajes de programación más comunes son Python y R. Python es especialmente popular porque es fácil de aprender y tiene disponibles varias bibliotecas para ciencia de datos y aprendizaje automático. R dispone de bibliotecas de análisis estadístico y gráficos. Ambos tienen la gran ventaja de ser software libre, es decir, se pueden instalar en una computadora sin necesidad de pagar licencia de uso.
- Bases de datos: Para manejar y analizar cantidades masiva de datos es necesario comprender el funcionamiento de las bases de datos, cómo administrarlas y cómo extraer datos de ellas.
- Minería de datos: Se define como un proceso para extraer datos utilizables de un conjunto más grande de datos sin procesar o analizar. Requiere de la búsqueda de patrones dentro de cantidades masivas de datos utilizando el software apropiado.
¿POR QUÉ LA CIENCIA DE DATOS ES ESENCIAL EN LOS ESCENARIOS PRESENTE Y FUTURO?
En la industria de la salud, los médicos utilizan la ciencia de datos para analizar datos de rastreadores portátiles para analizar el estado de salud de sus pacientes. La ciencia de datos también permite a las administraciones de los hospitales a mejorar la atención integral de los pacientes.
En el comercio la ciencia de datos se usa para mejorar los servicios que contribuyen a la satisfacción del cliente para retenerlo.
La ciencia de datos se utiliza ampliamente en los sectores bancario y financiero para la detección de fraudes y el asesoramiento financiero personalizado.
Los proveedores de transporte utilizan la ciencia de datos para mejorar y optimizar los viajes de transporte de sus clientes. Por ejemplo, monitorear los viajes de los pasajeros para identificar circunstancias inesperadas utilizando datos estadísticos.
Las empresas de construcción utilizan la ciencia de datos para mejorar la toma de decisiones mediante el seguimiento de sus actividades, administración, tiempo promedio para completar tareas, control de gastos, etc.
La ciencia de datos permite capturar y analizar datos masivos de los procesos industriales y cadenas de producción, que hasta ahora no se han aprovechado.
Con la ciencia de datos, es posible analizar datos masivos en forma de gráficas, datos temporales y datos geoespaciales para extraer información.
La ciencia de datos facilita a las empresas aprovechar el contenido de las redes sociales para obtener patrones de uso del contenido de los medios en tiempo real. Esto permite a las empresas crear contenido específico para el público, medir el rendimiento y de ser necesario hacer reajustes.
La ciencia de datos ayuda a estudiar el consumo de servicios públicos en el ámbito de la energía y los servicios públicos. Esto contribuye a un mejor control del uso de los servicios públicos y una mejor retroalimentación de los consumidores.
Las aplicaciones de la ciencia de datos contribuyen a obtener información relacionada con la salud, análisis del mercado financiero, detección de fraudes, exploración de energía, protección ambiental y más.
Por lo anterior la ciencia de datos es una profesión con futuro promisorio. En la Escuela Nacional de Estudios Superiores (ENES) del campus Juriquilla de la UNAM, se impartirá, a partir de agosto de 2022, la Licenciatura en Matemáticas para el Desarrollo, que tendrá un área de concentración en Ciencia de Datos.