Sobre la Ciencia de Datos.

¿Qué es la Ciencia de Datos?

Desde hace mucho tiempo la ciencia de cómputo, la estadística y las matemáticas se han usado en combinación con el fin de extraer información de los datos como los producidos por experimentos o procesos diseñados para contestar preguntas predeterminadas. La nueva disciplina de la ciencia de datos surgió de la necesidad de estudiar sistemáticamente métodos para descubrir información procesable oculta en grandes cantidades de datos usualmente imprecisos, no estructurados y de procedencias muy variadas. Un científico de datos extrae conocimiento particular a partir de datos que no necesariamente fueron recogidos con ese fin.

¿En qué consiste un proyecto de ciencia de datos?

El desarrollo de un proyecto en Ciencia de Datos tiene lasiguientes etapas:

  • Acopio de datos: consiste de la búsqueda de los datos necesarios para el proyecto. Eso puede incluir "web-scraping", conexión directa a fuentes de datos en tiempo real, combinación de bases de datos existentes, entre otros. Fuentes de datos pueden incluir páginas web, bancos de datos existentes, sensores remotos, tráfico en redes sociales, video, audio, Internet de Cosas (IoT), y muchos más.
  • Almacenado y preparación de datos: Los datos pueden estar en formatos y estructuras que tienen que ser modificadas para facilitar su análisis. Esta etapa incluye eliminar datos que no son necesarios, remoción de duplicados, transformación de datos, uniformar formatos. Un ejemplo muy común es el de las fechas. Distintas fuentes pueden usar mes-día-año o día-mes-año o año-mes-día, pueden usar nombres o números para los meses, enre otros.
  • Análisis: Aquí se examina patrones, rangos, distribuciones, sesgos de valores entre los datos. En esta fase exploratoria es que se formulan las hipótesis a ser probadas para luego construir modelos matemáticos y/o estadísticos para extraer conocimiento.
  • Comunicación: El conocimiento adquirido se presenta en la forma de reportes estáticos o de productos informáticos con visualizaciones que pueden ser configuradas a conveniencia de quienes utilizarán ese conocimiento para tomar decisiones.
¿Que herramientas se utilizan?

La Ciencia de Datos es una disciplina computacional. Por tanto, requiere la utilización y dominio de uno o varios lenguajes de programación tanto para el análisis como para la producción y comunicación de los datos. La interpretación y modelado de los resultados requiere conocimientos de estadística y matemáticas.

Ejemplos de productos informáticos de Ciencia de Datos

En todos los casos la información se recopila automáticamente ya sea accediendo a las bitácoras del servidor web o a Twitter através de su API.

Mapas interactivos

Permiten visualizar cantidades relativas basadas en la localización. Al colocar el cursor sobre los círculos se puede ver los datos detallados. Se puede hacer zoom, seleccionar, descargar, etc.

Gráfica de pastel interactiva

Sirven para visualizar qué porción del universo corresponde a cada categoría. Al colocar el cursor sobre las secciones se puede ver los datos detallados. Pulsando sobre los nombres de los pueblos se les puede quitar/añadir de la gráfica.

Gráfica de líneas de series temporales

Muestran cómo varían varias cantidades con respecto al tiempo. Pulsando sobre los nombres de los recintos se les puede quitar/añadir de la gráfica. Se puede hacer zoom, seleccionar, descargar, etc.