23 mayo 2023

Compartir en:

Para tomar una buena decisión se necesitan datos, pero no todos sirven o —peor aún— su análisis puede ser parcial. En la actualidad, conseguirlos no es el mayor reto, pues en todas las organizaciones los generan, sino tener los indicados y de forma estructurada. 

Si esto se consigue, cualquier estrategia de analítica de datos e inteligencia artificial puede ser exitosa. De ahí que su administración, como la gobernanza de los datos (data governance) o la arquitectura virtual data fabric, sean cada vez más importantes.  

Para muestra de lo relevante que esto se ha vuelto, un reciente informe de la firma de inteligencia de mercado IDC reveló que la gestión de datos fue la categoría de gasto en infraestructura de más rápido crecimiento en 2022. 

Aun así, este panorama no es el habitual. En las organizaciones es común que la recolección de datos y su análisis se hagan de forma aislada. 

Sobre este problema, el cofundador y CEO del desarrollador de bases de datos analíticas en tiempo real Kinetica, Nima Negahban, identificó en una entrevista reciente con InformationWeek dos causas: la facilidad con la que cada área puede obtener información y hacer sus propios análisis, así como la inmediatez que se requiere en ciertas decisiones. 

Un análisis de datos aislado puede generar resultados no alineados completamente a la estrategia de negocio e incluso contraproducentes. De ahí la relevancia de la taxonomía de los datos. 

¿Qué es la taxonomía de datos? 

Así como en la Biología, la taxonomía funciona para nombrar, definir y clasificar. Para los datos, es lo mismo, solo que no aplica a todos los posibles, sino únicamente a aquellos dentro de un conjunto determinado. 

La taxonomía de datos es la clasificación de datos en grupos jerárquicos para crear una estructura, estandarizar la terminología y popularizar un conjunto de datos dentro de una organización. 

Representa una estructura formal de clases o tipos de objetos dentro de un dominio de conocimiento mediante el uso de un vocabulario controlado para facilitar la búsqueda de información relacionada.  

Su definición y uso puede ofrecer beneficios en el sentido de que los usuarios de cierto sistema clasifican el contenido y los activos con un vocabulario controlado, que incluso sirve como punto de referencia de integración entre diferentes sistemas comerciales. 

En otras palabras, la taxonomía de datos puede definirse para una organización en específico, una industria en particular o un campo de estudio determinado. 

Recomendaciones 

Aunque la taxonomía de datos es fundamental para garantizar que se tienen las entradas de datos correctas para generar información relevante, a menudo hay una aplicación inconsistente de esta, así como una mala gobernanza. 

Para que sea exitosa, una taxonomía de datos debe: 

  1. Seguir un formato jerárquico y proporcionar nombres para cada objeto en relación con otros objetos. 
  1. Contar con reglas específicas para clasificar o categorizar cualquier objeto en un dominio. Estas reglas deben ser completas, consistentes y sin ambigüedades. 
  1. Tener rigor en la especificación y asegurarse de que cualquier objeto recién descubierto encaje en una sola categoría u objeto. 
  1. Heredar todas las propiedades de la clase superior. También puede tener propiedades adicionales. 
  1. Capturar las propiedades de pertenencia de cada objeto en relación con otros objetos. 

Beneficios de una taxonomía de datos 

La taxonomía de datos ayuda a las organizaciones a clasificar, etiquetar y organizar su información para que sea más fácil de encontrar, compartir y utilizar. 

Al organizar los datos de manera coherente, permite identificar patrones y tendencias, lo que puede ayudar a mejorar estrategias u operaciones. Además, con una mejor disposición de los datos se pueden tomar decisiones informadas. 

A continuación, cuatro beneficios puntuales de la taxonomía de datos: 

1. Mejora la calidad de los datos 

Una aplicación correcta puede ayudar a mejorar la calidad de los datos, ya que reduce la posibilidad de que se introduzcan errores, lo que a su vez aumenta la precisión y la calidad de los mismos.  

También puede ayudar a reducir la duplicación de datos y la inconsistencia de los mismos. 

2. Facilita la búsqueda y el acceso a los datos 

Al permitir la organización de los datos en categorías lógicas y coherentes, se facilita la búsqueda y su acceso. Además, permite encontrar rápidamente aquellos que se necesitan e identificar los que son relevantes para una determinada tarea. 

3. Mejora la eficiencia operativa 

Una buena organización, permite reducir el tiempo que se necesita para buscar y acceder a los datos y disminuye también la duración de tareas específicas, lo que mejora la productividad. 

4. Mayor colaboración 

Una adecuada taxonomía de datos puede permitir la colaboración y el intercambio de datos entre diferentes áreas y departamentos dentro de una organización. 

Curado de datos, un proceso clave 

Aún con la aplicación de una taxonomía de datos adecuada no todo está resuelto. A menudo se requiere de procesos como la limpieza de datos (data cleansing), que se refiere a arreglar datos incorrectos, incompletos, duplicados o erróneos.  

No hay que perder de vista que los datos recopilados son crudos y están llenos de sesgos y errores, lo que requiere una cantidad significativa de esfuerzo manual para depurarlos y hacerlos utilizables para entrenar modelos de inteligencia artificial y aprendizaje automático. 

En concreto, la limpieza de datos implica identificar errores y luego cambiar, actualizar o eliminar para corregirlos.  

Para medir la limpieza y la calidad general de los conjuntos de datos se utilizan varias características y atributos como exactitud, compleción, consistencia, integridad, oportunidad, uniformidad y validez 

La limpieza es una parte clave del proceso general de gestión de datos y uno de los componentes centrales del trabajo de preparación para su uso en aplicaciones de inteligencia empresarial y ciencia de datos. 

Pero no hay que olvidar que los datos tienen contexto, tienen origen y tienen múltiples destinos. Por esto no es suficiente la limpieza de los datos. 

Buenos datos, el mayor desafío 

Por último, ni la clasificación correcta de los datos ni su adecuada limpieza harán del modelo de análisis perfecto. Como comentamos al principio, en la actualidad se tienen muchos datos y encontrar los que sirven es vital. 

Si se quiere un análisis más eficiente, lo primero que habrá que asegurarse es que el resultado requerido sea realmente posible. A veces los datos que están disponibles simplemente no permiten una respuesta a la pregunta que se hace. 

Para ello, habrá que explorar los datos y buscar patrones extraños, valores atípicos o errores simples para comprender la calidad de estos y distinguir el ruido de los valores atípicos. Después hay que construir modelos de datos para descubrir relaciones dentro de estos. 

Recuerda que la dedicación en la gestión de los datos se verá directamente en el valor de las decisiones que se tomen. 

¿En tu organización, los datos que manejan están bien clasificados y sirven para la toma de decisiones? En BDS podemos ayudarte a habilitar y perfeccionar las capacidades organizacionales competitivas de Advanced Analytics. 

Compartir en:

Si quieres saber más sobre la aplicación de IBM Watson y el cómputo cognitivo en empresas, suscríbete a mi blog y mantente informado.

Comentarios