31 enero 2022

Compartir en:

Para consolidarse en el mercado tu empresa necesita incorporar herramientas de inteligencia artificial y machine learning a su estrategia de negocios. Esto, a su vez, detona la necesidad de contar con una mayor cantidad y calidad de datos de los prospectos y clientes. Sin embargo, esto es un reto porque la información no siempre exites o no está disponible. Como solución a esta problemática surgió la synthetic data, pero ¿qué es y cómo mejora la privacidad?

En el mundo de los negocios digitales hay datos que son difíciles de recopilar, especialmente porque son valiosos para concretar ventas o porque no son muy comunes. Ejemplo de ello son los datos de salud de una persona, porque son muy privados, y los datos de fraudes bancarios, que representan una parte mínima del total de transacciones.

De ahí la importancia de buscar una forma de trabajar con datos que simulen escenarios reales poco comunes, a fin de mejorar la oferta de contenidos, artículos y experiencias.

¿Qué son los datos sintéticos?

Los datos sintéticos son información generada de manera artificial, cuyo objetivo es reproducir las propiedades y los patrones de un conjunto de datos existente.

De ese modo, luego de múltiples pruebas y muestras realizadas por algoritmos de machine learning, la synthetic data queda disponible para:

  • Prueba de nuevos productos y herramientas
  • Validación de modelos estadísticos
  • Entrenamiento de entes de inteligencia artificial

Los datos sintéticos son una nueva forma de enriquecer las bases de datos de una empresa. Por ende, son igual de valiosos al momento de evaluar procesos y tomar mejores decisiones.

¿Qué tipos de datos sintéticos existen?

Con respecto al origen de la synthetic data, existen dos tipos de conjuntos de esta información:

  • Totalmente sintéticos. No contienen ningún dato original. Esto significa que la reconstrucción e identificación de cualquier unidad es casi imposible, por lo que las variantes creadas están disponibles para analizarse e incluso ser parte de un contenido público.
  • Parcialmente sintéticos. En estos casos únicamente la información sensible se sustituye por datos sintéticos. Así, aunque se adquiere protección contra los problemas y retos de los algoritmos, es posible que cierta información sensible pueda ser detectada tras un análisis riguroso.

La creación de identidades alternativas no asociadas a un ser humano puede representar una inversión inicial más grande, pero a mediano y largo plazo tiene el potencial para crear más valor gracias al desarrollo de sistemas autónomos que optimicen los procesos productivos.

Dado que la synthetic data retoma las características de datos que sí surgieron de acciones tangibles, su poder predictivo es igual de confiable. Además, su costo suele ser menor que la recopilación de grandes conjuntos de datos.

Aunado a lo anterior, al incursionar en esta táctica innovadora se mejora el funcionamiento de modelos de IA y se hacen pruebas que no comprometen la seguridad física o emocional de personas.

De acuerdo con un estudio de AI Multiple, se estima que para 2024 el 60% de los datos utilizados para desarrollar proyectos de IA y analítica avanzada para empresas serán generados sintéticamente

¿Qué problemas de privacidad se superan con synthetic data?

Muchos de los problemas empresariales que podrían resolverse con inteligencia artificial requieren el acceso a datos sensibles de los clientes, como los datos biométricos.

La recopilación y el uso de datos sensibles plantea problemas de privacidad, ya que la información deja de ser números y letras para convertirse en personas cuyas historias de vida deben tener un tratamiento ético.

Esta situación deja a las empresas expuestas a posibles violaciones de uso de datos privados, así como a una posterior demanda que provoque pérdidas monetarias o de reputación.

De hecho, las regulaciones de privacidad nacionales y extranjeras restringen la recopilación y el uso de datos personales e imponen multas a las empresas que no las respetan. Por eso es muy importante que uses la información de tus clientes sólo para los fines expresados en tu acuerdo de privacidad.

Cabe mencionar que entre las empresas que más cuidado deben tener con respecto al uso y tratamiento de sus bases de datos están las de servicios financieros y de salud.

Por eso, dado que no corresponden directamente a personas reales, los datos sintéticos son una forma de evitar este tipo de problemas.

Un estudio de Gartner predice que para 2025 los datos sintéticos reducirán la recolección de datos personales de los clientes hasta en un 70%, lo que en consecuencia disminuirá los problemas de privacidad

Y ¿qué hay de los beneficios, los retos y las formas iniciales de uso de los datos sintéticos? De eso te hablaré en la segunda parte de este artículo.

¿Consideras que la synthetic data puede ser una alternativa en tu negocio ante la dificultad de obtener datos de calidad por parte de tu público meta? ¿Qué tipo de datos sintéticos te convendría usar: totales o parciales? ¿En tu empresa tienen algún protocolo para darle tratamiento a los datos sensibles de sus clientes?

Comenta en el espacio de abajo y suscríbete a mi blog para conocer más de cómputo cognitivo para empresas, además de otros temas de innovación y tecnología científica aplicada a los negocios.

Compartir en:

Si quieres saber más sobre la aplicación de IBM Watson y el cómputo cognitivo en empresas, suscríbete a mi blog y mantente informado.

Comentarios