23 febrero 2022

Compartir en:

En el capítulo anterior hablamos de la importancia de utilizar synthetic data para nutrir las bases de datos de una organización, con lo cual se evitan problemas ligados a la violación de la privacidad de las personas y la falta de información de valor para realizar pruebas de un producto o servicio. Ahora bien, ¿cuáles son los retos que los datos sintéticos deben superar para que su uso y sus beneficios se extiendan en el mundo de los negocios?

¿Qué retos enfrenta sythetic data?

Dado que son generados por algoritmos de machine learning, los datos sintéticos necesitan contextualizarse y evaluarse en situaciones de la vida diaria. Para ello, es importante que antes de usarlos en tu empresa consideres lo siguiente:

  • Falta de valores atípicos. Al ser una réplica sólo pueden imitar los datos del mundo tangible, por lo que no son 100% idénticos. Así, los datos sintéticos no alcanzan a cubrir ciertos rubros y valores que surgen cuando la información se deriva de una persona. Esto supone una barrera para utilizarlos para mejorar procesos de compra-venta donde es clave la interacción cara a cara con el cliente.
  • Nivel de calidad. La calidad de los datos sintéticos está directamente relacionada con la información que se les brinde a los algoritmos para que generen nuevos datos. Si hay un sesgo de origen, se verá reflejado en el resultado final (como sucede con la data que forma parte de las tecnologías de reconocimiento facial).
  • Validación. Los datos sintéticos son un concepto emergente en el mundo digital, por lo tanto, hay cierta reticencia sobre su origen, efectividad y beneficios.
  • Inversión. Aunque son más fáciles de recopilar que los datos reales, los datos sintéticos no son gratuitos y requieren una inversión inicial importante para contar con las herramientas necesarias y la implementación a cargo de un tecnólogo experto en ciencia aplicada a los negocios.
  • Pruebas de salida. Para garantizar su utilidad en situaciones concretas, los datos sintéticos deben compararse con datos comunes de una situación similar.

Como puede apreciarse, synthetic data enfrenta retos vinculados a la representación de los datos: ¿puede la automatización ser tan humana como artificial? Para que pueda conseguirlo hace falta recordar que la información creada tiene que contribuir a mejorar algún aspecto de la vida de las personas.

¿Cuáles son los beneficios de los datos sintéticos?

Synthetic data satisface necesidades de información complicada de obtener, sin que suponga un posible riesgo para la integridad de una o varias personas.

Entre los principales beneficios de los datos sintéticos destacan:

  • Probar situaciones que no se producen de manera cotidiana.
  • Ahorrar costos en la creación de escenarios como focus group, encuestas y herramientas para conocer la opinión de los clientes como Net Promoter Score.
  • No ponen en peligro la privacidad de las personas.
  • Sirven como entrenamiento para los entes de inteligencia artificial, especialmente los que procesan Big Data y los que sirven para mejorar la atención al cliente.
  • Tener disponibles todos los escenarios posibles en los que podría funcionar o no un producto o servicio.
  • Preservan las relaciones entre datos, lo que contribuye a tener bases de datos limpias, ordenadas, conectadas y, en consecuencia, con valor digital para impulsar el crecimiento de la compañía.
  • Inmunidad ante problemas típicos de estadísticas.

En términos de costo-beneficio los datos sintéticos tienen un mejor ROI a mediano y largo plazo, especialmente si se implementan de manera adecuada y en situaciones en las que marquen una ventaja competitiva.

¿Cómo empezar a usar synthetic data?

Los datos sintéticos empezaron a utilizarse en los años 90, aunque la abundancia de potencia de cálculo y espacio de almacenamiento de la última década ha permitido su aplicación en industrias distintas a la tecnológica.

Para adentrarse de manera segura en el uso de synthetic data es necesario contar con herramientas de machine learning; por ejemplo, en una estrategia omnicanal que tenga como objetivo crear experiencias personalizadas.

A propósito, un estudio del MIT puso a prueba el funcionamiento de modelos de machine learning a partir de datos sintéticos vs datos reales. Los científicos se dividieron en dos grupos, y el 70% de las veces el grupo que usó synthetic data fue capaz de igualar e incluso superar la eficacia del grupo contrario.

Esto permite apuntar que, si bien el uso de datos sintéticos es eficaz, necesita del criterio humano para saber en qué escenarios convienen utilizarse, algunos de los cuales se mencionan a continuación:

  • Extraer valores de una distribución para informar de manera certera y no reproducir errores estadísticos que pongan en riesgo las finanzas de una empresa.
  • Modelar sistemas a partir de comportamientos que pueden registrarse una única vez, como algún evento especial o una situación extraordinaria que cambia las condiciones usuales en las que sucede una venta.
  • Examinar la variedad de tus datos: con synthetic data puedes analizar si tu información abarca las necesidades de tus prospectos y clientes, y a partir de ello evaluar en qué momentos del customer journey puedes afinar tu estrategia de venta.

¿Consideras que vale la pena afrontar los retos de synthetic data de acuerdo con los beneficios que ofrece? ¿En qué productos o servicios que ya tienes o quieres crear te ayudaría realizar pruebas con datos sintéticos?

Comenta en el espacio de abajo y suscríbete a mi blog para conocer más de cómputo cognitivo para empresas, además de otros temas de innovación y tecnología científica aplicada a los negocios.

Compartir en:

Si quieres saber más sobre la aplicación de IBM Watson y el cómputo cognitivo en empresas, suscríbete a mi blog y mantente informado.

Comentarios