En cuanto una organización pone en producción inteligencia artificial (IA) y aprendizaje automático (AA), la alta dirección pide resultados. Pero estos dependen de que antes se cuente con una gran cantidad de datos que la misma organización no ha generado.
Contestar la pregunta de si se tienen suficientes datos y de calidad para entrenar la inteligencia artificial es clave. Los datos sintéticos —acá explicamos qué son— aparecen como una solución ante este problema.
Gartner estima que para 2030, estos eclipsarán por completo a los datos reales en los modelos de inteligencia artificial (IA). Sobre sus beneficios hablamos en este otro blog.
Los datos sintéticos se pueden usar para hackatones, demostraciones de productos y creación de prototipos internos para replicar un conjunto de datos con los atributos estadísticos correctos.
Por ejemplo, los bancos y las instituciones de servicios financieros los utilizan, mediante la creación de simulaciones de múltiples agentes, para explorar los comportamientos del mercado —como inversiones en pensiones y préstamos—, para tomar mejores decisiones crediticias o para combatir el fraude financiero.
Las empresas minoristas, por su parte, los emplean para sistemas de pago autónomos, tiendas sin cajero o análisis de datos demográficos de los clientes.
A veces, generar datos sintéticos puede ser muy simple. Se puede crear una lista de usuarios, por ejemplo, al combinar al azar una base de nombres de pila con otra de apellidos. Los códigos postales se pueden tomar aleatoriamente de una tercera.
Sin embargo, para otros fines, es posible que sea necesario equilibrar la lista para que los datos de gastos sintéticos se correlacionen con los patrones de gastos habituales en esos códigos postales.
De acuerdo con el VP y líder de Insights y Data de Capgemini Canadá, Steven Karan, entrevistado por el sitio CIO, la mayoría de los conjuntos de datos todavía se producen manualmente con SQL para la extracción y anonimización. Luego se limpian con lenguaje programático estándar.
Para el analista de Forrester, Rowan Current, crear un universo sintético no tiene por qué ser tan difícil.
En una publicación de blog de junio pasado, Current explica que una de las técnicas más accesibles para las organizaciones que se inician en la creación de datos sintéticos para la visión artificial es utilizar motores de juegos comerciales populares como Unity o Unreal.
“Estas plataformas permiten la generación rápida de paisajes e interacciones altamente personalizables, así como una alta fidelidad gráfica. Fundamentalmente, para construir modelos de visión por computadora, también ofrecen rutas fáciles y flexibles para etiquetar los datos para el entrenamiento”.
Sigal Shaked, la cofundadora y CTO de Datomize, una empresa creada en 2020 que ofrece una plataforma de generación de datos impulsada por IA, distingue al menos tres mejores prácticas para el uso de datos sintéticos:
A diferencia de un proyecto de AA en etapa inicial, en que los esfuerzos por solucionar problemas finales evitan errores y no se tiene un volumen suficientemente grande para vislumbrar escenarios negativos, con el uso de datos sintéticos se puede enfocar en situaciones no perfectas y crear cantidades más grandes de datos de prueba sintéticos basados en este subconjunto.
El hecho mismo de que algo se destaque como inusual o único hace que sea más fácil volver a identificar a la persona a la que pertenecen los datos, lo que aumenta el riesgo de divulgación. Quienes usan datos reales probablemente eliminarán estos valores como parte del proceso de preparación previo a hacerlos anónimos.
Sin embargo, estos valores atípicos son potencial y extremadamente importantes para entrenar un modelo de aprendizaje automático ya que pueden ayudar a establecer matices, que alientan a considerar nuevos factores en el análisis predictivo, o revelar errores y problemas de funcionalidad raros en sus productos impulsados por IA.
Independientemente de la plataforma o las herramientas que utilice para la generación de datos para el aprendizaje automático, es vital que estén a la altura de la tarea.
Para ello, se recomienda tomar en cuenta factores como: la calidad de los datos sintéticos de prueba, las características que el sistema identifica de los datos (secuencias de eventos, distribución de características, correlaciones entre características y relaciones entre entidades).
Las organizaciones pueden usar datos sintéticos para probar un nuevo sistema donde no existen datos en vivo o cuando los datos están sesgados. También se pueden aprovechar para complementar pequeños conjuntos de datos existentes que actualmente se ignoran.
Cem Dilmegani, el principal analista de AI Multiple, una firma que provee análisis de la industria de alta tecnología para ayudar a las empresas a explorar la IA, ha identificado los cuatro casos de uso agnósticos más comunes:
Actualmente, asociarse con terceros es una práctica común en múltiples proyectos. Los datos sintéticos permiten a las organizaciones evaluar proveedores externos y compartir datos privados con ellos sin riesgos de seguridad o cumplimiento.
Las regulaciones de privacidad de datos no solo restringen el intercambio de datos entre organizaciones, sino que también evitan el flujo de datos dentro de una organización.
Obtener permisos de acceso a datos puede tomar mucho tiempo, lo que puede dificultar la colaboración. Las organizaciones pueden acelerar la innovación con una colaboración mejorada entre equipos al aprovechar los datos sintéticos.
Migrar datos privados a la nube implica riesgos de seguridad y cumplimiento. En algunos casos, mover versiones sintéticas de datos confidenciales puede permitir que las organizaciones aprovechen los beneficios de los servicios en la nube.
En las canalizaciones de aprendizaje automático en la nube, se podrían usar datos sintéticos en lugar de datos reales.
Las regulaciones también limitan cuánto tiempo una empresa puede almacenar datos personales. Este es un problema para los análisis a largo plazo, como la detección de la estacionalidad de los datos durante varios años.
Los datos sintéticos proporcionan una forma de cumplir con las normas de retención de datos sin socavar las capacidades de análisis a largo plazo.
Entre las decenas de casos de uso de los datos sintéticos, que van desde acelerar un desarrollo de modelo o analizar eventos de “cisne negro” —sorpresivos— hasta pruebas de software o imágenes de mercadotecnia, aparecen ejemplos innovadores.
La investigación sobre COVID-19 fue uno de esos casos. La Universidad de Washington en St. Louis, el Jefferson Health en Filadelfia y otras organizaciones de atención médica optaron en 2020 por datos sintéticos, según una nota de InformationWeek.
Otro caso es el metaverso, el cual requerirá una gran cantidad de contenido. Para ello, será necesario crear habitaciones, edificios o paisajes entre muchos aspectos. Contratar artistas 3D para crear todo este ambiente desde cero será prohibitivamente costoso.
Los datos sintéticos pueden llenar algunos de los vacíos para crear entornos y objetos realistas y apropiados para entornos, eventos e interacciones virtuales.
¿Ya has usado datos sintéticos o planeas hacerlo en tus próximos proyectos? En nuestra empresa BDS acompañamos a nuestros clientes a habilitar y perfeccionar capacidades de inteligencia artificial que les permitan obtener resultados medibles de negocio en el menor tiempo posible.
Si quieres saber más sobre la aplicación de IBM Watson y el cómputo cognitivo en empresas, suscríbete a mi blog y mantente informado.