En la era de la IA basada en datos, las empresas necesitan conjuntos de datos de alta calidad para analizar o entrenar modelos de IA, pero las normativas de privacidad de datos y las preocupaciones éticas restringen el uso o el intercambio de datos del mundo real. ¿Cómo pueden las organizaciones innovar sin comprometer la información sensible?
En Cloudera, hemos sido pioneros en encontrar una solución que cierra esta brecha. El Synthetic Data Studio de Cloudera, parte del conjunto de herramientas Cloudera AI Studio, es una herramienta que crea conjuntos de datos completamente sintéticos que imitan los patrones reales de datos de una organización, para que las organizaciones puedan innovar sin poner en riesgo la información confidencial.
Puntos claveEl enfoque de Cloudera para la generación de datos sintéticos ofrece un modelo para las empresas que desean utilizar o compartir datos estructurados sensibles. El enfoque ilustra:
|
Consideremos a una empresa de servicios financieros que intenta predecir impagos de préstamos. Los datos reales en este ámbito son un tesoro de detalles sensibles: niveles de ingresos, historiales laborales y puntuaciones crediticias. Compartir estos datos con terceros o con modelos de IA está lleno de obstáculos normativos y éticos.
Los métodos tradicionales de datos sintéticos a menudo no logran captar las relaciones lógicas matizadas entre variables, como cómo las deudas existentes pueden influir en el comportamiento de pago, ni la consistencia lógica entre puntos de datos entre filas y columnas. Las empresas necesitan una solución de datos sintéticos que pueda ampliarse, preserve la integridad estadística de los datos originales y garantice el cumplimiento de las normas de privacidad.
La solución de Cloudera sigue un flujo de trabajo de cuatro pasos que incorpora técnicas de clúster, Cloudera Synthetic Data Studio y una validación rigurosa.
El viaje comienza con la partición y agrupación en clústeres de los datos para crear perfiles estadísticos. Al clasificar a los prestatarios en grupos según sus niveles de riesgo, por ejemplo, solicitantes de alto riesgo frente a solicitantes de bajo riesgo, y agrupar además variables numéricas como los importes de los préstamos y los tipos de interés, destilamos el conjunto de datos en "instrucciones iniciales".
Las instrucciones iniciales codifican las propiedades estadísticas de cada grupo, como las medias, las desviaciones estándar y las correlaciones, a la vez que incorporan información sobre el prestatario, como las calificaciones o el estado de los préstamos. Este paso garantiza que los datos sintéticos hereden la estructura de los datos originales sin exponer detalles sensibles.
Con estas instrucciones iniciales en vigor, la siguiente fase aprovecha la generación impulsada por modelos LLM. Utilizando modelos avanzados como Llama 3.3-70B-Instruct, sintetizamos nuevos registros guiados por los planos estadísticos que se encuentran en las instrucciones semilla. Cloudera Synthetic Data Studio actúa como una fuerza creativa y genera datos que preservan las relaciones y los patrones definidos en las instrucciones iniciales.
Aquí es donde ocurre la magia: el modelo no solo produce números aleatorios, sino que construye datos que reflejan la complejidad de los escenarios del mundo real, como la forma en que los ingresos de un prestatario podrían influir lógicamente en su historial de reembolsos.
Sin embargo, no todos los datos generados alcanzan la calidad requerida. Para garantizar la fidelidad, empleamos un innovador flujo de trabajo LLM-as-a-judge.
Este paso evalúa los resultados sintéticos según un conjunto de criterios, incluyendo la consistencia del formato, la coherencia lógica (por ejemplo, asegurar que las cuentas hipotecarias se alineen con el estatus de propietario) y el realismo (por ejemplo, generar tipos de interés plausibles). Solo se conservan los datos con una puntuación alta (que alcanzan un umbral de 9 sobre 10). Este proceso de filtrado actúa como una puerta de calidad, asegurando que el conjunto de datos final sea realista y estadísticamente robusto.
La fase final del flujo de trabajo implica la validación estadística y visual. Al comparar datos sintéticos con el conjunto de datos original utilizando métricas como la divergencia KL para variables categóricas y diferencias media/desviación estándar para características continuas, confirmamos que los datos sintéticos reflejan las distribuciones del mundo real.
El enfoque de Cloudera genera datos que no contienen información de identificación personal (PII) ni patrones sensibles, pero conserva la fidelidad estadística necesaria para entrenar modelos precisos. Esto permite a las empresas compartir datos sintéticos con sistemas de terceros o colaborar con socios externos sin temor a que se produzcan violaciones de datos o sanciones reglamentarias.
Como se muestra en la tabla 1, descubrimos que al utilizar un modelo Llama 3.3 70B-Instruct para generar datos de préstamos estructurados (27 columnas en total), el 100 % de los datos generados coinciden con el resultado esperado, el 97,2 % no contiene errores lógicos cruzados cuando se juzga según un LLM, las medias estadísticas se desvían un 12 % de la distribución original y las correlaciones entre columnas se desvían un 0,24.
Resultados de generación de datos estructurados con Llama 3.3-70B-Instruct |
|||
Integridad de los datos |
100 % de precisión en el formato |
Los datos sintéticos coinciden perfectamente con la estructura original. |
|
Fidelidad estadística |
Desviación media del 12 % |
Los datos sintéticos imitan con precisión las principales propiedades estadísticas del original. |
|
Coherencia lógica entre columnas |
2,8 % de errores lógicos |
Los datos generados reflejan relaciones lógicas del mundo real. |
|
Preservación de la correlación entre columnas |
Diferencia de correlación del 0,24 % |
Las conexiones clave entre las funciones se conservan de forma auténtica. |
|
Tabla 1: Resultados de la generación de datos estructurados con Llama 3.3-70B-Instruct.
A medida que los modelos de IA se vuelven más complejos y las regulaciones de privacidad se vuelven más estrictas, la demanda de datos de alta calidad que cumplan con las normas de privacidad no hará más que intensificarse. En los próximos años, esperamos que las metodologías de generación de datos estructurados redefinan los sectores, desde la sanidad hasta las finanzas, en los que la privacidad de los datos no es negociable.
El enfoque de datos sintéticos estructurados de Cloudera demuestra que las empresas pueden satisfacer esta demanda sin comprometer la privacidad ni el rendimiento. Al combinar la agrupación en clústeres, Cloudera Synthetic Data Studio y evaluaciones rigurosas, las organizaciones pueden aprovechar todo el potencial de los datos estructurados.
Si estás interesado en obtener más información, haz nuestro recorrido de producto de Cloudera AI Studios o contacta con nuestro equipo en ai_feedback@cloudera.com.
This may have been caused by one of the following: