El índice de preparación de datos 2026: las claves para impulsar una IA de éxito

Mira los resultados

1 de octubre de 2025 | Business

Empoderar la IA empresarial con datos sintéticos estructurados: preservar la privacidad y las propiedades estadísticas de fuentes

8 min de lectura • por Andreas Tsiartas , Yi-Hsun Tsai , y Robert Hryniewicz

AI Enterprise Ai

En la era de la IA basada en datos, las empresas necesitan conjuntos de datos de alta calidad para analizar o entrenar modelos de IA, pero las normativas de privacidad de datos y las preocupaciones éticas restringen el uso o el intercambio de datos del mundo real. ¿Cómo pueden las organizaciones innovar sin comprometer la información sensible?

En Cloudera, hemos sido pioneros en encontrar una solución que cierra esta brecha. El Synthetic Data Studio de Cloudera, parte del conjunto de herramientas Cloudera AI Studio, es una herramienta que crea conjuntos de datos completamente sintéticos que imitan los patrones reales de datos de una organización, para que las organizaciones puedan innovar sin poner en riesgo la información confidencial.

Puntos clave

El enfoque de Cloudera para la generación de datos sintéticos ofrece un modelo para las empresas que desean utilizar o compartir datos estructurados sensibles. El enfoque ilustra:

La privacidad como característica: los datos sintéticos se convierten en un activo estratégico que permite la innovación en dominios restringidos.

La fidelidad estadística importa: las instrucciones de clústeres y semilla garantizan que los datos sintéticos conserven las relaciones matizadas que hacen que los modelos sean eficaces

Escalabilidad para la IA empresarial: los flujos de trabajo automatizados reducen el coste y el tiempo de generación de datos sintéticos

El desafío empresarial: aprovechar los modelos de IA y garantizar el cumplimiento

Consideremos a una empresa de servicios financieros que intenta predecir impagos de préstamos. Los datos reales en este ámbito son un tesoro de detalles sensibles: niveles de ingresos, historiales laborales y puntuaciones crediticias. Compartir estos datos con terceros o con modelos de IA está lleno de obstáculos normativos y éticos.

Los métodos tradicionales de datos sintéticos a menudo no logran captar las relaciones lógicas matizadas entre variables, como cómo las deudas existentes pueden influir en el comportamiento de pago, ni la consistencia lógica entre puntos de datos entre filas y columnas. Las empresas necesitan una solución de datos sintéticos que pueda ampliarse, preserve la integridad estadística de los datos originales y garantice el cumplimiento de las normas de privacidad.

La solución de Cloudera: generación de datos sintéticos estructurados

La solución de Cloudera sigue un flujo de trabajo de cuatro pasos que incorpora técnicas de clúster, Cloudera Synthetic Data Studio y una validación rigurosa.

Paso 1: Perfilar datos

El viaje comienza con la partición y agrupación en clústeres de los datos para crear perfiles estadísticos. Al clasificar a los prestatarios en grupos según sus niveles de riesgo, por ejemplo, solicitantes de alto riesgo frente a solicitantes de bajo riesgo, y agrupar además variables numéricas como los importes de los préstamos y los tipos de interés, destilamos el conjunto de datos en "instrucciones iniciales".

Las instrucciones iniciales codifican las propiedades estadísticas de cada grupo, como las medias, las desviaciones estándar y las correlaciones, a la vez que incorporan información sobre el prestatario, como las calificaciones o el estado de los préstamos. Este paso garantiza que los datos sintéticos hereden la estructura de los datos originales sin exponer detalles sensibles.

Paso 2: Generar datos con Cloudera Synthetic Data Studio

Con estas instrucciones iniciales en vigor, la siguiente fase aprovecha la generación impulsada por modelos LLM. Utilizando modelos avanzados como Llama 3.3-70B-Instruct, sintetizamos nuevos registros guiados por los planos estadísticos que se encuentran en las instrucciones semilla. Cloudera Synthetic Data Studio actúa como una fuerza creativa y genera datos que preservan las relaciones y los patrones definidos en las instrucciones iniciales.

Aquí es donde ocurre la magia: el modelo no solo produce números aleatorios, sino que construye datos que reflejan la complejidad de los escenarios del mundo real, como la forma en que los ingresos de un prestatario podrían influir lógicamente en su historial de reembolsos.

Paso 3: Filtrar datos

Sin embargo, no todos los datos generados alcanzan la calidad requerida. Para garantizar la fidelidad, empleamos un innovador flujo de trabajo LLM-as-a-judge.

Este paso evalúa los resultados sintéticos según un conjunto de criterios, incluyendo la consistencia del formato, la coherencia lógica (por ejemplo, asegurar que las cuentas hipotecarias se alineen con el estatus de propietario) y el realismo (por ejemplo, generar tipos de interés plausibles). Solo se conservan los datos con una puntuación alta (que alcanzan un umbral de 9 sobre 10). Este proceso de filtrado actúa como una puerta de calidad, asegurando que el conjunto de datos final sea realista y estadísticamente robusto.

Paso 4: Validar los datos

La fase final del flujo de trabajo implica la validación estadística y visual. Al comparar datos sintéticos con el conjunto de datos original utilizando métricas como la divergencia KL para variables categóricas y diferencias media/desviación estándar para características continuas, confirmamos que los datos sintéticos reflejan las distribuciones del mundo real.

El impacto: privacidad sin concesiones

El enfoque de Cloudera genera datos que no contienen información de identificación personal (PII) ni patrones sensibles, pero conserva la fidelidad estadística necesaria para entrenar modelos precisos. Esto permite a las empresas compartir datos sintéticos con sistemas de terceros o colaborar con socios externos sin temor a que se produzcan violaciones de datos o sanciones reglamentarias.

Como se muestra en la tabla 1, descubrimos que al utilizar un modelo Llama 3.3 70B-Instruct para generar datos de préstamos estructurados (27 columnas en total), el 100 % de los datos generados coinciden con el resultado esperado, el 97,2 % no contiene errores lógicos cruzados cuando se juzga según un LLM, las medias estadísticas se desvían un 12 % de la distribución original y las correlaciones entre columnas se desvían un 0,24.

Resultados de generación de datos estructurados con Llama 3.3-70B-Instruct
Integridad de los datos	100 % de precisión en el formato	Los datos sintéticos coinciden perfectamente con la estructura original.
Fidelidad estadística	Desviación media del 12 %	Los datos sintéticos imitan con precisión las principales propiedades estadísticas del original.
Coherencia lógica entre columnas	2,8 % de errores lógicos	Los datos generados reflejan relaciones lógicas del mundo real.
Preservación de la correlación entre columnas	Diferencia de correlación del 0,24 %	Las conexiones clave entre las funciones se conservan de forma auténtica.

Tabla 1: Resultados de la generación de datos estructurados con Llama 3.3-70B-Instruct.

Conclusión

A medida que los modelos de IA se vuelven más complejos y las regulaciones de privacidad se vuelven más estrictas, la demanda de datos de alta calidad que cumplan con las normas de privacidad no hará más que intensificarse. En los próximos años, esperamos que las metodologías de generación de datos estructurados redefinan los sectores, desde la sanidad hasta las finanzas, en los que la privacidad de los datos no es negociable.

El enfoque de datos sintéticos estructurados de Cloudera demuestra que las empresas pueden satisfacer esta demanda sin comprometer la privacidad ni el rendimiento. Al combinar la agrupación en clústeres, Cloudera Synthetic Data Studio y evaluaciones rigurosas, las organizaciones pueden aprovechar todo el potencial de los datos estructurados.

Si estás interesado en obtener más información, haz nuestro recorrido de producto de Cloudera AI Studios o contacta con nuestro equipo en ai_feedback@cloudera.com.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Más de este autor ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Más de este autor ›

Robert Hryniewicz

Director of Product Marketing

Más de este autor ›

Relacionado

24 de junio de 2026 | Técnico

Cómo la soberanía de los datos define la estrategia de IA en sectores regulados

9 min de lectura • Dario Perez

¿Todo listo para empezar?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.