El índice de preparación de datos 2026: las claves para impulsar una IA de éxito

Mira los resultados

1 de julio de 2025 | Business

Innovación de IA empresarial centrada en la privacidad con Cloudera Synthetic Data Studio

10 min de lectura • por Andreas Tsiartas , Khauneesh Saigal , y Yi-Hsun Tsai

El desafío de la privacidad, la calidad y el acceso a los datos para las aplicaciones de IA

Las empresas se enfrentan a un dilema: deben automatizar sus procesos empresariales con la IA para mantenerse competitivas y reducir los costes, al mismo tiempo que cumplen con normas estrictas de privacidad de datos, como el Reglamento general de protección de datos (RGPD) o la Ley de privacidad del consumidor de California (CCPA). Además de eso, están cargados con los altos costos de los modelos de lenguaje de gran tamaño (LLM) basados en la nube y una escasez de datos de alta calidad, abiertos y fácilmente disponibles, mientras necesitan gestionar el acceso a la información propietaria de la empresa y las interacciones sensibles con los clientes, tickets de soporte técnico, registros financieros o datos de atención médica, que deben mantenerse privados y no pueden compartirse ni exponerse.

Esto plantea varios desafíos para los desarrolladores de IA. Primero, el uso de datos sin procesar para el entrenamiento de modelos conlleva el riesgo de sanciones legales debido a la falta de cumplimiento. En segundo lugar, compartir datos con LLM basadas en la nube introduce vulnerabilidades de privacidad. En tercer lugar, la falta de datos accesibles y de alta calidad provoca brechas de precisión en los modelos de IA. ¿El resultado? Innovación estancada, oportunidades perdidas y una brecha creciente entre el potencial de la IA y su implementación práctica en las empresas.

En Cloudera, nos comprometemos a capacitar a las empresas para que aprovechen todo el potencial de la IA sin comprometer la privacidad de los datos ni las limitaciones presupuestarias. Como parte de esa misión, hemos lanzado Cloudera AI Studios, que hace que la IA avanzada sea accesible para todos, tanto para usuarios técnicos como no técnicos, al proporcionar herramientas modulares sin código con alta extensibilidad de código que guían a los desarrolladores a través del ciclo de vida de la IA generativa (IA gen).

Cloudera Synthetic Data Studio forma parte de este conjunto de herramientas y ayuda a las organizaciones a adaptar potentes modelos de IA mientras cumplen con los requisitos reglamentarios y mantienen la eficiencia operativa. Con Synthetic Data Studios, los usuarios pueden generar datos sintéticos de alta calidad para ajustar modelos de lenguaje abierto a casos de uso específicos, evaluar el rendimiento de la generación aumentada por recuperación (RAG) o sistemas agénticos, realizar aumentos de datos impulsados por IA y mucho más, todo sin exponer información sensible.

Descripción general de Synthetic Data Studio

Synthetic Data Studio es un habilitador estratégico para las empresas que navegan por las complejidades de la IA moderna. Al combinar un diseño que prioriza la privacidad con flujos de trabajo avanzados de IA, Synthetic Data Studio capacita a los equipos para entrenar modelos precisos utilizando datos sintéticos derivados de ejemplos del mundo real. Este enfoque elimina los riesgos de exposición de datos y garantiza el cumplimiento de los requisitos normativos.

El estudio también permite a las organizaciones ampliar las aplicaciones de IA a diversos casos de uso, desde la atención al cliente hasta la detección de fraudes, lo que permite a los equipos probar sistemas RAG, agénticos y de otro tipo utilizando datos basados en documentos propios. Para garantizar la calidad, los conjuntos de datos sintéticos se evalúan utilizando un LLM como juez, reteniendo solo los resultados de la más alta calidad para los flujos de trabajo posteriores.

Flujos de trabajo intuitivos para garantizar la precisión y la fiabilidad del modelo

El flujo de trabajo del estudio es intuitivo y potente. Comenzando con una interfaz sin código/de bajo código, los equipos pueden instruir a los LLM para que generen datos sintéticos que reflejen los patrones del mundo real. Por ejemplo, los equipos de atención al cliente pueden crear tickets de soporte sintéticos que reflejen consultas técnicas reales o solicitudes de servicio. El sistema admite múltiples métodos de síntesis, como la generación de forma libre, el fine-tuning supervisado y la alineación del modelo, y permite la generación fundamentada utilizando documentos privados para mantener la relevancia contextual.

Una vez generados, los conjuntos de datos sintéticos se someten a una evaluación rigurosa. Un LLM seleccionado actúa como juez, evaluando los datos según criterios personalizados para asegurar que solo se retengan las salidas de la más alta calidad. Este paso de control de calidad es crucial para mantener la precisión y la fiabilidad del modelo. Además, se permite a los evaluadores humanos intervenir y filtrar aún más los datos generados para obtener resultados de una calidad aún más alta.

Finalmente, los conjuntos de datos se integran automáticamente en los proyectos de Cloudera AI Workbench para los flujos de trabajo subsiguientes. Para las organizaciones que necesitan integración externa, los conjuntos de datos también pueden exportarse en formatos como JSON o CSV para su uso con plataformas como Hugging Face.

Arquitectura abierta y escalable para integrar herramientas de terceros y proporcionar fiabilidad

La arquitectura agnóstica de LLM de Synthetic Data Studio ofrece flexibilidad y aprovecha tanto AWS Bedrock como Cloudera AI Inference, lo que le permite admitir técnicas avanzadas como la destilación de conocimientos, la generación de datos de formato libre, el fine-tuning supervisado, el aprendizaje por refuerzo y la optimización de preferencias (KTO, DPO, PPO, ORPO) para crear modelos de razonamiento para sistemas agénticos. Esta adaptabilidad se combina con un rendimiento escalable mediante el procesamiento paralelo y mecanismos de respaldo, asegurando la fiabilidad incluso con grandes conjuntos de datos.

La integración perfecta con los pipelines de CI/CD a través de la API de Cloudera AI Workbench Jobs asegura que los flujos de trabajo de generación y aumento de datos sintéticos se alineen con las prácticas de DevOps empresariales. Esta integración reduce la fricción y acelera el tiempo de obtención de valor para los proyectos de IA.

Y la integración con otros Cloudera AI Studios, como el Fine-Tuning Studio, agiliza aún más los flujos de trabajo. Ya sea refinando modelos, probando sistemas agénticos u optimizando para casos de uso específicos, Synthetic Data Studio proporciona las herramientas para acelerar el desarrollo sin comprometer la seguridad.

Casos de uso e impacto: reducción del 95 % en el tiempo de procesamiento

El valor real de Synthetic Data Studio se hace evidente cuando se aplica a escenarios prácticos. Por ejemplo, el equipo de atención al cliente de Cloudera utilizó el estudio para generar conjuntos de datos de alta calidad para la destilación de conocimiento a un LLM más pequeño, y los resultados fueron transformadores. Según pruebas internas, el tiempo de procesamiento para el análisis de tickets de soporte se redujo en un 95 % en comparación con el de un LLM más grande. El modelo destilado logró una tasa de éxito del 70 % frente a LLM más grandes (como Goliath-120B), y los requisitos de recursos computacionales disminuyeron significativamente, permitiendo un rendimiento 11 veces mayor para análisis en tiempo real.

La versatilidad del estudio va más allá del soporte al cliente. En el sector financiero, los datos sintéticos de transacciones pueden utilizarse para entrenar modelos de decisiones de préstamo sin exponer la información del cliente. En el desarrollo de software, los problemas y soluciones de codificación sintética mejoran el rendimiento de los modelos de lenguaje en la generación de código. Para el cumplimiento normativo, los equipos pueden probar modelos con criterios personalizados para asegurar la conformidad con los estándares.

El futuro de la IA privada con el Synthetic Data Studio de Cloudera

Synthetic Data Studio es un modelo de cómo las empresas pueden innovar con IA mientras protegen los datos. Al democratizar el acceso a los métodos de generación de datos sintéticos, como la destilación de conocimiento, Cloudera capacita a las organizaciones para:

Reducir los costes: utiliza modelos destilados más pequeños especializados en casos de uso específicos.
Competir con confianza: aprovecha la IA de vanguardia con el cumplimiento normativo.
Construir éticamente: genera confianza asegurando que la privacidad de los datos siga siendo una ventaja competitiva.

En el ámbito empresarial, donde la confianza y el cumplimiento son primordiales, Synthetic Data Studio ofrece un camino a seguir. No se trata solo de resolver los desafíos de hoy, sino de permitir que las empresas lideren la revolución de la IA del mañana de manera responsable.

Como próximos pasos, explora Synthetic Data Studio aquí.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Más de este autor ›

Khauneesh Saigal

Staff Software Engineer –Gen AI/ML, Cloudera

Más de este autor ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Más de este autor ›

Relacionado

24 de junio de 2026 | Técnico

Cómo la soberanía de los datos define la estrategia de IA en sectores regulados

9 min de lectura • Dario Perez

¿Todo listo para empezar?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.