ClouderaNOW Descubre los agentes de IA, la expansión a la nube y las estructuras de datos para IA  |  8 de abril

Registrarse
  • Cloudera Cloudera
  • | Técnico

    Cómo los equipos líderes de datos construyen pipelines listos para IA con Apache, Iceberg y Spark

    Pamela Pan headshot
    Ying Chen
    Akshat Mathur headshot
    Mujer mirando el teléfono en la cocina.

    Lecciones de dos empresas globales que modernizan la ingeniería de datos para una IA escalable

    Desde el análisis predictivo hasta la IA generativa, todas las empresas buscan convertir los datos en valor. Pero para muchos equipos, el verdadero desafío está bajo la superficie: en el trabajo de ingeniería de datos necesario para que esos datos sean utilizables, confiables y escalables. En entornos complejos, los ingenieros siguen uniendo pipelines usando formatos de tablas heredados, duplicando lógica entre herramientas y adaptando el gobierno a posteriori. Estas ineficiencias generan arrastre en cada etapa, retrasando resultados y limitando el impacto incluso de las iniciativas de IA y análisis más avanzadas.

    Para las empresas que buscan optimizar y preparar para el futuro su stack de ingeniería de datos, Apache Iceberg como formato de tabla abierta y Apache Spark como motor de computación abierto han demostrado ser una combinación poderosa. Juntos, ofrecen una base abierta, escalable y estandarizada para procesar y gestionar datos a escala de petabytes (PB), sin sacrificar el gobierno, la flexibilidad o el rendimiento.

    En este blog, analizaremos más de cerca cómo dos organizaciones globales transformaron sus pipelines de datos utilizando Spark e Iceberg con la plataforma de datos e IA de Cloudera. Exploraremos cómo redujeron los tiempos de consulta en un 80%, estandarizaron los flujos de trabajo entre los equipos y aceleraron su camino desde los datos brutos hasta los conocimientos preparados para la IA.

    Cómo Vodafone Idea redujo los tiempos de consulta en un 80%

    Vodafone Idea es una de las tres principales compañías de telecomunicaciones de la India que atiende a 220 millones de clientes. La empresa estaba lidiando con problemas de escala: su lago de datos basado en Hive se había expandido a más de 17 PB y los cuellos de botella en el rendimiento estaban poniendo en riesgo las operaciones comerciales críticas. ¡Algunas consultas de informes tardaron más de 70 horas en completarse! Esto retrasó la presentación de informes de cumplimiento, análisis y normativa.

    En lugar de limitarse a actualizar la infraestructura, Vodafone Idea optó por rediseñar su plataforma de datos. Colaborando con Cloudera, la empresa aprovechó Iceberg para consultas más rápidas mediante metadatos optimizados y evolución de esquemas, y reconstruyó sus flujos de trabajo de procesamiento en Spark para aprovechar el cálculo distribuido y un procesamiento de datos eficiente y a gran escala. 

    Para la presentación de informes regulatorios, combinaron Iceberg con Apache Impala como el motor de consulta interactiva para admitir el acceso rápido y confiable a conjuntos de datos a escala de PB. Mientras Impala se encargaba de las consultas de informes, Iceberg desempeñaba un papel fundamental entre bastidores: su compatibilidad con las transacciones ACID (atomicidad, consistencia, aislamiento y durabilidad, propiedades que garantizan que las transacciones de la base de datos se procesen de forma fiable y coherente), sus capacidades flexibles de evolución de esquemas y sus ricos metadatos mantuvieron la coherencia de los flujos de trabajo de informes, incluso cuando los datos cambiaban.

    Gracias a la integración con Cloudera Shared Data Experience (SDX), el equipo también obtuvo un gobierno detallado con control de acceso basado en roles y atributos, asegurándose de que las personas adecuadas tuvieran acceso a los datos correctos. Esta base permitió a la empresa ofrecer reports puntuales y auditables y, al mismo tiempo, cumplir con las crecientes exigencias reglamentarias. 

    Transformar las telecomunicaciones con eficiencia basada en datos

    Al asociarse con Cloudera, Vodafone Idea preservó la flexibilidad, reforzó el gobierno y aceleró la entrega de información a gran escala, sin tener que reconstruir toda su pila de datos. Utilizando Spark para la incorporación de datos, Iceberg para la gestión unificada de tablas e Impala para la generación de informes, modernizaron su base reutilizando al mismo tiempo la lógica y los flujos de trabajo existentes. 

    En conjunto, esta arquitectura ofreció resultados medibles:

    • Reducción de los tiempos de consulta en un 80 %.
    • Disminución de fallos en el pipeline a través de la resiliencia de Spark a escala y las capacidades robustas de gestión de tablas de Iceberg.
    • Mejora de los informes reglamentarios (más rápidos y fiables).


    Cómo se consolidó una empresa farmacéutica para escalar: una pila tecnológica, 10 000 empleos

    Una empresa farmacéutica global que gestiona datos de investigación clínica a escala PB se enfrentaba a un reto habitual pero cada vez mayor: tenía demasiadas herramientas en juego, lo que provocaba problemas de fiabilidad de los datos y dificultades para cumplir las normas de conformidad, además de la presión para dar soporte a una IA y unos análisis más rápidos. Los equipos de ingeniería de datos necesitaban ejecutar más de 10 000 tareas ETL diarias, pero carecían de un método estandarizado para crear, gestionar o validar los pipelines entre equipos.

    Con Cloudera en AWS, la compañía estableció una dirección clara a seguir. El equipo estandarizó todos los pipelines de datos con Spark on Cloudera Data Engineering, unificando y escalando el procesamiento en las cargas de trabajo por lotes, streaming y aprendizaje automático. Al mismo tiempo, adoptaron Iceberg como formato de tabla abierta por defecto para garantizar una evolución coherente de los esquemas, un control de versiones integrado y un gobierno de nivel empresarial en todos los equipos y entornos.

    Al adoptar Spark e Iceberg en Cloudera, la empresa sentó una base limpia y escalable de DataOps que estandarizó el pipeline de datos, permitió el intercambio seguro de datos entre equipos y herramientas, y allanó el camino para una IA y análisis más rápidos y avanzados. Esta base ahora apoya desde flujos de trabajo de auditoría regulatoria hasta modelos de IA que aceleran el descubrimiento de ensayos clínicos y el desarrollo de fármacos, asegurando que la empresa pueda integrar sin problemas cualquier nueva tecnología o motor en el futuro.

    Transformar la industria farmacéutica con una plataforma de datos unificada

    La estandarización en la plataforma de Cloudera proporcionó a la empresa farmacéutica global un nuevo nivel de consistencia operativa:

    • Gobierno sin interrupciones: el patrón de escritura-auditoría-publicación de Iceberg permite a los equipos upstream validar los datos antes de lanzarlos a producción, sin romper los flujos de trabajo posteriores.
    • Viajar en el tiempo para la trazabilidad: los equipos reguladores pueden acceder a las instantáneas de los datos históricos al instante, lo que permite una reversión limpia y un soporte de auditoría.
    • Lógica de pipeline compartida: con Spark como motor unificado, los equipos, desde ingenieros de datos hasta científicos de datos, pueden colaborar fácilmente y reutilizar transformaciones centrales entre trabajos y entornos, reduciendo duplicaciones y simplificando el mantenimiento.


    Construir una base moderna para la ingeniería de datos y la IA

    Estas dos historias comparten un hilo común: ambas organizaciones se enfrentaban a la fragmentación, la presión de la escala y la creciente complejidad de sus flujos de trabajo de datos. Al estandarizar Apache Spark y Apache Iceberg con Cloudera, reconstruyeron sus pipelines alrededor de componentes abiertos, escalables y de confianza, permitiendo un mejor gobierno, un rendimiento más rápido y flujos de datos más limpios para la IA y el análisis.

    Con Cloudera Data Engineering, las empresas obtienen una solución integral que se ejecuta en entornos híbridos y multinube. Reúne Spark, Iceberg y la orquestación integrada con Airflow para que los equipos puedan:

    • Construir los pipelines una vez y ejecutarlos en cualquier lugar: en el centro de datos o en la nube
    • Mantener la confianza y el gobierno a gran escala en el lakehouse de datos abiertos

    Mira esta demostración interactiva para ver cómo Spark e Iceberg impulsan pipelines escalables y de confianza en Cloudera. Pruébalo tú mismo con la prueba de 5 días de Cloudera Data Engineering y empieza a crear flujos de trabajo de datos listos para IA hoy mismo.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.