Lecciones de dos empresas globales que modernizan la ingeniería de datos para una IA escalable
Desde el análisis predictivo hasta la IA generativa, todas las empresas buscan convertir los datos en valor. Pero para muchos equipos, el verdadero desafío está bajo la superficie: en el trabajo de ingeniería de datos necesario para que esos datos sean utilizables, confiables y escalables. En entornos complejos, los ingenieros siguen uniendo pipelines usando formatos de tablas heredados, duplicando lógica entre herramientas y adaptando el gobierno a posteriori. Estas ineficiencias generan arrastre en cada etapa, retrasando resultados y limitando el impacto incluso de las iniciativas de IA y análisis más avanzadas.
Para las empresas que buscan optimizar y preparar para el futuro su stack de ingeniería de datos, Apache Iceberg como formato de tabla abierta y Apache Spark como motor de computación abierto han demostrado ser una combinación poderosa. Juntos, ofrecen una base abierta, escalable y estandarizada para procesar y gestionar datos a escala de petabytes (PB), sin sacrificar el gobierno, la flexibilidad o el rendimiento.
En este blog, analizaremos más de cerca cómo dos organizaciones globales transformaron sus pipelines de datos utilizando Spark e Iceberg con la plataforma de datos e IA de Cloudera. Exploraremos cómo redujeron los tiempos de consulta en un 80%, estandarizaron los flujos de trabajo entre los equipos y aceleraron su camino desde los datos brutos hasta los conocimientos preparados para la IA.
Vodafone Idea es una de las tres principales compañías de telecomunicaciones de la India que atiende a 220 millones de clientes. La empresa estaba lidiando con problemas de escala: su lago de datos basado en Hive se había expandido a más de 17 PB y los cuellos de botella en el rendimiento estaban poniendo en riesgo las operaciones comerciales críticas. ¡Algunas consultas de informes tardaron más de 70 horas en completarse! Esto retrasó la presentación de informes de cumplimiento, análisis y normativa.
En lugar de limitarse a actualizar la infraestructura, Vodafone Idea optó por rediseñar su plataforma de datos. Colaborando con Cloudera, la empresa aprovechó Iceberg para consultas más rápidas mediante metadatos optimizados y evolución de esquemas, y reconstruyó sus flujos de trabajo de procesamiento en Spark para aprovechar el cálculo distribuido y un procesamiento de datos eficiente y a gran escala.
Para la presentación de informes regulatorios, combinaron Iceberg con Apache Impala como el motor de consulta interactiva para admitir el acceso rápido y confiable a conjuntos de datos a escala de PB. Mientras Impala se encargaba de las consultas de informes, Iceberg desempeñaba un papel fundamental entre bastidores: su compatibilidad con las transacciones ACID (atomicidad, consistencia, aislamiento y durabilidad, propiedades que garantizan que las transacciones de la base de datos se procesen de forma fiable y coherente), sus capacidades flexibles de evolución de esquemas y sus ricos metadatos mantuvieron la coherencia de los flujos de trabajo de informes, incluso cuando los datos cambiaban.
Gracias a la integración con Cloudera Shared Data Experience (SDX), el equipo también obtuvo un gobierno detallado con control de acceso basado en roles y atributos, asegurándose de que las personas adecuadas tuvieran acceso a los datos correctos. Esta base permitió a la empresa ofrecer reports puntuales y auditables y, al mismo tiempo, cumplir con las crecientes exigencias reglamentarias.
Transformar las telecomunicaciones con eficiencia basada en datosAl asociarse con Cloudera, Vodafone Idea preservó la flexibilidad, reforzó el gobierno y aceleró la entrega de información a gran escala, sin tener que reconstruir toda su pila de datos. Utilizando Spark para la incorporación de datos, Iceberg para la gestión unificada de tablas e Impala para la generación de informes, modernizaron su base reutilizando al mismo tiempo la lógica y los flujos de trabajo existentes. En conjunto, esta arquitectura ofreció resultados medibles:
|
Una empresa farmacéutica global que gestiona datos de investigación clínica a escala PB se enfrentaba a un reto habitual pero cada vez mayor: tenía demasiadas herramientas en juego, lo que provocaba problemas de fiabilidad de los datos y dificultades para cumplir las normas de conformidad, además de la presión para dar soporte a una IA y unos análisis más rápidos. Los equipos de ingeniería de datos necesitaban ejecutar más de 10 000 tareas ETL diarias, pero carecían de un método estandarizado para crear, gestionar o validar los pipelines entre equipos.
Con Cloudera en AWS, la compañía estableció una dirección clara a seguir. El equipo estandarizó todos los pipelines de datos con Spark on Cloudera Data Engineering, unificando y escalando el procesamiento en las cargas de trabajo por lotes, streaming y aprendizaje automático. Al mismo tiempo, adoptaron Iceberg como formato de tabla abierta por defecto para garantizar una evolución coherente de los esquemas, un control de versiones integrado y un gobierno de nivel empresarial en todos los equipos y entornos.
Al adoptar Spark e Iceberg en Cloudera, la empresa sentó una base limpia y escalable de DataOps que estandarizó el pipeline de datos, permitió el intercambio seguro de datos entre equipos y herramientas, y allanó el camino para una IA y análisis más rápidos y avanzados. Esta base ahora apoya desde flujos de trabajo de auditoría regulatoria hasta modelos de IA que aceleran el descubrimiento de ensayos clínicos y el desarrollo de fármacos, asegurando que la empresa pueda integrar sin problemas cualquier nueva tecnología o motor en el futuro.
Transformar la industria farmacéutica con una plataforma de datos unificadaLa estandarización en la plataforma de Cloudera proporcionó a la empresa farmacéutica global un nuevo nivel de consistencia operativa:
|
Estas dos historias comparten un hilo común: ambas organizaciones se enfrentaban a la fragmentación, la presión de la escala y la creciente complejidad de sus flujos de trabajo de datos. Al estandarizar Apache Spark y Apache Iceberg con Cloudera, reconstruyeron sus pipelines alrededor de componentes abiertos, escalables y de confianza, permitiendo un mejor gobierno, un rendimiento más rápido y flujos de datos más limpios para la IA y el análisis.
Con Cloudera Data Engineering, las empresas obtienen una solución integral que se ejecuta en entornos híbridos y multinube. Reúne Spark, Iceberg y la orquestación integrada con Airflow para que los equipos puedan:
Mira esta demostración interactiva para ver cómo Spark e Iceberg impulsan pipelines escalables y de confianza en Cloudera. Pruébalo tú mismo con la prueba de 5 días de Cloudera Data Engineering y empieza a crear flujos de trabajo de datos listos para IA hoy mismo.
This may have been caused by one of the following: