ClouderaNOW Descubre los agentes de IA, la expansión a la nube y las estructuras de datos para IA  |  8 de abril

Registrarse
  • Cloudera Cloudera
  • | Business

    La ola del iceberg: cómo un formato abierto se convirtió en un estándar empresarial

    Navita Sood Headshot
    montañas nevadas

    Las innovaciones de Cloudera impulsan la adopción de Iceberg

    Apache Iceberg es ahora el estándar abierto de facto para la gestión de datos estructurados, semiestructurados y en evolución a gran escala. Se desarrolló originalmente en 2017 en Netflix para abordar los desafíos de ofrecer análisis fiables a escala de petabytes (PB) en Apache Hive y Spark, y desde entonces se ha convertido en un formato robusto de tabla abierta adecuado para ejecutar múltiples cargas de trabajo simultáneamente. 

    Iceberg unifica sus datos y proporciona un comportamiento SQL para acceder fácilmente a esos datos. A medida que continúa evolucionando con capacidades SQL más avanzadas y operaciones de datos simplificadas, es cada vez más favorecido por usuarios con diversos niveles de experiencia técnica, no solo ingenieros de datos, sino también consumidores de datos (científicos de datos, analistas y desarrolladores de aplicaciones) que buscan un acceso rápido y fiable a cualquier dato.

    Con Iceberg, las organizaciones logran una verdadera separación entre computación y almacenamiento, lo que permite una flexibilidad sin precedentes. Si busca análisis multifuncionales, preparación para la IA y libertad de proveedor, ningún otro formato de tabla se le acerca.

    Una comunidad vibrante y en crecimiento

    En menos de diez años, Iceberg ha evolucionado de tecnología emergente a estándar empresarial. El impulso de Iceberg se puede atribuir a sus puntos fuertes arquitectónicos, así como a la comunidad vibrante y abierta detrás de él. 

    Es importante destacar que la comunidad de Iceberg está liderada por sus usuarios, no solo por un único proveedor. Este modelo de gobierno impulsado por los usuarios ayuda a asegurar que el proyecto evolucione de formas que satisfagan necesidades amplias y reales del mundo, una razón principal por la que ha ganado tanta aceptación.

    Conclusiones clave de la Iceberg Summit

    La adopción generalizada de Iceberg fue evidente en la Cumbre Iceberg 2025 en San Francisco. El evento reunió a startups, empresas de la lista Fortune 500 y a los tres principales proveedores de servicios en la nube (AWS, Microsoft y Google), y asistentes de todo el mundo, tanto en persona como virtualmente, todos deseosos de aprender, contribuir y hacer crecer el ecosistema. 

    Algunos temas en particular dominaron las conversaciones en la cumbre: la interoperabilidad y la creciente importancia de Iceberg (su ecosistema y capacidades en expansión, incluida la automatización).

    Interoperabilidad

    Desde Netflix hasta Apple y Bloomberg, muchas organizaciones compartieron cómo Iceberg les permite gestionar una única fuente de verdad que impulsa múltiples cargas de trabajo, eliminando copias de datos redundantes y reduciendo el movimiento de datos entre sistemas. Discutieron los diversos tipos de cargas de trabajo que dependen de la capa de datos confiable de Iceberg para proporcionar segmentación, personalización, predicciones de pérdida de clientes/recaída, recomendaciones, experiencia de cliente optimizada y más.

    Ecosistema en expansión

    Otro punto destacado fue la aparición de nuevas herramientas de código abierto como Comet, Polaris y Lance en el ecosistema Iceberg, diseñadas para mejorar el rendimiento y admitir análisis multimodales e inteligencia artificial.

    Actualizaciones en Iceberg V3 y V4

    Había mucho entusiasmo en torno a las capacidades que traerán Iceberg V3 y V4. V3 reforzará significativamente la gobernanza de datos, la optimización del rendimiento y el soporte para tipos de datos más complejos, como Variant y Geospatial. Al aprovechar los principios del formato columnar, Variant permite capacidades avanzadas de consulta, como el filtrado y las agregaciones, en datos semiestructurados sin requerir transformaciones extensas. El soporte para Geospatial permitirá a las organizaciones gestionar datos basados en la ubicación, desbloqueando nuevos casos de uso. El nuevo diseño de metadatos adaptable propuesto en V4 promete mejorar el rendimiento para archivos pequeños.

    Gestión automatizada de datos

    Otro tema candente fue la automatización del mantenimiento rutinario (particionado, clasificación, compactación) mediante interfaces estilo DevOps impulsadas por políticas para reducir el trabajo manual. A medida que las organizaciones incorporan más datos en las tablas de Iceberg, esto se convierte en un gran cuello de botella, ya que deben contratar expertos para estas tareas de mantenimiento. 

    A medida que más y más motores acceden a los datos en estas tablas de Iceberg, el gobierno, la seguridad y la trazabilidad se convierten en una prioridad alta. La visibilidad en los flujos de datos y las transformaciones de datos se vuelve crítica para confiar en los datos. Esto llevó a discusiones sobre la necesidad de la federación y gobierno de catálogos para mejorar la visibilidad en las tablas Iceberg. 

    Adopción de Iceberg en Cloudera

    Cloudera presentó la integración nativa de Apache Iceberg en su plataforma Lakehouse en la nube pública en 2021, seguida de la implementación local en 2022. Hoy en día, la mayoría de nuestros clientes están ejecutando o probando nuevas cargas de trabajo en Iceberg; en total, nuestros clientes gestionan petabytes de datos en Iceberg.

    Iceberg es un vector de crecimiento para Cloudera. Estamos observando un aumento en los clientes que están migrando las cargas de trabajo de Hive a Iceberg para modernizar y asegurar el futuro de sus plataformas de datos. - Venkat Rajaji, vicepresidente sénior de gestión de productos, Cloudera

    Una vez que una empresa comienza su viaje con Iceberg, los beneficios se acumulan, lo que resulta en un aumento de los volúmenes de datos en las tablas de Iceberg, la expansión de las cargas de trabajo y la aparición de nuevos casos de uso. Un rendimiento más rápido suele ser el primer motivador, seguido de la interoperabilidad y la flexibilidad de las cargas de trabajo para lograr agilidad. Pasarse a Iceberg reduce los costes de almacenamiento, ETL y operativos hasta un 75 %. Capacidades como viajes en el tiempo, instantáneas, escritura-auditoría-publicación y partición oculta mejoran aún más la eficiencia, lo que convierte a IT en la opción correcta para implementar nuevos casos de uso.

    Algunos de los casos de uso más populares de Iceberg en Cloudera son:

    • Intercambio de datos entre diferentes sistemas de proveedores propiedad de partes de confianza, como diferentes unidades de negocio dentro de una organización o con socios y proveedores de confianza. 
    • Ingeniería de datos para la preparación de datos a gran escala y el mejor rendimiento en relación calidad-precio.
    • Análisis y toma de decisiones casi en tiempo real mediante la ingesta de datos en transmisión en el lakehouse.
    • Informes de cumplimiento normativo y mitigación continua de riesgos, aprovechando las funciones de viaje en el tiempo de Iceberg y las capacidades de gobierno, linaje y auditoría de Cloudera.
    • Optimización del gasto en la nube de análisis desbloqueando los datos de Iceberg y aprovechando las sólidas capacidades de ingestión y procesamiento de datos de Cloudera.
    • Acelerando la preparación de datos para la IA aprovechando Spark y NiFi para un procesamiento de datos más rápido.
    • Entrenamiento eficiente de modelos en múltiples versiones de datos con un uso reducido de recursos de computación y almacenamiento.
    • Almacenes de características multinivel que combinan Iceberg y HBase para una IA de baja latencia.
    • Ejecución de cargas de trabajo híbridas utilizando computación en la nube pública sobre datos confidenciales almacenados en las instalaciones.

    Escuche el viaje de Illumina y LY Corporation con Apache Iceberg y cómo están superando sus retos de datos y analíticos a escala.

    Innovaciones de Cloudera para abordar desafíos comunes 

    Aunque Lakehouse e Iceberg ofrecen ventajas significativas, como la convergencia de todos sus datos y la aceleración de la analítica, hay algunos desafíos que nuestros clientes nos han comunicado en relación con la adopción de Iceberg. Primero, sus datos se encuentran en múltiples nubes, en las instalaciones y en sistemas periféricos, y trasladar todos esos datos a la (en la) nube para aprovechar Iceberg es casi imposible. Por lo tanto, necesitan el mismo soporte de Iceberg tanto en las instalaciones como en la nube. En segundo lugar, necesitan integración con motores de múltiples proveedores para poder compartir fácilmente datos entre sistemas con confianza, linaje y trazabilidad. A medida que los datos crecen, la optimización manual y continua de las tablas Iceberg para lograr un rendimiento óptimo se vuelve muy costosa, requiriendo expertos y recursos informáticos. Por último, aunque Iceberg aumenta el uso de los datos, la libertad de introducir cualquier herramienta conlleva riesgos y requiere herramientas eficaces de gobierno y seguridad para controlar el acceso y proporcionar una gestión de metadatos que garantice la auditabilidad, el linaje y la visibilidad, permitiendo así una mejor comprensión de los datos y fomentando su usabilidad.

    Siempre estamos innovando para resolver los desafíos de los clientes y hemos realizado varias mejoras en la plataforma para abordar estos puntos problemáticos comunes, que incluyen:

    • Iceberg en todas partes con el lakehouse híbrido: ofrece soporte nativo para Iceberg en las instalaciones y en varias nubes públicas, con la capacidad de portar aplicaciones y código para usar Impala, Spark, NiFi, Flink y Hive en los mismos datos con la misma experiencia. Esto permite a los clientes modernizar su centro de datos con capacidades nativas de la nube. Iceberg on Ozone ofrece almacenes de objetos compatibles con S3 en las instalaciones. Cloudera permite a las organizaciones unificar sus datos en la nube y en las instalaciones bajo un único modelo de gobierno y seguridad, con controles de acceso granulares, metadatos versionados y un catálogo compartido.
    • Construcción de aplicaciones en tiempo real: construya pipelines de CDC en tiempo real e ingiera y unifique sin problemas datos por lotes y datos en transmisión con nuestra oferta de datos en movimiento para pipelines de flujo (NiFi+Kafka+Flink-on-Iceberg).
    • Interoperabilidad total con la integración del catálogo REST: fomente la interoperabilidad con motores externos y ecosistemas abiertos con una única seguridad y gobierno.
    • Menor TCO y rendimiento más rápido con Cloudera Lakehouse Optimizer: la IA incorporada ajusta automáticamente la compactación, la expiración de instantáneas y el diseño, no se requiere ajuste manual.
    • Comprensión completa de todas las fuentes y destinos de datos: Octopai de Cloudera desbloquea la automatización inteligente de metadatos y el linaje de ciclo de vida completo para todos los flujos de datos, incluso fuera de Cloudera, para proporcionar una mejor visibilidad de los datos.
    • HA/DR y baja latencia en aplicaciones: la replicación de tablas Iceberg proporciona resiliencia y flexibilidad para arquitecturas de datos HA.
    • Adopción rápida y sin riesgos con herramientas de migración inteligentes: nuestro plan "De Hive Tables a Apache Iceberg" simplifica la incorporación. 
    A medida que imaginamos un futuro en el que Apache Iceberg sea la base y el eje, potenciando los datos multiplataforma y la IA, mejoramos sin descanso las capacidades de Iceberg para desbloquear una agilidad e inteligencia sin precedentes para todas las empresas. Bill Zhang, vicepresidente de estrategias de producto en Cloudera

    Camino por recorrer

    Creemos que Iceberg seguirá dominando como el estándar empresarial para formatos de tablas abiertas. Las nuevas innovaciones en optimizaciones automatizadas, soporte multimodal, gestión de metadatos e integración de Python solo impulsarán aún más la adopción. Es probable que otros formatos de tabla abierta adopten un enfoque más especializado adecuado para ejecutar cargas de trabajo específicas o en entornos específicos para complementar Iceberg. 

    El objetivo de Cloudera es ayudar a los clientes a construir un data lakehouse abierto impulsado por Iceberg con menor complejidad, mayor flexibilidad y mayor impacto. Nos centramos en proporcionar seguridad y gobierno de nivel empresarial, optimizaciones adicionales, mecanismos de almacenamiento jerárquico y un "catálogo de catálogos" para mejorar la interoperabilidad y la colaboración. Puede comenzar hoy mismo con la prueba de 5 días de Cloudera Lakehouse o leyendo nuestras guías prácticas

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.