Apache Iceberg es ahora el estándar abierto de facto para la gestión de datos estructurados, semiestructurados y en evolución a gran escala. Se desarrolló originalmente en 2017 en Netflix para abordar los desafíos de ofrecer análisis fiables a escala de petabytes (PB) en Apache Hive y Spark, y desde entonces se ha convertido en un formato robusto de tabla abierta adecuado para ejecutar múltiples cargas de trabajo simultáneamente.
Iceberg unifica sus datos y proporciona un comportamiento SQL para acceder fácilmente a esos datos. A medida que continúa evolucionando con capacidades SQL más avanzadas y operaciones de datos simplificadas, es cada vez más favorecido por usuarios con diversos niveles de experiencia técnica, no solo ingenieros de datos, sino también consumidores de datos (científicos de datos, analistas y desarrolladores de aplicaciones) que buscan un acceso rápido y fiable a cualquier dato.
Con Iceberg, las organizaciones logran una verdadera separación entre computación y almacenamiento, lo que permite una flexibilidad sin precedentes. Si busca análisis multifuncionales, preparación para la IA y libertad de proveedor, ningún otro formato de tabla se le acerca.
En menos de diez años, Iceberg ha evolucionado de tecnología emergente a estándar empresarial. El impulso de Iceberg se puede atribuir a sus puntos fuertes arquitectónicos, así como a la comunidad vibrante y abierta detrás de él.
Es importante destacar que la comunidad de Iceberg está liderada por sus usuarios, no solo por un único proveedor. Este modelo de gobierno impulsado por los usuarios ayuda a asegurar que el proyecto evolucione de formas que satisfagan necesidades amplias y reales del mundo, una razón principal por la que ha ganado tanta aceptación.
La adopción generalizada de Iceberg fue evidente en la Cumbre Iceberg 2025 en San Francisco. El evento reunió a startups, empresas de la lista Fortune 500 y a los tres principales proveedores de servicios en la nube (AWS, Microsoft y Google), y asistentes de todo el mundo, tanto en persona como virtualmente, todos deseosos de aprender, contribuir y hacer crecer el ecosistema.
Algunos temas en particular dominaron las conversaciones en la cumbre: la interoperabilidad y la creciente importancia de Iceberg (su ecosistema y capacidades en expansión, incluida la automatización).
Desde Netflix hasta Apple y Bloomberg, muchas organizaciones compartieron cómo Iceberg les permite gestionar una única fuente de verdad que impulsa múltiples cargas de trabajo, eliminando copias de datos redundantes y reduciendo el movimiento de datos entre sistemas. Discutieron los diversos tipos de cargas de trabajo que dependen de la capa de datos confiable de Iceberg para proporcionar segmentación, personalización, predicciones de pérdida de clientes/recaída, recomendaciones, experiencia de cliente optimizada y más.
Otro punto destacado fue la aparición de nuevas herramientas de código abierto como Comet, Polaris y Lance en el ecosistema Iceberg, diseñadas para mejorar el rendimiento y admitir análisis multimodales e inteligencia artificial.
Había mucho entusiasmo en torno a las capacidades que traerán Iceberg V3 y V4. V3 reforzará significativamente la gobernanza de datos, la optimización del rendimiento y el soporte para tipos de datos más complejos, como Variant y Geospatial. Al aprovechar los principios del formato columnar, Variant permite capacidades avanzadas de consulta, como el filtrado y las agregaciones, en datos semiestructurados sin requerir transformaciones extensas. El soporte para Geospatial permitirá a las organizaciones gestionar datos basados en la ubicación, desbloqueando nuevos casos de uso. El nuevo diseño de metadatos adaptable propuesto en V4 promete mejorar el rendimiento para archivos pequeños.
Otro tema candente fue la automatización del mantenimiento rutinario (particionado, clasificación, compactación) mediante interfaces estilo DevOps impulsadas por políticas para reducir el trabajo manual. A medida que las organizaciones incorporan más datos en las tablas de Iceberg, esto se convierte en un gran cuello de botella, ya que deben contratar expertos para estas tareas de mantenimiento.
A medida que más y más motores acceden a los datos en estas tablas de Iceberg, el gobierno, la seguridad y la trazabilidad se convierten en una prioridad alta. La visibilidad en los flujos de datos y las transformaciones de datos se vuelve crítica para confiar en los datos. Esto llevó a discusiones sobre la necesidad de la federación y gobierno de catálogos para mejorar la visibilidad en las tablas Iceberg.
Cloudera presentó la integración nativa de Apache Iceberg en su plataforma Lakehouse en la nube pública en 2021, seguida de la implementación local en 2022. Hoy en día, la mayoría de nuestros clientes están ejecutando o probando nuevas cargas de trabajo en Iceberg; en total, nuestros clientes gestionan petabytes de datos en Iceberg.
Iceberg es un vector de crecimiento para Cloudera. Estamos observando un aumento en los clientes que están migrando las cargas de trabajo de Hive a Iceberg para modernizar y asegurar el futuro de sus plataformas de datos. - Venkat Rajaji, vicepresidente sénior de gestión de productos, Cloudera
Una vez que una empresa comienza su viaje con Iceberg, los beneficios se acumulan, lo que resulta en un aumento de los volúmenes de datos en las tablas de Iceberg, la expansión de las cargas de trabajo y la aparición de nuevos casos de uso. Un rendimiento más rápido suele ser el primer motivador, seguido de la interoperabilidad y la flexibilidad de las cargas de trabajo para lograr agilidad. Pasarse a Iceberg reduce los costes de almacenamiento, ETL y operativos hasta un 75 %. Capacidades como viajes en el tiempo, instantáneas, escritura-auditoría-publicación y partición oculta mejoran aún más la eficiencia, lo que convierte a IT en la opción correcta para implementar nuevos casos de uso.
Algunos de los casos de uso más populares de Iceberg en Cloudera son:
Escuche el viaje de Illumina y LY Corporation con Apache Iceberg y cómo están superando sus retos de datos y analíticos a escala.
Aunque Lakehouse e Iceberg ofrecen ventajas significativas, como la convergencia de todos sus datos y la aceleración de la analítica, hay algunos desafíos que nuestros clientes nos han comunicado en relación con la adopción de Iceberg. Primero, sus datos se encuentran en múltiples nubes, en las instalaciones y en sistemas periféricos, y trasladar todos esos datos a la (en la) nube para aprovechar Iceberg es casi imposible. Por lo tanto, necesitan el mismo soporte de Iceberg tanto en las instalaciones como en la nube. En segundo lugar, necesitan integración con motores de múltiples proveedores para poder compartir fácilmente datos entre sistemas con confianza, linaje y trazabilidad. A medida que los datos crecen, la optimización manual y continua de las tablas Iceberg para lograr un rendimiento óptimo se vuelve muy costosa, requiriendo expertos y recursos informáticos. Por último, aunque Iceberg aumenta el uso de los datos, la libertad de introducir cualquier herramienta conlleva riesgos y requiere herramientas eficaces de gobierno y seguridad para controlar el acceso y proporcionar una gestión de metadatos que garantice la auditabilidad, el linaje y la visibilidad, permitiendo así una mejor comprensión de los datos y fomentando su usabilidad.
Siempre estamos innovando para resolver los desafíos de los clientes y hemos realizado varias mejoras en la plataforma para abordar estos puntos problemáticos comunes, que incluyen:
A medida que imaginamos un futuro en el que Apache Iceberg sea la base y el eje, potenciando los datos multiplataforma y la IA, mejoramos sin descanso las capacidades de Iceberg para desbloquear una agilidad e inteligencia sin precedentes para todas las empresas. Bill Zhang, vicepresidente de estrategias de producto en Cloudera
Creemos que Iceberg seguirá dominando como el estándar empresarial para formatos de tablas abiertas. Las nuevas innovaciones en optimizaciones automatizadas, soporte multimodal, gestión de metadatos e integración de Python solo impulsarán aún más la adopción. Es probable que otros formatos de tabla abierta adopten un enfoque más especializado adecuado para ejecutar cargas de trabajo específicas o en entornos específicos para complementar Iceberg.
El objetivo de Cloudera es ayudar a los clientes a construir un data lakehouse abierto impulsado por Iceberg con menor complejidad, mayor flexibilidad y mayor impacto. Nos centramos en proporcionar seguridad y gobierno de nivel empresarial, optimizaciones adicionales, mecanismos de almacenamiento jerárquico y un "catálogo de catálogos" para mejorar la interoperabilidad y la colaboración. Puede comenzar hoy mismo con la prueba de 5 días de Cloudera Lakehouse o leyendo nuestras guías prácticas.
This may have been caused by one of the following: