ClouderaNOW Descubre los agentes de IA, la expansión a la nube y las estructuras de datos para IA  |  8 de abril

Registrarse
  • Cloudera Cloudera
  • | Técnico

    Cloudera, Snowflake y Databricks: ¿qué modelo de federación es el más adecuado para la IA empresarial?

    Navita Sood Headshot
    Flujo de datos

    La IA está obligando a las empresas a enfrentarse a un proyecto que han pospuesto durante años: entornos de datos fragmentados.  

    La fragmentación solía ser un inconveniente. Claro, hacía falta unos pasos extra (y unos días más) para recopilar informes entre regiones o departamentos. El equipo de IT podría tener que intervenir para reconciliar discrepancias. Pero nada de eso fue lo suficientemente perturbador como para ser un impedimento.  

    Hasta ahora. 

    Por qué la federación de datos es importante ahora 

    En un contexto de IA, un patrimonio de datos fragmentado significa:

    • Modelos entrenados en contexto incompleto
    • Agentes tomando decisiones con datos obsoletos o inválidos
    • Las políticas de gobierno se aplicaron de manera inconsistente en todos los entornos

    Esto supone duplicación, retrasos y lagunas justo en el momento en que las empresas están tratando de implementar la IA a gran escala. 

    En otras palabras, la fragmentación se ha convertido de repente en un factor decisivo

    En nuestro post anterior, analizamos por qué el acceso a los datos unificado y gobernado es la base de una IA fiable y por qué la consolidación por sí sola no es la respuesta. Centralizar los datos (es decir, trasladarlos todos a una sola ubicación física) puede parecer limpio en teoría, pero en la práctica introduce compensaciones operativas que las empresas ya no pueden permitirse. Haz clic aquí para leer por qué

    La alternativa es la federación —que permite a las organizaciones operar como si sus datos estuvieran unificados. Pero hay un matiz que muchos compradores están descubriendo ahora: 

    No todas las estrategias de federación son iguales. 

    Dos estrategias de federación en competencia: centralizar primero o federar donde residen los datos 

    La mayoría de los proveedores utilizan el término "federación" para describir un beneficio de su plataforma de datos e IA (es decir, permitir que las organizaciones utilicen todos sus datos para ejecutar análisis e IA), pero no siempre se refieren a lo mismo con ese término. Al evaluar una plataforma, es fundamental comprender exactamente qué ofrece cada proveedor y en qué medida se ajusta a sus necesidades antes de comprometerse en exceso. 

    En términos generales, existen dos enfoques dominantes en el mercado actual: la federación con consolidación previa y la federación in situ (a menudo denominada virtualización de datos). 

    Modelo 1: federación basada en la consolidación (enfoque de Databricks y Snowflake)

    El primer modelo de federación es lo que se conoce como un enfoque que "prioriza la consolidación": la federación es posible una vez que hayas consolidado los datos en el entorno de nube del proveedor o dentro de su modelo de gobierno. Si se desea acceso entre sistemas, esto generalmente implica copiar o incorporar datos a su plataforma de forma regular. 

    En pocas palabras, se trata de una federación porque permite analizar todos los datos en un solo lugar. Pero primero hay que trasladar todo a su sistema. 

    Para los líderes empresariales, este enfoque tiene implicaciones tangibles, entre las que se incluyen:

    • Mayores costes de almacenamiento y procesamiento de datos
    • Aumento de la duplicación de datos
    • Política de gobierno y replicación de permisos entre sistemas
    • Mayor complejidad de cumplimiento y auditoría

    En otras palabras, cuantos más lugares ocupe tu información, más caro y difícil será protegerla. Para empresas nativas en la nube, este enfoque puede ser aceptable. Pero para las empresas híbridas reguladas, introduce fricciones que se acumulan con el tiempo. 

    Modelo 2: federación in situ (el enfoque de Cloudera) 

    El modelo alternativo de federación, defendido por Cloudera, adopta una postura fundamentalmente diferente: llevar la computación y la IA a los datos, sin importar dónde se encuentren, en lugar de forzar el movimiento de los datos.  

    La federación in situ agrupa los datos de forma lógica, de modo que los equipos pueden acceder a ellos y analizarlos donde se encuentren (en entornos públicos, privados o locales) sin necesidad de copiarlos primero a otra plataforma. 

    Parece una diferencia sutil, pero en la práctica lo cambia todo: 

    • Reducir los costes de infraestructura y almacenamiento minimizando el movimiento innecesario de datos
    • Menos duplicidad entre entornos
    • Mayor flexibilidad en las arquitecturas multinube y locales
    • Menor exposición al riesgo de concentración de nubes
    • Un modelo único de seguridad y gobierno con un historial completo de todos tus datos, estén donde estén

    De este modo, tus datos permanecen donde más convenga por motivos normativos, operativos o de rendimiento, y tus equipos seguirán disponiendo de una visión completa y en tiempo real de los mismos. 

    Qué permite la federación in situ que no pueden ofrecer los modelos de consolidación primaria 

    Cuando la federación funciona en entornos híbridos sin replicación (es decir, federación in situ), crea condiciones que los modelos de consolidación primero tienen dificultades para igualar. Esa distinción cambia el perfil de riesgo de toda tu estrategia de IA fuera de entornos exclusivos en la nube. 

    1. Seguridad sin redundancia 

    En los modelos de consolidación (ofrecidos por proveedores como Databricks y Snowflake), los datos pueden parecer unificados, pero aún existen en múltiples entornos. Se copia, se ingiere o se replica en una plataforma controlada por el proveedor antes de poder analizarlo. Cada copia adicional amplía la superficie de cumplimiento. 

    Un mayor número de entornos implica más permisos que gestionar, más políticas que sincronizar y un mayor alcance de auditoría que conciliar. A medida que crece la replicación, también lo hace la complejidad del gobierno. 

    Los modelos de federación in situ, como los de Cloudera, dejan los datos donde están. Como tal, las políticas de gobierno se definen una vez y se aplican de forma coherente en todas partes. En lugar de recrear los permisos en todos los sistemas, un plano de control único y coherente rige el acceso en todos los entornos híbridos. En Cloudera, lo llamamos "gobierno que se adapta a tus datos". 

    Piensa en ello como un sistema global de identificaciones corporativas. No querrás tener que expedir una nueva tarjeta de seguridad cada vez que un empleado visite una oficina diferente. Los permisos de acceso se definen de forma centralizada y ese mismo distintivo funciona en la sede, las oficinas regionales y los centros de datos, haciendo cumplir las mismas normas de seguridad en todas partes. 

    Solo tienes que definir las reglas una vez, y todas las puertas las reconocen, incluso en diferentes ubicaciones. Eso es seguridad sin redundancia, y es una gran ventaja para la contención de riesgos porque la complejidad no se multiplica a medida que crece tu entorno. 

    2. Linaje de extremo a extremo a través de fuentes híbridas 

    En todos los sectores, la IA asume más responsabilidades, y con ello surge una necesidad creciente de rendición de cuentas y explicabilidad. 

    Cuando la IA influye en aprobaciones de crédito, señales de fraude, decisiones de precios o ajustes en la cadena de suministro, por ejemplo, cada resultado debe ser defendible. Los reguladores, auditores y la dirección ejecutiva esperan cada vez más ver no solo el resultado, sino todo el camino que lo produjo. 

    En las empresas híbridas, ese camino rara vez se encuentra en un solo entorno. Los datos pueden originarse en las instalaciones o en el edge, enriquecerse en una nube pública, unirse con datos SaaS y ser consumidos por un modelo que se ejecuta en otro lugar. La trazabilidad a través de esa realidad no es negociable. 

    Los enfoques de federación que priorizan la consolidación intentan simplificar el linaje mediante la centralización de datos. Pero en la práctica, la replicación crea historias paralelas: conjuntos de datos originales en los sistemas fuente y copias transformadas en entornos analíticos. Con el tiempo, para explicar una decisión puede ser necesario conciliar varias versiones de los mismos datos en distintos sistemas. El linaje se convierte en algo que habría que reconstruir. 

    Con la federación integrada en las capacidades de linaje de datos (como las herramientas de linaje de datos de Cloudera), eso no es un problema. Como los datos se acceden donde viven (en lugar de replicarse en un entorno separado), el linaje permanece anclado a la fuente original. 

    Esa distinción importa más en los flujos de trabajo híbridos y dependientes del borde. Con un enfoque basado en la federación, puedes estar seguro de que, si dentro de unos años aparece un organismo regulador o una nueva CRO preguntando cómo se tomó una decisión concreta, la respuesta no quedará oculta en una caja negra que haya que descifrar. Está documentado, es rastreable y defendible. 

    3. Una base más sólida para sistemas de IA en el mundo real 

    En los modelos que priorizan la consolidación, la IA opera dentro del entorno donde se han centralizado los datos. Eso funciona, siempre y cuando el flujo de datos se mantenga al ritmo de la realidad operativa. En las empresas híbridas, rara vez ocurre. 

    Cuando la IA es responsable de resultados reales como precios dinámicos o ajustes en la cadena de suministro, debe operar dentro de sistemas distribuidos activos, no en copias analíticas derivadas. Cada paso de la replicación introduce cadenas de dependencia, lo que crea latencia/retrasos en la incorporación de datos y la posibilidad de deriva entre los sistemas operacionales reales y los modelos de IA que los utilizan. 

    La federación en el lugar, en cambio, mantiene la IA alineada con la realidad operativa, asegurando que el contexto siempre esté presente y potenciando casos de uso de IA operativa que una estrategia de federación centrada en la consolidación no podría seguir más allá de la nube. 

    La IA operativa en la práctica: el sector logístico

    Para ver por qué todo esto es importante en la práctica, veamos un ejemplo. Considere una empresa de logística global que despliega la IA para optimizar las rutas de entrega en tiempo real. Una única decisión de enrutamiento puede depender de: 

    • Datos de disponibilidad de los conductores procedentes de un sistema de gestión de personal
    • Fuentes GPS en tiempo real desde vehículos
    • Datos de tráfico y meteorología de API externas
    • Disponibilidad de inventario en almacenes regionales
    • Métricas de eficiencia del combustible a partir de sensores IdC (Internet de las cosas)
    • Restricciones regulatorias locales o normas sindicales

    Si ese modelo de IA opera con instantáneas copiadas a una sola nube días o incluso horas antes, está tomando decisiones con contexto parcial. Podría redirigir a los conductores sin tener en cuenta los niveles de inventario actualizados o optimizar por velocidad sin tener en cuenta las restricciones de cumplimiento regional. Podría depender de telemetría obsoleta de vehículos que ya no están en la ruta. 

    Cuando los sistemas de IA pueden acceder de forma segura a los datos distribuidos donde ya residen, con seguridad sin redundancia de datos y visibilidad completa del linaje, las organizaciones desbloquean una IA totalmente operativa que actúa en tiempo real, funciona dentro de los límites de las políticas y se adapta a diferentes entornos sin añadir riesgos. 

    Cómo elegir un proveedor de federación: preguntas que toda empresa debería plantearse 

    Como hemos explorado, no todas las estrategias de federación están diseñadas para el mismo resultado.  

    Algunos priorizan la consolidación y otros la flexibilidad híbrida y el acceso regulado. Al evaluar Cloudera contra Databricks contra Snowflake (o cualquier solución de federación de datos o combinación de las mismas), estas preguntas ayudan a revelar las verdaderas diferencias: 

    • ¿La federación requiere el movimiento de datos? ¿Puedes acceder a los datos donde ya residen, o será necesario copiarlos primero en una nube centralizada?
    • ¿Dónde se definen las políticas de gobierno? ¿Se establecen los controles de acceso una vez y se heredan en todas partes, o se recrean en todos los sistemas?
    • ¿Se trata lo híbrido como permanente? ¿La arquitectura admite entornos locales e infraestructuras multinube a largo plazo, o supone una consolidación eventual?
    • ¿Puede el linaje extenderse más allá del entorno del proveedor? ¿La trazabilidad es integral a través de fuentes distribuidas, incluidos los sistemas no nativos?
    • ¿Está diseñada la plataforma para la IA operativa en cualquier lugar? ¿Puede la IA acceder de forma segura a los datos en vivo y gobernados en tiempo real, o solo a las instantáneas centralizadas?

    Las respuestas a estas preguntas le ayudarán a determinar si la federación se convertirá en una característica de conveniencia centrada en casos de uso de análisis, o en la base a largo plazo para una IA a escala empresarial, fiable y con costos controlados. 

    La federación solo funciona si se diseña de forma deliberada 

    Diseñar un entorno federado implica ir más allá de las apariencias: armonizar los modelos de gobierno, las restricciones normativas, los requisitos de rendimiento y las integraciones existentes, al tiempo que se conectan los sistemas de manera que se garantice la flexibilidad a largo plazo. 

    El equipo de Servicios Profesionales y Formación (PS&T) de Cloudera ha guiado a organizaciones de diferentes sectores en este proceso en innumerables ocasiones. Ya sea para definir una nueva estrategia de federación o para optimizar un entorno ya existente, contar con asesores experimentados a tu lado puede ayudarte a garantizar que tu entorno federado no solo esté configurado correctamente, sino que también esté realmente preparado para la IA y diseñado para ofrecer resultados cuantificables. 

     

    Sigue leyendo: cómo funciona la federación en los servicios financieros 

    La elección entre la consolidación en primer lugar y la federación in situ determina si la IA permanece en modo piloto o se escala de forma segura a las operaciones. 

    En ningún lugar es más importante que en los servicios financieros, donde la detección del fraude, la gestión de riesgos y la presentación de informes reglamentarios dependen de datos nuevos e intersistémicos. En nuestro próximo artículo, exploraremos cómo la federación está remodelando el análisis en tiempo real y el gobierno de la IA en la banca. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.