ClouderaNOW Descubre los agentes de IA, la expansión a la nube y las estructuras de datos para IA  |  8 de abril

Registrarse
  • Cloudera Cloudera
  • | Business

    El contexto es lo más difícil: lecciones prácticas sobre la creación de sistemas de IA agéntica

    Pamela Pan headshot
    Navita Sood Headshot
    ventanas del edificio

    Por qué la ingeniería de contexto es importante y cómo los equipos la están implementando

    "¿Cómo se obtienen los datos adecuados, en el lugar adecuado, en el momento adecuado?" 

    Ese es el principal reto detrás de dar vida a la IA agéntica en la empresa. Aunque los modelos de lenguaje de gran tamaño (LLM) han desbloqueado potentes capacidades de razonamiento y orquestación, su eficacia depende de algo más fundamental: ofrecer el contexto empresarial adecuado para razonar y actuar. La ingeniería de contexto es una disciplina que se centra en dar forma a la forma en que los datos, los metadatos, las políticas de acceso y la memoria se unen para guiar el comportamiento de los agentes de una manera segura y explicable.

    En Cloudera, lo vemos de primera mano al colaborar con clientes empresariales que experimentan con nuevos casos de uso de IA generativa (IA gen) e IA agéntica. Construir sistemas de IA agéntica depende de algo con lo que la mayoría de las organizaciones tienen dificultades: la arquitectura de datos que capture, gobierne y reutilice el conocimiento a lo largo del ciclo de vida de la IA. 

    En este blog, compartimos nuestro enfoque para crear sistemas de IA agéntica, que agrupa las capacidades fundamentales en tres grupos: conectar, contextualizar y consumir. Este enfoque permite a nuestros clientes empresariales crear sistemas de agencia inteligentes, confiables, explicables y listos para la producción.

    Conectar: derriba los silos con control

    Los agentes de IA modernos no pueden prosperar en entornos fragmentados. Sin embargo, la mayoría de las empresas tienen datos distribuidos en múltiples nubes, centros de datos, sistemas heredados y formatos inconsistentes. Exponer esos datos a un sistema de IA sin estructura ni protección conlleva problemas de rendimiento y riesgos de gobierno.

    En implementaciones exitosas, hemos visto que las organizaciones se centran primero en crear una capa de datos unificada que abarque entornos y formatos. Esto no significa centralizar todos los datos, sino unirlos en una arquitectura de tejido de datos. Esto proporciona una capa unificada con metadatos compartidos, políticas de acceso, ingeniería de datos federada e interoperabilidad en tiempo de ejecución.

    La implementación de un formato de tabla abierta y un acceso a la API estándar simplifica el acceso a los datos y ofrece flexibilidad. Las arquitecturas de lakehouse abierto son importantes en este caso porque proporcionan vistas coherentes y en tiempo real de los datos en todos los motores, especialmente para flujos de trabajo agénticos que dependen de una generación aumentada por recuperación fiable (RAG) y del razonamiento. 

    Contextualizar: da a los agentes más que acceso

    Una vez conectados los datos, el reto pasa a ayudar a los agentes a entender qué datos existen y cómo se utilizan. Eso empieza con el descubrimiento: identificar automáticamente las fuentes de datos en los sistemas en la nube y locales y activar los metadatos (nombres de las tablas, campos, formatos y más). Herramientas como Cloudera Octopai Data Lineage escanean scripts ETL, hacen ingeniería inversa de la lógica de los pipelines y capturan cómo los datos se mueven y transforman entre sistemas desde el origen hasta su destino final, capturando todas las dependencias en su trayecto.

    Esta información constituye la base del linaje, que muestra cómo se relacionan los conjuntos de datos y cómo cambian con el tiempo. El linaje importa cuando necesitas validar un resultado, explicar una recomendación o acción del agente, o rastrear una salida rota hasta su origen. Crea transparencia y confianza en los sistemas con los que interactúan los agentes.

    Por último, la catalogación reúne esta información en una estructura utilizable. Un almacén centralizado de metadatos ayuda tanto a humanos como a agentes a localizar lo que necesitan, entender las relaciones entre conjuntos de datos y establecer políticas que afectan a cómo deben gestionarse los datos. Un catálogo sólido actúa como un plano: ofrece un grafo de conocimiento que proporciona a los agentes un mapa claro y navegable del patrimonio de datos de la empresa. Recoge los metadatos técnicos, operativos y empresariales, incluyendo todas las definiciones de negocio y la lógica de negocio necesaria para entender los datos y actuar. 

    La contextualización permite a los agentes hacer algo más que recuperar información. Les permite explorar patrones, hacer mejores preguntas y tomar decisiones con una comprensión más profunda del entorno en el que operan.

    Consumir: ofrece el contexto adecuado en el momento adecuado

    El último paso en la creación de sistemas agénticos consiste en permitir que la IA actúe de forma rastreable, segura y basada en la información correcta. Aquí es donde importan las elecciones arquitectónicas: las barreras de seguridad, la observabilidad y el acceso controlado determinan si los agentes se comportan de forma predecible cuando importa.

    Nos ha resultado útil mapear técnicas comunes de ingeniería del contexto a los retos subyacentes de datos que están diseñadas para resolver. A continuación se muestran algunos ejemplos de cómo se manifiestan en la práctica:

    Desafío de preparación de datos

    Técnica de ingeniería del contexto

    El enfoque de Cloudera

    Fuga de datos confidenciales en los avisos

    Ingeniería rápida

    Pasarelas rápidas para redactar datos confidenciales.

    Datos desordenados y datos no estructurados o índices vectoriales anticuados

    RAG

    Pipelines de datos en transmisión en tiempo real gobernadas y seguras

    Falta de linaje, conjuntos de entrenamiento frágiles

    Sintonia FINA

    Mejora de la explicabilidad de la IA con el seguimiento del linaje

    Agentes que se extralimitan, decisiones opacas

    Acceso a herramientas o API

    Etiquetado de metadatos, clasificación autónoma de datos, acceso detallado y registros de auditoría completos en cada llamada al sistema

    Los agentes no pueden acceder al conocimiento interno de la empresa

    Protocolos de contexto de modelo (MCPs)

    Acceso controlado al contexto respaldado por Apache Iceberg con catálogos REST.

    La elección de la técnica adecuada depende del papel del agente, la sensibilidad de los datos y el entorno operativo. A continuación, se presentan casos de uso empresariales comunes y las combinaciones recomendadas que han funcionado bien en la práctica:

    Caso de uso

    Método(s) recomendado(s)

    Asistente de conocimiento interno

    RAG + base de datos vectorial + respaldo de prompt engineering

    Bot de habilitación de ventas con datos de gestión de relaciones con clientes (CRM)

    Llamada de función + inyección de contexto empresarial

    Agente de soporte específico para el producto

    Fine-tunning o contexto compartido RAG + MCP

    Flujo de trabajo multiagente de análisis de datos para extraer información 

    LangGraph + MCP + acceso a herramientas + memoria fragmentada

    Comprensión de documentos (PDF, Excel)

    Entradas multimodales + pipelines de preprocesamiento

    Este enfoque del consumo garantiza que los agentes operen con precisión, seguridad y alineamiento con los objetivos empresariales.

    Conclusiones: del marco a la acción

    En Cloudera, hemos pasado años navegando por las complejidades de los datos empresariales: tender puentes entre silos, hacer cumplir el gobierno, construir pipelines seguros para IA y análisis, y mostrar el linaje en entornos híbridos. Así que cuando comenzaron a surgir los patrones de IA agéntica, no estábamos empezando desde cero. Sabíamos dónde se encuentra el contexto y cómo capturarlo de forma segura con las medidas de protección adecuadas.

    Con Cloudera Octopai Data Lineage, los equipos pueden mapear automáticamente flujos de datos, trazar dependencias y catalogar metadatos entre entornos de nube y locales. Al incorporar catálogos de datos, capacidad de observación y control de acceso, los agentes pueden interactuar con los sistemas de forma más segura e inteligente. Los equipos ganan visibilidad, gobierno y confianza, algo fundamental para ampliar estos flujos de trabajo en toda la empresa.

    Para hacer que estas piezas sean accionables, hemos integrado estas capacidades en nuestro Open Data Lakehouse y Cloudera AI Studios, dando a las empresas la base para diseñar, implementar y gestionar sistemas seguros y autónomos en producción.

    Descubre cómo Cloudera puede ayudarte a crear en producción tus agentes de IA con el contexto empresarial adecuado que necesitan.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.