"¿Cómo se obtienen los datos adecuados, en el lugar adecuado, en el momento adecuado?"
Ese es el principal reto detrás de dar vida a la IA agéntica en la empresa. Aunque los modelos de lenguaje de gran tamaño (LLM) han desbloqueado potentes capacidades de razonamiento y orquestación, su eficacia depende de algo más fundamental: ofrecer el contexto empresarial adecuado para razonar y actuar. La ingeniería de contexto es una disciplina que se centra en dar forma a la forma en que los datos, los metadatos, las políticas de acceso y la memoria se unen para guiar el comportamiento de los agentes de una manera segura y explicable.
En Cloudera, lo vemos de primera mano al colaborar con clientes empresariales que experimentan con nuevos casos de uso de IA generativa (IA gen) e IA agéntica. Construir sistemas de IA agéntica depende de algo con lo que la mayoría de las organizaciones tienen dificultades: la arquitectura de datos que capture, gobierne y reutilice el conocimiento a lo largo del ciclo de vida de la IA.
En este blog, compartimos nuestro enfoque para crear sistemas de IA agéntica, que agrupa las capacidades fundamentales en tres grupos: conectar, contextualizar y consumir. Este enfoque permite a nuestros clientes empresariales crear sistemas de agencia inteligentes, confiables, explicables y listos para la producción.
Los agentes de IA modernos no pueden prosperar en entornos fragmentados. Sin embargo, la mayoría de las empresas tienen datos distribuidos en múltiples nubes, centros de datos, sistemas heredados y formatos inconsistentes. Exponer esos datos a un sistema de IA sin estructura ni protección conlleva problemas de rendimiento y riesgos de gobierno.
En implementaciones exitosas, hemos visto que las organizaciones se centran primero en crear una capa de datos unificada que abarque entornos y formatos. Esto no significa centralizar todos los datos, sino unirlos en una arquitectura de tejido de datos. Esto proporciona una capa unificada con metadatos compartidos, políticas de acceso, ingeniería de datos federada e interoperabilidad en tiempo de ejecución.
La implementación de un formato de tabla abierta y un acceso a la API estándar simplifica el acceso a los datos y ofrece flexibilidad. Las arquitecturas de lakehouse abierto son importantes en este caso porque proporcionan vistas coherentes y en tiempo real de los datos en todos los motores, especialmente para flujos de trabajo agénticos que dependen de una generación aumentada por recuperación fiable (RAG) y del razonamiento.
Una vez conectados los datos, el reto pasa a ayudar a los agentes a entender qué datos existen y cómo se utilizan. Eso empieza con el descubrimiento: identificar automáticamente las fuentes de datos en los sistemas en la nube y locales y activar los metadatos (nombres de las tablas, campos, formatos y más). Herramientas como Cloudera Octopai Data Lineage escanean scripts ETL, hacen ingeniería inversa de la lógica de los pipelines y capturan cómo los datos se mueven y transforman entre sistemas desde el origen hasta su destino final, capturando todas las dependencias en su trayecto.
Esta información constituye la base del linaje, que muestra cómo se relacionan los conjuntos de datos y cómo cambian con el tiempo. El linaje importa cuando necesitas validar un resultado, explicar una recomendación o acción del agente, o rastrear una salida rota hasta su origen. Crea transparencia y confianza en los sistemas con los que interactúan los agentes.
Por último, la catalogación reúne esta información en una estructura utilizable. Un almacén centralizado de metadatos ayuda tanto a humanos como a agentes a localizar lo que necesitan, entender las relaciones entre conjuntos de datos y establecer políticas que afectan a cómo deben gestionarse los datos. Un catálogo sólido actúa como un plano: ofrece un grafo de conocimiento que proporciona a los agentes un mapa claro y navegable del patrimonio de datos de la empresa. Recoge los metadatos técnicos, operativos y empresariales, incluyendo todas las definiciones de negocio y la lógica de negocio necesaria para entender los datos y actuar.
La contextualización permite a los agentes hacer algo más que recuperar información. Les permite explorar patrones, hacer mejores preguntas y tomar decisiones con una comprensión más profunda del entorno en el que operan.
El último paso en la creación de sistemas agénticos consiste en permitir que la IA actúe de forma rastreable, segura y basada en la información correcta. Aquí es donde importan las elecciones arquitectónicas: las barreras de seguridad, la observabilidad y el acceso controlado determinan si los agentes se comportan de forma predecible cuando importa.
Nos ha resultado útil mapear técnicas comunes de ingeniería del contexto a los retos subyacentes de datos que están diseñadas para resolver. A continuación se muestran algunos ejemplos de cómo se manifiestan en la práctica:
Desafío de preparación de datos |
Técnica de ingeniería del contexto |
El enfoque de Cloudera |
Fuga de datos confidenciales en los avisos |
Ingeniería rápida |
Pasarelas rápidas para redactar datos confidenciales. |
Datos desordenados y datos no estructurados o índices vectoriales anticuados |
RAG |
Pipelines de datos en transmisión en tiempo real gobernadas y seguras |
Falta de linaje, conjuntos de entrenamiento frágiles |
Sintonia FINA |
Mejora de la explicabilidad de la IA con el seguimiento del linaje |
Agentes que se extralimitan, decisiones opacas |
Acceso a herramientas o API |
Etiquetado de metadatos, clasificación autónoma de datos, acceso detallado y registros de auditoría completos en cada llamada al sistema |
Los agentes no pueden acceder al conocimiento interno de la empresa |
Protocolos de contexto de modelo (MCPs) |
Acceso controlado al contexto respaldado por Apache Iceberg con catálogos REST. |
La elección de la técnica adecuada depende del papel del agente, la sensibilidad de los datos y el entorno operativo. A continuación, se presentan casos de uso empresariales comunes y las combinaciones recomendadas que han funcionado bien en la práctica:
Caso de uso |
Método(s) recomendado(s) |
Asistente de conocimiento interno |
RAG + base de datos vectorial + respaldo de prompt engineering |
Bot de habilitación de ventas con datos de gestión de relaciones con clientes (CRM) |
Llamada de función + inyección de contexto empresarial |
Agente de soporte específico para el producto |
Fine-tunning o contexto compartido RAG + MCP |
Flujo de trabajo multiagente de análisis de datos para extraer información |
LangGraph + MCP + acceso a herramientas + memoria fragmentada |
Comprensión de documentos (PDF, Excel) |
Entradas multimodales + pipelines de preprocesamiento |
Este enfoque del consumo garantiza que los agentes operen con precisión, seguridad y alineamiento con los objetivos empresariales.
En Cloudera, hemos pasado años navegando por las complejidades de los datos empresariales: tender puentes entre silos, hacer cumplir el gobierno, construir pipelines seguros para IA y análisis, y mostrar el linaje en entornos híbridos. Así que cuando comenzaron a surgir los patrones de IA agéntica, no estábamos empezando desde cero. Sabíamos dónde se encuentra el contexto y cómo capturarlo de forma segura con las medidas de protección adecuadas.
Con Cloudera Octopai Data Lineage, los equipos pueden mapear automáticamente flujos de datos, trazar dependencias y catalogar metadatos entre entornos de nube y locales. Al incorporar catálogos de datos, capacidad de observación y control de acceso, los agentes pueden interactuar con los sistemas de forma más segura e inteligente. Los equipos ganan visibilidad, gobierno y confianza, algo fundamental para ampliar estos flujos de trabajo en toda la empresa.
Para hacer que estas piezas sean accionables, hemos integrado estas capacidades en nuestro Open Data Lakehouse y Cloudera AI Studios, dando a las empresas la base para diseñar, implementar y gestionar sistemas seguros y autónomos en producción.
Descubre cómo Cloudera puede ayudarte a crear en producción tus agentes de IA con el contexto empresarial adecuado que necesitan.
This may have been caused by one of the following: