Este blog es el último de una serie de tres partes: la primera trata los fundamentos de la computación de alto rendimiento (HPC) y la segunda aborda la importancia de un data lakehouse soberano.
Aunque un data lakehouse por sí solo no es compatible con la HPC (las simulaciones de HPC requieren una plataforma tecnológica muy diferente), es el complemento ideal para poner en práctica una estrategia centrada en el modelo de orden reducido (ROM), ya que ofrece capacidades esenciales (MLOps estructurado, soporte para experimentos, archivo de datos rentable, acceso simplificado, cadena de herramientas de colaboración y mucho más).
Cloudera salva de forma única la brecha entre los datos físicos especializados a gran escala (HPC) y los requisitos ágiles del entrenamiento moderno de IA (MLOps). Al ofrecer una arquitectura independiente de la nube y preparada para la soberanía, garantiza el cumplimiento y proporciona a las empresas una vía segura y viable para poner en práctica los ROM.
Cloudera respalda esta convergencia a través de las siguientes capacidades específicas:
El reto: como se ha mencionado anteriormente, almacenar y gestionar petabytes de instantáneas históricas del modelo de orden completo (FOM) suele ser costoso y complejo en el almacenamiento tradicional. Sin embargo, los ingenieros también necesitan una forma de ingerir, transformar y archivar estos enormes conjuntos de datos con un gobierno estricto, a la vez que mantienen la "soberanía operativa", garantizando así que los datos nunca salgan de la jurisdicción deseada.
La solución de Cloudera:
Cloudera DataFlow: al actuar como motor de ingesta universal, Cloudera DataFlow permite a los ingenieros crear canalizaciones multimodales sin necesidad de programar, en un entorno colaborativo. Puede ingerir archivos de solver sin procesar (registros CFD/FEA), transformar datos no estructurados en características estructuradas y almacenarlos directamente en el almacenamiento de objetos del data lakehouse (Cloudera Object Storage basado en Apache Ozone) para facilitar el acceso cuando sea necesario para entrenar o reentrenar los ROM.
Procedencia y auditoría: es fundamental que DataFlow ofrezca linaje y procedencia de datos integrados. Esto garantiza que cada "característica" utilizada para entrenar un ROM pueda rastrearse hasta su archivo fuente original, proporcionando la pista de auditoría necesaria para la ingeniería crítica para la seguridad.
Cloudera SDX proporciona entonces un punto unificado de diseño y aplicación de políticas de autorización para todos y cada uno de los servicios de datos e IA, manteniendo así un único panel de control a la hora de garantizar que el acceso a la propiedad intelectual sensible contenida en los conjuntos de datos de FOM y las características de los ROM esté bajo control.
El reto: desarrollar los ROM precisos implica cientos de iteraciones. Sin un sistema central de registro, los equipos de I+D se enfrentan a un "caos de versiones", perdiendo la pista de qué hiperparámetros o conjuntos de datos han producido los mejores resultados.
La solución de Cloudera:
Cloudera AI Workbench: este servicio ofrece un entorno colaborativo con Notebooks-as-a-Service (Jupyter) seguros y de código abierto. Para mejorar aún más la productividad de los desarrolladores, el workbench ofrece la flexibilidad de usar los editores de terceros que prefieras, como VS Code, PyCharm y RStudio, ya sea en el navegador o como IDE locales conectados a los recursos de computación del workbench. Además, el entorno de trabajo se integra de forma nativa con MLflow, lo que permite a los usuarios crear una "fuente de verdad" documentada para cada proyecto ROM mediante el registro de hiperparámetros, métricas de evaluación y versiones de conjuntos de datos de entrenamiento utilizados para cada versión específica de un modelo de IA creado por cualquier equipo. Esto fomenta la visibilidad y la reutilización, permitiendo a diferentes equipos adaptar fácilmente la arquitectura de un modelo en función de su experiencia en la materia.
El reto: los equipos de I+D necesitan acceso instantáneo a recursos de computación no solo para el entrenamiento iterativo, sino también para la inferencia de modelos de IA a nivel de producción. Los servicios de inferencia en la nube pública suelen provocar un "shock por tokens" o costes desorbitados debido a los bucles de inferencia de gran volumen. Por el contrario, la IT local a menudo carece de la agilidad necesaria para aprovisionar recursos rápidamente.
La solución de Cloudera:
Arquitectura PaaS por diseño: basada en Kubernetes, Cloudera ofrece una plataforma moderna y multiempresa en la que los profesionales aprovisionan ellos mismos los datos y los servicios de IA. La plataforma se autoescala en función de las demandas actuales de carga de trabajo, independientemente de si se ejecuta en un centro de datos soberano o en una suscripción a la nube privada.
Cloudera AI Inference Service: este servicio en concreto permite a los ingenieros implementar versiones controladas de modelos, junto con API REST estándar para su uso inmediato en producción. Como se ejecuta en una infraestructura autoalojada, el modelo de facturación se basa en horas de computación (por GPU/CPU) en lugar de "por token". Esto permite consolidar decenas de modelos diferentes en un único clúster, lo que genera importantes economías de escala para cargas de trabajo de ingeniería de gran volumen.
El reto: el valor definitivo de un ROM suele materializarse fuera del centro de datos, integrado en una planta de fabricación o en el controlador de una central eléctrica para el mantenimiento predictivo en tiempo real.
La solución de Cloudera:
Cloudera Edge Management: este servicio permite a los profesionales crear e implementar flujos de datos que incluyen la inferencia de modelos "en proceso" directamente en la infraestructura de edge. Con una interfaz visual sin código, los ingenieros pueden enviar los ROM entrenados a flotas de agentes remotos, cerrando el ciclo entre el gemelo digital y el activo físico.
El reto: los ciclos de vida de la ingeniería se miden en décadas. Las herramientas propietarias o los formatos de nube cerrados crean riesgos inaceptables de dependencia de un proveedor para los datos de productos a largo plazo.
La solución de Cloudera:
Núcleo de código abierto: toda la plataforma de datos e IA de Cloudera se basa en tecnologías de código abierto de la comunidad (p. ej., Apache Nifi, Apache Spark, Apache Iceberg, Apache Ozone, CNCF Kubernetes y más).
Experiencia mejorada: al integrar estos estándares en un plano de control unificado, seguro y fácil de usar, Cloudera tiende un puente entre la libertad del código abierto y la facilidad de uso que se espera de una plataforma de nube moderna. Esto garantiza que tu propiedad intelectual crítica siga siendo portátil y accesible para siempre.
A diferencia de otras plataformas de data lakehouse de la competencia en el mercado (que a menudo fragmentan el ciclo de vida entre el almacenamiento propio y la computación de terceros, o te obligan a elegir entre un formato exclusivamente de nube pública), Cloudera ofrece todas las capacidades mencionadas en una única plataforma unificada.
Cloudera combina esta experiencia de usuario moderna y centrada en PaaS con la flexibilidad única de implementar toda la plataforma en un centro de datos totalmente soberano. Esto permite, de forma efectiva, que los clientes del sector de la fabricación avanzada que operan en mercados regulados o en proyectos estratégicamente sensibles ejecuten una estrategia de IA de vanguardia en el entorno más seguro posible, cumpliendo los requisitos más estrictos tanto de residencia de datos como de soberanía operativa.
El futuro de la HPC y la IA empresarial es soberano, abierto y unificado desde el punto de vista operativo, y ese futuro se basa en Cloudera. Nuestra plataforma Private AI Anywhere, que funciona en cualquier nube y centro de datos, ofrece un control integral y regulado sobre todos los datos, modelos, agentes e inferencias de misión crítica para garantizar la soberanía, el cumplimiento normativo y un valor empresarial demostrado a escala.
This may have been caused by one of the following: