ClouderaNOW Descubre los agentes de IA, la expansión a la nube y las estructuras de datos para IA  |  8 de abril

Registrarse
  • Cloudera Cloudera
  • | Técnico

    Cerrando la brecha entre la computación de alto rendimiento y la IA soberana: parte uno de tres

    Gabriele Folchi headshot
    Lama Itani headshot
    Gente caminando por el puente entre Arquitectura moderna

    Históricamente, la analítica de datos de alto rendimiento se centró principalmente en I+D para las industrias de ingeniería/fabricación. Mientras que los casos de uso operativo del análisis de datos, que se basaban en sistemas de big data similares, operaban de forma aislada. 

    Hoy en día, el auge de la IA generativa y el aprendizaje automático (ML) representan una importante oportunidad para unir estos dos dominios. Esta sinergia permite a las empresas de ambas divisiones aprovechar su experiencia e inversiones en infraestructura, lo que conduce a un aumento de la productividad y a una ventaja competitiva para las organizaciones de I+D. Específicamente, los ingenieros mecánicos que trabajan con computación de alto rendimiento pueden acelerar drásticamente el desarrollo de productos y obtener conocimientos operativos más profundos empleando métodos inteligentes de compresión impulsados por IA (como modelos de orden reducido) entrenados en plataformas de Plataforma Big Data.

    Esta serie de blogs, impartida en tres partes, ilustra cómo y por qué un lago de datos soberano (un data lakehouse abierto que puede operar bajo la soberanía de un cliente, no bajo la jurisdicción del proveedor de infraestructura) es la arquitectura necesaria para escalar la física experimental y los flujos de trabajo de IA hasta convertirlos en una capacidad robusta de nivel empresarial. También explicamos por qué Cloudera es la opción ideal para las organizaciones que buscan combinar la precisión de la ingeniería con la agilidad del análisis de datos moderno.


    Los fundamentos de la computación de alto rendimiento y los solucionadores de orden reducido 


    El modelo de pedido completo

    Entender la mecánica de las simulaciones es clave para apreciar el papel transformador de la IA en la ingeniería. Las simulaciones multifísicas tradicionales, como el análisis de elementos finitos (que se utilizan para comprobar la integridad estructural en el mundo real) o la dinámica de fluidos computacional (que se utiliza para modelar cómo se mueve el aire o el líquido), funcionan dividiendo una estructura física (como un puente) en una "malla" o sistema de millones de elementos diminutos. La representación matemática de estos elementos suele adoptar la forma de un sistema de tensores que interactúan, es decir, conjuntos estructurados de números utilizados para modelar cómo interactúan las fuerzas, la presión, la temperatura y el movimiento en el sistema.

    El modelo de orden completo es el más detallado y físicamente preciso de ese sistema. Su comportamiento físico es simulado por un solucionador (por ejemplo, OpenFOAM) que calcula ecuaciones complejas de forma continua. Este proceso calcula los cambios en estos tensores basándose en la física, incluyendo cómo la reacción de un solo elemento afecta a sus vecinos más cercanos y al sistema en su conjunto. Aunque esto ofrece una precisión increíble, tiene un coste: estas simulaciones son extremadamente exigentes computacionalmente, a menudo requiriendo que un clúster de superordenadores funcione durante días solo para analizar un escenario, limitando la rapidez con la que los equipos pueden iterar, probar alternativas o llevar productos al mercado.

    El modelo de orden reducido

    Un modelo de orden reducido es una técnica impulsada por la IA que simplifica drásticamente las simulaciones complejas. Se basa en técnicas matemáticas avanzadas, que van desde métodos clásicos, como la descomposición de valores singulares, hasta arquitecturas modernas de redes neuronales artificiales, como los autoencoders, para aproximar sistemas no lineales y muy complejos. 

    En su esencia, un modelo de orden reducido identifica y captura los patrones más importantes y definitorios dentro de los enormes volúmenes de datos tensoriales simulados generados por un modelo de orden completo.

    Al destilar el problema, el modelo de orden reducido reduce efectivamente el enorme espacio computacional a un "espacio latente" mucho más pequeño, una representación matemática simplificada del sistema (efectivamente, un "gemelo digital"). Esto significa que, en lugar de que un solucionador tradicional tenga que procesar millones de ecuaciones complejas, el modelo de orden reducido podría necesitar resolver solo 50 variables latentes para explicar el 99 % de la física subyacente.

    Para los ingenieros mecánicos, cuyo flujo de trabajo diario gira en torno a la optimización del rendimiento, la fiabilidad y el coste de los productos a través de innumerables combinaciones de geometría, materiales, grosor y peso, esta capacidad cambia el ritmo de la innovación. Su flujo de trabajo es esencialmente una secuencia continua de escenarios hipotéticos, basándose tanto en el conocimiento sintético de los solucionadores basados en física como en los datos de implementación del mundo real. La integración de los modelos de orden reducido en este proceso proporciona una serie de ventajas estratégicas significativas, como:
     

    Oportunidad estratégica del modelo de orden reducido

    Explicación

    Impacto empresarial

    Iteración rápida

    Realice miles de cambios de diseño y escenarios hipotéticos en segundos.

    Reduce el tiempo de desarrollo del producto de meses a solo días.

    Despliegue de edge compute

    Los modelos de orden reducido son lo suficientemente pequeños y rápidos como para ejecutarse directamente en controladores integrados o dispositivos de Internet de las cosas (IoT) en el campo.

    Permite la toma de decisiones en tiempo real en el dispositivo y el control automatizado con o sin conectividad en la nube.

    Gemelos digitales en tiempo real

    Impulsa una red neuronal con información física (PINN) que funciona junto a la máquina real y utiliza datos de sensores en vivo para predecir el comportamiento y las anomalías del sistema.

    El mantenimiento pasa de arreglar las cosas después de que se rompan a un mantenimiento proactivo, lo que reduce el tiempo de inactividad y prolonga la vida útil del activo.


    Desarrollo de modelos de orden reducido: de la teoría a la producción

    Las ROM aportan un valor considerable al acelerar los flujos de trabajo de ingeniería, pero el despliegue exitoso requiere navegar por limitaciones técnicas específicas y realidades operativas que las organizaciones deben abordar sistemáticamente.

    Requisitos de datos de entrenamiento

    Los modelos precisos de orden reducido requieren grandes volúmenes de datos procedentes de modelos de orden completo. Por ejemplo, crear un modelo de orden reducido fiable para el análisis de choques de automóviles requiere de 500 a 2000 ejecuciones de modelos de orden completo en diferentes configuraciones de material y geometría, lo que representa semanas de tiempo en un clúster de computación de alto rendimiento. La escasez de datos de entrenamiento produce modelos de orden reducido que fallan catastróficamente fuera de las condiciones probadas. Las herramientas automatizadas de diseño de experimentos ayudan a optimizar qué simulaciones ejecutar, reduciendo las simulaciones de modelos de orden completo necesarias entre un 30 y un 40 %, manteniendo la precisión.

    Compensaciones de precisión

    El rendimiento del modelo de orden reducido se degrada fuera de los límites de entrenamiento. Por ejemplo, un modelo de álabes de turbina con funcionamiento reducido, entrenado para temperaturas de funcionamiento de entre 800 y 1200 °C, puede producir un error del 15 al 20 % a 1250 °C. Esto puede abordarse mediante técnicas de modelado de conjuntos y cuantificación de la incertidumbre. Cuando la confianza en el modelo cae por debajo de los umbrales predefinidos, los activadores automatizados pueden iniciar ejecuciones de validación utilizando el modelo original de orden completo.

    Carga de validación

    En entornos críticos para la seguridad (automoción, aeroespacial, energía, etc.), las aplicaciones de modelos de orden reducido requieren una validación rigurosa frente a modelos de orden completo, lo que a menudo implica un esfuerzo considerable (como estudios extensos de correlación). Esto se debe a que los organismos reguladores exigen una equivalencia documentada antes de otorgar su aprobación. 

    Aunque el proceso de validación puede ser intensivo, una vez validados, los modelos de orden reducido permiten miles de iteraciones rápidas que serían inviables solo con simulaciones tradicionales (modelos de orden completo).

    Brecha de habilidades

    El desarrollo eficaz de modelos de orden reducido requiere experiencia tanto en ingeniería de aprendizaje automático como en física del dominio. Un científico de datos que trabaja solo puede construir modelos matemáticamente elegantes que carecen de interpretabilidad física. Un ingeniero mecánico que trabaje solo puede tener dificultades con la optimización de hiperparámetros (por ejemplo, la selección de arquitectura y el escalado de modelos). Por lo tanto, los pequeños equipos multifuncionales superan consistentemente a los grupos más grandes y aislados. Es importante invertir en programas de formación que enseñen a los ingenieros herramientas modernas de aprendizaje automático.

    Implementación de Edge 

    Los escenarios de control en tiempo real requieren una inferencia determinista (<10 milisegundos de latencia) en el hardware integrado. No todas las arquitecturas de modelo de orden reducido cumplen estos requisitos de latencia y memoria. Las redes neuronales profundas suelen superar los presupuestos de recursos, mientras que los modelos lineales de orden reducido demasiado simplificados sacrifican la precisión. 

    La buena práctica actual es la implementación por fases: 

    1. Empieza con modelos de orden reducido basados en la nube para la visualización de gemelos digitales y el mantenimiento predictivo. 

    2. Luego, despliegue los controladores perimetrales solo después de que las exhaustivas pruebas de hardware en bucle validen el rendimiento en tiempo real.


    Ampliación de modelos de orden reducido: de los scripts ad hoc a las operaciones empresariales de aprendizaje automático (MLOps)

    Aunque la base matemática de los modelos de orden reducido es sólida, el principal obstáculo reside en estandarizar su desarrollo y despliegue en toda una organización. Actualmente, muchos equipos de I&D dependen de una colección descentralizada de scripts Python, sistemas de archivos no gestionados o entornos propietarios de proveedores. Estos enfoques pueden funcionar para proyectos individuales, pero fracasan según las prácticas de gobierno, cumplimiento y comunidad abierta estándar del sector.

    Para lograr escala, el entrenamiento de modelos de orden reducido debe tratar los datos de simulación con los mismos rigurosos principios de gobernanza de datos que son estándar para manejar registros financieros o datos de clientes, por ejemplo. 

    Abordar este cambio implica resolver problemas como:
     

    Requisito de MLOps

    Explicación

    Impacto empresarial

    Gestión de datos a escala

    Las canalizaciones de datos escalables y las herramientas de transformación (como Spark) extraen características clave y estandarizan grandes cantidades de datos de simulación históricos de diferentes solucionadores (como OpenFOAM).

    Garantiza que los datos de simulación complicados estén limpios, gobernados y listos para un entrenamiento fiable de la IA, reduciendo las repeticiones y los riesgos.

    Seguimiento de experimentos en equipo

    Los entornos seguros y compartidos (como los Jupyter Notebooks), equipados con un seguimiento de experimentos de aprendizaje automático más reciente (como MLflow), permiten a los físicos y científicos de datos desarrollar código conjuntamente, probar diferentes modelos de IA y etiquetar de forma coherente las métricas, como los hiperparámetros y la pérdida.

    Garantiza el historial completo y la reproducibilidad. Cuando un modelo de operación reducida se activa, los equipos pueden rastrearlo instantáneamente hasta la versión exacta del modelo, los datos, la configuración, las métricas de evaluación de precisión en el momento de la construcción y la configuración de hiperparámetros utilizada para obtener ese resultado: algo fundamental para las industrias reguladas.


    Para saber más, ¡siga leyendo en la segunda parte!

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.