En los entornos estatales, locales y educativos (SLED) actuales, especialmente en la educación superior, los presupuestos están bajo un escrutinio constante y la demanda de excelencia en los datos es constante. Eso implica hacer más con menos recursos. Un cambio de gran repercusión en tus flujos de trabajo de datos, que puede transformar la calidad de estos y de la inteligencia artificial, al tiempo que reduce los costes, es la automatización y documentación del linaje de los datos.
Las instituciones de educación superior se enfrentan a la complejidad de los datos, ya que los datos críticos se encuentran dispersos en sistemas y entornos que nunca se diseñaron para comunicarse entre sí: bases de datos locales, entornos en la nube y dispositivos periféricos. Gestionar campos como los carnés de estudiantes, los identificadores de subvenciones o el rendimiento de las dotaciones en lo que va del año, entre fuentes y equipos, es necesario pero difícil, manual y propenso a errores.
Sin disponer primero de datos fiables y de alta calidad, los casos de uso de análisis y de inteligencia artificial de gran impacto seguirán siendo una quimera. Sin embargo, si las instituciones de educación superior tienen una visión unificada de la línea de datos entre sistemas, pueden aprovechar con éxito estos datos para obtener conocimientos y acciones impulsadas por IA en el desarrollo curricular, reclutamiento de estudiantes, retención de estudiantes, operaciones eficientes en el campus, migraciones en la nube y mucho más.
Cloudera Data Lineage ofrece una forma automatizada y consistente de mapear el flujo de datos desde su creación (fuente) hasta su consumo final (BI o IA). Recoge e interpreta los metadatos muy rápidamente, ayudando a las organizaciones a construir un gráfico de conocimiento completo que muestre exactamente cómo se crean, transforman y consumen los datos, de forma consistente en todo el mapa sin lagunas.
En nuestro reciente seminario web, Building Trust and Compliance in SLED Organizations, organizado por Cloudera y su socio, Carahsoft, el ponente Art Jordan (director de ventas Go-to-Market de productos de inteligencia de datos para Cloudera Data Lineage) señala que "el linaje de datos es un problema multimillonario". Si depende de procesos manuales y tiene puntos ciegos en el mapeo de datos, las ineficiencias y los retrasos son inevitables, lo que genera desafíos críticos en torno a la IA explicable, la privacidad de la información personal identificable (PII) y el cumplimiento normativo.
Cloudera Data Lineage aborda estos retos ofreciendo vistas detalladas del linaje, con sus dependencias y transformaciones, de forma coherente en todo el mapa:
Linaje entre sistemas: proporciona linaje a nivel de sistema desde el punto de entrada, hasta los informes, el análisis y cualquier consumidor de datos.
Linaje interno del sistema: detalla el linaje a nivel de activo dentro de un proceso, report u objeto de base de datos de extracción, transformación y carga (ETL). Esto incluye ver cómo se deriva o calcula un campo dentro de un pipeline o repositorio.
Linaje de extremo a extremo: linaje de extremo a extremo a nivel de activos entre sistemas. Esto permite gestionar relaciones complejas en las que un campo puede alimentar varios sistemas o proceder de varias fuentes (relaciones uno a muchos y muchos a uno).
El dominio del linaje permite a las instituciones de educación superior realizar rápidamente análisis y mapeos tanto en las fases iniciales como en las finales. Proporciona visibilidad y gobierno de extremo a extremo, permitiendo a las organizaciones entender hacia dónde van sus datos, de dónde provienen y cómo se han obtenido. Esta transparencia y capacidad para garantizar la integridad son fundamentales para asegurar que se disponga de datos fiables y de alta calidad para su uso en modelos de IA, y que dichos datos se faciliten a la alta dirección y a los socios externos.
La Universidad de Arizona (U of A), una importante universidad dedicada a la investigación, ha implementado Cloudera Data Lineage en su departamento de Análisis Universitario e Investigación Institucional. Su entorno incluía la ejecución de 10 000 trabajos de extracción, transformación y carga (ETL) cada noche y el alojamiento de cerca de 40 000 columnas distintas en su data warehouse. La documentación manual de datos fue un desafío debido al gran volumen de información.
La universidad logró importantes mejoras en eficiencia y reducción de costes mediante:
La realización de análisis de impacto ETL: anteriormente, el análisis del impacto de las principales actualizaciones de PeopleSoft (que cambian los tipos y longitudes de datos o eliminan columnas) llevaba al equipo de ingeniería de datos una semana o más. Cloudera Data Lineage redujo este tiempo a unos pocos días.
La consolidación de artefactos: cada trabajo de ETL consume recursos de procesamiento, almacenamiento y registro. Con la vista de metadatos integral de Cloudera, la U of A consolidó los artefactos, lo que redujo los trabajos de ETL de 10 000 a 8000. Esta reducción del 20 % permitió disminuir los costes de infraestructura, simplificar los procesos y reducir los gastos generales de funcionamiento, al tiempo que mejoró la coherencia y la gestión de los datos en todo el entorno.
Aprovechar el descubrimiento rápido: mediante el módulo de descubrimiento de Cloudera Data Lineage, el equipo compiló una lista de todos los trabajos de ETL que contenían SQL específico comentado. Esta tarea, que era necesaria para una actualización importante del sistema, habría requerido bastante tiempo para realizarse manualmente, pero se completó al instante mediante automatización.
Crucialmente, Cloudera Data Lineage fortaleció la preparación para auditorías y la precisión de los datos al proporcionar a las partes interesadas una visibilidad clara de cómo fluyen los datos a través de los pipelines, repositorios y reports de BI. En lugar de depender únicamente del equipo de ingeniería de datos para rastrear manualmente los orígenes y transformaciones de los datos, los equipos de cumplimiento, investigación institucional y finanzas podían verificar de forma independiente de dónde provienen los datos y cómo se calcularon. Esto redujo el riesgo de errores de notificación, aceleró las respuestas a consultas regulatorias y de acreditación, y más, todo ello mientras aliviaba la presión sobre los presupuestos y recursos de TI escasos.
¿Confías en la capacidad de su organización para demostrar el cumplimiento y la precisión de los datos cuando te enfrentas a un escrutinio presupuestario o a un cambio operativo rápido? ¿Cuál es la transformación de pipeline de datos más compleja que le gustaría documentar y mapear automáticamente la próxima semana?
Hablemos de cómo Cloudera Data Lineage puede ayudarte a alcanzar la excelencia en los datos.
This may have been caused by one of the following: