Sector Público
España
La Agencia Tributaria aprovecha Cloudera para la innovación en datos
La Agencia Tributaria (AEAT) es la entidad pública española que se encarga de la correcta aplicación del sistema tributario del país, desde la gestión y recaudación de los impuestos del Estado, la gestión aduanera, o la persecución del fraude fiscal hasta otras funciones de colaboración en el marco de la Unión Europea y de las regiones que componen España. En su alcance, se ocupan de prestar multitud de servicios a los contribuyentes, desde la prevención del fraude hasta la detección o incluso sanción de los incumplimientos tributarios.
Gestionando el Enorme Crecimiento de Datos y las Necesidades de Analítica Avanzada
Esta entidad pública trabaja con un volumen de datos muy elevado, que crece significativamente año tras año. Teniendo en cuenta que el país ya supera los 48 millones de habitantes, existe una necesidad de que los sistemas de gestión de la información sean capaces de gestionar tales cantidades de datos. La Agencia se encuentra con la necesidad de realizar búsquedas ágiles y desarrollar algoritmos de procesamiento de datos en un entorno que alcanza miles de millones de registros y varios centenares de columnas.
Además, la Agencia Tributaria buscaba un sistema que fuera capaz de integrarse de manera fácil con los ya existentes, que tuviera capacidad de escalabilidad horizontal, alta disponibilidad y que garantizase la seguridad de la información. En definitiva, el control de la actividad tributaria y aduanera requería una plataforma flexible, con estándares integrados entre sí y que facilitara las labores de administración, con el objetivo de optimizar y agilizar el trabajo de la administración pública.
Implementación de Data Lakehouse para Analítica Avanzada y Cumplimiento Normativo
La organización optó por Cloudera como partner para crear su plataforma Big Data, desarrollando una arquitectura moderna de data lakehouse. La Agencia Tributaria fue desplegando los servicios en una infraestructura propia de servidores on premise de alta disponibilidad.
En este entorno, la Agencia trabaja en distintos frentes. En primer lugar, Cloudera les permite crear espacios de datos aislados, controlados y con rendimiento optimizado mediante el uso de particiones y réplica de datos. Además, son capaces de indexar información procedente de millones de documentos a la que antes no podían sacar el máximo partido, ya que ahora pueden realizar búsquedas mediante lenguaje natural.
También se apoyan en Cloudera para ejecutar algoritmos complejos que requieren de las capacidades del procesamiento en sistemas distribuidos. Gracias a las bases de datos Hive e Impala y el procesamiento paralelo con Spark, realizan operaciones sobre tablas de datos con miles de millones de registros, haciendo cruces masivos y complejos, búsquedas de patrones, etc.
Por último, la gobernanza y el cumplimiento normativo, en este caso el Esquema Nacional de Seguridad, es un pilar muy importante para la organización. Con el uso de Cloudera SDX permiten el acceso a los datos sólo a los usuarios correspondientes, facilitando la administración de grupos según las áreas de negocio.
Mejora en la Gestión de Datos y Preparación para el Crecimiento Futuro
A día de hoy, Cloudera está desplegada en cuatro cluster diferentes para satisfacer las necesidades de los diferentes entornos de la organización. En total se encuentran operativos más de cuarenta nodos de procesamiento dedicado y la plataforma alberga varios centenares de terabytes de información. La Agencia Tributaria se ayuda de Cloudera para desarrollar análisis de datos complejos en un entorno que crece constantemente, mejorando así las capacidades analíticas y asegurando el cumplimiento normativo.
La organización ha conseguido indexar información procedente de millones de documentos, ejecutar algoritmos complejos y crear espacios de datos aislados y controlados. En el futuro, la Agencia prevé un aumento de los datos a su disposición. En consecuencia, sus necesidades de procesamiento de datos también crecerán, continuando con el uso de herramientas como las de Cloudera para cumplir las funciones de nivel de Estado que llevan a cabo.
