¿Alguna vez le has prometido la luna a alguien? Si es así, es poco probable que supieras el precio de antemano.
En cambio, si le prometes a alguien una nube, puedes calcular tus costes con una precisión de milésimas de céntimo.
Amazon, Azure y Google ofrecen calculadoras de costes de almacenamiento de datos en la nube que te dejarán atónito por su especificidad: ¿Cuántos TiB de datos necesitas para lecturas en streaming en Google BigQuery? ¿Quieres instancias ra3.4xlarge o ra3.xlplus en Amazon Redshift? ¿Y cuántos nodos?
Aunque almacenar datos en la nube suele parecer más rentable que usar almacenamiento local, en realidad reducir el coste del almacenamiento de datos en la nube requiere investigación, eliminación y optimización. Vamos paso a paso.
Una de las formas más sencillas de reducir los costes de almacenamiento de datos es almacenar menos datos. Obvio, sí. Fácil, no.
Hay una razón por la que tienes todos esos datos. A veces hay una buena razón (por ejemplo, para procesos operativos, administrativos y comerciales), pero otras veces la razón no es tan buena, como por ejemplo: "aún no nos hemos deshecho de él".
En todos los ecosistemas de datos, hay datos obsoletos, redundantes y de mala calidad que puedes, y debes, eliminar. Pero, ¿cómo lo localizas?
La respuesta es el linaje de datos automatizado: el fiel compañero del administrador de datos.
Imagina que tienes una varita mágica que te ayuda con la limpieza de primavera. Esta varita te dice dónde se compró cada artículo de tu hogar, cuándo se utilizó por última vez, en qué estado se encuentra, si tienes otros artículos que cumplen la misma función, etc.
Esto es lo que el linaje de datos automatizado hace por tu ecosistema de datos. Déjalo actuar y, en cuestión de minutos, obtendrás un mapa completo de tu flujo de datos: qué activos de datos alimentan qué informes y se remontan a qué fuentes. El linaje de datos completo muestra esto tanto a nivel ampliado del sistema de origen como a nivel detallado de columna a columna. Incluso puede introducirse en los procesos ETL y mostrar exactamente qué transformaciones se realizaron en los datos mientras se movían.
Una vez que tengas la imagen completa trazada, puedes pasar a la segunda fase: la eliminación.
Echa un vistazo de cerca a tu linaje de datos y hazte las siguientes preguntas:
Responder “sí” te indicará qué datos pueden descargarse, lo que reducirá directamente los costes de almacenamiento en la nube. ¡Pero descarga con prudencia! Incluso si has identificado dos activos de datos que son efectivamente duplicados, si ambos se utilizan en informes posteriores, no puedes simplemente eliminar uno de ellos antes de tener su sustituto.
El aprovechamiento de tu linaje de datos para el análisis de impacto te permite prever el impacto de la modificación de un proceso empresarial y tomar las medidas anticipadas adecuadas para evitar problemas.
Ahora que has identificado y eliminado datos que no necesitas (obsoletos, redundantes, de mala calidad), es hora de pasar a los datos que sí necesitas conservar, pero que podrías almacenar de forma más eficiente.
Echa otro vistazo a tu mapeo de línea de datos y haz las siguientes preguntas sobre los datos que estás almacenando:
Los proveedores de almacenamiento de datos en la nube suelen ofrecer una gama de niveles de almacenamiento que varían en función de su accesibilidad. Por ejemplo, Amazon S3 ofrece almacenamiento estándar para datos a los que se accede con frecuencia (0,023 $ por GB), almacenamiento estándar de acceso poco frecuente para datos a los que se accede con poca frecuencia, pero que deben recuperarse en milisegundos cuando sea necesario (0,0125 $ por GB), almacenamiento Glacier Flexible Retrieval para datos de archivo y copia de seguridad que deben recuperarse en un plazo de entre un minuto y 12 horas (0,0036 $ por GB), y almacenamiento Glacier Deep Archive para datos de archivo a los que solo se accede una o dos veces al año y cuya recuperación tarda 12 horas (0,00099 $ por GB).
Almacenar 1 TB de datos en el almacenamiento estándar costaría 23 $ al mes. ¡Almacenar el mismo 1 TB de datos en Glacier Deep Archive Storage costaría 0,99 $ al mes! Si tu organización actualmente almacena todos sus datos en almacenamiento estándar en la nube sin diferenciar según las necesidades de acceso, optimizar tu almacenamiento puede reducir significativamente sus costes de almacenamiento.
El linaje de datos puede reducir tus costes de almacenamiento de datos al mostrarte ambas cosas:
¡Pero eso no es todo! Aunque una menor cantidad de datos reduce los costes de almacenamiento en la nube, también puede reducir los costes de computación. Los almacenes de datos basados en la nube, como Snowflake y Amazon Redshift, suelen tener un modelo de pago por uso en cuanto a la computación, cobrando por el tiempo que se tarda en ejecutar consultas en los conjuntos de datos. Cuantos más datos incluyas en tu consulta, más tiempo tardará en ejecutarse y mayor será el coste.
Reducir la cantidad de datos que almacenas (o guardas en almacenamiento estándar) suele significar menos datos incluidos en tus consultas, lo que reduce indirectamente los costes de cómputo. Pero la línea de datos también te ofrece una forma directa de reducir tus costes de cálculo: restringir las consultas de exploración.
Las consultas de exploración suelen consumir mucha potencia de cálculo. Con un mapa de linaje de datos claro, tu equipo de datos puede ver exactamente dónde están los datos pertinentes, lo que les permite realizar consultas mucho más específicas en toda la plataforma y eliminar o reducir la necesidad de consultas de exploración generales.
Si los costes del almacenamiento de datos en la nube te están agobiando, es hora de darle la vuelta a la situación y reducirlos. Solo tienes que sacar la varita mágica del linaje de datos automatizado y seguir estos pasos: ¡Investiga! ¡Elimina! ¡Optimiza!
¿¡Ves cómo se reducen esos costes de almacenamiento de datos!? Vale, puede que lleve un poco más de trabajo que eso. Pero cuando tu empresa reciba la próxima factura, más baja, de su proveedor de servicios de datos en la nube, te seguirá pareciendo mágico.
¿Quieres saber más? Solicita una demostración para empezar con Cloudera Octopai Data Lineage, una solución automatizada de linaje de datos que puede ayudarte a implementar estos pasos y reducir tus costes de almacenamiento en la nube hoy mismo.
This may have been caused by one of the following: