¿Qué pueden aprender las empresas de los pioneros del almacenamiento de objetos?

Trata sobre: almacenamiento Azure Blob Storage data storage IHS Markit Moneysupermarket object storage objetos

Object storage, o almacenamiento de objetos es una forma cada vez más popular de almacenar datos, pero hay que tener en cuenta una serie de cosas.

El cambio hacia la nube está alentando a las empresas a repensar sus opciones de almacenamiento. Según un estudio de junio del año pasado de IHS Markit, el 56% de las empresas dijeron que planeaban aumentar la inversión en almacenamiento de objetos, poniéndose por delante del almacenamiento (al 51%), redes de área de almacenamiento (48%) y de almacenamiento conectado a la red (36%). La mayoría del almacenamiento de objetos está en la nube, con algunos ejemplos conocidos como por ejemplo Azure Blob Storage.

A principios de la década, Moneysupermarket.com, el sitio de información y comparación en línea para consumidores de servicios financieros, estaba utilizando una combinación de bases de datos SQL y un entorno de análisis SAS. Para 2014, se había trasladado a AWS para el alojamiento de sitios web y el análisis de datos, incluido el uso del almacenamiento de objetos S3 y el depósito de datos Vertica.

En mayo de 2019, trasladó sus datos y análisis a GCP utilizando el almacén de datos BigQuery y el almacenamiento de objetos de Cloud Storage. El sitio web en sí permanecía en AWS. Harvinder Atwal, directos de datos del sitio web, dijo que «Una de las cosas buenas de la nube es que la curva de aprendizaje inicial es muy superficial: es fácil comenzar. Pero luego llegas al punto donde es mucho más difícil y necesitas entender algunas de las complejidades involucradas».

Un ejemplo de estas complejidades es la introducción de políticas de ciclo de vida de objetos. La idea es definir políticas para administrar objetos a lo largo del tiempo cuando la empresa lo necesita. Eso podría ser, por ejemplo, moverlos a un almacenamiento barato a largo plazo o hacer que expiren todos juntos. Obtener estas reglas correctamente desde un principio puede ahorrar muchos costos. «Esa es una de las cosas en las que quizás deberíamos poner un poco más de esfuerzo desde el principio». Otro consejo para aquellos que se mudan al almacenamiento de objetos en la nube incluye evitar morder más de lo que el equipo puede masticar.

Mucha gente cree que el almacenamiento es barato, por lo que construyen sistemas con grandes cantidades de datos y piensan que el impacto en el coste no es tan grande

«No haría la migración de una vez, creo que cuanto más grande sea el proyecto y cuanto más dinero y recursos use, más probabilidades hay de que fracase. Animaría a las personas a pensar en qué uso le van a dar y aplicación y construir un producto viable mínimo en torno a eso.»

Es necesario entonces obtener consejos sobre la transición de terceros independientes, que los proveedores de la plataforma cloud pueden recomendar. Por ejemplo, Moneysupermarket.com utilizó una consultora llamada DataTonic con su transición a GCP. Por último, puede haber un cambio cultural en el departamento de IT. «La función de la IT puede ser muy tradicional en su pensamiento acerca de cómo usar los datos. Piensan que debe limpiarlos, ponerlos en un esquema relacional y sólo entonces los usuarios pueden acceder a ellos. Pero con los datos de hoy, el valor en el análisis proviene realmente de poder usar datos para muchas fuentes y unirlos, y IT tiene que aprender a deshacerse de esta mentalidad antigua».

Para hacernos una idea (otra más), Nasdaq, el mercado de valores de tecnología, comenzó a trabajar con Cloud en 2012. Almacena datos de mercado, comercio y riesgo en la plataforma usando S3 y Glacier. Esto sube los datos a la nube, usando un sistema separado funcionando en la nube, convirtiendo los datos raw en archivos «Parquet» y llevándolos a su destino final. De esta manera, el sistema puede escalar elásticamente para satisfacer las demandas de las fluctuaciones del mercado.

La ventaja de usar S3 era que hacía que la organización se preocupase menos por las interrupciones de máquinas individuales o fallos en el centro de datos. «Si falla uno de los grupos de consulta de Amazon Redshift Spectrum, podemos comenzar otro en su lugar sin perder datos. No tenemos que cambiar el tamaño del clúster y no necesitamos ninguna actividad de CPU en los clústers de consulta para introducir los datos».

Rahul Gupta, experto en transformación de IT en PA Consulting, dice que «aquellos que explotan el almacenamiento de objetos en la nube deben saber que la escalabilidad y la elasticidad aparentes no eliminan la necesidad de realizar algunas tareas básicas de mantenimiento de datos»

«Mucha gente siente que el almacenamiento es barato, por lo que construyen sistemas con grandes cantidades de datos y piensan que el impacto en el coste no es tan grande. Empujan los datos a S3, o un equivalente, y luego, una vez que están allí, sienten que pueden imponer estructura en los datos, lo cual no es correcto.»

Al comprender la estructura de datos por adelantado y crear una gobernanza como el acceso basado en roles, las organizaciones no tendrían que volver a visitar la arquitectura una vez que los datos crezcan.