Cómo migrar un DWH a un Data Lake sin morir en el intento: Parte 1 – planteamiento de cambio

El mundo del dato está viviendo su época de esplendor. Cada vez son más las compañías que hacen un uso exhaustivo de los datos. Estos usos van desde mejorar la gestión interna de las compañías y basar las estrategias de negocio en los datos, hasta ofrecer productos y servicios más personalizados a sus clientes o ir más allá desarrollando nuevas funcionalidades que antes eran inimaginables con tecnologías tradicionales. Pero, ¿necesito migrar mi DWH a un Data Lake o Data hub para ello? Vayamos por pasos…

Esta innovación, que se ve potenciada por la penetración de la inteligencia artificial, debe gran parte de su valor a la aparición de nuevas tecnologías, arquitecturas y planteamientos en torno a los sistemas informacionales, que se encargan de almacenar y hacer accesible la información. Big Data, Data Lake y Cloud tienen parte de la culpa de esta revolución. Si bien cada vez está más extendido su uso en algunos sectores, todavía queda mucho camino por recorrer.

Si tu empresa se encuentra en el grupo de las que todavía no ha dado el paso de incorporar estas tecnologías, este post te va a resultar útil. Si ya estás trabajando en ello, seguro que te ves identificado en muchos de los aspectos que se comentan.

Contexto del DWH en la gestión de los datos

Tradicionalmente el Data Warehouse ha sido el modelo elegido como pilar de los sistemas informacionales de las empresas, diseñado a través de bases de datos relacionales que, en aquel momento, eran las que predominaban en el ecosistema. Eran tiempos en los que la prioridad pasaba por optimizar el almacenamiento de la información si no se quería incurrir en un excesivo coste. Es por ello que los DWH normalmente estaban modelados en 3FN (3ª Forma Normal), para eliminar redundancias y reducir el espacio de almacenamiento y, consecuentemente, el coste de la infraestructura.

La evolución de la tecnología nos ha llevado a la era del Big Data, en la que, entre otras cosas, las BBDD y sistemas de almacenamiento han sufrido un cambio radical. Estos nuevos sistemas, a través de formatos de ficheros como Parquet, Avro, etc. son capaces de comprimir la información con tasas en torno al 90%, lo que supone un cambio de paradigma: ya no es necesario preocuparse tanto en reducir el almacenamiento mediante la normalización de la información.

De la mano de la evolución de los sistemas de almacenamiento llegan nuevos planteamientos como el Data Lake, que simplificándolo mucho no dejar de ser un repositorio central en el que se almacena toda la información de la organización sin importar su formato u origen. Su infraestructura normalmente se apoya en un sistema de ficheros basado en hdfs y dispone de varias capas lógicas de información en función del tratamiento de los datos y su grado de madurez. Algunas de las más habituales suelen ser raw, trusted y exploitation.

El objetivo de este artículo es dar una visión realista, basada en nuestra experiencia abordando este tipo de proyectos en clientes de todo el mundo, sobre cómo afrontar la aventura de migrar un DWH a un Data Lake, evitando los errores comunes e invitando a reflexionar profundamente sobre las implicaciones del cambio.

Del DWH al Data Lake: reflexión previa

Seguramente hayas oído a algún experto de datos decir que hay que enterrar el DWH y poner un Data Lake, o que debes meter Big Data en tu organización y migrar tu infraestructura a Cloud. Sin embargo, antes de tomar una decisión y ponernos a migrar un DWH a un Data Lake, se debe hacer una reflexión profunda sobre las necesidades actuales de tu negocio y la previsión a medio-largo plazo de las mismas. Resulta imprescindible que exista una visión alineada entre negocio y tecnología, de lo contrario se estarán realizando esfuerzos que, por un lado o por otro, van a caer en saco roto. No existen estrategias de dato si no están respaldadas por necesidades de negocio.

"No existen estrategias de dato 
sin necesidades de negocio"

En el ámbito del Business Intelligence, el término “Data Lake” probablemente sea el que más estaba extendido hasta la llegada del “Data Virtualization”, que siendo un concepto diferente, últimamente está en boca de todos, del que ya hablaremos en otro artículo. Sin embargo, se promueve su implantación a menudo sin conocer las características e implicaciones que tienen este tipo de soluciones. 

migrar un dwh a un data lake

Normalmente los Data Lakes sustituyen a los tradicionales DWH (o a paquetes completos de Staging, DWH y Data Marts). La promesa es un cambio radical respecto al approach tradicional: se aboga por el schema on-read vs el schema on-write, cuya máxima premisa es ingestar todo en el Data Lake (incluso fuentes de datos que no se necesitan consumir ahora mismo) para que estén accesibles para todo el mundo, y que el esquema sea asignado en el momento de lectura y no cuando se ingestan. Sin embargo, este tipo de prácticas puede llevar a tener “basura” en el Data Lake y que éste, lamentablemente, termine convirtiéndose en un Data Swamp inservible e ingestionable.

Actualmente, el tren de la tecnología pasa muy rápido y lo que era la solución estrella el año pasado queda completamente obsoleto el siguiente. Vemos “nacer” y “morir” tecnologías o soluciones con una frecuencia muy elevada por lo que se debe ser extremadamente analítico para incorporar nuevos elementos a nuestro stack tecnológico. 

Son evidentes las ventajas de las tecnologías Big Data sobre las tradicionales, del Data Lake sobre el DWH o de la infraestructura Cloud respecto a soluciones On Premise, pero no debemos caer en la tentación de incorporarlas por el hecho de que estén de moda o por presiones externas, debemos ser reflexivos y analizar su impacto. Si finalmente se decide ir hacia adelante porque claramente el negocio lo necesita, habrá que definir una estrategia de implantación adecuada a la envergadura del proyecto.

"...pero, ¿tengo que cambiar sí o sí?"

Ésta es una de las primeras preguntas que uno se plantea cuando empieza a abordar la posibilidad de migrar un DWH a un Data Lake, a menudo derivada de la presión del mercado de abogar por este tipo de soluciones.

La respuesta es un NO rotundo. De ninguna manera es necesario abordar “porque sí” una migración de este calibre, tiene que venir supeditado directamente de las necesidades actuales y futuras de negocio y del grado de madurez del departamento de analítica y de IT.

A largo plazo estas soluciones presentan una serie de beneficios muy claros, como son la flexibilidad ante cambios, variedad de tipologías de datos, escalado horizontal, etc. Sin embargo, para decantar la balanza es necesario hacer una reflexión interna: ¿actualmente el equipo de datos es capaz de responder a las necesidades de negocio en un tiempo razonable? ¿se está sacando el máximo provecho a los datos? ¿el equipo de analítica está satisfecho con los procedimientos actuales? Si la mayoría de las preguntas lleva un “No” como respuesta, debes plantearte abordar la migración. 

Para obtener garantías en el proceso de transformación debes asegurarte de tener el equipo de IT adecuado. Para ello, primero es importante elegir a un líder del proyecto con la capacidad de tomar las decisiones estratégicas necesarias para evitar que el proyecto se extienda en el tiempo por trámites burocráticos. Posteriormente, debes formar el equipo que llevará a cabo la migración (desde la definición hasta su desarrollo): data architects, data ops, data engineers, etc..

Esta entrada es el inicio de una serie que va a tratar de arrojar una visión global a las empresas para facilitar el proceso de migrar un DWH a un Data Lake. En ésta hemos repasado el contexto tecnológico en el que se encuentran las empresas que se plantean un cambio de sistema informacional. Posteriormente veremos cuál es la estrategia a seguir y los factores claves a tener en cuenta.

Esperamos que este artículo te haya resultado útil para entender mejor el contexto inicial antes de migrar un DWH a un Data Lake. Ante cualquier duda o sugerencia no dudéis en poneros en contacto con nosotros, estaremos encantados de responderlas.

En BI Geek, consultora de Analítica Avanzada y Big Data, apostamos por un modelo de consultoría orientado a hacer accesibles este tipo de soluciones para cualquier tipo de empresa.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*
*

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.