¿Qué es una ETL?

BI Geek / Business Intelligence  / ¿Qué es una ETL?
ETL: extraer, transformar y cargar

¿Qué es una ETL?

¿QUÉ SIGNIFICA ETL?

Simplemente desglosando el acrónimo ETL podemos intuir su significado: Extract-Transform-Load, que significa Extraer-Transformar-Cargar.  Las siglas ETL componen una parte muy importante en el mundo del Business Intelligence, cómo ya publicamos en la entrada ¿Qué es el Business Intelligence?
¿QUÉ ES?

Mediante la jerarquía del conocimiento se permite relacionar datos con información, conocimiento y sabiduría. En la siguiente figura se representa dicha jerarquía, en la que podemos ver como se relacionan los distintos niveles comentados.

Diagrama sin nombre

Figura 1

Desde el punto de partida, formado por el conjunto de datos iniciales, se desarrollan los procesos ETL que darán valor útil a estos datos, obteniendo información de los mismos. En el siguiente paso, se explotan los datos, previamente cargados en un repositorio diseñado para este fin, mediante las herramientas de reporting, obteniendo conocimiento de ellos. Por último, y no siempre se incluye en la jerarquía del conocimiento, nos encontramos la sabiduría, que consiste en la capacidad de tomar decisiones a través de la interpretación del conocimiento obtenido a través de los informes generados.

Para alcanzar esta información es necesario diseñar correctamente los procesos ETL correspondientes en cada caso. A continuación se detalla brevemente el proceso:

  • Extracción: Esta fase consiste en la obtención de datos de las fuentes de origen. Los datos pueden tener diferentes orígenes, ya sean Bases de Datos Relacionales, Bases de Datos No Relacionales, ficheros, etc.
  • Transformación: Consiste en la realización de los cálculos necesarios. Si por ejemplo tenemos como origen Número de clientes y Número de mujeres, y necesitamos saber el porcentaje de mujeres que son clientes, se necesita un cálculo para obtener la métrica deseada. Si necesitamos adecuar el formato de un campo para su posterior explotación, también se realiza aquí.
  • Carga: En esta parte del proceso se vuelcan los datos procedentes de la fase de transformación al sistema de destino. En este punto se puede hacer un volcado directo, manteniendo un histórico de almacenaje con la fecha de inserción, o se pueden sobrescribir los datos con la nueva información.

 

Para explicar dicho proceso, pongamos un ejemplo:

El banco Norte, que quiere saber el riesgo de impago de sus clientes minoristas en España, tiene la información de éstos tanto en Oracle, CSV y MySQL.  La parte de extracción con herramientas ETL permite trabajar con orígenes de datos distintos, por lo que el problema de extracción de datos por parte de Banco Norte queda cubierto. Posterior a la extracción se necesitan calcular índices, ratios y porcentajes para medir el riesgo que se desea. En esto consiste la transformación de los datos, se les da la forma necesaria para convertirlos en información. Por último realizando una carga de dichos datos a un DataMart se podrán explotar mediante las herramientas de Reporting. La siguiente figura ilustra el ejemplo anterior:

Diagrama

Figura 2

HERRAMIENTAS ETL

Entre las herramientas ETL más utilizadas destacan las siguientes:

PowerCenter- Informatica

ODI (Oracle Data Integrator) – Oracle

SAS Data Integrator – SAS

Datastage – IBM

 

Open Source:

KETL – Kintetic Networks

Clover ETL – Clover ETL

Pentaho´s Data Integration – Pentaho

Talend Open Studio Data Integration – Talend

En entradas posteriores hablaremos más en profundidad de la herramienta de Informatica: PowerCenter.

Share