Principales categorías de herramientas ETL

Las herramientas de ETL han existido durante más de 30 años y a lo largo de este tiempo han ido surgiendo diferentes tipos de herramientas a medida que la tecnología ha ido evolucionando. Estas pueden ser catalogadas en cuatro grandes categorías, abordando en esta entrada dos de ellas, las herramientas ‘Enterprise’ y las ‘Open Source’.

Hay varias compañías de software que se especializan exclusivamente en vender soluciones de ETL, como Informática, IBM, Oracle y Microsoft mientras que, por otro lado, destacan también herramientas ETL de código abierto. A continuación mostramos las principales diferencias entre estas dos categorías.

Enterprise Software ETL

Varias compañías de software venden productos de software comercial. Estos tienden a ser los más maduros en adopción y funcionalidad. Se trata de productos que proporcionan interfaces gráficas para diseñar y ejecutar procesos de ETL, proporcionando conexiones con prácticamente todas las bases de datos relacionales. Algunos de estos productos tienen también soporte para fuentes de datos no relacionales, como JSON y XML.
Este tipo de herramientas de software empresarial generalmente son utilizadas por grandes empresas y, en comparación con otras herramientas, tienden a ser más caras.

Algunos ejemplos de herramientas de ETL de software empresarial son:

Informática PowerCenter Este producto es posiblemente el producto de ETL más maduro del mercado. Es parte de una gran cartera de productos, incluida como plataforma de Informática. Informática es menos maduro que otros productos para fuentes semiestructuradas y no estructuradas
IBM Infosphere DataStage A diferencia de muchas otras herramientas ETL, proporciona capacidades sólidas para trabajar con computadoras mainframe
Oracle Data Integrator Utiliza una arquitectura diferenciada frente a otros productos. En lugar de realizar las transformaciones empleando el motor de la propia herramienta ETL, a través de los recursos de hardware, envía los datos al destino y luego realiza las transformaciones utilizando el motor de la base de datos
Microsoft SQL Server Integration Services
-SSIS-
Tiene un costo menor que otras herramientas ETL empresariales y es bastante intuitiva y fácil de usar. Sin embargo, está limitada a implementaciones bajo el sistema operativo de Windows
SAP Data Services Es una herramienta ETL diseñada principalmente para mover datos entre aplicaciones SAP. No tiene un uso amplio fuera de estos entornos
SAS Data Manager SAS ha desarrollado un producto ETL con fuerte soporte para Hadoop, transmisión de datos y aprendizaje automático

Open Source ETL

Durante la última década, se han creado varios productos de código abierto ETL con la ventaja de ser de uso gratuito para cualquier persona. Su código fuente también está disponible de forma gratuita, permitiendo a cualquier desarrollador ampliar o mejorar sus capacidades.
Estas herramientas varían significativamente en calidad, integraciones, facilidad de uso, adopción y disponibilidad de soporte. Al igual que las herramientas ETL empresariales, muchas de estas proporcionan una interfaz gráfica para diseñar y ejecutar los procesos.

Algunos ejemplos de herramientas ETL de código abierto son:

Talend Open Studio Open Studio emplea código Java para el desarrollo y ejecución de los procesos ETL, enfoque que le da algunas ventajas de rendimiento y cierta libertad de programación para la construcción de los procesos
Pentaho Data Integration -anterior Kettle PDI es una herramienta ETL de código abierto ampliamente conocida por su interfaz gráfica Spoon. PDI exporta los proceos en archivos XML y estos son ejecutados a través de su motor ETL
Hadoop Se trata de una plataforma distribuida empleada para almacenar, manipular y analizar datos de cualquier estructura. Es un ecosistema complejo de proyectos de código abierto que alberga más de 20 tecnologías diferentes. Algunos de estos sub-productos se utilizan para desarrollar tareas de ETL, como Pig, MapReduce y Spark

En la siguiente entrada abordaremos las otras dos grandes categorías de herramienta de ETL: las personalizadas y las Cloud Services.