Introducción a PowerCenter

BI Geek / Business Intelligence  / Introducción a PowerCenter
Power center herramienta de integración de datos

Introducción a PowerCenter

Informatica PowerCenter es la herramienta líder en integración de datos según el Cuadrante Mágico de Gartner. Aparece en la posición más elevada tanto en la “capacidad de ejecución” como en “integridad de visión”.  Esta integración de datos es fundamental para el éxito de cualquier empresa que confíe en los procesos de negocio y en la toma de decisiones basadas en datos.

logo_informatica
En primer lugar vamos a recordar el significado de ETL que ya comentamos en la entrada ¿Qué es una ETL? Como recordaréis consiste en extraer, transformar y cargar los datos con el objetivo de obtener conocimiento.

En esta entrada explicaremos qué es PowerCenter, cuáles son sus componentes y por último hablaremos de algunas transformaciones que la herramienta permite.

 

¿Qué es PowerCenter?

Es una plataforma de integración de datos que convierte los datos sin procesar en información útil para los análisis. Permite escalabilidad para admitir grandes volúmenes de datos con orígenes diferentes, migración de datos y Data Warehousing empresarial. Promueve la automatización, la reutilización y la agilidad.

 

¿Cuáles son las principales características de PowerCenter?

Dentro de las características principales de PowerCenter destacan:

Colaboración entre negocio y TI Se facilita al negocio el autoservicio y se permite distribuir datos oportunos y fiables al negocio
Reutilización, automatización y facilidad de uso Se facilita el uso de transformaciones pre-integradas, libres de código y de manera gráfica
Escalabilidad, rendimiento e inactividad del sistema nula Da soporte para grid computing, procesamiento distribuido, alta disponibilidad, balanceo de carga adaptable, particionado dinámico y optimización pushdown
Supervisión operacional y de gobierno Permite el control de la producción mediante codificación con alertas para evitar un costoso control de daños posterior
Datos en tiempo real para las aplicaciones y el análisis Ofrece datos precisos para conseguir una eficacia operativa, análisis de nueva generación y aplicaciones centradas en el cliente
Creación de prototipos, validación y perfilado rápidos Permite crear prototipos de manera rápida y validar los resultados de manera ágil e iterativa
Conectividad universal Integración de datos desde todo tipo de fuentes origen mediante conectores de alto rendimiento
Pruebas de validación de datos automatizadas Auditoría y validación de datos repetible y automatizada en los entornos de desarrollo, pruebas y producción
Transformación avanzada de datos Permite análisis exhaustivo de datos en formatos XML, JSON, PDF, Microsoft Office y el Internet de las Cosas

 

¿Cuáles son los componentes de PowerCenter?

PowerCenter está compuesta de varios componentes diferenciados en su interfaz gráfica, los cuales se muestran a continuación:

Designer: Aporta herramientas para ayudar a construir mappings y mapplets donde se especifica cómo mover y transformar datos entre sources y targets. Ayuda a crear las definiciones del source, target y transformaciones para construir el mapping. Incluye ventanas para poder ver los diferentes directorios, repositorios y tareas, de manera que permite trabajar en múltiples directorios y repositorios a la vez
Workflow Manager: Workflow Manager es una representación gráfica de un set de eventos, tareas y decisiones que definen el proceso de negocio. Se añaden objetos al workflow y se conectan mediante flujos secuenciales, de manera que se establece un orden de ejecución. De igual manera se pueden establecer condiciones para la ejecución de los objetos añadidos al workflow. El Data Integration Service usa la configuración del workflow para ejecutar los workflows
Workflow Monitor: Es una herramienta que permite comprobar el estado de ejecución del workflow y sus sesiones asociadas al mismo. De esta manera se puede obtener el status de ejecución de los procesos y su histórico pudiendo acceder tanto a los logs de ejecución del workflow como de las sesiones. Por tanto en el momento en el que un proceso falle, se podrá visualizar de manera sencilla y ordenada
Repository Manager: Es una base de datos relacional controlada por el Repository Service. El repositorio consiste en tablas que almacenan la metadata, la cual describe los diferentes tipos de objetos, como mappings y transformaciones, que se pueden crear con las herramientas de PowerCenter como el designer. El Integration Service utiliza los objetos del repositorio para extraer, transformar y cargar los datos. En el repositorio también se almacenan los diferentes permisos de los usuarios

 

Designer

En esta entrada vamos a empezar hablando del componente Designer, explicando brevemente sus componentes principales y características. En posteriores entregas se entrara más en detalle y se completará un ejemplo de creación de mapping.

Dentro del componente Designer tenemos las siguientes herramientas:

Source Analyzer Importa o crea definiciones de fuentes origen para ficheros planos, XML, COBOL, Application y bases de datos relacional
Target Designer Importa o crea definiciones de fuentes destino
Transformation Developer Permite crear transformaciones reutilizables
Mapplet Designer Crea mapplets
Mapping Designer Crea mappings

 

En este componente, el elemento principal es el Mapping Designer, que es la pestaña de la interfaz donde se diseña el proceso y se apoya en las herramientas enumeradas anteriormente, como sources, targets, mapplets y transformaciones.

Entre las aplicaciones más utilizadas del componente Designer destacan:

Validaciones tanto de formato como lógicas o de negocio

Conversión y adaptación de datos

Historificación de procesos

Actualización y mantenimiento de bases de datos

Adaptación de entradas a otra herramienta

Aprovisionamiento del Datawarehouse o DataMart de una empresa

 

Para obtener todas estas funcionalidades, el Designer se apoya en las transformaciones: Una transformación es un objeto que genera, modifica o permite pasar o no registros de datos. Las transformaciones pueden ser activas o pasivas, o bien estar conectadas o no al flujo de datos.

Transformaciones Activas
Una transformación activa cambia el número de filas que pasan por una transformación. También puede cambiar el tipo de fila. No se pueden conectar varias transformaciones activas o una transformación activa y otra pasiva a la misma transformación o grupo de entrada de transformación de nivel inferior porque es posible que el Data Integration Service no pueda concatenar las filas pasadas por las transformaciones activas

 

Transformaciones Pasivas
Una transformación pasiva no cambia el número de filas que pasan por la transformación y mantiene el tipo de fila. Se pueden conectar varias transformaciones a una misma transformación o grupo de entrada de transformación de nivel inferior si todas las ramificaciones en un nivel superior son pasivas. La transformación que origina la ramificación puede ser activa o pasiva

 

Transformaciones no conectadas
Las transformaciones pueden conectarse al flujo de datos o pueden estar desconectadas. Una transformación no conectada no está conectada a otras transformaciones en la asignación. Se llama a una transformación no conectada dentro de otra transformación y devuelve un valor a esa transformación

 

En la siguiente entrega describiremos todas las transformaciones que se permiten utilizar y entraremos más en detalle en lo relacionado con el componente Designer y la realización completa de un ejemplo de mapping.

Cualquier duda o sugerencia será bien recibida en los comentarios.