Introducción a PowerCenter I

BI Geek / Business Intelligence  / Introducción a PowerCenter I
Power center herramienta de integración de datos

Introducción a PowerCenter I

Informatica PowerCenter es la herramienta líder en integración de datos según el Cuadrante Mágico de Gartner. Aparece en la posición más elevada tanto en la “capacidad de ejecución” como en “integridad de visión”.  Esta integración de datos es fundamental para el éxito de cualquier empresa que confíe en los procesos de negocio y en la toma de decisiones basadas en datos.

logo_informatica

Informatica PowerCenter es la herramienta líder en integración de datos según el Cuadrante Mágico de Gartner. Aparece en la posición más elevada tanto en la “capacidad de ejecución” como en “integridad de visión”.  Esta integración de datos es fundamental para el éxito de cualquier empresa que confíe en los procesos de negocio y en la toma de decisiones basadas en datos.

En primer lugar vamos a recordar el significado de ETL que ya comentamos en el blog ¿Qué es una ETL?

Como recordaréis consiste en Extraer, transformar y cargar los datos con el objetivo de obtener conocimiento.

En esta entrada hablaremos de qué es la herramienta, componentes y por último hablaremos de algunas transformaciones que permite.

 

¿Qué es PowerCenter?

Es una plataforma de integración de datos que convierte los datos sin procesar en información útil para los análisis. Permite escalabilidad para admitir grandes volúmenes de datos con orígenes diferentes, migración de datos y Data Warehousing empresarial. Promueve la automatización, la reutilización y la agilidad.

Dentro de las características principales destacan:

  • Colaboración entre negocio y TI

Se facilita al negocio el autoservicio y se permite distribuir datos oportunos y fiables al negocio.

  • Reutilización, automatización y facilidad de uso

Se facilita el uso de transformaciones pre-integradas, libres de código y de manera gráfica.

  • Escalabilidad, rendimiento e inactividad del sistema nula

Da soporte para grid computing, procesamiento distribuido, alta disponibilidad, balanceo de carga adaptable, particionado dinámico y optimización pushdown.

  • Supervisión operacional y de gobierno

Permite el control de la producción mediante codificación con alertas para evitar un costoso control de daños posterior.

  • Datos en tiempo real para las aplicaciones y el análisis

Ofrece datos precisos para conseguir una eficacia operativa, análisis de nueva generación y aplicaciones centradas en el cliente.

  • Creación de prototipos, validación y perfilado rápidos

Permite crear prototipos de manera rápida y validar los resultados de manera ágil e iterativa.

  • Conectividad universal

Integración de datos desde todo tipo de fuentes origen mediante conectores de alto rendimiento.

  • Pruebas de validación de datos automatizadas

Auditoría y validación de datos repetible y automatizada en los entornos de desarrollo, pruebas y producción.

  • Transformación avanzada de datos

Permite análisis exhaustivo de datos en formatos XML, JSON, PDF, Microsoft Office y el Internet de las cosas

En definitiva se trata de una herramienta muy potente para la realización de procesos ETL.

 

COMPONENTES

PowerCenter está compuesta de varios componentes diferenciados en su interfaz gráfica. Se muestran a continuación:

  • Designer: Aporta herramientas para ayudar a construir mappings y maplets donde se especifica cómo mover y transformar datos entre sources y targets. Ayuda a crear las definiciones del source, target y transformaciones para construir el mapping. Incluye ventanas para poder ver los diferentes directorios, repositorios y tareas, de manera que permite trabajar en múltiples directorios y repositorios a la vez.
  • Workflow Manager: Es una representación gráfica de un set de eventos, tareas y decisiones que definen el proceso de negocio. Se añaden objetos al workflow y se conectan mediante flujos secuenciales, de manera que se establece un orden de ejecución. De igual manera se pueden establecer condiciones para la ejecución de los objetos añadidos al workflow. El Data Integration Service usa la configuración del workflow para ejecutar los workflows.
  • Workflow Monitor: Es una herramienta que permite comprobar el estado de ejecución del workflow y sus sesiones asociadas al mismo. De esta manera se puede obtener el status de ejecución de los procesos y su histórico pudiendo acceder tanto a los logs de ejecución del workflow como de las sesiones. Por tanto en el momento en el que un proceso falle, se podrá visualizar de manera sencilla y ordenada.
  • Repository Manager: Es una base de datos relacional controlada por el Repository Service. El repositorio consiste en tablas que almacenan la metadata, la cual describe los diferentes tipos de objetos, como mappings y transformaciones, que se pueden crear con las herramientas de PowerCenter como el designer. El integration Service utiliza los objetos del repositorio para extraer, transformar y cargar los datos. En el repositorio también se almacenan los diferentes permisos de los usuarios.

 

En esta entrada vamos a empezar hablando del componente Desginer, explicando brevemente sus componentes principales y características. En posteriores entregas se entrara más en detalle y se completará un ejemplo de creación de mapping.

 

Dentro del componente Designer tenemos las siguientes herramientas:

  • Source Analyzer

Importa o crea definiciones de fuentes origen para ficheros planos, XML, COBOL, Application y bases de datos relacional.

  • Target Designer

Importa o crea definiciones de fuentes destino.

  • Transformation Developer

Permite crear transformaciones reutilizables.

  • Mapplet Designer

Crea mapplets.

  • Mapping Designer

Crea mappings.

 

En este componente el elemento principal es el Mapping Designer, que  es la pestaña de la interfaz donde se diseña el proceso y se apoya en las herramientas enumeradas anteriormente, como sources, targets, mapplets y transformaciones.

Entre las aplicaciones más utilizadas destacan:

  • Validaciones tanto de formato como lógicas o de negocio,
  • Conversión y adaptación de datos
  • Historificación de procesos
  • Actualización y mantenimiento de bases de datos
  • Adaptación de entradas a otra herramienta
  • Aprovisionamiento del Datawarehouse o DataMart de una empresa

Para obtener todas estas funcionalidades el Designer se apoya en las transformaciones.

Una transformación  es un objeto que genera, modifica o permite pasar o no registros de datos. Las transformaciones pueden ser activas o pasivas, o bien estar conectadas o no al flujo de datos.

  • Transformaciones Activas

Una transformación activa cambia el número de filas que pasan por una transformación. También puede cambiar el tipo de fila. No se pueden conectar varias transformaciones activas o una transformación activa y otra pasiva a la misma transformación o grupo de entrada de transformación de nivel inferior porque es posible que el Data Integration Service no pueda concatenar las filas pasadas por las transformaciones activas.

  • Transformaciones Pasivas

Una transformación pasiva no cambia el número de filas que pasan por la transformación y mantiene el tipo de fila. Se pueden conectar varias transformaciones a una misma transformación o grupo de entrada de transformación de nivel inferior si todas las ramificaciones en un nivel superior son pasivas. La transformación que origina la ramificación puede ser activa o pasiva.

  • Transformaciones no conectadas

Las transformaciones pueden conectarse al flujo de datos o pueden estar desconectadas. Una transformación no conectada no está conectada a otras transformaciones en la asignación. Se llama a una transformación no conectada dentro de otra transformación y devuelve un valor a esa transformación.

En la siguiente entrega describiremos todas las transformaciones que se permiten utilizar y entraremos más en detalle en lo relacionado con el componente Designer y la realización completa de un ejemplo de mapping.

Cualquier duda o sugerencia será bien recibida en los comentarios.

 

 

Share