Spark
Ver Publicación

Apache Spark: RDD Performance II

Anteriormente iniciamos una serie de entradas relacionadas con las consideraciones generales a tener en cuenta a la hora de programar en Apache Spark. En esta entrada vamos a centrarnos, por un lado, en comentar los errores más comunes que ocurren cuando ejecutamos algún programa en Apache Spark, y por otro vamos a comentar la necesidad de elegir el número de particiones que debe tener un RDD.
Ver Publicación
Compartir
Ver Publicación

Principales categorías de herramientas ETL – Parte II

En la anterior entrada del blog, Principales categorías de herramientas ETL, se introdujeron dos tipos de herramientas de ETL, las Enterprise Software y las Open Source. En esta entrada se presentarán los otros dos tipos de herramientas ETL: los personalizadas y los servicios en la nube.
Ver Publicación
Compartir