mongoDB
Ver Publicación

MongoDB – Querying II

En entradas anteriores se presentó las carácterísticas generales de MongoDB y una introducción a la realización de consultas, donde se pudo ver la insercción, eliminación de documentos y consultas sobre los mismos. En esta entrada se analizarán consultas más avanzadas sobre tipos complejos de datos mediante el uso de código JavaScript. Además se expondrá el uso de índices para mejorar la eficiencia en las consultas.
Ver Publicación
Compartir
Spark
Ver Publicación

Apache Spark: RDD Performance II

Anteriormente iniciamos una serie de entradas relacionadas con las consideraciones generales a tener en cuenta a la hora de programar en Apache Spark. En esta entrada vamos a centrarnos, por un lado, en comentar los errores más comunes que ocurren cuando ejecutamos algún programa en Apache Spark, y por otro vamos a comentar la necesidad de elegir el número de particiones que debe tener un RDD.
Ver Publicación
Compartir
Apache Cassandra base de datos ditribuida
Ver Publicación

Cassandra: Introducción

En esta entrada haremos una introducción a una de las principales Bases de Datos NOSQL (Not Only SQL) que existen hoy en día en el mercado, Cassandra. Se considera una de las bases de datos distribuidas con mayor auge en los últimos años en el paradigma Big Data. Antes de introducirnos a sus principales características, conozcamos un poco de su historia.
Ver Publicación
Compartir
Ver Publicación

Principales categorías de herramientas ETL – Parte II

En la anterior entrada del blog, Principales categorías de herramientas ETL, se introdujeron dos tipos de herramientas de ETL, las Enterprise Software y las Open Source. En esta entrada se presentarán los otros dos tipos de herramientas ETL: los personalizadas y los servicios en la nube.
Ver Publicación
Compartir
Ver Publicación

Introducción a Bases de Datos Distribuidas

En los últimos años, muchas empresas se han centrado en el almacenamiento y análisis de grandes cantidades de información siendo esto imposible con sistemas de almacenamiento tradicionales. Las bases de datos distribuidas surgieron con el objetivo de solventar esta problemática y poder almacenar mayor cantidad sin poner en riesgo la eficiencia del sistema.
Ver Publicación
Compartir