Apache Spark: el mejor motor para el procesamiento de big data

Apache Spark es un motor rápido y genérico de open source que permite el procesamiento de datos de gran escala, esto es, lo que comúnmente se conoce como big data.

Apache Spark puede procesar datos desde una variedad de repositorios, incluyendo el Hadoop Distributed File System (HDFS), bases de datos NoSQL y almacenamientos de datos relacionados, como el Apache Hive.

Spark soporta procesamiento en memoria para impulsar la actuación de aplicaciones de análisis de big data, pero la verdad es que también puede hacer procesamiento convencional basado en disco cuando los datos recopilados son demasiado grandes para caber en el sistema de memoria disponible.

Spark se convirtió en un proyecto de máximo nivel de la Fundación Software Apache en Febrero de 2014, y la versión 1.0 de Apache Spark fue lanzada en Mayo de 2014. La tecnología fue inicialmente diseñada en 2009 por investigadores de la universidad de California, Berkeley, como una manera de acelerar el procesamiento de trabajos en sistemas Hadoop. Spark provee a los programadores con una alternativa más rápida a MapReduce, el marco de software al que estaban atadas las anteriores versiones de Hadoop. Los desarrolladores de Spark afirman que puede ejecutar tareas 100 veces más rápido que MapReduce cuando son procesadas en memoria y 10 veces más rápidas cuando son procesadas en disco.

Además, Spark puede soportar más que el lote de aplicaciones al que MapReduce se limita. El núcleo del motor de Spark funciona parcialmente como una capa de API (Application Programming Interface, por sus siglas en inglés) y apuntala un set de herramientas relacionadas para el manejo y análisis de datos , incluido un motor de consultas SQL, una biblioteca de algoritmos de aprendizaje automático, un sistema de procesamiento de gráficos y un software de procesamiento de datos en streaming.

Spark ha sido adoptado por empresas grandes que trabajan con aplicaciones de big data a causa de su velocidad, así como su habilidad para conectar muchos tipos de bases de datos y correr diferentes clases de aplicaciones de análisis. Spark es la comunidad más grande de open source en big data, con unas 1.000 contribuciones de 250 diferentes organizaciones.

El proyecto Apache Spark se encargará del lanzamiento de Spark 2.0 este verano, la segunda versión más grande de la plataforma. El nuevo lanzamiento incluye unos 2.000 parches. En la cumbre de Spark en San Francisco a principios de este mes, Matei Zaharia, CTO y co-fundador de Databricks, el cual ha desarrollado Sparks, dio un análisis sobre algunas de las tecnologías y mejoras de la comunidad para la plataforma Spark. Las mejoras para Spark 2.0 incluyen mejoras de API estructuradas, exportación del modelo de aprendizaje automático, soporte SQL 2003, y soporte Scala 2.12. También hay nuevas normas de lenguaje obligatorias para C# y Javascript.

Con Clouding.io puedes crear tu servidor VPS e instalar Apache en 30 segundos y ver lo rápido y bien que corre, ¿te animas? 🙂

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

lock icon
mail icon