{"id":1858,"date":"2016-06-27T12:57:13","date_gmt":"2016-06-27T10:57:13","guid":{"rendered":"https:\/\/clouding.io\/blog\/?p=1858"},"modified":"2024-03-01T13:40:35","modified_gmt":"2024-03-01T12:40:35","slug":"apache-spark","status":"publish","type":"post","link":"https:\/\/clouding.io\/blog\/apache-spark\/","title":{"rendered":"Apache Spark: el mejor motor para el procesamiento de big data"},"content":{"rendered":"<p><a href=\"http:\/\/spark.apache.org\/\" target=\"_blank\" rel=\"noopener\">Apache Spark<\/a> es un motor r\u00e1pido y gen\u00e9rico de open source que permite el procesamiento de datos de gran escala, esto es, lo que com\u00fanmente se conoce como big data.<\/p>\n<p><strong>Apache Spark<\/strong> puede procesar datos desde una variedad de repositorios, incluyendo el\u00a0<strong>Hadoop Distributed File System (HDFS)<\/strong>, <strong>bases de datos\u00a0NoSQL<\/strong> y almacenamientos de datos relacionados, como el <strong>Apache Hive<\/strong>.<\/p>\n<p>Spark soporta <strong>procesamiento en memoria<\/strong> para impulsar la actuaci\u00f3n de aplicaciones de an\u00e1lisis de big data, pero la verdad es que tambi\u00e9n puede hacer <strong>procesamiento convencional basado en disco<\/strong> cuando los datos recopilados son demasiado grandes para caber en el sistema de memoria disponible.<\/p>\n<p>Spark se convirti\u00f3 en un proyecto de m\u00e1ximo nivel de la <strong>Fundaci\u00f3n Software Apache<\/strong> en Febrero de 2014, y la versi\u00f3n 1.0 de Apache Spark fue lanzada en Mayo de 2014. La tecnolog\u00eda fue inicialmente dise\u00f1ada en 2009 por investigadores de la universidad de California, Berkeley, como una manera de <strong>acelerar el procesamiento de trabajos en sistemas Hadoop.<\/strong> Spark provee a los programadores con una alternativa m\u00e1s r\u00e1pida a MapReduce, el marco de software al que estaban atadas las anteriores versiones de Hadoop. Los desarrolladores de Spark afirman que puede ejecutar tareas 100 veces m\u00e1s r\u00e1pido que MapReduce cuando son procesadas en memoria y 10 veces m\u00e1s r\u00e1pidas cuando son procesadas en disco.<\/p>\n<p>Adem\u00e1s, Spark puede soportar m\u00e1s que el lote de aplicaciones al que <strong>MapReduce<\/strong> se limita. El n\u00facleo del motor de Spark funciona parcialmente como una capa de API (Application Programming Interface, por sus siglas en ingl\u00e9s) y apuntala un set de herramientas relacionadas para el manejo y an\u00e1lisis de datos , incluido un motor de consultas SQL, una biblioteca de algoritmos de aprendizaje autom\u00e1tico, un sistema de procesamiento de gr\u00e1ficos y un software de procesamiento de datos en streaming.<\/p>\n<p>Spark ha sido adoptado por empresas grandes que trabajan con aplicaciones de big data a causa de su velocidad, as\u00ed como su habilidad para conectar muchos tipos de bases de datos y correr diferentes clases de aplicaciones de an\u00e1lisis. Spark es <strong>la comunidad m\u00e1s grande de open source en big data<\/strong>, con unas 1.000 contribuciones de 250 diferentes organizaciones.<\/p>\n<p>El proyecto Apache Spark se encargar\u00e1 del <strong>lanzamiento de Spark 2.0<\/strong> este verano, la segunda versi\u00f3n m\u00e1s grande de la plataforma. El nuevo lanzamiento incluye unos 2.000 parches. En la <strong>cumbre de Spark<\/strong> en San Francisco a principios de este mes, Matei Zaharia, CTO y co-fundador de Databricks, el cual ha desarrollado Sparks, dio un an\u00e1lisis sobre algunas de las tecnolog\u00edas y mejoras de la comunidad para la plataforma Spark. Las <strong>mejoras para Spark 2.0<\/strong> incluyen mejoras de API estructuradas, exportaci\u00f3n del modelo de aprendizaje autom\u00e1tico, soporte SQL 2003, y soporte Scala 2.12. Tambi\u00e9n hay nuevas normas de lenguaje obligatorias para C# y Javascript.<\/p>\n<p>Con <a href=\"https:\/\/clouding.io\">Clouding.io<\/a> puedes crear tu servidor VPS e instalar Apache en 30 segundos y ver lo r\u00e1pido y bien que corre, \u00bfte animas? \ud83d\ude42<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Apache Spark\u00a0es un motor r\u00e1pido y gen\u00e9rico de open source que permite el procesamiento de datos de gran escala, esto es, big data.\u00a0<\/p>\n","protected":false},"author":2,"featured_media":10033,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[88,24],"tags":[215,214,76],"yst_prominent_words":[2831,2499,2825,710,2827,2828,634,2760,2756,2687,904,2833,2835,2834,2832,2306,2830,2826,818,2829],"class_list":["post-1858","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualidad","category-clouding-io","tag-analisis-de-datos","tag-big-data","tag-open-source"],"acf":[],"_links":{"self":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts\/1858","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/comments?post=1858"}],"version-history":[{"count":5,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts\/1858\/revisions"}],"predecessor-version":[{"id":10036,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts\/1858\/revisions\/10036"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/media\/10033"}],"wp:attachment":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/media?parent=1858"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/categories?post=1858"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/tags?post=1858"},{"taxonomy":"yst_prominent_words","embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/yst_prominent_words?post=1858"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}