{"id":6971,"date":"2020-09-01T18:52:50","date_gmt":"2020-09-01T16:52:50","guid":{"rendered":"https:\/\/clouding.io\/blog\/?p=6971"},"modified":"2020-09-01T19:00:25","modified_gmt":"2020-09-01T17:00:25","slug":"incidencia-conectividad-domingo-30-de-agosto-de-2020","status":"publish","type":"post","link":"https:\/\/clouding.io\/blog\/incidencia-conectividad-domingo-30-de-agosto-de-2020\/","title":{"rendered":"Incidencia conectividad Domingo 30 de agosto de 2020"},"content":{"rendered":"\n<p>El domingo 30 de agosto de 2020 uno de los mayores proveedores de conectividad a nivel mundial (CenturyLink\/Level3) experimento una ca\u00edda total de su red de comunicaciones. Est\u00e1 ca\u00edda afecto tanto a clientes de CenturyLink\/Level3 como a otros servicios y proveedores en todo Internet.<\/p>\n\n\n\n<p>Mientras seguimos esperando un informe por parte de CenturyLink\/Level3 especificando el origen de la ca\u00edda, como se actu\u00f3 para remediarla y que medidas se est\u00e1n tomando para evitar que vuelva a producirse una situaci\u00f3n similar, queremos hacerte llegar nuestro sobre informe como se gestion\u00f3 la incidencia desde Clouding.io.<\/p>\n\n\n\n<p><strong>Antecedentes<\/strong><\/p>\n\n\n\n<p>En Clouding.io trabajamos con m\u00faltiples proveedores de conectividad, para asegurar la mayor disponibilidad y velocidad de acceso a los servidores alojados en Clouding.io, desde cualquier punto geogr\u00e1fico.<\/p>\n\n\n\n<p>Agregamos o retiramos puntualmente proveedores de nuestra \u201cpool\u201d de conectividad en funci\u00f3n de su calidad y confiabilidad.<\/p>\n\n\n\n<p>CenturyLink\/Level3 fue agregado hace aproximadamente dos a\u00f1os a nuestra plataforma, ya que entre otras cosas aporta una conectividad excelente hacia todos los clientes de Movistar en Espa\u00f1a.<\/p>\n\n\n\n<p>Durante los \u00faltimos dos a\u00f1os -y hasta esta \u00faltima incidencia- ha sido el mejor proveedor de nuestra \u201cpool\u201d de conectividad y el que en la actualidad transporta m\u00e1s tr\u00e1fico desde y hacia Clouding.io.<\/p>\n\n\n\n<p><strong>Incidencia 30 de agosto de 2020<\/strong><\/p>\n\n\n\n<p>A las 12:18 PM CEST -hora local de Espa\u00f1a- nuestros sistemas de monitorizaci\u00f3n detectaron los primeros problemas de conectividad. Nuestro sistema de monitorizaci\u00f3n funciona tanto desde Clouding.io hacia el exterior -comprobando la conectividad desde nuestra plataforma hacia Internet- como desde el exterior hacia Clouding.io.<\/p>\n\n\n\n<p>La monitorizaci\u00f3n externa de conectividad de la plataforma, se realiza mediante un proveedor de monitorizaci\u00f3n, de forma que se monitoriza la conectividad una vez por segundo desde m\u00faltiples ubicaciones geogr\u00e1ficas.<\/p>\n\n\n\n<p>El sistema de monitorizaci\u00f3n externa empez\u00f3 a reportar de problemas puntuales de conectividad a las 12:18:31 PM CEST los cuales se recuperaban al cabo de 2 o 3 minutos.<\/p>\n\n\n\n<p>Al recibir la primera alerta, uno de nuestros t\u00e9cnicos de guardia reviso el flujo de tr\u00e1fico a los diferentes proveedores, detectando que no se estaba enviando ni recibiendo tr\u00e1fico hac\u00eda CenturyLink\/Level3 pero que la sesi\u00f3n BGP hac\u00eda el mismo segu\u00eda activa.<\/p>\n\n\n\n<p>Este tipo de situaciones no deber\u00edan ocurrir, ya que, en caso de un fallo en un proveedor, el comportamiento esperando es que la sesi\u00f3n BGP se desconecte y el proveedor quede desactivado autom\u00e1ticamente.<\/p>\n\n\n\n<p>La situaci\u00f3n que se produjo fue lo que se suele denominar un \u201cBGP Blackholing\u201d, situaci\u00f3n en la que un proveedor deja de enrutar tr\u00e1fico correctamente sin llegar a desconectar la sesi\u00f3n BGP.<\/p>\n\n\n\n<p>Ante estas situaciones excepcionales, nuestro protocolo de actuaci\u00f3n es muy sencillo: Simplemente desactivamos manualmente la sesi\u00f3n BGP con el proveedor afectado y nos ponemos en contacto con ellos para saber que ha ocurrido. Una vez el proveedor nos indica que la situaci\u00f3n ha sido solventada, se programa una ventana para reactivar la conectividad con el mismo.<\/p>\n\n\n\n<p>Por precauci\u00f3n la conectividad se suele restablecer en horas de baja carga, habitualmente de madrugada, para evitar problemas de conectividad en el caso de que el proveedor no haya solventado la incidencia correctamente.<\/p>\n\n\n\n<p>La \u201cpool\u201d de proveedores de conectividad de Clouding.io esta dimensionada de forma que incluso con un solo proveedor activo, disponemos de ancho de banda m\u00e1s que suficiente para que el rendimiento del servicio no vea afectado en lo m\u00e1s m\u00ednimo.<\/p>\n\n\n\n<p><strong>\u00bfPor qu\u00e9 nos se solvento la incidencia en este momento?<\/strong><\/p>\n\n\n\n<p>Bien, esto es algo que nos seguimos hasta cierto punto preguntado. Estamos esperando un informe detallado por parte de CenturyLink\/Level3, pero desde el equipo de Clouding.io hemos podido recopilar bastante informaci\u00f3n.<\/p>\n\n\n\n<p>Seg\u00fan la informaci\u00f3n que hemos podido recabar, CenturyLink\/Level3 sigui\u00f3 anunciando nuestras IPs al resto de Internet, a pesar de que hab\u00edamos cerrado manualmente la sesi\u00f3n BGP con ellos.<\/p>\n\n\n\n<p>Esto es algo que nunca deber\u00eda ocurrir, ya que un proveedor solo deber\u00eda anunciar nuestras direcciones a otros proveedores siempre y cuando nosotros se las estemos anunciando en ese momento.<\/p>\n\n\n\n<p>Al cerrar manualmente la sesi\u00f3n BGP de Clouding.io hacia CenturyLink\/Level3, CenturyLink\/Level3 tendr\u00eda que haber dejado de anunciar las direcciones IP de Clouding.io al resto de Internet, de forma que el tr\u00e1fico pasase a ser redirigido a otros proveedores.<\/p>\n\n\n\n<p>Al ser CenturyLink\/Level3 un proveedor Tier 1 -es decir, unos de los proveedores de conectividad m\u00e1s grandes con amplia presencia a nivel mundial-. Y al seguir anunciando nuestras direcciones IP al resto de Internet, parte del tr\u00e1fico de entrada a Clouding.io no se redirigi\u00f3 normalmente hacia los otros proveedores con los que trabajamos y se sigui\u00f3 intentado enviar por la red de CenturyLink\/Level3 la cual se encontraba inoperativa.<\/p>\n\n\n\n<p><strong>\u00bfQu\u00e9 hicimos desde Clouding.io para solucionar el problema?<\/strong><\/p>\n\n\n\n<p>El primer paso fue identifica el origen del problema, para lo que tuvimos que consultar a otros proveedores para ver que anuncios estaban recibiendo.<\/p>\n\n\n\n<p>Paralelamente abrimos incidencias con todos nuestros otros proveedores, para asegurarnos de que estaban al tanto de la situaci\u00f3n y que ellos tomasen tambi\u00e9n medidas paliativas.<\/p>\n\n\n\n<p>Una vez detectamos que muchos proveedores segu\u00edan recibiendo los anuncios de direcciones de CenturyLink\/Level3 empezamos a realizar cambios en la forma en que anunciamos nuestras direcciones IP al resto de proveedores.<\/p>\n\n\n\n<p>El protocolo BGP suele optar siempre por el anuncio m\u00e1s espec\u00edfico. Es decir, si por ejemplo un anuncio contiene un grupo de 2048 IPs y otro un grupo de 1024 IPs, dar\u00e1 preferencia -excepto en algunos casos en los que el tr\u00e1fico est\u00e9 forzado- al anuncio m\u00e1s espec\u00edfico, es decir el de 1024 IPs.<\/p>\n\n\n\n<p>Por lo tanto, la primera medida paliativa fue cambiar todos nuestros anuncios a anuncios m\u00e1s espec\u00edficos, para suplantar los anuncios que CenturyLink\/Level3 segu\u00eda haciendo. Este procedimiento es algo complejo, ya que implica reconfigurar nuestros Edge Routers y en algunos casos se debe coordinar con los diferentes proveedores, ya que ellos tambi\u00e9n deben realizar cambios en sus filtros de anuncios.<\/p>\n\n\n\n<p>Esta estrategia nos permiti\u00f3 ir recuperando la conectividad hac\u00eda la mayor parte de Internet, si bien no fue una soluci\u00f3n completa, ya que algunos proveedores de conectividad externos a Clouding.io nos segu\u00edan intentando enviar el tr\u00e1fico mediante CenturyLink\/Level3.<\/p>\n\n\n\n<p><strong>\u00bfCu\u00e1l fue la escala de tiempo exacta de la incidencia?<\/strong><\/p>\n\n\n\n<p>Es bastante dif\u00edcil identificar la escala de tiempo exacta, ya que esta incidencia afecto a multitud de proveedores y servicios de Internet. Entre ellos al sistema de monitorizaci\u00f3n externa que utilizamos, pero seg\u00fan la informaci\u00f3n que hemos podido recabar la escala aproximada fue:<\/p>\n\n\n\n<p>12:18 PM CEST \u2013 Se detecta la primera incidencia.<\/p>\n\n\n\n<p>12:21 PM CEST \u2013 Desactivamos la conectividad con CenturyLink\/Level3 manualmente.<\/p>\n\n\n\n<p>12:45 PM CEST Aprox. \u2013 Empezamos a publicar nuevos anuncios BGP recuperando progresivamente mayor conectividad.<\/p>\n\n\n\n<p>Entre 12:30 y 14:30 \u2013 Diversos proveedores mundiales desactivan manualmente sus sesiones BGP con CenturyLink\/Level3 para eliminar los anuncios falsos, proceso que nos ayuda a recuperar todav\u00eda mayor conectividad.<\/p>\n\n\n\n<p>16:00 PM CEST Aprox \u2013 CenturyLink\/Level3 consigue eliminar los anuncios \u201cfalsos\u201d que estaba realizando y se recupera el 100% de conectividad<\/p>\n\n\n\n<p><strong>Conclusi\u00f3n<\/strong><\/p>\n\n\n\n<p>Debido a la naturaleza de Internet -una gran red conformada por otras redes interconectadas- siempre existir\u00e1n factores que escapar\u00e1n a nuestro control. Si bien nuestra filosof\u00eda siempre ha sido -y seguir\u00e1 siendo- trabajar con los mejores proveedores, para minimizar el riesgo de incidencias en el servicio.<\/p>\n\n\n\n<p>Esta ha sido una de las mayores ca\u00eddas de Internet a nivel mundial de los \u00faltimos tiempos y desgraciadamente no existe una forma sencilla de automatizar un sistema capaz de reaccionar a este tipo de situaciones.<\/p>\n\n\n\n<p>En todo caso, consideramos que una incidencia en el servicio siempre debe comportar mejoras, ya sea en nuestros sistemas o en nuestros protocolos de actuaci\u00f3n. Por lo tanto, hemos empezado a trabajar en una forma m\u00e1s r\u00e1pida y sencilla de cambiar los anuncios de rangos IP que realizamos a Internet. De esta forma en el extra\u00f1o caso de que una situaci\u00f3n as\u00ed se vuelva a producir, podremos reaccionar m\u00e1s r\u00e1pido y recuperar el mayor porcentaje del servicio en un menor espacio de tiempo.<\/p>\n\n\n\n<p><strong>Links Noticias Relacionadas<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/blog.cloudflare.com\/analysis-of-todays-centurylink-level-3-outage\/\">https:\/\/blog.cloudflare.com\/analysis-of-todays-centurylink-level-3-outage\/<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/www.forbes.com\/sites\/daveywinder\/2020\/08\/31\/no-a-massive-cyber-attack-didnt-take-down-the-internet-yesterday-heres-what-happened-centurylink-cloudflare\/#589623177947\">https:\/\/www.forbes.com\/sites\/daveywinder\/2020\/08\/31\/no-a-massive-cyber-attack-didnt-take-down-the-internet-yesterday-heres-what-happened-centurylink-cloudflare\/#589623177947<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/edition.cnn.com\/2020\/08\/30\/tech\/internet-outage-cloudflare\/index.html\">https:\/\/edition.cnn.com\/2020\/08\/30\/tech\/internet-outage-cloudflare\/index.html<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>El domingo 30 de agosto de 2020 uno de los mayores proveedores de conectividad a nivel mundial (CenturyLink\/Level3) experimento una ca\u00edda total de su red de comunicaciones. Est\u00e1 ca\u00edda afecto tanto a clientes de CenturyLink\/Level3 como a otros servicios y proveedores en todo Internet. Mientras seguimos esperando un informe por parte de CenturyLink\/Level3 especificando el [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":6973,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[24,3],"tags":[],"yst_prominent_words":[1397,1386,1396,707,1387,1389,1391,1390,1394,1382,1400,1399,1384,1398,1392,1383,1395,1385,1393,1388],"class_list":["post-6971","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-clouding-io","category-uncategorized-ca"],"acf":[],"_links":{"self":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts\/6971","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/comments?post=6971"}],"version-history":[{"count":1,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts\/6971\/revisions"}],"predecessor-version":[{"id":6972,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/posts\/6971\/revisions\/6972"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/media\/6973"}],"wp:attachment":[{"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/media?parent=6971"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/categories?post=6971"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/tags?post=6971"},{"taxonomy":"yst_prominent_words","embeddable":true,"href":"https:\/\/clouding.io\/blog\/wp-json\/wp\/v2\/yst_prominent_words?post=6971"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}