{"id":6977,"date":"2020-09-02T18:41:38","date_gmt":"2020-09-02T16:41:38","guid":{"rendered":"https:\/\/clouding.io\/blog\/?p=6977"},"modified":"2020-09-02T18:42:55","modified_gmt":"2020-09-02T16:42:55","slug":"incidencia-connectivitat-diumenge-30-dagost-de-2020","status":"publish","type":"post","link":"https:\/\/clouding.io\/blog\/ca\/incidencia-connectivitat-diumenge-30-dagost-de-2020\/","title":{"rendered":"Incid\u00e8ncia connectivitat diumenge 30 d&#8217;agost de 2020"},"content":{"rendered":"\n<p>El diumenge 30 d&#8217;agost de 2020 un dels majors prove\u00efdors de connectivitat a nivell mundial (CenturyLink\/Level3) va experimentar una caiguda total de la seva xarxa de comunicacions. Aquesta caiguda va afectar tant a clients de CenturyLink\/Level3 com a altres serveis i prove\u00efdors a tot Internet.<\/p>\n\n\n\n<p>Mentre seguim esperant un informe per part de CenturyLink\/Level3 especificant l&#8217;origen de la caiguda, com es va actuar per posar-hi remei i que mesures s&#8217;estan prenent per evitar que torni a produir una situaci\u00f3 similar, volem fer-te arribar el nostre informe sobre com es va gestionar la incid\u00e8ncia des Clouding.io.<\/p>\n\n\n\n<p><strong>Antecedents<\/strong><\/p>\n\n\n\n<p>A Clouding.io treballem amb m\u00faltiples prove\u00efdors de connectivitat, per assegurar la major disponibilitat i velocitat d&#8217;acc\u00e9s als servidors allotjats a Clouding.io, des de qualsevol punt geogr\u00e0fic.<\/p>\n\n\n\n<p>Afegim o retirem puntualment prove\u00efdors de la nostra &#8220;pool&#8221; de connectivitat en funci\u00f3 de la seva qualitat i fiabilitat.<\/p>\n\n\n\n<p>CenturyLink\/Level3 va ser agregat fa aproximadament dos anys a la nostra plataforma, ja que entre altres coses aporta una connectivitat excel\u00b7lent cap a tots els clients de Movistar a Espanya.<\/p>\n\n\n\n<p>Durant els \u00faltims dos anys -i fins aquesta \u00faltima incid\u00e8ncia- ha estat el millor prove\u00efdor de la nostra &#8220;pool&#8221; de connectivitat i el que en l&#8217;actualitat transporta m\u00e9s tr\u00e0nsit des de i cap a Clouding.io.<\/p>\n\n\n\n<p><strong>Incid\u00e8ncia 30 agost 2020<\/strong><\/p>\n\n\n\n<p>A les 12:18 CEST -hora local d&#8217;Espanya- nostres sistemes de monitoritzaci\u00f3 van detectar els primers problemes de connectivitat. El nostre sistema de monitoritzaci\u00f3 funciona tant des Clouding.io cap a l&#8217;exterior -comprovant la connectivitat des de la nostra plataforma cap Internet- com des de l&#8217;exterior cap a Clouding.io.<\/p>\n\n\n\n<p>El monitoratge extern de connectivitat de la plataforma, es realitza mitjan\u00e7ant un prove\u00efdor de monitoritzaci\u00f3, de manera que es monitoritza la connectivitat un cop per segon des de m\u00faltiples ubicacions geogr\u00e0fiques.<\/p>\n\n\n\n<p>El sistema de monitoritzaci\u00f3 externa va comen\u00e7ar a reportar de problemes puntuals de connectivitat a les 00:18:31 PM CEST els quals es recuperaven al cap de 2 o 3 minuts.<\/p>\n\n\n\n<p>Al rebre la primera alerta, un dels nostres t\u00e8cnics de gu\u00e0rdia va revisar el flux de tr\u00e0nsit als diferents prove\u00efdors, detectant que no s&#8217;estava enviant ni rebent tr\u00e0nsit a CenturyLink\/Level3 per\u00f2 que la sessi\u00f3 BGP fins a ell mateix seguia activa.<\/p>\n\n\n\n<p>Aquest tipus de situacions no haurien de passar, ja que, en cas d&#8217;una error en un prove\u00efdor, el comportament esperant \u00e9s que la sessi\u00f3 BGP es desconnecti i el prove\u00efdor quedi desactivat autom\u00e0ticament.<\/p>\n\n\n\n<p>La situaci\u00f3 que es va produir va ser el que se sol anomenar un &#8220;BGP Blackholing&#8221;, situaci\u00f3 en la qual un prove\u00efdor deixa de d&#8217;utilitzar tr\u00e0nsit correctament sense arribar a desconnectar la sessi\u00f3 BGP.<\/p>\n\n\n\n<p>Davant d&#8217;aquestes situacions excepcionals, el nostre protocol d&#8217;actuaci\u00f3 \u00e9s molt senzill: Simplement desactivem manualment la sessi\u00f3 BGP amb el prove\u00efdor afectat i ens posem en contacte amb ells per saber que ha passat. Un cop el prove\u00efdor ens indica que la situaci\u00f3 ha estat solucionada, es programa una finestra per reactivar la connectivitat amb el mateix.<\/p>\n\n\n\n<p>Per precauci\u00f3 la connectivitat se sol restablir en hores de baixa c\u00e0rrega, habitualment de matinada, per evitar problemes de connectivitat en el cas que el prove\u00efdor no hagi solucionat la incid\u00e8ncia correctament.<\/p>\n\n\n\n<p>La &#8220;pool&#8221; de prove\u00efdors de connectivitat de Clouding.io aquesta dimensionada de manera que fins i tot amb un sol prove\u00efdor actiu, disposem d&#8217;ample de banda m\u00e9s que suficient perqu\u00e8 el rendiment del servei no vegi afectat gens ni mica.<\/p>\n\n\n\n<p><strong>Per qu\u00e8 ens es va solucionar la incid\u00e8ncia en aquest moment?<\/strong><\/p>\n\n\n\n<p>B\u00e9, aix\u00f2 \u00e9s una cosa que ens seguim fins a cert punt preguntat. Estem esperant un informe detallat per part de CenturyLink\/Level3 , per\u00f2 des de l&#8217;equip de Clouding.io hem pogut recopilar for\u00e7a informaci\u00f3.<\/p>\n\n\n\n<p>Segons la informaci\u00f3 que hem pogut demanar, CenturyLink\/Level3 va seguir anunciant les nostres IPs a la resta d&#8217;Internet, tot i que hav\u00edem tancat manualment la sessi\u00f3 BGP amb ells.<\/p>\n\n\n\n<p>Aix\u00f2 \u00e9s una cosa que mai hauria de passar, ja que un prove\u00efdor nom\u00e9s hauria d&#8217;anunciar les nostres adreces a altres prove\u00efdors sempre que nosaltres les hi estiguem anunciant en aquest moment.<\/p>\n\n\n\n<p>Al tancar manualment la sessi\u00f3 BGP de Clouding.io cap CenturyLink\/Level3, CenturyLink\/Level3 hauria d&#8217;haver deixat d&#8217;anunciar les adreces IP de Clouding.io a la resta d&#8217;Internet, de manera que el tr\u00e0nsit pass\u00e9s a ser redirigit a altres prove\u00efdors.<\/p>\n\n\n\n<p>A l&#8217;\u00e9sser CenturyLink\/Level3 &nbsp;un prove\u00efdor Tier 1 \u00e9s a dir, uns dels prove\u00efdors de connectivitat m\u00e9s grans amb \u00e0mplia pres\u00e8ncia a nivell mundial-. I al seguir anunciant les nostres adreces IP a la resta d&#8217;Internet, part del tr\u00e0nsit d&#8217;entrada a Clouding.io no es va redirigir normalment cap als altres prove\u00efdors amb els quals treballem i es va seguir intentat enviar per la xarxa de CenturyLink\/Level3 &nbsp;la qual es trobava inoperativa.<\/p>\n\n\n\n<p><strong>Qu\u00e8 vam fer des Clouding.io per solucionar el problema?<\/strong><\/p>\n\n\n\n<p>El primer pas va ser identificar l&#8217;origen de el problema, per al que vam haver de consultar a altres prove\u00efdors per veure que anuncis estaven rebent.<\/p>\n\n\n\n<p>Paral\u00b7lelament vam obrir incid\u00e8ncies amb tots els nostres altres prove\u00efdors, per assegurar-nos que estaven al tant de la situaci\u00f3 i que ells prenguessin tamb\u00e9 mesures pal\u00b7liatives.<\/p>\n\n\n\n<p>Un cop vam detectar que molts prove\u00efdors seguien rebent els anuncis d&#8217;adreces de CenturyLink\/Level3 vam comen\u00e7ar a realitzar canvis en la forma en qu\u00e8 vam anunciar les nostres adreces IP a la resta de prove\u00efdors.<\/p>\n\n\n\n<p>El protocol BGP sol optar sempre per l&#8217;anunci m\u00e9s espec\u00edfic. \u00c9s a dir, si per exemple un anunci cont\u00e9 un grup de 2048 IPs i un altre un grup de 1024 IPs, donar\u00e0 prefer\u00e8ncia -excepte en alguns casos en qu\u00e8 el tr\u00e0nsit estigui for\u00e7at- a l&#8217;anunci m\u00e9s espec\u00edfic, \u00e9s a dir el de 1024 IPs.<\/p>\n\n\n\n<p>Per tant, la primera mesura pal\u00b7liativa va ser canviar tots els nostres anuncis a anuncis m\u00e9s espec\u00edfics, per suplantar els anuncis que CenturyLink\/Level3 seguia fent. Aquest procediment \u00e9s una mica complex, ja que implica reconfigurar els nostres Edge Routers i en alguns casos s&#8217;ha de coordinar amb els diferents prove\u00efdors, ja que ells tamb\u00e9 han de realitzar canvis en els seus filtres d&#8217;anuncis.<\/p>\n\n\n\n<p>Aquesta estrat\u00e8gia ens va permetre anar recuperant la connectivitat de la major part d&#8217;Internet, si b\u00e9 no va ser una soluci\u00f3 completa, ja que alguns prove\u00efdors de connectivitat externs a Clouding.io ens seguien intentant enviar el tr\u00e0nsit mitjan\u00e7ant CenturyLink\/Level3.<\/p>\n\n\n\n<p><strong>Quina va ser l&#8217;escala de temps exacta de la incid\u00e8ncia?<\/strong><\/p>\n\n\n\n<p>\u00c9s bastant dif\u00edcil identificar l&#8217;escala de temps exacta, ja que aquesta incid\u00e8ncia afecte a multitud de prove\u00efdors i serveis d&#8217;Internet. Entre ells a sistema de monitoritzaci\u00f3 externa que fem servir, per\u00f2 segons la informaci\u00f3 que hem pogut recaptar l&#8217;escala aproximada va ser:<\/p>\n\n\n\n<p>12:18 CEST &#8211; Es detecta la primera incid\u00e8ncia.<\/p>\n\n\n\n<p>12:21 CEST &#8211; Desactivem la connectivitat amb CenturyLink\/Level3 manualment.<\/p>\n\n\n\n<p>12:45 CEST Aprox. &#8211; Comencem a publicar nous anuncis BGP recuperant progressivament major connectivitat.<\/p>\n\n\n\n<p>Entre 12:30 i 14:30 &#8211; Diversos prove\u00efdors mundials desactiven manualment les seves sessions BGP amb CenturyLink\/Level3 &nbsp;per eliminar els anuncis falsos, proc\u00e9s que ens ajuda a recuperar encara m\u00e9s gran connectivitat.<\/p>\n\n\n\n<p>16:00 CEST Aprox &#8211; CenturyLink\/Level3 &nbsp;aconsegueix eliminar els anuncis &#8220;falsos&#8221; que estava realitzant i es recupera el 100% de connectivitat.<\/p>\n\n\n\n<p><strong>Conclusi\u00f3<\/strong><\/p>\n\n\n\n<p>A causa de la naturalesa d&#8217;Internet -una gran xarxa conformada per altres xarxes interconectadas- sempre existiran factors que s&#8217;escaparan al nostre control. Si b\u00e9 la nostra filosofia sempre ha estat -i seguir\u00e0 sent- treballar amb els millors prove\u00efdors, per minimitzar el risc d&#8217;incid\u00e8ncies en el servei.<\/p>\n\n\n\n<p>Aquesta ha estat una de les majors caigudes d&#8217;Internet a nivell mundial dels \u00faltims temps i malauradament no hi ha una forma senzilla d&#8217;automatitzar un sistema capa\u00e7 de reaccionar a aquest tipus de situacions.<\/p>\n\n\n\n<p>En tot cas, considerem que una incid\u00e8ncia en el servei sempre ha de comportar millores, ja sigui en els nostres sistemes o en els nostres protocols d&#8217;actuaci\u00f3. Per tant, hem comen\u00e7at a treballar en una forma m\u00e9s r\u00e0pida i senzilla de canviar els anuncis de rangs IP que vam realitzar a Internet. D&#8217;aquesta manera en l&#8217;estrany cas que una situaci\u00f3 aix\u00ed es torni a produir, podrem reaccionar m\u00e9s r\u00e0pid i recuperar el major percentatge de el servei en un menor espai de temps.<\/p>\n\n\n\n<p><strong>Links Noticies relacionades<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/blog.cloudflare.com\/analysis-of-todays-centurylink-level-3-outage\/\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/blog.cloudflare.com\/analysis-of-todays-centurylink-level-3-outage\/<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/www.forbes.com\/sites\/daveywinder\/2020\/08\/31\/no-a-massive-cyber-attack-didnt-take-down-the-internet-yesterday-heres-what-happened-centurylink-cloudflare\/#589623177947\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/www.forbes.com\/sites\/daveywinder\/2020\/08\/31\/no-a-massive-cyber-attack-didnt-take-down-the-internet-yesterday-heres-what-happened-centurylink-cloudflare\/#589623177947<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/edition.cnn.com\/2020\/08\/30\/tech\/internet-outage-cloudflare\/index.html\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/edition.cnn.com\/2020\/08\/30\/tech\/internet-outage-cloudflare\/index.html<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>El diumenge 30 d&#8217;agost de 2020 un dels majors prove\u00efdors de connectivitat a nivell mundial (CenturyLink\/Level3) va experimentar una caiguda total de la seva xarxa de comunicacions. Aquesta caiguda va afectar tant a clients de CenturyLink\/Level3 com a altres serveis i prove\u00efdors a tot Internet. Mentre seguim esperant un informe per part de CenturyLink\/Level3 especificant [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":6975,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[3],"tags":[],"yst_prominent_words":[1447,1445,1396,1407,1425,1456,1455,1452,1443,1441,1440,1413,1448,1403,1435,1404,1406,1428,1442,1427],"class_list":["post-6977","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized-ca"],"acf":[],"_links":{"self":[{"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/posts\/6977","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/comments?post=6977"}],"version-history":[{"count":2,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/posts\/6977\/revisions"}],"predecessor-version":[{"id":6982,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/posts\/6977\/revisions\/6982"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/media\/6975"}],"wp:attachment":[{"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/media?parent=6977"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/categories?post=6977"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/tags?post=6977"},{"taxonomy":"yst_prominent_words","embeddable":true,"href":"https:\/\/clouding.io\/blog\/ca\/wp-json\/wp\/v2\/yst_prominent_words?post=6977"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}