Een aanpassing in de netwerkconfiguratie was verantwoordelijk voor de omvangrijke storing bij Cloudflare vandaag waardoor allerlei populaire websites en diensten meer dan een uur offline waren, zo laat het internetbedrijf zelf weten. De aanpassing was onderdeel van een project om de drukste locaties van het bedrijf, dat ddos-bescherming biedt en als content delivery network fungeert, veerkrachtiger te maken. Het ging in totaal om datacenters in negentien locaties die door de storing werden getroffen. In totaal duurde de storing ruim een uur.
Om toegankelijk op internet te zijn maken netwerken zoals Cloudflare gebruik van het BGP-protocol. Het border gateway protocol (BGP) wordt gebruikt om verkeer tussen autonomous systems (AS) te routeren en essentieel is voor de werking van het internet. Als onderdeel van dit protocol stellen operators policies op die bepalen welke prefixes, een verzameling aangrenzende ip-adressen, aan andere operators worden aangekondigd of van hen worden geaccepteerd.
Deze policies zorgen ervoor dat een prefix wordt geadverteerd aan andere operators of dat dit niet het geval is. Een aanpassing in een policy kan ervoor zorgen dat een eerder geadverteerde prefix wordt ingetrokken, waardoor die ip-adressen niet langer meer bereikbaar zijn vanaf het internet. Vandaag voerde Cloudflare een aanpassing aan verschillende policies door, waardoor een verzameling van belangrijke prefixes werd ingetrokken.
Het intrekken zorgde ervoor dat de negentien datacenters offline gingen. Doordat de prefixes werden ingetrokken was het lastig voor Cloudflare-engineers om de betreffende locaties te bereiken en de aanpassing ongedaan te maken. Daarbij werden alleen de datacenters geraakt waar Cloudflare aan een" veerkrachtigere en flexibelere architectuur" werkt. Dit zijn echter ook de datacenters die het grootste deel van het Cloudflare-verkeer verwerken.
Het internetbedrijf zegt voor deze gevallen over back-upprocedures te beschikken en kon zo alsnog de betreffende locaties benaderen. Tijdens de hersteloperatie bleek dat verschillende netwerk-engineers elkaars aanpassingen ongedaan maakten, waardoor het probleem zich weer sporadisch voordeed. Na een uur en een kwartier waren alle datacenters weer online. Verder maakt Cloudflare excuses en stelt dat de storing grote gevolgen had en er op verschillende vlakken verbeteringen mogelijk zijn om herhaling te voorkomen.
Deze posting is gelocked. Reageren is niet meer mogelijk.