image

Facebook wijt wereldwijde storing aan ingevoerd commando en bug in audittool

woensdag 6 oktober 2021, 09:39 door Redactie, 17 reacties

De wereldwijde storing waardoor Facebook, Instagram en WhatsApp afgelopen dinsdag meer dan zes uur lang onbereikbaar waren werd veroorzaakt door een commando dat tijdens onderhoudswerkzaamheden op een systeem werd ingevoerd en een bug in een audittool, zo stelt Facebook in een verdere analyse van het incident.

Het systeem in kwestie beheert de capaciteit van Facebooks wereldwijde backbonenetwerk. Dit netwerk verbindt alle datacentra van Facebook met elkaar. Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit, waardoor alle datacenters van Facebook werden afgesloten.

Facebook zegt dat er een audittool is die dergelijke commando's controleert, maar door een bug in deze tool werd het commando niet gestopt. Hierdoor werd de verbinding tussen de servers van Facebook en het internet verbroken, wat voor een tweede probleem zorgde. De dns-servers van Facebook maken gebruik van het border gateway protocol (BGP) om hun aanwezigheid aan de rest van het internet aan te kondigen.

Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP. "Het eindresultaat was dat onze dns-servers onbereikbaar werden, ook al waren ze nog steeds operationeel. Dit maakte het onmogelijk voor het internet om onze servers te vinden", zegt Facebooks Santosh Janardhan.

Bij het verhelpen van de problemen liep Facebook tegen twee problemen aan. Het was namelijk niet mogelijk om de datacenters op normale wijze te bereiken, aangezien hun netwerken down waren, en door het verlies van dns waren veel tools die Facebook normaal gebruikt om storingen te onderzoeken en verhelpen niet bruikbaar. Engineers moesten dan ook fysiek naar de datacenters om de systemen weer online te brengen.

Vanwege beveiligingsmaatregelen nam het enige tijd in beslag voordat de engineers toegang hadden en aan de slag konden. "We hebben veel gedaan om ongeautoriseerde toegang tot onze systemen te voorkomen, en het was interessant om te zien hoe deze beveiliging ons tegenhield om een storing te herstellen die niet het gevolg was van malafide activiteit, maar onze eigen fout", merkt Janardhan op. Hij stelt dat Facebook maatregelen neemt om herhaling van een dergelijk incident te voorkomen.

Reacties (17)
06-10-2021, 09:58 door Anoniem
In die inktzwarte nacht mijn eigen facebook uit de onderste la gepakt.
Mooie herinneringen uit vroeger tijd, toen je nog zonder gevolgd te worden kon leven.
O ja, ik heb nog niet eens een login op FB, maar wordt toch gevolgd.
Denk na, dump het.
06-10-2021, 10:02 door Anoniem
Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP. "Het eindresultaat was dat onze dns-servers onbereikbaar werden
Het is op zich een goede strategie om op die manier te routeren, je ziet dat vaak met "anycast", maar het is natuurlijk wel uitermate stupide om het beheer dan via hetzelfde adres te doen.
Ik heb ook wel dit soort constructies maar het gaat dan om een 2e IP wat voor de gebruikers is en er is nog een ander IP voor beheer wat ie wel altijd blijft announcen.
Als je zoveel geld als Facebook hebt zou je dat zelfs via aparte netwerk infra doen. Een 2e netwerk aansluiting, via een andere provider.
06-10-2021, 10:15 door Anoniem
Maar waar wijt het de 7 uur emergency response aan?
06-10-2021, 10:35 door Anoniem
Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit, waardoor alle datacenters van Facebook werden afgesloten.
[...]
Hierdoor werd de verbinding tussen de servers van Facebook en het internet verbroken, wat voor een tweede probleem zorgde. De dns-servers van Facebook maken gebruik van het border gateway protocol (BGP) om hun aanwezigheid aan de rest van het internet aan te kondigen.
Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP.

Dus samen gevat is de backbone van Facebook eigenlijk een single-point-of-failure.
LoL.
06-10-2021, 10:35 door Anoniem
Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit, waardoor alle datacenters van Facebook werden afgesloten.
Klinkt als: Ik deed het licht in de keuken uit en toen sloegen alle stoppen door.

ikke nie snappe,
als er een commando is om iets op te vragen, hoe kan het dan dat het heel iets anders doet/veroorzaakt? (daarmee de vergelijking met het lichtschakelaartje in mijn keuken)
06-10-2021, 10:46 door Anoniem
"Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit.."
Welk commando zou zijn bedoeld?
06-10-2021, 11:40 door Anoniem
Door Anoniem:
Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP. "Het eindresultaat was dat onze dns-servers onbereikbaar werden
Het is op zich een goede strategie om op die manier te routeren, je ziet dat vaak met "anycast", maar het is natuurlijk wel uitermate stupide om het beheer dan via hetzelfde adres te doen.
Ik heb ook wel dit soort constructies maar het gaat dan om een 2e IP wat voor de gebruikers is en er is nog een ander IP voor beheer wat ie wel altijd blijft announcen.
Als je zoveel geld als Facebook hebt zou je dat zelfs via aparte netwerk infra doen. Een 2e netwerk aansluiting, via een andere provider.
Inderdaad uitermate stupide. Ook dat iemand met een salaris van 4k heel facebook kan wegbombarderen.
06-10-2021, 11:42 door Anoniem
Als ik kijk bij Zonemaster voor https://status.fb.com/ dan krijg ik
# Module Level Message
SYSTEM
0 SYSTEM INFO Using version v4.2.3 of the Zonemaster engine.
1 SYSTEM CRITICAL Not enough data about status.fb.com was found to be able to run tests.
BASIC
0 BASIC INFO Parent domain 'fb.com' was found for the tested domain.
1 BASIC CRITICAL No NS records for tested zone from parent. NS tests skipped.

Voor het algemene hoofd-domein, de volgende resultaten:

Test #1441630 - facebook.com
2021-10-06 11:35 GMT+02:00
IPv4 IPv6

All 92
Info 85
Notice 4
Warning 3
Error 0
Critical 0
Filter text
# Module Level Message
SYSTEM
BASIC
ADDRESS
CONNECTIVITY
0 CONNECTIVITY WARNING All authoritative nameservers have the IPv4 addresses in the same AS (32934).
1 CONNECTIVITY WARNING All authoritative nameservers have the IPv6 addresses in the same AS (32934).
CONSISTENCY
0 CONSISTENCY INFO Saw SOA serial number 1633512456 on following nameserver set : a.ns.facebook.com/129.134.30.12; a.ns.facebook.com/2a03:2880:f0fc:c:face:b00c:0:35; b.ns.facebook.com/129.134.31.12; b.ns.facebook.com/2a03:2880:f0fd:c:face:b00c:0:35; c.ns.facebook.com/185.89.218.12; d.ns.facebook.com/185.89.219.12; d.ns.facebook.com/2a03:2880:f1fd:c:face:b00c:0:35.
1 CONSISTENCY INFO Saw SOA serial number 3954289570 on following nameserver set : c.ns.facebook.com/2a03:2880:f1fc:c:face:b00c:0:35.
2 CONSISTENCY WARNING Found 2 SOA serial number(s).
3 CONSISTENCY NOTICE Difference between the smaller serial (1633512456) and the bigger one (3954289570) is greater than the maximum allowed (0).
4 CONSISTENCY INFO A single SOA rname value was found (dns.facebook.com.).
5 CONSISTENCY INFO A single SOA time parameter set was seen (REFRESH=14400, RETRY=1800, EXPIRE=604800, MINIMUM=300).
6 CONSISTENCY INFO A single NS set was found (a.ns.facebook.com.; b.ns.facebook.com.; c.ns.facebook.com.; d.ns.facebook.com.).
7 CONSISTENCY INFO Glue records are consistent between glue and authoritative data.
8 CONSISTENCY INFO A single SOA mname value was seen (a.ns.facebook.com.).
DELEGATION
DNSSEC
0 DNSSEC NOTICE There are neither DS nor DNSKEY records for the zone.
1 DNSSEC NOTICE The zone is not signed with DNSSEC.
NAMESERVER
SYNTAX
ZONE
0 ZONE INFO SOA 'mname' nameserver (a.ns.facebook.com) is authoritative for 'facebook.com' zone.
1 ZONE INFO SOA 'refresh' value (14400) is higher than the minimum recommended value (14400).
2 ZONE INFO SOA 'refresh' value (14400) is higher than the SOA 'retry' value (1800).
3 ZONE NOTICE SOA 'retry' value (1800) is less than the recommended one (3600).
4 ZONE INFO SOA 'expire' value (604800) is higher than the minimum recommended value (604800) and not lower than the 'refresh' value (14400).
5 ZONE INFO SOA 'minimum' value (300) is between the recommended ones (300/86400).
6 ZONE INFO SOA 'mname' value (a.ns.facebook.com) refers to a NS which is not an alias (CNAME).
7 ZONE INFO SOA 'mname' value (a.ns.facebook.com) refers to a NS which is not an alias (CNAME).
8 ZONE INFO Target (MX=smtpin.vvv.facebook.com) found to deliver e-mail for the domain name.
9 ZONE INFO A unique SOA record is returned by all nameservers of the zone.

Iemand met conclusies, hoe ze hun zaakjes op orde hebben? Schijnt alle eieren toch in een- en-hetzelfde mandje?

Verder meen ik dat het nu wachten is op verdere regulatie van deze sector vanuit de States,
buiten de software-matige zogenaamde toevallige storing, was dit ook hetgeen men wenste te ontgaan m.i.

luntrus
06-10-2021, 11:56 door Anoniem
Worden we met z'n allen nou slimmer, of alleen maar meer "Woke"?
Het opleidingssysteem moet nodig eens op de schop, menen sommigen.

Anderen, een kleine minderheid 'beslissers, vinden de algehele verdommelijking" wel gaaf.

Wat zou de repliek van Van Gaal zijn geweest:
"Ben ik nu zo dom, of ...".

multi anoniem
06-10-2021, 12:20 door Anoniem
Door Anoniem:
Iemand met conclusies, hoe ze hun zaakjes op orde hebben? Schijnt alle eieren toch in een- en-hetzelfde mandje?

luntrus

Wat vind je er nou zelf van om dit soort tests te doen met een of ander tooltje wat kennelijk allerlei betweterige grenswaarden heeft en daar dan tegen gaat checken?
Je kunt natuurlijk een DNS van een dienst als facebook niet tegen dezelfde meetlat houden als een DNS voor een website van een hobbyist of klein bedrijfje.

Dat men alles zelf doet is helemaal niet zo raar want een dergelijke dienst heeft geen statische DNS waarin je voor een bepaalde hostnaam altijd en overal hetzelfde IP (of klein lijstje IP's) terug krijgt, maar dit is een in hoge mate dynamisch systeem waar DNS requests resultaten opleveren die wijzen naar servers die voor DIE bezoeker op dat moment optimaal zijn (dichtbij, werkt goed, niet overbelast, etc).
Dat is natuurlijk een stuk lastiger te realiseren als je dat gedeeltelijk ergens anders wilt onderbrengen. Dan zul je op zijn minst realtime allerlei beschikbaarheidsdata naar die externe partij moeten communiceren, en wat gaat er dan gebeuren als die verbinding uitvalt? Bevriest die externe partij dan de status en blijft verder dezelfde adressen retourneren, of loopt die ook leeg?

Ik denk dat het op zich wel een goed idee is om naast een dergelijk dynamisch DNS (en BGP) systeem ook een backup setup the hebben die wel statisch is, en waar handmatig of automatisch op terug geschakeld wordt als er operationele problemen met het dynamische systeem zijn. En dat gaan ze nu vast ook wel maken bij Facebook. En wellicht bij anderen, die dit nieuwsverhaal meelezen.
06-10-2021, 12:49 door Anoniem
Door Anoniem: Worden we met z'n allen nou slimmer, of alleen maar meer "Woke"?
Het opleidingssysteem moet nodig eens op de schop, menen sommigen.

Anderen, een kleine minderheid 'beslissers, vinden de algehele verdommelijking" wel gaaf.

Wat zou de repliek van Van Gaal zijn geweest:
"Ben ik nu zo dom, of ...".

multi anoniem
De gemiddelde mens wordt steeds dommer alleen een klein groepje steeds slimmer.
Neem alleen al het klussen in eigen huis. Bijna niemand kan dat meer en slaat op zijn duim.
06-10-2021, 13:41 door Anoniem
Door Anoniem: Als ik kijk bij Zonemaster voor https://status.fb.com/ dan krijg ik
Voor het algemene hoofd-domein, de volgende resultaten:
Ik snap je opgewondenheid niet, want daarmee heb je nog altijd 0 (zegge: nul) bruikbare antwoorden.
Maar da's je ontgaan, omdat je enkel naar de test-uitslag kijkt, niet naar de representatie van de data, of de werkelijke data op de lijn.
06-10-2021, 14:24 door Anoniem
@ anoniem van 12:20,

Gezien de recente outings bij het Facebook imperium, zou ik hen ook niet die al te hoge technologische kennis toewijzen, zoals jij dat graag wil doen. Ik vind die "overrating" van Big IT, waar jij nog al gevoelig voor lijkt te zijn - en dan ook het smalend commentaar naar een scan met Zonemaster (een belediging voor hun dienst en servide in feite) wel wat aan de denigrerende kant.

Ben je eigenlijk wel in de positie om je zulk een oordeel te kunnen veroorloven of doe je mee met de algemene modus van de gemiddelde IT-er, waarvan de meesten de help-desk-functie niet behalen en zich dus zich noodgedwongen moeten voegen bij een grote schare gamers e.d..

Niet zo snel beginnen met smalend commentaar, lijkt mij een wijs advies. De maatschappij van heden loopt meer dan vol met dat soort mannetjes. Ik heb rondgelopen tussen derde jaars HS-studenten Technische IT (back-end en front-end) en daar nooit dergelijk commentaar ervaren. Ik weet op sommige vlakken van IT (website-security) wel m'n weetje.

luntrus
06-10-2021, 16:50 door Anoniem
Door Anoniem: @ anoniem van 12:20,

Gezien de recente outings bij het Facebook imperium, zou ik hen ook niet die al te hoge technologische kennis toewijzen, zoals jij dat graag wil doen. Ik vind die "overrating" van Big IT, waar jij nog al gevoelig voor lijkt te zijn - en dan ook het smalend commentaar naar een scan met Zonemaster (een belediging voor hun dienst en servide in feite) wel wat aan de denigrerende kant.

Ben je eigenlijk wel in de positie om je zulk een oordeel te kunnen veroorloven of doe je mee met de algemene modus van de gemiddelde IT-er, waarvan de meesten de help-desk-functie niet behalen en zich dus zich noodgedwongen moeten voegen bij een grote schare gamers e.d..

Niet zo snel beginnen met smalend commentaar, lijkt mij een wijs advies. De maatschappij van heden loopt meer dan vol met dat soort mannetjes. Ik heb rondgelopen tussen derde jaars HS-studenten Technische IT (back-end en front-end) en daar nooit dergelijk commentaar ervaren. Ik weet op sommige vlakken van IT (website-security) wel m'n weetje.

luntrus
Je vraag om antwoord op de informatie die je aanlevert en die krijg je vervolgens. Dat het antwoord niet is wat jij wilt tja betere specifieke vragen stellen of wachten op meer antwoorden.

Ik deel zelf de mening van 12:20 dat het volstrekt zinloos is om zonemaster of welk andere visualisatie tool hier voor te gebruiken. Ik snap ook de logica niet waarom je status.facebook uberhaubt mee neemt in je vraagstelling dat heeft niks te maken met de infrastructuur omtrent facebook zelf als we het hebben over een netwerk overzicht. Mischien kun je toelichten waarom je deze specifiek benoemd?

En nee je kunt inderdaad *vaak* de DNS infra van een klein bedrijf niet vergelijken met een opzet als Facebook. Er zit een verschil tussen hoge technologische kennis en hoge complexiteit al is er vaak wel overlap.

Ik weet niet waar je de term Big IT vandaan haalt niemand gebruikt die term niet eens marketing technisch. Facebook wordt wel eens onder de term Big Tech genoemd maar again zegt niks specifieks over technologische kennis wel over invloed in de sector.

En zonemaster is inderdaad niks anders dan een algemeen zone informatie, adviserende tool met waarden voor je DNS records. Dat geven ze ook gewoon zelf toe which is fine de adviezen zijn opzich niet slecht. Maar dat wil niks zeggen over het nut ervan in de praktijk. Microsoft blert ook constant over dat TTL op 3600 moet staan in plaats van bijvoorbeeld 300 maar dat gaat niks veranderen aan de operabiliteit van M365 enkel aan of Microsoft geloofd wordt op hun advies en kan je vertellen ik persoonlijk volg zelden het advies op van enig bedrijf al neem ik het wel altijd in overweging.

Voor sommige zullen de standaard waarde goed zijn de andere geloven in hun eigen opzet en weer andere volgen de adviezen van een dienst als zonemaster. Er is geen standaard als het aankomt op hoe je je DNS zone moet opzetten daarvoor is het helaas veel te complex. Er zijn wel standaardiseringen wat je kan invoeren en als je dat niet doet werkt het vanzelfsprekend niet meer ergo incident bij Facebook

Dan de wedervraag welke zaakjes op orde wil je het specifiek over hebben omtrent Facebook in combinatie met de zone uitdraai?


En de rest van je reactie ga ik mijn eigen advies even opgeven als het aankomt op digitale communicatie.
Beoordeel de kennis die iemand toevoegd niet de persoon die het zegt.
Niemand heeft alle kennis in pacht.
Soms is wijsheid niks zeggen.
06-10-2021, 17:03 door Anoniem
Door Anoniem:
Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit, waardoor alle datacenters van Facebook werden afgesloten.
[...]
Hierdoor werd de verbinding tussen de servers van Facebook en het internet verbroken, wat voor een tweede probleem zorgde. De dns-servers van Facebook maken gebruik van het border gateway protocol (BGP) om hun aanwezigheid aan de rest van het internet aan te kondigen.
Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP.

Dus samen gevat is de backbone van Facebook eigenlijk een single-point-of-failure.
LoL.

Wel als je alles tegelijk uitzet LOL
06-10-2021, 19:30 door Anoniem
Door Anoniem:
Door Anoniem:
Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit, waardoor alle datacenters van Facebook werden afgesloten.
[...]
Hierdoor werd de verbinding tussen de servers van Facebook en het internet verbroken, wat voor een tweede probleem zorgde. De dns-servers van Facebook maken gebruik van het border gateway protocol (BGP) om hun aanwezigheid aan de rest van het internet aan te kondigen.
Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP.

Dus samen gevat is de backbone van Facebook eigenlijk een single-point-of-failure.
LoL.

Wel als je alles tegelijk uitzet LOL

Dat kan bij FB blijkbaar met 1 capaciteits opvraag-commando. (ala een select statement?)
'Nuf said.
10-10-2021, 11:49 door Anoniem
Waar gaat deze discusie over , het was geen probleem het was de oplossing van alle wereldwijde problemen.
Wie mist die haatboek,terorboek ...
Er zijn veel mensen die zich distancieren van problemen maar niet van dit crimineel platform.
Je kan geen kind met het badwater weggooien , hier is zelfs geen kind meer dus afval ook op internet gewoon verwijderen.
Neem uw conclusie en neem afscheid van dergelijke criminelen en meer zeggen hoeft niet.
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.