image

Menselijke fout veroorzaakte cloudstoring Amazon

vrijdag 3 maart 2017, 10:06 door Redactie, 14 reacties

De omvangrijke storing in één van de clouddiensten van Amazon afgelopen dinsdag werd door een menselijke fout veroorzaakt, zo heeft het bedrijf bekendgemaakt. Tijdens de storing was de Amazon Simple Storage Service (S3) zo'n vier uur lang onbereikbaar.

Deze dienst biedt websites en webdiensten online opslagruimte. In een verklaring stelt Amazon dat een geautoriseerde medewerker wat servers wilde verwijderen voor één van de S3-subsystemen die voor het S3-facturatieproces wordt gebruikt. "Helaas werd één van de waardes van het commando verkeerd ingevoerd en werd een groter aantal servers dan bedoeld verwijderd", aldus de verklaring.

De onbedoeld verwijderde servers werden gebruikt om twee andere S3-subsystemen te ondersteunen. Eén van deze subsystemen, het index-subsysteem, wordt gebruikt voor het beheren van de metadata en locatiegegevens van alle S3-objecten in de betreffende Amerikaanse regio. Het tweede systeem wordt gebruikt voor het toekennen van nieuwe cloudopslag.

De invoerfout zorgde ervoor dat beide subsystemen werden herstart, waardoor S3 geen verdere verzoeken kon verwerken. Dit had weer gevolgen voor andere Amazon-diensten die van S3 afhankelijk zijn. Vanwege het incident gaat Amazon nu verschillende aanpassingen doorvoeren die ervoor moeten zorgen dat S3-subsystemen sneller zijn te herstellen. Daarnaast zal het niet meer mogelijk voor medewekers zijn om in één keer zoveel servers te verwijderen.

Reacties (14)
03-03-2017, 11:43 door karma4
Niet enkel een menselijke fout. Genoemd is dat 2 subsystemen zo kritisch zijn dat alles er vanaf hangt (spof).
Het lijstje iets verkeerd en deze gingen er mee af. Waarom staan die kritische systemen in de lijst van alles?
03-03-2017, 11:47 door Anoniem
Ik werk in de ICT en een van de dingen waar je altijd op moet letten met alles is de 'chain van dependencies' kortom wat hangt van wat af om het te laten werken, als het zo complex wordt dat je het overzich kwijt raakt kan dit helaas gebeuren.
03-03-2017, 12:45 door [Account Verwijderd]
[Verwijderd]
03-03-2017, 13:07 door karma4
Door Poco:
Systemen beginnen dermate complex te worden dat zelfs de minimaal functionele chain van dependencies te complex wordt voor mensen. Tijd voor Artificiële Intelligentie, ter vervanging van de zwakste schakel.
Daarvoor is die zwakste schakel nodig voor een herontwerp wat die zwakste schakel ooit bedacht heeft (architect/engineer)
Dat is wat anders dan de zwakste schakel als knoppendrukker (uitvoerder van een draaiboek).
03-03-2017, 13:37 door [Account Verwijderd]
[Verwijderd]
03-03-2017, 14:44 door karma4
Door Poco: Nee hoor, ook het ontwerpen van netwerktopologieën door mensen is binnenkort achterhaald. Kunstmatige intelligenties zullen dat al snel veel beter gaan doen dan mensen het ooit hebben gekund. Lees bv. eens: http://www.sciencedirect.com/science/article/pii/S0307904X12001904.
prima en wie heeft dat artikel met AI geschreven en bedacht ... een zwakste schakel ... (architect fase)
En wie moet die AI software voor het ontwerpen van bekende netwerktopologien (wat met onbekende?) gaan maken .... een zwakste schakel
En de nieuwe operatorfunctie als ...zwakste schakel is het bedienen van de software waar je eerder een architect en engineer aan zette.

Ja de details veranderen, echter de grote lijn niet.
03-03-2017, 15:40 door [Account Verwijderd] - Bijgewerkt: 03-03-2017, 15:42
[Verwijderd]
03-03-2017, 15:41 door Anoniem
Op fok.nl las ik een procedure die zulke rampen door "dikke vingers" iets minder snel laat optreden.

Een van mijn methoden om dit soort fouten zoveel mogelijk te vermijden is om in productie-omgevingen, of anderszins kritische omgevingen, een bewuste vertraging in te bouwen in mijn acties :
• commando intikken;
• letterlijk vingers van het toetsenbord halen;
• commando bekijken;
• indien tevreden, ENTER.
Dat heeft al een paar rampen voorkomen, maar niet alle ...

Quote info credits gaan naar: MvdJong

Ik wilde bovenstaande tip die ik las, mensen hier niet onthouden.
Met dank voor de reactie aldaar. Hier heeft een ieder iets aan.
03-03-2017, 15:48 door [Account Verwijderd]
[Verwijderd]
03-03-2017, 16:40 door Anoniem
Ja de details veranderen, echter de grote lijn niet.

Nee,
De wereld verandert, jij niet.
De wereld is geen detail, jij wel.
Een perceptiekwestie die de één beschouwt als het eigen gelijk,
en een ander als een aan autisme grenzende tunnelvisie.

Veel gezien in de praktijk van mkb en zzp, de kleine ondernemer die niet met zijn tijd meer mee kan gaan. Wat vrijwel altijd leidt tot veel geuite frustratie naar klanten, de rest van de wereld en uiteindelijk leidt naar een onontkoombaar faillissement.

De buitenwereld ziet dat proces vaak allang voltrekken.
Houdt haar mond uit monde van respect of in de wetenschap dat het allemaal niet meer uitmaakt.
Zij krijgen hoe dan ook gelijk, maar niemand die er iets voor koopt.
03-03-2017, 19:57 door karma4 - Bijgewerkt: 03-03-2017, 20:53
Door Poco:
Door karma4: prima en wie heeft dat artikel met AI geschreven en bedacht ... een zwakste schakel ... (architect fase)

artikel OVER... "architect fase" nee, computerwetenschappers.
En computerwetenschappers is niets menselijk vreemd. Val nog steeds onder de zwakste schakel. Ook hal2000 was iets dat foor mensen was gemaakt.
04-03-2017, 11:06 door Anoniem
Door karma4: Niet enkel een menselijke fout. Genoemd is dat 2 subsystemen zo kritisch zijn dat alles er vanaf hangt (spof).
Het lijstje iets verkeerd en deze gingen er mee af. Waarom staan die kritische systemen in de lijst van alles?

Maakt niet uit wat je bedenkt.... Alles kan omvallen. Er was eigenlijk ook geen SPOF zoals ik het lees. Er waren meerdere systemen die dit allemaal regelde. Als je er echter te veel uitzet onbedoeld, dan kan je daar eigenlijk niets tegen doen.
04-03-2017, 12:18 door Anoniem
Tja dit artikel roept herinneringen bij me op lol. Duizenden wetkplekken down. Heel Nederland down door een ongeautoriseerde wijziging door een systeembeheerder die vond dat het wel even kon lol.

Dat is in mijn 30+ jarige ervaring nog steeds 1 vd grote risicos. Maar ja managers met money driven targets en zelfoverschatting zijn natuur lijk ook niet te onderschatten lol
04-03-2017, 18:11 door Anoniem
Mensen maken fouten, punt. Dat is inherent aan mens zijn. Er zijn geen doden gevallen en iedereen is dit incident over een paar weken vergeten. Shit happens, move on.
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.