image

Proton Mail: softwareaanpassing veroorzaakte urenlange storing

vrijdag 10 januari 2025, 10:41 door Redactie, 3 reacties

Een aanpassing aan de software was verantwoordelijk voor de urenlange storing waarmee Proton Mail gisteren te maken kreeg, zo stelt de mailprovider in een analyse. Gisterenmiddag lieten gebruikers opeens weten dat ze problemen hadden met Proton VPN, Proton Pass, Proton Drive/Docs, Proton Wallet, Proton Mail en Proton Calendar. Volgens Proton kwam dit door een piek aan nieuwe verbindingen naar de databaseservers, waardoor de diensten niet meer voor alle gebruikers bereikbaar waren.

De problemen konden snel worden hersteld, behalve voor Proton Mail en Proton Calendar. Proton stelt dat normaliter over extra capaciteit beschikt om een piek op te vangen. De afgelopen maanden is Proton bezig geweest met het migreren van de gehele infrastructuur naar een nieuwe op Kubernetes-gebaseerde infrastructuur. Het migratieproces is nog niet afgerond en Proton moet hierdoor naar eigen zeggen twee parallelle infrastructuren draaiende houden.

Dit maakte het lastig om de extra belasting te verdelen tussen de twee verschillende infrastructuren voor Proton Mail. "Hoewel de andere diensten naar de nieuwe infrastructuur zijn gemigreerde, bevindt Proton Mail zich nog midden in het migratieproces", aldus een uitleg. Doordat het niet mogelijk bleek om de vereiste extra capaciteit automatisch op te schalen duurde het herstel langer. De problemen begonnen gisterenmiddag rond 16.00 uur en rond 19.30 uur werd gemeld dat de storing was verholpen.

Volgens Proton was een softwareaanpassing verantwoordelijk voor de initiële piek in de belasting. Nadat deze aanpassing was teruggedraaid werd de databasebelasting weer normaal. "In eerste instantie werd niet aan deze aanpassing gedacht, omdat er een lange tijd tussen de aanpassing en het probleem zat, en een initiële analyse van de code suggereerde dat het geen impact zou moeten hebben op het aantal databaseverbindingen", aldus Proton. Het bedrijf zegt dat het nog een diepgaander onderzoek zal doen.

Reacties (3)
10-01-2025, 12:04 door Anoniem
snap dat er fouten kunnen gebeuren en fijn dat proton niet in een doofstomme mode valt of de hond de schuld gaf..
maar toch vraag ik me af in hoeverre je je eigen code snapt als je denkt dat er geen impact zal zijn en de impact blijkt in real life 100 voudig te zijn. en als je je eigen code met een factor 100 niet begrijpt, wat begrijp je dan op andere punten niet? infra, storage, database enz...
10-01-2025, 19:40 door Anoniem
Door Anoniem: snap dat er fouten kunnen gebeuren en fijn dat proton niet in een doofstomme mode valt of de hond de schuld gaf..
maar toch vraag ik me af in hoeverre je je eigen code snapt als je denkt dat er geen impact zal zijn en de impact blijkt in real life 100 voudig te zijn. en als je je eigen code met een factor 100 niet begrijpt, wat begrijp je dan op andere punten niet? infra, storage, database enz...

Die is natuurlijk te makkelijk. Door een tegenvaller kun je bv. vervolgens in timerissues lopen, waardoor connecties wegvallen, die opnieuw gestart moeten worden en ook weer hun consequenties hebben, enz. Een onverwachte domino (soms in combinatie met een beetje pech) kan zomaar een paar uur voor problemen zorgen.

Als dit nu een aantal keren gebeurt wordt uw bijdrage aanzienlijk relevanter.
11-01-2025, 01:01 door Anoniem
Door Anoniem: snap dat er fouten kunnen gebeuren en fijn dat proton niet in een doofstomme mode valt of de hond de schuld gaf..
maar toch vraag ik me af in hoeverre je je eigen code snapt als je denkt dat er geen impact zal zijn en de impact blijkt in real life 100 voudig te zijn. en als je je eigen code met een factor 100 niet begrijpt, wat begrijp je dan op andere punten niet? infra, storage, database enz...

Het is (helaas) een ervarings feit van iedereen die iets "op schaal" doet dat sommig systeem gedrag "onder load" lastig te voorzien is.

Een simpel voorbeeld is het thrashen van een systeem op moment dat de 'working set' groter wordt dan ram (of dan cache) en gaat swappen .
Het fenomeen is bekend , en de situatie herkenbaar .

Voorspellen bij welke input(s) die situatie zich voordoet is heel wat lastiger.
'm forceren kan wel , maar voor een life systeem zo'n grens voorspellen is erg lastig.

Idem voor lock contention, "thundering herd" bij scheduling.

Ook de supertop van developers (linux kernel scheduling, filesystems) ziet wel eens 'performance regressions' bij specifieke loads/gebruikspatronen voor een ontzettend simpele of logisch lijkende verbetering.
Reageren
Ondersteunde bbcodes
Bold: [b]bold text[/b]
Italic: [i]italic text[/i]
Underline: [u]underlined text[/u]
Quote: [quote]quoted text[/quote]
URL: [url]https://www.security.nl[/url]
Config: [config]config text[/config]
Code: [code]code text[/code]

Je bent niet en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.