Microsoft 365: Falsche Konfiguration führte zu Ausfall von Teams und weiteren Diensten

News-Bote

Ich bring die Post
Microsoft 365: Falsche Konfiguration führte zu Ausfall von Teams und weiteren Diensten

Microsoft 365 Ökosystem Titelbild


In der letzten Woche kam es zu einem Ausfall von Microsoft Teams und weiteren Diensten, die zum Microsoft 365 Ökosystem gehörten. Teams war am stärksten betroffen und in manchen Regionen kaum noch nutzbar. Insgesamt fünf Stunden dauerte die Störung, die „hausgemacht“ war, wie Microsoft nun erklärt.

In der hiesigen Region dürfte der Ausfall weniger scherwiegende Folgen gehabt haben, da er am 21. Juli gegen 3 Uhr morgens begann und nach etwa fünf Stunden wieder behoben war. Dementsprechend war der asiatische Raum laut Microsofts Aufarbeitung (via Bleepingcomputer) am stärksten betroffen.

Auslöser war eine Fehlkonfiguration im Enterprise Configuration Service (ECS). Solche Konfigurationsänderungen werden von einem Server zum nächsten über die gesamte Infrastruktur verteilt. Bei Fehlern, die idealerweise nie passieren, sich aber eben dennoch nicht vermeiden lassen, wird man so immerhin aufmerksam, bevor es zu einem generellen Blackout kommt.

In Microsofts Stellungnahme heißt es:

‎Eine Bereitstellung im ECS-Dienst enthielt einen Codefehler, der die Abwärtskompatibilität mit Diensten beeinträchtigte, die ECS nutzen. Das Endergebnis war, dass für Dienste, die ECS verwenden, falsche Konfigurationen an alle seine Partner weitergegeben wurden.‎

‎Dies führte dazu, dass nachgelagerte Dienste eine Statusmeldung „200“ erhielten (was darauf hinweist, dass die Anfrage erfolgreich war), aber tatsächlich ein fehlerhaftes JSON-Objekt enthielt.‎

‎Das Ausmaß der Auswirkungen hing davon ab, wie einzelne Microsoft-Dienste die von ECS bereitgestellte fehlerhafte Konfiguration verwenden. Die Auswirkungen führten zu abstürzenden Diensten wie Teams, während andere Dienste nur begrenzte bis gar keine Auswirkungen hatten.‎


Neben Teams waren auch noch Dienste wie Exchange Online, Windows 365 und Office Online betroffen. Aus seinen Telemetriedaten hat Microsoft herausgelesen, dass etwa 300.000 Teams-Anrufe aufgrund der Störung unterbrochen wurden oder nicht stattfinden konnten.

Es dürfte also „menschliches Versagen“ gewesen sein. Microsoft schreibt zwar, dass man Vorkehrungen treffen werde, um eine Wiederholung zu vermeiden, weil man das nach einer solchen Störung logischerweise sagen muss, aber letztlich lassen sich solche Vorfälle niemals ausschließen. Vielleicht habe ich in diesem Punkt mehr Verständnis als andere, weil ich selbst jahrelang an solchen sensiblen Schaltstellen gearbeitet habe, wo ein kleines Missgeschick fatale Auswirkungen haben kann – und mir ist mehr als eines passiert.

zum Artikel...
 
Es dürfte also „menschliches Versagen“ gewesen sein. Microsoft schreibt zwar, dass man Vorkehrungen treffen werde, um eine Wiederholung zu vermeiden, weil man das nach einer solchen Störung logischerweise sagen muss, aber letztlich lassen sich solche Vorfälle niemals ausschließen. Vielleicht habe ich in diesem Punkt mehr Verständnis als andere, weil ich selbst jahrelang an solchen sensiblen Schaltstellen gearbeitet habe, wo ein kleines Missgeschick fatale Auswirkungen haben kann – und mir ist mehr als eines passiert.

zum Artikel...

Verständnis für denjenigen der es verbockt hat: Ja. Wir alle sind Menschen, kann halt mal passieren.
Verständnis für MS eher nicht:
1)
Personaleinsparungen (fehlendes 4-Augen-Prinzip oder schlecht geschulte Mitarbeiter) oder schlechte Rolloutprozesse führen zu Einbußen bei Kunden.
2)
Gerade im Cloud-Geschäft darf einem Dienstleister so etwas nicht passieren. Das weckt bei den betroffenen Kunden das Gefühl, dass der Anbieter "Alternativlos" ist und man ihm daher hoffnungslos ausgeliefert ist. Das ist ein Gefühl, dass man bei seinen Kunden nicht will.

Das erinnert mich an diverse Updates der Check-In-Systeme bei der Star Alliance (u.a. Lufthansa) - da standen wegen fehlerhafter Updates teils weltweit die Terminals mehrere Stunden lang still. Die Erkenntnis der Kunden: Nach dem 2. Auftreten war klar, dass man als Kunde nicht zählt, denn sonst wären die Prozesse nach dem 1. Auftreten angepasst worden.
 
Oben