Gentlent erlebte am 9. Januar 2023 einen Ausfall, der durch einen größeren Stromausfall in Seattle, WA, verursacht wurde.
Am 9. Januar 2023 erlebte Gentlent einen Ausfall, der zu Unterbrechungen unserer Dienste führte.
Der Ausfall wurde erstmals um 17:30 Uhr Mitteleuropäischer Zeit (MEZ) entdeckt, als wir Berichte über fehlgeschlagene HTTP-Anfragen sowohl von unserem Team als auch von externen Uptime-Anbietern erhielten. Bei weiteren Untersuchungen stellten wir fest, dass das Problem durch eine Übereinstimmungsabweichung zwischen unseren Kern-Datenbankservern verursacht wurde, was zum Absturz lokaler Instanzen unseres Codebereichs führte.
Um 17:41 Uhr stellten wir fest, dass der Ausfall auf der Ebene des Rechenzentrums auftrat und meldeten einen Notfallvorfall. Unser Team arbeitete an der Wiederherstellung der Dienste, indem es unter anderem die betroffenen Server manuell neu konfigurierte und notwendige Codezeilen neu schrieb.
Um 17:52 Uhr erhielten wir eine Benachrichtigung von unserem Rechenzentrumsanbieter, dass in der Seattle-Region ein großer Stromausfall auftrat. Trotzdem arbeiteten wir weiter an der Wiederherstellung der Dienste.
Um 18:07 Uhr begannen wir mit der Einführung des ersten Fixes, stießen jedoch um 18:16 Uhr auf ein weiteres Problem, das durch den Ausfall verursacht wurde. Kurz darauf wurde ein zweiter Fix bereitgestellt. Um Gentlent schneller wieder online zu bringen, entfernten wir vorübergehend einige nicht kritische Server aus dem Netzwerk.
Gentlent wurde um 18:19 Uhr teilweise wiederhergestellt, aber einige Teile der Infrastruktur fielen in bestimmten Regionen weiterhin aus. Unser Team untersuchte weiterhin die zugrunde liegenden Probleme und arbeitete an Failovers und der Wiederherstellung von Diensten.
Um 18:22 Uhr begannen wir mit der globalen Einführung des zweiten Fixes. Der Fix begann um 18:31 Uhr wirksam zu werden. Bis 18:43 Uhr wurden Dienste auf bestimmte Kernregionen umgeleitet, Fixes bereitgestellt und der Großteil der Infrastruktur war wieder online. Wir arbeiteten auch an einem Vorfallsbericht und langfristigen Lösungen für Failovers.
Schließlich erhielten wir um 19:12 Uhr Berichte, dass die Stromversorgung wiederhergestellt war. Wir begannen, bestimmte Regionen und Dienste wieder zu aktivieren, ohne auf Probleme zu stoßen, und zu diesem Zeitpunkt war die gesamte Infrastruktur wiederhergestellt.
Als Ergebnis dieses Vorfalls werden wir mehrere Maßnahmen ergreifen, um die Verfügbarkeit unserer Dienste in Zukunft zu verbessern. Diese beinhalten die Verlegung unserer Legacy-Statusseiten zu einem Drittanbieter, das Angebot von Notfallbenachrichtigungen an Kunden und die Verbesserung unserer Infrastruktur, um die Verfügbarkeit auch im Falle von Ausfällen wichtiger Komponenten zu gewährleisten. Wir werden auch Tests und Simulationen durchführen, um die kontinuierliche Verfügbarkeit unserer Dienste während Ausfällen sicherzustellen.
Wir entschuldigen uns für die Unannehmlichkeiten, die unseren Kunden während dieses Ausfalls entstanden sind. Wir verstehen, dass Ausfälle frustrierend und störend sein können und sind bestrebt, die Zuverlässigkeit und Verfügbarkeit unserer Dienste zu verbessern. Wir werden die notwendigen Schritte unternehmen, um Ausfälle in der Zukunft zu verhindern und sicherzustellen, dass unsere Systeme sich schnell erholen können, falls ein Vorfall auftritt. Wir schätzen unsere Kunden und danken ihnen für ihre Geduld und ihr Verständnis in dieser Zeit.
Tom Klein
Founder & CEO
Gentlent UG (haftungsbeschränkt)
Gentlent
Kundendienst
support@gentlent.com