Повредата, която предизвика прекъсване на услугите на Amazon и засегнала милиони

Павлин Луканов Последна промяна на 29 октомври 2025 в 20:06 34 0

Повредата, която предизвика прекъсване на услугите на Amazon и засегнала милиони

Снимка Amazon

Повредата, която предизвика прекъсване на услугите на Amazon и засегнала милиони

Прекъсването, което засегна Amazon Web Services и прекъсна важни услуги по целия свят, е било резултат от една единствена повреда. Тя се е разпространила от система на система в обширната мрежа на Amazon.

Серията от повреди продължи 15 часа и 32 минути, съобщи Amazon, като по данни на Ookla са засечени над 17 млн. сигнали за прекъснати услуги, предлагани от 3500 организации. Трите най-големи страни, от които са дошли сигналите, са САЩ, Великобритания и Германия. Snapchat, AWS и Roblox са услугите, за които са постъпили най-много сигнали.

Според Amazon основната причина за прекъсването е софтуерен бъг в софтуера, управляващ системата за управление на DNS DynamoDB. Системата следи стабилността на балансиращите натоварването устройства, като, наред с други неща, периодично създава нови DNS конфигурации за крайни точки в мрежата на AWS. Състоянието на състезание (race condition) е грешка, която прави даден процес зависим от времето или последователността на събития, които са променливи и извън контрола на разработчиците. Резултатът може да бъде неочаквано поведение и потенциално опасни сривове.

В този случай проблемът е в DNS Enactor, компонент на DynamoDB, който постоянно актуализира таблиците за търсене на домейни в отделните крайни точки на AWS, за да оптимизира балансирането на натоварването при промяна на условията. Инженерите на Amazon разкриват, че когато вторият Enactor (прилагащ най-новия план) е завършил актуализациите на крайните точки, той стартира процеса на почистване на плана, който идентифицира планове, които са значително по-стари от този, който току-що е приложил, и ги изтрива. В същото време, в което е задействан този процес на почистване, първият Enactor (който е бил необичайно забавен) прилага своя много по-стар план към регионалната крайна точка на DDB, заменяйки по-новия план. В крайна сметка тази ситуация е наложила ръчна намеса от оператора, за да бъде коригирана.

Поради повредата системите, които са разчитали на DynamoDB в регионалния край на Amazon US-East-1, са претърпели грешки, които им попречиха да се свържат. Това засегна както трафика на клиентите, така и вътрешните услуги на AWS.

Повредите, причинени от отпадането на DynamoDB, натовариха услугите EC2 на Amazon, разположени в региона US-East-1. Натоварването продължи дори след възстановяването на DynamoDB, тъй като EC2 в този регион работеше със значително забавяне в обработката на необходимите за обработка промени в състоянието на мрежата. Засега Amazon е деактивирала DynamoDB DNS Planner и DNS Enactor автоматизацията в световен мащаб, докато работи за отстраняване на състоянието на състезание и добавяне на защити, за да предотврати прилагането на неправилни DNS планове. Инженерите също правят промени в EC2 и неговия балансиращ мрежовия трафик.

Засегнатият US EAST 1 е най-старият и най-използван хъб на AWS. Регионалната концентрация означава, че дори глобалните приложения често закрепват идентичността, състоянието или потоците от метаданни там.

    Всички новини
    Най-четени Най-нови
    За писането на коментар е необходима регистрация.
    Моля, регистрирайте се от TУК!
    Ако вече имате регистрация, натиснете ТУК!

    Няма коментари към тази новина !