Прекъсването, което засегна Amazon Web Services и прекъсна важни услуги по целия свят, е било резултат от една единствена повреда. Тя се е разпространила от система на система в обширната мрежа на Amazon.
Серията от повреди продължи 15 часа и 32 минути, съобщи Amazon, като по данни на Ookla са засечени над 17 млн. сигнали за прекъснати услуги, предлагани от 3500 организации. Трите най-големи страни, от които са дошли сигналите, са САЩ, Великобритания и Германия. Snapchat, AWS и Roblox са услугите, за които са постъпили най-много сигнали.
Според Amazon основната причина за прекъсването е софтуерен бъг в софтуера, управляващ системата за управление на DNS DynamoDB. Системата следи стабилността на балансиращите натоварването устройства, като, наред с други неща, периодично създава нови DNS конфигурации за крайни точки в мрежата на AWS. Състоянието на състезание (race condition) е грешка, която прави даден процес зависим от времето или последователността на събития, които са променливи и извън контрола на разработчиците. Резултатът може да бъде неочаквано поведение и потенциално опасни сривове.
В този случай проблемът е в DNS Enactor, компонент на DynamoDB, който постоянно актуализира таблиците за търсене на домейни в отделните крайни точки на AWS, за да оптимизира балансирането на натоварването при промяна на условията. Инженерите на Amazon разкриват, че когато вторият Enactor (прилагащ най-новия план) е завършил актуализациите на крайните точки, той стартира процеса на почистване на плана, който идентифицира планове, които са значително по-стари от този, който току-що е приложил, и ги изтрива. В същото време, в което е задействан този процес на почистване, първият Enactor (който е бил необичайно забавен) прилага своя много по-стар план към регионалната крайна точка на DDB, заменяйки по-новия план. В крайна сметка тази ситуация е наложила ръчна намеса от оператора, за да бъде коригирана.
Поради повредата системите, които са разчитали на DynamoDB в регионалния край на Amazon US-East-1, са претърпели грешки, които им попречиха да се свържат. Това засегна както трафика на клиентите, така и вътрешните услуги на AWS.
Повредите, причинени от отпадането на DynamoDB, натовариха услугите EC2 на Amazon, разположени в региона US-East-1. Натоварването продължи дори след възстановяването на DynamoDB, тъй като EC2 в този регион работеше със значително забавяне в обработката на необходимите за обработка промени в състоянието на мрежата. Засега Amazon е деактивирала DynamoDB DNS Planner и DNS Enactor автоматизацията в световен мащаб, докато работи за отстраняване на състоянието на състезание и добавяне на защити, за да предотврати прилагането на неправилни DNS планове. Инженерите също правят промени в EC2 и неговия балансиращ мрежовия трафик.
Засегнатият US EAST 1 е най-старият и най-използван хъб на AWS. Регионалната концентрация означава, че дори глобалните приложения често закрепват идентичността, състоянието или потоците от метаданни там.











Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари