Падение облачного сервиса от Amazon вызвало сбои в работе тысяч веб-сайтов

Пятница, 22 апреля 2011 г.

Следите за нами в ВКонтакте, Телеграм'e и Twitter'e

Компания Amazon, ведущий поставщик облачной инфраструктуры IaaS, с четверга испытывает продолжительный сбой в работе популярных сервисов EC2 и RDS. Несмотря на то, что большая часть затронутых площадок уже вернулась к нормальной работе, на одной из площадок проблемы продолжаются, и общая продолжительность сбоя уже превысила 24 часа.

Ведущий поставщик облачной инфраструктуры по модели IaaS Amazon Web Services (AWS) начал испытывать сбои в работе своих сервисов в четверг 21 апреля около 2 часов ночи по тихоокеанскому времени (1 час дня по московскому времени). Сбой затронул тысячи пользователей AWS, системы которых были размещены на площадках Amazon в нескольких т.н. "зонах доступности" (Availability Zones) в регионе EAST-1 на восточном побережье США. Пользователи AWS, работающие с площадками в других регионах, проблем не испытывают.

Проблемы проявляются в повышенных задержках при обработке обращений к программным интерфейсам сервиса хранения данных Elastic Block Storage (EBS), используемого в сочетании с сервисом арендуемых виртуальных машин Elastic Compute Cloud (EC2). Кроме того, проблемы затронули пользователей сервиса Relational Database Service (RDS), которые также испытывают задержки и проблемы с подключением.

По имеющейся информации о ходе восстановительных работ, опубликованной на официальном сайте AWS, к 9 часам утра (8 часов вечера по московскому времени) работа EBS была восстановлена, за исключением одной зоны доступности. К 3 часам дня (2 часа ночи 22 апреля по московскому времени) была восстановлена нормальная работа сервиса RDS – также за исключением одной проблемной зоны доступности.

На момент написания данной новости сервис AWS не вернулся полностью к нормальной работе, и сотрудники Amazon воздерживаются от прогнозов, когда это удастся сделать. В то же время, они признаются, что восстановление нормальной работы отняло у них существенно больше времени, чем они изначально рассчитывали.

Столь длительная задержка (уже вышедшая за пределы, закрепленные в сервисном соглашении AWS) связана с тем, что в проблемной зоне доступности закончились вычислительные мощности, и сотрудники Amazon в экстренном порядке вынуждены заниматься их наращиванием: "Инцидент с сетью сегодня рано утром послужил причиной массовых операций по перезеркалированию разделов EBS в регионе US-EAST-1, – говорится в сообщении от 8:54 утра (7:54 вечера по московскому времени) 21 апреля. – Это перезеркалирование вызвало нехватку мощностей в одной из зон доступности региона US-EAST-1, что негативно отразилось на возможности создания новых разделов EBS, а также на темпах, с которыми мы могли перезеркалировать и восстанавливать затронутые разделы EBS".

Проблемы в работе AWS затронули целый ряд популярных онлайновых сайтов, среди которых Reddit, Quora, а также PaaS-платформы, работающие поверх инфраструктуры AWS: DotCloud, Heroku и Engine Yard. Таким образом, нынешний сбой негативно скажется на репутации облачных решений не только класса IaaS, но и PaaS.

Сбой в работе AWS показал, что даже использование инфраструктуры от мирового лидера не является гарантией от технических сбоев, считает Максим Дюбарев, генеральный директор российского облачного провайдера Clodo: "Видно, что и они не застрахованы от происшествий, причем весьма неприятных". Пользователи AWS должны будут извлечь из этого события соответствующие уроки: "Облако облаком, но все равно у каждого дата-центра и каждого облачного провайдера есть свой предел резервирования, и если кратность ошибки превышает кратность этого предела, сервис приостанавливается". Максим Дюбарев рекомендует в целях повышения надежности пользоваться услугами одновременно двух облачных провайдеров, а критичные сервисы следует распределять по разным датацентрам.

Следует отметить, что пользователи AWS имеют возможность размещать данные в географически удаленных регионах – именно с целью повышения устойчивости от сбоев. Однако большинство затронутых инцидентом компаний до сих пор не пользовались этой возможностью: их вычислительные ресурсы были сосредоточены на восточном побережье США. В какой-то мере исключением стал лишь PaaS-провайдер Engine Yard, который к моменту сбоя уже проводил бета-тестирование системы распределения мощностей между несколькими географическими регионами (также используются площадки AWS на западном побережье США, в Европе и Азии) – как раз на случай подобных сбоев. В результате происшествия владельцы Engine Yard ускорили ввод услуги в промышленную эксплуатацию, хотя непосредственно в момент сбоя соответствующая функциональность, разумеется, еще не была доступна.

В последний раз AWS испытала продолжительный сбой в июле 2008 года, когда другой инфраструктурный сервис – Simple Storage Service – не был доступен в течение восьми часов. В то время представители компании заявляли, что они извлекли из происшествия необходимые уроки: "любой отказ в обслуживании недопустим, и мы не успокоимся, пока качество AWS не станет идеальным", – сообщалось в заявлениях Amazon.

Обзор по теме:

ИТ-инфраструктура предприятия 2011