Reddit.com остановил работу на несколько часов из-за ошибок в AWS

Понедельник, 21 марта 2011 г.

Следите за нами в ВКонтакте, Телеграм'e и Twitter'e

Популярный сайт социальных новостей Reddit.com 17 марта испытал сложности с инфраструктурным сервисом хранения данных Amazon Elastic Block Storage (EBS), которые привели к приостановке сервиса на несколько часов.

Согласно информации в блоге разработчика Reddit Джейсона Харви (Jason Harvey), проблемы начались ночью 17 марта с задержек в выполнении I/O операций в одном из дата-центров Amazon, вплоть до их полной остановки. Этому было подвержено большинство дисков EBS, на которых были размещены серверы СУБД Postgresql и распределенной базы данных Cassandra. Разработчики Reddit уведомили техническую поддержку Amazon, и ее сотрудники приступили к оперативному восстановлению дисков. Проблемы впервые начали наблюдаться в 1 час утра по калифорнийскому времени, а восстановление дисков было в целом завершено в 5 часов утра.

Однако на этом неприятности не закончились. Около 10 часов утра проблемы возобновились, и сотрудники Amazon вновь приступили к восстановлению дисков. Вместе с тем, вскоре выяснилось, что отключение дисков привело к нарушению работы системы репликации данных в кластерах СУБД Postgresql. В обычной ситуации данные сначала направляются в управляющий (master) сервер, и лишь затем записываются в управляемых (slave). После сбоев с EBS часть данных стала записываться в базы управляемых серверов, минуя управляющий. Это привело к рассинхронизации данных, записанных в различных управляемых базах данных. В результате разработчикам Reddit пришлось удалить содержимое некоторых рассинхронизованных таблиц и заполнить их заново синхронизированными данными. Все это происходило в то время, когда сайт уже находился в отключенном состоянии в ожидании завершения работы сотрудников Amazon по восстановлению дисков. В 1 час 30 минут дня по калифорнийскому времени все аварийные операции удалось завершить и сайт вернулся к нормальной работе.

В результате произошедшего сбоя Reddit планирует провести миграцию кластеров Cassandra с сервиса EBS на локальную систему хранения данных: "Хотя локальная система хранения данных обладает намного меньшей функциональностью, чем EBS, ее надежность перевешивает преимущества EBS", – пишет Джейсон Харви. Возможность аналогичной миграции рассматривается также для кластеров Postgresql.

С другой стороны, разработчики Reddit планируют в ближайшее время решить некоторые архитектурные проблемы сервиса. Если раньше несколько управляющих баз данных размещались на едином диске EBS, то теперь их планируется распределить по нескольким дискам, сообщает Джейсон Харви.