Reddit.com остановил работу на несколько часов из-за ошибок в AWS
Популярный сайт социальных новостей Reddit.com 17 марта испытал сложности с инфраструктурным сервисом хранения данных Amazon Elastic Block Storage (EBS), которые привели к приостановке сервиса на несколько часов.
Согласно информации в блоге разработчика Reddit Джейсона Харви (Jason Harvey), проблемы начались ночью 17 марта с задержек в выполнении I/O операций в одном из дата-центров Amazon, вплоть до их полной остановки. Этому было подвержено большинство дисков EBS, на которых были размещены серверы СУБД Postgresql и распределенной базы данных Cassandra. Разработчики Reddit уведомили техническую поддержку Amazon, и ее сотрудники приступили к оперативному восстановлению дисков. Проблемы впервые начали наблюдаться в 1 час утра по калифорнийскому времени, а восстановление дисков было в целом завершено в 5 часов утра.
Однако на этом неприятности не закончились. Около 10 часов утра проблемы возобновились, и сотрудники Amazon вновь приступили к восстановлению дисков. Вместе с тем, вскоре выяснилось, что отключение дисков привело к нарушению работы системы репликации данных в кластерах СУБД Postgresql. В обычной ситуации данные сначала направляются в управляющий (master) сервер, и лишь затем записываются в управляемых (slave). После сбоев с EBS часть данных стала записываться в базы управляемых серверов, минуя управляющий. Это привело к рассинхронизации данных, записанных в различных управляемых базах данных. В результате разработчикам Reddit пришлось удалить содержимое некоторых рассинхронизованных таблиц и заполнить их заново синхронизированными данными. Все это происходило в то время, когда сайт уже находился в отключенном состоянии в ожидании завершения работы сотрудников Amazon по восстановлению дисков. В 1 час 30 минут дня по калифорнийскому времени все аварийные операции удалось завершить и сайт вернулся к нормальной работе.
В результате произошедшего сбоя Reddit планирует провести миграцию кластеров Cassandra с сервиса EBS на локальную систему хранения данных: "Хотя локальная система хранения данных обладает намного меньшей функциональностью, чем EBS, ее надежность перевешивает преимущества EBS", – пишет Джейсон Харви. Возможность аналогичной миграции рассматривается также для кластеров Postgresql.
С другой стороны, разработчики Reddit планируют в ближайшее время решить некоторые архитектурные проблемы сервиса. Если раньше несколько управляющих баз данных размещались на едином диске EBS, то теперь их планируется распределить по нескольким дискам, сообщает Джейсон Харви.
Согласно информации в блоге разработчика Reddit Джейсона Харви (Jason Harvey), проблемы начались ночью 17 марта с задержек в выполнении I/O операций в одном из дата-центров Amazon, вплоть до их полной остановки. Этому было подвержено большинство дисков EBS, на которых были размещены серверы СУБД Postgresql и распределенной базы данных Cassandra. Разработчики Reddit уведомили техническую поддержку Amazon, и ее сотрудники приступили к оперативному восстановлению дисков. Проблемы впервые начали наблюдаться в 1 час утра по калифорнийскому времени, а восстановление дисков было в целом завершено в 5 часов утра.
Однако на этом неприятности не закончились. Около 10 часов утра проблемы возобновились, и сотрудники Amazon вновь приступили к восстановлению дисков. Вместе с тем, вскоре выяснилось, что отключение дисков привело к нарушению работы системы репликации данных в кластерах СУБД Postgresql. В обычной ситуации данные сначала направляются в управляющий (master) сервер, и лишь затем записываются в управляемых (slave). После сбоев с EBS часть данных стала записываться в базы управляемых серверов, минуя управляющий. Это привело к рассинхронизации данных, записанных в различных управляемых базах данных. В результате разработчикам Reddit пришлось удалить содержимое некоторых рассинхронизованных таблиц и заполнить их заново синхронизированными данными. Все это происходило в то время, когда сайт уже находился в отключенном состоянии в ожидании завершения работы сотрудников Amazon по восстановлению дисков. В 1 час 30 минут дня по калифорнийскому времени все аварийные операции удалось завершить и сайт вернулся к нормальной работе.
В результате произошедшего сбоя Reddit планирует провести миграцию кластеров Cassandra с сервиса EBS на локальную систему хранения данных: "Хотя локальная система хранения данных обладает намного меньшей функциональностью, чем EBS, ее надежность перевешивает преимущества EBS", – пишет Джейсон Харви. Возможность аналогичной миграции рассматривается также для кластеров Postgresql.
С другой стороны, разработчики Reddit планируют в ближайшее время решить некоторые архитектурные проблемы сервиса. Если раньше несколько управляющих баз данных размещались на едином диске EBS, то теперь их планируется распределить по нескольким дискам, сообщает Джейсон Харви.
Ещё новости по теме:
18:20