Содержание:
Аварийное восстановление (Disaster Recovery)
Дата публикации: 1 января 2020 г.

* * *
Процесс планирования аварийного восстановления включает в себя не просто создание документа (плана), это комплекс заранее согласованных действий направленных на снижение последствий аварии. Disaster Recovery Plan включает в себя следующие этапы разработки:

- установление сфер/объектов защиты при аварийных инцидентах
- сбор документации о процессах и инфраструктуре
- расстановка приоритетов: выявление критических угроз, уязвимостей и наиболее важных активов
- оценка и анализ аварийных инцидентов / сбоев, а также последовательность их решения
- определение стратегии аварийного восстановления
- определение ролей и обязанностей в чрезвычайных ситуациях
- разбор и утверждение плана аварийного восстановления с группой
- тестирование и испытание плана
- обновление плана
- аудит Disaster Recovery Plan
Контрольный список целей аварийного восстановления включает в себя определение критически важных объектов защиты: ИТ-сервисов, сетей и данных, а так же расчет значений основных показателей BIA, RA, RTO и RPO для разработки стратегии восстановления работоспособности (перезапуск, установка, настройка и восстановление систем, данных и сетей) по каждому объекту. Перед составлением детального плана, необходимо выполнить расчет основных показателей:
- Анализ воздействия на бизнес (business impact analysis - BIA)
- Анализ рисков (Risk Analysis - RA)
- Допустимое время восстановления (recovery time objective - RTO)
- Допустимая (критическая) точка восстановления (recovery point objective - RPO)
Значение RTO / RPO | Объекты воздействия | Стратегия |
От нескольких секунд до минут | Критически важные системы и базы данных высокой доступности | Репликация и кластеризация с мгновенным переключением на резервный узел (failover) |
От нескольких минут до пары часов | Виртуальные машины, базы данных, системы обмена сообщениями. | Горячее резервное копирование с оперативным восстановлением работы системы или базы данных на новом или том же устройстве |
От нескольких часов до дней | Файловые сервера, рабочие станции | Холодное резервное копирование редко изменяющихся данных, поиск и восстановление отдельных файлов, почтовых сообщений |
BIA: АНАЛИЗ ВОЗДЕЙСТВИЯ НА БИЗНЕС
В рамках плана аварийного восстановления показатель BIA, определяет затраты (убытки, ущерб) вызванные последствием сбоя. В расчете BIA дается количественная оценка важности бизнес-процессов и распределение средств для принятия мер по их защите и устранению. Последствия сбоев будут оцениваться с точки зрения их воздействия на безопасность, финансы, маркетинг, деловую репутация, уголовную или административную ответственность перед законом. Все возможные воздействия выражаются в денежном исчислении для сравнения и ранжирования. Например, бизнес может потратить в три раза больше средств на маркетинг после инцидента, чтобы восстановить доверие клиентов и репутацию. BIA должен помогать в создании стратегий аварийного восстановления, выбору приоритетов, требований к ресурсам и времени.
RA: АНАЛИЗ РИСКОВ
Анализ рисков - это процесс выявления и анализа потенциальных проблем, которые могут негативно повлиять на ключевые бизнес-процессы или критически важные функции системы, чтобы помочь организациям избежать или смягчить эти риски. Организации используют анализ рисков для:
- Предупреждения и уменьшения последствий от вредных результатов неблагоприятных событий
- Планирования решения в случаи отказа или потери сервиса, выхода из строя оборудования в результате неблагоприятных явлений, как природных, так и человеческих
- Оценки сбалансированности потенциальных рисков
RTO: ДОПУСТИМОЕ ВРЕМЯ ВОССТАНОВЛЕНИЯ
Допустимое время восстановления - это максимально допустимый период времени, в течение которого сервис, сеть или информационная система могут оставаться неработоспособными. Несоблюдение RTO приводит к критическому нарушению рабочего процесса и потери доходов в единицу времени в зависимости от затронутого оборудования и систем в результате катастрофы. RTO измеряется в секундах, минутах, часах или днях и является важным показателем при планировании аварийного восстановления. Многочисленные исследования были проведены в попытке определить стоимость простоя для различных систем на предприятиях. Эти исследования показывают, что стоимость зависит от долгосрочных и нематериальных эффектов, а также от непосредственных, краткосрочных или ощутимых факторов. Как только RTO для определенной системы будет рассчитан, технические специалисты смогут предложить решения аварийного восстановления лучше всего подходящее для данной ситуации.
Например, если RTO для информационной системы равно одному часу, то выполнение и хранение резервной копии на внешних жестких дисках будет являться оптимальным решением. Если RTO составляет 2-3 дня, может быть более практичным использование ленточных носителей или внешнего хранилища на удаленном сервере или в облаке.
RPO: ДОПУСТИМАЯ ТОЧКА ВОССТАНОВЛЕНИЯ (допустимые потери данных)
Допустимая точка восстановления – это максимальный период времени, за который могут быть потеряны данные из-за сбоя. RPO выражается во времени с момента, когда происходит сбой, и может рассчитываться в секундах, минутах, часах или днях. Это важный параметр при планировании аварийного восстановления (DRP). Как только RPO определен, можно рассчитать с какой минимальной частотой необходимо делать резервные копии.
Заранее выполненный анализ рисков и влияния на бизнес помогают определить, где сосредоточить ресурсы в процессе планирования аварийного восстановления. BIA идентифицирует воздействие аварийных инцидентов и является отправной точкой для определения риска в контексте аварийного восстановления. Он также генерирует RTO и RPO. RA идентифицирует угрозы и уязвимости, которые могут нарушить работу систем и процессов, выделенных в BIA.
Стратегия аварийного восстановления
Стратегия восстановления является основой для формирования плана реагирования на инцидент. При определении стратегии восстановления следует учитывать:
- бюджет
- ресурсы - люди и объекты инфраструктуры
- позиция руководства по рискам
- технологии резервного копирования и восстановления
- данные
ПЛАН АВАРИЙНОГО ВОССТАНОВЛЕНИЯ
План аварийного восстановления (Disaster Recovery Plan – DRP) это документ с инструкциями для решения аварийных ситуаций, выполняя которые организация может оперативно продолжить работу в информационных системах или быстро восстановить критически важные функции. В плане должны быть определены роли и обязанности всех членов команды ответственных за аварийное восстановление, а так же намечены условия для запуска плана в действие. План должен содержать подробное описание действий по реагированию на инциденты для восстановления. План аварийного восстановления может варьироваться в зависимости от степени сложности ситуации, от базового до всеобъемлющего. Для создания DRP можно воспользоваться бесплатными ресурсами, например:
https://www.template.net/business/plan-templates/sample-disaster-recovery-plan-examples/
https://www.ibm.com/support/knowledgecenter/ru/ssw_ibm_i_73/rzarm/rzarmdisastr.htm
Рассмотрим несколько примеров плана аварийного восстановления адаптированных для определенной среды.
План аварийного восстановления виртуальных систем
Виртуализация предоставляет возможности для ускорения процесса восстановления после сбоев более эффективным и простым способом. Виртуальная среда может создать новые экземпляры виртуальной машины (VM) в течение нескольких минут и обеспечить восстановление приложений с высокой доступностью. Тестирование также может быть легко выполнено, но план должен включать возможность проверки того, что приложения могут быть запущены в режиме аварийного восстановления и возвращены к нормальной работе в RPO и RTO.