Оказание услуг технической поддержки систем резервного копирования Подробнее>>
Информационное сообщение!
Товар в корзину добавлен. Перейти к оформлению заказа?
Нет
Да
Информационное сообщение!
Ваш заказ успешно создан. На указанный E-mail был отправлен счет для оплаты
Ок
Информационное сообщение!
Ошибка ввода капчи. Попробуйте ввести заново.
Продолжить

Аварийное восстановление | Disaster Recovery

Дата публикации: 1 января 2020 г.

* * *

Процесс планирования аварийного восстановления включает в себя не просто создание документа (плана), это комплекс заранее согласованных действий направленных на снижение последствий аварии. Disaster Recovery Plan включает в себя следующие этапы разработки:

План аварийного восстановления
  • установление сфер/объектов защиты при аварийных инцидентах
  • сбор документации о процессах и инфраструктуре
  • расстановка приоритетов: выявление критических угроз, уязвимостей и наиболее важных активов
  • оценка и анализ аварийных инцидентов / сбоев, а также последовательность их решения
  • определение стратегии аварийного восстановления
  • определение ролей и обязанностей в чрезвычайных ситуациях
  • разбор и утверждение плана аварийного восстановления с группой
  • тестирование и испытание плана
  • обновление плана
  • аудит Disaster Recovery Plan

Контрольный список целей аварийного восстановления включает в себя определение критически важных объектов защиты: ИТ-сервисов, сетей и данных, а так же расчет значений основных показателей BIA, RA, RTO и RPO для разработки стратегии восстановления работоспособности (перезапуск, установка, настройка и восстановление систем, данных и сетей) по каждому объекту. Перед составлением детального плана, необходимо выполнить расчет основных показателей:

  • Анализ воздействия на бизнес (business impact analysis - BIA)
  • Анализ рисков (Risk Analysis - RA)
  • Допустимое время восстановления (recovery time objective - RTO)
  • Допустимая (критическая) точка восстановления (recovery point objective - RPO)
Значение RTO / RPO Объекты воздействия Стратегия
От нескольких секунд до минут Критически важные системы и базы данных высокой доступности Репликация и кластеризация с мгновенным переключением на резервный узел (failover)
От нескольких минут до пары часов Виртуальные машины, базы данных, системы обмена сообщениями. Горячее резервное копирование с оперативным восстановлением работы системы или базы данных на новом или том же устройстве
От нескольких часов до дней Файловые сервера, рабочие станции Холодное резервное копирование редко изменяющихся данных, поиск и восстановление отдельных файлов, почтовых сообщений

BIA: АНАЛИЗ ВОЗДЕЙСТВИЯ НА БИЗНЕС


В плане аварийного восстановления показатель BIA, дает оценку затратам (убыткам, ущербу) вызванным последствием сбоя. При расчете BIA показывает количественную оценку важности бизнес-процессов и распределение средств для принятия мер по их защите и устранению. Последствия сбоев будут оцениваться с точки зрения их воздействия на безопасность, финансы, маркетинг, деловую репутация, уголовную или административную ответственность перед законом. Для сравнительного анализа все возможные воздействия выражаются в денежном исчислении и распределяются в порядке значимости. Например, в результате инцидента бизнес может потратить в три раза больше средств на маркетинг для восстановления доверия клиентов и репутации компании, чем меры предпринятые для защиты. BIA помогает в создании стратегии аварийного восстановления, выбору приоритетов, а так же требований к ресурсам и времени.

RA: АНАЛИЗ РИСКОВ


Анализ рисков - это процесс выявления и анализа потенциальных проблем, которые могут негативно повлиять на ключевые бизнес-процессы или критически важные функции системы, чтобы помочь организациям избежать или смягчить эти риски. Организации используют анализ рисков для:

  • Оценки и сравнение потенциальных рисков
  • Создания плана на случай отказа или временной потери сервиса
  • Предупреждения и уменьшения последствий аварийных инцидентов

RTO: ДОПУСТИМОЕ ВРЕМЯ ВОССТАНОВЛЕНИЯ


Допустимое время восстановления - это максимально допустимый период времени, в течение которого сеть, сервер или база данных информационной системы могут оставаться неработоспособными. Выход за рамки RTO приводит к критическому нарушению рабочего процесса и потери доходов компании выраженных в единицу времени в зависимости от последствий аварийной ситуации. RTO измеряется в секундах, минутах, часах или днях и является важным показателем при планировании аварийного восстановления. Многочисленные исследования были проведены в попытке определить стоимость простоя для различных систем на предприятиях. Эти исследования показывают, что понесенные убытки многофакторные и включают в себя не только непосредственные, краткосрочные потери но и долгосрочный нематериальный эффект. Как только RTO для определенной задачи будет рассчитан (стал известен), можно переходить к поиску технического решения для аварийного восстановления сопоставимого с последствиями в данной ситуации.
Например, если RTO для базы данных 1-2 часа, то оптимальным решением для хранения резервной копии будут локальные или сетевые диски. Если RTO составляет 1 сутки и более, использование ленточных носителей или внешнего хранилища на удаленном сервере или в облаке будет более практичным решением. Соответственно зная RTO можно объективно подходить к решению проблемы.

RPO: ДОПУСТИМАЯ ТОЧКА ВОССТАНОВЛЕНИЯ (допустимые потери данных)


Допустимая точка восстановления – это максимальный отрезок времени, за который могут быть потеряны данные в следствии сбоя/аварии. RPO выражается в секундах, минутах, часах и рассчитывается начиная с момента сбоя до ближайшей точки самосахранения (создания резервной копии). Это важный параметр при планировании аварийного восстановления. Как только RPO определен, можно рассчитать с какой минимальной частотой необходимо делать резервные копии.

Точно выполненный анализ рисков RA и их влияние BIA на бизнес помогают определить, где сосредоточить главные ресурсы для достижения необходимых значений RTO / RPO в процессе планирования аварийного восстановления.

Стратегия аварийного восстановления

Стратегия восстановления является основой для формирования плана реагирования на инцидент. При определении стратегии аварийного восстановления следует учитывать:

  • Бюджет проекта
  • Доступные ресурсы - люди и объекты инфраструктуры
  • Позиция руководства по рискам
  • Технологии резервного копирования и восстановления

ПЛАН АВАРИЙНОГО ВОССТАНОВЛЕНИЯ


План аварийного восстановления (Disaster Recovery Plan – DRP) это документ с инструкциями для решения аварийных ситуаций, выполняя которые организация может оперативно продолжить работу в информационных системах и базах данных или частично восстановить критически важные функции. В плане должны быть определены роли и обязанности всех членов команды ответственных за аварийное восстановление, а так же указаны условия для запуска плана в действие. План должен содержать подробное описание действий по реагированию на инциденты для восстановления. План аварийного восстановления может иметь несколько версий в зависимости от масштаба и степени сложности инцидента. Для создания DRP можно воспользоваться бесплатными ресурсами, например:

https://www.ibm.com/docs/ru/i/7.4?topic=system-example-disaster-recovery-plan

Аварийное восстановление виртуальных систем

Виртуализация предоставляет возможности для ускорения процесса восстановления после сбоев более эффективным и простым способом. Виртуальная среда может создать новые экземпляры виртуальной машины (VM) в течение нескольких минут и обеспечить восстановление приложений с высокой доступностью. Тестирование также может быть легко выполнено, но план должен включать возможность проверки того, что приложения могут быть запущены в режиме аварийного восстановления и возвращены к нормальной работе в RPO и RTO.