Todos os cursos > Tecnologia, Informática e Programação > Segurança da informação ::

Backup e Recuperação contra Ransomware: plano de recuperação (runbook) para incidente real

Capítulo 10

Tempo estimado de leitura: 13 minutos

O que é um runbook de recuperação (e por que ele precisa ser “acionável”)

Runbook de recuperação é um documento operacional que transforma uma estratégia de backup e recuperação em ações executáveis durante um incidente real de ransomware. Ele define gatilhos de ativação, papéis e responsabilidades, ordem de restauração por dependências, decisões críticas e comunicações internas, com checklists e critérios objetivos para reduzir improviso e evitar reinfecção.

Um runbook “acionável” tem três características: (1) passos curtos e verificáveis (quem faz, como faz, onde registra), (2) pontos de decisão com critérios claros (ex.: “isolar agora?” “pausar backups?”), e (3) artefatos prontos (modelos de mensagens, checklists, quadros de status, formulários de evidência).

Gatilhos de ativação e níveis de severidade

Gatilhos típicos para ativar o runbook

Alerta de EDR/SIEM indicando criptografia em massa, comportamento de ransomware, exclusão de shadow copies, ou execução de ferramentas de exfiltração.
Indícios no ambiente de backup: falhas súbitas e generalizadas, aumento anormal de taxa de alteração, tentativas de apagar snapshots/retention, criação de jobs suspeitos.
Usuários reportando arquivos com extensão alterada, notas de resgate, indisponibilidade de sistemas.
Detecção de credenciais comprometidas (contas privilegiadas, contas de serviço, chaves de API) associadas a movimentação lateral.

Classificação rápida (exemplo de severidade)

Nível	Critério	Ação
SEV-1	Criptografia ativa ou impacto em sistemas críticos / evidência de exfiltração	Ativar sala de crise, contenção imediata, congelar mudanças
SEV-2	Comprometimento provável, impacto limitado, propagação incerta	Triagem acelerada, isolamento seletivo, preparar recuperação
SEV-3	Alerta isolado, sem impacto confirmado	Investigar, reforçar monitoramento, prontidão

Defina no runbook: quem pode declarar SEV-1 (ex.: líder de Segurança ou Plantonista), tempo máximo para escalonamento e canal oficial para registrar a decisão.

Papéis e responsabilidades (RACI enxuto para incidente)

Evite organogramas longos. Use um RACI mínimo com substitutos (backup) para cada função.

Função	Responsável por	Decisões que aprova
Incident Commander (IC)	Coordenação geral, prioridades, ritmo de reuniões, registro de decisões	Ativar SEV-1, autorizar retorno à operação
Líder de Segurança/IR	Triagem, contenção, preservação de evidências, orientação anti-reinfecção	Isolamento, pausar backups, reset de credenciais
Líder de Infra/Plataforma	Rede, identidade, virtualização, endpoints, hardening emergencial	Segmentação emergencial, bloqueios de tráfego
Líder de Backup/DR	Seleção de pontos de restauração, execução de restores, ambiente limpo	Escolha do restore point, ordem de restauração
Dono do Sistema (App Owner)	Validação funcional, critérios de aceite, dependências do app	Go/No-Go do sistema restaurado
Comunicação interna	Mensagens para colaboradores, status, instruções operacionais	Texto final de comunicados
Jurídico/Compliance	Orientação legal, notificação regulatória (se aplicável)	Notificações externas
Registro (Scribe)	Timeline, decisões, evidências, tarefas e responsáveis	N/A

Inclua no runbook: contatos 24x7, canal alternativo (fora do e-mail corporativo), e regra de “uma fonte de verdade” para status (ex.: documento/board de crise).

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Fluxo operacional do runbook (modelo em 5 fases)

Visão geral do fluxo

Detecção → Triagem → Contenção → Recuperação → Validação → Retorno à operação

O runbook deve permitir executar fases em paralelo (ex.: contenção e preparação de recuperação), mas com gates claros antes de reabrir acesso.

Fase 1 — Triagem (confirmar, delimitar, decidir rápido)

Objetivos

Confirmar se é ransomware (ou evento similar).
Determinar escopo inicial: quais redes, identidades, sistemas, backups foram tocados.
Definir severidade e acionar sala de crise.

Passo a passo prático

1) Abrir incidente e iniciar timeline: horário, quem detectou, sintomas, sistemas afetados.
2) Coletar sinais mínimos (sem “limpar” nada): nomes de hosts, usuários, hashes/nomes de arquivos suspeitos, notas de resgate, logs de autenticação recentes.
3) Checar propagação: amostrar endpoints/servidores por indicadores (processos, tarefas agendadas, serviços novos, conexões anômalas).
4) Verificar integridade do plano de recuperação: confirmar se repositórios de backup, consoles e credenciais de backup não foram alterados (somente leitura quando possível).
5) Decisão inicial: SEV-1/2/3 e escopo de contenção (isolamento seletivo vs. amplo).

Decisão crítica: quando isolar sistemas

Isolar imediatamente (rede/segmento/host) quando houver: (a) criptografia ativa, (b) evidência de movimentação lateral, (c) credenciais privilegiadas comprometidas, (d) comunicação com C2, (e) tentativa de atingir infraestrutura de backup/identidade.

Isolamento deve priorizar: identidade (controladores/IdP), plataforma de gestão (hipervisores, orquestradores), backup (servidores/proxies/repositórios), e saltos administrativos (jump servers).

Decisão crítica: quando pausar backups

Pausar backups (ou colocar em modo controlado) quando houver risco de contaminar pontos de restauração ou propagar criptografia via agentes/credenciais comprometidas. Critérios práticos:

Backups estão capturando dados já criptografados (picos de alteração, dedupe/compressão anômala, muitos arquivos renomeados).
Suspeita de comprometimento de contas de serviço usadas por jobs.
Atividade suspeita no console de backup (criação/edição de jobs, exclusão de retenção, tentativas de apagar repositórios).

Como pausar sem perder evidência: registre horário, jobs ativos, estado dos repositórios, e preserve logs do sistema de backup em cópia protegida (somente leitura).

Fase 2 — Contenção (parar a hemorragia sem destruir evidências)

Objetivos

Interromper criptografia/exfiltração e reduzir superfície de ataque.
Preservar evidências para investigação e para evitar reinfecção.
Preparar ambiente limpo para recuperação.

Passo a passo prático

1) Isolamento em camadas: bloquear tráfego leste-oeste suspeito, desabilitar compartilhamentos amplos, restringir RDP/SSH, cortar acesso de contas suspeitas.
2) Congelar mudanças: suspender deploys, mudanças de rede, automações e tarefas agendadas não essenciais.
3) Rotação emergencial de credenciais: priorizar contas privilegiadas, contas de serviço de backup, chaves de API e tokens de automação.
4) Preservação de evidências: coletar imagens/artefatos de hosts-chave (quando possível), exportar logs (EDR, AD/IdP, firewall, proxy, backup), e registrar hashes de arquivos relevantes.
5) Definir “zona limpa”: uma rede/ambiente separado para restore e validação, com acesso administrativo restrito e monitorado.

Como preservar evidências (mínimo viável)

Não reinstalar/formatar antes de coletar o essencial (quando o tempo permitir).
Copiar logs para repositório protegido (WORM/imutável, ou storage com controle estrito).
Registrar: horário de isolamento, regras aplicadas, contas desabilitadas, e alterações de firewall.

Fase 3 — Recuperação (restaurar na ordem certa, com critérios de segurança)

Princípio: restaurar por dependências

Em ransomware, restaurar “o que é mais importante” sem dependências costuma falhar. O runbook deve trazer uma ordem padrão que você ajusta ao seu ambiente.

Ordem de restauração sugerida (exemplo genérico)

Identidade e controle de acesso: AD/IdP, DNS, NTP, MFA, PKI (se aplicável).
Rede e segurança: firewalls, VPN, bastions/jump servers, ferramentas de gestão de endpoints.
Plataforma: hipervisores, storage, clusters, orquestração, repositórios de imagens (se necessários para subir serviços).
Serviços compartilhados: e-mail interno (se usado para operação), mensageria, filas, cache, service discovery.
Bancos de dados: primeiro metadados/configs, depois dados; respeitar consistência e logs.
Aplicações: serviços core, integrações, por último front-ends e sistemas periféricos.
Arquivos e colaboração: file servers, shares departamentais, repositórios de documentos.

No runbook, para cada item acima, liste: pré-requisitos, fonte do restore, tempo estimado, responsável e teste de validação.

Decisão crítica: como escolher o ponto de restauração

Escolher o ponto de restauração é um equilíbrio entre perda aceitável de dados e risco de reinfecção. Critérios práticos para seleção:

Momento de comprometimento estimado: use a timeline (primeiro alerta, primeiro host afetado, primeira credencial usada) e escolha um ponto anterior com margem.
Indicadores de comprometimento: se houver IOC em um período, evite pontos dentro dessa janela.
Validação rápida: antes de restaurar em larga escala, restaurar amostras em zona limpa e executar varreduras/checagens (EDR/antimalware, integridade de binários, revisão de contas e tarefas).
Consistência de aplicações: para bancos e sistemas transacionais, alinhar restore de app + DB + integrações no mesmo “corte” temporal quando necessário.

Inclua no runbook um campo obrigatório: “Justificativa do restore point escolhido” (quem aprovou e com base em quais evidências).

Decisão crítica: restaurar in-place vs. restore para ambiente limpo

Preferir ambiente limpo quando houver dúvida sobre persistência (backdoors, contas criadas, GPO maliciosa, scripts de inicialização).
In-place só quando o escopo estiver claramente contido e houver alta confiança na erradicação, com monitoramento reforçado.

Como evitar reinfecção durante a recuperação

Controle de acesso mínimo: apenas contas nominativas, MFA obrigatório, sem credenciais compartilhadas.
Bloqueio de egress: permitir saída apenas para destinos necessários (atualizações, repositórios internos), com inspeção.
Revisão de persistência: tarefas agendadas, serviços, chaves de registro, scripts de logon, GPO, contas recém-criadas, chaves SSH.
Higiene de imagens: usar imagens “golden” verificadas para reconstrução de servidores/VDIs quando aplicável.
Monitoramento intensivo: alertas para criação de contas, elevação de privilégio, alterações de políticas, picos de I/O e renomeação massiva.

Fase 4 — Validação (provar que voltou e que está limpo o suficiente)

Objetivos

Confirmar integridade técnica (serviços, dados, performance).
Confirmar critérios mínimos de segurança (sem sinais de persistência).
Obter aceite do dono do sistema.

Checklist de validação por sistema (template)

Disponibilidade: serviço sobe, health checks OK, portas esperadas abertas.
Funcional: fluxos críticos testados (login, transação, relatório, integração).
Dados: contagens/amostras, consistência, últimos registros esperados até o ponto de corte.
Segurança: varredura EDR/AV sem detecções, contas e privilégios revisados, sem tarefas/serviços suspeitos.
Logs: geração e envio de logs normalizados para SIEM; alertas habilitados.
Backup pós-restore: somente após validação, reabilitar rotinas de backup com janela controlada.

Inclua um campo de aceite: App Owner: GO/NO-GO com data/hora e observações.

Fase 5 — Retorno à operação (reabrir com controle)

Passo a passo prático

1) Reintrodução gradual: liberar acesso por grupos (TI → usuários-chave → geral), com monitoramento.
2) Reativar integrações em ordem (internas antes de externas), validando filas e retries.
3) Reabilitar backups com política de “primeiro backup pós-incidente” monitorada (taxa de alteração, volumes, erros).
4) Regras temporárias: manter bloqueios de egress e restrições administrativas por período definido.

Comunicações internas: o que dizer, quando dizer, e por qual canal

Princípios

Um canal oficial (fora do e-mail se ele estiver afetado): chat corporativo alternativo, telefone, bridge.
Cadência: atualizações curtas em intervalos fixos (ex.: a cada 30–60 min em SEV-1).
Sem detalhes sensíveis: evitar IOCs e informações que ajudem o atacante em canais amplos.

Modelos de mensagens (templates)

Template 1 — Alerta inicial (para liderança e TI)

Assunto: Incidente SEV-1 em andamento – possível ransomware (em investigação)  Hora: [HH:MM]  Impacto: [sistemas/serviços afetados]  Ações em curso: contenção e preservação de evidências  Próxima atualização: [HH:MM]  Canal oficial: [link/bridge]  IC: [nome]  Segurança/IR: [nome]

Template 2 — Orientação para colaboradores

Estamos tratando uma indisponibilidade de sistemas. Por precaução: 1) não conecte VPN se não for necessário; 2) não abra anexos/links suspeitos; 3) mantenha o computador ligado e conectado; 4) reporte comportamentos anormais para [canal]. Atualizações serão publicadas em [canal] a cada [intervalo].

Template 3 — Status de recuperação (para stakeholders)

Status: [Contenção/Recuperação/Validação]  Serviços restaurados: [lista]  Serviços em progresso: [lista + ETA]  Riscos/pendências: [itens]  Decisões necessárias: [itens + responsável]  Próxima atualização: [HH:MM]

Modelos de fluxos (para colocar no runbook)

Fluxo A — Triagem (10–30 minutos)

Alerta → Confirmar sinais → Definir SEV → Acionar sala de crise → Delimitar escopo inicial → Decidir isolamento e pausa de backups

Fluxo B — Contenção (paralelo à triagem)

Isolar segmentos/hosts → Desabilitar contas suspeitas → Bloquear egress → Preservar logs/evidências → Definir zona limpa

Fluxo C — Recuperação (por ondas)

Escolher restore point → Restaurar identidade → Restaurar plataforma → Restaurar dados/apps por dependência → Validar cada onda → Expandir acesso

Fluxo D — Validação e retorno

Testes técnicos → Testes funcionais → Checagens de segurança → GO/NO-GO do App Owner → Reabrir gradualmente → Reativar backups controlados

Templates de checklist para sala de crise

Checklist 1 — Abertura do incidente (IC + Scribe)

ID do incidente: ____
Hora de início (UTC/local): ____
Severidade declarada: ____ (quem declarou: ____)
Canal oficial e bridge: ____
Participantes e papéis (IC/IR/Infra/Backup/App Owners): ____
Escopo inicial (sistemas/segmentos): ____
Decisões iniciais registradas (isolar? pausar backups?): ____

Checklist 2 — Contenção (Segurança + Infra)

Hosts/segmentos isolados (lista + horário): ____
Contas desabilitadas/resetadas (lista + horário): ____
Bloqueios de egress aplicados (regras + horário): ____
Ferramentas de administração remota restritas (RDP/SSH): ____
Preservação de logs concluída (fontes + local): ____
Ambiente/zona limpa definida e acessos concedidos: ____

Checklist 3 — Backup e restore (Líder de Backup/DR)

Estado do ambiente de backup verificado (alterações suspeitas?): ____
Backups pausados/controle aplicado (quando e como): ____
Restore point candidato (data/hora): ____
Justificativa do restore point (evidências): ____
Restore de amostra em zona limpa executado e verificado: ____
Ordem de restauração aprovada (dependências): ____
Restaurações em andamento (onda 1/2/3): ____

Checklist 4 — Validação e aceite (App Owner + Segurança)

Testes funcionais executados (casos críticos): ____
Verificações de integridade/dados (amostras/contagens): ____
Varredura EDR/AV pós-restore: ____
Revisão de contas/privilégios/persistência: ____
Logs e monitoramento ativos: ____
GO/NO-GO do App Owner (assinatura/horário): ____

Checklist 5 — Comunicação e governança (Comms + IC)

Mensagem inicial enviada (hora/canal): ____
Cadência de updates definida: ____
Status atual publicado (hora): ____
Instruções para usuários (o que fazer/não fazer): ____
Registro de decisões e mudanças mantido atualizado: ____

Decisões críticas resumidas (para colocar como “cartão” no runbook)

Decisão	Critério objetivo	Quem aprova	Registro obrigatório
Isolar sistemas	Criptografia ativa, lateral movement, C2, credencial privilegiada comprometida	Segurança/IR + IC	Lista de ativos + horário + regra aplicada
Pausar backups	Risco de contaminar restore points ou console/credenciais sob ataque	Líder Backup + Segurança	Jobs afetados + estado do repositório + logs exportados
Escolher restore point	Anterior ao comprometimento estimado + validação em zona limpa	Líder Backup + App Owner + Segurança	Justificativa + evidências + aprovação
Retornar à operação	Validação técnica + funcional + checagens mínimas de segurança	IC + App Owner + Segurança	Checklist de aceite + plano de monitoramento

Agora responda o exercício sobre o conteúdo:

Durante um incidente de ransomware, qual característica torna um runbook de recuperação realmente “acionável” e ajuda a reduzir improviso e risco de reinfecção?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Um runbook acionável transforma a estratégia em execução prática: passos curtos e verificáveis, decisões com critérios objetivos (ex.: isolar/pausar backups) e artefatos prontos (checklists, templates), reduzindo improviso e risco de reinfecção.

Próximo capitúlo

Backup e Recuperação contra Ransomware: recuperação por prioridade, RTO/RPO por camadas e estratégias de aceleração

77%

Backup e Recuperação contra Ransomware: estratégia simples e eficaz

Novo curso

13 capítulos

Backup e Recuperação contra Ransomware: plano de recuperação (runbook) para incidente real

O que é um runbook de recuperação (e por que ele precisa ser “acionável”)

Gatilhos de ativação e níveis de severidade

Gatilhos típicos para ativar o runbook

Classificação rápida (exemplo de severidade)

Papéis e responsabilidades (RACI enxuto para incidente)

Fluxo operacional do runbook (modelo em 5 fases)

Visão geral do fluxo

Fase 1 — Triagem (confirmar, delimitar, decidir rápido)

Objetivos

Passo a passo prático

Decisão crítica: quando isolar sistemas

Decisão crítica: quando pausar backups

Fase 2 — Contenção (parar a hemorragia sem destruir evidências)

Objetivos

Passo a passo prático

Como preservar evidências (mínimo viável)

Fase 3 — Recuperação (restaurar na ordem certa, com critérios de segurança)

Princípio: restaurar por dependências

Ordem de restauração sugerida (exemplo genérico)

Decisão crítica: como escolher o ponto de restauração

Decisão crítica: restaurar in-place vs. restore para ambiente limpo

Como evitar reinfecção durante a recuperação

Fase 4 — Validação (provar que voltou e que está limpo o suficiente)

Objetivos

Checklist de validação por sistema (template)

Fase 5 — Retorno à operação (reabrir com controle)

Passo a passo prático

Comunicações internas: o que dizer, quando dizer, e por qual canal

Princípios

Modelos de mensagens (templates)

Modelos de fluxos (para colocar no runbook)

Fluxo A — Triagem (10–30 minutos)

Fluxo B — Contenção (paralelo à triagem)

Fluxo C — Recuperação (por ondas)

Fluxo D — Validação e retorno

Templates de checklist para sala de crise

Checklist 1 — Abertura do incidente (IC + Scribe)

Checklist 2 — Contenção (Segurança + Infra)

Checklist 3 — Backup e restore (Líder de Backup/DR)

Checklist 4 — Validação e aceite (App Owner + Segurança)

Checklist 5 — Comunicação e governança (Comms + IC)

Decisões críticas resumidas (para colocar como “cartão” no runbook)

Durante um incidente de ransomware, qual característica torna um runbook de recuperação realmente “acionável” e ajuda a reduzir improviso e risco de reinfecção?

Backup e Recuperação contra Ransomware: estratégia simples e eficaz

AprendaSegurança da informação

AprendaTecnologia, Informática e Programação