Todos os cursos > Tecnologia, Informática e Programação > Segurança da informação ::

Continuidade de negócios e recuperação com requisitos mínimos testáveis

Capítulo 15

Tempo estimado de leitura: 14 minutos

Continuidade de negócios e recuperação: o que é e por que “mínimos testáveis” muda o jogo

Continuidade de negócios (Business Continuity) é a capacidade de manter produtos e serviços essenciais operando em níveis aceitáveis durante e após uma interrupção. Recuperação (Disaster Recovery) é o conjunto de ações e recursos para restaurar tecnologia e dados após falhas graves. Na prática, continuidade e recuperação só funcionam quando saem do campo “documento bonito” e viram requisitos mínimos testáveis: critérios objetivos que você consegue verificar em exercícios e evidências, sem depender de opiniões.

“Requisitos mínimos testáveis” significam transformar intenções (“precisamos voltar rápido”) em números, condições e verificações (“restaurar o serviço X em até 4 horas, com perda máxima de 15 minutos de dados, validado por teste trimestral com evidência de logs e checklist assinado”). Isso reduz discussões abstratas e cria um padrão operacional: ou passou no teste, ou não passou.

O foco aqui é desenhar e operar continuidade e recuperação com um conjunto mínimo, porém suficiente, de requisitos que possam ser auditados internamente, repetidos e melhorados. Isso inclui: definir o que é crítico, estabelecer metas de tempo e dados, garantir dependências, preparar runbooks, testar e registrar evidências, e corrigir lacunas com ações rastreáveis.

Interrupção não é só “desastre”: cenários que precisam estar no radar

Uma abordagem prática começa assumindo que interrupções são inevitáveis e variam de pequenas a catastróficas. Exemplos comuns que exigem continuidade/recuperação:

Indisponibilidade de um provedor de nuvem, região ou zona.
Falha de banco de dados, corrupção de dados, exclusão acidental.
Ransomware e indisponibilidade por contenção.
Erro de configuração que derruba um serviço crítico.
Falha elétrica, incêndio, alagamento, indisponibilidade do escritório (quando relevante).
Indisponibilidade de fornecedor essencial (ex.: gateway de pagamento, antifraude, logística).
Indisponibilidade de pessoas-chave (turnover, doença, greve) em processos manuais críticos.

O objetivo não é cobrir todos os cenários com o mesmo nível de investimento, e sim garantir que os serviços críticos tenham um “piso” de recuperação comprovável.

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Conceitos essenciais (sem jargão excessivo) que viram critérios testáveis

RTO, RPO e MTPD: traduzindo para decisões

RTO (Recovery Time Objective) é o tempo máximo aceitável para restaurar um serviço após interrupção. Exemplo: “RTO de 2 horas” significa que, a partir do início do incidente, o serviço deve voltar a operar em até 2 horas.

RPO (Recovery Point Objective) é a perda máxima aceitável de dados medida em tempo. Exemplo: “RPO de 15 minutos” significa que, no pior caso, você aceita perder até 15 minutos de dados (logo, precisa de backups/replicação com frequência compatível).

MTPD (Maximum Tolerable Period of Disruption) é o período máximo que o negócio tolera ficar sem o serviço antes de impactos inaceitáveis (financeiros, regulatórios, reputacionais). Ele ajuda a validar se o RTO proposto faz sentido.

Para serem testáveis, RTO e RPO precisam estar associados a: (1) um serviço bem definido, (2) um ponto de medição (quando começa e quando termina), e (3) um método de validação (logs, métricas, checklist e evidências).

Serviço, sistema e componente: o erro comum que quebra testes

Muitos planos falham porque definem RTO/RPO para “o sistema” sem esclarecer o que é “voltar”. Um serviço pode depender de múltiplos componentes: API, banco, fila, cache, autenticação, DNS, certificados, integrações externas. O requisito mínimo testável deve ser definido no nível do serviço (o que o usuário/negócio precisa) e depois desdobrado em dependências técnicas e operacionais.

Exemplo: “Processar pagamentos” não é só “subir a aplicação”. É também: conexão com adquirente, chaves/certificados válidos, antifraude respondendo, conciliação registrando, monitoramento ativo e capacidade de reprocessar filas.

Passo a passo prático para definir requisitos mínimos testáveis

Passo 1: Liste serviços críticos e defina “o que é operar”

Crie uma lista curta (comece com 5 a 15) de serviços essenciais. Para cada serviço, descreva em uma frase o que significa estar operacional. Use critérios observáveis.

Exemplo (e-commerce): “Checkout operacional” = usuário consegue finalizar compra, pagamento autorizado, pedido registrado no ERP, e e-mail de confirmação enviado (ou enfileirado) em até X minutos.
Exemplo (SaaS B2B): “Login e acesso ao painel” = autenticação funciona, sessão criada, painel carrega em até Y segundos para 95% das requisições.

Esse “definição de pronto” do serviço é a base do teste. Sem isso, o time pode declarar “recuperado” quando ainda há falhas ocultas.

Passo 2: Defina RTO e RPO mínimos por serviço (com justificativa simples)

Para cada serviço crítico, defina RTO e RPO mínimos. Evite valores “aspiracionais” que ninguém consegue cumprir. Comece com um piso realista e evolua.

RTO deve considerar: impacto de indisponibilidade, janelas de pico, dependências externas, capacidade do time.
RPO deve considerar: tolerância a perda de transações, requisitos legais/contratuais, custo de replicação/backup.

Registre também uma justificativa curta (2 a 4 linhas) para evitar discussões futuras e facilitar revisões.

Passo 3: Mapeie dependências mínimas e pontos únicos de falha

Para cada serviço, liste dependências necessárias para cumprir o RTO/RPO. Inclua itens técnicos e operacionais.

Infra: região/zona, cluster, balanceador, DNS, certificados, storage.
Dados: banco primário, réplicas, backups, chaves de criptografia (KMS/HSM), retenção.
Integrações: provedores de pagamento, e-mail/SMS, antifraude, ERP, IAM.
Operação: acesso emergencial, contatos de fornecedores, janelas de mudança, capacidade de atendimento.

Marque pontos únicos de falha (SPOF) que inviabilizam o RTO/RPO. O requisito mínimo testável pode incluir “não pode haver SPOF em X componente” ou “deve existir alternativa manual/contingência” para processos específicos.

Passo 4: Escolha estratégias de recuperação compatíveis com os mínimos

Estratégias comuns, do mais simples ao mais robusto:

Backup e restore: mais barato, geralmente RTO maior; exige testes de restauração e validação de integridade.
Warm standby: ambiente parcialmente pronto, acelera RTO; exige sincronização e automação de failover.
Active-active / multi-região: maior resiliência, custo e complexidade; exige testes de failover frequentes e observabilidade madura.
Contingência manual: para processos de negócio (ex.: registrar pedidos offline), com controles para reconciliação posterior.

O ponto prático: não escolha a estratégia “mais moderna”, escolha a que cumpre o mínimo testável com custo e complexidade aceitáveis.

Passo 5: Transforme o plano em runbooks executáveis (e curtos)

Planos longos falham sob pressão. Crie runbooks (procedimentos operacionais) por serviço, com passos numerados, comandos, links e critérios de sucesso. Um runbook bom cabe em 2 a 6 páginas e pode ser executado por alguém que não foi quem o escreveu.

Estrutura recomendada do runbook:

Objetivo (RTO/RPO, escopo do serviço).
Gatilhos de acionamento (quando executar).
Pré-requisitos (acessos, ferramentas, credenciais, contatos).
Passos de recuperação (com comandos e validações).
Passos de verificação do serviço (testes funcionais e técnicos).
Critérios de “serviço recuperado” (definição de pronto).
Passos de retorno à normalidade (failback) quando aplicável.

Inclua checklists para reduzir erro humano e garantir evidência.

Passo 6: Defina o que será evidência do teste (antes de testar)

“Testável” exige evidência. Defina previamente quais artefatos comprovam que o requisito foi cumprido:

Registro do início e fim do incidente/exercício (timestamp).
Prints ou export de dashboards de disponibilidade/latência.
Logs de execução (pipelines, comandos, eventos de failover).
Checklist preenchido e assinado (responsável e revisor).
Relatório curto com resultado: passou/não passou, desvios e ações.

Sem evidência, o teste vira “achismo” e não sustenta melhoria contínua.

Modelo de requisitos mínimos testáveis (exemplos prontos para adaptar)

Exemplo 1: Serviço de autenticação (login)

RTO: 60 minutos.
RPO: 0 a 5 minutos (dependendo de sessões/tokens e registros).
Critério de recuperação: 95% das tentativas de login bem-sucedidas em até 2 segundos por 30 minutos consecutivos.
Teste mínimo: simular indisponibilidade do nó primário (ou zona) e executar failover; validar com teste sintético e logs.
Evidência: gráfico de latência/erro, log de failover, checklist do runbook.

Exemplo 2: Banco de dados transacional

RTO: 2 horas.
RPO: 15 minutos.
Critério de recuperação: banco restaurado e consistente; aplicação executa transações de leitura/escrita; reconciliação de filas concluída.
Teste mínimo: restauração a partir de backup + aplicação de logs (quando aplicável) em ambiente de recuperação; validação de integridade com queries padrão.
Evidência: tempos de restore, checksums/validações, logs de execução, relatório de divergências.

Exemplo 3: Processo operacional (contingência manual)

RTO: 30 minutos para iniciar operação alternativa.
RPO: não aplicável (ou definido como “registro manual obrigatório”).
Critério de recuperação: equipe consegue registrar solicitações em planilha controlada, com numeração única, e reconciliar no sistema em até 24 horas.
Teste mínimo: simular indisponibilidade do sistema por 1 hora e executar o procedimento manual; depois reconciliar 10 registros.
Evidência: planilha com trilha de auditoria, amostra de reconciliação, checklist.

Como testar sem paralisar a empresa: tipos de testes e frequência mínima

Tipos de teste (do mais leve ao mais realista)

Teste de mesa (tabletop): simulação guiada, valida entendimento e decisões. Bom para começar e para cenários complexos (ransomware, indisponibilidade de fornecedor).
Teste técnico controlado: executar failover/restore em ambiente de homologação ou ambiente de DR isolado; valida runbooks e tempos.
Teste parcial em produção: desligar um componente redundante, simular perda de zona, rodar exercícios de degradação; exige planejamento e monitoramento.
Teste completo (game day): simular indisponibilidade real e operar por um período no ambiente alternativo; maior valor e maior risco.

Frequência mínima recomendada (como requisito testável)

Defina frequências mínimas por criticidade. Um modelo simples:

Serviços críticos: teste técnico ao menos trimestral; tabletop semestral para cenários de crise.
Serviços importantes: teste técnico semestral; tabletop anual.
Serviços de suporte: teste anual ou quando houver mudança relevante.

Transforme isso em requisito: “Serviço X deve ter evidência de teste de recuperação executado nos últimos 90 dias”.

Checklist de desenho: o “mínimo viável” para não falhar no dia ruim

Backups que realmente servem

Backups só contam como capacidade de recuperação se forem restauráveis dentro do RTO e com perda dentro do RPO. Requisitos mínimos testáveis para backups:

Periodicidade compatível com o RPO (ex.: backup incremental a cada 15 min).
Retenção definida (ex.: 30 dias) e imutabilidade quando aplicável.
Restauração testada (ex.: 1 restore por mês por serviço crítico).
Validação de integridade (ex.: checksums, testes de leitura, queries de consistência).
Separação de acesso (ex.: conta/credencial diferente da operação diária) para reduzir risco de ransomware.

Credenciais e acessos de emergência (sem depender de uma pessoa)

Um requisito mínimo testável comum: “Durante o teste, um operador de plantão consegue executar o runbook sem solicitar acesso ad hoc”. Para isso, defina:

Quem pode acionar o modo de emergência.
Como obter credenciais (cofre, break-glass) e como registrar uso.
Como revogar/rotacionar após o evento.

Comunicação e tomada de decisão durante a interrupção

Continuidade falha quando ninguém sabe quem decide. Mesmo sem repetir modelos organizacionais, o requisito mínimo testável pode ser operacional:

Existe um canal de crise (chat/ponte) com template de status.
Existe uma cadência de atualização (ex.: a cada 30 min).
Existe uma regra de escalonamento por tempo (ex.: se 20 min sem progresso, acionar suporte do fornecedor).

Isso pode ser testado em tabletop com evidência de ata e timeline.

Ransomware e destruição lógica: requisitos mínimos específicos

Ransomware não é só indisponibilidade; é perda de confiança nos dados e nos ambientes. Requisitos mínimos testáveis adicionais:

Backups imutáveis e isolados: evidência de configuração e teste de restore a partir do repositório imutável.
Procedimento de rebuild: capacidade de recriar servidores/serviços a partir de imagens confiáveis (infra como código quando aplicável) e validar baseline.
Critério de retorno: serviço só é considerado recuperado após validações de integridade e varreduras definidas (com evidência).
Preservação de evidências: durante o exercício, registrar quais logs e snapshots seriam preservados e por quanto tempo.

Como medir se você está melhorando: métricas operacionais de continuidade

Para manter o tema “testável”, use métricas simples e repetíveis:

Taxa de sucesso de testes: % de testes que cumpriram RTO/RPO.
Desvio de RTO: tempo real de recuperação menos RTO (positivo = atraso).
Tempo para iniciar resposta: do alerta ao início do runbook.
Tempo para decisão de failover: do início do incidente à decisão registrada.
Quantidade de passos manuais: quanto mais manual, maior risco; use como indicador de automação futura.
Itens recorrentes: falhas repetidas em testes (ex.: credencial expirada, runbook desatualizado, dependência não mapeada).

Essas métricas podem virar requisitos mínimos: “Nenhum serviço crítico pode ter 2 testes consecutivos com falha de RTO sem plano de ação aprovado e prazo”.

Template prático: especificação de requisito mínimo testável por serviço

Serviço: [nome do serviço] Versão: [data] Dono: [área/time] Criticidade: [alta/média/baixa] Definição de “operacional”: [critérios observáveis] RTO: [tempo] RPO: [tempo] Estratégia de recuperação: [backup/standby/active-active/manual] Dependências mínimas: - [dep 1] - [dep 2] Runbook: [link/local] Gatilhos de acionamento: [ex.: indisponibilidade > 10 min, corrupção detectada] Teste mínimo: [tipo de teste + escopo] Frequência mínima: [ex.: trimestral] Evidências obrigatórias: - [logs] - [dashboards] - [checklist] Critérios de aprovação do teste: - Cumpriu RTO? (S/N) - Cumpriu RPO? (S/N) - Passou validações funcionais? (S/N) Ações corretivas (se falhar): - [ação] responsável [nome] prazo [data]

Erros comuns que impedem requisitos “testáveis” (e como evitar)

Erro 1: RTO/RPO sem método de medição

Se ninguém sabe quando o relógio começa e termina, o teste vira discussão. Defina: início = horário do acionamento; fim = horário em que os critérios de “operacional” foram validados e registrados.

Erro 2: Runbook que depende de conhecimento tribal

Se o runbook diz “restaurar o banco” sem comandos, caminhos, nomes de recursos e validações, ele não é executável. Exija passos numerados e validações por etapa.

Erro 3: Testar só “subir infraestrutura” e não testar o serviço

Recuperar VM/cluster não garante que o serviço funciona. Inclua testes funcionais mínimos (ex.: criar pedido, autenticar, emitir nota, processar fila) e registre evidência.

Erro 4: Não testar dependências externas

Se o serviço depende de terceiros, inclua no tabletop: como acionar suporte, quais SLAs existem, qual alternativa temporária. Para alguns casos, crie “modo degradado” testável (ex.: aceitar pedidos e enfileirar para processamento posterior).

Erro 5: Falta de controle de mudanças no próprio plano

Runbooks e requisitos envelhecem. Um requisito mínimo testável útil: “Qualquer mudança relevante no serviço (arquitetura, banco, região, fornecedor) exige revisão do runbook e re-teste em até X dias”.

Agora responda o exercício sobre o conteúdo:

Qual combinação descreve melhor requisitos mínimos testáveis para continuidade e recuperação?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Requisitos mínimos testáveis transformam intenções em critérios verificáveis: RTO/RPO por serviço com medição clara, testes recorrentes e evidências (logs, dashboards e checklist). Assim, o resultado não depende de opinião.