Todos os cursos > Concursos > Detran ::

Gestão de Incidentes e Continuidade de Serviços de TI no DETRAN

Capítulo 9

Tempo estimado de leitura: 14 minutos

Conceitos essenciais: incidente, problema e continuidade

Incidente é qualquer interrupção não planejada, degradação ou risco iminente que afete um serviço de TI (ex.: indisponibilidade de agendamento, lentidão no atendimento digital, falha de integração com sistemas externos). O objetivo da Gestão de Incidentes é restaurar o serviço com segurança e rapidez, minimizando impacto ao cidadão e às áreas internas.

Problema é a causa subjacente (ou potencial) de um ou mais incidentes. Um incidente pode ser resolvido com contorno (workaround) sem remover a causa raiz; a investigação de causa raiz e prevenção de recorrência é tratada como problema, mas aqui o foco é o fluxo operacional do incidente e a produção do relatório técnico com causa raiz e plano de ação.

Continuidade de Serviços de TI é a capacidade de manter ou restaurar serviços críticos dentro de objetivos de tempo e perda de dados aceitáveis, mesmo após eventos severos (falhas amplas, indisponibilidade de datacenter, ransomware, vazamento de dados, indisponibilidade de fornecedor).

Processo operacional de gestão de incidentes (fim a fim)

1) Detecção e registro

Fontes comuns de detecção incluem: monitoramento (APM, logs, métricas), alertas de segurança, chamados do service desk, reclamações de usuários, falhas em jobs e integrações. O registro deve ser imediato e padronizado para permitir rastreabilidade e auditoria.

Campos mínimos: data/hora, serviço afetado, sintomas, escopo (quantos usuários/unidades), ambiente (produção/homologação), evidências iniciais (prints, IDs de log), quem detectou, canal de entrada, severidade inicial, status e responsáveis.
Boas práticas: vincular o incidente a itens de configuração (CMDB quando existir), anexar evidências desde o início e registrar todas as ações com carimbo de data/hora.

2) Triagem e classificação

A triagem decide prioridade, rota de atendimento e necessidade de escalonamento. Use uma matriz simples de Impacto x Urgência para definir a prioridade (P1 a P4, por exemplo).

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Impacto: quantos serviços/unidades/cidadãos afetados, impacto em atendimento presencial/digital, risco regulatório e reputacional.
Urgência: tempo tolerável até degradação maior, janelas críticas (ex.: picos de agendamento), dependências externas.
Classificação: categoria (aplicação, integração, infraestrutura, identidade, dados), tipo (indisponibilidade, desempenho, segurança), e se há suspeita de incidente de segurança.

Critério prático: se houver indício de comprometimento (ransomware, exfiltração, credenciais vazadas), trate como incidente de segurança e acione imediatamente o fluxo de preservação de evidências e comunicação restrita.

3) Contenção (reduzir o dano e impedir propagação)

Contenção busca estabilizar o cenário e limitar impacto. Pode ser técnica (bloquear tráfego, isolar host) e operacional (congelar mudanças, restringir acessos).

Exemplos de contenção: retirar nó problemático do balanceador, desabilitar funcionalidade específica via feature flag, bloquear IPs maliciosos, revogar tokens/sessões, isolar endpoint suspeito, pausar integrações para evitar dados inconsistentes.
Cuidados: registrar justificativa, avaliar impacto colateral (ex.: bloquear integração pode afetar emissão de documentos), e preservar evidências antes de ações destrutivas (ex.: limpeza de logs).

4) Erradicação (remover a causa imediata)

Erradicação remove o elemento que mantém o incidente ativo: malware, configuração incorreta, credencial comprometida, componente defeituoso, regra de firewall errada, versão com bug.

Passos típicos: identificar vetor (como ocorreu), remover artefatos, aplicar correção (patch/hotfix), eliminar persistência (tarefas agendadas, contas criadas), revisar permissões e chaves, corrigir configuração e validar integridade.
Critério de segurança: se houver suspeita de comprometimento, considerar rotação de segredos (senhas, chaves, certificados) e revalidação de contas privilegiadas.

5) Recuperação (restaurar serviço e confiança)

Recuperação é devolver o serviço ao nível acordado e confirmar que o ambiente está estável e confiável.

Checklist de recuperação: serviço responde, integrações funcionam, filas/processamentos normalizados, monitoramento sem alertas, usuários-chave validam, e não há sinais de reinfecção/recorrência.
Dados: quando houver restauração, validar consistência e reconciliação (ex.: transações pendentes, registros duplicados, lacunas de processamento).
Retorno gradual: em incidentes graves, liberar por etapas (unidades piloto, percentual de tráfego) para reduzir risco.

6) Lições aprendidas e melhoria contínua

Após estabilização, conduza uma revisão estruturada para capturar causa raiz, falhas de detecção, gaps de processo e ações preventivas.

Entradas: linha do tempo, logs, mudanças recentes, evidências, decisões tomadas e comunicação realizada.
Saídas: causa raiz, fatores contribuintes, ações corretivas/preventivas, atualização de runbooks, ajustes em SLAs/OLAs, melhorias de monitoramento e treinamento.

Runbooks: como construir e manter

Runbook é um guia operacional executável para responder a um tipo de incidente. Ele reduz tempo de resposta, padroniza decisões e facilita escalonamento.

Estrutura recomendada de runbook

Identificação: nome, versão, data, responsáveis, serviços cobertos, pré-requisitos de acesso.
Critérios de acionamento: sintomas, alertas, métricas/limiares, exemplos de mensagens de erro.
Diagnóstico rápido (10–15 min): comandos/consultas, onde olhar logs, como confirmar escopo.
Contenção: ações seguras e reversíveis, com riscos e impactos.
Erradicação: correções possíveis, validações e rollback.
Recuperação: passos para retorno, validação com usuários-chave, checklist pós-retorno.
Escalonamento: quando acionar N2/N3, segurança, fornecedor, gestão; contatos e janelas.
Comunicação: modelos de mensagem para áreas de negócio e status page interna.
Evidências: o que coletar e como armazenar.

Exemplo de runbook (esqueleto) para indisponibilidade de serviço crítico

Runbook: Indisponibilidade do Serviço de Agendamento (Produção) - v1.3  Responsável: Operações/N2  Acionamento: Alerta 5xx > 5% por 5 min OU tempo de resposta p95 > 3s por 10 min  Diagnóstico rápido: 1) Verificar status do balanceador e health checks 2) Conferir erros no gateway/API (códigos, endpoints) 3) Verificar filas/jobs relacionados 4) Checar mudanças nas últimas 2h (deploy/config)  Contenção: - Retirar instância com erro do pool - Ativar página de contingência (se aplicável) - Desabilitar funcionalidade não essencial (feature flag)  Erradicação: - Reverter deploy se correlação com mudança - Corrigir configuração e reiniciar componente com janela controlada  Recuperação: - Validar endpoints críticos - Validar com usuário-chave do atendimento - Monitorar por 30 min sem regressão  Escalonamento: - Se suspeita de ataque, acionar Segurança imediatamente - Se falha em fornecedor, abrir chamado e registrar protocolo  Evidências: - Exportar logs do período T-30min a T+30min - Capturar métricas e IDs de correlação

SLAs e OLAs: acordos que sustentam a operação

SLA (Service Level Agreement) define o nível de serviço esperado pelo negócio (ex.: disponibilidade mensal, tempo de restauração por prioridade). OLA (Operational Level Agreement) define compromissos internos entre equipes para cumprir o SLA (ex.: tempo de atendimento do time de infraestrutura para incidentes P1).

Como definir na prática

Catálogo de serviços: liste serviços e donos (service owner) e identifique quais são críticos ao atendimento.
Prioridades: defina P1/P2/P3/P4 com critérios objetivos (impacto/urgência).
Metas: para cada prioridade, estabeleça tempo de resposta (acknowledgement), tempo de contorno, tempo de restauração e janela de comunicação.
OLAs: decomponha o SLA em tempos internos (triagem, diagnóstico, mudança emergencial, validação).
Indicadores: MTTA (tempo para reconhecer), MTTR (tempo para restaurar), taxa de recorrência, % incidentes com RCA, cumprimento de comunicação.

Comunicação com áreas de negócio: clareza, cadência e controle

Em incidentes, comunicação é parte do controle do impacto. O objetivo é manter áreas de atendimento, gestão e comunicação institucional informadas sem expor dados sensíveis ou especulações.

Regras práticas

Canal único: defina um canal oficial (sala de incidente) e um porta-voz técnico.
Cadência: em P1, atualizações em intervalos fixos (ex.: a cada 15–30 min) mesmo sem novidade, informando o que está sendo feito.
Mensagem orientada a impacto: o negócio precisa saber “o que está fora”, “quem é afetado”, “alternativas”, “previsão” e “próxima atualização”.
Controle de informação: em suspeita de vazamento/ataque, restringir detalhes técnicos a grupos necessários e registrar quem recebeu o quê.

Modelo de atualização de status (interno)

Incidente: [P1] Indisponibilidade do Serviço X  Início: 10:12  Impacto: Unidades A/B e portal externo com falha de acesso  Situação atual: Contenção aplicada (instância removida do pool). Investigação em andamento.  Próximos passos: Validar correlação com mudança das 09:50 e executar rollback se confirmado.  Alternativa operacional: Atendimento orientado a usar fluxo Y temporariamente.  Próxima atualização: 10:45  Responsável técnico: Nome/Equipe

Preservação de evidências (cadeia de custódia operacional)

Preservar evidências é essencial para auditoria, responsabilização, investigação forense e suporte a medidas administrativas/legais. A regra é: coletar antes de alterar quando houver suspeita de incidente de segurança.

O que coletar

Logs: aplicação, autenticação, proxy/gateway, firewall, EDR/antimalware, sistemas operacionais, auditoria.
Artefatos: hashes de arquivos suspeitos, amostras (quando permitido), lista de processos, conexões de rede, tarefas agendadas, usuários e grupos.
Contexto: mudanças recentes, contas usadas, IPs, horários, IDs de correlação, tickets e decisões.

Como preservar

Integridade: exportar em formato imutável quando possível, registrar hash (SHA-256) e horário.
Armazenamento: repositório com controle de acesso e trilha de auditoria.
Registro: quem coletou, quando, de onde, como, e onde foi armazenado.

Continuidade de serviços: BIA, estratégias e planos

BIA (Business Impact Analysis) na prática

BIA identifica serviços críticos, impactos de indisponibilidade e define objetivos de continuidade.

Passo a passo:
1) Listar processos de negócio suportados por TI (ex.: atendimento digital, emissão/consulta, integrações).
2) Para cada processo, estimar impacto por tempo de parada (financeiro, operacional, legal, reputacional).
3) Definir RTO (tempo máximo para restaurar) e RPO (perda máxima de dados aceitável).
4) Mapear dependências: sistemas, integrações, identidade, links, fornecedores, equipes.
5) Priorizar serviços e aprovar com donos do negócio.

Planos de contingência e recuperação

Com base no BIA, construa planos que descrevem como operar durante a falha e como recuperar.

Plano de contingência: procedimentos para manter atendimento com degradação controlada (ex.: filas, agendamento alternativo, operação manual temporária, restrição de funcionalidades).
Plano de recuperação: passos técnicos para restaurar componentes, dados e integrações, com ordem de dependências.
Critérios de acionamento: quando declarar desastre/contingência, quem autoriza e quais comunicações são disparadas.

Testes de continuidade

Planos não testados tendem a falhar. Testes devem ser programados e gerar evidências.

Tipos: teste de mesa (tabletop), simulação parcial (failover de componente), teste completo (quando viável), teste de restauração de backup, teste de comunicação.
Roteiro mínimo: objetivo, escopo, pré-requisitos, métricas (RTO/RPO), papéis, critérios de sucesso, riscos e rollback.
Saídas: relatório de teste, gaps encontrados, ações e prazos.

Resposta a ransomware: fluxo operacional recomendado

Ransomware exige rapidez e disciplina: conter propagação, preservar evidências, avaliar impacto em dados e restaurar com segurança.

Passo a passo (visão operacional)

1) Detecção: alertas de EDR, arquivos criptografados, picos de I/O, notas de resgate, falhas em serviços.
2) Contenção imediata: isolar máquinas/servidores suspeitos da rede, bloquear credenciais comprometidas, segmentar tráfego, suspender compartilhamentos afetados.
3) Preservação: coletar logs, memória (quando aplicável), artefatos e indicadores (IOCs) antes de limpeza.
4) Erradicação: remover persistência, corrigir vetor (phishing, RDP exposto, vulnerabilidade), rotacionar segredos, revisar privilégios.
5) Recuperação: restaurar a partir de backups confiáveis (testados), validar integridade e ausência de reinfecção, reintroduzir serviços por etapas.
6) Comunicação: atualizações regulares ao negócio; comunicação externa somente por canais autorizados.

Ponto crítico: não confiar em backups sem teste de restauração e verificação de integridade. A recuperação deve considerar o risco de reinfecção por credenciais e persistências não removidas.

Resposta a vazamento de dados: contenção e avaliação de exposição

Em vazamento, o foco é interromper a exfiltração, entender o que foi exposto e reduzir danos.

Passo a passo (visão operacional)

1) Detecção: alertas de tráfego anômalo, acessos incomuns, consultas massivas, credenciais em uso indevido.
2) Contenção: revogar sessões/tokens, bloquear origem, desabilitar conta suspeita, aplicar regras temporárias de WAF/firewall, limitar endpoints sensíveis.
3) Preservação: exportar logs de acesso, trilhas de auditoria, evidências de consultas e transferências.
4) Análise de escopo: identificar período, contas, endpoints, volume, tipos de dados e possíveis destinos.
5) Erradicação: corrigir falha (configuração, permissão, vulnerabilidade), rotacionar segredos, reforçar controles.
6) Recuperação: reabilitar acessos com validações, monitorar recorrência, aumentar alertas temporariamente.

Comunicação deve ser coordenada com áreas responsáveis (jurídico, comunicação, governança), mantendo registro do que foi informado e quando.

Simulações (tabletop) com linha do tempo do incidente

Simulações treinam tomada de decisão, comunicação e execução de runbooks. A seguir, um modelo de exercício com linha do tempo e entregáveis.

Simulação 1: indisponibilidade crítica com suspeita de ataque

Objetivo: praticar triagem, contenção, comunicação e preservação de evidências.
Participantes: service desk, N2/N3, segurança, dono do serviço, representante do negócio.
Regras: registrar tudo no ticket, usar canal único, atualizações a cada 20 min.

Linha do tempo (exemplo)

T+0: alerta de 5xx e reclamações de usuários.
T+10: triagem define P1; abre sala de incidente; inicia coleta de logs.
T+20: identifica tráfego anômalo; aplica contenção (bloqueio e isolamento de instância).
T+40: serviço estabiliza parcialmente; decide rollback de mudança recente.
T+60: serviço normaliza; inicia varredura de indicadores e rotação de credenciais críticas.
T+90: validação com negócio; mantém monitoramento reforçado.

Relatório técnico do incidente: causa raiz e plano de ação

O relatório deve ser objetivo, rastreável e acionável. Ele serve para auditoria, aprendizado e prevenção.

Template recomendado

Identificação: ID do incidente, datas/horas (início, detecção, contenção, restauração), prioridade, serviços afetados.
Impacto: escopo, duração, efeitos no atendimento, integrações e usuários.
Linha do tempo: eventos com horários e responsáveis (incluindo decisões e comunicações).
Diagnóstico: hipóteses testadas, evidências coletadas, correlações com mudanças.
Causa raiz: descrição clara (técnica e operacional) e fatores contribuintes.
Correção aplicada: o que foi feito para restaurar e por que funcionou.
Riscos remanescentes: pendências, monitoramento adicional, limitações temporárias.
Plano de ação: ações corretivas e preventivas com responsável, prazo, prioridade e critério de aceite.
Anexos: logs, gráficos, hashes, prints, tickets relacionados, runbook atualizado.

Exemplo de plano de ação (formato prático)

Ação | Tipo | Responsável | Prazo | Critério de aceite  Implementar alerta de anomalia de tráfego no endpoint /login | Preventiva | Operações | 10 dias | Alerta dispara em teste controlado  Revisar permissões de conta de serviço X | Corretiva | Segurança | 5 dias | Conta com menor privilégio e rotação concluída  Atualizar runbook de P1 com checklist de evidências | Preventiva | N2 | 3 dias | Runbook v1.4 publicado e validado em simulação  Agendar teste de restauração (RTO/RPO) do serviço crítico | Preventiva | Continuidade | 20 dias | Relatório de teste com RTO/RPO medidos

Agora responda o exercício sobre o conteúdo:

Durante um incidente de segurança com suspeita de comprometimento (por exemplo, ransomware ou exfiltração), qual prática melhor protege a investigação e a auditoria do que ocorreu?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Em suspeita de comprometimento, a regra operacional é coletar antes de alterar. Preservar logs e artefatos com registro de integridade (ex.: hash) e quem/como coletou mantém a cadeia de custódia e sustenta auditoria e análise forense.