Diagnóstico de Problemas em PCs com travamentos e congelamentos: temperatura, memória e estabilidade

Capítulo 9

Tempo estimado de leitura: 10 minutos

+ Exercício

O que caracteriza travamento, congelamento e reinício inesperado

Em diagnóstico, diferenciar o tipo de falha ajuda a escolher o caminho de testes:

  • Congelamento (freeze): imagem e áudio “param”, mouse/teclado não respondem; às vezes o relógio do sistema também para. Pode indicar travamento de driver, GPU, RAM, CPU ou falha de I/O.
  • Travamento com tela azul (BSOD): o Windows registra um código de parada e geralmente cria um dump. Frequentemente ligado a driver, RAM, armazenamento ou corrupção de sistema.
  • Reinício súbito: pode ser proteção por temperatura, instabilidade de energia, falha de VRM, ou watchdog de driver (ex.: GPU).
  • Fechamento de aplicativo: se apenas um programa cai, suspeite de bug do app, conflito de driver, RAM instável em carga específica, ou GPU/codec.

O objetivo do capítulo é montar um método repetível para provocar, medir e isolar a causa, controlando variáveis e registrando condições até a falha.

Método de investigação: uma variável por vez

Princípio

Travamentos aleatórios costumam ter múltiplos fatores (temperatura, perfil de energia, XMP/EXPO, driver, disco). Para não “perseguir fantasmas”, altere apenas uma variável por vez, repita o teste e compare o tempo até falhar.

Ficha de registro (use sempre)

Crie um registro simples (planilha ou caderno) e preencha a cada tentativa:

  • Data/hora e duração até falha (ou “sem falha em X min”).
  • Cenário: jogo X, render, navegação, idle, cópia de arquivos, etc.
  • Carga: CPU (%), GPU (%), uso de RAM, atividade de disco.
  • Temperaturas: CPU (package), GPU (core/hotspot), SSD (se disponível).
  • Clocks e limites: clock CPU/GPU, power limit, throttling.
  • Alteração aplicada: “XMP off”, “fan curve ajustada”, “driver GPU versão Y”, “cabo SATA trocado”.
  • Sintoma: freeze total, reinício, BSOD (código), artefatos, áudio travado.
TesteCondiçãoTemp CPUTemp GPUTempo até falhaResultado
GPU stressDriver 551.xx72°C86°C / hotspot 104°C7 minFreeze + driver reset
GPU stressPower limit -10%70°C80°C / hotspot 96°C30 minSem falha

Etapa 1: Monitorar temperaturas, clocks e sinais de throttling

O que observar

  • CPU: temperatura do package, clock efetivo, consumo (W), “thermal throttling”.
  • GPU: temperatura do core e hotspot, clock, consumo, “power limit” e “thermal limit”.
  • SSD/NVMe: temperatura e quedas bruscas de desempenho (throttling térmico pode causar travadas em carga de I/O).

Passo a passo prático

  1. Abra um monitor de sensores que registre mín/máx e, se possível, faça log em arquivo.
  2. Reproduza o cenário que costuma travar (ou use testes controlados nas etapas seguintes).
  3. Ao ocorrer a falha (ou ao encerrar o teste), anote: pico de temperatura, clocks no momento anterior, e se houve indicação de throttling.
  4. Se a falha for um freeze total, após reiniciar verifique o log: procure por subida rápida de temperatura ou clock instável imediatamente antes do travamento.

Interpretação rápida: se o travamento acontece sempre após atingir uma faixa de temperatura (ex.: GPU hotspot encosta em limite e congela), priorize refrigeração/fluxo de ar e/ou reduzir power/voltagem antes de suspeitar de RAM ou disco.

Continue em nosso aplicativo e ...
  • Ouça o áudio com a tela desligada
  • Ganhe Certificado após a conclusão
  • + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Download App

Baixar o aplicativo

Etapa 2: Cooler, pasta térmica e fluxo de ar (checagem direcionada)

O que costuma causar congelamentos por temperatura

  • Cooler mal fixado, pressão irregular, pasta térmica ressecada ou aplicada de forma inadequada.
  • Ventoinhas invertidas (entrada/saída), filtros obstruídos, radiador saturado de poeira.
  • GPU com fans falhando ou curva agressivamente silenciosa, causando hotspot alto.
  • SSD NVMe sem dissipação em placa-mãe com pouco fluxo de ar.

Passo a passo prático (sem “trocar tudo”)

  1. Valide o óbvio com o PC em carga: confirme se fans sobem RPM quando a temperatura sobe.
  2. Teste de painel aberto: rode o mesmo cenário com a tampa lateral removida. Se o tempo até falha aumentar muito, o problema tende a ser fluxo de ar.
  3. Curva de fan temporária: aumente a curva de CPU/GPU (mais RPM) e repita o teste. Se estabilizar, você achou uma variável relevante.
  4. Checagem de contato: se CPU atinge picos anormais rapidamente, considere remontar o cooler (aperto cruzado) e renovar pasta térmica.
  5. NVMe: se travamentos ocorrem em cópias/instalações, monitore temperatura do SSD; se alta, adicione dissipador/thermal pad adequado ou melhore o fluxo de ar.

Registre sempre a alteração aplicada (ex.: “painel aberto”, “fan 70% fixo”) e compare o tempo até falhar.

Etapa 3: Testar memória RAM com testes dedicados

Por que RAM causa travamentos “aleatórios”

Instabilidade de RAM pode aparecer como freeze, BSOD, corrupção de arquivos, erros em jogos e falhas intermitentes. Perfis XMP/EXPO e overclock de memória são causas comuns, especialmente quando o sistema parece “quase estável”.

Estratégia de isolamento

  • Comece pelo baseline: desative XMP/EXPO e use configurações padrão (JEDEC). Se estabilizar, a causa provável é perfil/IMC/voltagens/compatibilidade.
  • Teste por módulo: se possível, teste com um pente por vez no slot recomendado pela placa-mãe.
  • Teste por slot: um slot defeituoso pode falhar apenas em certas combinações.

Passo a passo prático (roteiro)

  1. Defina um cenário de teste: RAM em padrão (sem XMP/EXPO) e anote.
  2. Execute um teste de memória dedicado por tempo suficiente para pegar falhas intermitentes (não confie em 5 minutos).
  3. Se houver erro: pare, anote em qual configuração ocorreu (módulo/slot/perfil) e repita para confirmar.
  4. Se não houver erro em padrão, reative XMP/EXPO e repita. Se os erros aparecerem apenas com XMP/EXPO, trate como instabilidade de perfil.

Como interpretar resultados:

  • Erros imediatos: módulo/slot/configuração claramente instável.
  • Erros após aquecer: pode envolver temperatura, voltagem marginal, ou controlador de memória no limite.
  • Sem erros, mas travamentos persistem: não descarte RAM ainda; alguns padrões de carga (jogo específico) podem expor falhas que testes genéricos não pegam. Use também estresse combinado (ver etapa 6).

Etapa 4: Verificar integridade e estabilidade do armazenamento

Sintomas típicos ligados a disco/SSD

  • Travadas durante carregamentos, instalações, compactação/descompactação, cópia de arquivos.
  • Congelamentos curtos repetidos (stutter) que pioram com atividade de disco.
  • Erros de leitura, arquivos corrompidos, ou aplicativos fechando ao acessar dados.

Passo a passo prático

  1. Verifique SMART do SSD/HDD e procure indicadores de degradação e erros.
  2. Rode uma verificação de sistema de arquivos (ex.: chkdsk) quando aplicável.
  3. Faça um teste de leitura/gravação controlado e observe: velocidade sustentada, quedas bruscas e temperatura do SSD.
  4. Se suspeitar de cabo/porta (SATA): troque um cabo ou porta por vez e repita o mesmo teste.

Isolamento: se o travamento só ocorre em tarefas de I/O e some em estresse de CPU/GPU, o armazenamento (ou controlador/cabos) sobe na prioridade.

Etapa 5: Analisar eventos do sistema e logs para correlacionar com a falha

O que procurar

  • Event Viewer (Visualizador de Eventos): erros críticos e recorrentes próximos ao horário do travamento/reinício.
  • Confiabilidade do Windows (Reliability Monitor): linha do tempo com falhas de aplicativos, travamentos e atualizações.
  • WHEA: eventos de hardware (muitas vezes CPU/PCIe/RAM) que podem indicar instabilidade.
  • Driver de vídeo: mensagens de reset/timeout (TDR) sugerem instabilidade de GPU/driver.
  • Disco: timeouts, resets de controlador, erros de leitura/gravação.

Passo a passo prático

  1. Anote o horário aproximado do travamento.
  2. Abra o Visualizador de Eventos e filtre por Crítico e Erro no intervalo de tempo.
  3. Registre o ID do evento, a fonte e a mensagem principal.
  4. Compare com seus logs de sensores: “erro de driver às 21:14” + “GPU hotspot no limite às 21:13” cria uma correlação útil.

Use logs para confirmar hipóteses, não para adivinhar: o mesmo erro pode ser consequência (ex.: reinício forçado) e não causa.

Etapa 6: Testes de estresse por componente (controlados e com objetivo)

Regras para estressar com segurança

  • Monitore temperaturas e pare se atingir limites perigosos ou se houver artefatos/cheiro incomum.
  • Faça testes curtos primeiro (5–10 min) para triagem, depois estenda (30–60+ min) para confirmar estabilidade.
  • Teste um componente por vez antes de testes combinados.

CPU (estabilidade e temperatura)

Objetivo: descobrir se travamentos aparecem sob carga de CPU e se há throttling/instabilidade de voltagem.

  1. Execute um estresse focado em CPU.
  2. Observe: temperatura, clock efetivo, consumo, e se o sistema congela/reinicia.
  3. Se falhar rapidamente em CPU-only, suspeite de refrigeração, limites de potência, VRM, ou instabilidade de CPU (incluindo undervolt/overclock).

GPU (driver, hotspot e alimentação)

Objetivo: reproduzir falhas típicas de congelamento, artefatos e resets de driver.

  1. Execute um estresse de GPU em tela cheia.
  2. Monitore: temperatura do core e hotspot, clocks, power limit e uso.
  3. Se ocorrer TDR (driver reinicia) ou freeze, teste uma variável: reduzir power limit, ajustar curva de fan, ou trocar versão de driver (uma mudança por vez).

RAM (além do teste dedicado)

Objetivo: pegar instabilidades que surgem com alocação intensa e padrões variados.

  1. Rode um estresse que use grande parte da RAM disponível.
  2. Se o sistema travar sem erro explícito, volte ao baseline (XMP/EXPO off) e repita para comparar.

Armazenamento (I/O sustentado)

Objetivo: identificar timeouts, throttling térmico e quedas de performance que causam travadas.

  1. Faça teste de leitura/gravação sustentada e cópia de arquivos grandes.
  2. Monitore temperatura do SSD e eventos de disco no sistema.
  3. Se falhar apenas quando o SSD aquece, trate como problema térmico/firmware/controle.

Teste combinado (para achar “margens”)

Quando CPU-only e GPU-only passam, mas o PC trava em jogos, use teste combinado (CPU + GPU) para simular consumo total e aquecimento interno. Isso pode revelar:

  • Fonte/VRM no limite (reinícios).
  • Gabinete com fluxo de ar insuficiente (temperaturas sobem apenas com carga simultânea).
  • Instabilidade marginal que só aparece com ruído elétrico/temperatura mais alta.

Roteiro de isolamento rápido (ordem sugerida)

1) Reproduzir e medir

  • Escolha um cenário reproduzível (ou estresse controlado).
  • Ative logs de sensores e registre tempo até falha.

2) Temperatura e airflow

  • Teste painel aberto e curva de fan mais agressiva.
  • Se melhorar, foque em refrigeração/fluxo de ar antes de trocar peças.

3) Baseline de memória

  • Desative XMP/EXPO e repita o mesmo teste.
  • Se estabilizar, o problema é perfil/ajuste/compatibilidade de RAM (ou IMC).

4) Disco e logs

  • Cheque SMART e eventos de disco.
  • Correlacione horário do travamento com erros de driver/hardware.

5) Estresse por componente

  • CPU-only, GPU-only, RAM, armazenamento; depois combinado.
  • Altere uma variável por vez (power limit, fan curve, driver, perfil de RAM) e compare tempo até falha.

Exemplo prático de investigação (documentando variáveis)

Caso: congela em jogos após 10–20 minutos

  1. Registro inicial: jogo X, 1440p, freeze total em 14 min; GPU hotspot máx 106°C; CPU 78°C.
  2. Variável 1 (fan curve GPU): fans mais agressivas; freeze em 28 min; hotspot 98°C.
  3. Variável 2 (painel aberto): sem alterar mais nada; 60 min sem falha; hotspot 92°C.
  4. Hipótese: fluxo de ar insuficiente e/ou aquecimento da GPU.
  5. Confirmação: teste combinado CPU+GPU com gabinete fechado volta a falhar; com gabinete aberto não falha.

Esse tipo de sequência cria evidência forte e evita trocar RAM/SSD sem necessidade.

Caso: reinicia sob carga mista, sem BSOD

  1. Registro inicial: render + export; reinício em 6 min; temperaturas normais.
  2. CPU-only: 30 min ok.
  3. GPU-only: 30 min ok.
  4. Combinado: reinício em 5–8 min repetidamente.
  5. Hipótese: limite de energia/VRM/fonte, ou proteção acionando sob pico total.
  6. Variável única: reduzir power limit da GPU em 10% e repetir combinado; se estabilizar, indica margem de potência/entrega de energia.

Agora responda o exercício sobre o conteúdo:

Ao diagnosticar travamentos aleatórios em um PC, qual prática torna o processo mais confiável para isolar a causa?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Alterar uma variável por vez e documentar cenário, temperaturas, clocks e tempo até a falha permite comparar testes e evitar conclusões falsas causadas por múltiplas mudanças simultâneas.

Próximo capitúlo

Diagnóstico de Problemas em PCs lentos: software, disco e gargalos

Arrow Right Icon
Capa do Ebook gratuito Diagnóstico de Problemas em PCs: do Sintoma à Solução
64%

Diagnóstico de Problemas em PCs: do Sintoma à Solução

Novo curso

14 páginas

Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.