Todos os cursos > Tecnologia, Informática e Programação > Hardware e Suporte de TI ::

Diagnóstico de Problemas em PCs com travamentos e congelamentos: temperatura, memória e estabilidade

Capítulo 9

Tempo estimado de leitura: 10 minutos

+ Exercício

O que caracteriza travamento, congelamento e reinício inesperado

Em diagnóstico, diferenciar o tipo de falha ajuda a escolher o caminho de testes:

Congelamento (freeze): imagem e áudio “param”, mouse/teclado não respondem; às vezes o relógio do sistema também para. Pode indicar travamento de driver, GPU, RAM, CPU ou falha de I/O.
Travamento com tela azul (BSOD): o Windows registra um código de parada e geralmente cria um dump. Frequentemente ligado a driver, RAM, armazenamento ou corrupção de sistema.
Reinício súbito: pode ser proteção por temperatura, instabilidade de energia, falha de VRM, ou watchdog de driver (ex.: GPU).
Fechamento de aplicativo: se apenas um programa cai, suspeite de bug do app, conflito de driver, RAM instável em carga específica, ou GPU/codec.

O objetivo do capítulo é montar um método repetível para provocar, medir e isolar a causa, controlando variáveis e registrando condições até a falha.

Método de investigação: uma variável por vez

Princípio

Travamentos aleatórios costumam ter múltiplos fatores (temperatura, perfil de energia, XMP/EXPO, driver, disco). Para não “perseguir fantasmas”, altere apenas uma variável por vez, repita o teste e compare o tempo até falhar.

Ficha de registro (use sempre)

Crie um registro simples (planilha ou caderno) e preencha a cada tentativa:

Data/hora e duração até falha (ou “sem falha em X min”).
Cenário: jogo X, render, navegação, idle, cópia de arquivos, etc.
Carga: CPU (%), GPU (%), uso de RAM, atividade de disco.
Temperaturas: CPU (package), GPU (core/hotspot), SSD (se disponível).
Clocks e limites: clock CPU/GPU, power limit, throttling.
Alteração aplicada: “XMP off”, “fan curve ajustada”, “driver GPU versão Y”, “cabo SATA trocado”.
Sintoma: freeze total, reinício, BSOD (código), artefatos, áudio travado.

Teste	Condição	Temp CPU	Temp GPU	Tempo até falha	Resultado
GPU stress	Driver 551.xx	72°C	86°C / hotspot 104°C	7 min	Freeze + driver reset
GPU stress	Power limit -10%	70°C	80°C / hotspot 96°C	30 min	Sem falha

Etapa 1: Monitorar temperaturas, clocks e sinais de throttling

O que observar

CPU: temperatura do package, clock efetivo, consumo (W), “thermal throttling”.
GPU: temperatura do core e hotspot, clock, consumo, “power limit” e “thermal limit”.
SSD/NVMe: temperatura e quedas bruscas de desempenho (throttling térmico pode causar travadas em carga de I/O).

Passo a passo prático

Abra um monitor de sensores que registre mín/máx e, se possível, faça log em arquivo.
Reproduza o cenário que costuma travar (ou use testes controlados nas etapas seguintes).
Ao ocorrer a falha (ou ao encerrar o teste), anote: pico de temperatura, clocks no momento anterior, e se houve indicação de throttling.
Se a falha for um freeze total, após reiniciar verifique o log: procure por subida rápida de temperatura ou clock instável imediatamente antes do travamento.

Interpretação rápida: se o travamento acontece sempre após atingir uma faixa de temperatura (ex.: GPU hotspot encosta em limite e congela), priorize refrigeração/fluxo de ar e/ou reduzir power/voltagem antes de suspeitar de RAM ou disco.

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Etapa 2: Cooler, pasta térmica e fluxo de ar (checagem direcionada)

O que costuma causar congelamentos por temperatura

Cooler mal fixado, pressão irregular, pasta térmica ressecada ou aplicada de forma inadequada.
Ventoinhas invertidas (entrada/saída), filtros obstruídos, radiador saturado de poeira.
GPU com fans falhando ou curva agressivamente silenciosa, causando hotspot alto.
SSD NVMe sem dissipação em placa-mãe com pouco fluxo de ar.

Passo a passo prático (sem “trocar tudo”)

Valide o óbvio com o PC em carga: confirme se fans sobem RPM quando a temperatura sobe.
Teste de painel aberto: rode o mesmo cenário com a tampa lateral removida. Se o tempo até falha aumentar muito, o problema tende a ser fluxo de ar.
Curva de fan temporária: aumente a curva de CPU/GPU (mais RPM) e repita o teste. Se estabilizar, você achou uma variável relevante.
Checagem de contato: se CPU atinge picos anormais rapidamente, considere remontar o cooler (aperto cruzado) e renovar pasta térmica.
NVMe: se travamentos ocorrem em cópias/instalações, monitore temperatura do SSD; se alta, adicione dissipador/thermal pad adequado ou melhore o fluxo de ar.

Registre sempre a alteração aplicada (ex.: “painel aberto”, “fan 70% fixo”) e compare o tempo até falhar.

Etapa 3: Testar memória RAM com testes dedicados

Por que RAM causa travamentos “aleatórios”

Instabilidade de RAM pode aparecer como freeze, BSOD, corrupção de arquivos, erros em jogos e falhas intermitentes. Perfis XMP/EXPO e overclock de memória são causas comuns, especialmente quando o sistema parece “quase estável”.

Estratégia de isolamento

Comece pelo baseline: desative XMP/EXPO e use configurações padrão (JEDEC). Se estabilizar, a causa provável é perfil/IMC/voltagens/compatibilidade.
Teste por módulo: se possível, teste com um pente por vez no slot recomendado pela placa-mãe.
Teste por slot: um slot defeituoso pode falhar apenas em certas combinações.

Passo a passo prático (roteiro)

Defina um cenário de teste: RAM em padrão (sem XMP/EXPO) e anote.
Execute um teste de memória dedicado por tempo suficiente para pegar falhas intermitentes (não confie em 5 minutos).
Se houver erro: pare, anote em qual configuração ocorreu (módulo/slot/perfil) e repita para confirmar.
Se não houver erro em padrão, reative XMP/EXPO e repita. Se os erros aparecerem apenas com XMP/EXPO, trate como instabilidade de perfil.

Como interpretar resultados:

Erros imediatos: módulo/slot/configuração claramente instável.
Erros após aquecer: pode envolver temperatura, voltagem marginal, ou controlador de memória no limite.
Sem erros, mas travamentos persistem: não descarte RAM ainda; alguns padrões de carga (jogo específico) podem expor falhas que testes genéricos não pegam. Use também estresse combinado (ver etapa 6).

Etapa 4: Verificar integridade e estabilidade do armazenamento

Sintomas típicos ligados a disco/SSD

Travadas durante carregamentos, instalações, compactação/descompactação, cópia de arquivos.
Congelamentos curtos repetidos (stutter) que pioram com atividade de disco.
Erros de leitura, arquivos corrompidos, ou aplicativos fechando ao acessar dados.

Passo a passo prático

Verifique SMART do SSD/HDD e procure indicadores de degradação e erros.
Rode uma verificação de sistema de arquivos (ex.: chkdsk) quando aplicável.
Faça um teste de leitura/gravação controlado e observe: velocidade sustentada, quedas bruscas e temperatura do SSD.
Se suspeitar de cabo/porta (SATA): troque um cabo ou porta por vez e repita o mesmo teste.

Isolamento: se o travamento só ocorre em tarefas de I/O e some em estresse de CPU/GPU, o armazenamento (ou controlador/cabos) sobe na prioridade.

Etapa 5: Analisar eventos do sistema e logs para correlacionar com a falha

O que procurar

Event Viewer (Visualizador de Eventos): erros críticos e recorrentes próximos ao horário do travamento/reinício.
Confiabilidade do Windows (Reliability Monitor): linha do tempo com falhas de aplicativos, travamentos e atualizações.
WHEA: eventos de hardware (muitas vezes CPU/PCIe/RAM) que podem indicar instabilidade.
Driver de vídeo: mensagens de reset/timeout (TDR) sugerem instabilidade de GPU/driver.
Disco: timeouts, resets de controlador, erros de leitura/gravação.

Passo a passo prático

Anote o horário aproximado do travamento.
Abra o Visualizador de Eventos e filtre por Crítico e Erro no intervalo de tempo.
Registre o ID do evento, a fonte e a mensagem principal.
Compare com seus logs de sensores: “erro de driver às 21:14” + “GPU hotspot no limite às 21:13” cria uma correlação útil.

Use logs para confirmar hipóteses, não para adivinhar: o mesmo erro pode ser consequência (ex.: reinício forçado) e não causa.

Etapa 6: Testes de estresse por componente (controlados e com objetivo)

Regras para estressar com segurança

Monitore temperaturas e pare se atingir limites perigosos ou se houver artefatos/cheiro incomum.
Faça testes curtos primeiro (5–10 min) para triagem, depois estenda (30–60+ min) para confirmar estabilidade.
Teste um componente por vez antes de testes combinados.

CPU (estabilidade e temperatura)

Objetivo: descobrir se travamentos aparecem sob carga de CPU e se há throttling/instabilidade de voltagem.

Execute um estresse focado em CPU.
Observe: temperatura, clock efetivo, consumo, e se o sistema congela/reinicia.
Se falhar rapidamente em CPU-only, suspeite de refrigeração, limites de potência, VRM, ou instabilidade de CPU (incluindo undervolt/overclock).

GPU (driver, hotspot e alimentação)

Objetivo: reproduzir falhas típicas de congelamento, artefatos e resets de driver.

Execute um estresse de GPU em tela cheia.
Monitore: temperatura do core e hotspot, clocks, power limit e uso.
Se ocorrer TDR (driver reinicia) ou freeze, teste uma variável: reduzir power limit, ajustar curva de fan, ou trocar versão de driver (uma mudança por vez).

RAM (além do teste dedicado)

Objetivo: pegar instabilidades que surgem com alocação intensa e padrões variados.

Rode um estresse que use grande parte da RAM disponível.
Se o sistema travar sem erro explícito, volte ao baseline (XMP/EXPO off) e repita para comparar.

Armazenamento (I/O sustentado)

Objetivo: identificar timeouts, throttling térmico e quedas de performance que causam travadas.

Faça teste de leitura/gravação sustentada e cópia de arquivos grandes.
Monitore temperatura do SSD e eventos de disco no sistema.
Se falhar apenas quando o SSD aquece, trate como problema térmico/firmware/controle.

Teste combinado (para achar “margens”)

Quando CPU-only e GPU-only passam, mas o PC trava em jogos, use teste combinado (CPU + GPU) para simular consumo total e aquecimento interno. Isso pode revelar:

Fonte/VRM no limite (reinícios).
Gabinete com fluxo de ar insuficiente (temperaturas sobem apenas com carga simultânea).
Instabilidade marginal que só aparece com ruído elétrico/temperatura mais alta.

Roteiro de isolamento rápido (ordem sugerida)

1) Reproduzir e medir

Escolha um cenário reproduzível (ou estresse controlado).
Ative logs de sensores e registre tempo até falha.

2) Temperatura e airflow

Teste painel aberto e curva de fan mais agressiva.
Se melhorar, foque em refrigeração/fluxo de ar antes de trocar peças.

3) Baseline de memória

Desative XMP/EXPO e repita o mesmo teste.
Se estabilizar, o problema é perfil/ajuste/compatibilidade de RAM (ou IMC).

4) Disco e logs

Cheque SMART e eventos de disco.
Correlacione horário do travamento com erros de driver/hardware.

5) Estresse por componente

CPU-only, GPU-only, RAM, armazenamento; depois combinado.
Altere uma variável por vez (power limit, fan curve, driver, perfil de RAM) e compare tempo até falha.

Exemplo prático de investigação (documentando variáveis)

Caso: congela em jogos após 10–20 minutos

Registro inicial: jogo X, 1440p, freeze total em 14 min; GPU hotspot máx 106°C; CPU 78°C.
Variável 1 (fan curve GPU): fans mais agressivas; freeze em 28 min; hotspot 98°C.
Variável 2 (painel aberto): sem alterar mais nada; 60 min sem falha; hotspot 92°C.
Hipótese: fluxo de ar insuficiente e/ou aquecimento da GPU.
Confirmação: teste combinado CPU+GPU com gabinete fechado volta a falhar; com gabinete aberto não falha.

Esse tipo de sequência cria evidência forte e evita trocar RAM/SSD sem necessidade.

Caso: reinicia sob carga mista, sem BSOD

Registro inicial: render + export; reinício em 6 min; temperaturas normais.
CPU-only: 30 min ok.
GPU-only: 30 min ok.
Combinado: reinício em 5–8 min repetidamente.
Hipótese: limite de energia/VRM/fonte, ou proteção acionando sob pico total.
Variável única: reduzir power limit da GPU em 10% e repetir combinado; se estabilizar, indica margem de potência/entrega de energia.

Agora responda o exercício sobre o conteúdo:

Ao diagnosticar travamentos aleatórios em um PC, qual prática torna o processo mais confiável para isolar a causa?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Alterar uma variável por vez e documentar cenário, temperaturas, clocks e tempo até a falha permite comparar testes e evitar conclusões falsas causadas por múltiplas mudanças simultâneas.