Procesador, GPU y gestión térmica: estabilidad, rendimiento y apagados por temperatura

Capítulo 6

Tiempo estimado de lectura: 10 minutos

+ Ejercicio

Conceptos clave: temperatura, rendimiento y estabilidad

En CPU y GPU, la temperatura no solo afecta la vida útil: afecta el rendimiento (por reducción automática de frecuencias) y la estabilidad (cuelgues, reinicios, apagados por protección). Hay tres fenómenos que debes distinguir:

  • Throttling térmico: el procesador reduce frecuencia/voltaje para mantenerse bajo un umbral de temperatura. Síntoma típico: el rendimiento cae en carga sostenida, pero el equipo no necesariamente se apaga.
  • Sobrecalentamiento: la temperatura supera lo esperable por el sistema de refrigeración; puede provocar errores, congelamientos o apagados.
  • Falla bajo carga: el sistema falla cuando CPU/GPU demandan potencia (reinicio, pantalla negra, driver crash). Puede ser térmico, de potencia (PSU/VRM/cables) o de memoria (VRAM/RAM), y se diferencia con mediciones y pruebas controladas.

Lectura de sensores: qué mirar y cómo interpretarlo

Herramientas recomendadas

  • HWiNFO (Windows): lectura detallada de CPU/GPU/VRM, límites y razones de throttling.
  • GPU-Z (Windows): sensores de GPU, “PerfCap Reason”, consumo y clocks.
  • MSI Afterburner + RivaTuner: overlay para ver en tiempo real temperatura, clocks, voltaje, uso y FPS.
  • AMD Adrenalin / NVIDIA App: métricas básicas y control de ventiladores (según modelo).
  • lm-sensors (Linux): lectura de sensores (CPU/placa), complementable con herramientas del fabricante.

Sensores críticos (CPU)

  • CPU Package / Tctl/Tdie: temperatura principal. En muchos modelos, el límite de throttling está cerca de 95–105 °C (varía por CPU).
  • Core Clocks y Effective Clock: si la frecuencia efectiva cae bajo carga sostenida mientras la temperatura está alta, es señal de throttling.
  • CPU Power (Package Power) y Current/EDC/TDC (AMD) o PL1/PL2 (Intel): ayudan a diferenciar si el límite es térmico o de potencia.
  • Thermal Throttling / Power Limit Exceeded (banderas en HWiNFO): muestran la razón del recorte.

Sensores críticos (GPU)

  • GPU Temperature y Hotspot/Junction (si está disponible): el hotspot suele ser más alto; diferencias muy grandes pueden indicar mal contacto o pasta/pads degradados.
  • Memory Temperature (en algunas GPUs): si la VRAM se calienta en exceso, aparecen artefactos o caídas de rendimiento.
  • GPU Clock, Memory Clock, GPU Power, Voltage.
  • PerfCap Reason (GPU-Z): indica si la limitación es por temperatura, potencia, voltaje o confiabilidad.

Sensores de VRM y placa

  • VRM MOS, VRM Temperature (si la placa lo expone): VRM caliente puede causar inestabilidad bajo carga incluso con CPU “fría”.
  • CPU VRM Current y SoC VRM (según plataforma): útil para correlacionar caídas de voltaje con fallos.

Patrones típicos de diagnóstico con sensores

Patrón observadoInterpretación probableSiguiente verificación
Temperatura sube rápido a límite y clocks caenThrottling térmico por refrigeración insuficiente o mal contactoRevisar montaje del disipador, pasta, presión, ventiladores
Temperatura normal, pero “Power Limit” activo y clocks caenLímite de potencia (PL1/PL2, PPT) o VRM/PSURevisar límites BIOS/UEFI, cables EPS/PCIe, PSU, VRM
GPU hotspot muy alto vs. GPU temp (delta grande)Contacto deficiente, pasta seca, pads mal asentadosInspección física, repaste/repads (si procede)
Reinicio/pantalla negra al iniciar carga, sin llegar a temperaturas altasPotencia/cables/VRM/driverLogs, prueba con otra PSU/cables, DDU y driver estable
Artefactos (cuadros, líneas) incluso en fríoVRAM/GPU defectuosa o overclock inestableEliminar OC, probar VRAM/underclock, validar en otro equipo

Evaluación del sistema de refrigeración (CPU y GPU)

Checklist físico del disipador y flujo de aire

  • Polvo: aletas del disipador y radiadores obstruidos elevan temperatura bajo carga sostenida.
  • Orientación y presión: un disipador mal asentado puede “parecer” bien en reposo y fallar en carga.
  • Ventiladores: revisar que giren sin ruido anormal, sin vibración y con RPM coherentes.
  • Flujo del gabinete: entrada frontal/ inferior y salida superior/trasera; evita recirculación (cables bloqueando).
  • Filtros: filtros saturados reducen caudal.

Curvas PWM: cómo detectar una curva mal configurada

Una curva PWM demasiado “suave” puede permitir picos térmicos que disparan throttling o apagados. Verifica:

  • Modo correcto: ventilador PWM en conector PWM (4 pines) y DC en 3 pines; un modo incorrecto puede dejarlo a RPM bajas.
  • Sensor de referencia: CPU_FAN debe responder a temperatura de CPU; en algunos casos se puede vincular a “CPU Package” o “VRM”.
  • Ramp-up: si la rampa es lenta, la temperatura sube antes de que el ventilador reaccione.

Prueba práctica: fija temporalmente el ventilador al 80–100% y repite la carga. Si el problema desaparece o mejora mucho, la curva o el control del ventilador es parte del problema.

AIO (refrigeración líquida): señales de fallo

  • Temperatura sube muy rápido y no se estabiliza, incluso con ventiladores altos: posible bomba detenida o mal conectada.
  • RPM de bomba en 0 o errática en sensores.
  • Radiador frío mientras CPU está caliente: circulación deficiente.

Aplicación correcta de pasta térmica (guía práctica)

Cuándo sospechar de pasta o montaje

  • Temperaturas anormalmente altas tras mantenimiento o cambio de cooler.
  • Delta alto entre núcleos (algunos cores mucho más calientes) sin explicación por carga.
  • CPU/GPU alcanza límite térmico con cargas moderadas.

Paso a paso (CPU de escritorio)

  1. Retira el disipador con cuidado (si está muy pegado, calienta ligeramente con unos minutos de uso y apaga).
  2. Limpieza: elimina pasta vieja de IHS y base del disipador con alcohol isopropílico (ideal >90%) y paño sin pelusa.
  3. Inspección: revisa que no haya plástico protector en la base del cooler, tornillos dañados o anclajes flojos.
  4. Aplicación: coloca una cantidad moderada (tamaño “guisante” o línea corta según IHS). Evita exceso que rebalse.
  5. Montaje: aprieta en cruz (diagonal) en incrementos para distribuir presión uniforme.
  6. Verificación: enciende, monitorea temperatura en reposo y en carga ligera; luego prueba carga sostenida.

Nota: en GPU, el repaste/repads requiere más cuidado (tornillería, pads de distinto grosor, riesgo de daño). Si no tienes experiencia, prioriza diagnóstico por sensores y pruebas antes de abrir la tarjeta.

Pruebas de estrés controladas con criterios de parada

Objetivo y enfoque

La meta no es “romper” el equipo, sino reproducir el fallo de forma segura y obtener evidencia: temperaturas, clocks, consumo, errores y el momento exacto del colapso.

Continúa en nuestra aplicación.
  • Escuche el audio con la pantalla apagada.
  • Obtenga un certificado al finalizar.
  • ¡Más de 5000 cursos para que explores!
O continúa leyendo más abajo...
Download App

Descargar la aplicación

Preparación

  • Activa un overlay con: CPU temp, CPU effective clock, CPU package power; GPU temp/hotspot, GPU clock, GPU power; RPM de ventiladores.
  • Registra con logging (HWiNFO/GPU-Z) para ver el evento aunque el sistema se reinicie.
  • Desactiva overclocks y undervolts “experimentales” para partir de una base estable.

Pruebas recomendadas (separar CPU y GPU)

  • CPU: Cinebench en loop o Prime95 (según objetivo). Para diagnóstico térmico, una carga sostenida de 10–15 min suele bastar para ver estabilización o throttling.
  • GPU: 3DMark loop, Unigine o un juego exigente con escena repetible. Evita pruebas extremas sin control si sospechas de potencia.
  • Combinada: escenarios que cargan CPU+GPU (por ejemplo, juego + streaming/encode) para detectar límites de PSU/VRM.

Criterios de parada (seguridad del diagnóstico)

  • CPU: si se acerca al límite térmico del modelo y se mantiene (o si aparece “Thermal Throttling” constante), detén y pasa a revisar refrigeración.
  • GPU: si hotspot/junction se acerca a su umbral y el ventilador ya está alto, detén y revisa flujo de aire/curva/estado térmico.
  • Señales de riesgo: olor a caliente, ventiladores que se detienen, artefactos severos, apagado inmediato repetido.

Cómo confirmar throttling vs. fallo

  • Throttling: el sistema sigue funcionando, pero clocks bajan y el rendimiento cae; suele ser reproducible y gradual.
  • Fallo: congelamiento, reinicio, pantalla negra o cierre del driver; suele ocurrir en un punto de carga/consumo específico.

Diagnóstico de artefactos de video: drivers vs hardware

Qué son artefactos y qué indican

Artefactos son anomalías visuales (píxeles brillantes, líneas, polígonos corruptos, parpadeos). Pueden venir de:

  • Driver/software: corrupción del driver, conflicto, configuración inestable.
  • Hardware: VRAM defectuosa, GPU degradada, soldaduras, sobretemperatura en memoria, alimentación inestable.

Pruebas para separar software de hardware

  • Captura de pantalla: si el artefacto aparece en la captura, suele ser software/driver/render; si no aparece, puede ser salida de video/cable/monitor o fallo físico posterior al render.
  • Cambio de API/juego: si solo ocurre en un título o API (DX12 vs DX11), apunta a software.
  • DDU + driver estable: desinstala con Display Driver Uninstaller (modo seguro) e instala una versión conocida por estabilidad (no necesariamente la última).
  • Modo seguro / driver básico: si desaparece sin el driver del fabricante, sospecha de driver/configuración; si persiste, sospecha de hardware.
  • Eliminar OC: restablece clocks de fábrica. Un OC de VRAM es causa común de artefactos.

Indicadores de problema térmico en GPU/VRAM

  • Artefactos que aparecen después de varios minutos de carga y empeoran con el tiempo.
  • Mejoran al subir ventiladores o abrir el panel lateral (prueba rápida de flujo de aire).
  • Temperatura de memoria alta (si hay sensor) o hotspot elevado.

Alimentación PCIe y estabilidad de GPU bajo carga

Qué revisar en la alimentación

  • Conectores PCIe: que estén completamente insertados, sin pines flojos ni adaptadores de mala calidad.
  • Cables separados: en GPUs de alto consumo, evita “daisy chain” si el fabricante recomienda cables independientes desde la PSU.
  • 12VHPWR (si aplica): inserción completa y sin dobleces agresivos cerca del conector; un mal contacto puede causar calentamiento y fallos.
  • PSU: capacidad real y calidad; fallos bajo picos de carga pueden causar reinicios sin llegar a temperaturas altas.

Cómo se ve un problema de potencia en métricas

  • Caídas bruscas de clocks con “Power” como limitante (PerfCap/Power Limit) sin temperaturas extremas.
  • Reinicios o apagados inmediatos al iniciar carga 3D.
  • Eventos de driver (TDR) frecuentes: pantalla negra y recuperación del driver, o cierre de aplicaciones 3D.

Diferenciar problema térmico vs potencia vs memoria (guía rápida)

Árbol práctico de verificación

  1. Reproduce el fallo con logging activo (CPU/GPU/VRM, clocks, potencia, RPM).
  2. ¿La temperatura llega al umbral y aparece throttling?
    • Sí: revisa disipador, pasta, presión, ventiladores, curva PWM, polvo, flujo de aire.
    • No: continúa.
  3. ¿El fallo ocurre al inicio de carga (pico) más que por tiempo?
    • Sí: sospecha potencia (PSU, cables PCIe/EPS, VRM).
    • No: continúa.
  4. ¿Hay artefactos o errores gráficos?
    • Sí: elimina OC, prueba driver estable con DDU, observa si depende de temperatura; si persiste en múltiples escenarios, sospecha VRAM/GPU.
    • No: continúa.
  5. ¿El rendimiento cae sin apagado, con clocks reducidos?
    • Si la razón es térmica: es throttling.
    • Si la razón es power limit: revisa límites de potencia, PSU/VRM y configuración.

Ejemplos de casos reales (patrones)

  • CPU a 100 °C, clocks bajan, ventilador al 30%: curva PWM incorrecta o ventilador mal controlado; fija RPM alta y corrige curva.
  • GPU 70 °C, hotspot 105 °C, caída de clocks: contacto térmico deficiente en GPU; sospecha pasta/pads o presión del disipador.
  • Pantalla negra al abrir un benchmark, temperaturas normales: potencia/cables/PSU o driver; revisa PCIe, prueba driver estable, valida con otra PSU si es posible.
  • Artefactos tras 10 min de juego, mejora con ventiladores al 100%: VRAM o hotspot térmico; revisar ventilación, curva, estado térmico de la GPU.

Checklist operativo para una sesión de diagnóstico térmico

  • Overlay + logging listos (HWiNFO/GPU-Z/Afterburner).
  • Ventiladores verificados (RPM, dirección, limpieza) y curva PWM validada.
  • Prueba CPU sola, luego GPU sola, luego combinada.
  • Criterios de parada definidos antes de iniciar.
  • Si el patrón apunta a contacto térmico: repaste/montaje con procedimiento y verificación posterior.
  • Si el patrón apunta a potencia: revisar conectores PCIe/EPS, evitar adaptadores dudosos, validar PSU.
  • Si el patrón apunta a memoria/VRAM: eliminar OC, probar drivers, observar dependencia con temperatura y reproducibilidad.

Ahora responde el ejercicio sobre el contenido:

Durante una prueba de estrés con overlay y logging, el equipo no se apaga pero el rendimiento cae de forma gradual en carga sostenida y se observan clocks reducidos mientras la temperatura está alta. ¿Qué fenómeno describe mejor esta situación?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Si la temperatura sube y, sin apagarse el equipo, los clocks bajan en carga sostenida con una caída gradual de rendimiento, lo típico es throttling térmico. Una falla de potencia suele provocar reinicios/pantalla negra, y la VRAM suele manifestarse con artefactos.

Siguiente capítulo

Sistema operativo y controladores: fallas recurrentes, registros y reparación

Arrow Right Icon
Portada de libro electrónico gratuitaDiagnóstico de PCs: Del Síntoma a la Solución Paso a Paso
60%

Diagnóstico de PCs: Del Síntoma a la Solución Paso a Paso

Nuevo curso

10 páginas

Descarga la aplicación para obtener una certificación gratuita y escuchar cursos en segundo plano, incluso con la pantalla apagada.