Conceptos clave: temperatura, rendimiento y estabilidad
En CPU y GPU, la temperatura no solo afecta la vida útil: afecta el rendimiento (por reducción automática de frecuencias) y la estabilidad (cuelgues, reinicios, apagados por protección). Hay tres fenómenos que debes distinguir:
- Throttling térmico: el procesador reduce frecuencia/voltaje para mantenerse bajo un umbral de temperatura. Síntoma típico: el rendimiento cae en carga sostenida, pero el equipo no necesariamente se apaga.
- Sobrecalentamiento: la temperatura supera lo esperable por el sistema de refrigeración; puede provocar errores, congelamientos o apagados.
- Falla bajo carga: el sistema falla cuando CPU/GPU demandan potencia (reinicio, pantalla negra, driver crash). Puede ser térmico, de potencia (PSU/VRM/cables) o de memoria (VRAM/RAM), y se diferencia con mediciones y pruebas controladas.
Lectura de sensores: qué mirar y cómo interpretarlo
Herramientas recomendadas
- HWiNFO (Windows): lectura detallada de CPU/GPU/VRM, límites y razones de throttling.
- GPU-Z (Windows): sensores de GPU, “PerfCap Reason”, consumo y clocks.
- MSI Afterburner + RivaTuner: overlay para ver en tiempo real temperatura, clocks, voltaje, uso y FPS.
- AMD Adrenalin / NVIDIA App: métricas básicas y control de ventiladores (según modelo).
- lm-sensors (Linux): lectura de sensores (CPU/placa), complementable con herramientas del fabricante.
Sensores críticos (CPU)
- CPU Package / Tctl/Tdie: temperatura principal. En muchos modelos, el límite de throttling está cerca de 95–105 °C (varía por CPU).
- Core Clocks y Effective Clock: si la frecuencia efectiva cae bajo carga sostenida mientras la temperatura está alta, es señal de throttling.
- CPU Power (Package Power) y Current/EDC/TDC (AMD) o PL1/PL2 (Intel): ayudan a diferenciar si el límite es térmico o de potencia.
- Thermal Throttling / Power Limit Exceeded (banderas en HWiNFO): muestran la razón del recorte.
Sensores críticos (GPU)
- GPU Temperature y Hotspot/Junction (si está disponible): el hotspot suele ser más alto; diferencias muy grandes pueden indicar mal contacto o pasta/pads degradados.
- Memory Temperature (en algunas GPUs): si la VRAM se calienta en exceso, aparecen artefactos o caídas de rendimiento.
- GPU Clock, Memory Clock, GPU Power, Voltage.
- PerfCap Reason (GPU-Z): indica si la limitación es por temperatura, potencia, voltaje o confiabilidad.
Sensores de VRM y placa
- VRM MOS, VRM Temperature (si la placa lo expone): VRM caliente puede causar inestabilidad bajo carga incluso con CPU “fría”.
- CPU VRM Current y SoC VRM (según plataforma): útil para correlacionar caídas de voltaje con fallos.
Patrones típicos de diagnóstico con sensores
| Patrón observado | Interpretación probable | Siguiente verificación |
|---|---|---|
| Temperatura sube rápido a límite y clocks caen | Throttling térmico por refrigeración insuficiente o mal contacto | Revisar montaje del disipador, pasta, presión, ventiladores |
| Temperatura normal, pero “Power Limit” activo y clocks caen | Límite de potencia (PL1/PL2, PPT) o VRM/PSU | Revisar límites BIOS/UEFI, cables EPS/PCIe, PSU, VRM |
| GPU hotspot muy alto vs. GPU temp (delta grande) | Contacto deficiente, pasta seca, pads mal asentados | Inspección física, repaste/repads (si procede) |
| Reinicio/pantalla negra al iniciar carga, sin llegar a temperaturas altas | Potencia/cables/VRM/driver | Logs, prueba con otra PSU/cables, DDU y driver estable |
| Artefactos (cuadros, líneas) incluso en frío | VRAM/GPU defectuosa o overclock inestable | Eliminar OC, probar VRAM/underclock, validar en otro equipo |
Evaluación del sistema de refrigeración (CPU y GPU)
Checklist físico del disipador y flujo de aire
- Polvo: aletas del disipador y radiadores obstruidos elevan temperatura bajo carga sostenida.
- Orientación y presión: un disipador mal asentado puede “parecer” bien en reposo y fallar en carga.
- Ventiladores: revisar que giren sin ruido anormal, sin vibración y con RPM coherentes.
- Flujo del gabinete: entrada frontal/ inferior y salida superior/trasera; evita recirculación (cables bloqueando).
- Filtros: filtros saturados reducen caudal.
Curvas PWM: cómo detectar una curva mal configurada
Una curva PWM demasiado “suave” puede permitir picos térmicos que disparan throttling o apagados. Verifica:
- Modo correcto: ventilador PWM en conector PWM (4 pines) y DC en 3 pines; un modo incorrecto puede dejarlo a RPM bajas.
- Sensor de referencia: CPU_FAN debe responder a temperatura de CPU; en algunos casos se puede vincular a “CPU Package” o “VRM”.
- Ramp-up: si la rampa es lenta, la temperatura sube antes de que el ventilador reaccione.
Prueba práctica: fija temporalmente el ventilador al 80–100% y repite la carga. Si el problema desaparece o mejora mucho, la curva o el control del ventilador es parte del problema.
AIO (refrigeración líquida): señales de fallo
- Temperatura sube muy rápido y no se estabiliza, incluso con ventiladores altos: posible bomba detenida o mal conectada.
- RPM de bomba en 0 o errática en sensores.
- Radiador frío mientras CPU está caliente: circulación deficiente.
Aplicación correcta de pasta térmica (guía práctica)
Cuándo sospechar de pasta o montaje
- Temperaturas anormalmente altas tras mantenimiento o cambio de cooler.
- Delta alto entre núcleos (algunos cores mucho más calientes) sin explicación por carga.
- CPU/GPU alcanza límite térmico con cargas moderadas.
Paso a paso (CPU de escritorio)
- Retira el disipador con cuidado (si está muy pegado, calienta ligeramente con unos minutos de uso y apaga).
- Limpieza: elimina pasta vieja de IHS y base del disipador con alcohol isopropílico (ideal >90%) y paño sin pelusa.
- Inspección: revisa que no haya plástico protector en la base del cooler, tornillos dañados o anclajes flojos.
- Aplicación: coloca una cantidad moderada (tamaño “guisante” o línea corta según IHS). Evita exceso que rebalse.
- Montaje: aprieta en cruz (diagonal) en incrementos para distribuir presión uniforme.
- Verificación: enciende, monitorea temperatura en reposo y en carga ligera; luego prueba carga sostenida.
Nota: en GPU, el repaste/repads requiere más cuidado (tornillería, pads de distinto grosor, riesgo de daño). Si no tienes experiencia, prioriza diagnóstico por sensores y pruebas antes de abrir la tarjeta.
Pruebas de estrés controladas con criterios de parada
Objetivo y enfoque
La meta no es “romper” el equipo, sino reproducir el fallo de forma segura y obtener evidencia: temperaturas, clocks, consumo, errores y el momento exacto del colapso.
- Escuche el audio con la pantalla apagada.
- Obtenga un certificado al finalizar.
- ¡Más de 5000 cursos para que explores!
Descargar la aplicación
Preparación
- Activa un overlay con: CPU temp, CPU effective clock, CPU package power; GPU temp/hotspot, GPU clock, GPU power; RPM de ventiladores.
- Registra con logging (HWiNFO/GPU-Z) para ver el evento aunque el sistema se reinicie.
- Desactiva overclocks y undervolts “experimentales” para partir de una base estable.
Pruebas recomendadas (separar CPU y GPU)
- CPU: Cinebench en loop o Prime95 (según objetivo). Para diagnóstico térmico, una carga sostenida de 10–15 min suele bastar para ver estabilización o throttling.
- GPU: 3DMark loop, Unigine o un juego exigente con escena repetible. Evita pruebas extremas sin control si sospechas de potencia.
- Combinada: escenarios que cargan CPU+GPU (por ejemplo, juego + streaming/encode) para detectar límites de PSU/VRM.
Criterios de parada (seguridad del diagnóstico)
- CPU: si se acerca al límite térmico del modelo y se mantiene (o si aparece “Thermal Throttling” constante), detén y pasa a revisar refrigeración.
- GPU: si hotspot/junction se acerca a su umbral y el ventilador ya está alto, detén y revisa flujo de aire/curva/estado térmico.
- Señales de riesgo: olor a caliente, ventiladores que se detienen, artefactos severos, apagado inmediato repetido.
Cómo confirmar throttling vs. fallo
- Throttling: el sistema sigue funcionando, pero clocks bajan y el rendimiento cae; suele ser reproducible y gradual.
- Fallo: congelamiento, reinicio, pantalla negra o cierre del driver; suele ocurrir en un punto de carga/consumo específico.
Diagnóstico de artefactos de video: drivers vs hardware
Qué son artefactos y qué indican
Artefactos son anomalías visuales (píxeles brillantes, líneas, polígonos corruptos, parpadeos). Pueden venir de:
- Driver/software: corrupción del driver, conflicto, configuración inestable.
- Hardware: VRAM defectuosa, GPU degradada, soldaduras, sobretemperatura en memoria, alimentación inestable.
Pruebas para separar software de hardware
- Captura de pantalla: si el artefacto aparece en la captura, suele ser software/driver/render; si no aparece, puede ser salida de video/cable/monitor o fallo físico posterior al render.
- Cambio de API/juego: si solo ocurre en un título o API (DX12 vs DX11), apunta a software.
- DDU + driver estable: desinstala con Display Driver Uninstaller (modo seguro) e instala una versión conocida por estabilidad (no necesariamente la última).
- Modo seguro / driver básico: si desaparece sin el driver del fabricante, sospecha de driver/configuración; si persiste, sospecha de hardware.
- Eliminar OC: restablece clocks de fábrica. Un OC de VRAM es causa común de artefactos.
Indicadores de problema térmico en GPU/VRAM
- Artefactos que aparecen después de varios minutos de carga y empeoran con el tiempo.
- Mejoran al subir ventiladores o abrir el panel lateral (prueba rápida de flujo de aire).
- Temperatura de memoria alta (si hay sensor) o hotspot elevado.
Alimentación PCIe y estabilidad de GPU bajo carga
Qué revisar en la alimentación
- Conectores PCIe: que estén completamente insertados, sin pines flojos ni adaptadores de mala calidad.
- Cables separados: en GPUs de alto consumo, evita “daisy chain” si el fabricante recomienda cables independientes desde la PSU.
- 12VHPWR (si aplica): inserción completa y sin dobleces agresivos cerca del conector; un mal contacto puede causar calentamiento y fallos.
- PSU: capacidad real y calidad; fallos bajo picos de carga pueden causar reinicios sin llegar a temperaturas altas.
Cómo se ve un problema de potencia en métricas
- Caídas bruscas de clocks con “Power” como limitante (PerfCap/Power Limit) sin temperaturas extremas.
- Reinicios o apagados inmediatos al iniciar carga 3D.
- Eventos de driver (TDR) frecuentes: pantalla negra y recuperación del driver, o cierre de aplicaciones 3D.
Diferenciar problema térmico vs potencia vs memoria (guía rápida)
Árbol práctico de verificación
- Reproduce el fallo con logging activo (CPU/GPU/VRM, clocks, potencia, RPM).
- ¿La temperatura llega al umbral y aparece throttling?
- Sí: revisa disipador, pasta, presión, ventiladores, curva PWM, polvo, flujo de aire.
- No: continúa.
- ¿El fallo ocurre al inicio de carga (pico) más que por tiempo?
- Sí: sospecha potencia (PSU, cables PCIe/EPS, VRM).
- No: continúa.
- ¿Hay artefactos o errores gráficos?
- Sí: elimina OC, prueba driver estable con DDU, observa si depende de temperatura; si persiste en múltiples escenarios, sospecha VRAM/GPU.
- No: continúa.
- ¿El rendimiento cae sin apagado, con clocks reducidos?
- Si la razón es térmica: es throttling.
- Si la razón es power limit: revisa límites de potencia, PSU/VRM y configuración.
Ejemplos de casos reales (patrones)
- CPU a 100 °C, clocks bajan, ventilador al 30%: curva PWM incorrecta o ventilador mal controlado; fija RPM alta y corrige curva.
- GPU 70 °C, hotspot 105 °C, caída de clocks: contacto térmico deficiente en GPU; sospecha pasta/pads o presión del disipador.
- Pantalla negra al abrir un benchmark, temperaturas normales: potencia/cables/PSU o driver; revisa PCIe, prueba driver estable, valida con otra PSU si es posible.
- Artefactos tras 10 min de juego, mejora con ventiladores al 100%: VRAM o hotspot térmico; revisar ventilación, curva, estado térmico de la GPU.
Checklist operativo para una sesión de diagnóstico térmico
- Overlay + logging listos (HWiNFO/GPU-Z/Afterburner).
- Ventiladores verificados (RPM, dirección, limpieza) y curva PWM validada.
- Prueba CPU sola, luego GPU sola, luego combinada.
- Criterios de parada definidos antes de iniciar.
- Si el patrón apunta a contacto térmico: repaste/montaje con procedimiento y verificación posterior.
- Si el patrón apunta a potencia: revisar conectores PCIe/EPS, evitar adaptadores dudosos, validar PSU.
- Si el patrón apunta a memoria/VRAM: eliminar OC, probar drivers, observar dependencia con temperatura y reproducibilidad.