¿Qué es una neurona artificial?
Una neurona artificial puede entenderse como una función parametrizada que transforma un conjunto de entradas numéricas en una salida. Sus parámetros principales son los pesos (qué tanto influye cada entrada), el sesgo (un ajuste constante) y una función de activación (introduce no linealidad y controla el rango de la salida).
Intuitivamente: los pesos determinan la “importancia” de cada variable de entrada; el sesgo desplaza la decisión; la activación convierte la combinación lineal en una salida útil para el tipo de tarea (por ejemplo, probabilidad, valor continuo, etc.).
Componentes
- Entradas: valores numéricos que describen un ejemplo (por ejemplo, edad, ingresos, temperatura).
- Pesos (
w): un peso por cada entrada. - Sesgo (
b): un término adicional que se suma. - Activación (
f): función aplicada al resultado (por ejemplo, ReLU, sigmoide, identidad).
De neuronas a redes: organización en capas
Una red neuronal se construye conectando neuronas en capas. Cada capa toma un vector de entrada y produce un vector de salida. Al apilar capas, la red aprende transformaciones progresivamente más útiles para el objetivo.
- Capa de entrada: no “calcula” activaciones; representa las variables de entrada (
x). - Capas ocultas: aplican transformaciones (combinación lineal + activación) para extraer representaciones internas.
- Capa de salida: produce la predicción final (clase, probabilidad, valor numérico).
En plataformas de aprendizaje como Coursera, edX o Udacity, suele presentarse esta idea como una tubería: datos → capas (transformaciones) → predicción, donde el aprendizaje consiste en ajustar pesos y sesgos para minimizar un error.
El papel de los datos en el aprendizaje supervisado
En problemas supervisados, cada ejemplo se compone de:
- Escuche el audio con la pantalla apagada.
- Obtenga un certificado al finalizar.
- ¡Más de 5000 cursos para que explores!
Descargar la aplicación
- Variables de entrada (
X): características o “features” (matriz donde cada fila es un ejemplo y cada columna una variable). - Etiquetas (
y): el objetivo que queremos predecir (clase o valor).
Conjuntos de entrenamiento, validación y prueba
- Entrenamiento: se usa para ajustar los parámetros (pesos y sesgos).
- Validación: se usa para tomar decisiones de modelado (por ejemplo, elegir hiperparámetros) sin “mirar” la prueba.
- Prueba: se reserva para estimar el rendimiento final de forma imparcial.
Separar estos conjuntos ayuda a detectar sobreajuste: un modelo puede rendir muy bien en entrenamiento pero fallar en datos nuevos.
Tipos de problema: clasificación y regresión
- Clasificación: la etiqueta es una categoría (por ejemplo, “fraude/no fraude”, “gato/perro”). La salida suele interpretarse como probabilidad o puntuación por clase.
- Regresión: la etiqueta es un valor continuo (por ejemplo, precio de una casa, demanda eléctrica). La salida suele ser un número real.
Preparación de entradas numéricas (preprocesamiento)
Las redes neuronales trabajan con números. Por eso, antes de entrenar, es común transformar los datos para que sean más estables y comparables. A continuación se muestra una guía práctica con pasos típicos.
Guía práctica paso a paso
Separar variables y etiqueta
Construye
Xcon las columnas de entrada yycon la columna objetivo. Verifica tipos: numérico, categórico, fechas, texto, etc.Dividir en train/valid/test
Realiza la división antes de calcular estadísticas de escalado para evitar fuga de información (data leakage). Las transformaciones deben ajustarse con entrenamiento y aplicarse al resto.
Manejo básico de valores faltantes
- Numéricos: imputar con media/mediana del conjunto de entrenamiento, o usar un valor constante (por ejemplo, 0) si tiene sentido.
- Categóricos: imputar con la categoría más frecuente o una categoría “desconocido”.
- Indicador de faltante: opcionalmente añade una columna binaria que marque si el valor estaba ausente; puede ayudar cuando la ausencia es informativa.
Escalado / normalización
Si las variables tienen escalas muy distintas (por ejemplo, ingresos en miles y edad en decenas), el entrenamiento puede volverse inestable o lento. Dos opciones comunes:
- Estandarización (z-score): centra en 0 y escala a desviación estándar 1.
- Normalización min-max: lleva los valores a un rango fijo (por ejemplo, 0 a 1).
Regla práctica: ajusta el escalador con train y aplica la misma transformación a valid y test.
Codificación de clases (one-hot) para clasificación multiclase
Si la etiqueta es una clase entre
Kcategorías (por ejemplo, 0, 1, 2), una representación común es one-hot: un vector de longitudKcon un 1 en la posición de la clase y 0 en el resto.Clase One-hot (K=3) 0 [1, 0, 0]1 [0, 1, 0]2 [0, 0, 1]Esto permite que la red produzca una salida por clase y se entrene comparando vectores.
Verificación final de forma (shape) y tipo
Xdebe ser una matriz numérica de tamaño(n_ejemplos, n_features).ydebe tener el formato esperado: escalar por ejemplo (regresión o clasificación binaria) o vector one-hot (multiclase).
Ejemplo práctico (conceptual) de pipeline
1) Cargar datos y separar X, y 2) Split: train/valid/test 3) Imputar faltantes (fit en train) 4) Escalar variables numéricas (fit en train) 5) One-hot en etiquetas (si aplica) 6) Entrenar red con X_train, y_train 7) Ajustar decisiones con valid 8) Evaluar una vez en testFormulación matemática mínima de una neurona
Sea un vector de entrada con n características:
x = [x1, x2, ..., xn]^T
y un vector de pesos:
w = [w1, w2, ..., wn]^T
La neurona calcula primero una combinación lineal (producto punto) más un sesgo:
z = w · x + b = Σ(i=1..n) wi xi + b
y luego aplica una activación para producir la salida:
ŷ = f(z)
En regresión, a menudo se usa f como identidad (ŷ = z). En clasificación, se usan activaciones que facilitan interpretar la salida como probabilidad o puntuación por clase.