Fundamentos de redes neuronales artificiales y representación de datos

Capítulo 1

Tiempo estimado de lectura: 5 minutos

+ Ejercicio

¿Qué es una neurona artificial?

Una neurona artificial puede entenderse como una función parametrizada que transforma un conjunto de entradas numéricas en una salida. Sus parámetros principales son los pesos (qué tanto influye cada entrada), el sesgo (un ajuste constante) y una función de activación (introduce no linealidad y controla el rango de la salida).

Intuitivamente: los pesos determinan la “importancia” de cada variable de entrada; el sesgo desplaza la decisión; la activación convierte la combinación lineal en una salida útil para el tipo de tarea (por ejemplo, probabilidad, valor continuo, etc.).

Componentes

  • Entradas: valores numéricos que describen un ejemplo (por ejemplo, edad, ingresos, temperatura).
  • Pesos (w): un peso por cada entrada.
  • Sesgo (b): un término adicional que se suma.
  • Activación (f): función aplicada al resultado (por ejemplo, ReLU, sigmoide, identidad).

De neuronas a redes: organización en capas

Una red neuronal se construye conectando neuronas en capas. Cada capa toma un vector de entrada y produce un vector de salida. Al apilar capas, la red aprende transformaciones progresivamente más útiles para el objetivo.

  • Capa de entrada: no “calcula” activaciones; representa las variables de entrada (x).
  • Capas ocultas: aplican transformaciones (combinación lineal + activación) para extraer representaciones internas.
  • Capa de salida: produce la predicción final (clase, probabilidad, valor numérico).

En plataformas de aprendizaje como Coursera, edX o Udacity, suele presentarse esta idea como una tubería: datos → capas (transformaciones) → predicción, donde el aprendizaje consiste en ajustar pesos y sesgos para minimizar un error.

El papel de los datos en el aprendizaje supervisado

En problemas supervisados, cada ejemplo se compone de:

Continúa en nuestra aplicación.
  • Escuche el audio con la pantalla apagada.
  • Obtenga un certificado al finalizar.
  • ¡Más de 5000 cursos para que explores!
O continúa leyendo más abajo...
Download App

Descargar la aplicación

  • Variables de entrada (X): características o “features” (matriz donde cada fila es un ejemplo y cada columna una variable).
  • Etiquetas (y): el objetivo que queremos predecir (clase o valor).

Conjuntos de entrenamiento, validación y prueba

  • Entrenamiento: se usa para ajustar los parámetros (pesos y sesgos).
  • Validación: se usa para tomar decisiones de modelado (por ejemplo, elegir hiperparámetros) sin “mirar” la prueba.
  • Prueba: se reserva para estimar el rendimiento final de forma imparcial.

Separar estos conjuntos ayuda a detectar sobreajuste: un modelo puede rendir muy bien en entrenamiento pero fallar en datos nuevos.

Tipos de problema: clasificación y regresión

  • Clasificación: la etiqueta es una categoría (por ejemplo, “fraude/no fraude”, “gato/perro”). La salida suele interpretarse como probabilidad o puntuación por clase.
  • Regresión: la etiqueta es un valor continuo (por ejemplo, precio de una casa, demanda eléctrica). La salida suele ser un número real.

Preparación de entradas numéricas (preprocesamiento)

Las redes neuronales trabajan con números. Por eso, antes de entrenar, es común transformar los datos para que sean más estables y comparables. A continuación se muestra una guía práctica con pasos típicos.

Guía práctica paso a paso

  1. Separar variables y etiqueta

    Construye X con las columnas de entrada y y con la columna objetivo. Verifica tipos: numérico, categórico, fechas, texto, etc.

  2. Dividir en train/valid/test

    Realiza la división antes de calcular estadísticas de escalado para evitar fuga de información (data leakage). Las transformaciones deben ajustarse con entrenamiento y aplicarse al resto.

  3. Manejo básico de valores faltantes

    • Numéricos: imputar con media/mediana del conjunto de entrenamiento, o usar un valor constante (por ejemplo, 0) si tiene sentido.
    • Categóricos: imputar con la categoría más frecuente o una categoría “desconocido”.
    • Indicador de faltante: opcionalmente añade una columna binaria que marque si el valor estaba ausente; puede ayudar cuando la ausencia es informativa.
  4. Escalado / normalización

    Si las variables tienen escalas muy distintas (por ejemplo, ingresos en miles y edad en decenas), el entrenamiento puede volverse inestable o lento. Dos opciones comunes:

    • Estandarización (z-score): centra en 0 y escala a desviación estándar 1.
    • Normalización min-max: lleva los valores a un rango fijo (por ejemplo, 0 a 1).

    Regla práctica: ajusta el escalador con train y aplica la misma transformación a valid y test.

  5. Codificación de clases (one-hot) para clasificación multiclase

    Si la etiqueta es una clase entre K categorías (por ejemplo, 0, 1, 2), una representación común es one-hot: un vector de longitud K con un 1 en la posición de la clase y 0 en el resto.

    ClaseOne-hot (K=3)
    0[1, 0, 0]
    1[0, 1, 0]
    2[0, 0, 1]

    Esto permite que la red produzca una salida por clase y se entrene comparando vectores.

  6. Verificación final de forma (shape) y tipo

    • X debe ser una matriz numérica de tamaño (n_ejemplos, n_features).
    • y debe tener el formato esperado: escalar por ejemplo (regresión o clasificación binaria) o vector one-hot (multiclase).

Ejemplo práctico (conceptual) de pipeline

1) Cargar datos y separar X, y 2) Split: train/valid/test 3) Imputar faltantes (fit en train) 4) Escalar variables numéricas (fit en train) 5) One-hot en etiquetas (si aplica) 6) Entrenar red con X_train, y_train 7) Ajustar decisiones con valid 8) Evaluar una vez en test

Formulación matemática mínima de una neurona

Sea un vector de entrada con n características:

x = [x1, x2, ..., xn]^T

y un vector de pesos:

w = [w1, w2, ..., wn]^T

La neurona calcula primero una combinación lineal (producto punto) más un sesgo:

z = w · x + b = Σ(i=1..n) wi xi + b

y luego aplica una activación para producir la salida:

ŷ = f(z)

En regresión, a menudo se usa f como identidad (ŷ = z). En clasificación, se usan activaciones que facilitan interpretar la salida como probabilidad o puntuación por clase.

Ahora responde el ejercicio sobre el contenido:

¿Cuál es la razón principal para dividir los datos en conjuntos de entrenamiento, validación y prueba en aprendizaje supervisado?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

La separación en train/valid/test permite entrenar ajustando pesos y sesgos, usar validación para decisiones de modelado sin “mirar” la prueba y reservar test para una evaluación final imparcial, lo que ayuda a detectar sobreajuste.

Siguiente capítulo

Perceptrón y clasificación lineal con redes neuronales

Arrow Right Icon
Portada de libro electrónico gratuitaIntroducción a las Redes Neuronales: Del Perceptrón al Deep Learning
8%

Introducción a las Redes Neuronales: Del Perceptrón al Deep Learning

Nuevo curso

13 páginas

Descarga la aplicación para obtener una certificación gratuita y escuchar cursos en segundo plano, incluso con la pantalla apagada.