7.2 Principios del aprendizaje supervisado: conjuntos de datos: capacitación y pruebas

El aprendizaje supervisado es uno de los pilares fundamentales del aprendizaje automático, donde un algoritmo aprende de ejemplos etiquetados para hacer predicciones o decisiones. El proceso de formación de un modelo de aprendizaje supervisado depende en gran medida de la calidad y división de los conjuntos de datos en formación y prueba. Exploremos estos conceptos con más detalle.

¿Qué es el aprendizaje supervisado?

En el aprendizaje supervisado, trabajamos con un conjunto de datos que incluye entradas (características o características) y salidas deseadas (etiquetas o valores verdaderos). El objetivo es construir un modelo que pueda aprender la relación entre entradas y salidas a partir de estos ejemplos etiquetados, de modo que pueda predecir la salida de datos nuevos, nunca antes vistos.

Conjuntos de datos de entrenamiento y prueba

Para entrenar y evaluar un modelo de manera efectiva, dividimos el conjunto de datos en dos grupos distintos: un conjunto de entrenamiento y un conjunto de prueba. El conjunto de entrenamiento se utiliza para enseñar el modelo, mientras que el conjunto de prueba se utiliza para evaluar su rendimiento y generalización a datos invisibles.

Conjunto de entrenamiento

El conjunto de entrenamiento es el subconjunto más grande del conjunto de datos y se utiliza para ajustar los parámetros del modelo de aprendizaje automático. Durante la fase de entrenamiento, el algoritmo intenta aprender patrones en los datos de entrenamiento que puedan generalizarse a datos nuevos. El tamaño de este conjunto normalmente varía entre el 60% y el 80% del conjunto de datos total, pero esta proporción puede variar según el tamaño del conjunto de datos y la complejidad del problema.

Conjunto de prueba

El conjunto de prueba, por otro lado, es un subconjunto separado que no se utiliza durante el entrenamiento. Se utiliza exclusivamente para evaluar el desempeño del modelo después del entrenamiento. El conjunto de pruebas proporciona una estimación imparcial del rendimiento del modelo en datos invisibles. Generalmente representa entre el 20% y el 40% del conjunto de datos total.

División de datos

La división de datos en conjuntos de entrenamiento y prueba debe realizarse con cuidado para garantizar que ambos representen bien la distribución general de los datos. Una división inadecuada puede llevar a un modelo que no se generaliza bien, lo que se conoce como sobreajuste (cuando el modelo aprende demasiados detalles y ruido del conjunto de entrenamiento) o subajuste (cuando el modelo es demasiado simple y no aprende la estructura de los datos). .< /p>

Técnicas de división

Existen varias técnicas para dividir datos, la más simple es la división aleatoria. Sin embargo, a menudo se utilizan métodos más sofisticados, como la validación cruzada, para garantizar que cada observación del conjunto de datos tenga la posibilidad de aparecer en los conjuntos de entrenamiento y prueba. La validación cruzada de K veces es un ejemplo común, donde el conjunto de datos se divide en K subconjuntos de aproximadamente el mismo tamaño, y el modelo se entrena y prueba K veces, cada vez con un subconjunto diferente como conjunto de prueba.

Importancia de la representatividad

Es crucial que los conjuntos de capacitación y prueba sean representativos de la distribución general de los datos. Esto significa que deben contener una combinación similar de ejemplos de todas las clases o salidas. En algunos casos, puede ser necesario estratificar la división, asegurando que la proporción de clases en cada conjunto sea la misma que la proporción en el conjunto de datos completo.

Desafíos con datos desequilibrados

Cuando trabajamos con conjuntos de datos desequilibrados, donde algunas clases son mucho más frecuentes que otras, la división de la capacitación y las pruebas se vuelve más desafiante. En estos casos, pueden ser necesarias técnicas especiales como el sobremuestreo, el submuestreo o la generación de datos sintéticos para garantizar que el modelo no esté sesgado a favor de las clases más frecuentes.

Conclusión

Los conjuntos de datos de entrenamiento y prueba son fundamentales en el aprendizaje supervisado. Una buena división entre entrenamiento y pruebas es esencial para desarrollar modelos que no solo se ajusten bien a los datos de entrenamiento, sino que también se generalicen bien a datos nuevos. Al aplicar técnicas de división de datos y considerar la representatividad y el equilibrio de las clases, podemos crear modelos de aprendizaje automático robustos y confiables.

En resumen, comprender y aplicar cuidadosamente los principios de aprendizaje supervisado y las técnicas de división de datos son cruciales para el éxito de cualquier proyecto de aprendizaje automático y aprendizaje profundo con Python.

Ahora responde el ejercicio sobre el contenido:

¿Cuál de las siguientes afirmaciones es cierta sobre el aprendizaje supervisado y la división de conjuntos de datos?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Imagen del artículo Principios de aprendizaje supervisado: algoritmos de clasificación 24

Siguiente página del libro electrónico gratuito:

Principios de aprendizaje supervisado: algoritmos de clasificación

Tiempo estimado de lectura: 4 minutos

Descarga la aplicación para obtener una certificación gratuita y escuchar cursos en segundo plano, incluso con la pantalla apagada.

+ 9 millones
estudiantes

Certificado gratuito y
válido con código QR

60 mil ejercicios
gratis

Calificación de 4.8/5
en tiendas de aplicaciones

Cursos gratuitos de
vídeo y audiolibros