Capa do Ebook gratuito Machine Learning e Deep Learning com Python

Machine Learning e Deep Learning com Python

5

(2)

112 páginas

Princípios de Aprendizado Supervisionado: Overfitting e Underfitting

Capítulo 28

Tempo estimado de leitura: 4 minutos

+ Exercício
Audio Icon

Ouça em áudio

0:00 / 0:00

7.7 Princípios de Aprendizado Supervisionado: Overfitting e Underfitting

O aprendizado supervisionado é um dos pilares fundamentais do Machine Learning (ML), onde o algoritmo aprende a partir de dados rotulados para fazer previsões ou classificações. No entanto, dois dos principais desafios que surgem durante o treinamento de modelos de aprendizado supervisionado são o overfitting e o underfitting. Estes conceitos são cruciais para o desenvolvimento de modelos eficientes e confiáveis.

O que é Overfitting?

Overfitting ocorre quando um modelo de ML aprende os detalhes e o ruído nos dados de treinamento a tal ponto que ele se torna excessivamente complexo e acaba por ter um desempenho ruim em dados novos, não vistos anteriormente. Isso significa que o modelo se ajustou demais aos dados de treinamento, capturando padrões que não são generalizáveis para outros conjuntos de dados.

Causas do Overfitting

  • Complexidade do Modelo: Modelos com muitos parâmetros, como redes neurais profundas, são particularmente propensos ao overfitting, pois têm a capacidade de aprender padrões muito específicos nos dados de treinamento.
  • Poucos Dados: Ter um conjunto de dados de treinamento pequeno pode levar a um modelo que não tem dados suficientes para aprender padrões verdadeiramente generalizáveis.
  • Ruído nos Dados: Se os dados de treinamento contêm muito ruído, o modelo pode acabar aprendendo esse ruído como se fossem características significativas.

Como Evitar o Overfitting

  • Regularização: Técnicas como L1 e L2 adicionam um termo de penalidade à função de custo do modelo para desencorajar a complexidade excessiva.
  • Cross-Validation: Usar validação cruzada permite avaliar como o modelo se generaliza para um conjunto de dados independente durante o treinamento.
  • Podar o Modelo: Reduzir a complexidade do modelo, removendo camadas ou neurônios em redes neurais, ou escolhendo modelos mais simples.
  • Early Stopping: Parar o treinamento assim que o desempenho em um conjunto de dados de validação começa a piorar.
  • Aumento de Dados: Criar novos dados de treinamento artificialmente através de técnicas como rotação, deslocamento ou espelhamento de imagens.

O que é Underfitting?

Underfitting é o oposto do overfitting e ocorre quando um modelo é muito simples para capturar a complexidade dos dados. Como resultado, o modelo não aprende os padrões subjacentes nos dados de treinamento suficientemente bem, levando a um desempenho ruim tanto nos dados de treinamento quanto nos dados de teste.

Causas do Underfitting

  • Modelo Simples Demais: Um modelo com poucos parâmetros ou que não é suficientemente complexo para capturar a estrutura dos dados.
  • Características Inadequadas: Usar um conjunto de características (features) que não captura as informações importantes dos dados.
  • Treinamento Insuficiente: Parar o treinamento muito cedo antes que o modelo tenha tido a chance de aprender adequadamente dos dados.

Como Evitar o Underfitting

  • Aumentar a Complexidade do Modelo: Escolher um modelo mais complexo ou adicionar mais parâmetros pode ajudar a capturar melhor a estrutura dos dados.
  • Engenharia de Características: Criar novas características ou transformar as existentes para melhor representar a informação nos dados.
  • Mais Treinamento: Permitir que o modelo treine por mais tempo pode ajudar a aprender os padrões nos dados de treinamento.

Balanceando Overfitting e Underfitting

Encontrar o equilíbrio certo entre evitar overfitting e underfitting é uma arte e uma ciência. O objetivo é alcançar um bom compromisso entre a capacidade do modelo de generalizar para novos dados (evitando overfitting) e sua habilidade de capturar informações suficientes dos dados de treinamento (evitando underfitting). Isso geralmente é alcançado através de experimentação e ajuste fino dos hiperparâmetros do modelo.

Em resumo, entender e mitigar overfitting e underfitting é essencial para criar modelos de aprendizado de máquina robustos e confiáveis. Ao aplicar técnicas como regularização, validação cruzada, e engenharia de características, podemos melhorar significativamente a capacidade de um modelo de fazer previsões precisas em dados novos e desconhecidos.

Continue em nosso aplicativo

Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.

ou continue lendo abaixo...
Download App

Baixar o aplicativo

Agora responda o exercício sobre o conteúdo:

Qual das seguintes opções descreve corretamente o conceito de overfitting em Machine Learning (ML) e uma técnica para evitá-lo?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Overfitting ocorre quando um modelo de ML aprende padrões muito específicos dos dados de treinamento que não se generalizam bem para novos dados. Técnicas como regularização são usadas para evitar overfitting, pois elas ajudam a controlar a complexidade do modelo, impedindo que ele aprenda o ruído dos dados de treinamento.

Próximo capitúlo

Princípios de Aprendizado Supervisionado: Regularização

Arrow Right Icon
Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.