Todos os cursos > Tecnologia, Informática e Programação > Inteligência Artificial e Ciência de Dados ::

Princípios de Aprendizado Supervisionado: Balanceamento de Classes

Capítulo 33

Tempo estimado de leitura: 4 minutos

+ Exercício

Ouça em áudio

0:00 / 0:00

7.12. Princípios de Aprendizado Supervisionado: Balanceamento de Classes

O aprendizado supervisionado é uma abordagem fundamental no campo do Machine Learning, onde o modelo é treinado em um conjunto de dados que inclui as entradas e as saídas desejadas. Um dos desafios mais comuns enfrentados durante o treinamento de modelos de aprendizado supervisionado é o desequilíbrio de classes. O balanceamento de classes é crucial para garantir que o modelo não desenvolva viés para a classe majoritária e ignore a classe minoritária, o que pode levar a resultados enganosos e uma performance pobre em dados não vistos.

Em muitos conjuntos de dados reais, a distribuição das classes não é uniforme. Por exemplo, em um conjunto de dados de detecção de fraude, o número de transações legítimas é muito maior do que o número de transações fraudulentas. Se um modelo é treinado nesse conjunto de dados sem qualquer tratamento de balanceamento de classes, ele pode simplesmente aprender a prever a classe majoritária (transações legítimas) e ainda assim alcançar uma alta acurácia, simplesmente porque essa é a classe predominante.

Existem várias técnicas para lidar com o desequilíbrio de classes, e elas podem ser divididas em três categorias principais: métodos de reamostragem, métodos baseados em algoritmos e métodos baseados em custos.

Métodos de Reamostragem

Os métodos de reamostragem ajustam a distribuição das classes no conjunto de dados. Eles podem ser divididos em dois tipos: oversampling e undersampling.

Oversampling: Esta técnica envolve a replicação de exemplos da classe minoritária para aumentar sua representação no conjunto de dados. Uma abordagem popular de oversampling é o SMOTE (Synthetic Minority Over-sampling Technique), que cria exemplos sintéticos da classe minoritária ao invés de simplesmente replicar os existentes.
Undersampling: Por outro lado, o undersampling envolve a remoção de exemplos da classe majoritária para reduzir sua representação. Embora isso possa ajudar a equilibrar as classes, também pode levar à perda de informações importantes.

É importante notar que tanto o oversampling quanto o undersampling têm suas desvantagens. O oversampling pode aumentar o risco de overfitting, pois o modelo pode acabar memorizando os exemplos replicados. Já o undersampling pode descartar informações valiosas que poderiam ser cruciais para o aprendizado do modelo.

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Métodos Baseados em Algoritmos

Alguns algoritmos de aprendizado de máquina podem ser ajustados para lidar melhor com o desequilíbrio de classes. Por exemplo, árvores de decisão e algoritmos baseados em árvores, como Random Forest e Gradient Boosting, permitem ponderar as classes durante o treinamento, o que pode ajudar a mitigar o viés em direção à classe majoritária. Outra abordagem é modificar o algoritmo para que ele se concentre mais nos exemplos da classe minoritária durante o treinamento.

Métodos Baseados em Custos

Os métodos baseados em custos atribuem um custo maior à classificação incorreta da classe minoritária. A ideia é que o modelo será penalizado mais severamente por cometer erros na classe minoritária do que na classe majoritária, incentivando-o a prestar mais atenção à classe minoritária durante o treinamento.

Independentemente do método escolhido, é crucial avaliar o modelo em um conjunto de dados de teste que reflita a distribuição real das classes. Isso pode ser feito usando métricas de avaliação que levam em consideração o desequilíbrio de classes, como a matriz de confusão, precisão, recall, F1-score e a área sob a curva ROC (Receiver Operating Characteristic).

Além disso, é importante realizar uma análise cuidadosa do problema e do conjunto de dados para entender a natureza do desequilíbrio de classes. Em alguns casos, a classe minoritária pode ser mais importante e, portanto, justificar um foco maior durante o treinamento do modelo. Em outros casos, pode ser mais apropriado coletar mais dados para a classe minoritária, se possível.

Em resumo, o balanceamento de classes é um aspecto essencial do aprendizado supervisionado em Machine Learning. Ele requer uma abordagem cuidadosa e considerada, e a escolha da técnica de balanceamento deve ser guiada pelo contexto específico do problema em questão. Ao abordar adequadamente o desequilíbrio de classes, é possível desenvolver modelos mais justos, precisos e robustos, que funcionem bem em todos os segmentos do conjunto de dados e forneçam insights valiosos para tomadas de decisão baseadas em dados.

Agora responda o exercício sobre o conteúdo:

Qual das seguintes afirmações sobre o balanceamento de classes no aprendizado supervisionado de Machine Learning é correta?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

O balanceamento de classes é crucial para evitar que o modelo de Machine Learning desenvolva viés para a classe majoritária, o que pode levar a ignorar a classe minoritária. Isso pode resultar em desempenho pobre em dados não vistos, como descrito no texto.