7.12. Princípios de Aprendizado Supervisionado: Balanceamento de Classes

Página 33

7.12. Princípios de Aprendizado Supervisionado: Balanceamento de Classes

O aprendizado supervisionado é uma abordagem fundamental no campo do Machine Learning, onde o modelo é treinado em um conjunto de dados que inclui as entradas e as saídas desejadas. Um dos desafios mais comuns enfrentados durante o treinamento de modelos de aprendizado supervisionado é o desequilíbrio de classes. O balanceamento de classes é crucial para garantir que o modelo não desenvolva viés para a classe majoritária e ignore a classe minoritária, o que pode levar a resultados enganosos e uma performance pobre em dados não vistos.

Em muitos conjuntos de dados reais, a distribuição das classes não é uniforme. Por exemplo, em um conjunto de dados de detecção de fraude, o número de transações legítimas é muito maior do que o número de transações fraudulentas. Se um modelo é treinado nesse conjunto de dados sem qualquer tratamento de balanceamento de classes, ele pode simplesmente aprender a prever a classe majoritária (transações legítimas) e ainda assim alcançar uma alta acurácia, simplesmente porque essa é a classe predominante.

Existem várias técnicas para lidar com o desequilíbrio de classes, e elas podem ser divididas em três categorias principais: métodos de reamostragem, métodos baseados em algoritmos e métodos baseados em custos.

Métodos de Reamostragem

Os métodos de reamostragem ajustam a distribuição das classes no conjunto de dados. Eles podem ser divididos em dois tipos: oversampling e undersampling.

  • Oversampling: Esta técnica envolve a replicação de exemplos da classe minoritária para aumentar sua representação no conjunto de dados. Uma abordagem popular de oversampling é o SMOTE (Synthetic Minority Over-sampling Technique), que cria exemplos sintéticos da classe minoritária ao invés de simplesmente replicar os existentes.
  • Undersampling: Por outro lado, o undersampling envolve a remoção de exemplos da classe majoritária para reduzir sua representação. Embora isso possa ajudar a equilibrar as classes, também pode levar à perda de informações importantes.

É importante notar que tanto o oversampling quanto o undersampling têm suas desvantagens. O oversampling pode aumentar o risco de overfitting, pois o modelo pode acabar memorizando os exemplos replicados. Já o undersampling pode descartar informações valiosas que poderiam ser cruciais para o aprendizado do modelo.

Métodos Baseados em Algoritmos

Alguns algoritmos de aprendizado de máquina podem ser ajustados para lidar melhor com o desequilíbrio de classes. Por exemplo, árvores de decisão e algoritmos baseados em árvores, como Random Forest e Gradient Boosting, permitem ponderar as classes durante o treinamento, o que pode ajudar a mitigar o viés em direção à classe majoritária. Outra abordagem é modificar o algoritmo para que ele se concentre mais nos exemplos da classe minoritária durante o treinamento.

Métodos Baseados em Custos

Os métodos baseados em custos atribuem um custo maior à classificação incorreta da classe minoritária. A ideia é que o modelo será penalizado mais severamente por cometer erros na classe minoritária do que na classe majoritária, incentivando-o a prestar mais atenção à classe minoritária durante o treinamento.

Independentemente do método escolhido, é crucial avaliar o modelo em um conjunto de dados de teste que reflita a distribuição real das classes. Isso pode ser feito usando métricas de avaliação que levam em consideração o desequilíbrio de classes, como a matriz de confusão, precisão, recall, F1-score e a área sob a curva ROC (Receiver Operating Characteristic).

Além disso, é importante realizar uma análise cuidadosa do problema e do conjunto de dados para entender a natureza do desequilíbrio de classes. Em alguns casos, a classe minoritária pode ser mais importante e, portanto, justificar um foco maior durante o treinamento do modelo. Em outros casos, pode ser mais apropriado coletar mais dados para a classe minoritária, se possível.

Em resumo, o balanceamento de classes é um aspecto essencial do aprendizado supervisionado em Machine Learning. Ele requer uma abordagem cuidadosa e considerada, e a escolha da técnica de balanceamento deve ser guiada pelo contexto específico do problema em questão. Ao abordar adequadamente o desequilíbrio de classes, é possível desenvolver modelos mais justos, precisos e robustos, que funcionem bem em todos os segmentos do conjunto de dados e forneçam insights valiosos para tomadas de decisão baseadas em dados.

Now answer the exercise about the content:

Qual das seguintes afirmações sobre o balanceamento de classes no aprendizado supervisionado de Machine Learning é correta?

You are right! Congratulations, now go to the next page

You missed! Try again.

Next page of the Free Ebook:

347.13. Princípios de Aprendizado Supervisionado: Interpretabilidade de Modelos

Earn your Certificate for this Course for Free! by downloading the Cursa app and reading the ebook there. Available on Google Play or App Store!

Get it on Google Play Get it on App Store

+ 6.5 million
students

Free and Valid
Certificate with QR Code

48 thousand free
exercises

4.8/5 rating in
app stores

Free courses in
video, audio and text