7.12. Princípios de Aprendizado Supervisionado: Balanceamento de Classes

Página 33

7.12. Princípios de Aprendizado Supervisionado: Balanceamento de Classes

O aprendizado supervisionado é uma abordagem fundamental no campo do Machine Learning, onde o modelo é treinado em um conjunto de dados que inclui as entradas e as saídas desejadas. Um dos desafios mais comuns enfrentados durante o treinamento de modelos de aprendizado supervisionado é o desequilíbrio de classes. O balanceamento de classes é crucial para garantir que o modelo não desenvolva viés para a classe majoritária e ignore a classe minoritária, o que pode levar a resultados enganosos e uma performance pobre em dados não vistos.

Em muitos conjuntos de dados reais, a distribuição das classes não é uniforme. Por exemplo, em um conjunto de dados de detecção de fraude, o número de transações legítimas é muito maior do que o número de transações fraudulentas. Se um modelo é treinado nesse conjunto de dados sem qualquer tratamento de balanceamento de classes, ele pode simplesmente aprender a prever a classe majoritária (transações legítimas) e ainda assim alcançar uma alta acurácia, simplesmente porque essa é a classe predominante.

Existem várias técnicas para lidar com o desequilíbrio de classes, e elas podem ser divididas em três categorias principais: métodos de reamostragem, métodos baseados em algoritmos e métodos baseados em custos.

Métodos de Reamostragem

Os métodos de reamostragem ajustam a distribuição das classes no conjunto de dados. Eles podem ser divididos em dois tipos: oversampling e undersampling.

  • Oversampling: Esta técnica envolve a replicação de exemplos da classe minoritária para aumentar sua representação no conjunto de dados. Uma abordagem popular de oversampling é o SMOTE (Synthetic Minority Over-sampling Technique), que cria exemplos sintéticos da classe minoritária ao invés de simplesmente replicar os existentes.
  • Undersampling: Por outro lado, o undersampling envolve a remoção de exemplos da classe majoritária para reduzir sua representação. Embora isso possa ajudar a equilibrar as classes, também pode levar à perda de informações importantes.

É importante notar que tanto o oversampling quanto o undersampling têm suas desvantagens. O oversampling pode aumentar o risco de overfitting, pois o modelo pode acabar memorizando os exemplos replicados. Já o undersampling pode descartar informações valiosas que poderiam ser cruciais para o aprendizado do modelo.

Métodos Baseados em Algoritmos

Alguns algoritmos de aprendizado de máquina podem ser ajustados para lidar melhor com o desequilíbrio de classes. Por exemplo, árvores de decisão e algoritmos baseados em árvores, como Random Forest e Gradient Boosting, permitem ponderar as classes durante o treinamento, o que pode ajudar a mitigar o viés em direção à classe majoritária. Outra abordagem é modificar o algoritmo para que ele se concentre mais nos exemplos da classe minoritária durante o treinamento.

Métodos Baseados em Custos

Os métodos baseados em custos atribuem um custo maior à classificação incorreta da classe minoritária. A ideia é que o modelo será penalizado mais severamente por cometer erros na classe minoritária do que na classe majoritária, incentivando-o a prestar mais atenção à classe minoritária durante o treinamento.

Independentemente do método escolhido, é crucial avaliar o modelo em um conjunto de dados de teste que reflita a distribuição real das classes. Isso pode ser feito usando métricas de avaliação que levam em consideração o desequilíbrio de classes, como a matriz de confusão, precisão, recall, F1-score e a área sob a curva ROC (Receiver Operating Characteristic).

Além disso, é importante realizar uma análise cuidadosa do problema e do conjunto de dados para entender a natureza do desequilíbrio de classes. Em alguns casos, a classe minoritária pode ser mais importante e, portanto, justificar um foco maior durante o treinamento do modelo. Em outros casos, pode ser mais apropriado coletar mais dados para a classe minoritária, se possível.

Em resumo, o balanceamento de classes é um aspecto essencial do aprendizado supervisionado em Machine Learning. Ele requer uma abordagem cuidadosa e considerada, e a escolha da técnica de balanceamento deve ser guiada pelo contexto específico do problema em questão. Ao abordar adequadamente o desequilíbrio de classes, é possível desenvolver modelos mais justos, precisos e robustos, que funcionem bem em todos os segmentos do conjunto de dados e forneçam insights valiosos para tomadas de decisão baseadas em dados.

Ahora responde el ejercicio sobre el contenido:

Qual das seguintes afirmações sobre o balanceamento de classes no aprendizado supervisionado de Machine Learning é correta?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Siguiente página del libro electrónico gratuito:

347.13. Princípios de Aprendizado Supervisionado: Interpretabilidade de Modelos

¡Obtén tu certificado para este curso gratis! descargando la aplicación Cursa y leyendo el libro electrónico allí. ¡Disponible en Google Play o App Store!

Disponible en Google Play Disponible en App Store

+ 6,5 millones
estudiantes

Certificado gratuito y
válido con código QR

48 mil ejercicios
gratis

Calificación de 4.8/5
en tiendas de aplicaciones

Cursos gratuitos de
vídeo, audio y texto.