English

CIn - Centro de Informática UFPE




Eventos Relacionados

Defesa de Dissertação de Mestrado Nº 1.741: "New Sampling Algorithms for Enhancing Classifier Performance on Imbalanced Data Problems"

O aluno Romero Fernando Almeida Barata de Morais irá defender o seu trabalho no dia 06 de fevereiro, às 14h, na Sala E423 Início: 06/02/2018 às 14:00 Local: Auditório do CIn

Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº  1.741

Aluno: Romero Fernando Almeida Barata de Morais

Orientador: Prof. Germano Crispim Vasconcelos

Título: New Sampling Algorithms for Enhancing Classifier Performance on Imbalanced Data Problems

Data: 06/02/2018
Hora/Local: 14h – Centro de Informática - Sala E423

Banca Examinadora:
Prof. Patricia Cabral de Azevedo Restelli Tedesco (UFPE / Centro de Informática)
Prof. Alexandre Magno Andrade Maciel (UPE/Escola Politécnica)
Prof. Germano Crispim Vasconcelos (UFPE / Centro de Informática)

Resumo:

Problemas de classificação onde a distribuição de exemplos entre as classes é desbalanceada advém frequentemente de problemas reais. Muitas vezes, tais problemas reais são de natureza crítica e predições corretas para exemplos de todas as classes são necessárias, como em detecção de fraudes em cartões de crédito, identificação de doenças raras, e detecção de tráfego intrusivo em redes de internet. A problemática associada a dados desbalanceados é que classificadores comuns tendem a ter uma baixa taxa de acerto nas classes minoritárias. Algoritmos de amostragem são a solução mais comum para reduzir o desbalanceamento e em geral diminuem o número de exemplos nas classes majoritárias (sub-amostragem) ou aumentam o número de exemplos nas classes minoritárias (super-amostragem). Nesta dissertação propomos dois novos algoritmos de amostragem: RRUS e k-INOS. RRUS é um algoritmo de sub-amostragem que tem como objetivo obter um subconjunto da classe majoritária que melhor representa a classe majoritária original, através da preservação da distribuição de densidade. k-INOS é uma estratégia que torna qualquer algoritmo de super-amostragem mais robusto a ruídos presentes na classe minoritária. Ambos os algoritmos foram extensivamente testados em 50 conjuntos de dados desbalanceados, 6 classificadores diversos, e a performance foi avaliada de acordo com 7 métricas. Em particular, RRUS foi comparado com outros 3 algoritmos de sub-amostragem e teve um desempenho significativamente melhor que KMUS e SBC na maioria das vezes, e significativamente melhor que RUS várias vezes, para a maioria dos classificadores e métricas de performance. k-INOS, por ser aplicável a qualquer algoritmo de super-amostragem, foi testado em 7 algoritmos de super-amostragem e melhorou de maneira significativa na maioria das vezes a taxa de acerto, a precisão, e a cobertura da classe majoritária, e melhorou de maneira significativa em vários casos a métrica F1. Adicionalmente, os hyperparâmetros de k-INOS foram analisados através de um estudo de caso e valores apropriados para seu uso foram sugeridos. Por fim, um conjunto de regras foram extraídas a partir dos resultados principais com k-INOS e revelaram que a métrica de complexidade N3 (taxa de erro do 1-NN usando loocv) é frequentemente um indicador de situações em que k-INOS tem ou não chances de melhorar a performance de algoritmos de super-amostragem.

Palavras-chave:  Aprendizagem Desbalanceada. Super-Amostragem. Sub-Amostragem.

 

 

 

  • © Centro de Informática UFPE - Todos os direitos reservados
    Tel +55 81 2126.8430 - Cidade Universitária - 50740-560 - Recife/PE
Plano4 Consultoria Web