English

CIn - Centro de Informática UFPE




Eventos Relacionados

Defesa de Tese de Doutorado Nº 334: "Classificação de Documentos usando Combinação de Classificadores em Espaços de Características Transformadas"

O aluno Roberto Hugo Wanderley Pinheiro vai apresentar seu trabalho no dia 20 de fevereiro, às 9h, na sala D224 Início: 20/02/2017 às 09:00 Término: 20/02/2017 às 00:00 Local: Sala D224

Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 334

Aluno: Roberto Hugo Wanderley Pinheiro
Orientador: Prof.  George Darmiton da Cunha Cavalcanti
Co-orientador: Prof. Tsang Ing Ren
Título: Classificação de Documentos usando Combinação de Classificadores em Espaços de Características Transformadas
Data: 20/02/2017
Hora/Local: 9h – Centro de Informática – Sala D224
Banca Examinadora:

Prof. Ricardo Bastos Cavalcante Prudencio (UFPE / Centro de Informática)
Prof. Renato Vimieiro (UFPE / Centro de Informática)
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
Profa. Eulanda Miranda dos Santos (UFAM / Departamento de Ciência da Computação)
Prof. Rafael Ferreira Leite de Mello (UFRPE / Departamento de Estatística e Informática)

RESUMO:

Transformações sobre as características são usualmente aplicadas para diminuir o impacto das dificuldades existentes nos dados originais ou melhorar a capacidade de discriminar as classes do problema, visando melhorar as taxas de reconhecimento do classificador. Dentre essas transformações, duas pouco utilizadas na literatura são: Dissimilarity Representation (DR), no qual cada documento é representado por um vetor composto por distâncias calculadas com relação a um conjunto de documentos referência; e Dichotomy Transformation (DT), no qual o problema original é transformado em um problema binário (duas classes) e cada documento é transformado em vários vetores com características obtidas pelo valor absoluto da diferença para os documentos de um subconjunto com conjunto original. Nesse contexto, o problema de Aprendizagem de Máquina de Classificação de Documentos possui duas dificuldades notáveis: alta dimensionalidade e matriz de dados esparsa, ambas causadas pela Bag-of-Words, representação utilizada para gerar os vetores de características. Essas dificuldades podem ser facilmente reduzidas pela DR, sem perder tanta informação, pois a informação está embutida no cálculo da distância das características transformadas. Uma segunda alternativa, é utilizar a DT que apesar de não reduzir a dimensionalidade ou esparsidade, trabalha com a geração de vários documentos e precisando discriminar apenas entre duas classes, melhorando as taxas de reconhecimento do classificador. Entretanto, as duas alternativas requerem um conjunto de dados para realizar as transformações, sendo uma tarefa não trivial encontrar o melhor conjunto. Neste trabalho, são propostos dois sistemas de múltiplos classificadores para Classificação de Documentos: Combined Dissimilarity Spaces (CoDiS) e Combined Dichotomy Transformations (CoDiT), cada um baseado em uma das transformações. Os múltiplos classificadores se beneficiam da necessidade de encontrar o melhor conjunto, pois utilizando diferentes conjuntos nas transformações possibilita a criação de um sistema diverso e robusto. Experimentos foram realizados comparando as arquiteturas propostas com métodos equivalentes. As propostas atingiram desempenho superior na maioria dos casos.

Palavras-chave: Classificação de Documentos,Dissimilarity Representation, Dichotomy Transformation, Combinação de Classificadores
  • © Centro de Informática UFPE - Todos os direitos reservados
    Tel +55 81 2126.8430 - Cidade Universitária - 50740-560 - Recife/PE
Plano4 Consultoria Web