English

CIn - Centro de Informática UFPE




Eventos Relacionados

Defesa de Tese de Doutorado Nº 337: "Swarm Optimization Clustering Methods for Opinion Mining"

A aluna Ellen Polliana Ramos Souza vai apresentar seu trabalho no dia 22 de fevereiro, às 13h30, na sala D222 Início: 22/02/2017 às 09:00 Término: 22/02/2017 às 00:00 Local: Sala D222

Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 337

Aluno: Ellen Polliana Ramos Souza
Orientador: Prof. Adriano Lorena Inácio de Oliveira
Título: Swarm Optimization Clustering Methods for Opinion Mining
Data: 22/02/2017
Hora/Local: 13h30 – Centro de Informática – Sala D222
Banca Examinadora:
Prof. Cleber Zanchettin (UFPE / CIn)
Prof. Flávia de Almeida Barros (UFPE / CIn)
Prof. Renato Fernandes Correa (UFPE /  Ciência da Informação)
Prof. Renata Vieira (PUC-RS / Faculdade de Informática)
Prof. Alexandre Magno Andrade Maciel (UPE) / Escola Politécnica de PE)

Abstract:

Opinion mining (OM), also known as sentiment analysis, is the field of study that analyzes people’s sentiments, evaluations, attitudes, and emotions about different entities expressed in textual input. This is accomplished through the classification of an opinion into categories, such as positive, negative, or neutral.
Supervised machine learning (ML) and lexicon-based are the most frequent approaches for OM. However, these approaches require considerable effort for preparing training data and to build the opinion lexicon, respectively.
In order to address the drawbacks of these approaches, a clustering-based opinion mining approach based on Particle Swarm Optimization (PSO) is presented in this thesis. The PSO-based algorithms group a set of opinions into clusters of related opinions.
Several experiments were conducted with different corpora types, domains, text language, class balancing, fitness function, and pre-processing techniques. The effectiveness of the clustering algorithms was evaluated with external measures such as accuracy, precision, recall, and F- score.
Best results were achieved by a discrete version of Improved Self-Adaptive PSO (IDPSO) on the Opinion of Brazilian Portuguese corpus (OBCC). The OBCC corpus is also presented in this thesis and contains a gold collection with 2940 tweets in Brazilian Portuguese with opinions of consumers about products and services.

Keywords: Opinion Mining, Opinion Clustering, Text Clustering, Swarm Optimization, Twitter

 ====================================================================
Resumo

A mineração de opinião, também conhecida como análise de sentimento, é um campo de estudo que analisa os sentimentos, opiniões, atitudes e emoções das pessoas sobre diferentes entidades, expressos de forma textual. Tal análise é obtida através da classificação das opiniões em categorizas tais como positiva, negativa ou neutra. As abordagens de aprendizado supervisionado e baseadas em léxico são mais comumente utilizadas na mineração de opinião. No entanto, tais abordagens requerem um esforço considerável para preparação da base de dados de treinamento e para construção dos léxicos de opinião, respectivamente. A fim de resolver as desvantagens das abordagens apresentadas, esta Tese propõe o uso de uma abordagem de agrupamento não supervisionada para a tarefa de mineração de opinião, a qual é capaz de produzir resultados precisos para diversos domínios sem a necessidade de participação humana, conhecimento linguístico ou tempo para treinamento. Três algoritmos de inteligência coletiva baseados em otimização de partícula de enxame (Particle Swarm Optimization - PSO) são propostos: o DPSOMUT que é baseado em versão discreta do PSO, o IDPSO que é baseado em uma versão melhorada e autoadaptativa do PSO com função de detecção e o IDPSO/CS que é uma versão híbrida do IDPSO com o Cuckoo Search (CS). Diversos experimentos foram conduzidos com diferentes tipos de corpus, domínios, língua do texto, balanceamento de classes, função de otimização e técnicas de pré-processamento. A eficácia dos algoritmos de agrupamento foi avaliada com medidas externas como a acurácia, a precisão, a revocação e f-medida. Melhores resultados foram obtidos pelo IDPSO e o corpus de opinião de consumidores brasileiros (Opinion of Brazilian Portuguese corpus - OBCC), utilizando o pré-processamento baseado em word bigram e Global Silhouette como função de otimização.  O corpus OBCC é também uma contribuição desta Tese e contem uma coleção dourada com 2.940 tweets com opiniões de consumidores sobre produtos e serviços em Português brasileiro.

Palavras-Chave: Otimização de Enxame, Agrupamento de Texto, Mineração de Opinião, Agrupamento de Opinião, Twitter
  • © Centro de Informática UFPE - Todos os direitos reservados
    Tel +55 81 2126.8430 - Cidade Universitária - 50740-560 - Recife/PE
Plano4 Consultoria Web