English

CIn - Centro de Informática UFPE




Eventos Relacionados

Defesa de Dissertação de Mestrado Nº 1.252: "Descritor de Voz Invariante ao Ruído"

O aluno Hesdras Oliveira Viana irá apresentar seu trabalho no dia 26 de fevereiro, às 13h, no Auditório do CIn Início: 26/02/2013 às 13:00 Término: 26/02/2013 às 15:00 Local: Auditório do CIn

Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.252
 
Aluno: Hesdras Oliveira Viana
Orientador: Prof. Carlos Alexandre Barros de Mello
Título: Descritor de Voz Invariante ao Ruído
Data: 26/2/2013
Hora/Local: 13:00h – Auditório do CIn
Banca Examinadora:
Prof. Tsang Ing Ren(UFPE / CIn)
Prof. Francisco Madeiro Bernardino Junior  ( UPE / Departamento de Engenharia Elétrica)
Prof. Carlos Alexandre Barros de Mello (UFPE / CIn)
 
RESUMO:
 
Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental (pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP (RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso fizemos um estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS (Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support Vector Machine). Essa base tem como característica a presença de ruído variando entre 0dB, 5dB, 10dB e 15dB; gravada em diversos ambientes. A utilização dos classificadores serviu para validar os descritores de voz. A técnica proposta, chamada de MINERS (Model Invariant to Noise and Environment and Robust for Speech), apresentou melhores resultados entre todas as técnicas avaliadas (MFCC, RASTA-PLP e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o classificador SVM.
 
Palavras-chave: Processamento de Voz, Descritores de Voz, MFCC, PNCC, RASTA-PLP. 
  • © Centro de Informática UFPE - Todos os direitos reservados
    Tel +55 81 2126.8430 - Cidade Universitária - 50740-560 - Recife/PE
Plano4 Consultoria Web