Utilize este identificador para referenciar este registo: http://hdl.handle.net/10198/4419
Título: Modelização paramétrica de sinais para aplicação em sistemas de conversão texto-fala
Autor: Teixeira, João Paulo
Palavras-chave: Análise de sinais de fala
Síntese de fala
Português europeu
Data de Defesa: 1995
Editora: FEUP
Citação: Teixeira, João Paulo (1995) - Modelização paramétrica de sinais para aplicação em sistemas de conversão texto-fala. Porto: FEUP. Dissertação de Mestrado em Engenharia Electrotécnica e de Computadores.
Resumo: Neste trabalho foi desenvolvido um sistema de extracção automática de parâmetros de sinais de fala recorrendo a ferramentas de análise cepstral, de predição linear quer pela matriz autocorrelação quer pela matriz covariância, e ao método de análise síncrona com o período fundamental. Realiza-se uma segmentação e classificação dos sinais em vocalizados, não vocalizados ou silêncio. Aos segmentos com conteúdo de fala atribuem-se modelos baseados em formantes. Os parâmetros definidos pelo modelo para a fala vocalizada são 4 formantes e respectivas larguras de banda, frequência fundamental e amplitude. Para os sons não vocalizados considerou-se um modelo com um pólo, um zero e excitação com sinal de ruído aleatório. O método de análise cepstral segmenta o sinal com comprimentos fixos e analisa individualmente cada segmento. A análise de cada segmento consiste na separação das características do trato vocal e da fonte excitadora, recorrendo a uma função de "lifteragem" nas quefrências sendo determinada a frequência fundamental da fonte excitadora ("pitch") e alisado o espectro relativo ao trato vocal. A partir deste espectro alisado ou envelope espectral é aplicado um algoritmo de determinação dos picos para extrair as frequências formantes das ressonâncias do trato vocal obedecendo a constrições respeitantes às regiões de frequências de cada formante e às amplitudes relativas dos respectivos picos. São também determinadas as correspondentes larguras de banda a 3 dB a partir do envelope espectral. Os métodos de predição linear analisam também individualmente cada segmento de comprimento fixo do sinal de fala, obedecendo a um modelo só com pólos, determinando os coeficientes de predição linear por multiplicação matricial. A partir destes coeficientes são determinados os pólos. Cada par de pólos complexos conjugados é considerado um possível formante, sendo posteriormente seleccionados justamente 4 formantes por um processo de eliminação das frequências formantes que não têm a correspondência de um pico na função de transferência do sistema. O método de análise síncrona com o período fundamental determina o sincronismo com o impulso glotal segmentando o sinal em troços de duração de um período, sendo estes posteriormente analisados pelo método de predição linear ( matriz covariância). Posteriormente a sequência de parâmetros é sujeita a um alisamento não linear para corrigir eventuais pontos fora de uma linha definida pelos valores dos parâmetros anteriores e posteriores ("outliers"). Todos estes métodos determinam com razoável fidelidade as frequências formantes dos sinais de fala, contudo, as larguras de banda são mais correctamente determinadas pelo método de predição linear pela matriz covariância. É ainda apresentado o desenvolvimento de um conversor texto-fala para o português baseado num sintetizador de formantes com o mesmo modelo usado na análise para os sinais vocalizados. Os principais resultados obtidos foram a realização acústica de uma lista de 37 fonemas fundamentais, regras de conversão grafema-som na forma tabular, um grupo de regras de concatenação para as estruturas acústica e temporal inerentes aos sons, regras prosódicas elementares e, pronuncia de acrónimos e numerais. Foram ainda desenvolvidas várias ferramentas complementares à análise dos sinais de fala como sejam um espectrógrafo e um outro sintetizador de formantes, exclusivamente computacional e para testes, baseado no modelo com os mesmos parâmetros. Os métodos desenvolvidos foram testados com sinais de fala adequadamente seleccionada e recolhida em sala insonorizada e, registados magneticamente com aparelhagem adequada. Os resultados atingidos satisfazem os objectivos inicialmente propostos para este trabalho.
Peer review: no
URI: http://hdl.handle.net/10198/4419
Aparece nas colecções:DE - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Master_JPT.pdf2,84 MBAdobe PDFVer/Abrir    Acesso Restrito. Solicitar cópia ao autor!
Modelização_resumo1,7 MBUnknownVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.