Biblioteca Digital do Instituto Politécnico de Bragança   Instituto Politécnico de Bragança

Biblioteca Digital do IPB >
Escola Superior de Tecnologia e Gestão >
Electrotecnia >
DE - Dissertações de Mestrado >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10198/4419

Título: Modelização paramétrica de sinais para aplicação em sistemas de conversão texto-fala
Autor: Teixeira, João Paulo
Palavras-chave: Análise de sinais de fala
Síntese de fala
Português europeu
Issue Date: 1995
Editora: FEUP
Citação: Teixeira, João Paulo (1995) - Modelização paramétrica de sinais para aplicação em sistemas de conversão texto-fala. Porto: FEUP. Dissertação de Mestrado em Engenharia Electrotécnica e de Computadores.
Resumo: Neste trabalho foi desenvolvido um sistema de extracção automática de parâmetros de sinais de fala recorrendo a ferramentas de análise cepstral, de predição linear quer pela matriz autocorrelação quer pela matriz covariância, e ao método de análise síncrona com o período fundamental. Realiza-se uma segmentação e classificação dos sinais em vocalizados, não vocalizados ou silêncio. Aos segmentos com conteúdo de fala atribuem-se modelos baseados em formantes. Os parâmetros definidos pelo modelo para a fala vocalizada são 4 formantes e respectivas larguras de banda, frequência fundamental e amplitude. Para os sons não vocalizados considerou-se um modelo com um pólo, um zero e excitação com sinal de ruído aleatório. O método de análise cepstral segmenta o sinal com comprimentos fixos e analisa individualmente cada segmento. A análise de cada segmento consiste na separação das características do trato vocal e da fonte excitadora, recorrendo a uma função de "lifteragem" nas quefrências sendo determinada a frequência fundamental da fonte excitadora ("pitch") e alisado o espectro relativo ao trato vocal. A partir deste espectro alisado ou envelope espectral é aplicado um algoritmo de determinação dos picos para extrair as frequências formantes das ressonâncias do trato vocal obedecendo a constrições respeitantes às regiões de frequências de cada formante e às amplitudes relativas dos respectivos picos. São também determinadas as correspondentes larguras de banda a 3 dB a partir do envelope espectral. Os métodos de predição linear analisam também individualmente cada segmento de comprimento fixo do sinal de fala, obedecendo a um modelo só com pólos, determinando os coeficientes de predição linear por multiplicação matricial. A partir destes coeficientes são determinados os pólos. Cada par de pólos complexos conjugados é considerado um possível formante, sendo posteriormente seleccionados justamente 4 formantes por um processo de eliminação das frequências formantes que não têm a correspondência de um pico na função de transferência do sistema. O método de análise síncrona com o período fundamental determina o sincronismo com o impulso glotal segmentando o sinal em troços de duração de um período, sendo estes posteriormente analisados pelo método de predição linear ( matriz covariância). Posteriormente a sequência de parâmetros é sujeita a um alisamento não linear para corrigir eventuais pontos fora de uma linha definida pelos valores dos parâmetros anteriores e posteriores ("outliers"). Todos estes métodos determinam com razoável fidelidade as frequências formantes dos sinais de fala, contudo, as larguras de banda são mais correctamente determinadas pelo método de predição linear pela matriz covariância. É ainda apresentado o desenvolvimento de um conversor texto-fala para o português baseado num sintetizador de formantes com o mesmo modelo usado na análise para os sinais vocalizados. Os principais resultados obtidos foram a realização acústica de uma lista de 37 fonemas fundamentais, regras de conversão grafema-som na forma tabular, um grupo de regras de concatenação para as estruturas acústica e temporal inerentes aos sons, regras prosódicas elementares e, pronuncia de acrónimos e numerais. Foram ainda desenvolvidas várias ferramentas complementares à análise dos sinais de fala como sejam um espectrógrafo e um outro sintetizador de formantes, exclusivamente computacional e para testes, baseado no modelo com os mesmos parâmetros. Os métodos desenvolvidos foram testados com sinais de fala adequadamente seleccionada e recolhida em sala insonorizada e, registados magneticamente com aparelhagem adequada. Os resultados atingidos satisfazem os objectivos inicialmente propostos para este trabalho.
Arbitragem científica: no
URI: http://hdl.handle.net/10198/4419
Appears in Collections:DE - Dissertações de Mestrado

Files in This Item:

File Description SizeFormat
Master_JPT.pdf2,84 MBAdobe PDFView/Open
Restrict Access. You can request a copy!
Modelização_resumo1,7 MBUnknownView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 


  © Instituto Politécnico de Bragança - Biblioteca Digital - Feedback - Statistics
  Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE