Sintetizador de Fala Didáctico – Módulo Acústico

Transcrição

Sintetizador de Fala Didáctico – Módulo Acústico
Curso de Mestrado em Engenharia Industrial
Ano lectivo de 2011/2012
Sintetizador de Fala Didáctico – Módulo Acústico
Orientador: Joao Paulo Teixeira
Co-orientador:
Objectivo
Neste trabalho de Mestrado será desenvolvido o módulo acústico de um sintetizador de
fala, usando modelos paramétricos como sejam a modelização por formantes e por Linear
Predictive Code (LPC). Estes modelos são bem conhecidos na literatura e neste trabalho
pretende-se que sejam implementados em ambiente Matlab com uma interface gráfica,
usando o guide. A interface deverá permitir ao utilizador seleccionar a forma do sinal
excitador, o modelo de síntese que modela o trato vocal, e o valor dos parâmetros deste
modelo.
O sinal excitador poderá ser escolhido de entre uma onda sinusoidal, rectangular,
triangular, ruído ou impulsos glotais, gerados por funções conhecidas ou gravados. O
utilizador deverá ainda poder escolher alguns parâmetros deste sinal excitador, de acordo
com a sua forma.
Os parâmetros do modelo do trato vocal, quer seja um modelo de formantes ou um
modelo LPC, devem poder ser escolhidos, e alterados de forma contínua pelo utilizador.
Inicialmente haverá uma sugestão para os valores destes parâmetros para a síntese de
algumas vogais.
O sistema deve permitir ver e ouvir de forma contínua, enquanto se alteram os valores dos
parâmetros, ora o sinal excitador ora o sinal de saída, sintetizado, de acordo com a escolha
do utilizador.
Desta forma resultará um sistema que se pretende que seja didáctico na medida em que
permitirá a um utilizador perceber o funcionamento destes modelos de síntese, e ao mesmo
tempo experimentar a variação do valor dos parâmetros dos modelos enquanto ouve e
observa os sinais de entrada e de saída.
Descrição do trabalho
Um sistema de conversão de texto em fala (sistema TTS – Text-to-Speech), consiste,
basicamente em dois módulos, como mostra a figura 1. O bloco de processamento
linguístico prosódico é completamente dependente da língua em causa e não será
discutido neste projecto. O bloco acústico também depende dos fonemas da língua em
causa, mas terá uma modelação que é comum às diferentes línguas, apesar de usar bases
de dados de sons específicas para essa língua. Existem hoje diversos modelos para gerar
fala sintética com maior ou menor qualidade, peso computacional e peso das suas bases
de dados. A título de exemplo podem referir-se os modelos paramétricos como os de
formantes, os modelos LPC, os modelos sinusoidais, modelos articulatórios, e os
modelos não paramétricos como sejam os modelos de concatenação, os modelos
PSOLA, os modelos HMM e os modelos de selecção de unidades (Teixeira, J. P. et al,
2003). Neste trabalho será implementado o bloco de processamento acústico para os
modelos de formantes e para o modelo LPC. Os modelos matemáticos usados para a
implementação encontram-se descritos em (Teixeira, J. P., 1995). A Fig. 2 mostra um
exemplo com o modelo de formantes da funcionalidade pretendida da interface a ser
desenvolvida.
Texto
Processamento
linguístico
prosódico
representação
fonético
prosódica
Processamento
acústico
Fala
Fig. 1 - Diagrama de blocos genérico de um sistema de conversão texto-fala.
Fig. 2 – Exemplo de Interface para modelo de formantes
Metodologia de trabalho
O trabalho será desenvolvido em ambiente Matlab usando o guide. O aluno deverá
implementar em blocos o modelo de geração do sinal excitador e os modelos de formantes
e LPC.
Deve ser realizada alguma análise para identificar os parâmetros de cada modelo para as
vogais do Português de forma a poderem ser dados como valores iniciais.
Pré-requisitos
Facilidade de programação em Matlab.
Desejável conhecimentos de Inglês.
Infra-estruturas e recursos necessários
PC do aluno ou do laboratório.
Sala de projecto do LPS
Bibliografia:
Teixeira, João Paulo (1995) - Modelização paramétrica de sinais para aplicação
em sistemas de conversão texto-fala. Porto: FEUP. Dissertação de Mestrado em
Engenharia Electrotécnica e de Computadores.
Teixeira, João Paulo; Barros, Maria João; Freitas, D. (2003) - Sistemas de
conversão texto-fala. In 3º Congresso Luso-Moçambicano de Engenharia. Maputo,
Moçambique. p.1361-1374
Data: 11/06/2011