Sintetizador de Fala Didáctico – Módulo Acústico
Transcrição
Sintetizador de Fala Didáctico – Módulo Acústico
Curso de Mestrado em Engenharia Industrial Ano lectivo de 2011/2012 Sintetizador de Fala Didáctico – Módulo Acústico Orientador: Joao Paulo Teixeira Co-orientador: Objectivo Neste trabalho de Mestrado será desenvolvido o módulo acústico de um sintetizador de fala, usando modelos paramétricos como sejam a modelização por formantes e por Linear Predictive Code (LPC). Estes modelos são bem conhecidos na literatura e neste trabalho pretende-se que sejam implementados em ambiente Matlab com uma interface gráfica, usando o guide. A interface deverá permitir ao utilizador seleccionar a forma do sinal excitador, o modelo de síntese que modela o trato vocal, e o valor dos parâmetros deste modelo. O sinal excitador poderá ser escolhido de entre uma onda sinusoidal, rectangular, triangular, ruído ou impulsos glotais, gerados por funções conhecidas ou gravados. O utilizador deverá ainda poder escolher alguns parâmetros deste sinal excitador, de acordo com a sua forma. Os parâmetros do modelo do trato vocal, quer seja um modelo de formantes ou um modelo LPC, devem poder ser escolhidos, e alterados de forma contínua pelo utilizador. Inicialmente haverá uma sugestão para os valores destes parâmetros para a síntese de algumas vogais. O sistema deve permitir ver e ouvir de forma contínua, enquanto se alteram os valores dos parâmetros, ora o sinal excitador ora o sinal de saída, sintetizado, de acordo com a escolha do utilizador. Desta forma resultará um sistema que se pretende que seja didáctico na medida em que permitirá a um utilizador perceber o funcionamento destes modelos de síntese, e ao mesmo tempo experimentar a variação do valor dos parâmetros dos modelos enquanto ouve e observa os sinais de entrada e de saída. Descrição do trabalho Um sistema de conversão de texto em fala (sistema TTS – Text-to-Speech), consiste, basicamente em dois módulos, como mostra a figura 1. O bloco de processamento linguístico prosódico é completamente dependente da língua em causa e não será discutido neste projecto. O bloco acústico também depende dos fonemas da língua em causa, mas terá uma modelação que é comum às diferentes línguas, apesar de usar bases de dados de sons específicas para essa língua. Existem hoje diversos modelos para gerar fala sintética com maior ou menor qualidade, peso computacional e peso das suas bases de dados. A título de exemplo podem referir-se os modelos paramétricos como os de formantes, os modelos LPC, os modelos sinusoidais, modelos articulatórios, e os modelos não paramétricos como sejam os modelos de concatenação, os modelos PSOLA, os modelos HMM e os modelos de selecção de unidades (Teixeira, J. P. et al, 2003). Neste trabalho será implementado o bloco de processamento acústico para os modelos de formantes e para o modelo LPC. Os modelos matemáticos usados para a implementação encontram-se descritos em (Teixeira, J. P., 1995). A Fig. 2 mostra um exemplo com o modelo de formantes da funcionalidade pretendida da interface a ser desenvolvida. Texto Processamento linguístico prosódico representação fonético prosódica Processamento acústico Fala Fig. 1 - Diagrama de blocos genérico de um sistema de conversão texto-fala. Fig. 2 – Exemplo de Interface para modelo de formantes Metodologia de trabalho O trabalho será desenvolvido em ambiente Matlab usando o guide. O aluno deverá implementar em blocos o modelo de geração do sinal excitador e os modelos de formantes e LPC. Deve ser realizada alguma análise para identificar os parâmetros de cada modelo para as vogais do Português de forma a poderem ser dados como valores iniciais. Pré-requisitos Facilidade de programação em Matlab. Desejável conhecimentos de Inglês. Infra-estruturas e recursos necessários PC do aluno ou do laboratório. Sala de projecto do LPS Bibliografia: Teixeira, João Paulo (1995) - Modelização paramétrica de sinais para aplicação em sistemas de conversão texto-fala. Porto: FEUP. Dissertação de Mestrado em Engenharia Electrotécnica e de Computadores. Teixeira, João Paulo; Barros, Maria João; Freitas, D. (2003) - Sistemas de conversão texto-fala. In 3º Congresso Luso-Moçambicano de Engenharia. Maputo, Moçambique. p.1361-1374 Data: 11/06/2011