Reconhecimento da Fala Contınua com aplicaç ˜ao de técnicas de

Transcrição

Reconhecimento da Fala Contınua com aplicaç ˜ao de técnicas de
UNIVERSIDADE TÉCNICA DE LISBOA
INSTITUTO SUPERIOR TÉCNICO
Reconhecimento da Fala Contı́nua
com aplicação de
técnicas de Adaptação ao Orador
João Paulo da Silva Neto
(Mestre em Engenharia Electrotécnica e Computadores, I.S.T.)
Dissertação para otenção do grau de Doutor em
Engenharia Electrotécnica e de Computadores
Fevereiro de 1998
Lisboa
UNIVERSIDADE TÉCNICA DE LISBOA
INSTITUTO SUPERIOR TÉCNICO
Reconhecimento da Fala Contı́nua
com aplicação de
técnicas de Adaptação ao Orador
João Paulo da Silva Neto
(Mestre em Engenharia Electrotécnica e Computadores, I.S.T.)
Dissertação para otenção do grau de Doutor em
Engenharia Electrotécnica e de Computadores
Fevereiro de 1998
Lisboa
Tese realizada sob a supervisão de
Luı́s Henriques Martins Borges de Almeida
Professor Catedrático do
Departamento de Engenharia Electrotécnica e de Computadores
Instituto Superior Técnico
Universidade Técnica de Lisboa
Resumo
Nesta dissertação desenvolvemos sistemas hı́bridos para o reconhecimento da
fala contı́nua, resultantes da conjunção das caracterı́sticas das redes neuronais artificiais como classificadores estáticos com a capacidade de modelamento temporal
própria dos modelos de Markov não observáveis. Estes sistemas foram estudados
e desenvolvidos para as bases de dados Resource Management (RM) e Wall Street
Journal (WSJ0) na lı́ngua inglesa.
Com base nestes sistemas desenvolvemos um conjunto de técnicas de adaptação
ao orador, através da modificação dos modelos acústico-fonéticos realizados a partir
do perceptrão multi-camada. Estas técnicas foram avaliadas num modo estático
e supervisionado sobre a base de dados RM e de uma forma incremental e nãosupervisionada sobre a base de dados WSJ0. Os resultados alcançados mostram
que a aplicação destas técnicas permite uma melhoria no desempenho dos sistemas
de reconhecimento que, no caso da adaptação não-supervisionada, se obtém sem
esforço adicional por parte do utilizador do sistema.
De modo a permitir a extensão destes sistemas ao Português desenvolveu-se
uma nova base de dados, com as caracterı́sticas e dimensões adequadas, e, em simultâneo, realizou-se um sistema básico de reconhecimento em Português. Este
sistema e esta base de dados servirão de ponto de partida para o desenvolvimento
futuro, em termos de reconhecimento da fala contı́nua, que se espera ver associado
à lı́ngua Portuguesa.
Palavras-Chave
Reconhecimento da fala, fala contı́nua, redes neuronais, sistemas hı́bridos,
adaptação ao orador.
v
vi
Abstract
In this dissertation we developed hybrid continuous speech recognition systems
which result from the conjunction of the features of artificial neural networks as
static classifiers with the temporal modelling capabilities of hidden Markov models.
These systems were studied and developed for the English Resource Management
(RM) and Wall Street Journal (WSJ0) databases.
Based on these systems we developed a set of speaker adaptation techniques
through the modification of the acoustic-phonetic models implemented by means
of a multilayer perceptron. These techniques were evaluated on the RM database in
a static supervised mode and on the WSJ0 database in an incremental unsupervised
mode. The results show that the application of these techniques improves the performance of the recognition systems, without any additional load on the user, in the
unsupervised mode.
To be able to extend these systems to the Portuguese language a new database,
with the adequate size and properties, was developed. Simultaneously we implemented a basic recognition system for Portuguese. This system will be the starting
point to the future developments in continuous speech recognition that we expect to
see associated with the Portuguese language.
Keywords
Speech recognition, continuous speech, neural networks, hybrid systems, speaker adaptation.
vii
viii
À Maria João,
ao João Nuno
e à Teresa João
ix
x
Agradecimentos
O reconhecimento da fala contı́nua atravessa um perı́odo de pleno desenvolvimento comandado por um elevado nı́vel de investigação e por fortes apetências comerciais, que têm conduzido a um conjunto cada vez mais forte de exigências. Este
desenvolvimento exige, necessariamente, um trabalho em equipa e, devido às caracterı́sticas envolvidas, interdisciplinar. Inserindo-se esta dissertação nesta área, e
tratando-se necessariamente de um trabalho individual, o mesmo não seria possı́vel
sem uma colaboração efectiva com um conjunto de pessoas e o suporte de várias
instituições. É a essas pessoas e instituições que queremos aqui expressar o nosso
agradecimento.
Em primeiro lugar os nossos agradecimentos são dirigidos ao nosso orientador
Professor Luı́s Borges de Almeida a quem devemos a oportunidade para trabalhar
numa área nova que resultou da encruzilhada entre as Redes Neuronais Artificiais
e o Reconhecimento da Fala Contı́nua. Foi do seu esforço e empenhamento que
surgiu a oportunidade da nossa participação em projectos internacionais que tanto
têm contribuı́do para o nosso conhecimento e formação. Queremos ainda agradecer
toda a sua ajuda e colaboração ao longo deste trabalho.
Aos elementos participantes nos projectos W ERNICKE e SPRACH queremos
deixar aqui o nosso agradecimento pela forma como permitiram que o nosso conhecimento se desenvolvesse, tanto do ponto de vista cientı́fico como ao nı́vel dos
métodos de trabalho, e do qual resultou esta dissertação. Aos nossos colegas Mike
Hochberg, Eric Fosler-Lussier e Dr. Steve Renals o nosso agradecimento especial
pela colaboração e apoio prestado no desenvolvimento dos sistemas de reconhecimento da fala contı́nua para Inglês.
Um agradecimento muito especial para o nosso colega Ciro Martins com o qual
tivemos o privilégio de trabalhar e privar ao longo destes últimos anos e cuja ajuda,
colaboração e discussões foram fundamentais para a evolução deste nosso trabalho.
xi
Ao Luı́s Nunes o nosso agradecimento pela colaboração prestada e que nos permitiu
desvendar os segredos ocultos do BoB. Ao Hugo Meinedo o nosso agradecimento
pelo seu forte empenhamento na recolha da base de dados BD-PUBLICO.
Aos restantes elementos do grupo de Redes Neuronais e Processamento de Sinais do INESC o nosso agradecimento pelo apoio prestado na base de dados e pelo
espı́rito de grupo e de camaradagem sempre presentes. Um obrigado especial para
a Ilda Ribeiro pela ajuda e colaboração prestadas. Gostaria de alargar este agradecimento aos Engenheiros Joaquim Sérvulo Rodrigues e Pedro Aguiar pelo incentivo e
amizade sempre demonstradas. À Professora Isabel Trancoso e Dra. Isabel Mascarenhas o nosso obrigado pela colaboração e frutuosas trocas de ideias. Ao Professor
Luı́s Caldas de Oliveira pela ajuda e apoio prestados ao longo deste último semestre
lectivo.
Agradecemos, também, ao INESC e ao Instituto Superior Técnico pelas facilidades oferecidas para a realização deste trabalho; à União Europeia que, através dos
projectos W ERNICKE e SPRACH, nos permitiu desfrutar de condições de trabalho
adequadas e nos possibilitou uma estadia no ICSI (Berkeley - EUA) e a participação
em várias reuniões e conferências cientı́ficas; ao Programa PRAXIS pelo apoio disponibilizado para a participação em conferências cientı́ficas; um agradecimento ao
jornal P ÚBLICO pela sua colaboração e disponibilidade.
Um agradecimento muito especial aos nossos pais pelo carácter e força que
sempre nos transmitiram e que nos permitiram chegar até aqui; à Maria João pela
paciência, estı́mulo e força com que sempre nos apoiou, sobretudo nos perı́odos
mais difı́ceis; aos nosso filhos, João Nuno e Teresa, por terem aceite partilharem
estes seus poucos anos com o estudo das Redes Neuronais e do Reconhecimento da
Fala Contı́nua.
xii
Índice
1 Introdução
1
1.1
Interacção Homem-Máquina . . . . . . . . . . . . . . . . . . . . .
2
1.2
Sistemas de Linguagem Falada . . . . . . . . . . . . . . . . . . . .
3
1.2.1
Benefı́cios e impacto dos Sistemas de Linguagem Falada . .
4
1.2.2
Desenvolvimento dos Sistemas de Linguagem Falada . . . .
5
1.3
1.4
Reconhecimento Automático da Fala . . . . . . . . . . . . . . . . . 10
1.3.1
O que se entende por reconhecimento automático da fala . . 11
1.3.2
Porquê o reconhecimento automático da fala . . . . . . . . 12
1.3.3
Porque é difı́cil o reconhecimento automático da fala . . . . 15
1.3.4
Evolução dos sistemas de reconhecimento automático da fala 16
Objectivos, evolução e organização deste trabalho . . . . . . . . . . 23
1.4.1
Contribuições originais desta dissertação . . . . . . . . . . 29
2 Reconhecimento Automático da Fala
2.1
31
Comunicação Humana . . . . . . . . . . . . . . . . . . . . . . . . 32
xiii
2.2
2.1.1
Modelo da Comunicação através da fala . . . . . . . . . . . 33
2.1.2
Processo de Produção da Fala . . . . . . . . . . . . . . . . 34
2.1.3
Sinal de Fala . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.4
Processo de Audição da Fala . . . . . . . . . . . . . . . . . 43
O que é um sistema de reconhecimento automático da fala . . . . . 45
2.2.1
Tipos de Fala . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2.2
Modelamento do orador . . . . . . . . . . . . . . . . . . . 52
2.3
Pré-processamento do sinal de fala . . . . . . . . . . . . . . . . . . 55
2.4
Modelos de Markov não observáveis . . . . . . . . . . . . . . . . . 59
2.5
2.4.1
Paradigma do reconhecimento . . . . . . . . . . . . . . . . 61
2.4.2
Aplicação dos HMMs ao reconhecimento da fala contı́nua . 62
2.4.3
Modelamento acústico nos HMMs . . . . . . . . . . . . . . 66
2.4.4
Dicionários de pronunciação . . . . . . . . . . . . . . . . . 70
2.4.5
Modelos de Linguagem . . . . . . . . . . . . . . . . . . . . 73
2.4.6
Descodificação . . . . . . . . . . . . . . . . . . . . . . . . 77
Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . 79
3 Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
3.1
81
Vantagens e desvantagens da aplicação das redes neuronais artificiais ao reconhecimento da fala . . . . . . . . . . . . . . . . . . . . 84
3.2
Redes neuronais artificiais como classificadores estáticos . . . . . . 88
3.2.1
Perceptrão multi-camada . . . . . . . . . . . . . . . . . . . 89
xiv
3.2.2
Outros modelos . . . . . . . . . . . . . . . . . . . . . . . . 92
3.2.3
Diferentes modos de treino e de aprendizagem nas redes
neuronais artificiais . . . . . . . . . . . . . . . . . . . . . . 93
3.3
Redes com atrasos temporais e com ligações recorrentes . . . . . . 94
3.4
Sistemas hı́bridos para reconhecimento da fala . . . . . . . . . . . . 98
3.4.1
Interpretação do HMM como uma rede neuronal artificial . 99
3.4.2
Método de optimização conjunta dos parâmetros das redes
neuronais artificiais e dos HMMs . . . . . . . . . . . . . . 101
3.4.3
Estimação de probabilidades através das redes neuronais artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.5
3.4.4
Integração das redes neuronais artificiais nos HMMs . . . . 107
3.4.5
Evolução dos sistemas hı́bridos . . . . . . . . . . . . . . . 110
Desenvolvimento de um sistema hı́brido para reconhecimento da
fala contı́nua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.6
3.5.1
Sistema básico . . . . . . . . . . . . . . . . . . . . . . . . 114
3.5.2
Sistema para a base de dados TIMIT . . . . . . . . . . . . . 120
3.5.3
Sistema para a base de dados Resource Management . . . . 123
3.5.4
Sistema para a base de dados Wall Street Journal . . . . . . 132
Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . 141
4 Adaptação ao orador no âmbito dos modelos hı́bridos
4.1
143
Introdução à adaptação ao orador . . . . . . . . . . . . . . . . . . . 145
4.1.1
Variabilidade dos oradores . . . . . . . . . . . . . . . . . . 145
xv
4.1.2
Normalização do orador versus adaptação ao orador . . . . 147
4.1.3
Técnicas de adaptação ao orador nos sistemas clássicos de
reconhecimento . . . . . . . . . . . . . . . . . . . . . . . . 147
4.2
Adaptação ao orador nos modelos hı́bridos . . . . . . . . . . . . . . 150
4.3
Adaptação ao orador baseada em transformações . . . . . . . . . . 155
4.4
4.3.1
Rede Linear de Saı́da (RLS) . . . . . . . . . . . . . . . . . 156
4.3.2
Rede Linear de Entrada (RLE) . . . . . . . . . . . . . . . . 162
Adaptação ao orador baseada na modificação do sistema Independente do Orador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.4.1
Modificação dos Parâmetros do Sistema Independente do
Orador (MPSIO) . . . . . . . . . . . . . . . . . . . . . . . 174
4.4.2
Camada Intermédia Paralela (CIP) . . . . . . . . . . . . . . 177
4.5
Comparação das diferentes técnicas de adaptação ao orador . . . . . 181
4.6
Adaptação ao Orador baseada em Sistemas Dependentes do Orador 183
4.7
Adaptação ao orador não supervisionada . . . . . . . . . . . . . . . 192
4.8
Adaptação ao orador em modo incremental . . . . . . . . . . . . . 196
4.8.1
Modificação da técnica RLE para incorporar adaptação incremental . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
4.8.2
Avaliação da técnica RLE com adaptação incremental sobre
a base de dados WSJ . . . . . . . . . . . . . . . . . . . . . 199
4.9
Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . 202
5 Desenvolvimento de um sistema de reconhecimento para Portugu ês
xvi
205
5.1
Definição e desenvolvimento de uma base de dados de fala contı́nua
em Português . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.2
5.1.1
Objectivos para a base de dados . . . . . . . . . . . . . . . 209
5.1.2
Preparação do texto da base de dados . . . . . . . . . . . . 210
5.1.3
Selecção dos textos . . . . . . . . . . . . . . . . . . . . . . 212
5.1.4
Conjuntos para gravação . . . . . . . . . . . . . . . . . . . 214
5.1.5
Desenvolvimento dos modelos de linguagem . . . . . . . . 216
5.1.6
Gravação da base de dados . . . . . . . . . . . . . . . . . . 217
Desenvolvimento de um sistema básico de reconhecimento da fala
contı́nua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
5.3
5.2.1
Descrição da base de dados SAM . . . . . . . . . . . . . . 219
5.2.2
Desenvolvimento do dicionário de pronunciações . . . . . . 220
5.2.3
Segmentação e etiquetagem automática . . . . . . . . . . . 221
5.2.4
Modelamento da linguagem no sistema básico . . . . . . . 226
5.2.5
Avaliação do sistema básico . . . . . . . . . . . . . . . . . 227
Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . 228
6 Conclusões
6.1
231
Revisão do trabalho realizado . . . . . . . . . . . . . . . . . . . . . 231
6.1.1
Sistemas hı́bridos para reconhecimento da fala contı́nua . . 232
6.1.2
Adaptação ao orador no âmbito dos sistemas hı́bridos . . . . 234
xvii
6.1.3
Desenvolvimento de um sistema de reconhecimento da fala
contı́nua para Português . . . . . . . . . . . . . . . . . . . 237
6.2
Desenvolvimentos futuros . . . . . . . . . . . . . . . . . . . . . . 238
xviii
Lista de Figuras
1.1
Diagrama de blocos genérico de um Sistema de Linguagem Falada.
2.1
Modelo esquemático da comunicação humana através da fala. (Fi-
3
gura adaptada de [Rabiner e Juang, 1993]). . . . . . . . . . . . . . 33
2.2
Desenho esquemático das cordas vocais.
(Figura adaptada de
[Martins, 1988, p. 19]). . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3
Configurações das cordas vocais.
(Figura adaptada de
[Martins, 1988, p. 20]). . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4
Três representações diferentes para a frase “Aqui a neve tem
meio metro de altura.”: a) representação através das palavras, b)
representação através do gráfico de amplitude do sinal de fala e c)
representação através do espectrograma. . . . . . . . . . . . . . . . 39
2.5
Desenho esquemático do ouvido. . . . . . . . . . . . . . . . . . . . 43
2.6
Esquema de blocos representando as tarefas básicas executadas
por um sistema de reconhecimento da fala. (Figura adaptada de
[Markowitz, 1996].) . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.7
Esquema de blocos representando o reconhecedor. . . . . . . . . . . 47
2.8
Modelamento do orador como uma linha contı́nua. (Figura adaptada de [Markowitz, 1996]). . . . . . . . . . . . . . . . . . . . . . . 55
xix
2.9
Representação esquemática de um modelo de Markov com três estados numa topologia esquerda-direita. Nesta topologia só são permitidas transições de um estado para si próprio ou para o estado
seguinte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1
Modelo da unidade básica do perceptrão multi-camada. . . . . . . 89
4.1
Representação esquemática da transformação dos parâmetros ao
nı́vel fonético usando a Rede Linear de Saı́da (RLS). . . . . . . . . 157
4.2
Representação esquemática da transformação dos parâmetros
acústicos usando a Rede Linear de Entrada (RLE). . . . . . . . . . 163
4.3
Representação esquemática do sistema incluindo a rede com a Camada Intermédia Paralela . . . . . . . . . . . . . . . . . . . . . . . 178
5.1
Distribuição das idades dos oradores. . . . . . . . . . . . . . . . . . 218
xx
Lista de Tabelas
2.1
Tabela de sı́mbolos fonéticos para o Português. . . . . . . . . . . . 42
2.2
Algumas entradas do dicionário de pronunciação associado à base
de dados SAM em Português. . . . . . . . . . . . . . . . . . . . . . 72
3.1
Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e teste ao longo do processo de treino. . . . . . . . . . . . . . 122
3.2
Avaliação do erro de reconhecimento ao nı́vel da palavra do sistema
independente do orador nos conjuntos de teste standard. . . . . . . 127
3.3
Avaliação do erro de reconhecimento ao nı́vel da palavra do sistema
independente do orador para cada orador do conjunto de teste de
avaliação dependente do orador. . . . . . . . . . . . . . . . . . . . 129
3.4
Erro de reconhecimento ao nı́vel da palavra para os sistemas dependentes do orador onde se variou a estrutura do MLP através do
número de unidades escondidas. . . . . . . . . . . . . . . . . . . . 130
3.5
Erro de reconhecimento ao nı́vel da palavra para os sistemas dependentes do orador variando as caracterı́sticas do treino (contexto na
entrada e normalização das entradas). Estrutura com 200 unidades
intermédias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
xxi
3.6
Divisão do conjunto de treino associado ao WSJ0 em quatro subconjuntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
3.7
Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e de validação ao longo do processo de treino. . . . . . . . . 137
3.8
Resultados do reconhecimento ao nı́vel da trama para o conjunto
de treino e de validação ao longo do processo de treino, tendo-se
alterado a ordem dos subconjuntos. . . . . . . . . . . . . . . . . . . 137
3.9
Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e de validação ao longo do processo de treino, para o MLP
com 4 000 unidades intermédias. . . . . . . . . . . . . . . . . . . . 138
3.10 Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e de validação ao longo do processo de treino, para o MLP
com 4 000 unidades intermédias após um processo de realinhamento. 139
4.1
Avaliação da Rede Linear de Saı́da usando como material de
adaptação os ficheiros SB para os oradores nos conjuntos de teste standard. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
4.2
Avaliação da Rede Linear de Saı́da usando como material de
adaptação os ficheiros teste do corpus dependente do orador. . . . . 162
4.3
Resultados do erro de reconhecimento ao nı́vel da palavra na
adaptação ao orador através da Rede Linear de Entrada a partir de
40 frases de adaptação (30 para treino e 10 para validação cruzada). 165
4.4
Resultados do erro de reconhecimento ao nı́vel da palavra na
adaptação ao orador através da Rede Linear de Entrada a partir de
100 frases de adaptação (80 para treino e 20 para validação cruzada). 167
xxii
4.5
Resultados do erro de reconhecimento ao nı́vel da palavra na
adaptação ao orador através da Rede Linear de Entrada a partir de
200 frases de adaptação (100 para treino e 100 para validação cruzada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4.6
Resultados do erro de reconhecimento ao nı́vel da palavra na
adaptação ao orador através da Rede Linear de Entrada a partir de
700 frases de adaptação (600 para treino e 100 para validação cruzada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
4.7
Avaliação da Rede Linear de Entrada usando diferentes quantidades
de material de adaptação. . . . . . . . . . . . . . . . . . . . . . . . 171
4.8
Avaliação da Rede Linear de Entrada com uma estrutura de pesos
partilhados numa situação de adaptação com 100 frases (80 para
treino e 20 para validação cruzada). . . . . . . . . . . . . . . . . . 173
4.9
Resultados do erro de reconhecimento ao nı́vel da palavra na
adaptação ao orador através da Modificação dos Parâmetros do Sistema IO a partir de 100 frases de adaptação (80 para treino e 20 para
validação cruzada). . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.10 Avaliação da técnica de Modificação dos Parâmetros do Sistema IO
(MPSIO) usando diferentes quantidades de material de adaptação. . 177
4.11 Resultados do erro de reconhecimento ao nı́vel da palavra na
adaptação ao orador através da Camada Intermédia Paralela a partir de 100 frases de adaptação (80 para treino e 20 para validação
cruzada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
4.12 Avaliação da técnica baseada na rede adicional com a Camada Intermédia Paralela (CIP) usando diferentes quantidades de material
de adaptação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
xxiii
4.13 Comparação das diferentes técnicas realizadas usando diferentes
quantidades de material de adaptação. Normalização para o treino e teste baseada nas frases de treino da adaptação. . . . . . . . . . 182
4.14 Avaliação para os quatro oradores de referência dos seus sistemas
dependentes do orador sobre o conjunto de teste (100 frases) de
todos os oradores presentes no corpus dependente do orador da base
de dados RM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
4.15 Resultados da adaptação do sistema de cada orador de referência a
cada orador de teste a partir de 100 frases de adaptação (80 frases
para treino e 20 para validação cruzada). . . . . . . . . . . . . . . . 186
4.16 Resultados da adaptação do sistema de cada orador de referência a
cada orador de teste a partir de 700 frases de adaptação (600 frases
para treino e 100 para validação cruzada). . . . . . . . . . . . . . . 187
4.17 Estudo do efeito dos parâmetros de normalização na adaptação do
sistema de um orador de referência (dtb0) a cada orador de teste a
partir de 100 frases de adaptação (80 frases para treino e 20 para
validação cruzada). . . . . . . . . . . . . . . . . . . . . . . . . . . 188
4.18 Resultados da adaptação do sistema (com 350 unidades intermédias) de cada orador de referência a cada orador de teste a
partir de 100 frases de adaptação (80 frases para treino e 20 para
validação cruzada). . . . . . . . . . . . . . . . . . . . . . . . . . . 190
4.19 Resultados da adaptação do sistema (com 350 unidades intermédias) de um orador de referência (dtb0) a cada orador de teste
a partir de 700 frases de adaptação (600 frases para treino e 100
para validação cruzada). . . . . . . . . . . . . . . . . . . . . . . . 191
4.20 Avaliação da Rede Linear de Entrada usando 80 frases de adaptação
do corpus dependente do orador da base de dados RM. . . . . . . . 195
xxiv
4.21 Resultados do erro ao nı́vel da palavra para a técnica de adaptação
ao orador RLE avaliada na tarefa Spoke 4 do conjunto de avaliação
do WSJ de Novembro de 1994. . . . . . . . . . . . . . . . . . . . . 200
4.22 Resultados em média para os quatro oradores do erro ao nı́vel da palavra para a técnica de adaptação ao orador RLE avaliada na tarefa
Spoke 4 do conjunto de avaliação do WSJ de Novembro de 1994. . . 202
5.1
Resumo dos totais dos textos presentes na base de dados. . . . . . . 212
5.2
Evolução do número de frases para o conjunto de teste de desenvolvimento obedecendo à restrição da dimensão do vocabulário. . . . . 213
5.3
Dimensão do vocabulário (número de palavras) para os diferentes
conjuntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
5.4
Perplexidade dos modelos de linguagem para cada um dos conjuntos de teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.5
Tabela de conversão entre os sı́mbolos fonéticos da TIMIT para o
Português. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
5.6
Tabela de conversão entre os sı́mbolos fonéticos da TIMIT para o
Português. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
5.7
Evolução do processo de alinhamento e treino. . . . . . . . . . . . . 226
5.8
Percentagem de erro ao nı́vel da palavra no conjunto de teste em
função do modelo de linguagem utilizado. . . . . . . . . . . . . . . 227
xxv
xxvi
Capı́tulo 1
Introdução
A visão do futuro em nós criada, através do imaginário presente em alguns livros e filmes, tem sempre associada um elevado grau tecnológico onde a
comunicação através da fala com as máquinas é um ponto comum e dominante. A
essa visão surge associada a possibilidade do homem, que vive nessa época, realizar
desde as tarefas mais simples, como o simples acto de ligar a torradeira e/ou a televisão, às mais complicadas, como seja interagir com o seu computador de modo a
aceder eficientemente a informação essencial, enquanto realiza outras tarefas mais
elementares. Essa visão não surge como algo meramente irrealista, mas, pelo contrário, como algo extremamente plausı́vel e lógico. Por outro lado, essa evolução
tecnológica surge como um dado adquirido, sem a qual não somos capazes de conceber o nosso futuro mais próximo.
Quando nos apresentamos e dizemos que trabalhamos em reconhecimento da
fala, ou em interacção homem-máquina baseada na fala, as pessoas questionam-nos
sempre para quando a possibilidade de falar com as máquinas do nosso quotidiano,
e quando é que elas terão capacidade de nos responderem de uma forma interactiva. É nessa altura que temos consciência de como o desenvolvimento alcançado
nos últimos anos, nas várias áreas relacionadas com a fala, não passa de um pequeno passo rumo a um objectivo final, que, todavia, ainda se encontra longe de ser
2
Capı́tulo 1 - Introdução
alcançado.
No entanto, os passos dados pela comunidade cientı́fica internacional começam
a ser aproveitados pela indústria, no sentido de se transportar essa tecnologia para
aplicações correntes e de forma a que o comum dos cidadãos dela possa tirar partido.
Esse aspecto torna-se importante para todos, pois, se por um lado demonstra as
possibilidades da tecnologia, por outro mostra a necessidade de continuarmos a
financiar o esforço de investigação no sentido de alcançarmos o objectivo comum
de todos: pôr essa tecnologia nas mãos das pessoas de forma a usufruirem dos seus
benefı́cios.
1.1 Interacção Homem-Máquina
Quando os homens comunicam entre si utilizam um conjunto de recursos intrı́nsecos à sua condição. Exprimem-se através da fala, como meio de veiculação da
mensagem, através de gestos, que dão um maior vigor e sentido às suas palavras e
são o reflexo do seu nı́vel emotivo, e, ainda, através de expressões, tanto faciais como corporais, que conferem um maior significado e expressividade às suas palavras.
Complementarmente utilizam a audição e a visão para aquisição de um determinado
número de pistas, a utilizar num nı́vel superior pelo cérebro, para uma interpretação
e entendimento da mensagem transmitida e do seu contexto. Apesar de actualmente existir um conhecimento considerável sobre a forma de comunicação nas suas
diferentes fases, o mesmo já não se poderá dizer sobre a sua interligação e interdependência no processo de geração e de interpretação da mensagem em si. A
forma como o nosso cérebro junta as diferentes informações adquiridas e daı́ extrai
a mensagem veiculada é, ainda, um processo obscuro e de difı́cil sistematização.
Conhecemos as diferentes fases desse processo, sabemos da sua interdependência,
mas não sabemos ao certo como é que elas se realizam e se relacionam.
O planeamento e a realização de um sistema de interacção homem-máquina
deverá ter em conta os diferentes processos que estão na base da comunicação hu-
3
1.2 Sistemas de Linguagem Falada
mana. No entanto, devido à complexidade de cada um dos processos envolvidos e
da natural sobrecarga resultante da sua interligação e interdependência, estes processos têm sido estudados, planeados e realizados em separado. Os sistemas de
visão são aplicados no reconhecimento de objectos e padrões e usados na visão
robótica para orientação espacial. Os sistemas de fala são usados para comunicação
entre o utilizador e as aplicações, normalmente num só sentido. Os conceitos da
Inteligência Artificial e os conceitos do processamento da Linguagem Natural pretendem extrair informação das frases e dos textos. Contudo, raramente se verifica
interacção e relacionamento entre estes vários processos.
Os sistemas de fala, por nós aqui designados como Sistemas de Linguagem
Falada, são de uma importância extrema dado que genericamente permitem uma
interacção bi-direccional com o utilizador. São estes sistemas que vamos abordar
na secção seguinte.
1.2 Sistemas de Linguagem Falada
No que se refere aos sistemas baseados na fala, área sobre a qual incide o nosso trabalho, podemos representá-los através de um diagrama de blocos, conforme
apresentado na Figura 1.1, onde cada um dos blocos representa uma fase distinta
neste complexo processo.
Aplicação
FALA
Sistema de
Reconhecimento
da Fala
Sistema de
Gestão de
Diálogos
Sistema de
Síntese
da Fala
FALA
Figura 1.1: Diagrama de blocos genérico de um Sistema de Linguagem Falada.
Este diagrama que representa a comunicação homem-máquina baseada na fala,
4
Capı́tulo 1 - Introdução
denominado Sistema de Linguagem Falada (do inglês Spoken Language System),
combina as áreas do reconhecimento da fala, processamento de linguagem natural,
sı́ntese da fala e a tecnologia de interfaces humanas.
A fala, produzida pelo utilizador do sistema, é passada através do Sistema de
Reconhecimento da Fala, onde o sinal acústico é transformado numa sequência de
palavras representadas na forma de grafemas. Esta sequência de palavras é passada
ao bloco seguinte, denominado Sistema de Gest ão de Diálogos, que a interpreta de
forma a obter e representar o seu significado (nos termos definidos pela Aplicaç ão).
Neste bloco, e quando necessário através da sua interacção com a Aplicaç ão, é
gerada a resposta apropriada que é transmitida ao utilizador através do bloco denominado Sistema de Sı́ntese da Fala. Neste bloco, a resposta dada pelo sistema é
transformada em fala tornando, assim, a interacção com o utilizador bi-direccional
e exclusivamente baseada na fala.
1.2.1 Benefı́cios e impacto dos Sistemas de Linguagem Falada
Estes sistemas tornam possı́vel que os utilizadores interajam com os computadores usando a mais natural e mais universal forma de comunicação: a fala. Dado
o modo natural dessa interacção, não se torna necessário um treino especial, permitindo, eventualmente, que recursos baseados no uso de computadores estejam disponı́veis para muitos novos grupos de utilizadores (utilizadores casuais, uso através
do telefone, utilizadores com mãos ou olhos ocupados, utilizadores deficientes).
Um dos objectivos destes sistemas é o de aumentar a produtividade. Sabemos
que a maioria das pessoas não são especialistas em computadores. Por exemplo,
enquanto nós quando falamos produzimos entre 150 a 250 palavras por minuto,
um dactilógrafo treinado introduz, em média, 60 palavras por minuto, e, na maior
parte dos casos, muito menos que isso. Assim, dada a possibilidade de geração de
texto a partir da fala será expectável uma melhoria significativa na produtividade,
adicionalmente à oportunidade de se realizarem tarefas que não seriam possı́veis se
as mãos estivessem ocupadas na introdução do texto.
1.2 Sistemas de Linguagem Falada
5
As pessoas que sofrem de alguma deficiência acham por vezes difı́cil controlar o seu ambiente. Nestes casos, qualquer ajuda oferecida pela novas tecnologias
melhora significativamente a sua qualidade de vida. Por outro lado, essas pessoas
estarão extraordinariamente motivadas para usar a tecnologia, dada a possibilidade
de desfrutarem de capacidades que, de outra forma, não teriam. Para estes casos,
encontramos diversas aplicações do reconhecimento da fala, como seja, por exemplo, o controlo das máquinas através da fala. Isto inclui, não só, os dispositivos
que fazem parte do nosso dia-a-dia, como as luzes ou a televisão, como, também,
dispositivos especiais como sejam cadeiras de rodas ou camas articuladas. Através
de aplicações baseadas na sı́ntese da fala possibilita-se a comunicação oral àqueles
que perderam a capacidade natural para o fazer.
Estes sistemas irão, ainda, permitir um maior acesso do público em geral a
informações, que poderão ir desde horários de viagens a informação médica de
emergência. O reconhecimento e sı́ntese da fala poderão permitir um acesso universal e simples a bases de dados de informações, usando comandos falados através
do telefone. Apesar de algumas destas bases de dados já existirem actualmente,
continua a ser difı́cil o seu acesso, dada a necessidade de um terminal próprio e a necessidade de recorrer a linguagens de programação para o acesso a essa informação.
Temos, ainda, que a capacidade dos computadores em reconhecer e entender
a fala irá provocar um enorme desenvolvimento na indústria dos computadores dada a enorme variedade de novas aplicações nas quais essas máquinas poderão ser
utilizadas.
1.2.2 Desenvolvimento dos Sistemas de Linguagem Falada
Os diferentes progressos verificados nas áreas associadas à fala e à linguagem,
em conjugação com os avanços tecnológicos na área dos computadores, permitiram
que os Sistemas de Linguagem Falada evoluı́ssem significativamente nestes últimos
anos. Essa evolução verificou-se tanto ao nı́vel da investigação básica sobre os diferentes aspectos relacionados com esta tecnologia, como no desenvolvimento de
6
Capı́tulo 1 - Introdução
aplicações reais e de implementação comercial. Estas implementações, apesar de
limitadas e aplicadas a domı́nios especı́ficos, começam a mostrar aos utilizadores
a sua validade e o seu enorme potencial. Apesar das suas limitações, estes sistemas têm mostrado que não necessitam de serem totalmente perfeitos para obterem
sucesso e aceitação. Por outro lado, as melhorias progressivas no seu nı́vel de desempenho levam a uma aceitação crescente da tecnologia criando-se, assim, uma
força condutora no sentido de se desenvolverem mais aplicações e com um cada
vez maior nı́vel de qualidade.
Apesar dos progressos significativos verificados nos últimos anos, existe, ainda, um longo caminho cheio de obstáculos e dificuldades a superar para que estes
sistemas atinjam todo o seu potencial. É necessário que sejam capazes de lidar correctamente com a variabilidade do sinal de fala, que sejam facilmente adaptáveis a
novos domı́nios e a novas lı́nguas, que permitam uma comunicação natural por parte
do utilizador, que mostrem uma maior grau de “inteligência” interagindo apropriadamente com o utilizador, que utilizem eles mesmos a fala como forma natural de
comunicação e que procurem integrar a fala com outros meios de expressão para
um maior entendimento dos desejos e vontades dos utilizadores [Cole et al., 1995].
Nesse sentido, colocam-se actualmente uma série de desafios à comunidade
internacional, em termos de investigação e desenvolvimento, de forma a se superar
o conjunto de limitações que os sistemas actuais apresentam [Cole et al., 1995]:
Robustez e variabilidade - Para uma plena aceitação do sistema será necessário que ele seja robusto a todos os nı́veis, demonstrando capacidade de
lidar com o ruı́do de fundo, com as imperfeições do canal de comunicação,
com novas tarefas, com novos ambientes e com a variabilidade intrı́nseca
ao sinal da fala. Verifica-se que os sistemas de reconhecimento da fala actuais não conseguem integrar um grande nı́vel de robustez. Bastam pequenas
alterações, como sejam no microfone ou no canal de comunicação, para que
o nı́vel de desempenho do sistema se degrade significativamente. Os utilizadores, obviamente, não confiarão num sistema se tiverem que falar de uma
forma bastante condicionada, se o sistema falhar quando estão constipados,
1.2 Sistemas de Linguagem Falada
7
ou se o desempenho do sistema baixar drasticamente quando existir ruı́do de
fundo. Além das alterações nas caracterı́sticas dos dispositivos, a variabilidade associada ao sinal de fala, que é tipicamente devida ao utilizador, é outro
dos factores a ter em conta.
Adaptação a novos domı́nios - A generalização de sistemas de linguagem falada a uma variedade de aplicações reais passa pela investigação sobre o modo de adaptar esses sistemas, rapidamente e com um custo reduzido, a novos
domı́nios e tarefas. Actualmente, o custo elevado da transformação desses
sistemas para novas tarefas representa um grande obstáculo à sua divulgação.
Em termos de reconhecimento da fala, têm sido desenvolvidos procedimentos
automáticos de treino, sendo no entanto necessárias grandes quantidades de
dados especı́ficos da tarefa para um desenvolvimento aceitável do sistema.
Sistemas multi-lı́ngua - O desenvolvimento de sistemas multi-lı́ngua representa, também, um desafio enorme e significativo. A transformação de um
sistema para uma nova lı́ngua coloca, adicionalmente, em todas as componentes do sistema uma carga de independência da linguagem. Para isso, é
necessário investigar quais são as propriedades especı́ficas versus as propriedades independentes da lı́ngua, ou seja, quais são as principais diferenças
acústicas, fonéticas, perceptuais e linguı́sticas entre as diferentes linguagens.
Nesse sentido devem ser estudados e desenvolvidos formalismos, e mesmo
algoritmos, para aprendizagem e adaptação automática das representações da
linguagem falada a todos os nı́veis linguı́sticos (acústico, fonético, prosódico,
sintáctico, semântico, pragmático e de discurso). Actualmente, no entanto,
não conseguimos dispensar a necessidade de novos dados de treino, tanto
em termos de fala, como de linguagem. Até sermos capazes de desenvolver
métodos mais simples de transformar ou adaptar sistemas a novos domı́nios
e novas lı́nguas, a aplicação dos Sistemas de Linguagem Falada ficará restrita
a pequenas e especı́ficas aplicações, e com uma tendência dominadora para
certas lı́nguas determinada por questões de mercado.
Naturalidade - A capacidade de lidar com o fenómeno da fala espontânea
8
Capı́tulo 1 - Introdução
é, também, uma propriedade importante dos sistemas robustos. Sistemas
que não sejam usados de uma forma natural não encontrarão a necessária
aceitação geral. O trabalho a realizar em termos de fala espontânea, permitindo aos sistemas ultrapassar cortes na conversa, interrupções, hesitações e más
interpretações, permitirá aos utilizadores interacções, em termos de diálogo,
cada vez mais naturais.
Extracção do significado - Verificamos que os sistemas de reconhecimento da
fala produzem cada vez melhores hipóteses acerca das palavras produzidas.
No entanto, é necessário que esse esforço seja acompanhado no sentido de
se extrair o significado dessa sequência de palavras, de forma a que correctamente e eficientemente se responda às necessidades do utilizador.
Geração da resposta - Uma interface baseada em linguagem falada envolve
mais que o reconhecimento e a interpretação da fala pelo sistema. Uma interface deverá ser, sobretudo, baseada num diálogo entre o utilizador e o sistema. A interpretação da fala, por si só, não permite que o sistema responda
ao utilizador de uma forma inteligı́vel e útil. O estudo e desenvolvimento dos
sistemas de geração de resposta têm por objectivo determinar o conteúdo e a
forma da resposta, de forma a que ela seja o mais útil possı́vel ao utilizador.
Sı́ntese da fala - Na interacção homem-máquina a forma da resposta é tão importante como o seu conteúdo, e muitas das interfaces requerem, ou são significativamente melhoradas, pelo uso da sı́ntese da fala. A geração de fala a
partir de texto possui um leque variado de aplicações, mas encontra-se limitada pela qualidade dos sistemas actuais. Por outro lado, os avanços em termos
de geração de linguagem natural abre uma nova área de investigação, nomeadamente em termos de geração da fala. Da mesma forma que a compreensão
da fala envolve mais do que o simples encadeamento do reconhecimento da
fala e processamento da linguagem natural, a geração da fala deverá envolver
mais do que, simplesmente, a ligação entre o sistema de geração de resposta
e um sintetizador de texto para fala.
Sistemas multi-modais - Numa tentativa de aproximação à percepção humana
1.2 Sistemas de Linguagem Falada
9
os sistemas multi-modais estabelecem uma plataforma onde se integra a fala
com outros meios, através da sua combinação com expressões faciais, movimento dos olhos, gestos, escrita manuscrita ou, ainda, outras possibilidades
de entrada, e comunicando com o utilizador através de respostas multimédia.
Estes sistemas permitem interfaces homem-máquina mais flexı́veis, fáceis de
aprender e produtivas. Adicionalmente, são capazes de um desempenho mais
robusto em condições adversas, o que em muitos casos poderá ser necessário
antes que a tecnologia associada aos sistemas de linguagem falada possa funcionar adequadamente em ambientes verdadeiramente realistas.
Como anteriormente referido, os Sistemas de Linguagem Falada constituem
um processo complexo que envolve diferentes fases. Esse processo estende-se desde o reconhecimento da fala, passando pela análise e tratamento da sequência de
palavras produzidas pelo reconhecedor, de forma a se extrair o seu significado (em
conjugação directa com a aplicação), geração da resposta do sistema e terminando no processo de sı́ntese da resposta em fala. A abordagem do problema, na sua
globalidade, exige uma gama de áreas de formação muito vasta que vai desde o
processamento de sinais, à fonética, à linguı́stica, ao processamento de linguagem
natural, à inteligência artificial, à informática e à engenharia. Verifica-se, ainda, que
cada uma destas fases é por si só bastante complexa envolvendo um conjunto elevado de problemas e de dificuldades. Para se lidar com um processo tão complexo
é necessário a constituição de uma equipa multi-disciplinar que trabalhe em conjunto nas suas diferentes fases. No entanto, dada a diversidade de áreas necessárias
opta-se, normalmente, por uma estratégia, obviamente não óptima, de analisar cada
uma destas fases por si, como se se tratasse de um problema isolado. Esta estratégia
simplifica, dado que é muito mais fácil delimitar o problema associado a cada fase
e, assim, definir qual a melhor ou melhores soluções, mas, por outro lado, não permite tirar partido da redundância e complementaridade existentes, necessariamente,
entre as várias fases.
O nosso trabalho insere-se nos sistemas de reconhecimento automático da fala
e que constitui o bloco de entrada do sistema geral. Vamos começar por expli-
10
Capı́tulo 1 - Introdução
car, na secção seguinte, os contornos do problema associado ao reconhecimento
automático da fala.
1.3 Reconhecimento Automático da Fala
O reconhecimento e a interpretação da fala humana é, sem dúvida, uma área que
tem apaixonado a comunidade cientı́fica internacional desde meados deste século.
Com todas as descobertas e avanços tecnológicos verificados nas últimas décadas,
encontramo-nos perante o dealbar do novo século sem, ainda, nos sentirmos satisfeitos na forma como interagimos com os equipamentos que nos rodeiam.
O Reconhecimento Automático da Fala, que constitui o bloco de entrada para
o difı́cil e complexo Sistema de Linguagem Falada, tem beneficiado da evolução
e desenvolvimentos teóricos subjacentes a várias disciplinas, permitindo uma melhor representação e compreensão do sinal da fala. Por outro lado, os avanços tecnológicos que colocaram à nossa disposição computadores, processadores de sinal
e memórias cada vez mais rápidos e mais económicos, além de capacidades de armazenamento cada vez mais elevadas, têm, também, contribuı́do para a evolução na
área do reconhecimento da fala.
Desde o tempo dos sistemas de reconhecimento de dı́gitos, para um ambiente
imune a ruı́do e para um único utilizador, até à comercialização em larga escala
de sistemas de ditado, um longo caminho foi percorrido. No entanto, temos consciência que outro tanto terá de o ser, até obtermos um sistema que nos permita uma
interacção e controlo dos equipamentos que nos rodeiam de uma forma natural.
Nesta secção pretende-se abordar as razões que levaram ao desenvolvimento
destes sistemas, as dificuldades que enfrentam actualmente e a sua evolução.
1.3 Reconhecimento Automático da Fala
11
1.3.1 O que se entende por reconhecimento automático da fala
O sinal de fala representa uma mensagem linguı́stica codificada pelo processo
de produção da fala. Ao analisarmos este sinal pretendemos, em última análise, extrair o significado da mensagem que ele representa. Este processo de interpretação
envolve aspectos bem distintos, tornando-se, portanto, difı́cil abordar o problema
como um todo. Assim, aplicamos um modelo simplificado em que o processo global é repartido em tarefas mais pequenas.
Daı́ resulta um redefinição dos objectivos e quando nos referimos ao reconhecimento automático da fala estamos, sobretudo, a falar da transcrição do sinal acústico
numa palavra ou sequência de palavras. O conhecimento posto neste processo tem
evoluı́do ao longo do tempo. Desde a situação do reconhecimento de um conjunto
muito limitado de palavras isoladas, até ao reconhecimento da fala contı́nua, muito
se evoluiu.
O reconhecimento da fala começou por ser, simplesmente, um problema de
classificação, onde a partir de um conjunto de amostras do sinal da fala se pretendia
classificar na classe respectiva. A cada classe encontrava-se associada uma palavra
do vocabulário. Tratavam-se de vocabulários reduzidos, sendo os dı́gitos as palavras
mais utilizadas. Dada a dimensão elevada das amostras do sinal, representativas de
uma palavra, aplicavam-se técnicas de extracção de caracterı́sticas que procuravam
representar a informação relevante presente no sinal de fala, mas através de um
conjunto de parâmetros de ordem reduzida. Era a partir dessa representação que se
efectuava o processo de classificação.
Actualmente, dado estarmos interessados no reconhecimento da fala contı́nua
e para grandes vocabulários, o processo de reconhecimento tem subjacente um
conjunto de operações muito mais complexas que uma simples operação de
classificação. Utilizam-se modelos hierárquicos tendo como unidades base os
fonemas.
O processo de reconhecimento automático da fala começa numa
descodificação acústico-fonética, transformando o sinal acústico, que representa
a fala, numa sequência de fonemas. A essa sequência de fonemas é imposto um
12
Capı́tulo 1 - Introdução
conjunto de restrições lexicais, gerando-se, assim, um novo nı́vel onde as unidades
passam a ser as palavras. Por sua vez, a sequência de palavras terá de obedecer a um
conjunto de restrições sintácticas, derivadas de um modelo de linguagem, em que se
define a sequência de palavras admissı́veis. Todas estas fases são interdependentes
o que permite uma optimização da sequência final produzida.
A forma como todo este processo é realizado, assim como a constituição dos
diferentes componentes necessários, serão assuntos abordados em detalhe ao longo
do Capı́tulo 2 da presente dissertação.
1.3.2 Porquê o reconhecimento automático da fala
Para a maioria das pessoas não é, ainda, evidente os benefı́cios que uma
interacção baseada no reconhecimento da fala pode introduzir. Alguns dos benefı́cios introduzidos por este tipo de interface foram referidos anteriormente, quando abordámos os benefı́cios dos Sistemas de Linguagem Falada na sua generalidade, como sejam a naturalidade da forma de comunicação, a possibilidade de controlo do ambiente à nossa volta, o aumento da produtividade sustentada por este
tipo de interfaces a as novas possibilidades de acesso a informação que de outra
forma seria difı́cil de aceder. Têm sido as empresas a tomarem a dianteira no uso e
desenvolvimento deste tipo de tecnologia motivadas por questões económicas e de
imagem. Entre essas motivações podemos enunciar as seguintes:
1. Aumento da Produtividade - Interfaces, baseadas em reconhecimento da
fala, permitem realizar mais trabalho, com melhor ou igual perfeição, relativamente aos métodos tradicionais existentes.
2. Retorno rápido do investimento - É uma tecnologia que permite um retorno
rápido do investimento, dado que o treino especı́fico necessário para a sua
utilização é reduzido, ao mesmo tempo que permite ı́ndices de rentabilidade
elevados.
1.3 Reconhecimento Automático da Fala
13
3. Acesso a novos mercados - Permite a extensão de certos serviços a perı́odos
de 24 horas, abrindo a possibilidade de novos mercados e de novos clientes.
4. Diferenciação entre produtos e empresas - A utilização de um sistema de
reconhecimento da fala transmite uma ideia de evolução tecnológica que beneficia tanto a imagem da empresa, como a do próprio produto.
Só recentemente é que as empresas, em particular, e os utilizadores, em geral, começaram a ser despertos e a se sentirem atraı́dos pelos sistemas integrando reconhecimento da fala. Isso deve-se, cada vez mais, ao nı́vel de realização e
de flexibilidade apresentados por estes sistemas. Estes avanços são devidos, em
parte, aos significativos progressos tecnológicos da indústria, representados no aumento da capacidade dos microprocessadores, na cada vez maior miniaturização,
na maior e mais flexı́vel integração dos telefones com os computadores e no crescimento da multimédia. Nesse sentido podemos considerar os seguintes factores
[Markowitz, 1996]:
1. Microprocessadores
O crescimento dramático e contı́nuo na velocidade e poder dos microprocessadores é um dos principais factores para a migração da tecnologia avançada de reconhecimento da fala dos laboratórios para as
aplicações reais.
O aumento do poder dos microprocessadores foi acompanhado por um
decréscimo acentuado no seu preço.
2. Miniaturização
À medida que os sistemas mais pequenos vão ficando mais poderosos,
eles podem suportar sistemas de reconhecimento de complexidade crescente.
Um segundo aspecto na miniaturização é tornar as interfaces baseadas
no reconhecimento da fala mais desejáveis. Por exemplo, no uso de
14
Capı́tulo 1 - Introdução
dispositivos de bolso electrónicos não é conveniente o uso do teclado,
nem do rato, sendo a interface ideal baseada no reconhecimento da fala.
3. Negócio Global
As diferenças económicas e polı́ticas vão diminuindo, tornando-se necessário estabelecer capacidades de comunicação multi-lı́nguas disponı́veis 24 horas por dia.
As soluções actuais, que passam pela
contratação de profissionais bilingues, são normalmente dispendiosas
e inibitórias a essa evolução.
O uso de sistemas de reconhecimento multi-lı́ngua, baseados no telefone, é uma solução efectiva em termos de custo para negócios
que necessitem de um sistema de mensagens telefónicas e suporte de
comunicações para as 24 horas.
4. Multimédia
A multimédia coloca ao nosso dispor grandes fontes de informação e
um conjunto elevado de meios, e sem uma interface natural, baseada no
reconhecimento da fala, não poderemos explorar na plenitude todos os
seus recursos.
Adicionalmente, uma interface, baseada no reconhecimento da fala, irá
permitir que de uma forma natural estes serviços estejam disponı́veis
para todos, dado que não exige um conhecimento especializado para
aceder a essa informação.
Como resultado da evolução tecnológica verificada no âmbito da microelectrónica e das necessidades crescentes dos sistemas de tecnologia da informação,
o reconhecimento da fala surge, assim, como uma necessidade para uma maior
evolução e disseminação desses sistemas de informação.
1.3 Reconhecimento Automático da Fala
15
1.3.3 Porque é difı́cil o reconhecimento automático da fala
Apesar de todos os progressos verificados no conhecimento do processo humano de reconhecimento da fala e de todas as evoluções verificadas nos sistemas
de forma a integrarem esse conhecimento, constata-se que o reconhecimento automático da fala continua a constituir uma tarefa extremamente complexa e difı́cil.
Podemos enunciar algumas razões para esse facto:
Redundância no sinal de fala - Existe uma grande quantidade de dados presentes no sinal acústico, que não são relevantes para a discriminação entre
os diferentes sons. É necessário uma representação de mais alto nı́vel para
reconhecer e interpretar correctamente a fala, do que aquela contida no sinal
acústico.
Ruı́do - O sinal da fala está, normalmente, sujeito a várias fontes de ruı́do que
o corrompem e o degradam. Por um lado, temos o ruı́do ambiente que interfere na qualidade do sinal produzido pelo orador, por outro, temos os dispositivos de aquisição, microfones e filtros com diferentes caracterı́sticas, e, ainda,
as interferências motivadas pelo canal de comunicação, banda telefónica limitada e distorções de frequência e temporais do sinal de fala. Temos, ainda,
que alguns sons produzidos pelo utilizador, como seja os movimentos dos
lábios e sons vocálicos não comunicativos (ah, uh, ...) constituem, também,
uma fonte de ruı́do.
Variabilidade - A voz varia entre pessoas e para a mesma pessoa ao longo
do tempo. Essas diferenças têm a ver com aspectos fı́sicos (tamanho e forma
da boca, tamanho e largura do pescoço, estatura fı́sica, condição fı́sica, etc.),
sexo, idade e saúde. Para o mesmo utilizador há que ter em conta situações
em que fala baixo, grita, está zangado, triste, cansado, doente, etc. Mesmo falando normalmente, é raro a mesma palavra ser pronunciada da mesma forma
duas vezes. Existem, ainda, outras fontes de variabilidade, como seja o efeito
de co-articulação entre palavras, pronunciações dependentes do contexto de
palavras e fonemas, variabilidade entre oradores na pronunciação de fonemas
16
Capı́tulo 1 - Introdução
e palavras devido a diferenças de dialecto, ou contexto fonético diferente em
que as palavras ocorrem, variabilidade em termos gramaticais, ou de estilo.
Apesar destas diferenças, o sistema de reconhecimento deverá ser capaz de
reconhecer a fala de qualquer orador que use o sistema. A capacidade de um sistema
de reconhecimento ter um bom desempenho nas condições de variabilidade dos
oradores é uma das suas caracterı́sticas de robustez.
1.3.4 Evolução dos sistemas de reconhecimento automático da
fala
Realizar uma cronologia dos vários factos, acontecimentos e desenvolvimentos
numa área em que estão em jogo interesses económicos, patentes, competições, financiamentos e, ainda, outros factores, é uma tarefa extremamente difı́cil e ingrata.
Por outro lado, é difı́cil falar em reconhecimento da fala sem se ter uma ideia das
diferentes fases, e também da sua realização temporal, envolvidas no processo de
desenvolvimento da área do reconhecimento da fala. O nosso objectivo neste ponto
é, apenas, referir algumas das principais ideias e acontecimentos que tornaram a
área do reconhecimento da fala na obra que hoje conhecemos. Para isso baseámonos no conhecimento por nós adquirido ao longo destes anos como resultado da
muita bibliografia lida, da qual gostarı́amos de salientar dois livros relativamente
recentes [Rabiner e Juang, 1993] [Markowitz, 1996] que resumem muitos dos principais acontecimentos. No entanto, uma análise deste tipo não estará, certamente,
imune a erros de julgamento, imprecisões e mesmo omissões.
Em 1952, foi construı́da, na AT&T Bell Labs. a primeira máquina capaz de
reconhecer fala. Antes, já em 1870, muito antes dos computadores existirem, Alexander Graham Bell quis construir um dispositivo que possibilitasse a visualização
da fala a pessoas que apresentavam dificuldades auditivas. Na sua pesquisa acabou
inventando o telefone. Também, em 1930, o húngaro Tihamér Nemes pediu uma
1.3 Reconhecimento Automático da Fala
17
patente para desenvolver um sistema de transcrição automática a partir da banda
sonora dos filmes. O sistema deveria identificar as sequências de sons e imprimilos. O pedido de patente foi considerado irrealista e negado. Assim, foi só em 1952
que se assistiu a uma primeira implementação de um sistema de reconhecimento da
fala. Davis, Biddulph e Balashek construı́ram um sistema que comparava padrões
de referência dos dez dı́gitos em inglês com repetições individuais dos dı́gitos. O
processo de treino para um orador era complexo, mas após essa fase o seu desempenho chegava a atingir os 99%. Durante a década de 50 foram realizados vários
trabalhos que procuraram explorar as relações fundamentais entre a acústica e a
fonética. No ano de 1956, Olson e Belar, dos laboratórios RCA (EUA), trabalharam no reconhecimento de 10 sı́labas distintas de um só orador embebidas em 10
palavras monosilábicas. Em 1959, Fry e Denes, da University College (Inglaterra), tentaram construir um reconhecedor fonético para 4 vogais e nove consoantes,
enquanto, Forgie e Forgie, nos laboratórios MIT Lincoln (EUA), construı́ram um
reconhecedor de vogais, no qual 10 vogais embebidas no formato /b/-vogal-/t/ eram
reconhecidas de um modo independente do orador. Devido aos excelentes resultados obtidos a euforia foi grande e pensou-se que a tarefa de reconhecimento da fala
seria simples e fácil.
No entanto, durante a década de 60, os investigadores aperceberam-se que o
reconhecimento da fala era uma tarefa bem mais complexa e difı́cil do que inicialmente se julgara. Verificaram que o objectivo de transcrição automática da fala era
uma situação que, ainda, não podia estar nos seus horizontes. Assim, concentraramse em problemas mais pequenos e mais simples, como seja o reconhecimento de
palavras isoladas, vocabulários pequenos, até 50 palavras no máximo, e fala de um
único orador.
Durante esta década alguns dos laboratórios japoneses construı́ram hardware
especı́fico para o reconhecimento da fala. Assim em 1961, Suzuki e Nakata, do Radio Research Laboratory (Japão), desenvolveram em hardware um reconhecedor de
vogais. No ano seguinte, Sakai e Doshita, da Kyoto University (Japão), desenvolve-
18
Capı́tulo 1 - Introdução
ram um reconhecedor fonético, também em hardware, para em 1963, Nagata e colegas, dos laboratórios NEC (Japão), desenvolverem um reconhecedor de dı́gitos em
hardware. Nos finais da década, Martin e colegas, dos laboratórios RCA (EUA) desenvolveram um conjunto de métodos de normalização temporal para lidarem com
os problemas associados com a não uniformidade da escala do tempo nos acontecimentos da fala. Em simultâneo, Vintsyuk (URSS), propôs o uso de métodos de
programação dinâmica para alinhamento temporal. Este último trabalho permaneceu desconhecido no ocidente até ao princı́pio dos anos 80 quando outros já tinham
proposto e implementado métodos idênticos.
No inı́cio da década de 70, assistiu-se ao desenvolvimento do primeiro produto comercial de reconhecimento da fala, que foi o VIP100 da Threshold Technology, Inc. de Thomas Martin, conforme referimos um dos primeiros a aplicar
normalização temporal. Um dos grandes feitos do VIP100 foi ter demonstrado a
viabilidade de um sistema com um vocabulário pequeno, dependente do orador e
reconhecimento de palavras isoladas. Foi distinguido, em 1972, com um US National Award.
A década de 70 veio, pois, mostrar que o reconhecimento de palavras isoladas era uma tecnologia viável, através de vários trabalhos, como o de Velichko e
Zagoruyko (URSS) com um avanço significativo no reconhecimento de padrões,
o de Sakoe e Chiba (Japão) que aplicaram com sucesso métodos de programação
dinâmica e o de Itakura (EUA) que aplicou os métodos de predição linear (LPC) ao
reconhecimento da fala.
Todo este sucesso levou ao interesse da ARPA (Advanced Research Projects
Agency) do Departamento de Defesa dos EUA, que financiou um dos maiores projectos da década de 70, e que veio provocar um impulso extraordinário na área
do reconhecimento da fala. O projecto ARPA’s Speech Understanding Research
(ARPA SUR) começou em 1970 e terminou em 1976. Este projecto, requeria que os
sistemas reconhecessem um vocabulário de 1 000 palavras ou mais, fala ligada e en-
1.3 Reconhecimento Automático da Fala
19
globasse vários oradores cooperantes. Além destes objectivos, o sistema deveria ter
como caracterı́sticas um sistema de sintaxe artificial, ser aplicado numa tarefa real
bem definida, o reconhecimento deveria ser realizado em poucas vezes o tempo-real
e, ainda, uma taxa de erros inferior a 10%. No projecto estiveram envolvidos três
contratantes que desenvolveram 6 sistemas diferentes: CMU (Carnegie Mellon University), BBN (Bolt Beranek and Newman) e uma equipa resultante da colaboração
entre a SDC (System Development Corporation) e o SRI (Stanford Research Institute). Outros contratantes, incluindo o MIT Lincoln Laboratory, dedicaram-se a
tarefas especı́ficas do processo de reconhecimento. Dos diferentes sistemas desenvolvidos, só um deles satisfez os requisitos que foi o Harpy, da CMU, com 1 011
palavras e uma taxa de erros de 5%. O sistema Dragon, também da CMU, foi um
dos primeiros a usar uma forma dos modelos de Markov (HMM), enquanto três outros sistemas, o Harpy da CMU, o HWIM (Hear What I Mean) da BBN e o Hersay-II
da CMU testaram diferentes formas de gramáticas artificiais.
O sucesso do Harpy combinado com o trabalho realizado por Frederick Jelinek
e o seu grupo de investigação em fala na IBM, no âmbito do reconhecimento da
fala para grandes vocabulários, veio realçar a importância das técnicas de modelamento estatı́stico. Desse modo os resultados do projecto ARPA SUR ajudaram a
direccionar a investigação no sentido do desenvolvimento de modelos estatı́sticos
robustos, incluindo HMMs e modelos de linguagem. Esta orientação esteve na base
do trabalho realizado no final dos anos 70 e durante os anos 80.
No inı́cio dos anos 80 os sistemas evoluı́ram no sentido do reconhecimento de
palavras ligadas. Dos diferentes métodos baseados em templates, cada um com as
suas vantagens em termos de realização, evoluiu-se para métodos de modelamento
estatı́stico (HMMs), tendo esta técnica tornado-se conhecida, e aplicada praticamente em todos os sistemas de reconhecimento, em meados da década de 80. O
trabalho na IBM no modelamento estatı́stico da linguagem (particularmente através
de modelos bigrama e trigrama) formou a base para os modelos de linguagem encontrados em todos os sistemas comerciais de ditado, de grande vocabulário, nos
20
Capı́tulo 1 - Introdução
finais dos anos 80 e princı́pios dos anos 90.
Nessa altura a ARPA voltou a patrocinar um novo programa de investigação,
com o objectivo de obter elevados nı́veis de desempenho, para uma tarefa de acesso
a gestão de base de dados de informação naval, com um vocabulário aproximado
de 1 000 palavras, reconhecimento da fala contı́nua independente do orador. Associada a essa tarefa desenvolveu-se uma base de dados denominada Resource Management (RM). Nesse programa participou a CMU, através do seu sistema SPHINX,
a BBN, Lincoln Labs., SRI, MIT e a AT&T Bell Labs. Este programa foi o grande
responsável pelo grande impulso dos sistemas de reconhecimento da fala contı́nua
para grandes vocabulários verificado no fim da década de 80 e inı́cio dos anos 90.
Ao mesmo tempo a investigação em modelamento estatı́stico de segmentos de
palavras produzia métodos sistemáticos para representar e processar segmentos de
fonemas (chamados modelos sub-palavra, fonemas com contexto ou trifones). Outra tecnologia que foi reintroduzida foram as Redes Neuronais Artificiais aplicadas
ao problema do reconhecimento da fala, primeiro, através de estruturas estáticas,
aplicadas a tarefas de reconhecimento de palavras isoladas e, posteriormente, numa estrutura hı́brida, integrando redes neuronais artificiais nos modelos de Markov
não-observáveis, aplicadas ao reconhecimento da fala contı́nua.
O maior interesse nos anos de viragem da década foi, portanto, o desenho de
sistemas para grandes vocabulários. Em 1985, 1 000 palavras era um grande vocabulário, particularmente, para sistemas comerciais. Em 1986, a empresa Speech
Systems, Inc. introduziu o primeiro sistema comercial de grande vocabulário, o
PE100 com 20 000 palavras. O sistema reconhecia fala contı́nua, baseava-se no reconhecimento de fonemas, era independente do orador e utilizava como plataforma
uma estação UNIX.
O crescimento do poder dos PCs, no final dos anos 80, permitiu a integração
de algoritmos sofisticados nos produtos comerciais. Investigadores transferiram-se
dos laboratórios para pequenas empresas como a VOTAN e a DRAGON Systems.
Por outro lado, grandes empresas como a EXXON e a TI também se aventuraram no
1.3 Reconhecimento Automático da Fala
21
mercado comercial.
No fim da década de 80, a DRAGON Systems introduziu um sistema de ditado
de palavras isoladas com adaptação ao orador capaz de suportar um vocabulário de
30 000 palavras. A IBM segui-se-lhes com uma versão comercial do seu sistema
de ditado TANGORA, usado como sistema de investigação, e a Kurzweil começou
a oferecer um produto para geração de relatórios médicos. Ainda nos anos 80, a
VPC (Voice Processing Corporation) desenvolveu produtos de fala contı́nua, para
pequenos vocabulários e para utilização através do telefone.
Durante os anos 80 a imunidade ao ruı́do melhorou consideravelmente. O reconhecimento da fala passou a ser usado através do telefone. As primeiras aplicações
limitavam-se ao “yes” and “no”. No fim da década de 80 os dı́gitos e algumas
palavras de controle tinham-se tornado o standard em aplicações telefónicas. Em
1985 a Voice Control Systems introduziu o primeiro sistema de ligação independente do orador para telefones celulares, que foi licenciado a fabricantes de automóveis
incluindo a Chrysler e a General Motors.
O programa da ARPA associado à base de dados RM, e tendo como ponto de
partida o trabalho anterior realizado na base de dados TIMIT, veio permitir, no
inı́cio dos anos 90, que o desenvolvimento de sistemas de reconhecimento da fala
contı́nua, independente do orador, se generalizasse. Associados à base de dados
RM encontramos uma diversidade enorme de sistemas de reconhecimento onde
foi possı́vel estudar diferentes métodos e aproximações e desenvolver diferentes
técnicas, como sejam as técnicas de adaptação ao orador por nós realizadas.
Numa evolução natural os sistemas de reconhecimento passaram a ser desenvolvidos em função da base de dados, em que nesta se procurava representar as
caracterı́sticas e dificuldades que se pretendiam ver associadas ao desenvolvimento dos sistemas. Nesse sentido duas grandes bases de dados foram desenvolvidas:
Switchboard, que veio introduzir um conjunto de problemas próprios dos sistemas
de diálogo, e Wall Street Journal (WSJ), que evoluı́a para uma tarefa de ditado com
22
Capı́tulo 1 - Introdução
grandes vocabulários, mas de uma forma independente do orador. Associada à base
de dados WSJ foram definidas avaliações anuais em que conjuntos de novos dados
eram distribuı́dos, inicialmente só aos participantes e posteriormente disponibilizados através do Linguistic Data Consortium (LDC) 1 , entretanto criada. Esses dados
inicialmente provenientes do Wall Street Journal, foram depois extraı́dos da North
American Business News, tendo actualmente evoluı́do para Broadcast News, onde
os dados são derivados das emissões televisivas e radiofónicas de algumas estações
americanas. Estas avaliações têm permitido uma evolução significativa dos sistemas, não tanto em termos de modelos e de novas estruturas, mas na capacidade dos
sistemas em lidar com elevadas quantidades de informação.
Outro aspecto que evoluiu significativamente foi a disseminação de informação
e o contacto entre os investigadores de diferentes paı́ses. O apoio à investigação
realizada nos institutos, laboratórios e universidades aumentou. Criaram-se novas
organizações internacionais com o intuito de melhor representarem e de aumentarem a cooperação entre os investigadores, como é, a nı́vel europeu, o exemplo da
ESCA 2 e da ELSNET 3 . Passaram-se a organizar regularmente conferências internacionais dedicadas exclusivamente às áreas relacionadas com a fala.
No inı́cio dos anos 90 o modelamento sub-palavra foi estendido às aplicações
telefónicas e cada vez mais produtos passaram a apresentar uma capacidade de reconhecimento independente do orador. Em 1994 a PHILIPS Dictation Systems comercializou o primeiro sistema de ditado para PCs, de grande vocabulário e com
reconhecimento da fala contı́nua. Por outro lado, os sistemas comerciais de reconhecimento da fala residentes num só integrado, ou conjunto de integrados, tornaram possı́vel o desenvolvimento de aplicações directamente em produtos de consumo. Assim, as principais companhias começaram a introduzir o reconhecimento de
fala em diversos produtos, que vão desde a programação de vı́deos até sistemas de
treino de controlo de tráfego aéreo. Num esforço para facilitar a integração do reconhecimento de fala em produtos de software e tecnologia, a DIALOGIC, NOVELL
1
Para mais informações ver na Web o URL (http://www.ldc.upenn.edu/)
Para mais informações ver na Web o URL (http://ophale.icp.inpg.fr/esca/)
3
Para mais informações ver na Web o URL (http://www.elsnet.org/)
2
1.4 Objectivos, evolução e organização deste trabalho
23
e MICROSOFT criaram um conjunto de standards para programação de aplicações
(denominados APIs) para reconhecimento da fala.
Actualmente, assiste-se mesmo a uma “luta” comercial interessante entre várias
companhias, como são os casos da Dragon, da Philips e da IBM, no sentido do desenvolvimento e comercialização de sistemas de ditado, com reconhecimento da
fala contı́nua para grandes vocabulários. Estes sistemas têm evoluı́do permitindo
que os utilizadores finais possam usufruir cada vez mais dos benefı́cios do desenvolvimento verificado nos sistemas de reconhecimento da fala contı́nua.
Antes de 1990 a experiência de um utilizador comum com o reconhecimento da fala estava limitada aos trabalhos de ficção cientı́fica. Actualmente, muitos
dispõem de uma interface para Windows através de controlo com fala e encontram
disponı́veis nas lojas pequenas caixas que contêm um CD com um sistema de ditado, que lhes permite facilmente disporem de novas formas para gerarem os seus
textos, relatórios, cartas, etc. Adicionalmente, começam a encontrar disponı́veis
um número cada vez maior de serviços, através do telefone, que se baseiam em
tecnologias da fala.
1.4 Objectivos, evolução e organização deste trabalho
Ao escrevermos esta secção optámos por um breve enunciado da evolução da
investigação na qual se alicerçou a presente dissertação. Este figurino resulta do facto do nosso trabalho ter estado inserido num conjunto de projectos de investigação.
Se por um lado, esses projectos nos trouxeram uma sobrecarga de trabalho lateral
à nossa dissertação (relatórios, reuniões, gestão financeira, etc.), não podemos de
deixar de referir que sem os meios, os contactos e a colaboração resultante desses
projectos, não teria sido possı́vel realizar todo este trabalho e alcançado o conjunto
24
Capı́tulo 1 - Introdução
de resultados que aqui apresentamos.
Após a realização da nossa dissertação de mestrado, que tratou do reconhecimento de palavras isoladas (dı́gitos e letras gravadas em inglês) e onde se estudaram
desde as técnicas clássicas, passando pelo Perceptrão multi-camada até aos modelos hı́bridos, começaram-se a definir os princı́pios e os objectivos do trabalho que
culminaria na presente dissertação de doutoramento. Como uma sequência natural
do trabalho anteriormente realizado, definiu-se como área o reconhecimento da fala
contı́nua baseado em redes neuronais artificiais. Por um lado, o problema do reconhecimento de palavras isoladas constituı́a mais um problema de implementação
real do que um problema em termos de investigação, tornando-se, assim, necessário
definir um objectivo mais exigente em termos de investigação. Por outro lado, o uso
das redes neuronais artificiais mostrava-se, já na altura, bastante prometedor na sua
aplicação ao reconhecimento da fala.
Definidos os objectivos começou-se por estudar o problema do reconhecimento
da fala contı́nua. No Capı́tulo 2 analisamos o reconhecimento da fala contı́nua na
sua generalidade. Na época, era um problema ao qual a comunidade cientı́fica internacional se dedicava com um interesse crescente. A nossa presença na ICASSP
92, San Francisco (EUA), permitiu perceber da elevada dificuldade do problema e
verificar a grande ênfase dada, na altura, ao desenvolvimento de modelos de linguagem e a procedimentos de descodificação eficientes associados aos HMMs. Nessa
altura, começavam a surgir alguns trabalhos usando modelos hı́bridos, tendo por
base o trabalho pioneiro realizado por H. Bourlard, C. Wellekens e N. Morgan.
A tarefa que tinha sido definida como objectivo desta dissertação exigia uma
série de condições em termos de recursos, que não se encontravam disponı́veis no
grupo ao qual pertencı́amos no INESC e no IST. Nesse sentido, o nosso orientador
e responsável de grupo, Prof. L. Borges de Almeida, iniciou contactos que levaram
à definição e realização de um projecto ESPRIT de investigação básica, denominado W ERNICKE (Outubro de 92 a Setembro de 1995). Ao consórcio pertenciam
uma equipa da empresa belga Lernout & Hauspie Speech products (LHS), liderada
pelo Dr. H. Bourlard, um grupo do Cambridge University Engineering Department
1.4 Objectivos, evolução e organização deste trabalho
25
(CUED) de Inglaterra, liderado pelo malogrado Prof. F. Fallside, e após o seu falecimento substituı́do pelo Dr. A. Robinson, um grupo do International Computer
Science Institute (ICSI) de Berkeley (EUA), liderado pelo Prof. N. Morgan e o Grupo de Redes Neuronais e Processamento de Sinais do INESC, liderado pelo Prof.
L. Borges de Almeida, no qual nos encontrávamos inseridos.
O projecto W ERNICKE pretendia mostrar as potencialidades dos sistemas
hı́bridos, integrando as redes neuronais artificiais nos métodos clássicos (HMMs),
aplicados ao reconhecimento da fala contı́nua. Estes sistemas são analisados no
Capı́tulo 3 desta dissertação. Para que os resultados obtidos no seio do projecto pudessem ter impacto, e pudessem mostrar claramente as potencialidades dos modelos
hı́bridos, decidiu-se que o trabalho a efectuar seria em bases de dados standard e
usadas por outros grupos para reportarem os resultados dos seus sistemas. Assim, a
escolha inicial recaiu sobre a base de dados Resource Management (RM), na altura
disponı́vel através do Linguistic Data Consortium (LDC). Através do financiamento
associado ao projecto todos os grupos do consórcio adquiriram uma máquina integrando vários processadores de sinal (DSP) em paralelo e que estava talhada para o
treino de redes neuronais artificiais. Esta máquina, denominada Ring Array Processor (RAP), foi adquirida ao ICSI, seu fabricante e nosso parceiro no W ERNICKE.
Para aprendizagem da sua programação especı́fica permanecemos duas semanas em
Berkeley.
A primeira fase do projecto consistia no desenvolvimento de um sistema de
reconhecimento da fala contı́nua, em cada um dos grupos do consórcio, para a
base de dados RM. Ao fim dessa primeira fase, que consideramos uma das mais
difı́ceis e mais importantes para a realização do presente trabalho, conseguimos,
em poucos meses, desenvolver um sistema de reconhecimento da fala contı́nua,
numa máquina extremamente eficiente, obtendo resultados idênticos aos restantes grupos do consórcio. Estes resultados são apresentados no Capı́tulo 3. Os
resultados globais mostraram as potencialidades dos sistemas hı́bridos, dado que
eram iguais aos melhores reportados para a base de dados RM por outros grupos
usando HMMs e com uma larga experiência no desenvolvimento desses sistemas.
26
Capı́tulo 1 - Introdução
Estes resultados foram publicados pelo consórcio na EUROSPEECH 93 (Berlim)
[Robinson et al., 1993].
A partir desse ponto, o nosso trabalho entrou numa fase diferente dos outros
grupos e que consistiu no desenvolvimento de técnicas de adaptação do sistema
ao orador aplicadas aos modelos hı́bridos. É o estudo e desenvolvimento destas técnicas que abordaremos no Capı́tulo 4. Várias técnicas foram desenvolvidas e avaliadas sobre a base de dados RM, tendo os seus resultados sido publicados na EUROSPEECH 95 (Madrid) [Neto et al., 1995a] e na IEEE Signal Processing Society - 1995 Workshop on Automatic Speech Recognition (Snowbird - EUA)
[Neto et al., 1995b]. Das diferentes técnicas, aquela que mostrou melhores resultados foi a denominada Rede Linear de Entrada (RLE). Inicialmente esta técnica
foi desenvolvida por nós para aplicação ao MLP, e, como consequência dos seus
excelentes resultados, foi também aplicada às redes recorrentes (RNN) usadas pelo
CUED.
Entretanto, dada a evolução dos sistemas, a tarefa associada à base de dados
RM começou a não ser suficientemente difı́cil para um mais aprofundado estudo
e desenvolvimento dos sistemas de reconhecimento da fala contı́nua. Assim, o
consórcio associado ao projecto, acompanhando a mudança verificada também noutros grupos, evoluiu para uma outra base de dados denominada Wall Street Journal
(WSJ). Esta base de dados teve uma versão inicial com 84 oradores, denominada
WSJ0, e uma versão posterior com 200 oradores, denominada WSJ1. Tratavam-se
agora de tarefas com dicionários de 5 000 e 20 000 palavras, situação substancialmente diferente das 997 palavras existentes na base de dados RM. Em termos do
nosso trabalho, esse perı́odo foi difı́cil. Por um lado, era importante acompanhar a
evolução verificada em termos da dimensão e dificuldade da base de dados, o que
implicava muitas horas de processamento e de trabalho para se atingir o mesmo
nı́vel dos resultados dos outros grupos, e, por outro, continuar o desenvolvimento
de um trabalho de investigação sobre técnicas de adaptação ao orador. Optou-se por
um caminho misto, já que se deu o salto para o WSJ0 e para uma tarefa com um
dicionário de 5 000 palavras, mas sem investir tudo no desenvolvimento do sistema
1.4 Objectivos, evolução e organização deste trabalho
27
independente do orador, permitindo, assim, continuar a investigação nas técnicas de
adaptação ao orador, agora com novas caracterı́sticas resultantes da base de dados.
Os resultados obtidos foram publicados na ICASSP 96 [Neto et al., 1996b] e na
ICSLP 96 [Neto et al., 1996a] e encontram-se, também, apresentados no Capı́tulo
4.
Do trabalho efectuado pelos restantes grupos do consórcio queremos salientar
a participação constante do CUED nas avaliações anuais organizadas pela ARPA.
Este grupo usando um modelo hı́brido com redes recorrentes integradas nos HMMs
tem obtido, nas avaliações, resultados extremamente positivos, e onde tem mostrado a validade do modelo hı́brido. De salientar ainda a incorporação no seu modelo
da adaptação ao orador não-supervisionada, usando a técnica RLE por nós desenvolvida, e que veio melhorar o desempenho do sistema.
Como consequência do excelente trabalho realizado no âmbito do projecto
W ERNICKE um outro projecto se seguiu denominado SPRACH (Dezembro de 95
a Dezembro de 98). Ao consórcio pertencem agora uma equipa da Faculté Polytéchnique de Mons (FPMs), liderada inicialmente pelo Dr. H. Bourlard, para onde
tinha entretanto transitado e a qual já deixou, e que é actualmente liderada por J.-M.
Boite, o mesmo grupo do Cambridge University Engineering Department (CUED)
de Inglaterra, liderado pelo Dr. A. Robinson, um grupo da Sheffield University de
Inglaterra, liderado pelo Dr. S. Renals, anteriormente associado ao CUED onde participou no W ERNICKE, o mesmo grupo do International Computer Science Institute
(ICSI) de Berkeley, liderado pelo Prof. N. Morgan e o Grupo de Redes Neuronais
e Processamento de Sinais do INESC, liderado pelo Prof. L. Borges de Almeida
e no qual continuamos inseridos. Este novo projecto apresenta objectivos bastante
diversificados. Por um lado, propõe-se continuar a desenvolver e a estudar os modelos hı́bridos, mas por outro, pretende dedicar-se ao transporte e ao desenvolvimento
de sistemas hı́bridos para outras lı́nguas como sejam o Francês e o Português. A
nossa principal função, dados os excelentes resultados obtidos no desenvolvimento
destes sistemas para o inglês, é essencialmente a de transformar esse sistema para o
Português.
28
Capı́tulo 1 - Introdução
No caso do Português uma série de dificuldades se nos deparavam. Não existia
uma base de dados adequada para o treino e desenvolvimento deste tipo de sistemas. A única base de dados com fala contı́nua existente para Português era a base
de dados EUROM.1 SAM [Ribeiro et al., 1993]. Decidiu-se, assim, no âmbito do
SPRACH, e com comparticipação de um Projecto PRAXIS, definir, desenvolver e
recolher uma nova base de dados com a dimensão e dificuldade adequadas para o
tipo de tarefa pretendida, centrada no reconhecimento da fala contı́nua para Português e com vocabulários de dimensão elevada. Escolheu-se como texto para a base
de dados o jornal P ÚBLICO. A recolha da fala para a base de dados foi um trabalho
extremamente moroso e que só terminou em Novembro de 1997. Enquanto decorria
o desenvolvimento e recolha da base de dados, começámos a desenvolver um sistema básico de reconhecimento baseado na base de dados SAM. Tal, permitiu-nos
desenvolver um conjunto de ferramentas, que serão úteis numa fase posterior com
a base de dados do P ÚBLICO, bem como, começar por abordar uma série de problemas, como seja o desenvolvimento de léxicos para Português, definição e treino
de modelos de linguagem e alinhamento automático da base de dados. Todo este trabalho desenvolvido ao nı́vel do Português constitui o Capı́tulo 5 da presente
dissertação.
O trabalho aqui apresentado não deve ser encarado como um estado final mas
sim como um nó do qual podem sair várias transições para linhas de trabalho a
realizar no futuro. Temos a noção de que algo foi feito, mas temos a convicção de
que muito há para fazer. Para nós foi importante o desenvolvimento de sistemas de
reconhecimento da fala contı́nua para inglês com resultados idênticos aos de outros
grupos credenciados. Esses sistemas permitiram-nos desenvolver investigação inovadora ao nı́vel das técnicas de adaptação ao orador. A juntar a tudo isso lançámos
fundações ao nı́vel do desenvolvimento de sistemas de reconhecimento da fala
contı́nua para Português, que irão permitir no futuro realizar trabalho cientı́fico e
de desenvolvimento extremamente importante, gerando, assim, continuidade em
termos de investigação e animando futuros projectos.
1.4 Objectivos, evolução e organização deste trabalho
29
1.4.1 Contribuições originais desta dissertação
O trabalho desenvolvido ao longo desta dissertação compreendeu, como referimos anteriormente, três grandes fases distintas. Na primeira fase desenvolvemos um
sistema hı́brido de reconhecimento da fala contı́nua para a lı́ngua inglesa, treinado
e avaliado em diferentes bases de dados de fala. Na segunda fase estudámos, desenvolvemos e avaliámos diferentes técnicas de adaptação ao orador, aplicadas aos
sistemas desenvolvidos na fase anterior. Finalmente, na terceira fase dedicámo-nos
ao desenvolvimento de uma base de dados em Português, com as dimensões e caracterı́sticas adequadas à realização de sistemas de reconhecimento da fala contı́nua
para grandes vocabulários, e ao desenvolvimento de um sistema básico de reconhecimento da fala contı́nua para Português.
As principais contribuições originais introduzidas através desta dissertação
referem-se a todo o trabalho de adaptação ao orador apresentado no Capı́tulo 4,
nas secções 4.3 a 4.8. Apesar do trabalho de desenvolvimento e avaliação realizado
na secção 3.5 ter sido um trabalho pioneiro, foi realizado em paralelo com os outros
parceiros do projecto W ERNICKE. Finalmente no trabalho associado ao desenvolvimento do sistema básico para o Português foram desenvolvidas e aplicadas técnicas
especı́ficas associadas à lı́ngua Portuguesa, mas já anteriormente utilizadas, de uma
forma genérica noutras lı́nguas.
30
Capı́tulo 1 - Introdução
Capı́tulo 2
Reconhecimento Automático da Fala
A área do reconhecimento da fala têm evoluı́do significativamente nos últimos
anos, sendo de realçar o extraordinário impulso verificado no desenvolvimento
de sistemas de reconhecimento da fala contı́nua para grandes vocabulários. A
proliferação de aplicações comerciais, com uma maior ênfase nas tarefas de ditado, tem permitido que o utilizador final beneficie do estudo e desenvolvimento
realizados nos laboratórios e institutos de investigação, associados à área do reconhecimento da fala contı́nua para grandes vocabulários.
A evolução verificada esteve, claramente, associada ao estudo e desenvolvimento dos métodos de modelamento estatı́stico baseados, essencialmente, nos modelos
de Markov não observáveis (Hidden Markov Models - HMMs). Com o desenvolvimento progressivo destes modelos surgiu a necessidade de um maior conhecimento
do processo da comunicação humana, nas suas diversas componentes. Não se pode afirmar que se tenha evoluı́do significativamente nesse conhecimento, mas uma
série de evidências sobre esse processo passaram para a forma como nós realizamos, actualmente, os nossos sistemas de reconhecimento. Em algumas situações
adoptaram-se modelos demasiado simplistas, mas, mesmo assim, suficientemente importantes para que se tenha atingido o estágio actual de realização. Dessa
evolução, surgiram, também, novos métodos de processamento de sinais que, em
32
Capı́tulo 2 - Reconhecimento Automático da Fala
conjugação com os métodos mais clássicos, nos permitem hoje um melhor conhecimento e processamento do sinal da fala. Associado a esta evolução, verifica-se,
actualmente, o desenvolvimento de novas técnicas baseadas em redes neuronais artificiais que permitiram melhorar os sistemas de reconhecimento da fala, aliviando
a necessidade de um conjunto de restrições e simplificações impostas pelos HMMs.
Neste capı́tulo, começaremos por descrever alguns conceitos associados à
comunicação humana. Pretende-se indicar quais os limites do nosso conhecimento
sobre este processo, e daı́ aferir da sua complexidade, do qual só temos um conhecimento parcial. De seguida, analisaremos a forma como é composto um sistema
de reconhecimento da fala, e de que forma está dependente das caracterı́sticas da
fala e dos oradores. Serão apresentadas algumas das técnicas geralmente utilizadas
nos diferentes sistemas de reconhecimento. Finalmente, serão, também, analisados
os modelos de Markov não-observáveis na sua aplicação ao reconhecimento da fala
contı́nua.
2.1 Comunicação Humana
A comunicação entre duas pessoas parece, à primeira vista, um processo simples e natural. Comunicamos todos os dias desde que nos conhecemos e aceitamos
esse processo com naturalidade. Todavia, a transformação da mensagem que pretendemos transmitir no sinal acústico que produzimos, bem como, a interpretação
desse sinal, pelo nosso interlocutor, na mensagem por nós transmitida, constituem
um conjunto de processos extremamente complexos. Nestes processos levantamse uma série de questões: como é que passamos de um nı́vel conceptual para uma
mensagem, obedecendo a uma organização linguı́stica? Como é que a mensagem
passa pelos diferentes nı́veis semântico, sintáctico, fonológico e é transformada no
sinal de fala? Como é que esse sinal de fala se propaga no ar e é recebido pelo
nosso interlocutor? Como é que esse sinal, depois de ser recebido pelo ouvido, é
interpretado e transformado novamente na mensagem transmitida?
33
2.1 Comunicação Humana
Para tentar responder a estas questões, vamos começar por caracterizar a
comunicação humana através de um modelo, onde iremos sistematizar os diferentes
processos envolvidos. Para mais detalhes remetemos para [Rabiner e Juang, 1993]
[Martins, 1988] bibliografia principal por nós consultada na realização desta secção.
2.1.1 Modelo da Comunicação através da fala
Concepção da mensagem
Interpretação da mensagem
Produção da mensagem
linguística
Interpretação linguística
da mensagem
Transdução neuronal
Acções neuro-musculares
Sistema auditivo
(movimento da membrana)
Sistema Acústico
(tracto vocal)
Fala
Fonte sonora
(cordas vocais)
Respiração
Emissor
Receptor
Figura 2.1: Modelo esquemático da comunicação humana através da fala. (Figura
adaptada de [Rabiner e Juang, 1993]).
Na Figura 2.1 ilustramos através de um modelo esquemático o processo de
comunicação humana através da fala. O processo de produção da fala começa
quando o orador (emissor) conceptualmente formula a mensagem, que pretende
transmitir através da fala ao seu interlocutor (receptor). Essa mensagem conceptual
é transformada numa mensagem linguı́stica, obedecendo às regras e conceitos da
linguagem utilizada. Este processo converte o conteúdo da mensagem (para nós
visı́vel através das palavras) num conjunto de sequências de fonemas, correspondendo aos sons que compõem as palavras.
A esses sons encontram-se associados marcadores que indicam a sua duração,
34
Capı́tulo 2 - Reconhecimento Automático da Fala
a sua sonoridade e o seu tom (pitch). Esta sequência vai ser traduzida numa série
de acções neuro-musculares que irão provocar a vibração das cordas vocais, quando necessário; gerar a forma apropriada do tracto vocal, de modo que a sequência
própria de sons seja criada e falada pelo orador, produzindo assim o sinal acústico;
controlar os movimentos de articulação executados através dos lábios, maxilar,
lı́ngua e véu.
Após a geração do sinal de fala, ele é propagado através do ar para o ouvinte
(receptor). Nesse momento, o receptor dá inı́cio ao processo de audição e percepção
da fala. Inicialmente, o sinal acústico é processado pela membrana basilar no ouvido interno que realiza uma análise espectral do sinal. Um processo de transdução
neuronal converte o espectro do sinal gerado na saı́da da membrana basilar, em sinais de activação no nervo auditivo, correspondendo, genericamente, a um processo
de extracção de caracterı́sticas. A actividade neuronal ao longo do nervo auditivo é
convertida, não se sabendo exactamente como, num código da linguagem por parte
do cérebro e onde, também, se dá a interpretação e compreensão da mensagem.
2.1.2 Processo de Produção da Fala
O processo de produção da fala pode ser caracterizado em três fases: a
respiração, a fonação e a articulação. Vamos analisar cada uma destas fases e,
assim, perceber a sua acção no processo de produção do sinal de fala.
A produção da fala está ligada directamente aos órgãos e sistema de respiraç ão.
É o ar que respiramos que constitui a fonte para esse processo. É no modo de
expiração, através da variação da pressão e do volume do ar, que tem inı́cio o processo de produção da fala. Durante a inspiração, o ar entra pela boca e/ou nariz e,
através da faringe, laringe e traqueia chega, finalmente, aos pulmões. No processo
de expiração, o ar segue um percurso inverso desde os pulmões, passando pela traqueia, laringe, faringe e terminando nas cavidades oral e/ou nasal onde é libertado
para o exterior.
35
2.1 Comunicação Humana
É no interior da laringe que estão situadas as chamadas cordas vocais. Na parte superior encontramos as cordas ventriculares (também denominadas de cordas
falsas), que não são utilizadas durante a produção da fala, enquanto, na parte inferior, estão as cordas vocais. O espaço entre estes dois tipos de cordas é o chamado
ventrı́culo e o espaço entre as duas cordas vocais é a glote (Figura 2.2).
Figura 2.2: Desenho esquemático das cordas vocais.
(Figura adaptada de
[Martins, 1988, p. 19]).
Quando respiramos, as cordas vocais encontram-se na posição de abertas. Durante a fonação, a função das cordas é a de actuar como um gerador de som, controlando o fluxo do ar proveniente dos pulmões. Esse controlo exerce-se através da
junção e separação das cordas. Com a junção das cordas cria-se uma pressão subglotal (Figura 2.3-a) que vai aumentando até obrigar à separação e ao afastamento
das cordas entre si (Figura 2.3-b). Com o afastamento das cordas, o ar passa (Figura 2.3-c), a pressão decresce e as cordas voltam a juntar-se (Figura 2.3-d,e,f). Este
movimento repete-se rapidamente criando ondas periódicas.
O funcionamento das cordas vocais obedece, ainda, ao efeito de Bernoulli que
assenta no princı́pio da conservação da energia. Este princı́pio estabelece que a
velocidade e a pressão de um fluxo de ar estão inversamente relacionadas, ou seja,
se a velocidade aumenta a pressão diminui e vice-versa. O fluxo do ar, proveniente
dos pulmões, na sua passagem pela laringe, ao encontrar as cordas vocais quase
36
Capı́tulo 2 - Reconhecimento Automático da Fala
Figura 2.3: Configurações das cordas vocais. (Figura adaptada de [Martins, 1988,
p. 20]).
juntas, com uma reduzida área de passagem, vai aumentar de velocidade e, como
consequência, a pressão baixa à medida que o fluxo de ar vai passando. Esta redução
da pressão permite que as cordas se fechem totalmente. Tanto o efeito da pressão
subglotal, como o efeito de Bernoulli, provocam várias configurações nas cordas
vocais como se observa na Figura 2.3.
Os factores fı́sicos, como sejam o tamanho da laringe, e, consequentemente, das
cordas vocais, estão na base das diferenças do tom natural da voz entre os homens
(frequência fundamental entre 100-150 Hz), as mulheres (frequência fundamental
entre 200-250 Hz) e as crianças (entre 300-500 Hz). No entanto, esse tom não é
fixo, o que resultaria numa voz monocórdica, e apresenta pequenas variações (100
Hz a mais ou a menos, relativamente ao tom natural) em função da entoação dada à
voz.
Na produção dos sons da fala, além da fonte ları́ngea, podemos, ainda, ter dois
tipos diferentes de fontes geradoras de sons: uma fonte de ruı́do e uma fonte de
transição. Na fonte ları́ngea produz-se um sinal periódico caracterizado por um
espectro harmónico. No caso da fonte de ruı́do, é produzido um sinal acústico não
periódico e quase estacionário, com um espectro contı́nuo com a mesma amplitude
para todas as frequências (do tipo ruı́do branco). O ruı́do é produzido através da
2.1 Comunicação Humana
37
constrição da cavidade bucal quando a passagem do ar atinge uma determinada
velocidade, que permite a criação de turbulência. Por último, na fonte de transição é
produzido um sinal acústico não periódico e não estacionário de espectro contı́nuo.
O som é produzido por uma abertura repentina de uma oclusão no tracto vocal, onde
se criou uma alta pressão de um lado da oclusão. O rápido equilı́brio da pressão de
ar de um e do outro lado da oclusão produz uma “explosão” sonora.
O fluxo do ar proveniente dos pulmões, depois de atravessar a laringe, chega às cavidades supraglotais. Essas cavidades têm uma configuração própria e
comportam-se como um filtro acústico, actuando como cavidades de ressonância.
De acordo com as variações da configuração dessas cavidades, podem resultar cinco tipos diferentes de articulação, com implicações directas no som produzido
[Martins, 1988]:
Configuração vocálica - nesta configuração permite-se a livre passagem do
ar com a formação de cavidades de ressonância supraglotais. As diferentes
formas e tamanhos das cavidades, como consequência da articulação, definem ressoadores com caracterı́sticas especı́ficas para as formantes (zonas de
frequência intensificadas pelas cavidades de ressonância).
Configuração lateral - a passagem do ar é livre pelos lados da boca onde surge
uma oclusão provocada pela parte média da lı́ngua, que se eleva no sentido
do palato duro.
Configuração nasal - aqui o véu é baixado permitindo a passagem do ar pelas
fossas nasais. A passagem nasal fica, assim, acoplada à passagem oral. Nesta
configuração, ainda, se inclui a situação onde a passagem nasal está livre, mas
a passagem bucal está fechada.
Configuração fricativa - nesta situação a passagem do ar é, parcialmente, obstruı́da no tracto vocal causando uma fonte de ruı́do.
Configuração oclusiva - a passagem do ar é obstruı́da totalmente nas cavidades supraglotais. Neste caso, não havendo passagem do ar, não há espectro
acústico.
38
Capı́tulo 2 - Reconhecimento Automático da Fala
Acabámos de analisar as diferentes fases que estão na base da produção do sinal
de fala. A fase de respiração funciona como fonte de energia acústica a ser usada
durante a fase de fonação. Essa energia resulta da pressão, volume e velocidade do
ar que sai dos pulmões e atravessa a laringe, durante o processo de expiração, onde
ocorre a fase de fonação através da produção do som. Esse som atravessa o tracto
vocal, onde é alterado através de um processo de filtragem acústica, dependendo
das caracterı́sticas articulatórias impostas sobre o tracto vocálico.
Definido o processo de produção da fala vamos agora analisar o sinal acústico
produzido.
2.1.3 Sinal de Fala
O sinal acústico produzido pelo emissor propaga-se no ar através de uma onda
sonora até que atinge os elementos de audição do receptor. Essa onda sonora, gerada
pelo emissor, realiza-se através dos estados de compressão e rarefacção provocados
nas partı́culas do ar e que se transmitem em ondas esféricas a partir da fonte de
emissão. Estas ondas podem ser representadas através de um gráfico de amplitude,
onde se representa a variação da pressão do ar ao longo do tempo, ou através de uma
representação espectral, onde se apresenta a variação do sinal com a frequência.
O sinal de fala é, normalmente, considerado um sinal quase-estacionário, dado
que as suas caracterı́sticas quando examinadas num perı́odo curto de tempo (até 100
ms) se mantêm idênticas. Fora desse perı́odo, as caracterı́sticas do sinal alteram-se
de forma a reflectir os diferentes sons produzidos.
Na Figura 2.4 encontramos representada a mesma informação de três formas
diferentes. Para começar temos a representação através das palavras (Figura 2.4a). Na segunda temos a representação da variação da amplitude do sinal de fala
ao longo do tempo (Figura 2.4-b), enquanto na terceira temos o espectrograma do
sinal (Figura 2.4-c), que é uma representação tri-dimensional da intensidade nas
diferentes frequências ao longo do tempo.
2.1 Comunicação Humana
39
Figura 2.4: Três representações diferentes para a frase “Aqui a neve tem meio metro de altura.”: a) representação através das palavras, b) representação através do
gráfico de amplitude do sinal de fala e c) representação através do espectrograma.
Os diferentes acontecimentos presentes no sinal de fala podem ser classificados e caracterizados de diversas formas. Algumas dessas formas podem ter
uma representação mais simples ou mais complexa ou, ainda, analisarmos essa
classificação do ponto de vista acústico ou linguı́stico. Cada representação apresenta um conjunto de caracterı́sticas próprias que devem ser potenciadas em função
do nosso objectivo final.
A forma mais simples é classificar de acordo com o estado das cordas vocais.
Nesta classificação usam-se três estados: silêncio, onde nenhum sinal de fala é
produzido; não vozeado, estado onde as cordas vocais não vibram e, portanto, o
40
Capı́tulo 2 - Reconhecimento Automático da Fala
sinal de fala resultante é não periódico ou aleatório; e vozeado, onde as cordas
vocais vibram periodicamente e o sinal de fala resultante é quase periódico. Esta
caracterização pode ser realizada com base na representação através do gráfico de
amplitude, do qual encontramos um exemplo na Figura 2.4-b. Obviamente que esta
representação é bastante abrangente dado que se baseia na forma como o sinal é
produzido independentemente das caracterı́sticas articulatórias.
Uma forma alternativa de representar a informação associada ao sinal de fala
é através de uma caracterização da representação espectral desse sinal. A forma
tı́pica de representação espectral é através de um espectrograma, do qual encontramos um exemplo na Figura 2.4-c. Trata-se, como referimos anteriormente, de
uma representação tri-dimensional da intensidade da fala nas diferentes frequências
ao longo do tempo, que nos permite definir um conjunto de caracterı́sticas individuais associadas aos sons presentes no sinal de fala. No entanto, a caracterização
sistemática dos diferentes sons é extremamente difı́cil de realizar.
Uma outra forma de representar as caracterı́sticas variantes no tempo do sinal
de fala é através da parametrização da actividade espectral, baseada no modelo de
produção da fala. Considerando como modelo de produção da fala, para o tracto vocal, um tubo ou uma concatenação de tubos, com áreas e secções diferentes, a teoria
acústica mostra que a função de transferência da energia, desde a fonte de excitação
até à saı́da, pode ser descrita em função das frequências naturais ou ressonâncias
do tubo. Em termos de fala, essas ressonâncias são denominadas formantes e representam as frequências que mais transmitem energia acústica da fonte para a saı́da.
Daqui resulta uma boa correspondência entre a estimação das formantes e os pontos
de maior energia representados no espectrograma. Esta representação possibilitanos uma forma eficiente e compacta de representar as caracterı́sticas variantes no
tempo da fala. O maior problema desta representação está na dificuldade de estimar com rigor as frequências das formantes para sons vozeados de pouca energia,
e na dificuldade em definir as formantes para as regiões não vozeadas e de silêncio.
Assim, esta representação é usada na estimação de caracterı́sticas mais básicas associadas ao sinal de fala, como seja por exemplo, na estimação do tom natural da
2.1 Comunicação Humana
41
voz, do que em realizações práticas baseadas inteiramente nesta representação.
Analisámos algumas das diferentes formas existentes para caracterizar os acontecimentos presentes no sinal de fala. Estas formas derivaram das evidências conhecidas do processo de produção da fala aplicadas sobre a representação acústica desse
sinal. Uma outra forma alternativa de caracterizar os acontecimentos presentes no
sinal de fala é através de uma análise linguı́stica.
A caracterização e divisão da fala em sons, linguisticamente distintos numa lı́ngua e denominados de fonemas, depende de questões de julgamento e de
classificação pessoais, não sendo, portanto, invariante para diferentes profissionais de linguı́stica. Com o intuito de facilitar e homogeneizar a caracterização e
classificação desses sons têm-se criado “alfabetos fonéticos”. Esses alfabetos são
constituı́dos por um conjunto de sı́mbolos que pretendem representar graficamente os diferentes sons da linguagem. Através do alfabeto pretende-se estabelecer
uma relação unı́voca entre cada sı́mbolo e o som por ele representado. Apesar de
cada lı́ngua ter um conjunto de sons próprios e que, portanto, resulta num ou em
vários alfabetos próprios, têm-se procurado definir e caracterizar os sons das diferentes lı́nguas através de um único alfabeto. O alfabeto mais divulgado é o Alfabeto
Fonético Internacional (International Phonetic Alphabet - IPA), que tem sido actualizado de forma a incluir novos sı́mbolos ou diacrı́ticos que permitam uma descrição
completa de todas as lı́nguas conhecidas.
Na Tabela 2.1 apresentamos uma lista dos diferentes sı́mbolos fonéticos para o
Português Europeu. Na primeira coluna apresentamos um sub-grupo dos sı́mbolos
do IPA que têm representação no Português Europeu. Na segunda coluna apresentamos a representação do SAM-PA (SAM Portuguese Alphabet) [Viana et al., 1991a]
[Oliveira, 1996], enquanto na terceira coluna apresentamos a representação por
nós adoptada. Esta última representação difere da SAM-PA simplesmente na
representação dos sı́mbolos. Na última coluna é apresentado um exemplo de uma
palavra que caracteriza cada um dos sons respectivos.
42
Capı́tulo 2 - Reconhecimento Automático da Fala
Sı́mbolo no
IPA
b
d
g
p
t
k
s
z
f
v
l
m
n
j
w
ı̃
õ
˜
ẽ
ũ
w̃
u
i
e
a
o
Sı́mbolo no
SAM PA
b
d
g
p
t
k
s
z
f
v
S
Z
l
l˜
L
r
R
m
n
J
j
w
i˜
o˜
6˜
e˜
u˜
j˜
w˜
E
O
u
@
i
e
a
6
o
Sı́mbolo por
nós utilizado
b
d
g
p
t
k
s
z
f
v
ch
j
l
lf
lh
r
rr
m
n
nh
y
w
in
on
an
en
un
yn
wn
ea
oa
u
em
i
ef
aa
af
of
h#
Exemplo
(b)ar
(d)ata
(g)ato
(p)ai
(t)ia
(c)asa
(s)elo
a(z)ul
(f)érias
(v)aca
(ch)ave
a(g)ir
(l)ado
sa(l)
fo(lh)a
ca(r)o
ca(rr)o
(m)eta
(n)eta
se(nh)a
pa(i)
pa(u)
p(in)to
p(on)te
c(an)to
d(en)te
f(un)do
põ(e)
mã(o)
s(e)te
c(o)rda
m(u)do
qu(e)
f(i)ta
p(e)ra
c(a)ra
c(a)m(a)
d(ou)
silêncio
Tabela 2.1: Tabela de sı́mbolos fonéticos para o Português.
43
2.1 Comunicação Humana
2.1.4 Processo de Audição da Fala
É através do nosso sentido da audição que captamos as ondas sonoras do ar e
as transformamos de forma a que possam ser interpretadas pelo cérebro, para, daı́,
extrair a informação que representam.
O ouvido é composto por três regiões distintas: ouvido externo, ouvido médio
e ouvido interno. Cada uma destas regiões tem as suas funções especı́ficas no processo de audição. Na Figura 2.5 encontramos um desenho esquemático do ouvido
onde se encontram definidas estas regiões.
Martelo
Bigorna
Estribo
Labirinto
Pavilhão
externo
Nervo coclear
Cóclea
Canal
auditivo
externo
Membrana
timpânica
Figura 2.5: Desenho esquemático do ouvido.
O ouvido externo, que consiste no pavilhão externo e no canal auditivo externo, tem como função captar as ondas sonoras do ar, e, através da sua propagação
ao longo do canal auditivo externo, transmiti-las ao ouvido médio. Neste, a membrana timpânica, através da sua vibração, transforma a onda sonora numa vibração
mecânica dos ossı́culos do ouvido médio (martelo, bigorna e estribo). O ouvido in-
44
Capı́tulo 2 - Reconhecimento Automático da Fala
terno é composto pela cóclea inserida numa cavidade óssea chamada labirinto e que
se encontra ligada ao nervo coclear. A cóclea, que tem a forma de um caracol ósseo
e está cheia de uma substância lı́quida, é um tubo enrolado e dividido longitudinalmente em três câmaras: a câmara vestibular, a câmara timpânica e, separando estas
duas ao longo da cóclea, o conduto coclear. As vibrações mecânicas dos ossı́culos
do ouvido médio fazem com que o estribo actue, na entrada da cóclea, sobre a janela oval, que é a membrana que tapa uma extremidade da câmara vestibular, criando
uma onda de pressão na substância lı́quida da cóclea que, por sua vez, faz com que
a membrana basilar vibre.
Cada onda de pressão é relativamente fraca no inı́cio da cóclea, mas torna-se
mais intensa quando atinge a zona da cóclea que tem a frequência natural de ressonância igual à sua própria frequência. Nessa altura, a energia da onda é transmitida à membrana e cessa a sua propagação. As altas frequências correspondem à base
da cóclea, enquanto as baixas frequências correspondem à extremidade da membrana. Este funcionamento permite uma dispersão das frequências pela membrana.
Temos, assim, que a membrana basilar se caracteriza por um conjunto de respostas em frequência, em diferentes pontos ao longo da membrana. Normalmente, a
cóclea é modelada como uma realização mecânica de um banco de filtros.
Distribuı́dos ao longo da membrana basilar, encontramos um conjunto de sensores que agem como conversores de movimento mecânico para actividade neuronal. É o denominado órgão de Corti, que assenta sobre a superfı́cie das fibras da
membrana basilar, e é o receptor que converte o movimento mecânico ao longo
da membrana basilar sentido pelos sensores em impulsos nervosos em resposta às
vibrações da membrana basilar. Este órgão está ligado ao nervo coclear, ou auditivo,
que conduz ao sistema nervoso central, ao nı́vel da medula superior.
A partir do nervo coclear, o nosso conhecimento sobre a forma como a
informação (actividade neuronal ao longo desse nervo) é processada e interpretada
pelo cérebro é bastante reduzida. Em [Morgan e Scofield, 1991] encontramos alguns modelos que pretendem representar os mecanismos envolvidos na percepção
da fala.
2.2 O que é um sistema de reconhecimento automático da fala
45
A fase de interpretação e compreensão da fala está muito além do processo de
audição. O processo de audição transforma as ondas sonoras recebidas pelo ouvido em actividade neuronal ao longo do nervo coclear. A forma como a percepção
da fala se processa ao nı́vel do sistema nervoso central é um processo complexo,
cujos contornos não são conhecidos, existindo, somente, modelos que tentam explicar esse processo [Martins, 1988]. Veremos, adiante, como é que os sistemas de
reconhecimento da fala tentam modelar e realizar este processo.
2.2 O que é um sistema de reconhecimento automático da fala
O reconhecimento da fala é geralmente usado na interface homem-computador
por outro software, normalmente associado à aplicação. Analisando de um ponto
de vista global, podemos dividir a operação realizada por um sistema de reconhecimento em três tarefas básicas:
Pré-processamento do sinal - onde o sinal de fala é convertido numa
representação mais apropriada ao processamento pelo reconhecedor;
Reconhecimento - onde se identifica o que foi dito;
Comunicação - onde se envia o reconhecimento da entrada para a aplicação.
Estas tarefas e a sua interligação encontram-se esquematizadas na Figura 2.6.
A variabilidade no sinal de fala, resultante dos efeitos de co-articulação e de
outras fontes, torna a análise deste sinal extremamente difı́cil. Poder-se-ia pensar
que cada fonema tem claramente definidos um conjunto de parâmetros acústicos
e, portanto, uma única realização acústica. No entanto, os fonemas tendem a ser
abstracções que estão implicitamente definidas pela pronunciação das palavras na
linguagem. Em particular, a realização acústica de um fonema depende fortemente
46
Capı́tulo 2 - Reconhecimento Automático da Fala
Fala
Pré-processamento
Reconhecimento
Aplicação
Figura 2.6: Esquema de blocos representando as tarefas básicas executadas por um
sistema de reconhecimento da fala. (Figura adaptada de [Markowitz, 1996].)
do contexto acústico na qual ocorre. Este efeito é, normalmente, designado coarticulação. Fonemas vizinhos, a posição de um fonema dentro das palavras e a
posição da palavra na frase, são alguns dos factores que influenciam a forma como
o fonema é produzido. Estes efeitos, e outras formas de variação, são tão básicas ao
processo de articulação que, normalmente, distingue-se entre a construção conceptual de um som da fala (um fonema) e a sua produção acústica especı́fica, denominada fone.
No bloco de pré-processamento consideram-se integradas uma série de
operações a realizar sobre o sinal da fala. Nessas operações encontramos incluı́das
a amostragem do sinal, e subsequente conversão analógico-digital, e a divisão do sinal em segmentos, através da aplicação de uma janela de análise sobre a sequência
de amostras. Como vimos anteriormente, encontramos na representação acústica
do sinal de fala uma grande quantidade de dados que não são relevantes para a
discriminação e reconhecimento desse sinal. Nesse sentido, e considerando o sinal
47
2.2 O que é um sistema de reconhecimento automático da fala
de fala como estacionário no segmento de amostras, vamos aplicar técnicas que nos
permitam modelar esse segmento de amostras através de uma representação mais
apropriada das suas caracterı́sticas. Essa extracção de caracterı́sticas é normalmente realizada através de diferentes técnicas, como sejam os coeficientes de predição
linear (Linear Predictive Coding - LPC), Cepstrum, PLP, RASTA, entre outras.
Existem, ainda, outras técnicas, baseadas em modelos auditivos, onde se procura
entrar em consideração com caracterı́sticas mais reais do sinal de fala, como seja,
por exemplo, não assumir necessariamente a estacionaridade do sinal de fala. Na
secção seguinte abordaremos estas técnicas.
Pré-processamento
Reconhecimento
Classificador
Unidades de
Reconhecimento
Análise Léxica
Dicionário de
Palavras
Análise Sintáctica
Modelo da Linguagem
ou Gramática
Análise Semântica
Modelo da
Aplicação
Aplicação
Figura 2.7: Esquema de blocos representando o reconhecedor.
48
Capı́tulo 2 - Reconhecimento Automático da Fala
O bloco de reconhecimento, representado na Figura 2.7 através de um esquema de blocos, é constituı́do por um classificador, um módulo de alinhamento e
ajustamento temporal e um módulo representativo das restrições impostas pela linguagem. O classificador actua como um gerador de hipóteses locais, que produz
uma hipótese fonética sobre um segmento de fala (associado a um ou mais vectores
acústicos). Esta classificação é normalmente baseada em modelos de fala (tipicamente modelos de fonemas e/ou de palavras) treinados com uma grande quantidade
de dados, contendo várias ocorrências das diferentes unidades de fala, em diferentes
contextos. A realização do treino sobre os dados de um orador especı́fico, ou sobre
os dados de uma grande população de oradores, permite que os modelos tenham
em conta variações no orador e/ou entre oradores. O módulo de alinhamento e de
ajustamento temporal transforma as hipóteses locais, resultantes do classificador,
numa decisão global de reconhecimento de palavras ou de frases. O módulo da
linguagem interage com o módulo de ajustamento, ajudando a incorporar restrições
fonológicas, sintácticas e semânticas no processo de reconhecimento. Como referimos no capı́tulo anterior, os modelos de Markov não-observáveis (HMMs) estão
na base dos actuais sistemas de reconhecimento da fala contı́nua. Estes modelos
apresentam um formalismo onde as operações anteriores se encaixam e formam um
processo de reconhecimento completo. Estes modelos serão abordados na secção
2.4 do presente capı́tulo.
No esquema de blocos da Figura 2.6 encontramos representada a comunicação
entre o bloco de reconhecimento e a aplicação como sendo uma comunicação nos
dois sentidos. Nos sistemas actuais de reconhecimento essa comunicação é unidireccional, no sentido do reconhecedor para a aplicação. No entanto, ao se estabelecer uma comunicação da aplicação para o sistema de reconhecimento, irá
ser possı́vel impor um conjunto adicional de restrições no espaço de busca do reconhecedor, o que por sua vez resultará, por um lado, num aumento do nı́vel de
reconhecimento, e por outro, num aumento da eficiência do reconhecedor, através
da diminuição do tempo de processamento.
2.2 O que é um sistema de reconhecimento automático da fala
49
2.2.1 Tipos de Fala
Uma das caracterı́sticas importantes no desenho de um sistema de reconhecimento é o tipo de fala para o qual o sistema é desenvolvido. Consideram-se normalmente três tipos de fala: palavras isoladas, palavras ligadas e fala contı́nua.
No reconhecimento de palavras isoladas admite-se uma clara definição do
inı́cio e fim de cada palavra. O uso das palavras isoladas permite evitar uma das
grandes fontes de variabilidade da fala, que são os efeitos de co-articulação, os
quais são um dos grandes responsáveis pela distorção dos parâmetros acústicos. Ao
se produzir uma palavra isolada, realizamos a sua separação do contexto, reduzindo
ou, mesmo, anulando o efeito de co-articulação entre palavras. Por outro lado, este
tipo de fala permite a aplicação de métodos de reconhecimento baseados unicamente na palavra sem ser necessário um modelamento sub-palavra, nomeadamente, para
aplicações que não necessitem de um vocabulário extenso. A sua implementação
torna-se eficiente e, normalmente, o tempo de pausa entre palavras é usado para
processamento da informação e seu reconhecimento. Este tipo de entrada pode ser
usada com qualquer vocabulário, todas as formas de modelamento do orador e qualquer tipo de ambiente. Actualmente, existe uma grande diversidade de aplicações
que se baseiam no reconhecimento de palavras isoladas.
O uso de palavras ligadas requer que o utilizador insira uma hesitação momentânea entre palavras. Normalmente, este tipo refere-se a palavras ligadas entre
si (sem pausas), mas com uma duração e um vocabulário reduzido.
Já quando nos referimos a fala contı́nua, isso significa falar de uma forma natural, sem pausas artificiais entre as palavras. Os desafios envolvidos num sistema
de reconhecimento da fala contı́nua são maiores, dado que:
o número de palavras num bloco de fala é normalmente desconhecido;
o inı́cio e fim de cada palavra é desconhecido;
o efeito de co-articulação entre palavras normalmente torna difusos os limites
50
Capı́tulo 2 - Reconhecimento Automático da Fala
das palavras.
Quando trabalhamos com fala contı́nua não temos uma correcta definição das
palavras, mas sim um conjunto de hipóteses alternativas relativamente ao número de
palavras, às palavras e às suas fronteiras numa frase. Por isso, para cada segmento
de fala na entrada, o sistema deverá ser capaz de determinar se chegou, ou não, à
fronteira de uma palavra e, nesse caso, qual a palavra.
Se todas as palavras do vocabulário fossem avaliadas como candidatas potenciais em cada novo segmento de fala na entrada, o processamento necessário seria
impraticável, mesmo para dicionários de uma dimensão reduzida. Para ultrapassar
esta dificuldade usam-se modelos de linguagem que impõem uma série de restrições
sobre a sequência de palavras permitidas.
Os sistemas de fala contı́nua diferem no modo de manuseamento das fronteiras
das palavras e dos efeitos de co-articulação. As técnicas podem ser, genericamente,
agrupadas em:
sistemas baseados em palavras (pequenos e médios vocabulários);
sistemas sub-palavra baseados em trifones (grandes vocabulários);
sistemas acústicos-fonéticos (grandes vocabulários).
Inicialmente, os sistemas de reconhecimento baseavam o seu funcionamento
directamente em modelos de palavras. No entanto, estas técnicas eram limitadas em
função da dimensão do vocabulário. Ao se pretender usar vocabulários de maiores
dimensões o uso do modelamento baseado em palavras tornava-se impraticável.
Como alternativa, optou-se por uma estratégia baseada em modelos subpalavra, cujo número é muito mais reduzido e independente do vocabulário. Cada
um destes modelos é baseado num conjunto de parâmetros, estimados com base em
estatı́sticas realizadas sobre um conjunto diversificado de amostras correspondentes
a esses modelos. Através deste modelamento estatı́stico torna-se, assim, possı́vel
2.2 O que é um sistema de reconhecimento automático da fala
51
incorporar nos modelos as variações encontradas nas amostras, que decorrem tanto
das variações entre os oradores como para o mesmo orador. Para modelar os efeitos de co-articulação entre palavras, e mesmo dentro da própria palavra, usam-se
modelos sub-palavra dependentes do contexto, denominados de trifones, e que são
unidades baseadas num fonema central e nos fonemas de contexto à sua esquerda
e direita [Lee, 1989]. Ao se adoptar este tipo de modelos sub-palavra deve-se notar que o número de modelos cresceu significativamente, dado que nestes modelos
modelamos todas as possı́veis combinações de contexto fonético, o que faz crescer, também, a complexidade da implementação tornando, novamente, o espaço de
procura global muitas das vezes impraticável.
Os modelos acústico-fonéticos são, geralmente, construı́dos a partir de modelos de fonemas, ou de fones, independentes do contexto. Isso limita o número de
representações, a armazenar como referência, ao número de fonemas definidos para a linguagem. Os fonemas não estão explicitamente condicionados aos fonemas
vizinhos, podendo-se, todavia, levar em conta os efeitos de co-articulação através
da consideração de unidades dependentes do contexto. Novamente, esta situação
levar-nos-ı́a ao problema encontrado com os trifones. Existem realizações em que
se procura, de algum modo, introduzir conhecimento sobre o contexto em que os fonemas estão inseridos, mas através da incorporação de contexto no vector acústico,
traduzindo-se numa situação muito simples [Bourlard e Morgan, 1994].
O elevado grau de similaridade acústica entre fonemas, combinada com a
variabilidade fonética resultante dos efeitos de co-articulação e de outras fontes,
criam uma incerteza relativamente às potenciais etiquetas (labels) fonéticas. Como resultado, a saı́da do processo de segmentação e de etiquetagem é um conjunto de hipóteses de fonemas. Estas hipóteses podem ser organizadas em árvores
de decisão, phoneme lattice ou estruturas semelhantes. Assim que o processo de
segmentação e de etiquetagem está completo, o sistema procura através do vocabulário da aplicação, e restringido pelo modelo de linguagem, as palavras apropriadas às hipóteses fonéticas. A palavra mais apropriada à sequência de hipóteses é
identificada como o item de entrada.
52
Capı́tulo 2 - Reconhecimento Automático da Fala
2.2.2 Modelamento do orador
Um sistema de reconhecimento deverá ser capaz de reconhecer a fala de qualquer orador que necessite de usar o sistema. No entanto, a forma de treinar o sistema, bem como o seu desempenho, dependem do tipo de modelamento do orador
que for realizado. Costuma-se agrupar os sistemas de acordo com o grupo de utilizadores envolvidos: sistema dependente do orador, sistema multi-orador, sistema
independente do orador e sistema com adaptação ao orador.
Quando um sistema de reconhecimento gera um modelo especı́fico do orador,
para cada um dos seus utilizadores, está a criar um sistema dependente do orador.
A criação do modelo do orador compreende três passos: aquisição de dados desse
orador, processamento e construção do modelo do orador. Dada a imunidade deste
modelo relativamente às variações entre oradores, um sistema dependente do orador tem um desempenho, relativamente ao orador para o qual foi treinado, muito
melhor do que um sistema independente do orador. É comummente aceite que a
taxa de erros de um sistema dependente do orador é metade da taxa de um sistema
independente do orador. No entanto, um sistema deste tipo apresenta como desvantagem o facto de que cada vez que temos um novo orador ser necessário repetir
todo o processo de criação do modelo do orador. Há situações em que este tipo de
procedimento é impraticável, como sejam aplicações com utilizadores casuais, por
exemplo, cujos acessos sejam feitos através do telefone.
No caso dos sistemas multi-orador, os modelos são criados para representar
os atributos de um grupo de oradores. O modelamento em sistemas deste tipo utiliza
uma representação semelhante à dos sistemas dependentes do orador. No entanto, o
seu nı́vel de desempenho diminui à medida que o grupo de oradores se torna maior,
e, principalmente, mais heterogéneo. Este tipo de modelamento é particularmente
útil nas situações em que na aplicação se verifica uma alternância entre os utilizadores, mas dentro de um grupo especı́fico.
Os sistemas independentes do orador são os indicados para aplicações onde
não é possı́vel conhecer à partida todos os utilizadores do sistema. Os modelos usa-
2.2 O que é um sistema de reconhecimento automático da fala
53
dos, num sistema independente do orador, representam os parâmetros acústicos de
uma grande população de oradores. A aquisição desses modelos faz-se através de
uma amostragem da população, recolhendo-se amostras de vários oradores. Todos
os oradores partilham o mesmo conjunto de modelos de referência. Este facto torna os modelos independentes do orador muito mais complexos e mais difı́ceis de
construir que os anteriormente referidos. Por outro lado, um sistema independente
do orador estará à partida preparado para reconhecer a fala de um grupo grande
e heterogéneo de oradores. Dadas as diferenças individuais, sotaques, dialectos e
dificuldades de fala dos oradores este objectivo é, normalmente, difı́cil de atingir.
Quando se criam modelos por amostragem, como é o caso dos modelos independentes do orador, é natural que a sua qualidade dependa do número de amostras usadas
para criar os modelos, da sua representatividade relativamente à população de utilizadores, do ambiente em que essas amostras foram recolhidas e da qualidade dos
algoritmos usados para gerar os modelos. Por isso, é expectável que estes modelos
sejam construı́dos para uma população particular de utilizadores e para ambientes
especı́ficos. Contudo, este tipo de modelamento é essencial em aplicações projectadas para serem acedidas por populações de utilizadores casuais (utilizadores de
uma única vez), como sejam aquelas baseadas no telefone e sistemas abertos de
quiosque.
Um sistema com adaptação ao orador modifica os modelos dos oradores existentes em vez de criar modelos novos. O que se pretende num modelo deste tipo é
melhorar o desempenho do sistema inicial, através de uma adaptação do sistema ao
novo orador. O sistema inicial tanto pode ser um sistema dependente como independente do orador. Existem vários tipos de adaptação ao orador que dependem do
modelo inicial e do processo de adaptação:
Conversão do orador - modelo dependente do orador e dados dependentes do
orador;
Adaptação estática - modelo independente do orador e dados dependentes do
orador;
54
Capı́tulo 2 - Reconhecimento Automático da Fala
Adaptação incremental - modelo independente do orador e dados dependentes
do orador.
No sistema de conversão do orador começamos com um modelo inicial dependente do orador. De seguida, é realizada a adaptação ao novo orador com a
utilização dos seus dados para treino. Pretende-se, assim, efectuar um deslocamento do modelo de referência de um orador para um modelo de referência do novo
orador. Este treino é feito off-line, ou seja, o novo orador passa por uma fase inicial
em que gera uma série de dados para treino. Seguidamente, os dados são processados gerando um novo modelo, adaptado ao novo orador.
A adaptação estática começa num modelo independente do orador e usa os
dados recolhidos do novo orador para modificar o modelo inicial, tornando-o mais
próximo desse novo orador. Neste caso, o novo orador passa por um processo prévio
em que deverá fornecer um conjunto de dados pré-definidos (dizer um conjunto
de palavras ou frases pré-definidas). O efeito negativo, resultante da exigência do
treino inicial, pode ser atenuado através da divisão do perı́odo de treino em pequenas
sessões e permitindo o treino ou re-treino, enquanto a aplicação se encontra em
funcionamento.
No sistema com adaptação incremental o modelo independente do orador é modificado ao mesmo tempo que o novo orador está utilizando o sistema. Neste caso,
não existe uma fase de treino inicial. Este método, ao contrário dos anteriores que
requerem um fase inicial de treino, poderá ser usado em aplicações que envolvam
uma interacção curta com o utilizador. Como o ponto inicial é o modelo independente do orador, e como existe um desconhecimento relativamente ao novo orador,
este constitui o melhor modelo que poderı́amos apresentar. O processo seguinte de
adaptação on-line ao utilizador irá melhorar o sistema introduzindo um conhecimento explı́cito do novo orador. Ao se assistir à utilização por parte de um novo
utilizador, o sistema volta ao ponto inicial do sistema independente do orador. Esta
utilização representa a situação ideal de modelamento de um sistema.
Estes diferentes tipos de modelamento podem ser vistos como diferentes pontos
55
2.3 Pré-processamento do sinal de fala
ao longo de uma linha contı́nua. É esta situação que apresentamos na Figura 2.8.
Reconhece
um
Orador
Modelo
Dependente
do Orador
Modelo
Multi-orador
Modelo
Independente
do Orador
Reconhece
todos os
Oradores
Figura 2.8: Modelamento do orador como uma linha contı́nua. (Figura adaptada de
[Markowitz, 1996]).
2.3 Pré-processamento do sinal de fala
Todos os sistemas de reconhecimento realizam, numa primeira fase, um préprocessamento sobre o sinal de fala. Este pré-processamento tem por finalidade
transformar a forma de onda do sinal de fala numa representação paramétrica. Esta transformação tem por base uma dupla justificação. Por um lado, diminuir a
quantidade de dados a processar, dada a redundância existente no sinal de fala, e,
por outro, transformar as amostras do sinal numa representação mais adequada dos
acontecimentos acústicos relevantes, em termos do reconhecimento da fala.
Intrı́nseco ao sinal de fala encontramos um conjunto de informação redundante
em termos de reconhecimento, representativa, nomeadamente, das caracterı́sticas
próprias do ambiente de gravação e das diferenças entre oradores. Ora, um dos
objectivos da fase de pré-processamento é exactamente o de atenuar, ou mesmo
eliminar, a influência dessas caracterı́sticas sobre o sinal de fala. No entanto, existem outras caracterı́sticas próprias dos oradores, como sejam diferenças de estilo e
alterações no ritmo de produção da fala, que não se conseguem eliminar na fase de
pré-processamento, e terá de ser o sistema de reconhecimento a lidar com elas.
A aplicação deste pré-processamento sobre o sinal de fala poderá ser realizado
tanto no domı́nio do tempo, como no domı́nio da frequência. Os métodos aplicados no domı́nio do tempo, como seja o cálculo da energia, ou da taxa de transições
56
Capı́tulo 2 - Reconhecimento Automático da Fala
por zero (zero crossing rate), são simples de realizar, dado que lidam directamente
com as amostras do sinal de fala. A análise no domı́nio da frequência passa pela
representação de caracterı́sticas que não são evidentes no domı́nio do tempo. Existem várias formas de representação paramétrica no domı́nio da frequência, mas a
mais utilizada, também em função dos resultados alcançados, é a envolvente espectral, baseando-se nos métodos de análise espectral.
Os vários métodos de estimação paramétrica assumem que o sinal de fala se
encontra sob a forma de amostras, resultante de um processo de amostragem realizado sobre o sinal analógico da fala. Sobre essas amostras é aplicada uma janela de
análise, considerando-se que o sinal é invariante no tempo, ou quase estacionário,
no perı́odo representado pela janela. Para a fala vozeada assume-se geralmente
que o sinal de fala é invariante no tempo para intervalos de aproximadamente 20
ms. Esta hipótese, sobre a estacionaridade do sinal de fala, deve-se ao facto de que
é difı́cil a estimação paramétrica de um sistema não estacionário. As janelas de
análise são, geralmente, espaçadas entre si de um número de amostras inferior ao
seu comprimento, resultando, assim, numa sobreposição de amostras entre janelas
consecutivas. Esta sobreposição tem por finalidade não permitir transições abruptas
entre o espectro resultante de cada conjunto de amostras. É sobre cada conjunto de
amostras, representando um segmento da fala, que se vão realizar as operações dos
diferentes métodos de estimação paramétrica.
Diferentes métodos de estimação paramétrica têm sido utilizados nos sistemas
de reconhecimento ao longo dos últimos anos. De entre eles destacamos, pela sua
larga utilização, o método do banco de filtros passa-banda, o modelo de predição
linear (do inglês Linear Predictive Coding - LPC) e o modelo baseado nos coeficientes de cepstrum. Para detalhes da sua realização e aplicação especı́fica ao
problema da fala remetemos para [Rabiner e Schafer, 1978] [Shaughnessy, 1987]
[Rabiner e Juang, 1993]. Todos estes métodos pretendem representar a informação
espectral necessária para um correcto reconhecimento dos acontecimentos presentes no sinal de fala através de um número reduzido de parâmetros. Nesse sentido
assiste-se à transformação de um segmento da fala, resultante da aplicação da ja-
2.3 Pré-processamento do sinal de fala
57
nela de análise sobre o sinal de fala, num conjunto de 8-14 coeficientes derivados
dos métodos anteriores. Esta análise realiza-se, sucessivamente, sobre os vários
segmentos extraı́dos do sinal de fala. Nos sistemas actuais de reconhecimento os
coeficientes de cepstrum têm imperado dado representarem um conjunto de caracterı́sticas mais robustas que as modeladas através do LPC [Shaughnessy, 1987].
Mais recentemente foi proposto um novo método denominado predição linear
perceptual (do inglês Perceptual Linear Prediction - PLP) [Hermansky, 1990]. Este método, segundo o autor, fornece-nos, relativamente aos métodos anteriores,
uma forma mais efectiva de preservar a informação linguı́stica relevante presente
no sinal de fala, enquanto reduz as variações dependentes do orador. No entanto, o PLP, assim como todas as técnicas baseadas no espectro localizado da fala,
é vulnerável quando os valores espectrais são modificados pela resposta em frequência do canal de comunicação. O RASTA (RelAtive SpecTrAl methodology)
[Hermansky et al., 1991] [Hermansky et al., 1992] torna o PLP, e possivelmente outras técnicas baseadas no espectro localizado, mais robusto às distorções espectrais
lineares, apresentando um nı́vel de desempenho superior em situações em que o
sinal de fala se encontra corrompido pelo ruı́do.
Além dos métodos anteriores tem-se verificado um desenvolvimento crescente
dos denominados modelos auditivos, cujo funcionamento pretende replicar, de algum modo, o sistema auditivo humano. Apesar do conhecimento existente sobre
esse sistema ser, ainda, bastante rudimentar alguns progressos têm resultado dos diversos estudos efectuados. Um dos pontos que tem emergido desses estudos é que
as representações espectrais por si só são insuficientes para representar a informação
em todas as condições, e que modelos baseados em representações temporais conseguem ser mais robustos em ambientes com muito ruı́do [Morgan e Scofield, 1991].
Nos métodos anteriores de estimação paramétrica é gerado um vector de
parâmetros por cada conjunto de amostras correspondente a um segmento da fala. Nalguns sistemas de reconhecimento verifica-se, ainda, a aplicação de um pósprocessamento sobre esse conjunto de vectores resultantes do bloco de estimação
paramétrica. Essa fase, designada por quantificação vectorial, tem por finalidade re-
58
Capı́tulo 2 - Reconhecimento Automático da Fala
duzir, ainda mais, a quantidade de dados a processar. As técnicas de quantificação
vectorial têm por objectivo substituir a representação contı́nua apresentada pelos
vectores de parâmetros numa representação discreta obtida a partir de um conjunto
de vectores de referência representativos das diferentes unidades básicas presentes no sinal de fala. No entanto, verifica-se que esta ideia é difı́cil de alcançar
dados os vários factores de variabilidade presentes na fala. Ainda assim, o conceito de criar um conjunto discreto de vectores de parâmetros continua válido e
está na base de um conjunto de técnicas denominadas de quantificação vectorial
[Rabiner e Juang, 1993].
Na maioria dos sistemas de reconhecimento actuais, adicionalmente aos vectores de parâmetros estáticos resultantes das técnicas de estimação paramétricas
anteriores, utilizam-se um conjunto de caracterı́sticas dinâmicas com o objectivo de
modelar o contexto acústico. Essas caracterı́sticas resultam das estimativas das derivadas temporais de 1a¯ e de 2a¯ ordem associadas aos vectores de parâmetros estáticos.
Essas derivadas temporais são estimadas através de uma regressão linear baseada
num conjunto de vectores de parâmetros adjacentes [Furui, 1986]. O número de
vectores de parâmetros utilizados nessa estimativa varia entre 5 e 9 não havendo
uma diferença significativa nos resultados.
Um outro método alternativo que produz, também, melhorias no nı́vel de
desempenho dos sistemas de reconhecimento, utiliza, em vez das derivadas do
método anterior, coeficientes de diferença, estimados através de uma função linear de um conjunto de vectores acústicos, função esta optimizada através de
uma análise discriminante linear (do inglês Linear Discriminant Analysis - LDA)
[Umbach e Ney, 1992].
Ainda incluı́do nesta fase de pré-processamento é normalmente aplicado um
procedimento de normalização dos vectores de parâmetros. Nesse procedimento
cada coeficiente dos vectores de parâmetros é normalizado de forma a se obter
média nula e variância unitária ao longo de todas as classes. A aplicação desta
normalização tem como objectivo compensar as distorções introduzidas no sinal de
fala pelo canal de comunicação e pelo microfone.
2.4 Modelos de Markov não observáveis
59
Concluindo, o bloco de pré-processamento transforma o sinal de fala numa
sequência de vectores de parâmetros resultantes da análise paramétrica realizada
pelo método adoptado. A essa sequência de vectores podem juntar-se outros vectores resultantes da análise dinâmica realizada através da estimação das derivadas ou
diferenças temporais. Será esta sequência final de vectores de parâmetros que irá
constituir a entrada do sistema de reconhecimento.
2.4 Modelos de Markov não observáveis
Um dos factores que contribuiu favoravelmente para o desenvolvimento do reconhecimento automático da fala, nestas duas últimas décadas, foi a aplicação a esta
área dos modelos de Markov não-observáveis (do inglês Hidden Markov Models HMMs). Da vastı́ssima bibliografia produzida sobre o estudo e desenvolvimento destes modelos queremos deixar como referências alguns dos trabalhos iniciais
realizados na DRAGON [Baker, 1975b] e na IBM [Jelinek, 1976] e um livro relativamente recente de autores conceituados sobre o assunto [Rabiner e Juang, 1993].
Além destas referências salientamos um artigo que é normalmente utilizado como
referência no âmbito dos HMMs [Rabiner, 1989] e um livro recente que apresenta uma discussão mais aberta sobre as vantagens e desvantagens destes modelos
[Bourlard e Morgan, 1994] e no qual nos baseámos em parte para a descrição efectuada nesta secção.
Estes modelos constituem uma aproximação eficiente para lidar com as
variações estatı́sticas, tanto no domı́nio do tempo como no domı́nio da frequência,
associadas ao sinal da fala. Na caracterização do sinal da fala realizada por estes
modelos assume-se que a fala, apesar de ser um processo globalmente não estacionário, é “quase estacionária” em pequenos troços, permitindo ao pré-processador
extrair um conjunto de vectores de parâmetros, conforme descrevemos anteriormente. Assim, a fala passa a ser modelada como uma sucessão de estados estacionários com transições instantâneas entre estados. Essencialmente, um HMM é
uma máquina de estados probabilı́stica com um processo de saı́da estocástico as-
60
Capı́tulo 2 - Reconhecimento Automático da Fala
sociado a cada estado, com a finalidade de descrever a probabilidade de ocorrência
dos vectores de parâmetros. Daqui resultam dois processos estocásticos concorrentes: um processo que modela a estrutura temporal da fala, através de uma sequência
de estados, e um conjunto de processos de saı́da que modelam os acontecimentos
presentes no sinal da fala. Os HMMs são denominados de não-observáveis, ou “escondidos”, dado que a sequência de estados não é directamente observável, mas
afecta a sequência dos acontecimentos observados.
Associada aos HMMs existe a ideia de modelamento da fala. Assim, deveria
haver um único HMM para cada frase permitida na linguagem. Naturalmente que
isto não é possı́vel, principalmente, quando queremos reconhecer fala contı́nua e
com grandes vocabulários. Como solução adopta-se uma estrutura hierárquica de
modelamento, em que cada frase é representada como uma sequência de palavras.
Passamos agora a ter um modelo para cada palavra. No entanto, verifica-se que
quando estamos a trabalhar com grandes vocabulários seria necessário um enorme
conjunto de treino para aprender novos modelos para cada palavra, além de que se
verifica que algumas das palavras ocorrem com pouca frequência. Torna-se então
necessária uma maior decomposição em unidades sub-palavra. Apesar de haver
bons argumentos linguı́sticos para escolher unidades como sejam as sı́labas, a unidade mais comum é o fonema ou o fone (o fonema é uma categoria linguı́stica
enquanto o fone é uma categoria acústica). Os modelos das palavras passam a ser
realizados através da concatenação dos modelos dos fonemas, ou dos fones, restringidos pelas pronunciações através de um dicionário, e os modelos das frases
resultam da concatenação dos modelos das palavras, restringidos pelas gramáticas
ou modelos de linguagem. Com esta representação hierárquica ao pretendermos
adicionar uma nova palavra ao dicionário não necessitamos de exemplos acústicos
dessa nova palavra, bastando só saber representá-la a partir das unidades básicas.
Ao longo do desenvolvimento destes modelos têm sido introduzidas um conjunto de alterações que têm permitido uma melhoria das suas caracterı́sticas: melhor
modelamento da dinâmica da fala através da extensão do vector de caracterı́sticas de
forma a conter estimativas das derivadas de primeira e de segunda ordem, a adição
61
2.4 Modelos de Markov não observáveis
de regras fonológicas, melhores unidades de fala como sejam modelos de fonemas
dependentes do contexto (difones ou trifones).
O nı́vel de desempenho destes sistemas depende, em grande parte, da qualidade dos dados usados na estimação dos seus parâmetros. A informação estatı́stica
codificada nos estados e nas transições dos HMMs é extraı́da de vários exemplares
das palavras. Esses exemplares podem ter sido gerados por utilizadores individuais,
por um grupo limitado de oradores, ou por um grupo grande de oradores, directamente para o sistema ou armazenados através de uma base de dados. Como vimos
anteriormente, o funcionamento e aplicabilidade do sistema vai depender destas caracterı́sticas.
2.4.1 Paradigma do reconhecimento
Consideremos
uma sequência de palavras proferi-
das por um utilizador. O pré-processador, que terá como entrada a realização
acústica de
, produzirá como saı́da uma sequência de vectores de caracterı́sticas
.
Estas caracterı́sticas são normalmente vectores de
parâmetros contı́nuos produzidos por um dos métodos referenciados na secção anterior.
O objectivo do bloco de reconhecimento é descodificar
a partir da sequência
. Pretende-se, assim, traduzir a sequência de vectores de caracterı́sticas
tante da operação realizada pelo pré-processador acústico, numa estimativa
sequência de palavras original
.
!
#%$&(' *)
De forma a minimizar a probabilidade de erro,
a que
"!
arg max
#%$&(' *)
que maximiza
.
da
deverá ser escolhida de forma
Daqui se conclui que a sequência de palavras mais provável
sequência de palavras
!
, resul-
!
é obtida através da
62
Capı́tulo 2 - Reconhecimento Automático da Fala
2.4.2 Aplicação dos HMMs ao reconhecimento da fala contı́nua
Nos HMMs assume-se que o sinal da fala, analisado como uma sequência
de vectores de caracterı́sticas
, é produzido por uma
máquina de estados finita, governada por leis estatı́sticas e construı́da com base
num conjunto de
estados .
Cada unidade de fala é representada por um modelo de Markov. Cada HMM
é constituı́do por um conjunto de estados, um subconjunto de , e um conjunto
de ligações entre os estados. Os modelos associados às unidades básicas da fala seguem, normalmente, uma topologia simples esquerda-direita, como representado na
Figura 2.9. Adicionalmente ao modelo anterior são introduzidos um estado inicial
e um outro estado final. Estes estados adicionais servem como estados de entrada e
de saı́da do modelo, facilitando a ligação entre si dos modelos das unidades básicas.
Os modelos de Markov das palavras resultam da concatenação dos modelos das unidades elementares da fala, de acordo com um conjunto de regras fonológicas, e os
modelos das frases resultam da concatenação dos modelos das palavras, de acordo
com um conjunto de regras sintácticas.
Um HMM é normalmente analisado como um processo gerador de sequências
de vectores, tendo, assim, capacidade de modelar a fala. Trata-se de uma máquina
de estados probabilı́stica que muda de estado em cada instante , e quando entra
$ ' )
num estado
lidade é gerado um vector de caracterı́sticas
$ ')
. A transição do estado
e é governada pela probabilidade com densidade de probabi-
para o estado
é também probabilı́stica
. Estas propriedades dos HMMs resultam
de um conjunto de hipóteses simplificativas que analisaremos mais adiante.
Consideremos o conjunto Markov das unidades elementares da fala, e que representa os modelos de
os vectores de
parâmetros desses modelos.
representa o HMM associado a uma palavra ou a uma frase, representada
pela sequência
, obtido através da concatenação dos modelos básicos associa-
63
2.4 Modelos de Markov não observáveis
p(q |q )
1
p(q |q )
1
2
p(q2|q )
3
3
p(q |q )
1
q1
p(q |q )
2
q
p(x|q )
3
2
q
2
p(x|q )
1
3
p(x|q )
3
2
Figura 2.9: Representação esquemática de um modelo de Markov com três estados
numa topologia esquerda-direita. Nesta topologia só são permitidas transições de
um estado para si próprio ou para o estado seguinte.
estados
por
$ ) $ ) $ ) $ ) $ ) $)
dos às unidades elementares da fala que constituem
estados
com , e baseado na sequência de
constituı́da
estado pode ocorrer várias vezes e com diferentes ı́ndices , de modo que
O conjunto de parâmetros em
e os estados inicial e final. O mesmo
.
será referido como e é um subconjunto de .
#%$ ' *)
Definida a topologia dos HMMs, os seus critérios de treino e de reconhecimento
serão baseados na probabilidade a posteriori
acústicos
ter sido produzida por
da sequência de vectores
(critério de Bayes ou de Máximo A Posteriori
- MAP).
#%$ ' )
Durante o treino, pretendemos determinar o conjunto de parâmetros que maximiza
das com
para todas as sequências de treino
, ou seja, encontrar os parâmetros
, associa-
64
Capı́tulo 2 - Reconhecimento Automático da Fala
#%$ ' )
argmax #%$ ' )
Durante o reconhecimento de uma sequência desconhecida X pretendemos
encontrar o modelo
parâmetros que maximize
e uma sequência de observações
dado um conjunto fixo de
. Uma sequência será reconhe-
cida como a sequência de palavras associadas ao modelo
argmax
#%$ ' )
tal que
#%$ ' )
O problema está em que, tanto no treino como no reconhecimento, não é trivial
#%$ ' *)
estimar ou caracterizar
Bayes,
directamente. No entanto, usando a regra de
pode ser expressa como
#%$ ' *) $ ' $ *) #%) $ ) $ $ *' ) ) #%$ )
$ ' )
#%$ *)
onde é a verosimilhança da sequência
probabilidade a priori do modelo e
dado o modelo
,
#%$ )
é a
é a probabilidade a priori da sequência
dos vectores de entrada.
$ ' ) $ *)
O processo de estimação passa, assim, a estar dividido em duas partes:
modelação acústica, onde as probabilidades dependentes dos dados #%$ )
são estimadas e modelação da linguagem onde se estimam as probabilidades a priori
dos modelos das frases
. Neste processo de estimação começa-se por assu-
mir ser possı́vel estimar em separado as probabilidades de modelação acústica e de
modelação da linguagem.
$ *)
No caso da modelação acústica, dada uma sequência de observações conhecida,
e tendo em conta que é constante e não depende dos modelos, o problema do
65
2.4 Modelos de Markov não observáveis
$ ' )
treino dos modelos reduz-se à construção de um estimador da função densidade de
probabilidade que maximize a verosimilhança, ou seja,
$ ' )
argmax Este critério quando usado para treino é referido como Estimação de Máxima
$ ' )
#%$ ' *)
Verosimilhança (do inglês Maximum Likelihood Estimation - MLE). Da utilização
deste critério durante o treino resulta que de parâmetros
presentes em
dependerá somente do conjunto
, enquanto
era dependente de todos os
parâmetros . Isto significa que o treino usando o critério MLE não discrimina entre
os vários modelos, ou seja, para uma dada sequência de observações só maximiza
o modelo correcto, não tendo capacidade de, em simultâneo, minimizar todos os
outros, como acontecia através do critério MAP.
Durante o reconhecimento, e tendo em conta que $ *)
é constante, a sequência
será reconhecida como a sequência de palavras associada ao modelo
no qual $ ' ) #%$ )
e
argmax $ ' & ) #%$ )
#%$ )
tal que
são estimados separadamente.
No caso da modelação da linguagem,
, pretende-se construir um modelo
que incorpore restrições sintácticas acerca das sequências de palavras, e regras fonológicas acerca da sequência das unidades básicas (fonemas ou fones) e onde se
admite que esse modelo pode ser derivado sem referência aos dados acústicos. Da
modelação da linguagem resulta a construção de um “dicionário” que incorpora as
regras de pronunciação, normalmente, através de uma transcrição fonética associada a cada palavra do vocabulário, e de uma “gramática”, onde se define a sequência
de palavras admissı́vel pela linguagem, em que os seus parâmetros são estimados a
partir de grandes quantidades de texto.
66
Capı́tulo 2 - Reconhecimento Automático da Fala
2.4.3 Modelamento acústico nos HMMs
$ ' )
$ ' )
O treino nos HMMs passa pela construção de um estimador da função densidade de probabilidade $ ' )
conjunta da sequência de vectores
,
. O cálculo de obtém-se a partir da densidade
e da sequência de estados
, dado o modelo
, através da sua soma ao longo de todas as possı́veis sequências de
$ ' ) $ ' )
estados , ou seja,
No treino dos modelos acústicos são admitidas várias hipóteses simplificativas:
Estacionaridade por troços - o modelamento da fala faz-se através de uma
cadeia de Markov admitindo que a fala é um processo estacionário por troços,
ou seja, admite-se que num curto intervalo de tempo as estatı́sticas associadas
ao sinal não variam.
#%$ )
$)
Estimação em separado da probabilidade a priori do modelo
.
Independência das observações - o vector de caracterı́sticas actual
dicionalmente independente dos vectores anteriores
$ )
$)
é con.
Processo de Markov de primeira ordem - o estado actual do processo,
depende só do estado anterior
.
As observações encontram-se associadas ao estado - o vector actual,
dependente do estado actual,
,
, é só
.
A aplicação destas hipóteses permite-nos calcular a densidade conjunta, simplesmente, como o produto das probabilidades de transição entre estados e das probabilidades de observação, ou seja,
$ ' ) $ $ )' $ )) $ ' $ )) $ $
)' $ )) 67
2.4 Modelos de Markov não observáveis
$ ' $ )) $ $ )' $ )) $ ' $ ) ) $ $ )' $ ))
$ $ )' $ )) $ ' $ )) $ $ )' $ ))
$ )
onde
$)
, e
representa o estado inicial,
o estado final,
, esta-
dos onde não se observam vectores de caracterı́sticas. O algoritmo ForwardBackward [Rabiner, 1989] apresenta-nos um método recursivo eficiente de realizar
estes cálculos. Por seu lado o algoritmo de Baum-Welch [Rabiner, 1989] apresentanos um método eficiente para calcular as estimativas de máxima verosimilhança
$ ' )
$ ' )
das probabilidades de transição e de observação. Existe um outro método alternativo que nos permite obter de uma forma aproximada com base na se
quência de estados que maximiza , e denominado algoritmo de Viterbi
[Rabiner, 1989]. Este algoritmo é extremamente eficiente, sendo normalmente utilizado no processo de reconhecimento, ou de descodificação, onde nos interessa
determinar a sequência de estados mais provável.
Uma outra forma de apresentar a equação anterior é através da aplicação da
função logaritmo, transformando-a na soma de dois termos, permitindo separar os
termos associados às probabilidades de transição dos termos associados às probabi-
$ ' ) lidades de observação, ou seja,
$ $ )' $ )) $ ' $ ))
As probabilidades de transição modelam a estrutura temporal da fala, onde se
pode encarar cada termo como o custo de transitarmos de um estado para outro.
Trata-se de um modelo muito pobre da duração dos acontecimentos na fala, mas não
é muito relevante dado que a expressão anterior é dominada pelas probabilidades
de observação. Cada estado no HMM representa um vector de caracterı́sticas de
referência e o logaritmo da probabilidade de observação dá-nos uma medida de
distância, o que nos permite comparar o vector de caracterı́sticas actual com o vector
de referência [Young, 1996].
68
Capı́tulo 2 - Reconhecimento Automático da Fala
O ponto essencial no modelamento acústico, considerando definido um critério
de treino como seja o da estimação de máxima verosimilhança, é a escolha da
função densidade de probabilidade de observação. A maioria dos sistemas de reconhecimento da fala, baseados em HMMs, usam uma estimação paramétrica para
essa função densidade de probabilidade. Nessa estimação escolhe-se à partida a sua
forma funcional, e no treino estimamos os seus parâmetros de forma a modelar os
dados de treino.
Na maior parte dos sistemas a verosimilhança é estimada usando o modelo
paramétrico de uma distribuição gaussiana (ou normal):
$ ' ) $ )
$ ) ' ' e
à classe
onde
$ ) $ )
são respectivamente o vector média e a matriz de covariância associada
. Se considerarmos a matriz de covariância diagonal, ou seja, assumindo
que as medidas no nosso vector de caracterı́sticas são não correlacionadas, e os
elementos da diagonal representados por onde
$ ' ) $ ) $ ) , a expressão anterior reduz-se a
representa o i-nésimo componente de
e
a dimensão do vector de
caracterı́sticas (dimensão do espaço de caracterı́sticas).
Escolhe-se normalmente a distribuição gaussiana dado que é uma aproximação
razoável às distribuições encontradas em muitos conjuntos de dados reais. Além
disso, verifica-se que esta distribuição é uma boa aproximação a muitas outras
distribuições.
A distribuição gaussiana é unimodal, ou seja, só tem um único máximo, que
ocorre na média. Outras distribuições mais complexas podem ser aproximadas por
somas pesadas de distribuições de gaussianas, denominadas misturas de gaussianas,
69
2.4 Modelos de Markov não observáveis
e expressas através de
onde
$ ' ) $ )
representa o número total de densidades de gaussianas. Os parâmetros
que representam o ganho da mistura
treino, respeitando as restrições
e
no estado
,
, são determinados durante o
Os parâmetros de uma distribuição gaussiana, ou de misturas de gaussianas, são
estimados a partir dos dados. No caso de uma única gaussiana estimamos a média
e a covariância para cada classe. No caso das misturas os parâmetros não podem
ser determinados directamente, dado que não existe uma associação a priori entre as
médias e covariâncias e um subconjunto particular de vectores de caracterı́sticas. Os
parâmetros das equações anteriores podem ser determinados de uma forma iterativa
através do algoritmo EM (Expectation-Maximization) [Duda e Hart, 1973]. O nı́vel
de desempenho de um classificador estatı́stico baseado neste tipo de distribuições
vai depender do modo como os dados se ajustam ao modelo seleccionado.
Nos problemas de classificação existe, normalmente, um número elevado, ou
mesmo infinito, de vectores de caracterı́sticas. No entanto, o sistema é treinado
usando apenas um sub-conjunto limitado de vectores e que foi devidamente etiquetado com a identidade da classe respectiva. Apesar da relação entre o vector de
caracterı́sticas e a classe ser aprendida perfeitamente para o conjunto de dados de
treino, a verosimilhança ou a probabilidade a posteriori podem não ser bem estimadas para o conjunto das amostras em geral. Ainda, quanto mais complexo fôr
o classificador (maior o número de parâmetros independentes), maior o risco de
se especializar sobre o conjunto de treino, apresentando uma generalização pobre
para conjuntos de teste independentes. Uma forma de reduzir este problema passa pela utilização de um critério de validação cruzada, em que durante o treino se
70
Capı́tulo 2 - Reconhecimento Automático da Fala
avalia o desempenho do sistema sobre um outro conjunto, denominado conjunto de
validação, disjunto do conjunto de treino, e a partir do qual é possı́vel definir um
critério de paragem do treino.
As redes neuronais, que podem ser vistas também como um modelo paramétrico, permitem formar superfı́cies de decisão mais complexas e menos restritivas, não necessitando de hipóteses tão fortes sobre a distribuição dos dados de
entrada. Estes modelos serão descritos no capı́tulo seguinte onde estarão na origem de um sistema hı́brido de reconhecimento da fala. Adicionalmente, existem
métodos que nos permitem optar por uma estimação não paramétrica das densidades, em que se utilizam os próprios dados para escolher a forma da função densidade
de probabilidade de observação [Duda e Hart, 1973].
2.4.4 Dicionários de pronunciação
Conforme referimos anteriormente, os modelos das frases são realizados
através da concatenação dos modelos das palavras, que, por sua vez, resultam da
concatenação dos modelos das unidades básicas (fones ou fonemas) restringidos
por regras de pronunciação.
Quando nos referimos aos modelos das unidades básicas, estamos a assumir que
temos um HMM por cada unidade básica. No entanto, sabemos que os efeitos de
contexto provocam variações na forma como um som é realizado. Para se conseguir
uma boa discriminação ao nı́vel fonético seria necessário ter diferentes HMMs, para
cada unidade, dependentes dos diferentes contextos em que cada unidade ocorre. A
forma mais simples e mais usada são os trifones, onde cada fone tem um HMM
distinto para cada par de fones vizinhos à sua esquerda e à sua direita. O problema
da aplicação dos trifones, em conjunto com as misturas de gaussianas, é o número
extremamente elevado de parâmetros que o sistema passa a apresentar. Por outro
lado, a existência de poucos dados de treino torna este problema mais gravoso.
Os sistemas começaram por lidar com este problema através da associação dos
2.4 Modelos de Markov não observáveis
71
componentes das gaussianas, que eram depois partilhadas pelos estados dos HMMs.
Nestes sistemas (tied-mixtures ou semi-contı́nuos) só os pesos das misturas eram especı́ficos dos estados. Estes sistemas apresentavam os melhores resultados comparativamente com os sistemas discretos ou com os sistemas de densidades contı́nuas
[Huang et al., 1990]. No entanto, isto verificava-se porque os sistemas de densidades contı́nuas não apresentavam métodos de suavização das densidades suficientemente bons. Recentemente, tornou-se popular a utilização de um outro método
onde se associam os estados que são acusticamente indistinguı́veis (state tying). Isto permite que os dados associados a cada estado sejam partilhados dando origem a
estimativas mais robustas dos parâmetros dos estados [Young, 1996].
Na realização dos modelos das unidades básicas temos a caracterização da
função densidade de observação associada a cada estado, como vimos, e o número
de estados e as probabilidades de transição a modelarem a estrutura temporal dessas
unidades, e implicitamente da fala. Os modelos das unidades básicas são realizados
de forma a que através do número de estados se representem restrições de duração
caracterı́sticas dessas unidades e onde as probabilidades de transição são constantes
[Robinson et al., 1994].
Os dicionários de pronunciação, ou léxicos, definem para as várias palavras do
vocabulário, associadas à tarefa para a qual se desenvolveu o sistema, a sequência
de fonemas, ou fones, que constituem a pronunciação de cada palavra. Geralmente,
associada a cada palavra podemos ter mais do que uma pronunciação motivada por
efeitos de co-articulação ou por variabilidade de pronunciação. Nesse sentido, os
léxicos tornam-se de multi-pronunciação, em que as diferentes pronunciações de
uma mesma palavra são representadas de uma forma alternativa, com uma probabilidade a priori associada a cada pronunciação, ou então, os léxicos são construı́dos
de forma a codificarem um conjunto de regras de pronunciação que permita ao utilizador representar diferentes pronunciações.
Na Tabela 2.2 apresentamos um exemplo de algumas entradas de um dicionário
de pronunciação por nós realizado [Neto et al., 1997b] e associado à base de dados
em Português EUROM.1 SAM [Ribeiro et al., 1993]. Na primeira coluna encontra-
72
Capı́tulo 2 - Reconhecimento Automático da Fala
mos a palavra seguida da probabilidade a priori associada à pronunciação, apresentada na segunda coluna. Note-se que, por exemplo, a palavra ALOJAMENTO só tem
uma pronunciação, enquanto que a palavra ALTO apresenta duas pronunciações.
..
.
ALOJAMENTO (1.00) af l u j af m en t u +
ALTÍSSIMO (1.00)
aa lf t i s i m u +
ALTAS (1.00)
aa lf t af j +
ALTO (0.50)
aa lf t w +
ALTO (0.50)
aa lf t u +
ALTURA (1.00)
aa lf t u r af +
ALVALADE (1.00)
..
.
aa lf v af l aa d em +
Tabela 2.2: Algumas entradas do dicionário de pronunciação associado à base de
dados SAM em Português.
As pronunciações são geradas a priori por pessoas especializadas, baseando-se
num conjunto de regras particulares. Algumas dessas regras podem ser definidas de
uma forma suficientemente geral, e, como resultado do estudo e desenvolvimento de
sistemas de geração de fala a partir do texto (vulgarmente conhecidos como sistemas
de sı́ntese de fala ou Text-to-Speech - TTS), têem-se criado sistemas automáticos
para geração das transcrições fonéticas. No entanto, qualquer léxico passa sempre
por um processo de verificação manual o que o torna, normalmente, difı́cil de obter.
A forma como, actualmente, os dicionários de pronunciação são realizados
é bastante limitadora, não permitindo que novas pronunciações sejam adquiridas,
a não ser à custa de trabalho manual adicional. Aqui queremos distinguir entre
duas situações distintas. Por um lado, a questão de adicionar novas palavras ao
dicionário, e, por outro, adicionar novas pronunciações a uma palavra já existente.
Quanto ao primeiro caso, podemos conceber ferramentas que gerem automaticamente uma pronunciação para a nova palavra, dando sempre a possibilidade de ser
verificada manualmente pelo utilizador. Obviamente, que esta verificação só fará
2.4 Modelos de Markov não observáveis
73
sentido se o utilizador entender o conteúdo e a forma da transcrição. No segundo
caso, o que se pretende é, partindo directamente dos dados acústicos, aferir a qualidade e sentido das pronunciações existentes e ser, ainda, capaz de adicionar novas
pronunciações, que se tenham verificado ao nı́vel acústico, e que não se encontrem
correctamente representadas pelas pronunciações já existentes. Trata-se de um ponto importante para o desenvolvimento futuro dos sistemas de reconhecimento, ao
qual pretendemos dedicar-nos num futuro próximo.
2.4.5 Modelos de Linguagem
Nos sistemas de reconhecimento, depois da análise léxica, realiza-se uma
análise, do tipo sintáctico, onde incorporamos os conhecimentos sobre a
estruturação e relações das palavras nas frases. Essa análise usa gramáticas ou
modelos de linguagem que incorporam esses conhecimentos. A denominação de
gramática aplica-se aos casos em que se faz uma descrição da estruturação da linguagem e a denominação de modelos de linguagem é aplicada aos métodos que
fazem uma descrição probabilı́stica, ou estatı́stica dos processos envolvidos na
gramática.
O processo de reconhecimento envolve uma procura sobre o vocabulário, de
forma a encontrar a palavra que melhor representa a entrada. Isto significa que
num dado instante, em princı́pio, todas as palavras do vocabulário seriam candidatas admissı́veis. Ao lidarmos com grandes vocabulários esta situação tornava-se
impraticável. No entanto, sabemos que numa linguagem só existe um conjunto restrito de possibilidades de sequências de palavras admissı́veis. O objectivo da análise
sintáctica consiste em representar essas sequências.
O conjunto de palavras do vocabulário que o reconhecedor deverá avaliar em
cada instante é denominado de vocabulário activo. Em princı́pio, o vocabulário activo seriam todas as palavras do vocabulário. Com a aplicação da análise sintáctica
pretendemos restringir o vocabulário activo a um subconjunto do vocabulário total.
O número de palavras no vocabulário activo, num dado instante, é denominado de
74
Capı́tulo 2 - Reconhecimento Automático da Fala
factor de ramificação (do inglês branching factor). Ao analisarmos ao longo de
vários instantes podemos determinar um factor de ramificação médio. Este factor
é normalmente denominado de perplexidade, apesar da definição de perplexidade
poder ser mais precisa e complexa [Jelinek et al., 1992] [Rabiner e Juang, 1993].
Os principais objectivos da análise sintáctica são o de reduzir a perplexidade, aumentar a velocidade e a precisão, e melhorar a flexibilidade do vocabulário.
A redução da perplexidade é conseguida através da limitação das palavras activas
no vocabulário em cada instante e da atribuição de diferentes probabilidades às
várias palavras. Ao existirem menos palavras candidatas num determinado ponto
para serem analisadas pelo reconhecedor, como resultado da aplicação da análise
sintáctica, o tempo de procura é automaticamente reduzido, comparativamente com
a situação em que terı́amos que analisar todo o vocabulário, e a precisão aumenta,
dado que existem menos candidatos possı́veis a induzirem em erro.
Como Jelinek afirma [Jelinek et al., 1992] a redução da perplexidade, no caso
de um modelo de linguagem, sobre um corpus de teste resulta num reconhecimento
com uma taxa de erros inferior, podendo-se, portanto, usar a perplexidade como
uma medida da qualidade do modelo de linguagem.
Existem diferentes formas de gramáticas ou modelos de linguagem: as
gramáticas de estados finitos (Finite-State Grammars - FSG), as gramáticas de pares de palavras (Wordpair Grammars), gramáticas baseadas em caracterı́sticas linguı́sticas e os modelos estatı́sticos.
Nas gramáticas de estados finitos [Miller e Levinson, 1988] substitui-se a
lista das frases permitidas por uma representação genérica. A definição para
cada instante das palavras permitidas resulta, assim, numa redução da perplexidade. Contudo, a sua forma determinı́stica torna estas gramáticas rı́gidas,
já que só as palavras ou sequência de palavras definidas na gramática é que
podem ser reconhecidas. Por isso, conceitos mais abrangentes, como seja,
por exemplo, a concordância sujeito-verbo, não conseguem ser devidamente
caracterizados através destas gramáticas. Por outro lado, estas gramáticas não
75
2.4 Modelos de Markov não observáveis
conseguem ordenar as palavras pela sua probabilidade de ocorrência num determinado instante, atribuindo igual peso a todas as palavras que façam parte
do vocabulário activo nesse instante.
As gramáticas de pares de palavras [Pieraccini et al., 1991] podem ser vistas como uma variante das gramáticas de estados finitos, onde em vez de
uma representação genérica se especifica as sequências de palavras permitidas através de um conjunto de pares de palavras, ou seja, para cada palavra
do vocabulário quais são as palavras que a podem seguir.
Os modelos de linguagem estatı́sticos examinam qual a sequência de palavras mais provável de ocorrer, em vez de especificarem a sequência de palavras permitida. Este modelo já possui uma maior flexibilidade, além de
permitir acomodar certas estruturas próprias da linguagem. Estes modelos
são normalmente denominados de estatı́sticos ou estocásticos, dado que o seu
funcionamento baseia-se na predição da sequências de palavras. A sua forma
mais conhecida é o modelo N-grama onde se assume que a probabilidade da
palavra
onde
#%$ ' ) #%$ ' )
depende somente das N-1 palavras anteriores, ou seja,
representa a sequência de palavras
.
Estes modelos foram inicialmente aplicados ao reconhecimento de fala por
F. Jelinek nos anos 70 e usados com sucesso no sistema de reconhecimento TANGORA da IBM [Jelinek, 1976] [Jelinek, 1990]. Desde essa altura que
têm sido predominantes, de tal modo que, actualmente, praticamente todos os
sistemas de reconhecimento da fala contı́nua com grandes vocabulários usam
estes modelos na sua forma de digramas ou trigramas. Estes modelos de linguagem estimam as sequências de palavras e as probabilidades associadas a
essas sequências a partir de grandes quantidades de texto. Durante o reconhecimento, as sequências de palavras candidatas são ordenadas em função
da sua probabilidade de ocorrência combinada com a probabilidade de modelarem os padrões acústicos na entrada. O vocabulário activo destes modelos
76
Capı́tulo 2 - Reconhecimento Automático da Fala
pode, teoricamente, incluir todo o vocabulário, mas, na maior parte, dos casos é reduzido através do uso de limiares de probabilidade. Apesar de este
modelo se mostrar efectivo em termos de reconhecimento da fala, existe na
linguagem uma estrutura superior àquela que pode ser capturada por modelos
N-grama. Se o objectivo é simplesmente traduzir o que foi dito estes modelos funcionam bem, tornando-se no entanto insuficientes para uma análise e
compreensão da mensagem que o orador está transmitindo. Por outro lado,
este modelo permite qualquer sequência de palavras com alguma probabilidade. Isto permite ao modelo um nı́vel de robustez e flexibilidade que não se
consegue obter com um modelo mais rı́gido.
As gramáticas baseadas em caracterı́sticas linguı́sticas têm por base o desenvolvimento de sistemas que compreendam o sentido das frases em vez de
se restringirem a identificar a sequência de palavras produzida. Transformase, assim, o processo de reconhecimento da fala, orientado do ponto de vista
acústico, num processo cognitivo-linguı́stico de entendimento e compreensão
da fala. Este tipo de gramáticas ainda se encontra numa fase embrionária,
encontrando-se exclusivamente ao nı́vel da investigação [Markowitz, 1996].
– Destas gramáticas as mais divulgadas referem-se às gramáticas independentes do contexto (Context Free Grammars - CFG). Estas gramáticas
podem ser implementadas sozinhas ou fazendo parte de um modelo mais
amplo. São modelos determinı́sticos através da definição das estruturas
permitidas, como no caso das gramáticas de estados finitos. No entanto, possuem capacidade de controlar e representar uma série de relações
dentro da frase. Isto é conseguido através do uso de regras de reescrita
e representação em árvore.
– Dentro das gramáticas baseadas em caracterı́sticas linguı́sticas, encontramos, ainda, outros métodos que combinam diferentes fontes de conhecimento. Assim, esses métodos combinam análise sintáctica (através
de gramáticas independentes do contexto) com análise semântica, modelos estatı́sticos e outras fontes diferenciadas de conhecimento desde a
aplicação, à tarefa, etc.
77
2.4 Modelos de Markov não observáveis
O uso diversificado dos sistemas de reconhecimento permite a utilização de diferentes gramáticas e modelos de linguagem de acordo com a aplicação especı́fica.
Assim, encontramos as gramáticas de estados finitos aplicadas em realizações cuja
estruturação é conhecida a priori, como seja, entrada de dados e controlo de equipamentos através da fala. Estas gramáticas, através da limitação do vocabulário activo,
permitem aumentar a velocidade e a precisão do reconhecimento. Na maior parte
dos casos, estas gramáticas são construı́das pelo responsável do desenvolvimento da aplicação e adaptadas às necessidades especı́ficas da tarefa. Como referido
anteriormente, os modelos N-grama são utilizados na maior parte dos sistemas de
reconhecimento de fala contı́nua. Todavia, estes modelos necessitam de uma grande quantidade de texto para uma correcta estimação das suas probabilidades. Nas
aplicações isso é conseguido através de uma adaptação dos modelos, previamente
desenvolvidos com base num texto generalizado, ao texto produzido pelo utilizador,
ou pela organização, onde o sistema de reconhecimento se encontra em uso.
2.4.6 Descodificação
O objectivo do bloco de reconhecimento é descodificar
, que representa uma
sequência de palavras proferidas pelo utilizador, a partir da sequência
de vectores
de caracterı́sticas extraı́dos da realização acústica de
.
De uma forma simples, podemos analisar este problema através da construção
de uma estrutura em árvore em que no topo temos um nó com ramos para todas as
possı́veis palavras iniciais. Todas essas palavras têm ramos para todas as palavras
que as podem seguir e assim por diante. Obviamente, que esta árvore será enorme, directamente dependente da dimensão do vocabulário, mas se a estendermos
o suficiente, podemos representar todas as sequências possı́veis de palavras. Esta
representação permite acomodar diversas caracterı́sticas, como sejam os modelos
de linguagem N-gramas e os modelos de trifones.
De seguida cada palavra da árvore deverá ser substituı́da pela sequência dos
modelos das unidades básicas representadas na sua pronunciação. No caso de multi-
78
Capı́tulo 2 - Reconhecimento Automático da Fala
pronunciação os modelos podem ser colocados em paralelo em cada palavra. A
parte comum a alguns dos modelos pode ser associada num só modelo. O resultado
é uma estrutura em árvore, na qual os nós são os estados dos HMMs ligados pelas
transições entre estados e os nós que representam o fim da palavra têm associados
as transições entre palavras resultantes do modelo de linguagem.
Qualquer caminho, desde o nó inicial, até qualquer ponto na árvore, tem uma
probabilidade associada, que resulta do produto das probabilidades de transição
entre estados, das probabilidades de observação associadas a cada estado e das
probabilidades definidas no modelo de linguagem. Motivado por problemas de
implementação, normalmente, utilizam-se as somas dos logaritmos em vez dos produtos.
de
!
Quando se trabalha com grandes vocabulários o processo de descodificação
através da enumeração de todas as possı́veis sequências de palavras é im-
praticável. Por isso têm-se procurado desenvolver métodos de descodificação que
reduzam o espaço de procura do descodificador. Diferentes soluções têm sido apontadas tendo este tópico tido um enorme desenvolvimento nos últimos anos. Uma
das soluções passa por seguir-se as hipóteses mais prometedoras até analisarmos
todos os segmentos da fala. São os casos dos algoritmos de descodificação em
pilha (stack-decoders) [Sturtevant, 1989] [Paul, 1991] e descodificadores A* (A*decoders) [Paul, 1992]. Outra das soluções passa por analisar todas as hipóteses
em paralelo. Este método é normalmente referido como descodificação de Viterbi. Associado a este método encontramos um processo denominado de procura em
feixe (beam search) e que permite reduzir a carga computacional e necessidades
de memória do algoritmo de Viterbi. Em [Young, 1996] encontramos a descrição
genérica de um método deste tipo e de outros alternativos com bibliografia associada.
2.5 Consideraç ões finais
79
2.5 Considerações finais
Ao longo deste capı́tulo abordámos um conjunto de questões associadas ao problema do reconhecimento da fala contı́nua. Começámos por analisar os aspectos da
comunicação humana, de forma a perceber algumas das caracterı́sticas de um processo, que queremos, em parte, reproduzir de uma forma automática. Nessa análise
verificámos que o conhecimento que temos desse processo é ainda incompleto e
atinge somente aspectos periféricos.
Contudo, ao definirmos genericamente um sistema de reconhecimento da fala contı́nua, tentamos incluir um conjunto de caracterı́sticas aferidas do processo de comunicação humana, e outras que representam o nosso modelo dessa
comunicação. Enquanto, para nós, a interpretação da fala é um processo natural,
os sistemas de reconhecimento actuais dependem substancialmente do tipo da fala,
do número e caracterı́sticas dos seus utilizadores.
Deste facto, resulta a evidência da complexidade associada ao sinal da fala e,
também, da sua redundância. Como consequência, qualquer sistema de reconhecimento da fala começa por realizar uma operação de pré-processamento, com o intuito de extrair as caracterı́sticas mais importantes do sinal da fala, em simultâneo,
com uma redução da dimensionalidade do problema.
Finalmente, analisaram-se os modelos de Markov não-observáveis na sua
aplicação ao reconhecimento da fala contı́nua. Estes modelos têm sido, em grande
parte, responsáveis pela evolução verificada nos sistemas de reconhecimento. Essa
influência, resulta da forte base teórica que os suporta, e do seu elevado grau de
aplicabilidade ao problema do reconhecimento da fala.
Contudo, as redes neuronais artificiais começam a emergir como uma solução
para alguns dos problemas associados ao reconhecimento da fala. Inicialmente, de
uma forma isolada como classificadores estáticos, actualmente, como um componente alternativo ao modelamento acústico realizado pelos HMMs. É sobre este
tipo de modelos que nos dedicaremos no capı́tulo seguinte.
80
Capı́tulo 2 - Reconhecimento Automático da Fala
Capı́tulo 3
Modelos Hı́bridos para
Reconhecimento da Fala Contı́nua
Em meados da década de 80, verificou-se um enorme entusiasmo com o ressurgimento do interesse nas redes neuronais artificiais. Este interesse levou à aplicação
destas redes a diferentes áreas e a uma série diversificada de problemas. Umas das
áreas que maiores benefı́cios retirou desse entusiasmo foi a da classificação de padrões. Isto, ficou a dever-se, sobretudo, à exploração do facto das redes neuronais
artificiais apresentarem métodos de aprendizagem baseados em exemplos dos dados de classificação. Daı́ à sua aplicação ao reconhecimento da fala foi um pequeno
passo.
Relativamente ao reconhecimento da fala os primeiros desenvolvimentos foram
no sentido da aplicação de diferentes arquitecturas ao reconhecimento de palavras
isoladas [Lippmann, 1989] [Krause e Hackbarth, 1989] [Gemello e Mana, 1990],
conforme tratámos e descrevemos na nossa dissertação de Mestrado [Neto, 1991].
Nestas arquitecturas, cada palavra era apresentada em bloco na entrada. A aplicação
das redes neuronais artificiais ao problema do reconhecimento da fala ficou a deverse, principalmente, aos excelentes resultados obtidos por estas redes quando utilizadas como classificadores estáticos. Quando comparadas com outros métodos de
82
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
classificação, estas redes apresentam uma série de vantagens, como sejam, a sua
capacidade de aprendizagem que permite discriminar entre classes, a sua flexibilidade, a sua robustez e a possibilidade de implementação paralela, entre outras, que
as tornam extremamente atractivas.
Os resultados obtidos no reconhecimento de palavras isoladas sugeriam que se
tratava de uma tarefa simples, onde a informação temporal associada ao sinal de
fala não era muito relevante, sendo, porventura mais relevante a dimensão do vocabulário e as opções que daı́ resultam. Porém, no reconhecimento da fala contı́nua,
essa informação temporal já se torna extremamente importante, situação esta que
não é possı́vel modelar através de classificadores estáticos.
Os desenvolvimentos seguintes foram, por isso, no sentido de se criarem modelos que permitissem uma representação e modelamento da estrutura temporal da
fala. Criaram-se estruturas incorporando atrasos temporais, normalmente na entrada, e estruturas com ligações recorrentes através da retroacção das camadas escondidas, ou da camada de saı́da para a camada de entrada [Elman e Zipser, 1987]
[Elman, 1988]. Foram, ainda, desenvolvidas estruturas incorporando atrasos temporais nas várias camadas de uma rede multi-camada [Waibel et al., 1987]. Nesses
classificadores são aplicadas sequencialmente entradas espectrais, um segmento de
cada vez. Este tipo de estrutura é mais apropriada ao funcionamento real de um
reconhecedor, comparativamente com as redes estáticas, dado que não é necessária
uma definição precisa do inı́cio e fim das palavras para se obter um bom desempenho. Este tipo de estruturas veio permitir obter uma representação das caracterı́sticas temporais e dinâmicas locais da fala.
Outros investigadores ligados directamente ao problema do reconhecimento da
fala, e com uma cultura de utilização dos modelos de Markov não-observáveis,
modelos que dominavam na área do reconhecimento da fala, começaram a olhar
para o perceptrão multi-camada (Multi Layer Perceptron - MLP), que era o modelo das redes neuronais artificiais mais estudado, como um estimador de probabilidades [Bourlard e Wellekens, 1988]. Este modelo apresentava melhores caracterı́sticas do que o estimador gaussiano clássico, baseado em gaussianas ou em mis-
83
turas de gaussianas. Esse facto levou à sucessiva combinação do MLP com outros
métodos clássicos, que se tinham mostrado possuidores de capacidades de modelamento da estrutura temporal da fala, como seja o Alinhamento Temporal Dinâmico
(Dynamic Time Warping - DTW), Programação Dinâmica (Dynamic Programing
- DP) e, principalmente, os modelos de Markov não-observáveis (Hidden Markov
Models - HMM), dando, assim, origem a modelos hı́bridos. Além do MLP outros modelos foram sendo utilizados com realce para o uso de Redes Recorrentes
[Robinson, 1992a].
Rapidamente o sucesso dos modelos hı́bridos, nomeadamente daqueles que
combinavam o MLP com os HMMs, foi estendido ao reconhecimento da fala
contı́nua [Morgan e Bourlard, 1990]. Essa aplicação começou no inı́cio da década
de 90. No curto espaço de tempo decorrido desde então, estes modelos conseguiram impor-se numa área tão difı́cil como é a do reconhecimento da fala contı́nua,
tendo já obtido resultados francamente positivos, comparativamente aos métodos
mais clássicos, como seja os HMMs [Steeneken e Leeuwen, 1995]. O facto é, ainda, mais significativo, se tivermos em conta o tempo de maturidade dos modelos
de Markov não-observáveis, que são estudados e desenvolvidos desde meados da
década de 70, por um grande número de grupos e de investigadores.
Diferentes tipos de modelos hı́bridos têm sido apresentados ao longo destes
anos. Aqueles modelos que conseguiram vingar, em termos do reconhecimento
da fala contı́nua, utilizam as redes neuronais artificiais, simplesmente, como estimadores de probabilidades na classificação acústico-fonética. Estes modelos recorrem aos HMMs para imposição de restrições lexicais (através de dicionários
de pronunciação) e de restrições sintácticas (através de modelos de linguagem),
baseando-se, também, nos seus processos de descodificação. O modelo por nós
aqui apresentado utiliza esta configuração apresentando bons resultados em diferentes bases de dados de fala contı́nua. Todavia, verifica-se que os modelos hı́bridos,
que se conseguiram impor, diferem dos sistemas baseados nos HMMs apenas na
caracterização do modelo acústico-fonético que, apesar de ser extremamente importante, é só uma das “peças“ que compõem o reconhecedor.
84
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
Na secção 3.1 vamos começar por discutir as vantagens e inconvenientes
inerentes às redes neuronais artificiais. Na secção 3.2 apresentaremos as redes
neuronais artificiais como classificadores estáticos, seguindo-se, na secção 3.3,
a apresentação e discussão de diferentes modelos com atrasos temporais e com
ligações recorrentes. Na secção 3.4 iremos analisar diferentes sistemas hı́bridos
aplicados ao reconhecimento da fala. Terminamos com a apresentação, na secção
3.5, do sistema por nós implementado, com resultados experimentais em diferentes
bases de dados de fala contı́nua.
3.1 Vantagens e desvantagens da aplicação das redes
neuronais artificiais ao reconhecimento da fala
O aparecimento de novos métodos suscita, por norma, um enorme interesse,
o que, por consequência, leva a uma aplicação bastante diversificada. Foi, precisamente, esse o caso das redes neuronais artificiais que se viram aplicadas a uma
enorme variedade de problemas e de situações. Mesmo em termos de reconhecimento da fala a sua aplicação foi, também, bastante diversificada. Nalguns sistemas
encontramos estas redes aplicadas na fase de pré-processamento, noutros como um
método de pós-processamento ou, ainda, noutros casos, como um método de processamento alternativo a outros métodos.
As redes neuronais artificiais apresentam uma série de vantagens e de caracterı́sticas que permitiram a sua larga e diversificada aplicação. Algumas das caracterı́sticas inicialmente apontadas, e que permitiram que se depositasse uma enorme carga de esperança sobre estes modelos, foram sucessivamente desmontadas à
medida que se ganhou um maior conhecimento dos diferentes modelos e das suas
limitações. Uma das caracterı́sticas comummente apresentada referia-se ao paralelismo existente entre o funcionamento do nosso cérebro e a estrutura destes modelos. Acontece, que nem o nosso conhecimento do funcionamento do cérebro nos
permite criar, ainda, modelos suficientemente poderosos, nem os recursos computa-
3.1 Vantagens e desvantagens da aplicação das redes neuronais artificiais ao
reconhecimento da fala
85
cionais e de memória nos permitem, por enquanto, criar modelos do seu comportamento já conhecido. Alguns autores denominaram-nas mesmo de razões falaciosas
para o uso das redes neuronais artificiais [Bourlard e Morgan, 1994]. Entre elas,
encontramos as seguintes caracterı́sticas:
Réplica do funcionamento biológico do cérebro. Apesar de os modelos
biológicos terem tido uma influência em termos de inspiração para as redes neuronais artificiais, elas representam, contudo, modelos muito básicos
e simplificados do que acontece a nı́vel biológico no nosso cérebro. Por outro
lado, os algoritmos e as heurı́sticas que regem o seu funcionamento são, simplesmente, soluções de engenharia que não estão directamente ligadas com o
funcionamento do nosso cérebro ao nı́vel biológico.
Capacidade de aprendizagem, adaptação e generalização para novos dados.
Apesar destas caracterı́sticas se encontrarem presentes nestes novos modelos,
estes não vieram, no entanto, introduzir nada de significativamente novo a esse nı́vel, quando comparados com os métodos clássicos, já que estes métodos
permitem a mesma aprendizagem e o mesmo tipo de adaptação.
A não necessidade de incorporar informação a priori sobre a especificidade
da aplicação como é necessário nos métodos clássicos. Como as redes realizam uma aprendizagem baseada em exemplos não necessitam, em princı́pio,
de informação a priori sobre a aplicação, não sendo, assim, necessário confinar o espaço de busca de uma forma não óptima, ou impor um conjunto
de hipóteses sobre as distribuições estatı́sticas das caracterı́sticas de entrada,
como acontece nos métodos tradicionais. No entanto, as redes neuronais artificiais possuem um conjunto de parâmetros que precisam de ser definidos à
partida, como sejam, a sua arquitectura (número de camadas, número de unidades escondidas e estrutura de ligações) e outros relativos ao algoritmo de
treino (passo, momento, pesos iniciais). Por outro lado, quando lidamos com
problemas de elevada dimensionalidade é necessário restringi-los, e, obviamente, a melhor forma é através dos conhecimentos a priori sobre a aplicação.
86
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
Enquanto os sistemas de reconhecimento, baseados em métodos clássicos,
exigem uma escolha criteriosa das caracterı́sticas a extrair dos dados originais, as redes neuronais artificiais, em princı́pio, fazem essa selecção de uma
forma automática. O que se verifica, é que essa selecção continua a se efectuar, necessariamente, a priori e que o desempenho das redes neuronais artificiais depende, em grande parte, da escolha que se faz dessas caracterı́sticas.
Contudo, existem outras caracterı́sticas que constituem vantagens reais introduzidas pelo uso das redes neuronais artificiais. Entre elas, podemos referir as seguintes:
Aprendizagem discriminante - o critério de treino realiza a minimização do
erro relativamente à classe correcta, enquanto aumenta a distância relativamente às outras classes. Essa situação, em termos de reconhecimento da
fala, é extremamente importante, já que nos HMMs o método de treino de
Estimação de Máxima Verosimilhança (Maximum Likelihood Estimation MLE), normalmente utilizado, só maximiza a verosimilhança da classe correcta dada a entrada.
Flexibilidade - a sua arquitectura é extremamente flexı́vel, permitindo realizar diferentes situações, como sejam, contexto nas entradas, incorporação de
atrasos entre unidades, retroacção das camadas escondidas ou da camada de
saı́da.
Poder de expressão - estas redes, através dos modelos multi-camada, possuem
capacidade para aproximar transformações contı́nuas não-lineares arbitrárias
das entradas, onde o número de unidades escondidas é escolhido em função
da precisão desejada para a aproximação [Cybenko, 1989].
Implementação paralela - possuem estruturas paralelas e extremamente regulares, o que as torna adequadas a realizações em hardware especı́ficas, ou
a arquitecturas que tirem partido dessas caracterı́sticas de paralelismo e de
regularidade.
3.1 Vantagens e desvantagens da aplicação das redes neuronais artificiais ao
reconhecimento da fala
87
Robustez - os seus métodos são robustos, relativamente às variações existentes nas operações realizadas em cada unidade, e, devido às suas caracterı́sticas
de processamento distribuı́do, constituem uma realização tolerante a falhas,
daı́ resultando caracterı́sticas atractivas para realização em VLSI.
Capacidade de generalização - os padrões de entrada apresentam, normalmente, distorções nas suas componentes, resultante da sua variabilidade própria,
efeitos de ruı́do, ou ainda, do facto de representarem informação incompleta.
Ao se pretender que o modelo de associação, criado durante o treino, reproduza o padrão de saı́da correcto, apesar da distorção no padrão de entrada,
estamos a definir a capacidade de generalização da rede.
Partilha de caracterı́sticas internas e representação distribuı́da - as redes neuronais artificiais desenvolvem um conjunto de representações internas, normalmente nas suas unidades escondidas, que são partilhadas pelas unidades
de saı́da. Essa representação interna melhora a capacidade de generalização
dado que, por um lado, são necessários menos parâmetros e, por outro, cada
parâmetro é treinado com um maior número de exemplos. Esta situação contrasta com o caso dos modelos gaussianos, dado que estes são treinados por
máxima verosimilhança e, portanto, cada classe é modelada separadamente.
Em termos de desvantagens, surge uma que é comum a muitos dos métodos das
redes neuronais artificiais e que se relaciona com o tempo de treino necessário para
estes modelos. Esse aspecto, torna-se ainda mais importante devido à ineficiência
computacional dos sistemas actuais baseados em arquitecturas sequenciais. Nesse
sentido, tem sido desenvolvido algum hardware especı́fico, mas com caracterı́sticas
bastante limitadas e com um custo extremamente elevado, tanto em termos financeiros como de transporte dos sistemas para essas plataformas. Por outro lado, tem-se
procurado através de modificações aos algoritmos acelerar a convergência dos mesmos, como seja, através do método estocástico, passos adaptativos, normalização
das entradas, paragem antecipada do treino através de critérios de validação cruzada e inicialização apropriada dos pesos.
88
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
Outra das desvantagens apontadas, e extremamente importante em termos do
reconhecimento da fala contı́nua, resulta da ineficiência, ou mesmo incapacidade,
dos modelos para capturar a estrutura temporal dos dados de entrada. Apesar do desenvolvimento de diferentes arquitecturas, incorporando atrasos ou mesmo ligações
recorrentes entre unidades ou camadas, com o intuito de permitir a representação da
estrutura temporal, estas têm-se mostrado ineficientes para capturar dependências
de longo termo, como é, por exemplo, necessário no caso do reconhecimento da fala contı́nua. Essa situação tem levado à combinação das redes neuronais artificiais
com outros métodos, cuja capacidade de modelamento da estrutura temporal seja
mais efectiva. É esse o caso dos HMMs, dando, assim, forma aos modelos hı́bridos
que aqui apresentaremos.
3.2 Redes neuronais artificiais como classificadores
estáticos
O enorme sucesso suscitado pelo aparecimento das redes neuronais artificiais
resultou, no essencial, das suas capacidades para, através de uma aprendizagem,
criar associações entre padrões a partir de exemplos de pares entrada e saı́da desejada. Nesta situação o padrão que se pretendia classificar encontrava-se na entrada e a
rede aprendia a gerar como saı́da, resposta da rede ao padrão de entrada, um padrão
de acordo com a saı́da desejada, associada ao padrão de entrada.
Neste modo de classificação estática a entrada da rede era preenchida pela totalidade do padrão de entrada. Para existir uma correcta associação entre os padrões
de entrada e os padrões de saı́da, a rede deverá modelar a relação entre esses conjuntos de padrões, realizando, assim, um mapeamento entrada-saı́da. Este mapeamento
é estimado ou aprendido pela rede a partir de uma amostra, que se espera representativa, dos pares de padrões de entrada e de saı́da.
Vários modelos de redes neuronais artificiais têm sido desenvolvidos, mas tem
sido, sobretudo, o perceptrão multi-camda (Multilayer Perceptron - MLP) que tem
89
3.2 Redes neuronais artificiais como classificadores estáticos
marcado este desenvolvimento. É o modelo de redes neuronais artificiais mais conhecido, devido à sua simplicidade, e mais utilizado, com inúmeras aplicações desde o reconhecimento de padrões, reconhecimento da fala, até ao sistema financeiro.
É sobre ele que nos vamos dedicar de seguida.
3.2.1 Perceptrão multi-camada
O elemento básico do perceptrão multi-camada é a unidade cujo comportamento resulta, em certa medida, do paralelismo com a célula ou neurónio no modelo
biológico do nosso cérebro. A sua função é semelhante à da célula, que integra os
estı́mulos de entrada provenientes de outras células e comunica através da sua saı́da,
para outras células, o sinal resultante. As ligações entre as unidades têm associado um peso, que resulta do facto de as células responderem mais activamente aos
estı́mulos provenientes de algumas células de entrada, em detrimento de outras. Na
Figura 3.1 apresenta-se o modelo da unidade básica do MLP.
qi
x1
x2 wi1
wi2
...
+
yi
Si
xN wiN
Figura 3.1: Modelo da unidade básica do perceptrão multi-camada.
Formalizando, a actividade de uma unidade é definida como uma função da
$ & )
actividade das outras unidades e de um conjunto de parâmetros próprios
onde
representa as entradas resultantes de outras
unidades,
90
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
e o termo de polarização ou limiar.
cujas ligações são caracterizadas pelo conjunto de pesos
,
$ ) pode ser decomposta
e a função de activação .
A actividade da unidade , caracterizada por
em duas partes: uma quantidade
A quantidade
é um escalar resultante da acumulação na entrada das activida-
des das outras unidades, escaladas pelos pesos das ligações respectivas, ou seja,
O termo de polarização
pode ser visto como o peso de uma unidade cuja activi-
dade é sempre , permitindo que seja incorporado directamente no somatório,
onde
e
.
A função de activação
(3.1)
$ & ) $)
pode, assim, ser escrita como
Esta função de activação, que é uma função não linear, pode ser qualquer função
diferenciável. Normalmente usa-se uma função do tipo sigmóide, sendo as mais
usadas as duas expressões seguintes:
$ )
$ )
$)
(3.2)
(3.3)
A definição da função de activação a aplicar obedece, normalmente, a duas
restrições: diferenciabilidade e não-linearidade. As funções de activação, geralmente seleccionadas, são as diferenciáveis, dado que facilitam a manipulação analı́tica
dos mapeamentos produzidos pelas redes neuronais artificiais. Por outro lado, as
3.2 Redes neuronais artificiais como classificadores estáticos
91
redes construı́das a partir de unidades com funções de activação não-lineares são
capazes de realizar mapeamentos mais complexos, em relação à situação, na qual
as funções de activação sejam lineares.
O perceptrão multi-camada tem uma arquitectura baseada em camadas de unidades. As ligações realizam-se entre as camadas formando diferentes tipos de estruturas. Podemos dividir estas estruturas em dois tipos: estruturas acı́clicas (feedforward), onde as ligações se efectuam entre as unidades de uma camada e as
unidades das camadas seguintes (normalmente a seguinte) de modo a não se formarem ciclos, e estruturas recorrentes (recurrent), onde existem ligações em ciclos
entre as unidades.
O modelo tı́pico do MLP com uma estrutura acı́clica é baseado em três tipos de
camadas:
Camada de entrada - unidades lineares que copiam os componentes do padrão
de entrada para a sua saı́da sem alterarem o seu valor.
Camada escondida ou intermédia - unidades não-lineares internas à rede.
Camada de saı́da - unidades não-lineares ou lineares, dependendo da operação
a realizar pela rede, onde é gerado o padrão de saı́da, associado ao padrão de
entrada.
É através dos pesos das ligações entre as unidades que se exprime a relação
entrada-saı́da desejada. O valor dos pesos das ligações resulta do processo de treino. O treino nos MLPs com ligações acı́clicas, que será o modelo por nós utilizado,
é baseado na regra de aprendizagem da retropropagação do erro (backpropagation).
Esta regra só ficou definitivamente conhecida com o trabalho de Rumelhart, Hinton
e Williams [Rumelhart et al., 1986], apesar de já, em trabalhos anteriores, ter sido
apresentada [Werbos, 1974] [Parker, 1985] [Cun, 1985]. Além das referências anteriores, e de entre um conjunto elevado de artigos e livros produzidos sobre esta regra
de aprendizagem, remetemos para um artigo recente de Almeida [Almeida, 1996]
92
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
onde são apresentados e discutidos diferentes aspectos da realização deste algoritmo e das modificações necessárias ao algoritmo quando consideramos redes com
ligações recorrentes. Para uma discussão de alguns aspectos relacionados com o
reconhecimento da fala remetemos para [Morgan e Scofield, 1991].
No algoritmo de retropropagação do erro considera-se um conjunto de treino
composto por pares de padrões de entrada e de padrões de saı́da desejados. Antes do treino é necessário definir a estrutura da rede, através do número de camadas, número de unidades em cada camada, ligações entre as unidades e função de
activação, sendo, também, necessário definir um conjunto de parâmetros e critérios
próprios do algoritmo de treino. Neles se incluem os pesos iniciais da rede, que são
normalmente gerados aleatoriamente com uma distribuição uniforme num intervalo
pequeno e simétrico, o passo de aprendizagem do algoritmo, escolhido em função
do problema, e o critério de paragem do treino. A aprendizagem realiza-se através
da modificação dos pesos da rede a partir do gradiente do erro entre a saı́da, produzida como resposta ao padrão de entrada, e a saı́da desejada [Rumelhart et al., 1986].
Um dos problemas do algoritmo de retropropagação do erro é o facto de o seu
treino ser bastante lento. Nesse sentido tem-se procurado desenvolver alterações
ao algoritmo básico de forma a que seja possı́vel acelerar o seu treino. Vão nesse sentido a técnica de momento proposta em [Rumelhart et al., 1986], os passos adaptativos propostos em [Silva e Almeida, 1990a] [Silva e Almeida, 1990b]
[Silva e Almeida, 1991] e outras técnicas de aceleração, e a aplicação de uma
técnica de controlo do erro. Remete-se novamente para [Almeida, 1996] para uma
discussão de algumas destas técnicas.
3.2.2 Outros modelos
A década de 80 foi fértil no desenvolvimento de outros modelos de redes
neuronais artificiais.
Entre esses modelos, é de referir as redes de Hopfield
[Hopfield, 1982], as máquinas de Boltzmann [Hinton et al., 1984], os mapas topológicos [Kohonen, 1982], aprendizagem competitiva [Rumelhart e Zipser, 1985],
93
3.2 Redes neuronais artificiais como classificadores estáticos
funções de
base radial
[Moody e Darken, 1988],
entre
outros.
Em
[Rumelhart e McClelland, 1986] encontramos uma revisão de algumas destas
técnicas. O algoritmo de retropropagação do erro, conforme inicialmente foi
definido, só permitia ligações acı́clicas, apesar de em [Rumelhart et al., 1986] ter
sido proposto um método para lidar com redes que possuı́am outro tipo de ligações.
Foram, no entanto, Almeida [Almeida, 1987] e Pineda [Pineda, 1987] quem, em
trabalhos independentes, introduziram um método de aprendizagem, baseado,
também, na retropropagação do erro, para redes com ligações recorrentes.
3.2.3 Diferentes modos de treino e de aprendizagem nas redes
neuronais artificiais
A aprendizagem nas redes neuronais artificiais ocorre através da modificação
dos pesos associados às ligações entre unidades. A forma como essa aprendizagem
se realiza depende das condições e caracterı́sticas do problema.
Na aprendizagem supervisionada associado ao padrão de treino, que é apresentado à entrada da rede, existe um padrão de saı́da desejado, que resulta de uma
etiqueta (label) representando a classe respectiva do padrão de treino. A saı́da da
rede, resultante da actividade correspondente ao padrão de treino, é avaliada através
da função de custo respectiva, que depende do algoritmo de treino, relativamente ao
padrão de saı́da desejado. Se a saı́da produzida pela rede não está de acordo com a
saı́da desejada, através da definição imposta pela função de custo, a rede é corrigida,
através da modificação dos pesos, de forma a reduzir a diferença entre os padrões
de saı́da e desejado. Neste tipo de aprendizagem é indispensável a definição das
classes associadas aos padrões de entrada, que são representadas por um conjunto
de etiquetas (labels) a partir das quais se gera a representação da saı́da desejada.
A estrutura da rede, que resulta de uma aprendizagem supervisionada, reflecte as
classificações atribuı́das aos padrões de treino e as distribuições subjacentes a esses
mesmos padrões e que são modeladas pela rede.
Existem, ainda, problemas para os quais as etiquetas das classes associadas aos
94
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
padrões podem não estar disponı́veis. Nesses casos, a rede deverá inferir um conjunto de etiquetas para os dados de treino directamente da sua distribuição. As
redes treinadas deste modo, designado por aprendizagem n ão-supervisionada,
reflectem exclusivamente a distribuição dos dados de treino, não sendo, portanto,
afectadas pela atribuição das etiquetas [Morgan e Scofield, 1991].
Na maior parte dos problemas o conjunto de treino tem uma dimensão finita e
encontra-se disponı́vel na sua totalidade. O treino realiza-se através da execução de
várias iterações ou épocas, definidas como um varrimento sobre todo o conjunto de
treino. No caso do treino determinı́stico, também conhecido como batch ou offline, a actualização dos pesos é efectuada ao fim de cada época. No entanto, existem
problemas em que o conjunto de treino tem uma dimensão elevada, como é o caso
do reconhecimento da fala, e a realização de uma época pode ser muito extensa,
tornando a aprendizagem muito lenta. Para essa situação existe um método de treino alternativo, denominado treino estoc ástico, também conhecido como treino em
tempo real ou on-line, onde a actualização dos pesos se efectua após a apresentação
de cada padrão de treino. Normalmente, no treino estocástico a sequência dos padrões de treino a apresentar à rede é escolhida aleatoriamente do conjunto de treino,
forma esta que permite, também, diminuir o tempo de convergência do algoritmo.
3.3 Redes com atrasos temporais e com ligações recorrentes
Dos diferentes modelos de redes neuronais artificiais foi, sem dúvida, o perceptrão multi-camada aquele que obteve maior sucesso, dada a diversidade de problemas em que foi aplicado e os resultados alcançados. Em termos de reconhecimento
da fala diferentes estruturas foram desenvolvidas com base neste modelo, normalmente, numa situação de classificação estática, através da associação entrada/saı́da
de pares estáticos, aplicadas em tarefas de reconhecimento de palavras isoladas para
um vocabulário limitado.
3.3 Redes com atrasos temporais e com ligações recorrentes
95
Na nossa dissertação de mestrado [Neto, 1991] estudámos e desenvolvemos diferentes estruturas de MLP aplicadas ao reconhecimento de palavras isoladas. Essas
estruturas eram caracterizadas por uma situação de classificação estática, onde a palavra a classificar, representada através do conjunto de caracterı́sticas resultantes da
análise sobre as amostras do sinal da fala correspondente à palavra, era apresentada
em bloco na entrada do MLP. Nessa situação de classificação estática o desempenho
das diferentes estruturas dependia da correcta definição do inı́cio e fim das palavras,
portanto da segmentação realizada sobre o sinal de fala, além de que, num modo de
funcionamento em tempo real, essa situação implicava um atraso no reconhecimento.
Numa situação de reconhecimento de palavras isoladas a informação temporal,
própria do sinal de fala, não é tão relevante como uma correcta segmentação do
sinal. Quando evoluı́mos para o reconhecimento da fala contı́nua, e onde a correcta
segmentação do sinal passa a ser, também, um dos nossos objectivos, a situação
de reconhecimento estático perde a sua aplicabilidade. No reconhecimento da fala contı́nua, como referido anteriormente, já não é possı́vel modelar directamente as palavras, dado que a dimensão do vocabulário aumentou substancialmente,
passando-se a usar entidades sub-palavra, como sejam os fonemas. Por outro lado,
já não é possı́vel apresentar o sinal todo em simultâneo. O sinal é apresentado à
rede em segmentos, uma trama de cada vez, e de uma forma sequencial.
Evoluı́mos de uma situação onde a entrada da rede era toda a palavra (representada através de vectores de caracterı́sticas espectrais), e onde a informação temporal
era, relativamente, irrelevante, para uma situação onde é apresentada sequencialmente, na entrada da rede, uma trama de caracterı́sticas espectrais de cada vez,
sendo agora necessário lidar com a natureza dinâmica da fala.
Um dos problemas do MLP resulta da sua incapacidade em lidar apropriadamente com as caracterı́sticas dinâmicas da fala, tarefa esta que é realizada com sucesso nos HMMs. De modo a poder capturar essa natureza dinâmica, a rede deverá
poder representar relações temporais entre os acontecimentos acústicos, providenciando ao mesmo tempo invariância no tempo. Esse problema tem sido alvo de
96
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
estudo e nesse sentido tem-se assistido ao desenvolvimento de diferentes estruturas
e métodos. As diferentes estruturas apresentadas procuram ultrapassar o problema
através da incorporação de pequenos atrasos, integração temporal, ou então, através
de ligações recorrentes.
Um dos primeiros passos foi a modificação do MLP de forma a que na sua
entrada estivessem presentes, em simultâneo, várias tramas adjacentes de caracterı́sticas espectrais, como alternativa a uma única trama no modelo standard. Neste
caso o MLP passa a ter como entrada uma estrutura de linha com atrasos, que pode
ser vista como uma estrutura de um filtro FIR, em que é guardada uma quantidade
finita de contexto acústico recente. Em [Vries e Principe, 1992] usou-se um modelo
convultivo para generalizar a linha de atraso usando filtros gama, um caso especial
de filtros IIR, para modelar a dependência temporal da entrada.
Um dos modelos que obteve sucesso no reconhecimento da fala, com incidência
no reconhecimento de fonemas, foi o perceptrão multi-camada com incorporação de
atrasos temporais (Time Delay Neural Network - TDNN) inicialmente descrito em
[Waibel et al., 1987] [Waibel et al., 1988] e que tem seguido o seu caminho evolutivo ao longo destes anos. A incorporação de atrasos temporais nas várias camadas
de uma rede multi-camada, possibilita que a rede, numa situação de reconhecimento fonético, além de modelar as caracterı́sticas acústico-fonéticas, modele, também,
as relações temporais entre elas, independentemente do instante em que ocorreram.
Esta independência torna o sistema robusto a deslocamentos temporais na entrada,
não necessitando, por isso, de uma segmentação precisa dos vectores de entrada. O
modelo TDNN representa, com sucesso, as relações temporais de curta duração, não
tendo, no entanto, capacidade para modelar as relações temporais de longa duração
que são necessárias no reconhecimento de fala contı́nua.
Em [Lawrence et al., 1996] apresenta-se uma estrutura denominada Gamma
MLP, onde se modifica um MLP standard através da inclusão de filtros gama em
todas as camadas. Os autores reclamam que esta técnica é superior ao MLP e ao
TDNN dado que a operação de filtragem gama permite a consideração de dados
de entrada usando diferentes resoluções no tempo e pode acomodar mais história
3.3 Redes com atrasos temporais e com ligações recorrentes
97
passada do sinal que só poderá ser acomodada para uma estrutura FIR ou TDNN
aumentando a dimensionalidade do modelo. Por outro lado, a natureza passa-baixo
dos filtros gama pode criar uma função de aproximação mais suave, e, portanto,
uma superfı́cie de erro mais suave para um algoritmo baseado no gradiente.
Diferentes modelos incorporando ligações recorrentes têm sido apresentados
ao longo destes anos. Normalmente, derivam de redes acı́clicas (feedforward) onde se adicionaram ligações recorrentes e onde o seu algoritmo de treino resulta de
modificações efectuadas sobre o algoritmo de retropropagação do erro. Estas redes
permitem, pelo menos do ponto de vista teórico, modelar dinâmicas de complexidade arbitrária, sendo essa situação actualmente limitada pela indisponibilidade de
algoritmos de treino suficientemente poderosos para aprenderem dependências de
longo termo [Renals et al., 1994]. Estas redes não têm sido usadas tão frequentemente no reconhecimento da fala, relativamente às redes acı́clicas, dado o seu maior
grau de dificuldade ao nı́vel do treino e convergência.
Um dos trabalhos iniciais com redes recorrentes explorou o uso das máquinas
de Boltzmann [Prager et al., 1986]. Isto ficou a dever-se ao facto de, na altura,
as máquinas de Boltzmann serem a única técnica conhecida que podia ser usada
para treinar redes com ligações recorrentes [Lippmann, 1989]. Foram obtidos bons
desempenhos para pequenos problemas mas onde era necessário perı́odos de treino
extremamente longos. Outra arquitectura que marcou o desenvolvimento deste tipo
de redes foi proposta em [Elman, 1988] onde as ligações recorrentes se efectuavam
das unidades da camada escondida para as unidades de entrada, representando essas
entradas adicionais o estado da rede no instante anterior. Redes onde as unidades de
entrada e de saı́da possuı́am ligações recorrentes para si próprias foram apresentadas
em [Watrous e Shastri, 1987].
No entanto, estes novos modelos eram aplicados a tarefas particulares do reconhecimento da fala, como seja, por exemplo, a discriminação entre um conjunto
limitado de fonemas. Apesar de se tratar de tarefas extremamente difı́ceis, e de,
normalmente, estes modelos terem um desempenho superior aos modelos clássicos
baseados em HMMs, a sua incorporação num sistema de reconhecimento de fala
98
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
contı́nua mostrou-se difı́cil, apesar de nalguns casos, nem sequer tenha sido tentada. Isto fica a dever-se, sobretudo, ao facto de o reconhecimento da fala contı́nua
ser um problema difı́cil por si próprio, sendo necessário um grande esforço ao nı́vel
de mão de obra e de recursos computacionais para realizar e manter um sistema de
reconhecimento.
Apesar de todos os progressos alcançados não se conseguiu, ainda, desenvolver
um método adequado para lidar explicitamente com a estrutura sequencial da fala,
como é necessário, pelo menos, para o reconhecimento da fala contı́nua. Como
alternativa, procurou-se usar as caracterı́sticas favoráveis introduzidas pelas redes
neuronais artificiais de forma a que substituindo algumas das partes ou fases de um
sistema de reconhecimento clássico, como os HMMs, pela utilização destas redes
se obtivesse um desempenho final superior.
3.4 Sistemas hı́bridos para reconhecimento da fala
Os HMMs apresentam capacidades de modelamento da estrutura temporal da
fala, capacidades estas que têm sido aplicadas com sucesso no reconhecimento da
fala. Contudo, estes modelos baseiam-se num forte conjunto de hipóteses acerca do
sinal da fala e na forma da sua função de densidade de observação. Por sua vez,
é na classificação de padrões que as redes neuronais artificiais apresentam as suas
melhores caracterı́sticas devido, principalmente, a um treino discriminante entre
classes.
Assim, têm surgido vários autores propondo diferentes estruturas que procuram
uma integração dos modelos de redes neuronais artificiais e dos HMMs, através da
conjugação das caracterı́sticas positivas de ambos os modelos. Na grande maioria
dos reconhecedores ou classificadores de padrões, ou mesmo na forma como nós
actuamos no reconhecimento de um dado objecto ou padrão, utiliza-se um conjunto
heterogéneo de modelos e métodos. A aplicação de diferentes modelos e métodos
possibilita, por um lado, a utilização de diferentes tipos de caracterı́sticas de entrada
3.4 Sistemas hı́bridos para reconhecimento da fala
99
e, por outro, o tratamento particular de diferentes fases do problema que se pretende
resolver. Esta situação generalizada de modularidade permite que se estude o comportamento de um dado módulo e que através da aplicação de uma nova técnica, ou
de uma antiga que nunca tenha sido aplicada à tarefa, se optimize a sua função com
claros benefı́cios para o sistema global [Bengio et al., 1990].
Nesta secção apresentaremos um conjunto de modelos onde se pretende ilustrar esta integração. Começaremos pela interpretação do modelamento da estrutura
temporal da fala realizado pelos HMMs através de um estrutura de redes neuronais
recorrentes. Segue-se um modelo em que as redes neuronais artificiais são usadas
como pré-processadores para os HMMs, e onde no treino se realiza um método de
optimização conjunta das redes neuronais artificiais e dos HMMs. Analisaremos
o MLP como estimador de probabilidade de forma a permitir obter directamente
as probabilidades de observação dos HMMs, dando, assim, origem a um modelo
hı́brido baseado na integração das redes neuronais artificiais nos HMMs.
3.4.1 Interpretação do HMM como uma rede neuronal artificial
Nos HMMs encontramos dois métodos de reconhecimento alternativos que
realizam a parte do modelamento temporal da fala. A sua operação consiste na
descodificação, a partir das probabilidades de observação geradas pelo modelo
acústico-fonético e de acordo com um determinado conjunto de restrições lexicais e
sintácticas, da sequência de palavras correspondente à sequência acústica produzida
na entrada. Um dos métodos denominado Programação Dinâmica, ou algoritmo de
Viterbi, calcula a verosimilhança do modelo a partir da sequência de estados mais
provável, enquanto o outro, denominado recorrência Alfa (ou forward), derivado do
algoritmo de Baum-Welch, calcula a verosimilhança a partir de todas as sequências
alternativas de estados, e não só da mais provável.
À partida, e pelo menos do ponto de vista teórico, o método Alfa é o mais apropriado dado que a escolha do modelo com maior verosimilhança resulta da soma de
todas as possı́veis sequências de estados, enquanto no algoritmo de Viterbi realiza-
100
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
se em cada estado uma decisão local, baseada na sequência de estados mais provável
até ao estado actual. No entanto, o algoritmo de Viterbi resulta num esforço computacional muito mais reduzido, obtendo, praticamente, os mesmos nı́veis de desempenho do método Alfa, sendo, por isso, normalmente utilizado.
Em [Bridle, 1990] são apresentados os cálculos associados ao método Alfa para a discriminação de palavras nos HMMs, como resultado da operação de uma
estrutura de rede recorrente, denominada alpha-net, e onde os parâmetros da rede são os parâmetros dos HMMs. A aprendizagem dos parâmetros da rede é
realizada através do método backpropagation-through-time e onde é explorada a
relação da retropropagação das derivadas parciais através desta rede (e, portanto,
retropropagação no tempo) com a recorrência Beta (ou backward) do método de
treino Baum-Welch para os HMMs, dado que os cálculos envolvidos são os mesmos. Nesta estrutura a modelação acústico-fonética, que gera as probabilidades de
observação, não é abordada, sendo, portanto, realizada através dos métodos standard dos HMMs.
Em [Lippmann e Gold, 1987] é apresentada uma arquitectura de redes neuronais artificiais para implementar a descodificação de Viterbi, usada na grande maioria dos reconhecedores HMM com observações contı́nuas, usando técnicas de VLSI
analógicas.
No entanto, em [Bridle, 1990] afirma-se que os métodos baseados em derivadas
não deverão ser tão eficientes como o método de reestimação de parâmetros BaumWelch, sendo a técnica baseada nas redes neuronais artificiais mais apropriada para
o refinamento final depois de a estrutura da rede, através dos seus parâmetros, ter
sido estabelecida por outros métodos.
3.4 Sistemas hı́bridos para reconhecimento da fala
101
3.4.2 Método de optimização conjunta dos parâmetros das redes
neuronais artificiais e dos HMMs
O método, proposto em [Bengio et al., 1990] [Bengio et al., 1992], apresenta
as redes neuronais artificiais numa situação de pré-processamento para os HMMs,
transformando a sequência de amostras da fala num conjunto de caracterı́sticas
apropriadas e de dimensão mais reduzida. Neste método os HMMs têm uma estrutura e algoritmos de treino standard. Assim, a rede ao actuar como pré-processador,
aproveitando as suas capacidades para criar associações entre padrões, gera nas suas
saı́das um conjunto de novas caracterı́sticas, cujo objectivo é permitir um melhor
modelamento por parte dos HMMs, treinados, necessariamente, com um conjunto
limitado de amostras dos dados.
Neste método o gradiente do critério de optimização relativo às observações é
calculado no HMM (o HMM pode ser treinado segundo os métodos em que se utilize o gradiente do critério de optimização). Este gradiente é enviado para a rede ou
redes, substituindo a habitual diferença entre a saı́da da rede e a saı́da desejada, sendo a partir daı́ utilizado na actualização dos pesos associados às diferentes ligações
da rede. Nenhuma hipótese ou restrição necessita de ser imposta sobre as saı́das da
rede, excepto que a distribuição das saı́das deverá ser modelada por uma mistura de
gaussianas multivariáveis.
Como o treino do HMM é, normalmente, mais rápido que o treino das redes,
é importante a inicialização das redes de modo a que o treino global se inicie com
valores dos parâmetros que sejam próximos daqueles obtidos depois do treino.
Neste método as redes neuronais artificiais realizam, especificamente, dois tipos de pré-processamento: cálculo das componentes principais dos dados de entrada e o cálculo dos discriminantes lineares. Em ambos os casos é razoável modelar as distribuições das saı́das da rede através de misturas de gaussianas com
uma matriz de covariância diagonal, o que reduz, consideravelmente, o número
de parâmetros do HMM. A vantagem do uso das redes neuronais artificiais sobre
uma transformação linear fixa, que calcule as componentes principais ou os dis-
102
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
criminantes lineares, é de que a função calculada pela rede pode evoluir para uma
transformação não-linear. Por outro lado esta transformação é optimizada de forma
a minimizar um critério definido ao nı́vel da palavra ou frase.
A situação de pré-processamento pode ser generalizada, e em vez de uma só
rede podemos ter várias redes interligadas através de uma estrutura hierárquica e
onde o conhecimento das caracterı́sticas da fala pode ser usado no desenho das
entradas, das saı́das e da arquitectura de cada uma das redes [Bengio et al., 1991].
O funcionamento deste método pode ser sistematizado nos seguintes passos:
As redes neuronais artificiais são treinadas individualmente para reconhecerem caracterı́sticas fonéticas relevantes como seja o lugar e a forma de
articulação.
As saı́das destas redes são comprimidas por uma análise das componentes
principais, de forma a gerar um vector de observações mais reduzido para o
HMM.
É realizada uma primeira iteração de estimação dos parâmetros iniciais do
HMM mantendo os parâmetros da rede, ou redes, fixos.
Um passo de optimização conjunta é aplicado de forma a, simultaneamente,
ajustar os parâmetros do HMM e das redes.
Numa tarefa de reconhecimento da fala, em que o número de parâmetros a estimar é muito elevado, é importante reduzir a dimensionalidade do problema através
de um conjunto de funções apropriadas e que são derivadas do conhecimento a
priori sobre a tarefa. Por outro lado, esta situação de modularidade permite que erros de reconhecimento sistemáticos, ou dificuldades especı́ficas do sistema, sejam
colmatadas através da adição de novas estruturas com caracterı́sticas que ajudem a
solucionar os problemas. Este método introduz, ainda, outra caracterı́stica importante, que resulta do seu método de optimização global dos parâmetros dos seus
vários componentes.
3.4 Sistemas hı́bridos para reconhecimento da fala
103
3.4.3 Estimação de probabilidades através das redes neuronais
artificiais
Apesar das excelentes capacidades demonstradas pelas redes neuronais artificiais verificou-se que era difı́cil definir uma estrutura única que fosse capaz de
resolver todos os problemas próprios do reconhecimento da fala. Onde as redes
neuronais artificiais apresentavam dificuldades, no modelamento da dinâmica temporal da fala, os HMMs apresentavam um formalismo suficientemente geral para
esse mesmo modelamento. Em oposição, onde os HMMs necessitavam de um forte conjunto de imposições e de restrições, no modelamento acústico-fonético, as
redes neuronais artificiais faziam valer as suas capacidades como classificadores.
Desta complementaridade de caracterı́sticas surgiu a necessidade da integração de
ambos os modelos, de forma a se poder extrair de cada um as suas caracterı́sticas
potenciais. No entanto, para que essa integração tivesse sucesso foi necessário determinar uma linguagem comum a ambas as metodologias. Nesse sentido os passos
foram dados de forma a se definir uma descrição probabilı́stica das redes neuronais
artificiais, através da compreensão do tipo de valores que as redes neuronais artificiais estimavam e de que forma esses valores se relacionavam com os parâmetros e
métodos próprios dos HMMs.
Essa análise foi realizada inicialmente para o MLP, onde se determinou que os
valores das suas saı́das, quando treinado para realizar classificação do tipo “1-emM“, são boas estimativas da probabilidade a posteriori das classes de saı́da condicionadas ao padrão de entrada. Este resultado foi apresentado por Bourlard e
Wellekens [Bourlard e Wellekens, 1988] [Bourlard e Wellekens, 1990] e expandido
por Gish [Gish, 1990], Hampshire e Pearlmutter [Hampshire e Pearlmutter, 1990]
e Richard e Lippmann [Richard e Lippmann, 1991].
Resultado idêntico foi
alcançado para as redes recorrentes [Santini e Bimbo, 1995]. Vamos ilustrar esta
descrição probabilı́stica das saı́das do MLP através da demonstração apresentada
em [Richard e Lippmann, 1991].
104
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
$ ) Consideremos o problema de atribuir o vector de caracterı́sticas de entrada
, em que
vector de entrada, a uma das
representa o número de caracterı́sticas do
classes
correspondente a ,
as saı́das da rede e
. Seja
a classe
as saı́das desejadas associadas a todas as unidades de saı́da. O número de unidades
de saı́da é igual ao número de classes.
As saı́das da rede são uma função da entrada , enquanto, as saı́das desejadas
são uma função da classe
“1-em-M“ define-se
à qual
se
pertence. Para o problema da classificação de
, dado que
pertence à classe
,e
nos
outros casos.
Utilizando como critério de optimização o erro quadrático, os parâmetros da
rede são escolhidos de forma a minimizar
onde
$ ) representa o valor esperado.
Considerando que a variável
é contı́nua e tendo em conta a definição de valor
$ ) $ ) $ )
$ ) $ ' ) $ )
$ $ ) ) $ ' ) $ ) $ ) $ )
$ $ ) ) $ ' ) $ ) esperado, obtemos
onde representa a probabilidade conjunta da entrada
Substituindo na equação anterior "! Como #
resulta
resulta
e da classe .
105
3.4 Sistemas hı́bridos para reconhecimento da fala
$ $ ) ) $ ' ) $ ) $ ' ) $ ) $ ' )
$ ) $ ' ) $ ) $
$ )
$ ) $ ) ' ' ' Dado que
é só uma função de ,
onde
"
e
é uma função de
da equação anterior resulta
$ ' )
' ) $ ' ) $ ' ) ' e
! ,
são os valores esperados condicionados de
e de
,
respectivamente.
' $ ) $ ) ' ' ' ' $ ) ' ' ' '
'
' Fazendo uma manipulação algébrica através da soma e da subtracção do termo
! na equação anterior, resulta
"
onde Na equação anterior de
logo a minimização de
é a variância condicional de e definida através de
o segundo termo é independente das saı́das da rede,
, ou seja, da função de custo de erro quadrático, obtém-
$ )
se através da escolha dos parâmetros da rede que minimizam o primeiro termo. O
primeiro termo é o erro quadrático médio entre as saı́das da rede
e o valor
esperado condicionado das saı́das desejadas. Assim, ao escolher os parâmetros da
rede de forma a minimizar a função de custo do erro quadrático, as saı́das estimam
o valor esperado condicionado das saı́das desejadas de forma a minimizar o erro
quadrático médio de estimação.
106
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
Para o problema de classificação de “1-em-M“,
à classe
e
se a entrada
pertence
nos outros casos. Sendo, assim, o valor esperado condicionado
é dado por
' $ ' ) $ ' )
"
$ ) $ ' ) Substituindo na equação de
obtém-se
' Assim, para um problema de classificação “1-em-M“ quando os parâmetros
da rede são escolhidos de forma a minimizar o erro quadrático, as saı́das estimam as probabilidades de Bayes, de forma a minimizar o erro quadrático médio
de estimação.
Na demonstração anterior considerou-se o MLP treinado para associar um vector de entrada ao vector de saı́da desejado. No caso da classificação “1-em-M“ a
rede possui
saı́das, com cada saı́da associada a uma das
classes. O vector de
saı́da desejado contém a saı́da correspondente à classe correcta a um e zero para todas as outras saı́das correspondentes às outras classes. Observou-se que os valores
das saı́das do MLP, quando treinado para realizar classificação do tipo “1-em-M“,
#%$ ' )
são boas estimativas da probabilidade a posteriori das classes condicionadas ao padrão de entrada,
.
Este resultado verifica-se para o treino com várias funções de erro.
Na demonstração anterior utilizámos o erro quadrático médio, mas o mesmo resultado seria alcançado com um critério baseado na entropia relativa
[Richard e Lippmann, 1991].
As unidades de saı́da deverão ser condicionadas a valores não-negativos, menores que um e a sua soma, ao longo das classes, deverá ser um. A sigmóide,
usada, normalmente, como não linearidade nas unidades do MLP, garante as duas
107
3.4 Sistemas hı́bridos para reconhecimento da fala
primeiras condições, mas não a terceira. No entanto, testes experimentais mostraram que o valor do somatório das saı́das se encontra muito próximo de um,
para vectores de teste de uma região que tenha muitas amostras no conjunto
de treino [Renals et al., 1994]. Como alternativa pode usar-se a função softmax
[Bridle, 1989a] que normaliza as saı́das de forma a que a sua soma seja um. A
aplicação da função softmax dá-se, exclusivamente, nas unidades de saı́da.
A demonstração anterior parte do pressuposto que o MLP foi treinado num problema de classificação “1-em-M“ e que um mı́nimo global da função de erro foi obtido. No entanto, na prática verifica-se que este mı́nimo nunca é obtido, nem mesmo
um mı́nimo local, dado que se usa, normalmente, uma técnica de validação cruzada com o intuito de parar o processo de treino antes que a rede se especialize nos
dados de treino, que representam uma amostra limitada dos dados globais. Deve-se
salientar que não pretendemos calcular a probabilidade para o conjunto de treino,
mas sim estimar essa probabilidade para um conjunto de teste, disjunto do conjunto
de treino. Resultados experimentais mostraram que este método permite, na prática,
obter boas estimativas das probabilidades a posteriori [Renals et al., 1994].
3.4.4 Integração das redes neuronais artificiais nos HMMs
Definida que está uma linguagem comum às redes neuronais artificiais e aos
HMMs, é necessário, agora, analisar de que forma a sua integração pode ser realizada e quais os benefı́cios introduzidos por esta integração.
Como vimos anteriormente, no Capı́tulo 2, no reconhecimento realizado pelos
HMMs a sequência
modelo
tal que
no qual $ ' ) #%$ *)
$#% $ *' ) ) #%$ )
será reconhecida como a sequência de palavras associada ao
argmax
#%$ *)
é estimada através do modelamento acústico e
através do modelamento da linguagem. Considerando que
#%$ )
é constante e não
depende dos modelos, o problema do modelamento acústico resume-se à estimativa
108
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
da verosimilhança $ ' )
. Na maior parte dos sistemas a verosimilhança é esti-
mada usando o modelo paramétrico de uma distribuição gaussiana ou de misturas
de gaussianas.
A aplicação das redes neuronais artificiais realiza-se através da substituição do
modelo paramétrico usado nos HMMs pelas saı́das da rede. Ao aplicarmos um
#%$ ' )
MLP, previamente treinado, conforme descrevemos no ponto anterior, aos dados
de teste obtemos nas suas saı́das estimativas da probabilidade a posteriori
para . Se dividirmos as saı́das da rede pela probabilidade a priori das
#%#%$ $ ' ) ) $%# $ ' ) )
classes obtém-se, pela regra de Bayes,
ou seja, a verosimilhança, usada nos HMMs, escalada por
ra definir a relação existente entre as classes
modelos
#%$ )
. É preciso ago-
por nós utilizadas no MLP e os
utilizados nos HMMs.
Nos HMMs um modelo
resulta da concatenação dos modelos dos fonemas,
ou fones, para, de acordo com um conjunto de restrições lexicais, formar os modelos
das palavras e com base nestes modelos, de acordo com um conjunto de restrições
sintácticas, formar os modelos das frases.
Nos modelos associados aos fonemas, ou fones, podemos considerar diferentes
situações. A situação mais simples é obtida considerando um único estado por
modelo, ou seja, uma única distribuição de saı́da por modelo. Nesta situação o
número de estados é igual ao número de fonemas, ou fones. A outra situação é
considerar o modelo do fonema com vários estados, mas com uma distribuição de
saı́da comum e, portanto, partilhada por todos os estados do modelo. Nesta situação
apesar de existirem vários estados por modelo eles têm todos a mesma distribuição
e por isso são estados iguais, logo o número de estados diferentes mantém-se igual
ao número de fonemas, ou fones. Na situação extrema considera-se o modelo do
fonema com vários estados e com distribuições de saı́da diferentes. Nesta situação
o número de estados é diferente do número de fonemas, ou fones.
O número de classes que se obtém na saı́da do MLP deverá ser igual ao número
109
3.4 Sistemas hı́bridos para reconhecimento da fala
#%$ ' )
de estados diferentes, e portanto de distribuições, para os HMMs representando os
%# $ ' )
#%$ )
fonemas, ou fones. Assim a estimativa da probabilidade a posteriori
da na saı́da do MLP, representa a probabilidade a posteriori
#%$ )
, obti-
de um estado
no HMM de um dos fonemas, ou fones. Após a divisão pelas frequências rela-
tivas, estimativas de
$ ' ) #%$ )
, e, portanto, estimativas de
de Bayes, obtemos uma estimativa de , e invocando a regra
, ou seja, um modelo acústico
discriminante ao nı́vel da trama.
Normalmente, na entrada do MLP em vez de considerarmos uma única trama de
entrada acústica, consideramos tramas, o que se traduz num contexto acústico
#%$ ' $ ) $ ) $ ))
de tramas à esquerda e à direita. Assim, o MLP passa a estimar a probabilidade
Note-se que as saı́das geradas pela rede são independentes do contexto ao nı́vel
fonético, dado que cada saı́da está associada a um único estado de um fonema ou
fone, em oposição a um sistema, por exemplo, baseado em trifones.
A integração das redes neuronais artificiais nos HMMs, através do cálculo da
probabilidade a posteriori, permite aliviar o conjunto de hipóteses definidas nos
HMMs. Assim, temos:
Não é necessário impor restrições acerca da distribuição estatı́stica dos dados
de entrada, pois, apesar da rede ser ainda um modelo paramétrico, conseguese definir um conjunto extremamente flexı́vel de funções.
O treino da rede é um treino discriminativo, dado que, para uma dada entrada,
maximizamos a verosimilhança do modelo respectivo enquanto a minimizamos para todos os outros modelos, o que leva a modelos acústicos discriminantes ao nı́vel da trama, que, no entanto, não garantem discriminação ao
nı́vel da palavra ou frase.
Nos HMMs a estimação dos parâmetros faz-se através de um método de
máxima verosimilhança, o que requer a hipótese de independência condicio-
110
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
nal das observações, conforme vimos no capı́tulo anterior. No MLP, através
do uso de contexto acústico, pode-se modelar correlações ao longo de um
conjunto de tramas de entrada adjacentes.
A estes benefı́cios podemos juntar todas as vantagens decorrentes do uso das redes
neuronais artificiais, apresentadas na secção 3.1, como sejam flexibilidade, poder
de expressão, robustez, paralelismo e eficiente implementação em hardware.
3.4.5 Evolução dos sistemas hı́bridos
Apesar do enorme desenvolvimento verificado nas redes neuronais artificiais
cedo se verificou que o problema do reconhecimento da fala contı́nua, que passava
pela correcta representação da estrutura temporal da fala, não teria uma solução
baseada unicamente nestas redes. Estudaram-se estruturas com atrasos temporais e
utilização de ligações recorrentes entre as unidades aplicadas ao modelamento da
fala, ou, mais genericamente, a uma representação explı́cita de sequências. Esta
área continua a ser um forte polo da investigação cientı́fica.
Os sistemas que dominavam no reconhecimento da fala, os HMMs, apresentavam um conjunto de limitações resultantes das hipóteses impostas pelo modelo
paramétrico baseado em misturas de gaussianas. Este modelo paramétrico realizava
uma classificação dos vectores acústicos em classes fonéticas. Como era precisamente em tarefas deste tipo que as redes neuronais artificiais, e em particular o
MLP, apresentavam as suas melhores caracterı́sticas rapidamente se procurou juntar ambas as metodologias. Isso foi possı́vel quando se definiu uma linguagem
comum através da interpretação das saı́das do MLP como probabilidades a posteriori, conforme acabámos de analisar nos dois pontos anteriores. Criaram-se assim
os modelos hı́bridos MLP/HMM [Morgan e Bourlard, 1990], que foram de seguida
estendidos a um modelo usando redes recorrentes RNN/HMM [Robinson, 1992a].
Rapidamente estes modelos passaram a apresentar desempenhos superiores aos modelos HMMs clássicos [Renals et al., 1994]. Os sistemas hı́bridos anteriores foram
111
3.4 Sistemas hı́bridos para reconhecimento da fala
avaliados no âmbito do projecto W ERNICKE, onde nós participámos, tendo-se obtido resultados idênticos em ambos os sistemas hı́bridos [Robinson et al., 1993].
O
aparecimento
da
base
de
dados
Wall
Street
Journal
(WSJ)
[Paul e Baker, 1992], veio introduzir uma nova escala no problema do reconhecimento da fala contı́nua. Esta base de dados trouxe um aumento significativo
dos dados disponı́veis para treino e um aumento da dimensão dos vocabulários,
que passaram de valores inferiores a 1 000 palavras para dicionários de 5 000 e
de 20 000 palavras. Com o aparecimento do WSJ nasceram as avaliações anuais,
patrocinadas pela ARPA, dos sistemas de reconhecimento de acordo com um
conjunto de condições fixas.
Na primeira avaliação que decorreu em Novembro de 1993 [Pallett et al., 1994]
verificou-se a participação de dois sistemas hı́bridos. Um baseado no RNN/HMM
apresentado pelo grupo denominado CUED-RNN, chefiado pelo Dr. Tony Robinson, e outro baseado no MLP/HMM apresentado pelo grupo do ICSI, chefiado pelo Prof. N. Morgan. Ambos os grupos participavam no projecto W ERNICKE. O
desempenho do sistema RNN/HMM foi superior apresentando-se posicionado no
meio da tabela enquanto o sistema MLP/HMM se posicionou nos últimos lugares.
A competição foi vencida pelo grupo CUED-HTK do Prof. Steve Young cujo modelo era baseado nos HMMs clássicos e implementado através do software HTK
[Woodland e Young, 1993].
Como resultado dos desenvolvimentos realizados nos sistemas, para essa
avaliação, verificou-se que o MLP apresentava dificuldades em extrair uma melhor informação à medida que a quantidade de dados de treino aumentava, já que a
metodologia seguida até aı́ era a de aumentar o número de unidades escondidas e
como consequência o número de parâmetros da rede.
Uma alternativa a esta metodologia passou pelo treino de redes separadas e
sua posterior combinação. Esta alternativa surgia, também, como consequência
do trabalho de Jordan em mixture of experts [Jordan e Xu, 1993].
Enquanto
que no treino do sistema RNN/HMM conseguiram-se bons resultados através
112
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
da combinação de redes recorrentes com caracterı́sticas de treino diferentes, no
MLP os resultados nunca foram muito positivos [Mirghafori et al., 1994]. No
âmbito do sistema MLP/HMM estudaram-se técnicas de adaptação ao orador, tanto
no modo supervisionado como não-supervisionado, tendo-se obtido um conjunto
de resultados positivos [Neto et al., 1995a] [Neto et al., 1995b] [Neto et al., 1996b]
[Neto et al., 1996a]. Este trabalho foi realizado por nós e será apresentado no
capı́tulo seguinte. Uma das técnicas de adaptação ao orador foi estendida para o sistema RNN/HMM [Neto et al., 1995a]. Ao sistema RNN/HMM foi adicionado contexto fonético na saı́da do RNN [Kershaw, 1996] e adaptação ao orador, alterações
estas que permitiram uma evolução significativa deste sistema.
Com as avaliações seguintes verificou-se que, apesar dos dados serem comuns
e as caracterı́sticas do vocabulário iguais para todos, a comparação entre sistemas
não era justa, pois, comparávamos sistemas com caracterı́sticas bem diferentes e
que dependiam do poder e capacidade de cada um dos grupos e não da metodologia
dos sistemas. O projecto Europeu S QALE permitiu uma comparação entre alguns
grupos europeus, aliás os melhores nas avaliações anteriores da ARPA, em quatro
diferentes lı́nguas e onde o grupo CUED-RNN com um sistema hı́brido RNN/HMM
conseguiu vencer os grupos do CUED-HTK, LIMSI e PHILIPS, demonstrando aı́
as capacidades de um modelo hı́brido. Estes resultados ficaram-se a dever a uma
maior igualdade de condições na avaliação, através da utilização dos mesmos dados acústicos para treino, os mesmos dicionários de pronunciação e modelos de
linguagem da mesma ordem.
No âmbito dos modelos hı́bridos outros caminhos têm sido explorados. Têm
sido desenvolvidos alguns novos modelos como seja o REMAP [Konig et al., 1996],
SPAM [Morgan et al., 1994] e modelos multi-banda [Bourlard et al., 1996], onde
se têm verificado progressos, mas, ainda, aplicados no reconhecimento de dı́gitos
proferidos de forma contı́nua, que não são exactamente tarefas representativas do
problema do reconhecimento da fala contı́nua.
Para finalizar gostarı́amos de salientar que a diferença entre um sistema hı́brido
e um sistema clássico baseados nos HMMs é simplesmente no modelo acústico-
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
113
fonético que apesar de ser o bloco de entrada é só uma das fases pelas quais passa
o reconhecimento da fala contı́nua.
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
O desenvolvimento de um sistema de reconhecimento da fala contı́nua baseiase, essencialmente, na interacção de cinco módulos principais. O primeiro resulta
da base de dados, que é determinante para a definição da tarefa e dos objectivos a
alcançar pelo sistema de reconhecimento. Ao longo desta secção iremos apresentar
diferentes sistemas, cada um associado a um base de dados particular. O segundo
módulo refere-se aos modelos acústico-fonéticos que no âmbito dos HMMs estimam a verosimilhança das tramas de entrada como sendo produzidas por cada um
dos modelos dos fonemas, ou fones. No nosso caso, como tratamos com modelos
hı́bridos usamos as redes neuronais artificiais, e em particular o MLP, para realizar a tarefa de reconhecimento fonético através da estimativa das probabilidades a
posteriori, conforme descrevemos na secção anterior. O terceiro e quarto módulos
referem-se ao dicionário de pronunciação e ao modelo de linguagem, que são determinados em função das caracterı́sticas da base de dados e que têm uma influência
substancial na forma e modo de execução do quinto módulo, que se refere à parte
de descodificação das frases. A esta descodificação existem associados uma série
de algoritmos tendo por base os clássicos algoritmos de Viterbi e de Baum-Welch.
Estes algoritmos sofrem uma série de modificações resultantes das limitações impostas pelo tamanho do vocabulário, em termos de tempo de cálculo, o que tem
levado à procura de métodos mais eficientes, com caracterı́sticas de pruning associadas, conforme referimos no capı́tulo anterior.
Apesar do desenvolvimento do sistema estar directamente relacionado com a
base de dados, pois, é esta que define a dimensão do alfabeto fonético, do vocabulário e das caracterı́sticas do modelo de linguagem, é possı́vel definir uma estru-
114
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
tura global para a realização do sistema, própria do conceito de sistema hı́brido por
nós utilizado e da particularização para a nossa realização.
O objectivo desta secção é apresentar o desenvolvimento e avaliação do sistema hı́brido por nós realizado em diferentes bases de dados. Nesse sentido vamos
começar por apresentar as caracterı́sticas e modo de funcionamento básico desse
sistema e depois particularizaremos para as diferentes bases de dados.
3.5.1 Sistema básico
Actualmente, o desenvolvimento de um sistema de reconhecimento da fala
contı́nua depende das caracterı́sticas da tarefa à qual será aplicado. No desenvolvimento do nosso sistema a escolha da tarefa, tendo em conta que o nosso objectivo
é o desenvolvimento, estudo e avaliação de novos métodos, é condicionada de forma a que seja possı́vel uma comparação com outros sistemas já desenvolvidos ou
em desenvolvimento. Nesse sentido escolhem-se tarefas associadas a bases de dados de fala e de texto standard, e que sejam utilizadas por outros investigadores no
desenvolvimento e avaliação de outros métodos.
A base de dados tem uma influência substancial nas caracterı́sticas do sistema
a desenvolver. Nos pontos seguintes apresentaremos alguns sistemas por nós desenvolvidos, correspondentes a bases de dados diferentes, onde, dependendo das
caracterı́sticas da base de dados se definem caracterı́sticas diferentes para os sistemas. Contudo, existem um conjunto de factores que se mantém comuns. São
precisamente esses factores que nós pretendemos analisar agora, permitindo-nos,
assim, definir uma estrutura básica em termos de realização do nosso sistema.
As bases de dados de fala são organizadas em ficheiros de fala. Esses ficheiros
contêm os valores das amostras que representam a amplitude do sinal de fala nos
vários instantes onde se efectuou a sua amostragem. É tı́pico as bases de dados
resultarem de um processo de amostragem a 16 KHz, valor este que é considerado
suficiente para, obedecendo ao critério de Nyquist, representar o sinal de fala. Sobre
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
115
as amostras contidas no ficheiro de fala aplica-se uma janela rectangular, no nosso
sistema com 20 ms de duração. O conjunto de amostras que resulta da aplicação
da janela é denominado de trama. Para obter a trama seguinte avança-se a janela
de um número de amostras correspondentes a 10 ms, novamente particularizando
para o nosso sistema. Daqui resulta uma sobreposição entre tramas adjacentes de
10 ms. Os valores da duração e sobreposição entre tramas foram analisados em
[Robinson et al., 1993], onde, resultados experimentais mostraram que estes valores
eram os mais adequados para um modelo acústico-fonético baseado no MLP.
A cada trama de amostras é aplicada uma análise PLP [Hermansky, 1990] de
ordem 12, de onde resultam, por cada trama, 12 coeficientes mais o logaritmo da
energia, num total de 13 coeficientes. Adicionalmente, calculam-se as estimativas
das derivadas temporais dos coeficientes, através de um método de regressão linear
[Furui, 1986], ao longo de uma janela cobrindo as duas tramas de coeficientes anteriores e as duas tramas de coeficientes seguintes. Estimativas das derivadas de
primeira e de segunda ordem podem ser calculadas. Dependendo da ordem das derivadas obtemos uma trama final de 26 ou de 39 coeficientes. Com a introdução
destas derivadas, que é prática comum, também, nos sistemas baseados em HMMs,
pretende-se, de algum modo, modelar o efeito de correlação entre tramas sucessivas,
que no caso dos HMMs se admitem como independentes.
Como unidade básica para os nossos sistemas escolhe-se, normalmente, o fone.
A escolha do alfabeto fonético e a sua representação acústica está associada à base
de dados de fala. Quando tratamos com bases de dados standard essa escolha é
realizada à partida, normalmente, pela entidade responsável pelo desenvolvimento
da base de dados. No nosso sistema, cada fone é representado por um modelo
de Markov com uma topologia esquerda-direita, em que as transições se efectuam
só para o próprio estado ou para o seguinte (ver Figura 2.9). As distribuições de
saı́da para os vários estados, em cada modelo, são comuns, ou seja, cada modelo do
fone contêm uma única distribuição de saı́da. Este modelo apresenta uma estrutura
onde o número de estados e as probabilidades de transição entre os estados têm
por objectivo modelar a estrutura temporal dos fones. É normalmente adoptado
116
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
um modelo onde as probabilidades de transição são constantes e onde o número
de estados é definido de forma a representar restrições de duração a impor nestes
modelos. Nos nossos modelos as probabilidades de transição são de 0,5 e o número
de estados é definido como metade da estimativa da duração média do fone, em
número de tramas. Os modelos obedecem, assim, a uma distribuição de duração de
Pseudo-Poisson [Robinson et al., 1994].
As distribuições associadas aos estados são estimadas por um MLP com
saı́das, em que
corresponde ao número de fones presentes no alfabeto fonético. A
estrutura do MLP é composta pela camada de entrada, por uma camada de unidades
escondidas e pela camada de saı́da. Na entrada aplicam-se, normalmente, 7 tramas,
que correspondem a uma janela de contexto de 3 tramas à esquerda e 3 tramas à
direita da trama central. A dimensão da camada de entrada é dependente da ordem
das derivadas (primeira ou segunda ordem) e do tamanho da janela de contexto.
A dimensão da camada escondida, dado que o número de unidades nas camadas de
entrada e de saı́da é, basicamente, fixo, é que vai determinar o número de parâmetros
na rede, que estará relacionado com a quantidade de dados de treino. As unidades
na camada de entrada são lineares. Na camada escondida usa-se a função sigmóide
e na camada de saı́da a função softmax como funções de activação. Na entrada do
MLP aplica-se um procedimento de normalização com o objectivo de compensar
distorções do canal e do microfone. Trata-se de uma operação simples onde cada
coeficiente dos vectores de parâmetros é normalizado de forma a se obter média
nula e variância unitária.
Para que as saı́das do MLP sejam estimativas das probabilidades a posteriori,
é necessário que o MLP seja treinado na realização do reconhecimento fonético,
conforme descrevemos na secção anterior. As estruturas realizadas apresentam um
número elevado de parâmetros. Por exemplo, a rede para a base de dados Resource
Management (RM), que analisaremos mais em pormenor adiante, tem 182 entradas,
resultantes de 7 tramas de 26 coeficientes, 1 000 unidades na camada escondida e
68 unidades de saı́da, o que resulta num total, aproximado, de 250 000 parâmetros.
Par se poder efectuar o treino de uma rede com esta dimensão foi necessário usar
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
117
uma máquina com uma implementação paralela, designada RAP (Ring Array Processor) [Morgan et al., 1992], que é constituı́da por um conjunto de processadores
de sinal numa estrutura em anel. Estes processadores encontram-se divididos em
placas, com 4 processadores por placa, e cada máquina pode ter desde uma até ao
máximo de cinco placas. No nosso caso particular possuı́amos três placas, o que
perfazia um total de 12 processadores. Associado ao RAP encontramos um conjunto de bibliotecas que realizam de uma forma extremamente eficiente, resultante da
paralelização efectuada, operações de vectores e de matrizes. Sobre estas bibliotecas realizou-se um simulador que efectua o treino e teste dos MLPs. Este tipo de
realização permitiu-nos obter uma redução do tempo de cálculo em várias ordens
de grandeza comparativamente a uma estação de trabalho standard. Mesmo assim,
houve treinos que se prolongaram por vários dias.
O procedimento por nós realizado consistia num treino estocástico com escolha aleatória dos padrões de treino, o que significa adaptação dos parâmetros após
a apresentação de cada padrão de treino, combinado com uma técnica de validação
cruzada, que se torna essencial, dada a dimensão da rede, e que permite uma boa
generalização impedindo uma especialização da rede sobre o conjunto de treino.
A validação cruzada realiza-se sobre um conjunto de validação, disjunto dos conjuntos de treino e de teste, e onde se avalia o nı́vel de classificação fonética ao
fim de cada época, definida como um varrimento sobre um conjunto de padrões de
treino, no nosso caso escolhidos aleatoriamente, cuja dimensão é igual à dimensão
total do conjunto de treino. Quando a melhoria na classificação, sobre o conjunto de validação, é inferior a um determinado valor, por exemplo 0,5%, o passo de
adaptação dos pesos é reduzido, normalmente, dividindo por 2. Nas épocas seguintes o passo continua a ser reduzido até que não se verifique nenhuma melhoria sobre
o conjunto de validação, parando-se então o treino.
Para a realização do treino do MLP é necessário que exista, associado a cada
padrão de treino, uma etiqueta (label) que indique a classificação fonética desejada para cada padrão. Essa etiqueta resulta de um processo em que, conhecendo
a sequência das diferentes unidades fonéticas, se procura definir a sua localização
118
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
temporal no sinal de fala. Esse processo pode ser realizado manualmente, por pessoas especializadas, em que a partir do sinal acústico e usando informação auxiliar,
como seja, por exemplo, o espectrograma, se define a distribuição das diferentes
unidades fonéticas pelo sinal de fala. No entanto, este processo manual é bastante
moroso e oneroso. Uma forma alternativa passa por um processo automático denominado alinhamento forçado. No processo de descodificação associado aos HMMs
procura-se a sequência de estados mais provável. No caso do alinhamento forçado
estamos a trabalhar sobre o conjunto de treino, e, portanto, conhecemos o conteúdo
do sinal de fala, sendo possı́vel representar a sequência de estados correcta que lhe
está associada. Neste processo de alinhamento forçado vamos usar um sistema de
reconhecimento fonético já treinado e impondo a sequência de estados define-se
qual a distribuição mais provável desses estados pelos vectores acústicos. Com base na distribuição das diferentes unidades fonéticas, que tenham resultado quer de
um processo manual quer de um processo de alinhamento forçado, vai-se extrair as
etiquetas associadas a cada vector de entrada. Este aspecto será discutido para cada
um dos sistemas realizados já que depende das caracterı́sticas da base de dados.
Após o treino do MLP na estimação das probabilidades a posteriori, criando,
assim, os modelos acústico-fonéticos, passamos à fase de reconhecimento. Nessa fase o descodificador, cuja função é calcular qual a sequência de palavras mais
provável dada a sequência de vectores acústicos de teste, recebe como entrada as
$ ' )
probabilidades geradas pelo MLP sobre o conjunto de teste. Para cada trama do
sinal de fala gera-se, na saı́da do MLP, as probabilidades a posteriori todos os estados
, para
dos HMMs representando os fones. Essas probabilidades são
convertidas na verosimilhança escalada através da divisão pela frequência relativa
dos estados, estimada com base nos dados de treino. É realizada uma descodificação
de Viterbi, onde os modelos das palavras são construı́dos a partir de um dicionário
de pronunciação, aplicando-se de seguida o modelo de linguagem para definir qual
a sequência de palavras mais provável de ocorrer dadas as caracterı́sticas da linguagem. Este procedimento é igual ao caracterı́stico dos HMMs, conforme descrevemos no capı́tulo anterior.
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
Ao longo do nosso trabalho utilizámos dois descodificadores.
119
O Y0
[Robinson et al., 1993] que realiza o algoritmo de descodificação de Viterbi permitindo dicionários multipronunciação, modelos de linguagem de pares de palavras
(word pair) e bigramas, e um modo de funcionamento em alinhamento forçado. Infelizmente as suas caracterı́sticas de pruning eram bastante reduzidas o que levou,
devido ao desenvolvimento de sistemas associados a bases de dados com vocabulários de dimensão elevada, ao desenvolvimento de um outro descodificador denominado N OWAY. Neste descodificador o algoritmo de busca é baseado na técnica
stack decoder e com grandes possibilidades de intervir, através de diferentes possibilidades de pruning, no conjunto de hipóteses criadas [Renals e Hochberg, 1995].
Ambos os descodificadores foram desenvolvidos no âmbito dos projectos W ERNI CKE
e SPRACH pelos grupos do ICSI, do CUED e de Sheffield.
Para avaliação final do desempenho do sistema é necessário calcular o erro
de reconhecimento ao nı́vel da palavra. O descodificador gera uma sequência de
palavras para cada frase no conjunto de teste. É necessário agora comparar as sequências geradas com as sequências correctas associadas a cada frase do conjunto
de teste. Distribuı́do com as bases de dados encontramos um programa (score) que
realiza um alinhamento entre as palavras da sequência gerada pelo descodificador
e a sequência correcta. Nesse processo de alinhamento determinam-se as palavras
correctamente reconhecidas e as palavras que foram ou inseridas, ou suprimidas, ou
substituı́das indevidamente pelo descodificador. Com base nos valores determinados, e para todo o conjunto de teste ou avaliação, define-se o erro de reconhecimento
ao nı́vel da palavra.
Vamos agora apresentar o desenvolvimento e avaliação de diferentes sistemas
associados às bases de dados por nós estudadas ao longo do nosso trabalho. A
apresentação que se segue refere-se ao desenvolvimento dos sistemas independentes
e dependentes do orador de acordo com as caracterı́sticas próprias das bases de
dados.
120
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
3.5.2 Sistema para a base de dados TIMIT
A base de dados de fala TIMIT é uma das mais utilizadas pela comunidade cientı́fica internacional. Foi desenhada de modo a fornecer dados acústicos e
fonéticos para o desenvolvimento de sistemas de reconhecimento automático da fala. Trata-se de uma base de dados em Inglês Americano, foi gravada pela Texas
Instruments (TI), transcrita pelo MIT e formatada e preparada para distribuição em
CD-ROM pelo NIST.
O seu corpus consiste na combinação de um conjunto de frases de calibração
de dialecto, frases compactas foneticamente e frases foneticamente naturais, escolhidas, respectivamente, pelo SRI, MIT e TI. A base de dados foi preparada para
incluir um elevado número de oradores, masculinos e femininos, de várias idades
e representando os maiores dialectos do Inglês Americano. Existem 630 oradores,
que foram classificados em 8 regiões, em termos de dialecto. Cada orador fala 2
frases de calibração de dialecto preparadas pelo SRI, 5 frases extraı́das do conjunto
preparado pelo MIT e 3 frases do conjunto preparado pela TI.
Dos 630 oradores que constituem a base de dados completa, dois subconjuntos
demograficamente proporcionais foram seleccionados para treino (462 oradores) e
teste (168 oradores) do sistema. Para cada orador existe um ficheiro binário contendo as amostras do sinal, um ficheiro ASCII contendo o alinhamento acústicofonético e um ficheiro ASCII contendo a transcrição ortográfica da frase.
Trata-se de uma base de dados de fala de uma dimensão apreciável, dado o elevado número de oradores, e, principalmente, com um alinhamento fonético gerado
manualmente. Esta base de dados é usada vastamente pela comunidade cientı́fica
internacional, para desenvolvimento e avaliação de sistemas de reconhecimento
fonético, mas, não para avaliação do reconhecimento da fala contı́nua ao nı́vel da
palavra, dado que não possui dicionário e modelo de linguagem associados. Obviamente, que partindo da transcrição ortográfica das frases e do alinhamento acústicofonético se pode gerar um dicionário de pronunciação. No entanto, dado tratar-se de
um número elevado de oradores e de regiões com dialectos diferentes encontramos
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
121
uma elevada variabilidade fonética na pronunciação das mesmas palavras. Relativamente ao modelo de linguagem, dado tratar-se de uma tarefa artificial com uma
variabilidade a nı́vel de texto muito reduzida, é difı́cil extrair um modelo realista.
Dadas estas condicionantes a base de dados tem sido utilizada, quase sempre, numa
tarefa de reconhecimento fonético.
Quando nos referimos a reconhecimento fonético estamos a nos referir a um
sistema que pretende simplesmente identificar a classe fonética correspondente ao
sinal de entrada. Trata-se de uma tarefa extremamente difı́cil dado que o conhecimento próprio da linguagem, caracterizado pela análise léxica, em termos das
pronunciações permitidas para as palavras, e pela análise sintáctica, em termos da
sequência das palavras, não é utilizado. Um sistema de reconhecimento da fala
contı́nua é, normalmente, caracterizado pelo seu nı́vel de desempenho no reconhecimento fonético, ou reconhecimento ao nı́vel da trama, e pelo seu nı́vel de reconhecimento das palavras ou frases. No caso do modelo hı́brido MLP/HMM, é o
MLP que é o responsável por este reconhecimento fonético, denominando-se esta
parte do sistema modelo acústico-fonético, conforme vimos anteriormente.
No desenvolvimento deste sistema usámos como conjunto de treino as frases
dos 462 oradores e como conjunto de teste as frases dos 168 oradores, respeitando,
assim, os conjuntos standard. Para cada orador foram utilizadas 8 frases, das 10
totais excluiram-se as 2 de calibração. Temos, assim, como conjunto de treino um
total de 3696 frases e como conjunto de teste 1344 frases.
As amostras dos ficheiros de fala foram agrupadas em tramas de 20 ms, com
sobreposição de 10 ms entre tramas sucessivas. Sobre cada trama do sinal efectuouse uma análise PLP de ordem 12, de onde resultaram 12 coeficientes mais o logaritmo da energia, dando origem a uma trama de 13 coeficientes. Entre tramas
de coeficientes sucessivas calculou-se uma estimativa das derivadas de primeira ordem. Desta análise resultou 1 104 570 padrões de treino de dimensão 26. Associada
a cada trama existe uma etiqueta (label) que indica qual o fonema correspondente a
esse padrão. Essa informação foi extraı́da do alinhamento fonético presente na base
de dados.
122
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
O sistema de reconhecimento fonético por nós desenvolvido baseou-se num
MLP com uma estrutura em três camadas. A camada de entrada era constituı́da por
7 tramas de 26 coeficientes, resultando em 182 unidades. A entrada era composta de
três tramas de contexto à esquerda e à direita da trama central. A camada escondida
apresentava 1 000 unidades e a camada de saı́da 61 unidades, correspondentes às
entidades fonéticas distintas em que se baseou a transcrição fonética apresentada na
TIMIT.
Para o treino do MLP utilizámos o conjunto de treino definido anteriormente.
Ao fim de cada época avaliou-se o desempenho do sistema sobre o conjunto de
teste. Na Tabela 3.1 apresentamos os resultados obtidos ao longo deste processo de
treino.
Épocas de
% reconhecimento no
% reconhecimento no
treino
conjunto de treino
conjunto de teste
1
35,41%
49,22%
2
53,25%
54,16%
3
56,59%
56,10%
4
58,28%
57,23%
5
59,35%
57,89%
6
60,14%
58,48%
7
60,70%
58,84%
8
61,48%
59,29%
Tabela 3.1: Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e teste ao longo do processo de treino.
Da análise dos resultados verificamos que ao fim de uma passagem sobre o
conjunto de treino o sistema reconheceu correctamente 35,41% das tramas e que ao
fim de 8 passagens reconheceu 61,48% dessas tramas. Ao longo dessas épocas o
desempenho do sistema sobre o conjunto de teste passou de 49,22% para 59,29%.
Estes resultados são próximos dos geralmente apresentados na literatura.
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
123
De referir que o objectivo de um sistema baseado na TIMIT é o de servir como
ponto de partida no desenvolvimento de outros sistemas. Foi isso que aconteceu nos
sistemas que apresentamos de seguida.
3.5.3 Sistema para a base de dados Resource Management
A base de dados da DARPA Resource Management (RM) [Price et al., 1988]
constituiu um dos primeiros passos para uma uniformização e mais correcta
avaliação e comparação dos sistemas de reconhecimento da fala contı́nua em Inglês
Americano nos finais da década de 80 e princı́pio da década de 90. Mesmo actualmente, muitas das modificações aos sistemas e novos desenvolvimentos são primeiro testados e analisados nesta base de dados antes de se passar a uma avaliação mais
profunda noutras bases de dados.
Esta base de dados foi a mais utilizada e explorada ao longo do nosso trabalho.
Foi com ela que começámos o desenvolvimento de sistemas de reconhecimento da
fala contı́nua e foi com ela que desenvolvemos algumas das técnicas de adaptação
ao orador que apresentaremos no capı́tulo seguinte. Vamos começar por descrever as suas principais caracterı́sticas, apresentando de seguida o desenvolvimento e
avaliação dos sistemas independente e dependente do orador associados a esta base
de dados.
Base de Dados RM
A base de dados RM consiste de fala resultante de um processo de leitura de
frases associadas a uma tarefa de gestão de recursos navais. Foi desenhada para o desenvolvimento e avaliação de sistemas de reconhecimento da fala contı́nua
independente do orador, dependente do orador e com adaptação ao orador. Estas
caracterı́sticas resultam dos diferentes conjuntos existentes. Nesta base de dados
encontramos um dicionário de 991 palavras, resultantes de 2 800 frases diferentes,
e um total de aproximadamente 21 000 ficheiros, onde cada ficheiro corresponde à
124
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
gravação de uma frase, para os 160 oradores presentes na base de dados, com uma
variedade de dialectos do Inglês Americano.
Na parte independente do orador existe um conjunto de treino com 3 990 frases
gravadas, correspondentes a 109 oradores, e quatro conjuntos de teste independentes, cada um com 10 oradores e com 30 frases por orador, num total de 300 frases
por cada conjunto de teste. Estes conjuntos de teste são normalmente conhecidos
pelas datas em que foram realizados: Fevereiro de 89, Outubro de 89, Fevereiro de
91 e Setembro de 92. Nos conjuntos de teste cada um dos oradores, adicionalmente, gravou 10 frases de adaptação (as frases são as mesmas para todos os oradores).
Na parte dependente do orador existem 12 oradores. As frases estão divididas num
conjunto de treino, com 600 frases por cada orador, num conjunto de teste de desenvolvimento e num conjunto de teste de avaliação, e onde em cada conjunto de
teste existem 100 frases por orador.
As frases da base de dados estão divididos em quatro tipos:
SAx - 2 frases para calibração do dialecto.
SBxx - 10 frases para adaptação rápida ao orador.
SRxxx - 600 frases para conjunto de treino dependente do orador e parcialmente integrando o conjunto de treino independente do orador.
STxxxx - 2 235 frases para os conjuntos de teste dependente e independente
do orador e parcialmente integrando o conjunto de treino independente do
orador.
O conjunto de treino independente do orador é composto a partir dos ficheiros
SR e ST, diferindo, no entanto, a sua distribuição entre os vários oradores. Por
sua vez o conjunto de treino dependente do orador é constituı́do pela totalidade dos
ficheiros SR, o que resulta no mesmo conjunto de frases por cada orador. Os vários
conjuntos de teste, independentes ou dependentes, são baseados nos ficheiros ST.
No caso dos conjuntos de teste independentes do orador, adicionalmente por cada
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
125
orador, estão incluı́dos os ficheiros SB, ou seja, as mesmas 10 frases para todos os
oradores.
Esta base de dados encontra-se disponı́vel em 2 CDs a partir do Linguistic Data
Consortium (LDC).
Desenvolvimento e avaliação do sistema independente do orador
O sistema por nós desenvolvido para a base de dados RM baseou-se num modelo hı́brido MLP/HMM conforme descrito anteriormente. O modelo acústicofonético, realizado através do MLP, foi treinado de uma forma separada no RAP.
Na fase de reconhecimento o MLP, em execução no RAP, gerava as probabilidades que eram transferidas para o descodificador Y0. A sequência de palavras mais
provável era obtida através do Y0, com base nas probabilidades geradas pelo MLP,
nos modelos das palavras definidos no dicionário de pronunciação e nas restrições
impostas pelo modelo de linguagem.
O modelo acústico-fonético era semelhante ao descrito anteriormente para a
base de dados TIMIT. Era realizada uma análise PLP produzindo 12 coeficientes e
o logaritmo da energia por cada trama de 20 ms e com um ritmo entre tramas de 10
ms. Adicionalmente aos coeficientes calculou-se uma estimativa das derivadas de
primeira ordem, gerando-se uma trama de 26 coeficientes. À trama actual juntaramse 3 tramas de contexto à esquerda e 3 tramas de contexto à direita, resultando num
conjunto de 182 entradas. O MLP possuı́a na camada escondida 1 000 unidades e
na camada de saı́da 68 unidades, correspondentes ao conjunto de fones, resultando
numa rede de aproximadamente 250 000 ligações.
Para o treino do MLP necessitamos da saı́da desejada associada a cada trama
de entrada. No caso da TIMIT a segmentação do sinal de fala nas diferentes unidades fonéticas foi realizada manualmente e está incluı́da na base de dados. No
RM essa segmentação não existe sendo necessário realizar um processo automático
para a sua definição. Esse processo automático foi desenvolvido a partir do reconhecimento fonético realizado pelo sistema treinado para a TIMIT de acordo com
126
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
as restrições, em termos da sequência de estados, impostas através do Y0 no seu
modo de alinhamento forçado.
Obviamente que a segmentação resultante deste processo não é a ideal. A TIMIT apresenta como grande vantagem o facto de ter um alinhamento realizado manualmente por um conjunto especializado de pessoas, sendo, por isso mesmo, usada
sempre como ponto de partida no alinhamento forçado de qualquer outra base de
dados. Após este alinhamento automático inicial passamos ao treino do MLP. Com
base no MLP resultante do treino realiza-se um novo processo de alinhamento. Daqui resulta um processo iterativo de treino e alinhamento que conduz sucessivamente a um melhor modelo acústico-fonético.
As saı́das desejadas necessárias ao treino do MLP são geradas a partir da
segmentação, do sinal de fala nas diferentes unidades fonéticas, resultante do alinhamento. A segmentação produz uma relação entre os segmentos fonéticos a as
amostras presentes no ficheiro de fala. As saı́das desejadas resultam do agrupamento das amostras em tramas e da identificação do respectivo segmento fonético.
O treino do MLP foi realizado segundo o método de retropropagação do erro. Os pesos da rede foram inicializados com valores aleatórios. Existem autores
que iniciam o treino da rede a partir de um modelo já treinado, como seja, por
exemplo, um modelo treinado na base de dados TIMIT [Bourlard e Morgan, 1994].
Nesta situação torna-se necessário que a representação fonética seja de algum modo semelhante em ambos os sistemas. Nestes casos obtém-se uma convergência
do algoritmo de treino muito mais rápida, através da redução do número de épocas
necessárias. Os testes por nós realizados mostram que o sistema final treinado a
partir dos pesos aleatórios obtém um desempenho superior, comparativamente com
um sistema inicializado na TIMIT, apesar de serem necessárias mais épocas para
se obter a convergência do algoritmo. Isto deve-se a que o modelo inicial está suficientemente especializado na base de dados da TIMIT. Como alternativa pode-se
parar antecipadamente o treino na TIMIT. Neste caso o desempenho melhora mas
aumenta o número de épocas necessárias. Pessoalmente preferimos começar numa
rede com pesos aleatórios.
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
127
Após a realização do treino do modelo acústico-fonético, através do treino do
MLP, passamos à fase de descodificação onde se avalia o nı́vel de desempenho final do sistema ao nı́vel da palavra. Nesta fase o descodificador Y0 recebe como
entradas as probabilidades produzidas pelo MLP, os modelos das palavras definidos através do dicionário de pronunciação e as restrições a impor na sequência de
palavras definidas pelo modelo de linguagem.
O dicionário de pronunciação associado à base de dados RM foi desenvolvido
numa fase posterior à recolha da base de dados e foi-nos facilitado através do projecto W ERNICKE. O modelo de linguagem utilizado foi baseado em pares de palavras
(word pair) e foi extraı́do do conjunto de frases presentes na base de dados. Neste modelo de linguagem indicam-se simplesmente os pares de palavras permitidos.
Como as frases da base de dados foram geradas artificialmente não era adequado
usar modelos de linguagem de complexidade superior, como sejam os modelos de
linguagem estocásticos.
Na Tabela 3.2 apresentam-se os resultados da avaliação do desempenho do sistema independente do orador ao nı́vel da palavra sobre os quatro conjuntos de teste
standard.
% de palavras % de palavras
% de palavras
% de
Conjunto de Teste
substituı́das
suprimidas
inseridas
erro
RM-fev89
3,5%
1,4%
0,2%
5,1%
RM-out89
4,0%
1,7%
0,3%
6,1%
RM-fev91
3,7%
1,4%
0,5%
5,7%
RM-set92
7,6%
3,1%
1,7%
12,3%
Tabela 3.2: Avaliação do erro de reconhecimento ao nı́vel da palavra do sistema
independente do orador nos conjuntos de teste standard.
Os resultados obtidos foram semelhantes aos resultados dos outros grupos no
âmbito do projecto W ERNICKE [Robinson et al., 1993]. Para nós este trabalho foi
extremamente importante, pois, sem experiência prévia em reconhecimento da fala
128
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
contı́nua foi-nos possı́vel obter um conjunto de resultados semelhantes aos apresentados por outros grupos e publicados na literatura. Em termos mais gerais os
resultados aqui obtidos, e os publicados em [Robinson et al., 1993], vieram mostrar
a aplicabilidade dos modelos hı́bridos, dado que os resultados eram dos melhores
até então obtidos para a base de dados RM.
Desenvolvimento e avaliação do sistema dependente do orador
É conhecido que o desempenho de um sistema dependente do orador é superior ao de um sistema independente do orador. No entanto, para o desenvolvimento
de um sistema dependente do orador é necessário uma disponibilidade elevada de
dados de treino de um único orador. Na base de dados RM, como referido anteriormente, existe um conjunto de treino dependente do orador. Nele estão incluı́dos 12
oradores com conjuntos de treino de 600 frases cada, e dois conjuntos de teste de
desenvolvimento e de avaliação, de 100 frases cada.
Antes de iniciarmos o desenvolvimento dos sistemas dependentes do orador
analisámos o desempenho do sistema independente do orador sobre os dados de
teste de cada um dos oradores no conjunto dependente do orador. Na Tabela 3.3
apresentamos o erro de reconhecimento ao nı́vel da palavra produzido pelo sistema
independente do orador, desenvolvido anteriormente.
De seguida procedeu-se ao desenvolvimento, para cada um dos oradores do
conjunto dependente do orador, de um sistema estrutura idêntica à do sistema independente do orador. Como os dados de treino para cada orador eram inferiores
aos disponı́veis para o sistema independente do orador foi necessário diminuir o
número de parâmetros do MLP a desenvolver para cada um dos oradores. A estrutura do MLP mantêm-se, só sendo alterado o número de unidades escondidas. Para
o desenvolvimento dos sistemas para cada um dos oradores usou-se como conjunto
de treino as 600 frases e como conjunto de validação o conjunto de teste de desenvolvimento de 100 frases. Para análise do desempenho dos diferentes sistemas
utilizaram-se os conjuntos de teste de avaliação de cada orador. Na Tabela 3.4 apre-
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
% de palavras
% de palavras
% de palavras
% de
Orador
substituı́das
suprimidas
inseridas
erro
bef0
4,8%
2,6%
0,6%
7,9%
cmr0
10,0%
3,0%
2,5%
15,5%
das1
3,4%
1,1%
2,2%
6,7%
dms0
4,2%
1,5%
0,4%
6,1%
dtb0
4,7%
2,0%
0,6%
7,3%
dtd0
5,9%
2,0%
0,2%
8,1%
ers0
6,1%
2,1%
0,5%
8,7%
hxs0
7,8%
0,7%
2,4%
10,9%
jws0
4,1%
1,0%
0,2%
5,3%
pgh0
4,2%
2,4%
0,2%
6,9%
rkm0
8,7%
1,6%
4,2%
14,6%
tab0
2,9%
1,0%
0,2%
4,1%
Média
5,6%
1,8%
1,2%
8,5%
129
Tabela 3.3: Avaliação do erro de reconhecimento ao nı́vel da palavra do sistema independente do orador para cada orador do conjunto de teste de avaliação dependente
do orador.
sentamos os resultados obtidos para diferentes sistemas onde se variou o número
de unidades escondidas, mantendo fixas as dimensões das outras camadas, ou seja,
182 unidades na camada de entrada e 68 unidades de saı́da. Note-se que o sistema
com 150 unidades escondidas apresenta 37 718 parâmetros enquanto o sistema com
500 unidades escondidas apresenta 125 568 parâmetros.
Dos resultados da Tabela 3.4 conclui-se que, ao nı́vel da média dos oradores, o
aumento do número de parâmetros é efectivo até 350 unidades intermédias. Quando
se aumentou para 500 unidades não se verificou melhoria no nı́vel de desempenho
médio dos sistemas. Note-se que entre as 150 e as 350 unidades houve um aumento
de 233% no número de parâmetros a que correspondeu um decréscimo de 17% na
taxa de erros.
130
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
Número de unidades escondidas
Orador
150
200
350
500
bef0
5,5% 6,0% 4,6%
6,2%
cmr0
6,0% 5,4% 4,7%
4,5%
das1
2,4% 1,8% 2,6%
2,0%
dms0
3,2% 2,9% 2,5%
2,1%
dtb0
5,1% 4,0% 3,8%
3,4%
dtd0
4,9% 4,4% 4,3%
4,8%
ers0
6,8% 7,2% 5,9%
6,7%
hxs0
3,1% 2,6% 3,2%
2,4%
jws0
2,1% 2,1% 2,0%
1,9%
pgh0
4,2% 4,6% 3,6%
3,2%
rkm0
8,8% 9,5% 6,4%
7,0%
tab0
4,2% 4,2% 3,5%
3,1%
Média
4,7% 4,6% 3,9%
3,9%
Tabela 3.4: Erro de reconhecimento ao nı́vel da palavra para os sistemas dependentes do orador onde se variou a estrutura do MLP através do número de unidades
escondidas.
Quisemos analisar o efeito, no nı́vel de desempenho dos sistemas, do contexto
na entrada do MLP e do processo de normalização realizado sobre os padrões de
entrada. Nesse sentido realizámos duas experiências. Numa delas considerou-se a
entrada da rede sem contexto, ou seja, o MLP com uma camada de entrada correspondente a uma única trama de dimensão 26. Os resultados obtidos são apresentados na terceira coluna da Tabela 3.5. A outra experiência foi não realizar a operação
de normalização sobre os padrões de entrada na altura em que são apresentados à rede, tanto no treino como no teste. Os resultados obtidos são apresentados na quarta
coluna da Tabela 3.5. De referir que em ambas as experiências utilizou-se um MLP
com 200 unidades escondidas. Na segunda coluna da Tabela 3.5 apresentam-se os
resultados do sistema com contexto e com normalização conforme foram apresentados na Tabela 3.4.
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
c/ contexto
s/ contexto
131
c/ contexto
Orador
c/ normalização
c/ normalização s/ normalização
bef0
6,0%
10,5%
6,5%
cmr0
5,4%
7,2%
5,8%
das1
1,8%
3,5%
2,8%
dms0
2,9%
4,5%
4,2%
dtb0
4,0%
6,1%
4,5%
dtd0
4,4%
5,4%
4,9%
ers0
7,2%
9,1%
9,3%
hxs0
2,6%
4,1%
3,2%
jws0
2,1%
4,9%
2,6%
pgh0
4,6%
8,4%
4,8%
rkm0
9,5%
11,8%
9,0%
tab0
4,2%
5,5%
3,6%
Média
4,6%
6,8%
5,1%
Tabela 3.5: Erro de reconhecimento ao nı́vel da palavra para os sistemas dependentes do orador variando as caracterı́sticas do treino (contexto na entrada e
normalização das entradas). Estrutura com 200 unidades intermédias.
Dos resultados apresentados na Tabela 3.5 verificamos a degradação na taxa
de erros provocada pela inexistência de contexto na entrada e pela não realização
da operação de normalização das entradas. Verifica-se que a degradação provocada
pela normalização (11%) não é tão significativa como a provocada pela falta das
tramas de contexto na entrada. Note-se que nesta situação, como consequência
da inexistência do contexto, assiste-se, também, a uma diminuição do número de
parâmetros do MLP.
132
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
3.5.4 Sistema para a base de dados Wall Street Journal
A base de dados Wall Street Journal (WSJ) [Paul e Baker, 1992] constituiu um
grande passo no desenvolvimento de sistemas de reconhecimento da fala contı́nua
para grandes vocabulários. Resultante da colaboração entre o Stanford Research
Institute (SRI), Massachusetts Institute of Technology (MIT) e Texas Instruments
(TI), e com o patrocı́nio da DARPA, esta base de dados foi inicialmente, e parcialmente, distribuı́da em 1992 através de um Pilot Corpus, designado de WSJ0,
e posteriormente completada com a distribuição do WSJ1 em 1993. Associada ao
WSJ1 surgiu uma acção de avaliação patrocinada pela ARPA, que decorreu em Novembro de 1993, com o objectivo de avaliar o desempenho de diferentes sistemas
de reconhecimento através de um conjunto de caracterı́sticas iguais e controladas
[Pallett et al., 1994]. Esta avaliação tem sido, desde então, repetida anualmente.
Inicialmente os dados relativos ao WSJ1 só foram distribuı́dos aos grupos participantes na avaliação, sendo posteriormente distribuı́dos através do LDC.
A base de dados WSJ conduziu a um enorme desenvolvimento dos sistemas
de reconhecimento da fala contı́nua, dado que se passou a dispor de uma grande
quantidade de dados de treino, tanto a nı́vel de fala como de texto, com vocabulários
de treino com mais de 10 000 palavras e vocabulários de teste com 5 000 (5K),
20000 (20K) e 64 000 (64K) palavras.
Base de dados WSJ0 e WSJ1
No corpus do WSJ0 encontramos os dados divididos em treino, teste de desenvolvimento e teste de avaliação. No treino encontramos um conjunto independente
do orador (WSJ0 SI - short term training) com 84 oradores, onde para cada orador
gravado no MIT/SRI existem 100 ficheiros resultantes de um processo de leitura de
frases e para cada orador gravado na TI existem 50 ficheiros, também, resultantes
do mesmo processo. No total dispomos de 7 240 frases o que corresponde a mais de
15 horas de fala. Ainda no treino encontramos um conjunto dependente do orador
(WSJ0 SD/SI - long term training) de 12 oradores com 600 frases cada, num total de
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
133
7 201 frases, e um outro conjunto (WSJ0 longitudinal SD/SI - very long training) de
três oradores (contidos nos 12 anteriores) com 2 400 frases cada. Adicionalmente
para cada um dos oradores contidos no conjunto de treino encontramos 40 frases de
adaptação, iguais para todos os oradores. No teste de desenvolvimento e no teste
de avaliação encontramos conjuntos de teste para cada conjunto existente no treino.
Cada um desses conjuntos encontra-se disponı́vel para dicionários de 5K e de 20K
palavras.
No corpus do WSJ1 os dados foram, também, divididos em treino, teste de
desenvolvimento e teste de avaliação. No treino encontramos um conjunto independente do orador (WSJ1 short term training) com 200 oradores, onde por cada
orador foram gravadas 200 frases, resultantes de um processo de leitura das frases
de texto, num total de 30 278 frases. Encontramos ainda um conjunto dependente do orador (WSJ1 long term training) de 25 oradores com 1200 frases cada e
um conjunto de 20 oradores jornalistas (WSJ1 journalist training) com 200 frases
resultantes de leitura e 200 frases espontâneas, por cada orador. Adicionalmente
para cada um dos oradores contidos no conjunto de treino encontramos 40 frases de
adaptação, iguais para todos os oradores.
Na avaliação associada ao WSJ, realizada em Novembro de 1993, foram introduzidos um conjunto de testes de ı́ndole obrigatória (designados de HUB) e outros
de ı́ndole facultativa (SPOKE) [Pallett et al., 1994]. Nos HUBs, que eram dois,
pretendia-se comparar o desempenho dos sistemas em tarefas onde existia um conjunto de treino de dimensão elevada e onde o teste apresentava grandes vocabulários
na ordem das 5 000 (5K) e das 20 000 (20K) palavras. Nos SPOKEs, que eram nove, procurava-se avaliar o comportamento dos sistemas em diferentes condições,
como seja, diferentes ambientes, diferentes microfones, etc. Nos dados de teste de
desenvolvimento e de avaliação existiam conjuntos para cada um dos HUBs e dos
SPOKEs.
Em Novembro de 1994 realizou-se uma nova avaliação em que foram distribuı́dos só dados de teste sendo o treino baseado nos dados anteriores. Nas tarefas
associadas à avaliação de 1994 o SPOKE 4 compreendia a avaliação da adaptação
134
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
ao orador incremental, em ambos os modos não-supervisionado e supervisionado,
e que foi por nós utilizado no capı́tulo seguinte na avaliação de técnicas desse tipo
(secção 4.8). Este SPOKE baseava-se num vocabulário de 5K palavras.
Desenvolvimento e avaliação do sistema independente do orador
Um dos factores importantes introduzidos pelo WSJ foi o aumento significativo
de dados tanto ao nı́vel de texto como ao nı́vel de sinal de fala gravado. Como
resultado destes novos dados encontramos uma tarefa muito mais difı́cil devido ao
aumento substancial do vocabulário. Com vocabulários de teste de 5K e de 20K e
tendo em conta que no treino o vocabulário era de aproximadamente 10 000 palavras
houve uma enorme evolução comparativamente com o RM, que era uma tarefa com
um vocabulário de 991 palavras.
Os dados de treino no WSJ0, 7 240 frases, representavam um aumento significativo relativamente à base de dados RM, com 3 990 frases, dado que se registou um
aumento do número de frases e as frases passaram a ter uma duração média superior
à do RM. Com a introdução do WSJ1 o aumento foi, ainda, mais significativo.
O desenvolvimento por nós realizado do sistema independente do orador
baseou-se unicamente nos dados de treino disponı́veis a partir do WSJ0. O conjunto
de treino era constituı́do pelas 7 240 frases produzidas pelos 84 oradores de treino
(conjunto identificado na distribuição da base de dados como si tr s). Adicionalmente criámos um conjunto de validação com 320 frases, produzidas por 10 oradores, extraı́dos dos dados de teste de desenvolvimento (identificado como si dt 05).
O conjunto de teste inicial baseou-se em 330 frases correspondentes a 8 oradores
incluı́dos nos dados de teste de avaliação (identificado como si et 05). Tanto os
dados de validação como os dados de teste baseavam-se num vocabulário de 5K,
enquanto no treino o vocabulário era de mais de 10 000 palavras.
O dicionário de pronunciação por nós utilizado foi desenvolvido no LIMSI-
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
135
CNRS 1 . As etiquetas necessárias para a realização do treino dos modelos acústicofonéticos foram geradas automaticamente através de um processo de alinhamento
forçado baseado no sistema associado à base de dados TIMIT.
Definidos os diferentes conjuntos passou-se ao treino dos modelos acústicofonéticos, no nosso caso realizados através de um MLP treinado no RAP. Para se
tirar partido das caracterı́sticas de eficiência desta máquina é necessário que os dados de treino se encontrem na sua totalidade na memória dos processadores de
sinal que constituem o RAP. Essa memória terá de ser repartida pelos pesos das
ligações do MLP e pelos dados de treino e de validação. Nos testes efectuados com
a base de dados RM tı́nhamos concluı́do que para uma rede com uma arquitectura
não seria possı́vel ter mais de 1,7 milhões de tramas (de dimensão
26) em memória. O programa BoB [Kohn, 1994], desenvolvido no ICSI especificamente para o treino de MLPs no RAP, não realizava uma gestão muito eficiente da
memória. Nesse sentido o BoB foi modificado, trabalho realizado no nosso grupo,
de forma a aproveitar o máximo da memória disponı́vel no RAP. No caso do sistema
associado à base de dados RM a memória disponı́vel era suficiente. No entanto para
o WSJ0 isso já não acontecia. Obviamente que o BoB possuı́a um mecanismo que
lhe permitia modificar o conteúdo da memória ao longo do treino através de acesso
ao disco, mas que resultava numa perda acentuada de eficiência.
O nosso conjunto de treino apresentava 5 507 796 tramas de coeficientes, resultantes de uma análise PLP sobre segmentos de amostras do sinal de fala de 20 ms, e
com um ritmo entre segmentos de 10 ms. Dessa análise resultavam 12 coeficientes e
o logaritmo da energia e, adicionalmente, calculava-se uma estimativa das derivadas
de primeira ordem, culminando numa trama de 26 coeficientes. Comparativamente
com o RM tratava-se aproximadamente do quádruplo das tramas. Por outro lado,
como passámos a dispor de quatro vezes mais dados que no RM decidimos aumen-
tar o número de parâmetros da rede na mesma proporção. Assim definimos como
nosso objectivo uma arquitectura de
1
. A camada de entrada mante-
Queremos aqui deixar o nosso agradecimento à Dra. Lori Lamel do LIMSI-CNRS pela dispo-
nibilidade e colaboração prestada.
136
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
ve a mesma ordem de contexto acústico, com 7 tramas de entrada, quadruplicámos
o número de unidades intermédias e na saı́da passámos a ter 54 unidades correspondentes ao novo conjunto de fones (definido internacionalmente). De forma a
solucionarmos o problema do treino do MLP no RAP dividimos o conjunto de treino em quatro subconjuntos, tendo o cuidado de não partir os oradores através da
divisão dos subconjuntos. A cada um desses subconjuntos adicionámos o conjunto
de validação (o mesmo para todos os subconjuntos). Na Tabela 3.6 apresentamos a
dimensão final dos subconjuntos.
Conjunto
# Frases
# Oradores
# Tramas
Tamanho (MB)
1
1798+320
18
1 641 391
190
2
1800+320
18
1 599 099
185
3
1827+320
30
1 597 741
185
4
1815+320
18
1 598 657
185
Tabela 3.6: Divisão do conjunto de treino associado ao WSJ0 em quatro subconjuntos.
O treino foi realizado de acordo com o procedimento descrito para o sistema
básico (ponto 3.5.1). Esse procedimento foi aplicado inicialmente ao primeiro subconjunto e quando se deixou de verificar uma melhoria do desempenho sobre o
conjunto de validação passou-se ao subconjunto seguinte, e assim sucessivamente
aos outros subconjuntos. Por questões de validação de todo o processo de treino
optámos por começar por uma rede só com 2 000 unidades intermédias, situação
esta que nos permitia uma avaliação mais rápida do processo de treino. Na Tabela
3.7 apresentamos os resultados do treino efectuado com essa rede de 2 000 unidades
intermédias.
Como se verifica nos resultados da Tabela 3.7 o nosso sistema atingiu uma
classificação correcta de mais de 70% das tramas de treino e de 68% das tramas
do conjunto de validação. A saı́da desejada (ou a etiqueta) indica para cada trama de entrada qual a classe de saı́da (ou seja o fone) que lhe está associada. Por
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
Número de Conjunto de
137
Conjunto de
Conjunto
Iterações
Treino
Validação
1
8
73,79%
65,92%
2
3
72,53%
67,18%
3
3
69,62%
68,52%
4
3
70,84%
68,18%
Tabela 3.7: Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e de validação ao longo do processo de treino.
classificação correcta entende-se que a unidade de saı́da do MLP com activação
mais elevada corresponde à classe indicada através da saı́da desejada. Os resultados
finais apresentados para o quarto subconjunto mostram uma ligeira degradação no
nı́vel de reconhecimento sobre o conjunto de validação relativamente ao terceiro
subconjunto. Nesse sentido decidimos alterar a ordem dos subconjuntos e voltámos
a refazer o treino. Na Tabela 3.8 apresentamos os resultados desse treino.
Número de Conjunto de
Conjunto de
Conjunto
Iterações
Treino
Validação
1
8
73,79%
65,92%
2
3
72,53%
67,18%
4
3
71,65%
67,89%
3
3
69,60%
68,61%
Tabela 3.8: Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e de validação ao longo do processo de treino, tendo-se alterado a ordem dos
subconjuntos.
Com esta reordenação dos conjuntos verificou-se uma melhoria no nı́vel de
desempenho do sistema sobre o conjunto de validação, apesar da ligeira degradação
sobre o conjunto de treino.
138
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
De seguida avaliámos o nı́vel de desempenho do sistema ao nı́vel da palavra.
Nesta nossa avaliação utilizámos o descodificador NOWAY, anteriormente apresentado, com o dicionário de pronunciação desenvolvido no LIMSI-CNRS e com um
modelo de linguagem de bigramas extraı́do dos textos do WSJ. Este modelo de
linguagem foi-nos facilitado pelo CUED, através da nossa colaboração no âmbito
do projecto W ERNICKE, tendo sido posteriormente por nós obtido, directamente a
partir dos textos do WSJ [Martins, 1997]. O conjunto de teste, como vimos anteriormente, era composto de 330 frases correspondentes a 8 oradores e tratava-se do
conjunto de teste standard. Obtivemos, com o modelo acústico-fonético baseado
no MLP com 2 000 unidades intermédias, um erro de reconhecimento ao nı́vel da
palavra de 22,8%.
Na fase seguinte do nosso trabalho treinámos o MLP com 4 000 unidades intermédias. Os resultados que obtivemos para o treino encontram-se na Tabela 3.9.
Número de
Conjunto de Conjunto de
Conjunto
Iterações
Treino
Validação
1
7
73,76%
65,98%
2
3
72,57%
67,37%
4
1
70,61%
68,06%
3
3
70,04%
69,24%
Tabela 3.9: Resultados do reconhecimento ao nı́vel da trama para o conjunto de treino e de validação ao longo do processo de treino, para o MLP com 4 000 unidades
intermédias.
Este treino com as 4 000 unidades intermédias veio-nos trazer uma ligeira melhoria no desempenho do sistema, apesar de não muito significativa. Testámos este
novo sistema sobre o conjunto de teste e obtivemos um erro de reconhecimento ao
nı́vel da palavra de 21,4%.
Apesar da duplicação do número de parâmetros no modelo acústico-fonético
verificou-se apenas uma ligeira melhoria do desempenho ao nı́vel da trama e uma
3.5 Desenvolvimento de um sistema hı́brido para reconhecimento da fala contı́nua
139
melhoria relativa de aproximadamente 6% no erro de reconhecimento ao nı́vel da
palavra.
O passo seguinte foi a realização de um processo de realinhamento. O alinhamento inicial tinha sido obtido a partir do sistema treinado para a base de dados
TIMIT, que nos permitiu gerar as etiquetas associadas aos dados de treino. Treinado um novo modelo acústico-fonético sobre os dados do WSJ0, efectuámos um
novo processo de alinhamento forçado sobre os dados de treino utilizando esse novo
modelo. Espera-se assim obter um conjunto de novas etiquetas, para os dados de
treino, mais correcto.
A partir das novas etiquetas gerámos as novas saı́das desejadas e treinámos novamente o MLP partindo dos pesos do sistema anterior. Na Tabela 3.10 apresentamos os resultados obtidos no treino para um MLP com 4 000 unidades intermédias.
Número de Conjunto de
Conjunto de
Conjunto
Iterações
Treino
Validação
1
1
74,12%
68,64%
2
3
74,08%
68,61%
4
3
74,15%
70,02%
3
3
72,47%
70,10%
Tabela 3.10: Resultados do reconhecimento ao nı́vel da trama para o conjunto de
treino e de validação ao longo do processo de treino, para o MLP com 4 000 unidades intermédias após um processo de realinhamento.
O novo sistema apresenta, ao nı́vel da trama, um desempenho superior relativamente ao sistema antes do realinhamento. No entanto, estes resultados não podem
ser directamente comparáveis, dado que ao realizarmos um realinhamento estamos
a alterar a distribuição das etiquetas, e como consequência das saı́das desejadas.
Isso já não acontece quando avaliamos o desempenho do sistema sobre o conjunto
de teste. Com este sistema obtivemos para o erro de reconhecimento ao nı́vel da
palavra sobre o conjunto de teste um resultado de 22,9%. Este resultado foi extre-
140
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
mamente desencorajador dado que veio introduzir uma degradação relativamente à
situação anterior. Esta degradação não é para nós muito evidente. No entanto, já
tı́nhamos, em situações anteriores e nomeadamente na base de dados RM, verificado
que a um aumento do reconhecimento ao nı́vel da trama poderia corresponder uma
diminuição do desempenho do sistema ao nı́vel da palavra. Esta situação aceita-se
dado que a optimização que estamos a realizar se situa ao nı́vel da trama e não ao
nı́vel da palavra e é conhecido que não existe, necessariamente, uma relação directa
entre ambas [Bourlard e Morgan, 1994].
O ICSI, que participou na avaliação de Novembro de 1993 associada ao WSJ1,
tinha desenvolvido um MLP com uma estrutura semelhante à por nós realizada.
Apresentava uma camada de entrada alargada a 9 tramas de 38 coeficientes, o que
perfazia 342 unidades de entrada. Os coeficientes resultavam de uma análise PLP de
ordem 12 e onde se realizava uma estimativa das derivadas de primeira e de segunda
ordem. Destes coeficientes retirou-se o coeficiente correspondente ao logaritmo
da energia, resultando um total de 38 coeficientes. A camada intermédia possuı́a
4000 unidades e a camada de saı́da apresentava 61 unidades, correspondentes aos
fones da base de dados TIMIT. Na avaliação o sistema apresentado pelo ICSI tinha
obtido sobre o conjunto de teste de 1993 (WSJ1-HUB2) um resultado, para o erro
de reconhecimento ao nı́vel da palavra, de 16,6%. Este conjunto de teste que foi
distribuı́do com a base de dados WSJ1 era composto de 215 frases relativas a 10
oradores e incluia-se no vocabulário de 5K.
Dada a nossa colaboração com o ICSI, no âmbito do projecto W ERNICKE,
foi possı́vel obter o conjunto de pesos do MLP por eles utilizados na avaliação.
Inicialmente, o valor do desempenho do sistema por nós obtido no teste foi bastante
inferior ao obtido pelo ICSI, mas após um perı́odo de colaboração percebemos que
na base de dados WSJ0 era importante realizar um pré-processamento para retirar
uma componente contı́nua que os ficheiros de fala apresentavam. Ao aplicarmos
esse pré-processamento obtivemos um resultado idêntico ao por eles apresentado.
3.6 Consideraç ões finais
141
Utilizando agora este pré-processamento sobre os conjuntos de teste avaliámos
o MLP de 2 000 unidades intermédias, por nós anteriormente desenvolvido, e obtivemos sobre o conjunto de teste de 93 (WSJ1-HUB2) um erro de reconhecimento
de 20,8% e sobre o conjunto de teste de 92 (WSJ0) um erro de reconhecimento de
15,7%. O passo seguinte deveria passar pelo treino do MLP, em que se realizaria o
mesmo tipo de pré-processamento sobre os ficheiros de treino, situação em que estarı́amos nas mesmas condições das utilizadas pelo ICSI. Este passo nunca chegou
a ser realizado tendo o nosso trabalho evoluı́do no sentido da adaptação ao orador,
trabalho que apresentaremos no capı́tulo seguinte.
3.6 Considerações finais
Neste capı́tulo dedicámo-nos ao estudo e desenvolvimento de modelos hı́bridos
aplicados ao reconhecimento da fala contı́nua. Estes modelos, que têm sido alvo de
interesse desde o inı́cio da década, pela comunidade cientı́fica internacional, estão
na base de todo o nosso trabalho, incluindo o trabalho de adaptação ao orador, que
apresentaremos no capı́tulo seguinte.
O ressurgimento do interesse nas redes neuronais artificiais trouxe um melhor
conhecimento das vantagens e limitações destes modelos. Uma das áreas que mais
beneficiou com este desenvolvimento foi a do reconhecimento de padrões, onde
as redes neuronais artificiais se mostraram úteis devido à sua capacidade de gerar
associações entre padrões numa situação de classificação estática. Este desenvolvimento estendeu-se naturalmente ao reconhecimento da fala através da aplicação de
diferentes estruturas para o reconhecimento de palavras isoladas.
Apesar dos progressos alcançados através do desenvolvimento de estruturas
com atrasos temporais e com ligações recorrentes que permitiram modelar relações
temporais de curta duração, não se conseguiram, ainda, criar condições para um
modelamento da dependência temporal de longa duração como é necessário no reconhecimento da fala contı́nua.
142
Capı́tulo 3 - Modelos Hı́bridos para Reconhecimento da Fala Contı́nua
Os modelos hı́bridos articulando as caracterı́sticas das redes neuronais artificiais, como classificadores estáticos, com a capacidade de modelamento da estrutura temporal da fala própria dos HMMs têm-se mostrado como uma alternativa
válida aos métodos clássicos. Os resultados apresentados para os sistemas por nós
desenvolvidos ao longo deste capı́tulo ilustram bem a aplicabilidade destes modelos.
Capı́tulo 4
Adaptação ao orador no âmbito dos
modelos hı́bridos
Na maioria dos sistemas actuais de reconhecimento da fala contı́nua existe associada uma caracterı́stica de independência do orador, que resulta, essencialmente,
da necessidade de uma aplicação o mais ampla possı́vel para esses sistemas de reconhecimento. Esta caracterı́stica de independência do orador é conseguida através da
utilização, no treino do sistema, de um conjunto elevado e diversificado de oradores.
Quanto mais elevado for o número de oradores e maior a sua diversidade, em termos
das suas caracterı́sticas, maior é a representatividade desse conjunto relativamente
ao universo de utilizadores potenciais do sistema.
No entanto, verifica-se que o desempenho destes sistemas nem sempre é uniforme para os vários oradores, havendo alguns com taxas de erro muito mais elevadas
do que a média. Esta situação resulta de algumas das caracterı́sticas particulares
apresentadas por esses oradores. Os sistemas independentes do orador, dada a forma como são realizados, têm que lidar tanto com a variabilidade própria do orador,
como com a variabilidade entre oradores. Esta situação provoca uma grande dispersão nos modelos, representativos do modelamento acústico-fonético, resultando
numa redução da capacidade de modelamento para cada um dos oradores em parti-
144
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
cular.
Contudo, existem aplicações dos sistemas de reconhecimento da fala contı́nua
que requerem a utilização de um único orador, como é, por exemplo, o caso dos
sistemas de ditado. No desenvolvimento deste tipo de aplicações admite-se uma
caracterı́stica de dependência do orador. No treino destes sistemas torna-se necessário uma grande quantidade de dados de treino associada a um único orador.
Esta situação traduz-se num maior perı́odo de tempo para o desenvolvimento do
sistema pelo orador, dado que precisa de gerar uma enorme quantidade de dados
de fala, num maior perı́odo de tempo até que o sistema esteja disponı́vel, condições
estas que provocam, obviamente, uma maior sobrecarga sobre um único orador.
No entanto, todo este trabalho resulta num sistema cujo desempenho, para aquele orador, é bastante superior relativamente a um sistema independente do orador.
É normalmente aceite que a taxa de erros de um sistema dependente do orador
é, aproximadamente, metade da taxa de erros do sistema independente do orador
[Huang e Lee, 1993] para o mesmo conjunto de dados de teste.
No intuito de procurar diminuir as diferenças entre estes dois tipos de sistemas
têm-se estudado e desenvolvido técnicas de normalização do orador e de adaptação
dos sistemas ao orador. Diversas técnicas têm sido desenvolvidas com sucesso no
âmbito de sistemas baseados em HMMs, com principal incidência na adaptação dos
modelos acústico-fonéticos.
O objectivo do trabalho realizado, e apresentado neste capı́tulo, atendendo a
que trabalhamos no âmbito de modelos hı́bridos, é mostrar que os modelos hı́bridos
contêm, também, caracterı́sticas passı́veis de se aplicar adaptação ao orador. Nesse
sentido apresentaremos um conjunto de técnicas de adaptação ao orador aplicadas
à componente do modelo hı́brido que usa as redes neuronais artificiais, ou seja, aos
modelos acústico-fonéticos.
4.1 Introdução à adaptação ao orador
145
4.1 Introdução à adaptação ao orador
Na evolução verificada nos sistemas de reconhecimento da fala esteve sempre
presente a necessidade de compensação das caracterı́sticas de variabilidade próprias
dos oradores. Nesse sentido assistimos ao desenvolvimento de sistemas onde se procurava a independência relativamente ao orador. Dadas as dificuldades em construir
um sistema verdadeiramente independente do orador, conjugada muitas vezes com a
impraticabilidade da aplicação de um sistema dependente do orador, procuraram-se
definir procedimentos que permitissem, de algum modo, compensar essas dificuldades. Nesse sentido desenvolveram-se várias técnicas que, através de um processo de
normalização e/ou adaptação ao orador, procuraram criar nos modelos uma maior
capacidade de modelamento da variabilidade dos oradores.
4.1.1 Variabilidade dos oradores
A forma como um orador produz uma determinada frase reflecte um conjunto
especı́fico de caracterı́sticas pessoais desse orador, como sejam o seu sexo, a sua
idade, a sua altura, o seu peso, o seu sotaque, o seu nı́vel cultural e social, e um
conjunto de caracterı́sticas instantâneas dependentes do seu estado fı́sico e mental,
como sejam a fadiga, a fúria, o stress, uma constipação, etc. Essas caracterı́sticas
têm repercussões naturais sobre o sinal da fala, tanto ao nı́vel acústico como ao
nı́vel fonológico.
As diferenças fisiológicas resultantes em diferentes atributos do tracto vocal,
como sejam a dimensão das cavidades nasal e oral e de diferentes capacidades respiratórias, produzem diferenças significativas no sinal ao nı́vel acústico. As diferenças
de sotaque entre os oradores estão na base de diferentes pronunciações com reflexos ao nı́vel fonológico. Além disso, o nı́vel cultural e social patenteado pelo orador
tem influência na sua linguagem tanto ao nı́vel da terminologia utilizada como no
modo de pronunciação.
Existem, ainda, outros efeitos transitórios como sejam um estado fı́sico de fadi-
146
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
ga que leva o orador a produzir um sinal mais baixo e mais pausado, enquanto num
estado de fúria se produz um sinal mais potente e mais rápido. Por outro lado, um
orador num perı́odo de constipação apresenta dificuldades respiratórias e obstrução
da cavidade nasal tendo, como consequência, uma dificuldade em produzir sons
nasalados.
Além destas diferenças encontramos oradores que apresentam, naturalmente,
ritmos de produção da fala elevados, denominados oradores rápidos. Esta sua
especificidade provoca o aumento dos efeitos de co-articulação levando a que as
caracterı́sticas espectrais da fala por eles produzida sejam diferentes das caracterı́sticas da fala produzida a um ritmo normal. Ao nı́vel fonológico, os oradores
rápidos, violam frequentemente as restrições de duração impostas pelos modelos
das palavras, chegando, por vezes, mesmo a omitir por completo certos fonemas
[Mirghafori et al., 1995].
Apesar de todas estas alterações sofridas pelo sinal da fala verifica-se que o
homem não vê diminuı́das as suas faculdades de entendimento da mensagem veiculada através do sinal da fala. Este facto permite-nos admitir que o cérebro humano
realiza uma determinada normalização da fala que filtra os efeitos provocados por
estas caracterı́sticas individuais do orador.
Pelo contrário, os sistemas de reconhecimento apresentam uma enorme
degradação no seu nı́vel de reconhecimento quando as caracterı́sticas dos oradores diferem, mesmo que ligeiramente, do modelo criado durante o treino do sistema. Essas diferenças nas caracterı́sticas resultam da variabilidade própria entre
oradores, mas também da variabilidade apresentada pelo mesmo orador ao longo
do tempo [Alamo et al., 1996].
De forma a colmatar a incapacidade dos sistemas de reconhecimento em lidar
com a variabilidade dos oradores têm sido desenvolvidas técnicas que procuram
através de um processo de normalização do orador ou através da adaptação do sistema ao orador reduzir os efeitos desta variabilidade sobre o nı́vel de desempenho
dos sistemas.
4.1 Introdução à adaptação ao orador
147
4.1.2 Normalização do orador versus adaptação ao orador
Em simultâneo com o desenvolvimento dos sistemas de reconhecimento tem-se
procurado introduzir técnicas para diminuir o efeito negativo resultante da variabilidade provocada pelos oradores. As diferentes técnicas apresentadas são normalmente agrupadas em duas grandes classes: normalização do orador e adaptação ao
orador.
O objectivo comum das diferentes técnicas de normalização do orador é construir um novo espaço normalizado tal que a fala de qualquer orador seja projectada
nesse novo espaço de forma a minimizar as diferenças entre os oradores. Nesta
situação, o reconhecimento não se aplica directamente sobre a realização acústica
produzida pelo orador, mas sim, sobre o sinal resultante da projecção efectuada
sobre o novo espaço normalizado. Apesar das diferentes técnicas desenvolvidas a
definição de uma projecção geral num espaço normalizado tem-se mostrado difı́cil
de obter [Leggetter, 1995].
Na adaptação ao orador procura-se um alinhamento entre o modelo interno
do sistema e as caracterı́sticas do novo orador. Nesse sentido têm-se desenvolvido técnicas que adaptam a fala do novo orador, de uma forma semelhante à
normalização do orador, ou que adaptam o modelo interno do sistema de forma
a melhor representar o novo orador, ou, então, que adaptam ambas.
4.1.3 Técnicas de adaptação ao orador nos sistemas clássicos de
reconhecimento
A procura de técnicas de normalização e de adaptação ao orador, de modo a
diminuir os efeitos da variabilidade própria dos oradores, sempre constituiu um problema interessante para a comunidade cientı́fica a trabalhar no reconhecimento da
fala. Na bibliografia associada a esta dissertação encontramos inúmeras referências
relativas a diferentes técnicas de normalização e de adaptação ao orador realizadas no âmbito dos sistemas clássicos de reconhecimento, com principal ênfase nos
148
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
HMMs. De entre elas salientamos um trabalho recente [Leggetter, 1995] onde algumas destas técnicas são revistas.
Muitas das técnicas de adaptação ao orador estão em grande medida dependentes do sistema e método de reconhecimento ao qual são aplicadas. No entanto, é
possı́vel agrupar as diferentes técnicas em três categorias básicas:
Classificação do orador - A representação dos oradores é feita a partir de
diferentes modelos que podem representar as caracterı́sticas de um orador ou
de um cluster de oradores. No reconhecimento dos dados de um novo orador
selecciona-se o modelo mais apropriado para representar esse orador.
Técnicas de transformação espectrais - Realiza-se um mapeamento do
espaço das caracterı́sticas do novo orador sobre um novo espaço mais apropriado para o modelo de reconhecimento. A normalização do orador baseia-se
neste tipo de técnicas.
Re-estimação dos parâmetros dos modelos - Modificação dos parâmetros
do modelo a partir dos dados de adaptação fornecidos pelo novo orador.
Associadas aos sistemas clássicos de reconhecimento, como sejam os HMMs,
têm sido desenvolvidas um conjunto de diferentes técnicas repartidas pelas três categorias básicas enunciadas anteriormente. Cada uma destas categorias apresenta um
conjunto de caracterı́sticas próprias, sendo uma das mais relevantes a quantidade de
dados necessária para a realização das respectivas técnicas.
Nas técnicas baseadas na classificação do orador, dado que não existe
modificação dos modelos existentes, são necessários poucos dados de adaptação
já que são aplicados simplesmente na selecção do modelo mais apropriado. No
entanto o desempenho do sistema para o novo orador depende da diversidade dos
modelos existentes e da representatividade desses modelos relativamente ao novo
orador.
As técnicas baseadas na re-estimação dos parâmetros dos modelos requerem
uma quantidade de dados elevada, dado que envolvem a modificação de um grande
4.1 Introdução à adaptação ao orador
149
número de parâmetros. Comparativamente as técnicas de transformação espectrais,
que se baseiam numa transformação que envolve a estimação de um novo conjunto
de parâmetros, mas em que o número de parâmetros não é muito elevado, necessitam de mais dados do que as da primeira categoria, mas não tantos como as da
terceira.
Existem duas formas básicas para a aquisição dos dados de fala para a
realização da adaptação ao orador:
Adaptação off-line ou estática onde cada novo utilizador do sistema tem de
passar por uma fase inicial de aquisição de dados de fala, na qual lhe é pedido
que diga um texto pré-definido. Este texto é mais curto do que o normalmente
requerido para o treino de um sistema dependente do orador, mas, mesmo
assim, são necessárias quantidades de fala entre 5 a 15 minutos.
Adaptação on-line ou incremental onde a adaptação do sistema ao novo utilizador ocorre em simultâneo com o reconhecimento, pelo sistema, do que foi
dito pelo utilizador. Nesta situação não existe uma separação entre o conjunto de treino e o conjunto de teste, sendo a adaptação realizada de uma forma
perfeitamente transparente para o utilizador.
Estas duas formas de aquisição de dados têm diferentes implicações tanto ao
nı́vel do desempenho do sistema como ao nı́vel de conveniência para o orador. Com
a adaptação off-line é esperado que se consiga um melhor nı́vel de reconhecimento
desde o inı́cio, mas a fase inicial de aquisição de dados de fala pode ser inconveniente para o utilizador, e nalguns casos mesmo impraticável, como por exemplo
no caso do acesso público a bases de dados por telefone. Pelo contrário, um sistema com adaptação on-line, dado que usa a saı́da do reconhecedor para realizar a
adaptação, não se encontra, desde o inı́cio, muito bem adaptado ao utilizador.
Normalmente, as técnicas de adaptação ao orador baseiam-se numa aprendizagem supervisionada onde se admite conhecer a classificação dos dados utilizados
no treino da adaptação. No entanto, ao evoluirmos para uma adaptação incremental,
150
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
onde os dados de adaptação resultam da utilização directa do sistema, encontramonos numa situação em que não conhecemos a priori o conteúdo desses dados sendo
necessário basear o treino em técnicas de aprendizagem não-supervisionadas.
4.2 Adaptação ao orador nos modelos hı́bridos
A aplicação das Redes Neuronais Artificiais ao problema do reconhecimento da
fala é recente, e, ainda, mais recente é o desenvolvimento dos modelos hı́bridos nos
quais se insere o nosso trabalho. O problema especı́fico que pretendı́amos abordar
era o do desenvolvimento de técnicas de adaptação ao orador no âmbito dos modelos
hı́bridos.
Diferentes técnicas de adaptação ao orador têm sido desenvolvidas com enorme sucesso no âmbitos dos sistemas de reconhecimento baseados em HMMs. Essas técnicas foram surgindo na tentativa de compensar os efeitos da variabilidade
dos oradores, que se reflectiam negativamente no desempenho dos sistemas, e, em
particular, para tentar diminuir a diferença entre o desempenho dos sistemas independentes e dependentes do orador.
Ao iniciarmos o nosso trabalho, e dado que os modelos hı́bridos eram recentes, não havia ainda trabalho anterior em termos de adaptação ao orador. No entanto, as redes neuronais artificiais, e em particular o MLP, já tinham despertado
a atenção, começando-se a perceber que estes modelos possuı́am um conjunto de
caracterı́sticas potenciais para serem exploradas na adaptação e normalização do
orador.
Nesse sentido temos o trabalho de Choukri [Choukri et al., 1990] onde é apresentada uma técnica de normalização do orador, baseada na utilização de um MLP,
que consiste na realização de uma transformação do espectro das palavras do novo orador para o espectro das palavras correspondentes do orador de referência.
Através desta técnica realiza-se uma operação de normalização do novo orador sobre o espaço do orador de referência. O MLP é treinado para realizar o mapeamento
4.2 Adaptação ao orador nos modelos hı́bridos
151
entre os espectros das palavras produzidas pelo novo orador e pelo orador de referência, que tinham sido previamente alinhadas através do DTW. Trata-se de uma
situação de reconhecimento de palavras isoladas através de um sistema dependente
do orador, onde é possı́vel definir a figura do orador de referência. Após a realização
do processo de normalização, a nova representação espectral das palavras é aplicada
num sistema de reconhecimento baseado nos HMMs.
Outro autor que utilizou, também, o MLP na tarefa de normalização do orador
foi Huang [Huang, 1991]. No seu trabalho o objectivo era o desenvolvimento de
técnicas de adaptação ao orador no âmbito dos SCHMM (Semi-Continuous Hidden
Markov Models) e numa tarefa de reconhecimento da fala contı́nua associada à base
de dados RM. A adaptação ao orador efectuava-se através da adaptação do vector
de médias do livro de códigos (codebook) e da adaptação das distribuições de saı́da.
Neste trabalho o MLP surge unicamente associado a uma tarefa de normalização do
orador.
O objectivo era transformar as tramas de coeficientes cepstrum da fala do novo orador para as correspondentes do orador de referência. Dada a necessidade
da figura do orador de referência a normalização faz-se a partir dos sistemas dependentes do orador. A correspondência necessária entre as tramas de entrada do
MLP, relativas ao novo orador, e a saı́da desejada, relativa ao orador de referência,
resultam de um processo de alinhamento, utilizando o algoritmo de DTW, entre as
frases dos dois oradores. Na entrada do MLP são apresentadas em simultâneo 3
tramas de 13 coeficientes cepstrum relativas à fala do novo orador. A trama gerada
na saı́da representa a trama de coeficientes normalizada, de forma a aproximar a
trama do orador de referência correspondente à trama central presente na entrada.
A utilização de várias tramas na entrada do MLP serve para aliviar possı́veis erros do DTW e possibilitar, ainda, a incorporação de informação dinâmica do sinal
de entrada. Dada a dificuldade em treinar uma rede não-linear, devido ao número
reduzido de parâmetros e ao número elevado de padrões, são adicionadas ligações
directas entre as unidades de entrada e as unidades de saı́da.
O mapeamento criado através do MLP resulta da optimização da função de
152
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
custo à saı́da do MLP e não à saı́da do SCHMM como o autor pretendia (apesar
de afirmar que essa situação é “straighforward”) o que obriga a usar a figura do
orador de referência e sistemas dependentes do orador, em vez do desejado sistema independente do orador. Os resultados apresentados baseiam-se num sistema
dependente do orador, relativo ao orador escolhido como de referência, e onde se
testam outros 3 oradores antes do treino do MLP (41,9% de erro ao nı́vel da palavra
em média) e após o treino dos MLPs (6,8% de erro em média). No entanto, o autor
não integra esta operação de normalização do orador no sistema global de adaptação
apresentado para os SCHMM.
Este trabalho de adaptação ao orador no âmbito dos SCHMM foi, também, posteriormente apresentado nos artigos [Huang e Lee, 1991] e [Huang e Lee, 1993].
Estes artigos tornaram-se num marco de referência obrigatória em termos da metodologia utilizada para avaliação das técnicas de adaptação ao orador. Nestes artigos
são apresentados os resultados de um sistema independente do orador (SPHINX da
CMU) [Lee, 1989] sobre os oradores de teste e o desenvolvimento de sistemas dependentes do orador para esses mesmos oradores de teste. As técnicas de adaptação
ao orador são avaliadas com diferentes quantidades de dados de adaptação, partindo do sistema independente do orador. Nestes artigos mostram-se as diferenças de
desempenho entre um sistema independente e dependente do orador, e que partindo
de um sistema independente do orador, e através da adaptação ao orador, é possı́vel
atingir o desempenho do sistema dependente do orador, desde que existam dados
de adaptação suficientes.
O mesmo autor em [Huang, 1992] apresenta uma modificação ao procedimento de normalização anterior, onde pretende substituir o mapeamento global gerado
pelo MLP em vários mapeamentos treinados sobre uma região especı́fica do espaço
de entrada. Cada um desses mapeamentos é realizado por um MLP, necessariamente com um número inferior de parâmetros comparado com o MLP global. As
regiões no espaço de entrada poderão representar classes acústicas. Estas regiões
são geradas automaticamente através de um procedimento auto-organizativo baseado no algoritmo LBG [Ferreti e Scarci, 1989]. Após o treino das redes individuais
153
4.2 Adaptação ao orador nos modelos hı́bridos
a sua selecção é feita através da mais provável, ou das
melhores, baseando-se
em medidas de verosimilhança acústica. O número de regiões é definido como um
parâmetro do algoritmo e determinado experimentalmente.
Os trabalhos anteriores utilizavam o MLP numa situação de normalização do
orador dissociada do sistema de reconhecimento baseado nos HMMs. Esta situação
permitia o treino separado do MLP, mas obrigava à existência do conceito de orador
de referência, que só era possı́vel através de sistemas dependentes do orador.
Em simultâneo com os desenvolvimentos por nós efectuados em termos de
adaptação ao orador no âmbito dos modelos hı́bridos surgiram alguns trabalhos que
se tornam importantes de referir.
Em [Konig e Morgan, 1993] é apresentado um sistema hı́brido, onde um MLP
realiza o modelo acústico-fonético de uma forma idêntica à por nós utilizada, e onde
adicionalmente às tramas de caracterı́sticas se inclui informação sobre os oradores.
Esta informação é passada à camada escondida do MLP em paralelo com a camada
de entrada. A informação resulta de numa primeira fase se dividir os oradores em
duas classes de acordo com o seu sexo (masculino e feminino), e, adicionalmente,
dentro de cada classe se agruparem os oradores em vários clusters. O objectivo
é codificar através dessas ligações informações que caracterizem o orador, que ao
aceder ao sistema passa por uma fase inicial de classificação.
Em [Abrash et al., 1995] foi apresentada uma técnica de normalização do orador aplicada na entrada de um MLP, que actua novamente como o modelo acústicofonético de um sistema hı́brido, e que é idêntica à transformação dos parâmetros
acústicos por nós realizada (ver ponto 4.3.2). Adicionalmente, utiliza-se uma
técnica de adaptação onde se modificam os pesos do MLP que realiza o sistema
independente do orador e que é também semelhante à transformação por nós realizada (ver ponto 4.4.1). Neste artigo os autores realizam ainda uma outra experiência
que resulta da combinação de ambas as técnicas. Estas técnicas foram aplicadas ao
Spoke 3 (nonnative speakers adaptation) e Spoke 4 (native speakers) do conjunto
154
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
de teste associado à avaliação de 1993 do WSJ. Os resultados obtidos em ambas as
técnicas foram positivos, apesar de na combinação das duas técnicas não ter havido
uma melhoria relevante.
Em [Abrash, 1997] é proposta uma nova técnica baseada na combinação de
transformações na entrada do MLP, novamente no âmbito de um sistema hı́brido.
Com esta técnica pretende-se dividir o espaço de caracterı́sticas acústicas em
re-
giões e treinar uma transformação de entrada para cada região. As transformações
são combinadas probabilisticamente de acordo com o grau com que as caracterı́sticas acústicas pertencem a cada região, e onde a combinação dos pesos de
cada transformação é derivada a partir de uma rede separada (denominada Acoustic
Gating Network). Esta técnica foi avaliada no conjunto de teste de desenvolvimento
do WSJ de 1993 Spoke 3 (nonnative speakers). Esta técnica não é muito efectiva já
que conduz a um ligeiro decréscimo no erro de reconhecimento quando comparada
com uma transformação global (de 23,6% para 22,5% de erro ao nı́vel da palavra),
mas com a necessidade de um aumento significativo do número de parâmetros (de
54 990 para 2 639 520).
O nosso trabalho, em termos da adaptação ao orador, tinha como objectivos explorar as capacidades proporcionadas pelo MLP para a realização da adaptação ao
orador e integrar essa realização directamente num sistema independente do orador, procurando, assim, ultrapassar os problemas introduzidos pelo conceito de
orador de referência. O nosso trabalho insere-se no âmbito dos modelos hı́bridos
MLP/HMM de reconhecimento da fala contı́nua, onde o MLP é utilizado no modelamento acústico-fonético, conforme analisámos no capı́tulo anterior.
Na procura destes objectivos explorámos duas classes básicas de técnicas de
adaptação ao orador:
Determinação de uma transformação partindo dos parâmetros de um sistema central, independente do orador, para um novo conjunto de parâmetros
especı́ficos para o novo orador.
155
4.3 Adaptação ao orador baseada em transformaç ões
Adaptação dos parâmetros do modelo hı́brido, partindo de um sistema central,
independente do orador, para um novo modelo mais representativo do novo
orador.
É este trabalho de adaptação ao orador que apresentaremos nas secções seguintes através do desenvolvimento de várias técnicas de adaptação ao orador.
Optámos por apresentá-las agrupadas em função do seu modo de operação e, assim, dividimo-las em técnicas baseadas em transformações (secção 4.3) e técnicas
baseadas na adaptação dos parâmetros do sistema (secção 4.4). Na secção 4.5 realizamos uma comparação das técnicas por nós desenvolvidas. Na secção 4.6 abordamos a adaptação ao orador a partir de sistemas dependentes do orador. Nas secções
4.7 e 4.8 generalizámos a técnica que melhores resultados apresentou de forma a
acomodar aprendizagem não supervisionada e adaptação incremental.
4.3 Adaptação
ao
orador
baseada
em
transformações
Nesta secção apresentaremos o nosso trabalho de desenvolvimento e avaliação
de duas técnicas diferentes para adaptação ao orador aplicadas a um sistema hı́brido
MLP/HMM, independente do orador, através da realização de transformações apropriadas na entrada e saı́da do modelo acústico-fonético do sistema.
Algumas técnicas de adaptação ao orador baseadas em transformações têm sido
desenvolvidas com sucesso nos sistemas de reconhecimento baseados em HMMs.
No entanto encontramo-nos perante uma situação diferente dado que no nosso sistema o modelo acústico-fonético é baseado no MLP. Basicamente, duas técnicas
diferentes foram estudadas e desenvolvidas por nós:
Transformação dos parâmetros ao nı́vel fonético
Nesta técnica criou-se uma transformação linear entre as estimativas da probabilidade a posteriori dos fones ou fonemas, geradas pelo sistema indepen-
156
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
dente do orador, e uma nova estimativa adaptada às caracterı́sticas do novo
orador.
Transformação dos parâmetros acústicos
Nesta técnica criou-se uma transformação linear dos vectores de caracterı́sticas do novo orador, gerando-se um novo conjunto de vectores de caracterı́sticas adaptados ao modelo independente do orador.
Ambas as técnicas são semelhantes em termos de implementação.
Na
transformação dos parâmetros ao nı́vel fonético criámos uma Rede Linear de Saı́da
(RLS), que é constituı́da por uma camada linear ligada à camada de saı́da do MLP
que realiza o modelo acústico-fonético independente do orador e que designaremos por MLP-IO. No caso da transformação dos parâmetros acústicos adicionámos
na entrada uma Rede Linear de Entrada (RLE), que é constituı́da por uma camada
linear colocada na entrada do MLP-IO.
O desenvolvimento e avaliação destas técnicas efectuou-se a partir da base de
dados RM, apresentada no ponto 3.5.3 do capı́tulo anterior. Como referido o desenvolvimento destas técnicas parte de um sistema central, independente do orador, e
que foi por nós apresentado no ponto 3.5.3 do capı́tulo anterior, no desenvolvimento
relativo à base de dados RM.
4.3.1 Rede Linear de Saı́da (RLS)
Através desta técnica pretende-se criar uma transformação linear de forma a
que as estimativas da probabilidade a posteriori obtidas na saı́da do MLP-IO sejam
modificadas para melhor representarem as estimativas das probabilidades correspondentes ao novo orador. Para a realização desta transformação adicionamos uma
rede na saı́da do MLP-IO, cuja saı́da passa a representar a nova estimativa das probabilidades a posteriori para o novo orador. Esta rede adicional vai ser treinada
sobre os dados de adaptação do novo orador.
A nova rede é baseada numa única camada linear. Esta camada encontra-se to-
157
4.3 Adaptação ao orador baseada em transformaç ões
...
...
...
RLS
MLP-IO
...
...
...
...
Figura 4.1: Representação esquemática da transformação dos parâmetros ao nı́vel
fonético usando a Rede Linear de Saı́da (RLS).
talmente ligada à camada de saı́da do MLP-IO, conforme se observa na Figura 4.1.
Os pesos das ligações entre estas camadas são inicializados como uma matriz identidade, sendo posteriormente adaptados de forma a melhorar a classificação (melhores estimativas da probabilidade a posteriori) do novo orador em consideração.
Durante o treino desta nova rede, e após cada actualização, os pesos são normaliza-
dos de forma a obedecerem às seguintes restrições:
onde
representa o peso entre a unidade da camada de saı́da do MLP-IO e a
unidade da nova camada da RLS. Esta normalização resulta de querermos manter
a saı́da da RLS como uma probabilidade, que no caso do MLP-IO era conseguido
através da utilização da função softmax.
Partindo de um sistema hı́brido MLP/HMM, independente do orador, o processo de adaptação pode ser formulado nos seguintes passos:
158
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Consideremos um orador do conjunto de teste.
1. Aplicação do modelo acústico-fonético do sistema independente do orador (MLP-IO) aos dados de adaptação do novo orador (do que resulta
um conjunto de estimativas da probabilidade a posteriori dadas pelo modelo independente do orador sobre os dados de adaptação do novo orador).
2. Realização de um alinhamento de Viterbi sobre os dados de adaptação
do novo orador, a partir das estimativas da probabilidade a posteriori
geradas pelo modelo independente do orador.
3. Treino separado da nova camada linear (RLS) para transformar as estimativas produzidas pelo modelo independente do orador (MLP-IO) de
acordo com o resultado do alinhamento de Viterbi (deste processo de
treino resulta um conjunto de pesos especı́ficos para o novo orador).
Repetição dos passos anteriores para cada orador no conjunto de teste.
Este processo de adaptação permite-nos obter uma RLS para cada um dos oradores.
A avaliação do desempenho do sistema, antes e após a aplicação desta técnica
de adaptação ao orador, efectuou-se através da base de dados Resource Management (RM) apresentada no ponto 3.5.3 do capı́tulo anterior. Nos primeiros testes
realizados, no desenvolvimento desta técnica, utilizámos os ficheiros SB (10 frases
para cada orador nos conjuntos de teste standard) para adaptação ao orador. Tratase de um conjunto de dados de treino bastante reduzido (por cada orador existiam
disponı́veis 10 frases que consistiam num total aproximado de 40 segundos de fala).
Como vimos no capı́tulo anterior, aquando do desenvolvimento dos sistemas independentes do orador, para o treino do MLP torna-se importante a definição de um
conjunto de validação, representativo e disjunto do conjunto de treino, que permita
definir o ponto de paragem do treino. Esta situação constituı́a um obstáculo dada a
exiguidade dos dados de treino existentes. Nesse sentido considerámos diferentes
alternativas para a definição da validação a efectuar:
159
4.3 Adaptação ao orador baseada em transformaç ões
com conjunto de validação
– avaliação do erro quadrático sobre o conjunto de validação
– avaliação do número de tramas do conjunto de validação classificadas
correctamente
sem conjunto de validação
– avaliação da percentagem de erro ao nı́vel da palavra sobre o conjunto
de treino
A definição do critério de paragem do treino através da avaliação do erro quadrático sobre o conjunto de validação constitui a situação normalmente utilizada no
treino dos MLPs. Como o erro quadrático não nos dava directamente a informação
de as tramas se encontrarem correctamente classificadas definimos um novo critério
baseado na avaliação do número de tramas correctamente classificadas no conjunto
de validação. O terceiro critério permite-nos avaliar a medida mais correcta: o erro
ao nı́vel da palavra. No entanto, o que se pretende em qualquer sistema é minimizar
esse erro sobre o conjunto de teste que, por definição, não está disponı́vel. Dado
que o conjunto de validação é muito reduzido usámos esse critério, mas sobre o
conjunto de treino total.
Os resultados obtidos através desta técnica, tendo em consideração que o conjunto de treino compreendia apenas 10 frases, não foram os mais promissores.
Mostrou-se difı́cil criar um mapeamento que permitisse transformar as estimativas das probabilidades a posteriori, dos 68 fones gerados na saı́da do MLP-IO,
em novas estimativas mais apropriadas ao novo orador. Note-se que o número de
parâmetros associados a esta transformação (
) é bastante elevado com-
parativamente com o número de padrões gerados a partir das 10 frases. Na Tabela
4.1 apresentamos os resultados da avaliação efectuada.
Na segunda coluna da Tabela 4.1 apresentamos a avaliação do sistema independente do orador sobre os conjuntos de teste standard. Estes resultados são os
160
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Conjunto
Sistema Avaliação dos Adaptação
Melhor
de Teste
IO
Ficheiros SB
ao Orador
do treino
RM-fev89
5,1%
10,7%
5,9%
4,6%
RM-out89
5,7%
8,3%
6,0%
5,5%
RM-fev91
5,9%
8,6%
6,8%
5,6%
RM-set92
12,4%
13,0%
12,0%
10,5%
Média
7,3%
10,2%
7,7%
6,6%
Tabela 4.1: Avaliação da Rede Linear de Saı́da usando como material de adaptação
os ficheiros SB para os oradores nos conjuntos de teste standard.
mesmos já apresentados na Tabela 3.2 do capı́tulo anterior. Na terceira coluna apresentamos a avaliação do sistema independente do orador sobre os ficheiros SB que
serão usados como material de adaptação. Nota-se já aqui uma discrepância entre os
resultados obtidos para o material de teste e para estes ficheiros que irão ser usados
no treino da transformação para adaptação ao orador. Na quarta coluna apresentamos os resultados da adaptação ao orador, sobre os conjuntos de teste standard,
realizada através da RLS, usando como critério de validação a percentagem de erro ao nı́vel da palavra sobre o conjunto de treino. Verifica-se que o processo de
adaptação ao orador não se traduz em melhorias do desempenho do sistema, excepto para o conjunto de teste RM-set92 onde existe menor discrepância entre a
avaliação pelo sistema independente do orador do conjunto de teste e de treino, passando o nı́vel de desempenho médio de 7,3% para 7,7%. Este critério de validação,
mesmo não conseguindo apresentar uma melhoria no nı́vel de desempenho, obteve
um resultado melhor do que os outros critérios utilizados. Na última coluna apresentamos o mı́nimo obtido no conjunto de teste. Esta situação resulta da avaliação,
em cada iteração do treino da transformação, do conjunto de teste para o orador
de treino. Obviamente que os resultados desta coluna não são válidos, dado que
não possuı́mos um critério de paragem do processo de adaptação nos pontos que
permitiram obter aqueles resultados. Contudo, mostra que a aplicação desta técnica
chega a provocar uma diminuição efectiva da taxa de erros.
4.3 Adaptação ao orador baseada em transformaç ões
161
Dos diferentes testes efectuados verificámos não ser viável uma melhoria significativa no nı́vel de desempenho do sistema usando, apenas, aquela quantidade
de dados de treino. Por isso, na fase seguinte do nosso trabalho, passámos a usar
o corpus dependente do orador do RM que inclui 12 oradores. Passámos a dispor
dos conjuntos de teste de desenvolvimento (100 frases por orador) e de avaliação
(também 100 frases por orador) como material para treino, validação e avaliação da
técnica de adaptação ao orador. Passámos, assim, a ter um conjunto de 200 frases
para utilização no processo de adaptação.
Relativamente ao critério de paragem do treino definimos cinco situações diferentes:
1. erro quadrático sobre o conjunto de validação
2. percentagem do erro ao nı́vel da palavra sobre o conjunto de validação
3. percentagem do erro ao nı́vel da palavra sobre o conjunto de treino
4. número de iterações fixo
5. taxa de decréscimo do erro quadrático no conjunto de treino
Dado que passámos a dispor de 200 frases organizámo-las em subconjuntos de
50 frases. Os resultados que apresentamos na Tabela 4.2 referem-se à percentagem
de erro ao nı́vel da palavra sobre o conjunto de teste de avaliação dividido em dois
subconjuntos de 50 frases (Teste1 e Teste2), realizando a média para os 12 oradores.
Os resultados na Tabela 4.2 foram obtidos através de um único treino, para cada
orador, onde diferentes critérios de paragem do treino foram aplicados. A linha IO
é relativa ao desempenho do sistema independente do orador, portanto antes de se
começar a adaptação. A linha Melhor resulta da escolha do valor mı́nimo obtido
para os diferentes oradores. As experiências SA1 a SA6 são caracterizadas pelo
número de dados de treino e de validação e pelo critério de paragem do treino.
Apesar de se terem registado melhorias resultantes da aplicação desta técnica de
adaptação ao orador elas não são significativas apesar da quantidade de dados de
adaptação disponı́veis (obtivemos um decréscimo relativo de 6% no erro ao nı́vel
da palavra para um conjunto de adaptação de 100 frases).
162
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Conjunto Conjunto
Dados de
Critério
Tr. + Val.
de Paragem
Experiência
Teste1
Teste2
Média
IO
8,4%
8,8%
8,6%
Melhor
7,4%
7,8%
7,6%
SA1
8,4%
9,1%
8,8%
50+0
(3)
SA2
8,1%
8,9%
8,5%
50+50
(1)
SA3
8,5%
8,9%
8,7%
50+50
(2)
SA4
7,6%
8,4%
8,0%
100+0
(4) 25 iterações
SA5
7,5%
8,6%
8,0%
100+0
(5)
8.5%
8.5%
100+50
(1)
SA6
Tabela 4.2: Avaliação da Rede Linear de Saı́da usando como material de adaptação
os ficheiros teste do corpus dependente do orador.
4.3.2 Rede Linear de Entrada (RLE)
Com esta técnica pretende-se criar, através de uma camada de unidades adicional, uma transformação linear na entrada do MLP-IO, portanto, numa estrutura
oposta à da técnica anterior. Nesta situação são os vectores de entrada, tipicamente
tramas de coeficientes PLP, extraı́dos da fala de um orador que são transformados
através da Rede Linear de Entrada (RLE). O vector de entrada é composto pela trama de caracterı́sticas actual e três tramas de contexto à esquerda e à direita. Durante o reconhecimento este vector é transformado através da RLE, sendo de seguida
aplicado na entrada do MLP, que realiza os modelos acústico-fonéticos no nosso
sistema hı́brido MLP/HMM.
A RLE consiste numa camada de unidades totalmente ligada à camada de entrada do MLP-IO, como se pode observar na Figura 4.2. Ambas as camadas têm a
mesma dimensão. Os pesos das ligações entre estas camadas são inicializados com
uma matriz identidade. Isto garante que o ponto inicial, antes do treino da RLE, é o
modelo independente do orador. O vector de entrada, depois de transformado pela
163
4.3 Adaptação ao orador baseada em transformaç ões
...
MLP-IO
...
...
...
...
...
...
RLE
Figura 4.2: Representação esquemática da transformação dos parâmetros acústicos
usando a Rede Linear de Entrada (RLE).
RLE, é propagado até à camada de saı́da do MLP-IO. Nesse ponto, o erro, entre a
estimativa da probabilidade a posteriori gerada para o vector de entrada e o valor
desejado da probabilidade relativamente aos fones representados no vector de entrada, é calculado e retro-propagado através do MLP-IO. Os pesos das ligações neste
sistema não são alterados, ou seja, não existe actualização dos pesos do MLP-IO. A
actualização verifica-se unicamente nos pesos da camada de entrada linear.
A transformação realizada através da RLE não deve ser vista como uma simples
transformação espectral, como nas técnicas clássicas de normalização do orador, dado que não se impõe qualquer tipo de restrição na saı́da da RLE ou entrada do MLPIO, que nas técnicas clássicas se faz através do conceito do orador de referência.
Basicamente, o que pretendemos definir com esta técnica são as diferenças entre o
novo orador e um modelo genérico do sistema independente do orador e representar
essas diferenças através de um mapeamento linear, que resulta da maximização da
164
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
verosimilhança dos dados de adaptação. Ao juntarmos a transformação RLE acabamos por realizar uma transformação global de todo o sistema independente do
orador.
Esta técnica foi treinada e avaliada com os dados dependentes do orador da
base de dados RM. Estes dados foram divididos em dois conjuntos para cada um
dos oradores: um conjunto de adaptação com 700 frases, resultantes dos conjuntos
standard de treino e de teste de desenvolvimento, e um conjunto de teste com 100
frases, resultantes do conjunto standard de teste de avaliação. A técnica foi avaliada para diferentes quantidades de dados de adaptação. Inicialmente procurámos
avaliar o comportamento do sistema com poucos dados de adaptação, aumentando progressivamente os dados disponı́veis até chegarmos à situação limite, onde
usámos todos os dados de treino disponı́veis, por orador, para a adaptação. Nas
diferentes situações os dados disponı́veis para o treino foram divididos em conjunto
de treino e de validação. Avaliámos esta técnica com as seguintes combinações para
os conjuntos:
40 frases (30 para treino e 10 para validação cruzada)
100 frases (80 para treino e 20 para validação cruzada)
200 frases (100 para treino e 100 para validação cruzada)
700 frases (600 para treino e 100 para validação cruzada)
A última situação corresponde ao número total de frases de treino disponı́veis
para cada orador. O objectivo é comparar os resultados obtidos com a avaliação
dos sistemas dependentes do orador (ponto 3.5.3 do capı́tulo anterior). Para os
resultados seguintes usámos como conjunto de teste o conjunto de teste de avaliação
de cada orador (100 frases).
A normalização das entradas do MLP tem-se mostrado importante para a melhoria do nı́vel de desempenho dos sistemas hı́bridos. Trata-se de uma operação
simples onde cada coeficiente dos vectores de parâmetros é normalizado de forma
165
4.3 Adaptação ao orador baseada em transformaç ões
a se obter média nula e variância unitária. A transformação de normalização apropriada é, normalmente, determinada durante o treino e fixa para o teste. No nosso
estudo verificámos que o nı́vel de desempenho do sistema, resultante da adaptação
ao orador, depende da estimação de uma nova transformação de normalização da
entrada para o novo orador.
Na Tabela 4.3 apresentamos os resultados da adaptação ao orador usando um
conjunto de 40 frases (referido como AO30). Dessas frases utilizámos 30 para o
treino da adaptação e as outras 10 para validação cruzada.
Orador
IO
AO30-1 AO30-2
AO30-3
bef0
7,9%
7,5%
7,9%
7,5%
cmr0
15,5%
12,4%
8,2%
7,3%
das1
6,7%
2,9%
5,0%
2,9%
dms0
6,1%
4,4%
5,1%
4,6%
dtb0
7,3%
5,4%
6,5%
5,7%
dtd0
8,1%
6,8%
8,9%
6,6%
ers0
8,7%
8,2%
8,2%
8,0%
hxs0
10,9%
6,0%
6,4%
5,6%
jws0
5,3%
4,9%
4,4%
4,9%
pgh0
6,9%
4,3%
5,9%
4,3%
rkm0
14,6%
11,3%
12,3%
10,9%
tab0
4,1%
3,0%
3,9%
2,9%
Média
8,5%
6,4%
6,9%
5,9%
Treino
30
sbs
30
Teste
30
sbs
100 teste
Tabela 4.3: Resultados do erro de reconhecimento ao nı́vel da palavra na adaptação
ao orador através da Rede Linear de Entrada a partir de 40 frases de adaptação (30
para treino e 10 para validação cruzada).
A configuração que seguimos nesta tabela, e que se irá repetir nas tabelas seguintes, apresenta, para um conjunto de frases de adaptação, diferentes resultados
166
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
que dependem das caracterı́sticas de normalização utilizadas tanto no treino como
no teste. Na primeira coluna encontramos a indicação dos oradores que compõem o
corpus dependente do orador da base de dados RM. Na segunda coluna, como ponto de referência, apresentamos o nı́vel de desempenho do sistema independente do
orador sobre o conjunto de teste, correspondente ao conjunto de teste de avaliação
de cada orador. Nas colunas seguintes apresentamos diferentes situações onde se
variaram as caracterı́sticas de estimação dos parâmetros de normalização da entrada. Esses parâmetros de normalização podem ser diferentes no treino e no teste.
Esta situação é expressa nas duas últimas linhas da tabela com referência de Treino
e Teste. Quando apresentamos um número, por exemplo “30”, isto significa que
a estimação dos parâmetros de normalização, média e desvio padrão, foi baseada nesse número de frases, que foram as frases utilizadas no treino da adaptação.
A indicação de “IO” significa que estamos a usar os valores da média e variância
estimados a partir dos dados usados para treino do modelo independente do orador. A indicação “sbs” refere-se ao método denominado Sentence By Sentence
[Wernicke, 1993], onde a média e o desvio padrão são estimados frase a frase, ou seja, só baseados na frase actual. A indicação de “100 teste” significa que estimámos
os valores da média e da variância directamente a partir dos dados do conjunto de
teste.
Na Tabela 4.3 são apresentadas três situações de adaptação ao orador que diferem unicamente nas caracterı́sticas de normalização da entrada. Na primeira
situação (AO30-1) os dados de normalização foram estimados a partir das 30 frases de treino da adaptação, gerando um conjunto de parâmetros que foram utilizados tanto no treino como na avaliação realizada no conjunto de teste. Na segunda
situação (AO30-2) a normalização de cada frase, tanto no treino como no teste, foi
realizada com base num conjunto de parâmetros estimados a partir da própria frase.
Na terceira situação (AO30-3) a normalização no treino foi estimada a partir das 30
frases de treino e no teste a partir das 100 frases de teste. Esta situação pressupõe
que à partida o conjunto de teste se encontra disponı́vel na sua totalidade, o que
poderá ser uma situação nem sempre possı́vel.
167
4.3 Adaptação ao orador baseada em transformaç ões
Verificamos que a terceira situação apresenta um nı́vel de desempenho superior
às outras duas, com uma diferença relativa de 15% no erro de reconhecimento ao
nı́vel da palavra comparativamente com a segunda situação e de 7,5% comparativamente com a primeira situação. Estes resultados deixam antever a importância da
estimação dos parâmetros de normalização.
De seguida aumentámos o número de frases no treino da adaptação. Na Tabela
4.4 apresentamos o desempenho da técnica de adaptação RLE usando um conjunto
de adaptação de 100 frases (referido como AO80). Dessas 100 frases utilizámos 80
para treino da adaptação e as outras 20 para validação cruzada.
Orador
IO
AO80-1 AO80-2 AO80-3 AO80-4 AO80-5
AO80-6
bef0
7,9%
7,1%
5,9%
7,2%
7,5%
7,5%
7,0%
cmr0
15,5%
8,7%
17,7%
8,8%
9,0%
5,9%
5,5%
das1
6,7%
2,9%
3,9%
2,8%
2,8%
3,9%
2,7%
dms0
6,1%
4,5%
6,6%
4,5%
4,6%
5,4%
4,6%
dtb0
7,3%
4,8%
7,0%
4,8%
5,0%
5,8%
4,7%
dtd0
8,1%
4,8%
6,7%
4,8%
4,8%
6,0%
5,1%
ers0
8,7%
7,0%
7,3%
7,1%
7,1%
7,0%
7,1%
hxs0
10,9%
4,9%
6,8%
4,8%
4,6%
5,5%
4,3%
jws0
5,3%
4,6%
4,0%
4,6%
4,6%
3,3%
4,6%
pgh0
6,9%
3,3%
5,6%
3,7%
3,5%
4,8%
3,8%
rkm0
14,6%
9,6%
12,0%
10,3%
9,7%
11,4%
9,6%
tab0
4,1%
3,9%
3,7%
3,6%
3,9%
4,5%
3,7%
Média
8,5%
5,5%
7,3%
5,6%
5,6%
5,9%
5,2%
Treino
80
80
80
600
sbs
80
Teste
80
IO
600
600
sbs
100 Teste
Tabela 4.4: Resultados do erro de reconhecimento ao nı́vel da palavra na adaptação
ao orador através da Rede Linear de Entrada a partir de 100 frases de adaptação (80
para treino e 20 para validação cruzada).
Nesta experiência de adaptação ao orador, além de aumentarmos a quantidade
168
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
de dados de adaptação, quisemos, também, explorar diferentes formas de estimar
os parâmetros de normalização e analisar qual a evolução do sistema. Assim, apresentamos na Tabela 4.4 seis situações distintas. Na primeira situação (AO80-1)
estimámos os parâmetros de normalização, a serem usados tanto no treino como
no teste, a partir das 80 frases de adaptação. Na segunda situação (AO80-2) os
parâmetros de normalização no teste foram estimados a partir dos dados de treino
do sistema independente do orador. Na terceira situação (AO80-3) os parâmetros
no teste foram estimados a partir dos dados de treino do sistema dependente do orador, ou seja a partir da totalidade das 600 frases produzidas por cada orador. Na
quarta situação (AO80-4) utilizámos estas frases para estimação dos parâmetros de
normalização, tanto para o treino como para o teste. Na quinta situação (AO80-5)
utilizámos os parâmetros estimados a partir de cada frase e na sexta situação (AO806) utilizámos no treino os parâmetros estimados a partir das 80 frases de treino da
adaptação e no teste os parâmetros estimados a partir das 100 frases de teste.
Verifica-se que a situação AO80-6 apresenta o melhor resultado, mas agora
só com uma diferença relativa de 5% comparativamente com a primeira situação
(AO80-1). De notar que a utilização de um maior número de frases de cada orador na estimativa dos parâmetros de normalização chegou mesmo a introduzir uma
ligeira degradação, apesar de pouco significativa. A utilização dos parâmetros do
sistema independente do orador resultou numa degradação substancial do nı́vel de
desempenho do sistema com adaptação.
Com o intuito de avaliar a evolução do desempenho desta técnica à medida que
aumentamos os dados de treino passámos a utilizar 200 frases para adaptação. Dessas 200 frases utilizámos 100 para treino da adaptação e outras 100 para validação
cruzada. Os resultados relativos a esta experiência são apresentados na Tabela 4.5.
Os resultados anteriores mostram-nos uma ligeira melhoria no nı́vel de desempenho do sistema adaptado com base em 100 frases, comparativamente com
a situação de 80 frases. Com esta distribuição de frases, pelo conjunto de treino
e de validação, pretendı́amos avaliar se o sistema poderia beneficiar de um melhor
conjunto de validação. No entanto, a melhoria verificada leva-nos, em princı́pio,
169
4.3 Adaptação ao orador baseada em transformaç ões
Orador
IO
AO100-1 AO100-2
AO100-3
bef0
7,9%
6,6%
9,2%
6,7%
cmr0
15,5%
8,0%
5,6%
4,8%
das1
6,7%
2,5%
3,3%
2,1%
dms0
6,1%
4,6%
4,7%
4,7%
dtb0
7,3%
5,1%
6,0%
4,4%
dtd0
8,1%
4,5%
5,5%
4,6%
ers0
8,7%
7,2%
7,5%
7,7%
hxs0
10,9%
4,3%
4,8%
3,9%
jws0
5,3%
4,1%
2,8%
4,0%
pgh0
6,9%
3,2%
5,1%
3,3%
rkm0
14,6%
10,4%
10,5%
9,6%
tab0
4,1%
3,6%
3,9%
3,1%
Média
8,5%
5,3%
5,7%
4,9%
Treino
100
sbs
100
Teste
100
sbs
100 Teste
Tabela 4.5: Resultados do erro de reconhecimento ao nı́vel da palavra na adaptação
ao orador através da Rede Linear de Entrada a partir de 200 frases de adaptação
(100 para treino e 100 para validação cruzada).
a considerar como mais relevante o aumento do número de frases de adaptação
do que propriamente a necessidade de aumentar significativamente o conjunto de
validação.
Apesar do aumento do número de frases continua-se a verificar uma diferença
significativa entre as várias situações caracterizadas pela estimação dos parâmetros
de normalização a partir de diferentes conjuntos de dados do mesmo orador.
Finalmente considerámos como dados de adaptação todos os dados de treino
disponı́veis para cada orador do conjunto dependente do orador. Na Tabela 4.6
apresentamos o desempenho da técnica de adaptação RLE usando um conjunto de
170
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
adaptação de 700 frases (referido como AO600). Dessas 700 frases utilizámos 600
para treino da adaptação e as outras 100 para validação cruzada, distribuição utilizada, também, no treino dos modelos dependentes do orador.
Orador
IO
AO600-1 AO600-2
AO600-3
bef0
7,9%
5,1%
5,4%
4,4%
cmr0
15,5%
5,0%
4,1%
4,4%
das1
6,7%
1,9%
2,2%
1,5%
dms0
6,1%
3,5%
3,6%
3,4%
dtb0
7,3%
3,9%
3,7%
3,8%
dtd0
8,1%
3,5%
3,8%
3,9%
ers0
8,7%
5,7%
6,2%
5,9%
hxs0
10,9%
2,7%
3,0%
2,4%
jws0
5,3%
2,0%
2,6%
2,1%
pgh0
6,9%
3,7%
4,0%
4,0%
rkm0
14,6%
7,0%
10,2%
7,5%
tab0
4,1%
3,1%
2,9%
3,2%
Média
8,5%
3,9%
4,3%
3,9%
Treino
600
sbs
600
Teste
600
sbs
100 Teste
Tabela 4.6: Resultados do erro de reconhecimento ao nı́vel da palavra na adaptação
ao orador através da Rede Linear de Entrada a partir de 700 frases de adaptação
(600 para treino e 100 para validação cruzada).
Destes resultados sobressaem dois aspectos. O primeiro é de que o nı́vel de desempenho alcançado nas situações AO600-1 e AO600-3 é o mesmo, significando,
porventura, que para esta quantidade de dados já não existe uma diferença significativa na estimação dos parâmetros de normalização. O outro aspecto é de que
o resultado obtido através da adaptação é o mesmo do que o obtido para a média
dos sistemas dependentes do orador. Note-se que partindo do sistema independente
do orador a adaptação permitiu-nos evoluir para sistemas adaptados a cada orador,
com um desempenho idêntico ao obtido pelos sistemas dependentes do orador, uti-
171
4.3 Adaptação ao orador baseada em transformaç ões
lizando como dados de adaptação os mesmos dados que tinham sido utilizados no
treino desses sistemas dependentes do orador.
De forma a avaliarmos a influência da quantidade de dados de adaptação no desempenho desta técnica reorganizámos os resultados anteriores e apresentamo-los
na Tabela 4.7 onde é possı́vel verificar a evolução da taxa de erros para um número
crescente de frases de adaptação. Nesta tabela considerámos as situações que baseavam a estimativa dos parâmetros de normalização nas frases utilizadas como
conjunto de treino da adaptação. Na última coluna da Tabela 4.7 apresentamos os
resultados do desenvolvimento dos sistemas dependentes do orador (DO) realizado
no Capı́tulo 3.
Orador
IO
AO30-1 AO80-1 AO100-1 AO600-1
DO
bef0
7,9%
7,5%
7,1%
6,6%
5,1%
4,6%
cmr0
15,5%
12,4%
8,7%
8,0%
5,0%
4,7%
das1
6,7%
2,9%
2,9%
2,5%
1,9%
2,6%
dms0
6,1%
4,4%
4,5%
4,6%
3,5%
2,5%
dtb0
7,3%
5,4%
4,8%
5,1%
3,9%
3,8%
dtd0
8,1%
6,8%
4,8%
4,5%
3,5%
4,3%
ers0
8,7%
8,2%
7,0%
7,2%
5,7%
5,9%
hxs0
10,9%
6,0%
4,9%
4,3%
2,7%
3,2%
jws0
5,3%
4,9%
4,6%
4,1%
2,0%
2,0%
pgh0
6,9%
4,3%
3,3%
3,2%
3,7%
3,6%
rkm0
14,6%
11,3%
9,6%
10,4%
7,0%
6,4%
tab0
4,1%
3,0%
3,9%
3,6%
3,1%
3,5%
Média
8,5%
6,4%
5,5%
5,3%
3,9%
3,9%
Tabela 4.7: Avaliação da Rede Linear de Entrada usando diferentes quantidades de
material de adaptação.
Estes resultados mostram-nos claramente que há um decréscimo do erro de reconhecimento à medida que se aumenta o número de frases de adaptação, evoluindo
progressivamente desde o sistema independente do orador até se atingir o sistema
172
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
dependente do orador. Como podemos constatar esta evolução verifica-se para a
maioria dos oradores, apesar de haver oradores que têm um comportamento irregular (por exemplo o orador dms0) mas com diferenças pouco significativas.
A técnica RLE foi posteriormente modificada de forma a permitir uma estrutura de pesos partilhados para cada trama de entrada (a trama central e as tramas
de contexto à esquerda e à direita). Na estrutura standard cada unidade da camada
adicional encontra-se ligada, através de um peso independente, a cada unidade de
entrada do MLP-IO. Na estrutura com pesos partilhados as várias tramas que cons-
, enquanto na estrutura de pesos partilhados
. Estes números resultam da realização
reduzimos o número de ligações para
tituem a entrada partilham o mesmo conjunto de pesos. Na estrutura standard o
número de ligações era de
do sistema para a base de dados RM (conferir ponto 3.5.3 do capı́tulo anterior).
Na Tabela 4.8 apresentamos os resultados do erro ao nı́vel da palavra para esta
estrutura com pesos partilhados na situação de adaptação ao orador com 80 frases
no treino da adaptação e 20 frases no conjunto de validação. Incluı́mos nesta tabela, para efeitos de comparação, a situação de adaptação standard anteriormente
apresentada na Tabela 4.4 (coluna 3).
O resultado obtido através da estrutura com pesos partilhados é extremamente
positivo, tendo em consideração a substancial redução do número de parâmetros (de
33 124 da estrutura standard para 676 na estrutura de pesos partilhados) que teve
como consequência, naturalmente, um pequeno aumento na taxa de erros.
4.4 Adaptação ao orador baseada na modificação do
sistema Independente do Orador
Nesta classe de técnicas propomo-nos trabalhar na adaptação dos parâmetros
internos do sistema de reconhecimento, especificamente no modelo acústico-
4.4 Adaptação ao orador baseada na modificação do sistema Independente do Orador 173
Sistema
RLE
RLE com
Orador
IO
standard pesos partilhados
bef0
7,9%
7,1%
7,6%
cmr0
15,5%
8,7%
10,5%
das1
6,7%
2,9%
1,8%
dms0
6,1%
4,5%
3,7%
dtb0
7,3%
4,8%
5,5%
dtd0
8,1%
4,8%
7,7%
ers0
8,7%
7,0%
8,3%
hxs0
10,9%
4,9%
6,2%
jws0
5,3%
4,6%
4,6%
pgh0
6,9%
3,3%
4,1%
rkm0
14,6%
9,6%
10,4%
tab0
4,1%
3,9%
3,5%
Média
8,5%
5,5%
6,2%
Tabela 4.8: Avaliação da Rede Linear de Entrada com uma estrutura de pesos
partilhados numa situação de adaptação com 100 frases (80 para treino e 20 para validação cruzada).
fonético. Como estamos a trabalhar no âmbito de um modelo hı́brido, o modelo
acústico-fonético é realizado através do MLP, e, portanto, estas técnicas incidem na
adaptação dos parâmetros do MLP. O ponto inicial para este processo de adaptação
serão os parâmetros do sistema independente do orador. Ao modificarmos o sistema, com os dados relativos a um novo orador, pretende-se produzir um novo sistema
mais adequado a esse orador. Dado que o sistema inicial já é um bom reconhecedor
é de esperar que o processo de adaptação seja menos exigente, em termos dos dados
de treino e em termos da carga computacional, do que o treino de um sistema de
reconhecimento desde o inı́cio para o novo orador.
No âmbito desta classe estudámos duas técnicas de adaptação ao orador. Na
primeira voltámos a treinar o MLP, desenvolvido inicialmente para representar os
174
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
modelos acústico-fonéticos do sistema independente do orador, com os dados de
adaptação do novo orador. Na outra técnica criámos um conjunto de ligações adicionais, mas internas ao MLP-IO, de forma a que através dessas novas ligações se
criasse um modelo que em conjunto com o modelo representado no MLP-IO melhor
se ajustasse aos dados do novo orador.
4.4.1 Modificação dos Parâmetros do Sistema Independente do
Orador (MPSIO)
No desenvolvimento desta técnica de adaptação ao orador procurámos, através
da modificação do modelo acústico-fonético inicial, correspondente ao MLP do sistema independente do orador (MLP-IO), obter um novo modelo mais apropriado
ao novo orador. A modificação do modelo fez-se através da alteração dos pesos
associados às ligações entre as unidades do MLP. Essa alteração é realizada através
de um procedimento normal de treino de um MLP, em que o conjunto de treino
passa a ser constituı́do pelos dados de adaptação relativos ao novo orador, para o
qual pretendemos adaptar o sistema. Ao voltarmos a treinar o MLP num novo conjunto de dados de treino pretendemos melhorar o nı́vel de desempenho do sistema
para o novo orador, deixando de garantir a representatividade desse novo sistema
relativamente aos dados usados no treino inicial do sistema independente do orador.
A adaptação do sistema ao orador vai aumentando com o treino, mas também será
esperado que aumente com a quantidade de dados de treino e de acordo com a sua
representatividade relativamente ao novo orador. Esta técnica foi por nós designada
como Modificação dos Parâmetros do Sistema Independente do Orador (MPSIO).
Esta técnica foi avaliada para diferentes quantidades de dados de adaptação de
uma forma idêntica à avaliação efectuada na técnica denominada Rede Linear de
Entrada (RLE). Começámos por avaliar o comportamento do sistema com poucos
dados de adaptação, aumentando progressivamente os dados disponı́veis até chegarmos à situação limite, onde usámos todos os dados de treino disponı́veis, por
orador, para a adaptação.
4.4 Adaptação ao orador baseada na modificação do sistema Independente do Orador 175
No entanto, um dos aspectos iniciais que se tornava importante avaliar era qual
o tipo de comportamento que esta técnica de adaptação apresentava em função dos
dados utilizados na estimação dos parâmetros de normalização.
Na Tabela 4.9 apresentamos os resultados da adaptação ao orador usando um
conjunto de 100 frases (referido como AO80). Nesta tabela encontramos na primeira coluna a indicação dos oradores que compõem o corpus dependente do orador
da base de dados RM. Na segunda coluna, como ponto de referência, apresentamos o nı́vel de desempenho do sistema independente do orador sobre o conjunto de
teste, correspondente ao conjunto de teste de avaliação de cada orador. Nas colunas seguintes apresentamos diferentes situações onde se variaram as caracterı́sticas
da estimação dos parâmetros de normalização da entrada, tanto no treino como no
teste. Esta situação é expressa nas duas últimas linhas da tabela com referência
de Treino e Teste e seguimos o mesmo tipo de nomenclatura utilizada aquando da
apresentação da técnica RLE.
Os resultados obtidos permitem-nos observar que, apesar do comportamento desta técnica, em função da variação das caracterı́sticas de normalização, seguir o mesmo tipo de padrão apresentado pela técnica RLE, as diferenças entre as
várias situações de normalização são muito mais reduzidas. Como aconteceu para a
técnica RLE (conferir Tabela 4.4) a situação em que os parâmetros de normalização
no teste foram estimados a partir dos dados de treino do sistema independente do
orador apresenta, relativamente às outras situações, uma degradação acentuada. Nos
casos em que esses parâmetros de normalização são estimados a partir dos dados
do próprio orador não existe uma diferença significativa, independentemente de esses parâmetros serem estimados com base nos dados de treino da adaptação, na
totalidade dos dados de treino disponı́veis por orador ou mesmo nos dados de teste.
De forma a avaliarmos a influência da quantidade de dados de adaptação no
desempenho desta técnica realizámos um conjunto de experiências em que se variou
a quantidade de dados de treino da adaptação e da validação cruzada.
176
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Orador
IO
AO80-1 AO80-2 AO80-3 AO80-4 AO80-5
AO80-6
bef0
7,9%
8,2%
6,5%
8,1%
6,7%
7,8%
8,2%
cmr0
15,5%
10,1%
16,7%
9,9%
10,2%
7,5%
7,3%
das1
6,7%
2,7%
3,9%
2,9%
2,7%
4,7%
2,9%
dms0
6,1%
4,9%
6,4%
4,5%
4,6%
5,6%
4,9%
dtb0
7,3%
5,8%
7,2%
5,4%
5,9%
6,6%
5,0%
dtd0
8,1%
6,1%
9,0%
5,9%
6,1%
6,0%
6,2%
ers0
8,7%
7,3%
9,5%
7,8%
7,3%
7,3%
8,1%
hxs0
10,9%
6,4%
8,7%
6,4%
6,6%
7,3%
6,4%
jws0
5,3%
2,7%
4,4%
4,2%
4,0%
4,0%
4,5%
pgh0
6,9%
4,9%
6,0%
4,7%
4,9%
6,0%
4,7%
rkm0
14,6%
11,2%
12,4%
11,7%
11,1%
12,2%
11,0%
tab0
4,1%
3,9%
3,5%
3,8%
3,9%
4,6%
3,9%
Média
8,5%
6,2%
7,9%
6,3%
6,2%
6,6%
6,1%
Treino
80
80
80
600
sbs
80
Teste
80
IO
600
600
sbs
100 Teste
Tabela 4.9: Resultados do erro de reconhecimento ao nı́vel da palavra na adaptação
ao orador através da Modificação dos Parâmetros do Sistema IO a partir de 100
frases de adaptação (80 para treino e 20 para validação cruzada).
Nestas experiências mantivemos as mesmas quantidades de dados de adaptação
das utilizadas na avaliação da técnica RLE. Avaliámos, também, para essas diferentes quantidades de dados, a influência dos parâmetros de normalização e obtivemos
resultados relativos que seguem o mesmo tipo de comportamento dos apresentados
aquando da técnica RLE. Assim, optámos por apresentar apenas os resultados da
avaliação da evolução do comportamento desta técnica em função do número de
dados de treino. Estes resultados encontram-se na Tabela 4.10, onde é possı́vel verificar a evolução da taxa de erros para um número crescente de frases de adaptação.
Nesta tabela considerámos as situações que baseavam a estimativa dos parâmetros
de normalização nas frases utilizadas como conjunto de treino da adaptação.
4.4 Adaptação ao orador baseada na modificação do sistema Independente do Orador 177
Orador
IO
AO30-1 AO80-1 AO100-1 AO600-1
DO
bef0
7,9%
7,9%
8,2%
6,7%
5,9%
4,6%
cmr0
15,5%
11,9%
10,1%
8,8%
4,9%
4,7%
das1
6,7%
4,1%
2,7%
2,5%
2,0%
2,6%
dms0
6,1%
4,1%
4,9%
4,6%
3,2%
2,5%
dtb0
7,3%
6,5%
5,8%
5,1%
4,0%
3,8%
dtd0
8,1%
8,2%
6,1%
5,7%
4,4%
4,3%
ers0
8,7%
7,7%
7,3%
7,7%
5,9%
5,9%
hxs0
10,9%
9,4%
6,4%
5,2%
2,7%
3,2%
jws0
5,3%
5,0%
2,7%
3,7%
1,8%
2,0%
pgh0
6,9%
5,1%
4,9%
4,9%
3,3%
3,6%
rkm0
14,6%
12,7%
11,2%
10,6%
6,1%
6,4%
tab0
4,1%
4,6%
3,9%
3,5%
2,6%
3,5%
Média
8,5%
7,3%
6,2%
5,8%
3,9%
3,9%
Tabela 4.10: Avaliação da técnica de Modificação dos Parâmetros do Sistema IO
(MPSIO) usando diferentes quantidades de material de adaptação.
Estes resultados mostram-nos claramente que há um decréscimo do erro de
reconhecimento à medida que se aumenta o número de frases de adaptação, evoluindo desde o sistema independente do orador até se atingir o sistema dependente
do orador. Como podemos constatar esta evolução verifica-se para a maioria dos
oradores, apesar de haver oradores que apresentam algumas diferenças, apesar de
pouco significativas.
4.4.2 Camada Intermédia Paralela (CIP)
Com esta técnica de adaptação ao orador pretende-se complementar o sistema independente do orador com um conjunto de novas ligações de modo a que o
sistema global providencie um modelamento mais adequado para o novo orador.
178
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Nesta técnica criou-se uma rede paralela ao MLP-IO, onde se verifica a partilha da camada de entrada e da camada de saı́da do MLP-IO, mas com uma diferente
camada intermédia (ver Figura 4.3). Esta camada intermédia encontra-se ao mesmo
nı́vel da camada intermédia do MLP-IO, actuando em paralelo. Neste novo sistema a entrada é propagada através do MLP-IO e através da rede paralela. A saı́da
combina as ligações de ambas as camadas intermédias. O erro avaliado na saı́da só
é retro-propagado através da rede paralela. Isto significa que o MLP-IO se encontra fixo e que só os pesos que ligam a camada intermédia paralela às camadas de
entrada e de saı́da do MLP-IO é que são treinados.
MLP-IO
CIP
...
...
...
...
...
...
Figura 4.3: Representação esquemática do sistema incluindo a rede com a Camada
Intermédia Paralela
Através desta técnica pretende-se compensar as diferenças entre o sistema IO
e o novo orador através de um conjunto adicional de pesos que resultam das novas ligações não lineares entre a entrada e a saı́da. Os parâmetros do sistema IO
mantêm-se inalterados, mas através dos parâmetros adicionais procuramos representar as diferenças que queremos para o sistema, ou seja, que se adapte ao novo
orador. Este conjunto adicional de pesos é inicializado com valores aleatórios numa gama muito reduzida. Os resultados que se seguem referem-se a uma camada
intermédia adicional de 150 unidades.
4.4 Adaptação ao orador baseada na modificação do sistema Independente do Orador 179
Esta técnica foi avaliada com diferentes quantidades de dados de adaptação e
em diferentes situações de normalização, de uma forma idêntica à avaliação realizada para as técnicas anteriores. Na Tabela 4.11 apresentamos os resultados da
adaptação ao orador usando um conjunto de 100 frases (referido como AO80).
Nesta tabela apresentamos diferentes situações onde se variaram as caracterı́sticas
da estimação dos parâmetros de normalização da entrada, tanto no treino como no
teste. Esta situação é expressa nas duas últimas linhas da tabela com referência
de Treino e Teste e seguimos o mesmo tipo de nomenclatura apresentada para as
técnicas de adaptação ao orador anteriores.
Orador
IO
AO80-1 AO80-2 AO80-3 AO80-4
AO80-5
bef0
7,9%
8,2%
7,0%
8,1%
9,3%
8,7%
cmr0
15,5%
12,0%
18,0%
11,3%
11,1%
7,8%
das1
6,7%
4,0%
4,6%
4,0%
6,0%
3,9%
dms0
6,1%
5,1%
6,4%
5,0%
7,1%
5,5%
dtb0
7,3%
6,8%
7,4%
6,5%
6,1%
6,5%
dtd0
8,1%
10,9%
10,9%
11,1%
11,5%
8,6%
ers0
8,7%
8,3%
9,6%
7,8%
7,5%
8,3%
hxs0
10,9%
10,5%
11,3%
11,0%
14,4%
10,5%
jws0
5,3%
4,9%
4,4%
4,8%
5,2%
5,2%
pgh0
6,9%
5,8%
7,2%
5,3%
5,7%
5,3%
rkm0
14,6%
12,2%
14,6%
12,1%
13,7%
12,0%
tab0
4,1%
3,1%
4,0%
3,0%
4,9%
3,3%
Média
8,5%
7,7%
8,8%
7,5%
8,5%
7,1%
Treino
80
80
80
sbs
80
Teste
80
IO
600
sbs
100 Teste
Tabela 4.11: Resultados do erro de reconhecimento ao nı́vel da palavra na adaptação
ao orador através da Camada Intermédia Paralela a partir de 100 frases de adaptação
(80 para treino e 20 para validação cruzada).
O desempenho desta técnica para 80 frases de adaptação (mais as 20 frases
de validação) mostrou-nos uma melhoria, relativamente ao sistema independen-
180
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
te do orador, na situação AO80-1, que se refere à estimação dos parâmetros de
normalização para o teste a partir das frases utilizadas no treino da adaptação, na
situação AO80-3, onde se utilizou no teste os parâmetros de normalização estimados a partir da totalidade de dados disponı́veis por orador para treino, assim como na
situação AO80-5, relativa à utilização das próprias frases de teste na estimação dos
parâmetros de normalização. Numa das outras duas situações assistiu-se mesmo a
uma degradação no desempenho do sistema e na outra não se obteve alteração.
De forma a avaliarmos a influência da quantidade de dados de adaptação no
desempenho desta técnica realizámos um conjunto de experiências onde se variaram
as quantidades de dados de treino da adaptação e da validação cruzada. Mantivemos
as mesmas quantidades que as utilizadas na avaliação das técnicas anteriores.
Orador
IO
AO30-1 AO80-1 AO100-1 AO600-1
DO
bef0
7,9%
7,9%
8,2%
7,7%
6,0%
4,6%
cmr0
15,5%
14,9%
12,0%
10,0%
5,9%
4,7%
das1
6,7%
4,1%
4,0%
2,6%
1,8%
2,6%
dms0
6,1%
5,0%
5,1%
5,1%
2,9%
2,5%
dtb0
7,3%
6,4%
6,8%
6,8%
3,4%
3,8%
dtd0
8,1%
9,9%
10,9%
10,0%
4,6%
4,3%
ers0
8,7%
8,6%
8,3%
8,2%
5,7%
5,9%
hxs0
10,9%
13,2%
10,5%
5,9%
3,6%
3,2%
jws0
5,3%
5,7%
4,9%
4,9%
2,0%
2,0%
pgh0
6,9%
5,6%
5,8%
5,2%
4,1%
3,6%
rkm0
14,6%
13,7%
12,2%
12,2%
6,9%
6,4%
tab0
4,1%
3,5%
3,1%
3,3%
2,6%
3,5%
Média
8,5%
8,2%
7,7%
6,8%
4,1%
3,9%
Tabela 4.12: Avaliação da técnica baseada na rede adicional com a Camada Intermédia Paralela (CIP) usando diferentes quantidades de material de adaptação.
Apesar de termos, também, avaliado a influência dos parâmetros de
normalização obtivemos resultados relativos que seguem o mesmo tipo de compor-
181
4.5 Comparação das diferentes técnicas de adaptação ao orador
tamento dos apresentados para as técnicas anteriores. Assim apresentamos, como o
fizemos na técnica MPSIO, só um conjunto de resultados obtidos com a finalidade
de avaliar a evolução desta técnica em função do número de dados de treino. Estes
resultados são apresentados na Tabela 4.12, onde é possı́vel verificar a evolução da
taxa de erros para um número crescente de frases de adaptação. Nesta tabela considerámos as situações que baseavam a estimativa dos parâmetros de normalização
nas frases utilizadas como conjunto de treino da adaptação.
Estes resultados mostram-nos um decréscimo do erro de reconhecimento à medida que se aumenta o número de frases de adaptação, evoluindo a partir do sistema
independente do orador, mas, ao contrário das técnicas anteriores não se chegando
a atingir o nı́vel de desempenho do sistema dependente do orador.
4.5 Comparação
das
diferentes
técnicas
de
adaptação ao orador
Ao longo das duas secções anteriores apresentámos o desenvolvimento de diferentes técnicas de adaptação ao orador. Essas técnicas foram divididas segundo
duas classes: determinação de transformações a partir de um sistema independente
do orador e modificação dos parâmetros do sistema independente do orador. Na
primeira classe de técnicas encontravam-se incluı́das as transformações realizadas
na saı́da do MLP-IO, Rede Linear de Saı́da (RLS), e na entrada, Rede Linear de
Entrada (RLE). Na segunda explorámos a modificação dos parâmetros do MLP-IO
a partir dos dados do novo orador, Modificação dos Parâmetros do Sistema Independente do Orador (MPSIO), e a modificação do MLP-IO através da adição de
uma Camada Intermédia Paralela (CIP).
A primeira técnica a ser desenvolvida ao longo deste nosso trabalho foi a RLS.
Através desta técnica pretendı́amos criar uma transformação linear de forma a que
as estimativas da probabilidade a posteriori obtidas na saı́da do MLP-IO fossem
modificadas para um novo conjunto de estimativas correspondentes ao novo ora-
182
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
dor. Apesar dos esforços efectuados os resultados obtidos não foram positivos,
verificando-se que a modificação dos parâmetros ao nı́vel fonético é um processo
complicado e que não depende só dos modelos acústico-fonéticos. Ao analisarmos
agora esta situação, e como consequência de uma evolução do nosso conhecimento
sobre todos os aspectos do processo do reconhecimento da fala contı́nua, verificamos que os parâmetros que pretendı́amos modificar através desta técnica estão fortemente condicionados pela forma rı́gida como os dicionários de pronunciação são
actualmente realizados. Este aspecto constitui um dos pontos que nós pretendemos
abordar na nossa investigação futura.
Nas outras técnicas os resultados alcançados foram extremamente positivos e
animadores. Apesar de estarmos perante técnicas com caracterı́sticas diferentes
é-nos possı́vel fazer uma comparação entre elas, dado que foram desenvolvidas e
avaliadas no mesmo conjunto de dados. Assim juntámos na Tabela 4.13 os resultados alcançados anteriormente para estas técnicas com diferentes quantidades de
dados de adaptação.
Número
de Frases
RLE
MPSIO
CIP
30+10
6,4%
7,3%
8,2%
80+20
5,5%
6,2%
7,7%
100+100
5,3%
5,8%
6,8%
600+100
3,9%
3,9%
4,1%
(treino+validação)
Tabela 4.13: Comparação das diferentes técnicas realizadas usando diferentes quantidades de material de adaptação. Normalização para o treino e teste baseada nas
frases de treino da adaptação.
Com base nos resultados apresentados na Tabela 4.13 podemos concluir que a
) se obtiveram melhores nı́veis de reconhecimento para
técnica RLE é a mais eficiente dado que através da adição de um número reduzido
de parâmetros (
quantidades de dados de adaptação mais baixas.
4.6 Adaptação ao Orador baseada em Sistemas Dependentes do Orador
183
A técnica MPSIO, à medida que se aumenta a quantidade de dados de
adaptação, tende para o mesmo sistema final, ou seja o sistema dependente do
orador, mas com um desempenho sempre inferior à técnica RLE. Isto deve-se ao
número elevado de parâmetros que é necessário adaptar através desta técnica.
No caso da técnica CIP obteve-se, relativamente às outras técnicas um desempenho mais modesto tendo-se verificado que na situação final, onde se utilizaram a
totalidade dos dados de treino disponı́veis por orador, não se conseguiu obter um
desempenho igual ao do sistema dependente do orador, como tinha acontecido com
as outras técnicas.
4.6 Adaptação ao Orador baseada em Sistemas Dependentes do Orador
Apesar do objectivo principal do nosso trabalho ser a adaptação ao orador a partir de sistemas independentes do orador, pareceu-nos importante investigar também
a adaptação de sistemas dependentes do orador. Estes sistemas têm sido bastante
utilizados, no âmbito dos sistemas de reconhecimento clássicos, na ilustração de
diferentes técnicas de adaptação ao orador, devido, principalmente, à possibilidade
de se definir a figura do orador de referência. Esta situação tem permitido desenvolver técnicas de adaptação que transformam os dados do novo orador no orador
de referência, ou que modificam o sistema relativo ao novo orador num sistema de
referência. Com este trabalho pretendemos aplicar técnicas semelhantes às aplicadas no âmbito dos sistemas independentes do orador e aferir da capacidade de
adaptação de sistemas hı́bridos dependentes do orador.
O processo de adaptação por nós aqui desenvolvido é idêntico ao apresentado
no ponto 4.4.1 para os sistemas independentes do orador, e que designámos como
Modificação dos Parâmetros do Sistema Independente do Orador (MPSIO), mas
agora aplicado aos sistemas dependentes do orador. Partindo de um sistema treinado
exclusivamente para um dado orador pretendemos modificar os parâmetros do MLP,
184
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
que realiza os modelos acústico-fonéticos desse sistema, de forma a adaptá-los aos
dados do novo orador. Estes sistemas dependentes do orador foram desenvolvidos
no Capı́tulo 3 para o corpus dependente do orador da base de dados RM.
Para o trabalho de adaptação aqui realizado escolhemos um conjunto de 4 oradores (2 masculinos e 2 femininos) de referência. Serão os sistemas destes oradores
de referência que irão ser adaptados a todos os outros oradores do corpus dependente do orador da base de dados RM. O critério utilizado na escolha dos oradores
de referência foi o de seleccionar aqueles cujos resultados mais se aproximavam
do nı́vel médio de desempenho para os diferentes testes efectuados no desenvolvimento dos sistemas dependentes do orador. Começámos por avaliar a adaptação ao
orador a partir de uma estrutura, dos sistemas dependentes do orador, baseada em
200 unidades intermédias, tendo no final avaliado com 350 unidades intermédias,
estrutura esta que, como vimos no capı́tulo anterior, apresenta melhores resultados
(conferir Tabela 3.4).
O nosso estudo começou pela avaliação do desempenho dos sistemas dos quatros oradores de referência sobre os dados de teste de todos os outros oradores, antes
do processo de adaptação. Os resultados são apresentados na Tabela 4.14.
A avaliação dos sistemas dos oradores de referência sobre os dados de teste
desses mesmos oradores encontra-se assinalada na tabela a cheio. Da análise dos
resultados verifica-se um comportamento distinto, em termos de nı́vel de reconhecimento, dependendo de os oradores pertencerem ao sexo masculino ou feminino.
Na situação em que o orador de referência e de teste são ambos do mesmo sexo o
erro de reconhecimento situa-se numa faixa entre os 10% e os 30%, enquanto que
quando se trata de oradores de sexos opostos os erros de reconhecimento sobem
para valores extremamente elevados, superiores a 60%.
De seguida procurou-se avaliar o efeito da adaptação ao orador. Partimos dos
sistemas dependentes do orador para os quatro oradores de referência, sistemas em
que o MLP possuı́a 200 unidades na camada intermédia, e em que se procurava
adaptar esses sistemas a cada um dos oradores de teste. Começámos com 100 frases
4.6 Adaptação ao Orador baseada em Sistemas Dependentes do Orador
Oradores
185
Oradores de referência
de teste
Sexo
dms0
dtd0
dtb0
tab0
bef0
M
89,2%
80,8%
28,5%
28,1%
cmr0
F
11,4%
19,7%
96,3%
98,8%
das1
F
16,4%
12,7% 122,8% 110,8%
dms0
F
2,9%
10,5% 100,9%
91,2%
dtb0
M
82,8%
83,8%
4,0%
29,8%
dtd0
F
18,0%
4,4%
96,2%
98,4%
ers0
M
69,2%
76,8%
25,2%
20,2%
hxs0
F
19,9%
23,0% 131,7% 121,2%
jws0
M
90,0%
83,7%
14,5%
24,0%
pgh0
M
64,5%
60,2%
15,3%
18,1%
rkm0
M
101,9% 97,4%
58,3%
38,6%
tab0
M
88,1%
25,9%
4,2%
77,4%
Tabela 4.14: Avaliação para os quatro oradores de referência dos seus sistemas
dependentes do orador sobre o conjunto de teste (100 frases) de todos os oradores
presentes no corpus dependente do orador da base de dados RM.
de adaptação (80 para treino e 20 para validação cruzada) extraı́das do conjunto de
treino existente para cada orador no corpus dependente do orador da base de dados
RM. Os parâmetros de normalização foram estimados a partir das 80 frases de treino
e foram utilizados tanto no treino como no teste. Os resultados encontram-se na
Tabela 4.15.
Os resultados apresentados na Tabela 4.15 mostram-nos que, em média, o desempenho dos vários oradores de referência é similar e que as disparidades, existentes à partida e resultantes da diferença de sexo entre os oradores, desapareceram
por completo. Verifica-se, ainda, uma melhoria significativa dos resultados, considerando que se trata apenas de 80 frases de adaptação, apesar do resultado obtido,
em média, para os quatro oradores de referência (14,5%) estar ainda longe do desempenho médio dos sistemas dependentes do orador (4,6%), que é apresentado na
186
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Oradores
de teste
Oradores de referência
dms0
dtd0
dtb0
tab0
Sistema
Média
DO
bef0
16,1% 16,7% 13,4% 16,0%
15,6%
6,0%
cmr0
10,8% 10,5% 14,6% 14,7%
12,7%
5,4%
das1
10,4%
9,6%
10,6%
1,8%
11,2% 14,1% 14,4%
13,2%
2,9%
12,7%
14,0%
4,0%
dms0
9,8%
12,5%
dtb0
14,7% 14,6%
dtd0
10,8%
13,9% 13,8%
12,8%
4,4%
ers0
19,1% 18,8% 17,4% 17,7%
18,3%
7,2%
hxs0
11,6% 10,0% 12,2% 12,9%
11,7%
2,6%
jws0
14,8% 13,7% 10,9% 12,9%
13,1%
2,1%
pgh0
12,0% 12,4% 11,9% 11,4%
11,9%
4,6%
rkm0
30,1% 27,6% 26,6% 24,9%
27,3%
9,5%
tab0
13,7% 13,3% 12,6%
13,2%
4,2%
14,9% 14,4% 14,6% 14,6%
14,5%
4,6%
Média
Tabela 4.15: Resultados da adaptação do sistema de cada orador de referência a
cada orador de teste a partir de 100 frases de adaptação (80 frases para treino e 20
para validação cruzada).
última coluna da Tabela 4.15. (Este resultado foi extraı́do da Tabela 3.4 apresentada
no Capı́tulo 3).
No sentido de avaliarmos o desempenho da adaptação ao orador com uma maior
quantidade de dados passámos à situação limite onde utilizámos, para adaptação, todos os dados de treino disponı́veis para cada orador. Os parâmetros de normalização
foram estimados a partir das 600 frases de treino e foram utilizados tanto no treino
como no teste. Os resultados encontram-se na Tabela 4.16
Novamente se verifica um resultado similar entre os vários oradores de referência e em que o erro médio (4,4%) chega mesmo a ser inferior ao erro médio
dos sistemas dependentes do orador (4,6%), apesar de individualmente isso nem
187
4.6 Adaptação ao Orador baseada em Sistemas Dependentes do Orador
Oradores
Oradores de referência
Sistema
de teste
dms0
dtd0
dtb0
tab0
Média
DO
bef0
6,5%
7,0%
6,5% 6,2%
6,6%
6,0%
cmr0
4,0%
5,5% 5,8% 5,4%
5,2%
5,4%
das1
2,2%
1,9%
2,4% 2,7%
2,3%
1,8%
2,7% 2,6% 3,2%
2,8%
2,9%
4,0%
4,4%
4,5%
4,0%
dms0
dtb0
5,1%
dtd0
4,4%
3,9% 4,6%
4,3%
4,4%
ers0
6,8%
7,1% 7,1% 7,1%
7,0%
7,2%
hxs0
2,6%
2,7%
2,7% 3,0%
2,8%
2,6%
jws0
2,0%
2,0% 1,7% 1,9%
1,9%
2,1%
pgh0
3,9%
3,7% 4,2% 3,6%
3,9%
4,6%
rkm0
8,4%
7,8% 8,9% 6,3%
7,9%
9,5%
tab0
3,2%
2,6% 3,5%
3,1%
4,2%
Média
4,3%
4,2%
4,4%
4,6%
4,4% 4,4%
Tabela 4.16: Resultados da adaptação do sistema de cada orador de referência a
cada orador de teste a partir de 700 frases de adaptação (600 frases para treino e
100 para validação cruzada).
sempre se verificar. Deve-se, no entanto, notar que ao fazermos a adaptação com
600 frases de treino e 100 de validação estamos a usar os mesmos dados que foram
utilizados na construção dos sistemas dependentes do orador para cada um dos oradores em particular. A diferença reside no facto de no desenvolvimento do sistema
dependente do orador partirmos de um modelo baseado em parâmetros aleatórios
(os pesos do MLP foram inicializados com valores aleatórios), enquanto que no
processo de adaptação partimos já de um sistema dependente do orador, apesar de
ser de um outro orador. Temos, ainda, que o processo de adaptação é muito mais
rápido já que o número de iterações necessárias na adaptação foi sempre inferior às
realizadas no desenvolvimento dos sistemas dependentes do orador.
Como verificámos nas técnicas anteriores de adaptação ao orador a estimação
188
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
dos parâmetros de normalização mostrou-se um factor importante no desempenho
dos sistemas. Procurou-se avaliar aqui, também, o efeito da normalização sobre o
nı́vel de desempenho da adaptação ao orador. Para isso voltámos à situação das 100
frases de adaptação e escolhemos um dos oradores de referência (dtb0) para realizarmos os testes. Foram realizadas três experiências diferentes onde se variaram os
parâmetros de normalização, tanto no treino como no teste. Esses parâmetros foram
estimados quer a partir das 80 frases, quer a partir das 600 frases de adaptação. Os
resultados encontram-se na Tabela 4.17.
Oradores
Orador de referência (dtb0)
de teste
bef0
13,4% 11,6%
11,6%
cmr0
14,6% 14,0%
13,5%
das1
12,5% 10,3%
9,1%
dms0
14,1% 10,7%
9,0%
dtd0
13,9% 13,9%
13,2%
ers0
17,4% 12,3%
12,7%
hxs0
12,2% 14,9%
13,2%
jws0
10,9%
7,2%
7,1%
pgh0
11,9%
7,8%
8,2%
rkm0
26,6% 26,1%
24,8%
tab0
12,6%
9,2%
8,9%
14,6% 12,5%
11,9%
dtb0
Média
Treino
80
80
600
Teste
80
600
600
Tabela 4.17: Estudo do efeito dos parâmetros de normalização na adaptação do
sistema de um orador de referência (dtb0) a cada orador de teste a partir de 100
frases de adaptação (80 frases para treino e 20 para validação cruzada).
Os resultados apresentados na segunda coluna da Tabela 4.17 são os mesmos
que foram apresentados na quarta coluna da Tabela 4.15, e referem-se à situação
4.6 Adaptação ao Orador baseada em Sistemas Dependentes do Orador
189
de normalização onde os parâmetros foram estimados com base nas 80 frases de
adaptação tanto para o treino como para o teste. Verifica-se que a estimação dos
parâmetros de normalização a partir das 600 frases conduz a uma melhoria no
nı́vel de desempenho (excepto no caso do orador hxs0). Verifica-se, ainda, e contrariamente ao que tı́nhamos obtido anteriormente (conferir na Tabela 4.9), que a
utilização dos parâmetros resultantes da estimação a partir das 600 frases no treino
também é benéfica para o nı́vel de reconhecimento final.
Na fase seguinte deste nosso trabalho decidimos avaliar a adaptação ao orador
para sistemas de referência baseados em MLPs com 350 unidades intermédias, sistemas estes que apresentavam um melhor desempenho que os anteriores, baseados
em apenas 200 unidades intermédias (conferir Tabela 3.4 no capı́tulo anterior). Assim, realizámos a adaptação ao orador novamente com 100 frases (80 para treino
e 20 para validação), tendo os parâmetros de normalização sido estimados a partir
das 600 frases de treino disponı́veis, tanto para utilização no treino como no teste.
Os resultados encontram-se na Tabela 4.18.
Nesta situação verifica-se que o desempenho, em média, para os oradores de
referência não é tão uniforme como anteriormente. Estes resultados, comparativamente com os resultados apresentados na Tabela 4.15, registam uma melhoria,
também verificada no desempenho dos sistemas dependentes do orador, mas inferior à que, à partida, poderı́amos esperar para esta situação, se atendermos aos resultados apresentados na Tabela 4.17 e ao facto de os parâmetros de normalização se
basearem nas 600 frases. No entanto, devemos levar em consideração que ao passarmos de 200 para 350 unidades intermédias o sistema sofre um aumento significativo
de parâmetros (de 48 258 para 84 408), o que torna necessária uma maior quantidade de dados de adaptação para compensar esse aumento no número de parâmetros.
Para finalizar este estudo procurámos aferir o nı́vel de reconhecimento do sistema com 350 unidades intermédias após a realização da adaptação ao orador com
600 frases (mais 100 frases de validação). Neste caso usámos só um dos oradores
de referência (dtb0). Os parâmetros de normalização foram baseados nas 600 frases
tanto no treino como no teste. Os resultados são apresentados na Tabela 4.19.
190
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Oradores
de teste
Oradores de referência
dms0
dtd0
dtb0
tab0
Sistema
Média
DO
bef0
15,5% 16,1% 13,3% 16,5%
15,4%
4,6%
cmr0
11,0% 11,6% 14,0% 16,1%
13,2%
4,7%
das1
9,6%
10,7%
9,7%
2,6%
12,7% 14,1% 14,6%
13,8%
2,5%
12,0%
11,7%
3,8%
dms0
8,4%
9,9%
dtb0
11,2% 11,8%
dtd0
11,6%
12,5% 13,0%
12,4%
4,3%
ers0
17,1% 20,4% 16,4% 17,2%
17,8%
5,9%
hxs0
11,0% 10,3% 13,7% 12,4%
11,9%
3,2%
jws0
12,8% 11,4%
12,4%
11,6%
2,0%
pgh0
13,0% 10,9% 10,5% 12,5%
11,7%
3,6%
rkm0
25,2% 28,8% 26,9% 23,6%
26,1%
6,4%
tab0
11,9% 11,5% 11,7%
11,7%
3,5%
13,6% 14,0% 13,9% 14,6%
13,9%
3,9%
Média
9,8%
Tabela 4.18: Resultados da adaptação do sistema (com 350 unidades intermédias)
de cada orador de referência a cada orador de teste a partir de 100 frases de
adaptação (80 frases para treino e 20 para validação cruzada).
Verifica-se, como aconteceu nos resultados obtidos para a mesma situação com
um modelo de 200 unidades (Tabela 4.16), que o desempenho final do sistema com
adaptação é superior ao nı́vel de reconhecimento do sistema dependente do orador,
aplicando-se as mesmas conclusões por nós expressas anteriormente.
As experiências de adaptação ao orador, por nós aqui realizadas, permitiram
transformar um sistema de referência, dependente do orador, num novo sistema
mais representativo do novo orador. Verificou-se que para uma quantidade de dados de adaptação não muito elevada (80 frases) o nı́vel de desempenho do sistema
de referência adaptado ao novo orador era inferior ao apresentado para as outras
técnicas, descritas anteriormente. No entanto, deveremos ter em consideração que
4.6 Adaptação ao Orador baseada em Sistemas Dependentes do Orador
Oradores
Orador de referência
Sistema
de teste
(dtb0)
DO
bef0
4,4%
4,6%
cmr0
4,8%
4,7%
das1
2,5%
2,6%
dms0
2,0%
2,5%
dtb0
191
3,8%
dtd0
4,0%
4,3%
ers0
5,6%
5,9%
hxs0
2,8%
3,2%
jws0
1,8%
2,0%
pgh0
3,7%
3,6%
rkm0
5,9%
6,4%
tab0
2,4%
3,5%
Média
3,6%
3,9%
Tabela 4.19: Resultados da adaptação do sistema (com 350 unidades intermédias)
de um orador de referência (dtb0) a cada orador de teste a partir de 700 frases de
adaptação (600 frases para treino e 100 para validação cruzada).
essas técnicas começavam num sistema independente do orador, muito mais difı́cil
de obter que um sistema dependente do orador, e que é, à partida, muito mais representativo para um qualquer novo orador, do que um sistema dependente do orador.
Ao aumentarmos o número de frases de adaptação para 600 obtivemos um conjunto de novos modelos, dependentes do orador, que resultaram da transformação
dos modelos de referência de acordo com os dados de adaptação dos novos oradores.
Encontramo-nos, portanto, perante três formas diferentes de gerar sistemas dependentes do orador cuja diferença reside, essencialmente, no modelo inicial. Ou
iniciamos o desenvolvimento num modelo aleatório, trabalho desenvolvido no pon-
192
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
to 3.5.3, ou a partir de um sistema independente do orador, desenvolvido no ponto
4.4.1, ou, ainda, de um sistema dependente do orador, mas para um outro orador
de referência, trabalho desenvolvido ao longo deste ponto. Comparativamente os
resultados obtidos foram semelhantes havendo uma ligeira melhoria na situação em
que partimos de um sistema DO para um orador de referência. Computacionalmente podemos dizer que esta última situação foi, também, a mais vantajosa. Apesar
de o número de iterações ser idêntico à situação em que partimos de um sistema
IO deveremos considerar que o modelo tem muito menos parâmetros, camadas de
entrada e de saı́da com a mesma dimensão mas com 350 unidades intermédias em
lugar das 1 000. Comparativamente a situação em que partimos de modelos iniciais
aleatórios necessitou de um número muito mais elevado de iterações, apesar do seu
modelo inicial ser o mais simples.
4.7 Adaptação ao orador não supervisionada
Nas diferentes técnicas de adaptação ao orador, que desenvolvemos anteriormente, estivemos sempre perante uma aprendizagem supervisionada, já que existia um conhecimento a priori do conteúdo das frases usadas como material de
adaptação. Com uma aprendizagem deste tipo cada orador terá, obrigatoriamente, de passar por uma fase inicial onde terá de pronunciar um conjunto pré-definido
de frases.
No entanto, existem situações onde os oradores não se encontram disponı́veis
antes de se iniciar a utilização do sistema. A solução para essas situações passou
sempre, até aqui, pela utilização de um sistema independente do orador. Actualmente verifica-se que seria extremamente benéfica a aplicação de técnicas de adaptação
ao orador em situações desse tipo. É nesse sentido que se tem dado uma maior
ênfase ao desenvolvimento de técnicas de adaptação ao orador aplicadas a sistemas
independentes do orador. Para isso é necessário reformular as técnicas de adaptação
de forma a que o material de adaptação seja baseado nas primeiras frases pronunciadas pelo orador no seu uso normal do sistema. Passamos assim a uma adaptação
193
4.7 Adaptação ao orador não supervisionada
on-line ou incremental, onde a adaptação ocorre em simultâneo com o reconhecimento, deixando de haver um conhecimento a priori do conteúdo das frases que
deverão servir de material de adaptação. Nesse sentido a aprendizagem deverá ser
feita num modo não-supervisionado.
No nosso trabalho anterior a adaptação era realizada de uma forma off-line ou
estática e num modo de aprendizagem supervisionado. Redefinindo o nosso objectivo pretendemos evoluir para uma adaptação on-line ou incremental e com uma
aprendizagem não-supervisionada. Na persecução desse objectivo dividimos esta
transição em dois passos parcelares. Num primeiro passo, a realizar nesta secção,
evoluı́mos para uma situação de aprendizagem não-supervisionada, mas mantendo
a adaptação numa forma estática, e num segundo passo evoluı́mos para a forma
incremental com aprendizagem não-supervisionada, trabalho este a apresentar na
secção seguinte.
O trabalho apresentado nesta secção refere-se à extensão da técnica da Rede Linear de Entrada, escolhida devido aos excelentes resultados obtidos anteriormente,
a um modo de aprendizagem não-supervisionado, mas numa situação de adaptação
ao orador estática onde existe um conjunto de treino separado do conjunto de teste.
O processo da adaptação não-supervisionada com a técnica RLE pode ser explicitado nos seguintes passos:
Considere-se um orador do conjunto de teste
1. Considere-se
.
2. Tome-se um grupo de
3. Reconheçam-se essas
frases do orador.
frases através do sistema independente do
orador .
4. Realize-se um alinhamento de Viterbi entre o conjunto de vectores de
caracterı́sticas extraı́dos dessas
frases e a sequência de modelos
fonéticos correspondentes às frases reconhecidas pelo sistema (este passo gera as etiquetas fonéticas a atribuir a cada trama de entrada das
194
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
frases).
5. Adapte-se a Rede Linear de Entrada através de um processo supervisionado, como se fez anteriormente (assim vai-se transformando o sistema, inicialmente independente do orador, num sistema progressivamen-
te adaptado ao novo orador).
6. Faça-se agora
.
7. Tome-se um novo grupo de
frases do orador; se não existirem mais
frases pare-se o processo.
8. Reconheçam-se as
frases (as frases acumuladas até agora) com o
sistema actual.
9. Transite-se para o passo 4.
Repitam-se os passos anteriores para cada orador no conjunto de teste.
onde
é o número de frases no bloco incremental usado em cada iteração.
Esta técnica de adaptação ao orador não-supervisionada foi avaliada no corpus
dependente do orador da base de dados RM. Como referimos anteriormente os dados foram divididos em dois conjuntos por cada orador: um conjunto de adaptação
com 700 frases, resultantes dos conjuntos de treino e de teste de desenvolvimento
standard, e um conjunto de teste com 100 frases, resultante do conjunto de teste de
avaliação standard.
Na Tabela 4.20 apresentamos os resultados das diferentes experiências realizadas com a técnica de adaptação RLE, assim como, os resultados do sistema independente do orador. Os resultados apresentados foram obtidos sobre os dados de
teste (100 frases), como aconteceu no desenvolvimento das técnicas de adaptação
anteriores. Apresentamos três diferentes experiências de adaptação com a técnica
RLE. Em todas estas experiências utilizámos 80 frases, extraı́das do conjunto de
treino previamente definido, e de uma forma idêntica às outras técnicas anteriormente apresentadas. RLE1 refere-se à experiência com adaptação supervisionada e
onde usámos 20 frases como validação cruzada (esta situação é igual à apresentada
195
4.7 Adaptação ao orador não supervisionada
na Tabela 4.4). Tanto RLE2 como RLE3 referem-se a adaptação não supervisionada
onde se agruparam as frases em diferentes blocos de
e
, respectiva-
mente. De notar que desta forma existe um conjunto de treino/adaptação separado
do conjunto de teste.
Sistema
RLE1
RLE2
RLE3
Oradores
Independente
supervisionada
não-supervisionada
não-supervisionada
de teste
do Orador
bef0
7,9%
7,1%
7,8%
7,9%
cmr0
15,5%
8,7%
8,1%
8,4%
das1
6,7%
2,9%
3,5%
3,8%
dms0
6,1%
4,5%
5,1%
5,2%
dtb0
7,3%
4,8%
6,2%
5,9%
dtd0
8,1%
4,8%
6,8%
6,2%
ers0
8,7%
7,0%
9,2%
9,0%
hxs0
10,9%
4,9%
5,5%
5,2%
jws0
5,3%
4,6%
4,0%
4,5%
pgh0
6,9%
3,3%
4,7%
4,3%
rkm0
14,6%
9,6%
13,1%
10,1%
tab0
4,1%
3,9%
4,2%
3,7%
Média
8,5%
5,5%
6,5%
6,2%
Tabela 4.20: Avaliação da Rede Linear de Entrada usando 80 frases de adaptação
do corpus dependente do orador da base de dados RM.
Da análise dos resultados gostarı́amos de começar por salientar a melhoria introduzida pela aplicação das técnicas de adaptação ao orador. O melhor resultado
vem da RLE1, como aliás seria de esperar dado tratar-se de adaptação supervisionada, com uma redução no erro de 35% quando comparado com o desempenho do
sistema independente do orador. No entanto, os resultados para a RLE2 e RLE3 são
também bons, dado referirem-se a experiências de adaptação não-supervisionada.
Enquanto que na RLE1 estamos a adaptar o sistema com base num conjunto de
etiquetas correctamente definidas, já que há um conhecimento a priori das frases,
196
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
isso já não acontece em RLE2 e RLE3, onde as etiquetas são definidas com base no
próprio reconhecimento realizado pelo sistema.
Apesar de através da adaptação não-supervisionada não termos atingido o nı́vel
de desempenho alcançado com a adaptação supervisionada, esta situação vai-nos
permitir incorporar directamente a adaptação ao orador num sistema independente do orador, de uma forma perfeitamente transparente para o utilizador. É este
trabalho que vamos desenvolver na secção seguinte.
4.8 Adaptação ao orador em modo incremental
O nosso trabalho anterior incidiu no desenvolvimento de técnicas de adaptação
ao orador através de aprendizagem supervisionada e num modo estático, onde
dispúnhamos de um conjunto de treino para realizar a adaptação, e de um conjunto de teste separado onde se avaliava o desempenho do sistema, antes e após a
realização da adaptação. Nesta situação havia um conhecimento do conteúdo do
conjunto de treino dado que se tratavam de frases gravadas pelo orador a partir de
um conjunto de frases de texto definidas à partida. Este trabalho permitiu-nos desenvolver diferentes técnicas, com caracterı́sticas próprias, e, dado que a sua avaliação
se verificou sobre o mesmo conjunto de dados, realizar um estudo comparativo entre
essas técnicas.
Na secção anterior referimos um determinado conjunto de aspectos, em termos
de facilidade e disponibilidade de utilização, que nos levaram a procurar modificar
essas técnicas para incorporar uma forma de adaptação incremental. Nesta nova
forma a técnica de adaptação dispõe unicamente dos dados gerados na utilização
do sistema, o que faz com que o processo de adaptação só possa usar informação
extraı́da dos dados de teste que já tenha previamente reconhecido. Isto significa que
não existe um conhecimento a priori das frases usadas como material de adaptação,
o que nos levou a procurar definir um procedimento não-supervisionado, que foi
desenvolvido na secção anterior para uma situação de adaptação estática e para a
4.8 Adaptação ao orador em modo incremental
197
técnica envolvendo a Rede Linear de Entrada (RLE).
Nesta secção vamos apresentar o nosso trabalho no desenvolvimento da
técnica RLE numa forma de adaptação incremental e com aprendizagem nãosupervisionada. Para efectuar este trabalho decidimos mudar de base de dados, procurando uma tarefa mais difı́cil e ao mesmo tempo procurando seguir a evolução
verificada na comunidade cientı́fica internacional. Essa evolução deu-se no sentido do corpus independente do orador da base de dados Wall Street Journal
[Paul e Baker, 1992] na sua versão inicial WSJ0.
Para avaliação desta nova técnica escolheu-se uma tarefa, associada à base de
dados WSJ, que incorporava adaptação incremental do tipo não-supervisionado,
mas que permitia também avaliação da adaptação do tipo supervisionado. Esta
tarefa apresentava-se adequada aos nossos objectivos já que permitia avaliar os novos desenvolvimentos por nós efectuados ao nı́vel da adaptação incremental nãosupervisionada, e, por outro lado, dar-nos um ponto de transição relativamente ao
trabalho anterior através da avaliação com aprendizagem supervisionada.
De seguida vamos apresentar o procedimento associado à técnica RLE de forma a incorporar uma adaptação ao orador incremental e não-supervisionada. Finalmente terminaremos esta secção com a avaliação desta técnica através de uma
tarefa associada à base de dados WSJ.
4.8.1 Modificação da técnica RLE para incorporar adaptação
incremental
A situação de adaptação ao orador no modo incremental com aprendizagem não-supervisionada implica que no treino da adaptação só é possı́vel usar
informação, extraı́da do conjunto de teste, que já tenha sido reconhecida. Como referido anteriormente na adaptação incremental, e em oposição à adaptação estática,
não existem conjuntos de treino e teste separados. O procedimento de adaptação é
incrementalmente aplicado sobre o próprio conjunto de teste.
198
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
O procedimento da adaptação ao orador incremental e não-supervisionado é o
seguinte:
Considere-se um orador do conjunto de teste
1. Considere-se
.
2. Tome-se um grupo de
frases de teste do orador.
3. Reconheçam-se estas
frases através do sistema IO (este reconheci-
mento será o usado para estas primeiras
frases na avaliação final do
desempenho).
4. Realize-se um alinhamento de Viterbi entre o conjunto de vectores de
caracterı́sticas extraı́dos das
frases e a sequência de modelos
fonéticos correspondentes às frases reconhecidas pelo sistema (este passo gera as etiquetas fonéticas a atribuir a cada trama de entrada das
frases).
5. Adapte-se a Rede Linear de Entrada através de um processo supervisionado, como se fez anteriormente (assim vai-se transformando o sistema, inicialmente independente do orador, num sistema progressivamen-
te adaptado ao novo orador).
6. Faça-se agora
7. Reconheçam-se as
$ ) .
frases (as frases acumuladas até agora)
através do sistema actual.
8. Tome-se um novo grupo de
frases de teste do orador; se não existirem
mais frases pare-se o processo.
9. Reconheçam-se estas novas
frases através do sistema actual (este re-
conhecimento será o usado para estas
frases na avaliação final do
desempenho).
10. Transite-se para o passo 4.
Repitam-se os passos anteriores para cada orador no conjunto de teste.
199
4.8 Adaptação ao orador em modo incremental
O procedimento de adaptação anterior poderá ser modificado de forma a realizar uma aprendizagem supervisionada. Nesta situação, adaptação incremental supervisionada, podemos usar a informação correcta sobre o conteúdo da frase após
se ter efectuado o seu reconhecimento. O procedimento da adaptação ao orador incremental e supervisionado segue os mesmos passos que o anterior, excepção para
o passo 4. que deverá ser reescrito na seguinte forma:
4. Realize-se um alinhamento de Viterbi entre o conjunto de vectores de caracterı́sticas extraı́dos das
frases e a sequência de modelos fonéticos
correspondentes à transcrição correcta dessas
frases (este passo gera as
etiquetas fonéticas a atribuir a cada trama de entrada das
frases).
Nestes procedimentos de adaptação são geradas nos passos 3. e 9., para cada
novo grupo de frases, as transcrições finais das frases de teste que serão usadas
na avaliação final do desempenho. Note-se que a transcrição é gerada antes dessas
frases serem usadas na adaptação do sistema, respeitando assim a forma incremental
da adaptação.
4.8.2 Avaliação da técnica RLE com adaptação incremental sobre a base de dados WSJ
De forma a avaliarmos o procedimento da adaptação ao orador incremental
em ambos os modos não-supervisionado e supervisionado aplicado à técnica RLE,
escolhemos como conjunto de teste o Spoke 4 integrado no conjunto de avaliação
do WSJ de Novembro de 1994, conforme explicitámos no ponto 3.5.4 do capı́tulo
anterior.
Nesta tarefa encontramos um grupo de 4 oradores com um conjunto de 100
frases, aproximadamente, por orador. O sistema deverá ser adaptado de uma forma
incremental ao novo orador e pretende-se que ao fim de cada conjunto de 25 frases
o sistema seja avaliado. A avaliação a realizar em cada um desses pontos deverá
200
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
compreender o sistema sem adaptação (IO), o sistema com adaptação ao orador
incremental não-supervisionada (AOINS) e com adaptação ao orador incremental
supervisionada (AOIS).
Com base nos procedimentos de adaptação incremental, anteriormente descritos, e partindo do sistema independente do orador, desenvolvido para a base de dados WSJ0 (conferir ponto 3.5.4 do capı́tulo anterior), avaliámos a técnica RLE sobre
esta tarefa (Spoke 4 de Novembro de 1994). No nosso procedimento de adaptação
utilizámos grupos de 5 frases (
).
Os resultados do erro ao nı́vel da palavra
encontram-se na Tabela 4.21.
Frases
1-25 26-50 51-75
+76
Média
Orador
IO
13,4
14,8
16,1
22,8
16,8
4TB
AOINS
12,2
11,2
16,6
17,5
14,4
AOIS
12,0
11,5
12,3
15,7
12,9
Orador
IO
19,7
27,8
18,7
23,3
22,5
4TC
AOINS
19,4
22,3
18,5
18,5
19,7
AOIS
17,1
20,7
16,8
16,2
17,7
Orador
IO
35,9
36,9
39,1
47,1
39,8
4TD
AOINS
34,9
31,1
33,0
35,5
33,5
AOIS
30,7
25,9
22,7
23,8
25,7
Orador
IO
11,5
15,4
14,7
11,2
13,2
4TE
AOINS
10,4
11,6
14,9
11,6
12,2
AOIS
9,1
9,9
14,0
11,5
11,2
Tabela 4.21: Resultados do erro ao nı́vel da palavra para a técnica de adaptação
ao orador RLE avaliada na tarefa Spoke 4 do conjunto de avaliação do WSJ de
Novembro de 1994.
Na Tabela 4.21, para cada orador, a primeira linha (IO) apresenta os resultados
do sistema Independente do Orador, ou seja, com a adaptação ao orador desligada.
A segunda linha (AOINS ) refere-se à utilização da Adaptação ao Orador Incremen-
4.8 Adaptação ao orador em modo incremental
201
tal Não-Supervisionada, enquanto a terceira linha (AOIS) refere-se à utilização da
Adaptação ao Orador Incremental Supervisionada. Nas colunas são apresentados os
resultados para estas três situações após a aplicação de cada conjunto de 25 frases.
Os resultados nas linhas IO referem-se simplesmente à avaliação separada, pelo
sistema independente do orador, de cada grupo de 25 frases não havendo, portanto,
nenhuma relação ao longo dessa linha. Nos casos onde se realiza a adaptação, tanto
nas linhas AOINS e AOIS, os dados utilizados na adaptação vão crescendo incrementalmente. Considerando que estamos a utilizar blocos de 5 frases, o resultado
para as 5 primeiras frases é idêntico nas três avaliações. O resultado para as primeiras 10 frases, no caso em que há adaptação ao orador, já é realizado pelos sistemas
adaptados com base nas 5 primeiras frases, e assim sucessivamente de uma forma
incremental.
Ao realizarmos uma análise da Tabela 4.21 ao longo das linhas onde existe
adaptação ao orador não se verifica uma diminuição progressiva da taxa de erros,
como poderı́amos à partida esperar já que o sistema está a ser incrementalmente
adaptado. No entanto, devemos notar que em cada coluna temos um grupo de frases diferentes, com um nı́vel de desempenho diferente, o que, portanto, não torna
visı́veis os benefı́cios introduzidos pela adaptação incremental. Ao analisarmos, para cada orador, o desempenho dos três sistemas, para um mesmo conjunto de frases,
verifica-se que o erro relativo dos sistemas com adaptação, relativamente ao sistema independente do orador, vai diminuindo progressivamente com o aumento do
número de frases, mostrando, assim, a eficiência do processo de adaptação.
Comparando os dois sistemas de adaptação verifica-se que o sistema com
adaptação supervisionada apresenta um desempenho superior, como aliás seria de
esperar, dado que nesse procedimento de adaptação é fornecida a transcrição correcta das frases e não o resultado do sistema, que introduz um conjunto de erros
de reconhecimento. No entanto, e apesar desses erros, o sistema com aprendizagem não-supervisionada converge apresentando um nı́vel de desempenho bastante
elevado.
202
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
Na Tabela 4.22 agrupámos os 4 oradores, fazendo a sua média para cada conjunto de frases.
Frases
1-25 26-50 51-75
+76
Média
IO
20,1
23,7
22,1
26,1
23,1
AOINS
19,2
19,1
20,8
20,8
20,0
AOIS
17,2
17,0
16,5
16,8
16,9
Tabela 4.22: Resultados em média para os quatro oradores do erro ao nı́vel da
palavra para a técnica de adaptação ao orador RLE avaliada na tarefa Spoke 4 do
conjunto de avaliação do WSJ de Novembro de 1994.
O mesmo conjunto de considerações anteriores aplicam-se a estes resultados,
verificando-se uma melhoria média de 13,4% para o sistema com adaptação incremental não-supervisionada e uma melhoria média de 26,8% para o sistema com
adaptação incremental supervisionada. Estes resultados mostram uma melhoria extremamente significativa resultante da aplicação das técnicas de adaptação ao orador
de uma forma incremental.
4.9 Considerações finais
O trabalho por nós realizado no âmbito dos sistemas hı́bridos de reconhecimento da fala contı́nua, apresentado no Capı́tulo 3, permitiu-nos desenvolver os
sistemas básicos que serviram de ponto de partida à investigação da adaptação ao
orador apresentada ao longo deste capı́tulo. Nesse trabalho desenvolvemos sistemas de reconhecimento da fala contı́nua, independentes do orador, para grandes
vocabulários, onde os modelos acústico-fonéticos eram baseados num MLP sendo
a parte de modelamento temporal baseada nos HMMs, formando, assim, um sistema hı́brido MLP/HMM.
Ao iniciarmos o nosso trabalho verificámos que nenhuma investigação, em ter-
4.9 Consideraç ões finais
203
mos da adaptação ao orador, tinha ainda sido realizada no âmbito dos sistemas
hı́bridos de reconhecimento da fala contı́nua. No entanto as redes neuronais, e
o MLP em particular, já tinham despertado a atenção, começando-se a perceber
que estes modelos possuı́am um conjunto de caracterı́sticas adequadas à realização
da adaptação ao orador. Assim, analisámos o trabalho bastante longo efectuado no âmbito dos sistemas clássicos de reconhecimento e procurámos daı́ alguma
inspiração para o trabalho a realizar através dos sistemas hı́bridos.
No trabalho inicial por nós realizado desenvolvemos quatro técnicas de
adaptação ao orador. Duas dessas técnicas baseavam-se em transformações, aplicadas na saı́da (RLS) e na entrada (RLE) do MLP-IO (secção 4.3), e as outras duas na
alteração do sistema independente do orador (secção 4.4), através da modificação
dos seus parâmetros (MPSIO) e do suplemento de uma camada intermédia paralela (CIP). Com base nos resultados alcançados, realçamos a técnica RLE em que
através de um procedimento extremamente simples se alcançaram excelentes resultados e de uma forma eficiente. Este trabalho foi inicialmente apresentado no
âmbito da avaliação do projecto W ERNICKE [Wernicke, 1994]. Devido aos excelentes resultados e à sua forma eficiente a técnica RLE foi aplicada a um sistema
hı́brido RNN/HMM por parte de Mike Hochberg e Steve Renals do CUED. Os
nossos resultados em conjunto com os da técnica RLE para o sistema RNN/HMM
foram publicados em [Neto et al., 1995a].
Dado que grande parte do trabalho de adaptação ao orador, no âmbito dos sistemas clássicos de reconhecimento, se baseia na adaptação de sistemas de referência
dependentes do orador pretendemos avaliar a adaptação desses sistemas no âmbito
dos sistemas hı́bridos (secção 4.6). Verificámos que para quantidades de dados de
adaptação não muito elevadas o nı́vel de desempenho do sistema de referência adaptado ao novo orador era inferior ao apresentado para as outras técnicas de adaptação
ao orador. Ao aumentarmos a quantidade de dados de adaptação obtivemos um conjunto de novos modelos dependentes do orador, que resultaram da transformação
dos modelos de referência de acordo com os dados de adaptação dos novos oradores. Verificámos que estes modelos apresentam um nı́vel de desempenho superior
204
Capı́tulo 4 - Adaptação ao orador no âmbito dos modelos hı́bridos
aos modelos de referência iniciais, permitindo-nos, assim, obter melhores modelos
dependentes do orador e de uma forma muito mais eficiente.
Na parte final do nosso trabalho aplicámos, com bons resultados, a técnica de
adaptação RLE a uma tarefa de adaptação incremental não-supervisionada (secções
4.7 e 4.8) para a base de dados WSJ0 [Neto et al., 1996b] [Neto et al., 1996a]. Para isso foi necessário passar do sistema baseado no RM, para um novo sistema,
também independente do orador, para a base de dados WSJ0. Através da técnica de
adaptação incremental não-supervisionada os dados de adaptação são gerados pelo
utilizador directamente no uso do sistema. Actualmente, nos sistemas de reconhecimento de fala contı́nua para grandes vocabulários, encontramos aplicadas técnicas
de adaptação ao orador deste tipo [Woodland et al., 1995] dado que se trata de um
processo perfeitamente transparente para o utilizador. No sistema ABBOT desenvolvido no CUED pelo grupo do Dr. Tony Robinson encontramos também aplicada
uma técnica de adaptação incremental não-supervisionada baseada na técnica RLE,
mas aplicada a um sistema hı́brido RNN/HMM [Waterhouse et al., 1996].
Capı́tulo 5
Desenvolvimento de um sistema de
reconhecimento da fala contı́nua
para Português
O grande desenvolvimento dos sistemas de reconhecimento da fala contı́nua,
a que temos assistido nos últimos anos, verificou-se, essencialmente, para o Inglês Americano. Este desenvolvimento surge, em grande parte, como corolário do
financiamento proporcionado pela ARPA ao desenvolvimento de novas bases de
dados, associadas a tarefas cada vez mais exigentes, e à execução de programas
de avaliação anuais dos sistemas de reconhecimento, em condições pré-definidas e
iguais para todos os participantes.
Apesar deste desenvolvimento se ter verificado para o Inglês Americano, financiado, maioritariamente, por fontes americanas, têm sido os grupos europeus a
liderarem tecnologicamente este processo. Os melhores resultados nos programas
de avaliação que se realizaram nos últimos três anos, foram obtidos pelo grupo do
Prof. Steve Young do Departamento de Engenharia da Universidade de Cambridge,
Inglaterra, e conhecido como CUED-HTK. Além deste grupo aparecem a LIMSI e
a PHILIPS, também, com excelentes resultados. Seguem-se um conjunto de gru-
206
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
pos com resultados semelhantes e onde, nos primeiros lugares, se inclui o grupo do
CUED-RNN que apresenta um modelo hı́brido.
Se por um lado estes programas de avaliação anual têm permitido um avanço
rápido nos sistemas de reconhecimento, através da conjugação das exigências crescentes das bases de dados e da avaliação de diferentes caracterı́sticas comparativamente entre sistemas, têm relegado para segundo plano o desenvolvimento de sistemas para as lı́nguas europeias (no caso dos grupos referidos, mesmo
para a sua própria lı́ngua mãe). A excepção vem do projecto Europeu S QALE
[Steeneken e Leeuwen, 1995] cujo objectivo foi o de avaliar diferentes sistemas para quatro lı́nguas em simultâneo (Inglês Americano, Inglês Britânico, Francês e
Alemão), mantendo fixos um conjunto de caracterı́sticas dos sistemas. Em nossa
opinião, esta lacuna fica a dever-se, sobretudo, à inexistência de bases de dados de
tamanho e caracterı́sticas adequadas para o reconhecimento da fala contı́nua.
Apesar de na sua estrutura básica os sistemas de reconhecimento não diferirem
substancialmente em função da lı́ngua, existe um conjunto de caracterı́sticas que depende particularmente dela. Nesse sentido tem-se procurado estudar, desenvolver
e definir as caracterı́sticas dos sistemas que podem ser consideradas independentes
da lı́ngua e aquelas que são, necessariamente, dependentes. Este esforço, integrado
numa área conhecida como sistemas multilı́ngua, tem mostrado que existe associado a esta área um conjunto de problemas extremamente interessante, tanto ao nı́vel
de investigação como ao nı́vel da engenharia.
A evolução verificada no nosso trabalho foi no sentido de procurar criar as
estruturas necessárias para o desenvolvimento de sistemas de reconhecimento de
fala contı́nua para Português. As principais justificações para o rumo que o nosso trabalho tomou resultam, por um lado, da necessidade que sentimos de aplicar
os nossos conhecimentos, relativamente ao desenvolvimento de sistemas hı́bridos
MLP/HMM para inglês, ao desenvolvimento de sistemas de reconhecimento de fala contı́nua para Português e, por outro, da dificuldade que sentimos de acompanhar
o desenvolvimento dos sistemas de grandes vocabulários ao nı́vel do inglês, devido à inexistência de recursos apropriados, tanto ao nı́vel de mão-de-obra como de
207
recursos computacionais.
O Português apresentava uma situação bastante elementar dada a inexistência
de bases de dados de tamanho apropriado para o reconhecimento da fala contı́nua,
tanto ao nı́vel da fala como ao nı́vel de texto. A única base de dados existente era a
EUROM.1 SAM [Ribeiro et al., 1993], com fala contı́nua, recolhida numa câmara
anecóica, mas bastante limitada, dada a quantidade de dados de que era composta.
Para a realização de uma tarefa de reconhecimento fonético, tarefa esta que está
na base de qualquer sistema de reconhecimento da fala contı́nua, torna-se necessária
a existência de uma base de dados rica foneticamente e com uma grande variabilidade ao nı́vel dos oradores, como é o caso da TIMIT para o Inglês Americano.
Outro requisito essencial é a existência de uma segmentação e correcta etiquetagem
dos diferentes segmentos fonéticos existentes nessa base de dados, como se verifica,
também, na TIMIT.
Dada a inexistência das bases de dados, com as caracterı́sticas apropriadas para
o desenvolvimento de um sistema de reconhecimento da fala contı́nua para Português, definimos dois objectivos iniciais para o nosso trabalho:
definir, desenvolver e recolher uma base de dados de tamanho adequado para
o reconhecimento da fala contı́nua
realizar um sistema básico que nos permitisse desenvolver alguns dos
módulos necessários a um sistema de reconhecimento da fala contı́nua, como seja, um vocabulário de transcrições fonéticas, modelos de linguagem e,
principalmente, alinhamento fonético automático.
Estes dois caminhos deveriam ser seguidos em paralelo e aquando da existência
da base de dados deveriam ser fundidos de forma a se atingir o nosso objectivo
principal que é a realização de um sistema de reconhecimento da fala contı́nua para
Português. Este objectivo deverá ser sempre encarado a médio prazo dado o esforço
necessário para cada um destes caminhos.
208
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
Escolhemos como modelo para a nossa base de dados o trabalho desenvolvido para a base de dados Wall Street Journal - Pilot Corpus, denominada WSJ0.
Os textos da base de dados foram extraı́dos do jornal P ÚBLICO e os oradores da
base de dados foram seleccionados da população estudantil do Instituto Superior
Técnico. O trabalho realizado na definição e desenvolvimento desta base de dados
é apresentado na secção 5.1.
O desenvolvimento de um sistema de reconhecimento de fala contı́nua deve
ser encarado, em nossa opinião, como um processo iterativo. Deveremos começar
por uma tarefa simples e gradualmente deveremos aumentar a sua dificuldade. O
desenvolvimento do sistema básico para o Português baseou-se na base de dados
SAM, a única base de dados existente com fala contı́nua em Português, no entanto,
bastante limitada no número de oradores e no número de frases por orador. Este
trabalho é apresentado na secção 5.2 deste capı́tulo.
5.1 Definição e desenvolvimento de uma base de dados de fala contı́nua em Português
A definição das caracterı́sticas da nova base de dados para Português
[Neto et al., 1997b] baseou-se no modelo desenvolvido para a base de dados Wall
Street Journal - Pilot Corpus (WSJ0) [Paul e Baker, 1992]. Para fonte de texto escolhemos o jornal PÚBLICO, com base nas suas edições disponı́veis na WWW
através da sua iniciativa PÚBLICO ON-LINE (http://www.publico.pt/). Na versão
do jornal, disponı́vel na WWW, existe toda a informação contida na edição diária
em papel. A escolha recaiu sobre o jornal PÚBLICO dado tratar-se de um dos melhores jornais diários em Português Europeu, com uma larga cobertura de assuntos
e escrito por um excelente conjunto de jornalistas e colaboradores.
Contrariamente ao Wall Street Journal onde se tratavam, exclusivamente, assuntos económicos, com a escolha do PÚBLICO procurámos um campo mais vasto
de assuntos. Aliás, foi nesse sentido, também, que se verificou a evolução das bases
5.1 Definição e desenvolvimento de uma base de dados de fala contı́nua em Português 209
de dados em Inglês através da North American Business News (NABN) que sucedeu
no tempo ao WSJ.
O conjunto de oradores presentes na base de dados, por nós desenvolvida, foi
seleccionado da população de estudantes do Instituto Superior Técnico (IST). Esta escolha apresenta algumas vantagens e algumas limitações. A maior limitação
resulta da faixa etária que se encontra compreendida entre os 19 e os 28 anos de
idade. No entanto, apresenta uma grande vantagem resultante do facto de o IST ser
uma das melhores e maiores escolas de engenharia do paı́s, onde encontramos uma
população estudantil oriunda de diferentes regiões e com diferentes nı́veis sociais,
o que origina uma enorme variabilidade nos oradores decorrente dos diferentes sotaques.
O desenvolvimento de uma nova base de dados é uma tarefa que exige a
conjugação de um conjunto variado de condições. É necessária a disponibilidade de um conjunto elevado de recursos humanos e de um conjunto de equipamentos
apropriados, tanto para a recolha, como, para o tratamento e armazenamento da
informação. A conjugação destes recursos foi possı́vel através do financiamento do
projecto europeu SPRACH e de um projecto no âmbito do PRAXIS XXI, além da
colaboração do INESC, IST e do jornal PÚBLICO.
5.1.1 Objectivos para a base de dados
Na constituição desta base de dados foi pedido aos oradores que lessem um
conjunto de frases, extraı́das em blocos tendo como unidade o parágrafo, retiradas
do texto do jornal. Apesar da tarefa requerida aos oradores ser uma tarefa tı́pica
de ditado, não pretendemos restringir o nosso trabalho, unicamente, aos sistemas
de ditado. As aplicações comerciais dos sistemas de ditado mostraram-nos que
esses sistemas são, essencialmente, caracterizados por oradores cooperantes, operando num modo dependente do orador, ou com adaptação ao orador, gerando fala
contı́nua de uma forma cuidada de modo a facilitar a sua correcta transcrição para
texto.
210
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
Apesar de nesta base de dados estarmos impondo uma tarefa de ditado, ela
faz-se de um modo independente do orador, que resulta do número e variabilidade
elevada dos oradores e da quantidade de dados por orador. Certamente que esta não será a situação ideal em termos de reconhecimento da fala contı́nua, mas
irá com certeza permitir o desenvolvimento de modelos acústicos, dicionários de
pronunciação e modelos de linguagem independentes do domı́nio, e, como consequência, sistemas de reconhecimento da fala contı́nua independentes do domı́nio.
Esta base de dados irá permitir-nos num futuro próximo explorar alguns aspectos do reconhecimento da fala contı́nua, que constituem actualmente pólos de
investigação da comunidade cientı́fica internacional que trabalha nesta área. De
entre eles gostarı́amos de referir os seguintes:
Adaptação dos modelos acústico-fonéticos através da adaptação ao orador,
como desenvolvemos anteriormente para o inglês.
Adaptação dos modelos de linguagem a tarefas e domı́nios especı́ficos através
de um treino em textos associados a esses domı́nios.
Criação de novos modelos de linguagem através da exploração da regularidade do Português, reduzindo o tamanho dos vocabulários e a perplexidade
associada aos modelos de linguagem.
Representação, de uma forma eficiente, nos dicionários de pronunciação da
multi-pronunciação das palavras presentes na base de dados, que resulta da
enorme variabilidade dos oradores.
5.1.2 Preparação do texto da base de dados
Os textos usados no desenvolvimento da base de dados são relativos aos primeiros seis meses do jornal PÚBLICO na WWW, ou seja, desde o inı́cio da iniciativa,
em 22 de Setembro de 1995, até 31 de Março de 1996. Estes textos foram recolhidos através de ftp a partir da Faculdade de Ciências da Universidade de Lisboa, para
5.1 Definição e desenvolvimento de uma base de dados de fala contı́nua em Português 211
o que contámos com a colaboração do Prof. Pedro Veiga.
Os textos encontravam-se individualizados por artigos, no formato html. Foi
necessário convertê-los do formato html para texto e remover alguns dos cabeçalhos
e alguma informação duplicada. No fim juntaram-se todos os artigos de uma edição
num único ficheiro. A cada edição foi atribuı́da uma identificação única com base na data. A cada artigo foi também atribuı́da uma identificação única baseada
na identificação da edição e no nome do ficheiro original. Isto permite-nos, em
qualquer ponto do processamento, localizar qualquer parte do texto. No final obtivemos 188 ficheiros correspondendo ao mesmo número de edições do jornal, que
representavam aproximadamente 220 Mb de informação.
O conceito de palavra por nós utilizado corresponde a uma cadeia de caracteres
delimitada por espaços. Com base neste conceito analisaram-se os textos de forma a
definir as diferentes palavras presentes. Para isso cada palavra foi analisada de forma a se retirar a pontuação, corrigir erros ortográficos e converter números e datas
em ortografia. Este processo foi realizado automaticamente, sendo posteriormente
verificado e corrigido manualmente. Esta fase foi extremamente pesada dada a necessidade de um enorme esforço de mão-de-obra e de tempo necessário para a sua
realização. Nesta fase trabalharam cerca de 10 pessoas durante aproximadamente 2
meses.
Neste ponto os textos consideraram-se prontos e foi realizada uma análise para
determinar os vários totais. Estes valores são apresentados na Tabela 5.1.
O passo seguinte foi a realização de uma análise estatı́stica dos textos que nos
ajudasse a definir os parâmetros para selecção dos parágrafos e frases a usar como conjuntos para gravação. Dessa análise resultou que os parágrafos deveriam
ter entre 2 a 4 frases cada e as frases deveriam compreender entre 6 a 39 palavras. Com estes parâmetros foram rejeitados parágrafos só com uma frase, que
correspondiam, maioritariamente, a tı́tulos, subtı́tulos e nomes dos autores dos artigos, e os parágrafos longos (mais de 4 frases), que ocorriam com pouca frequência e que são normalmente mais complexos e, portanto, mais difı́ceis de ler.
212
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
Número de
Edições
188
Artigos
24 287
Parágrafos
148 657
Frases
416 617
Palavras
Palavras diferentes
10 976 009
155 867
Palavras diferentes ocorrendo
mais de duas vezes
62 015
Tabela 5.1: Resumo dos totais dos textos presentes na base de dados.
O nosso objectivo foi o de manter blocos de parágrafos com um texto coerente
e com significado semântico, facilitando, sobretudo, a produção prosódica da fala
[Paul e Baker, 1992]. Nesse sentido optámos, também, por retirar frases curtas, com
menos de 6 palavras, e frases longas, com mais de 39 palavras. Estes parâmetros
foram definidos de forma a que a quantidade do material resultante fosse significativa. Estes parâmetros limitadores e a restrição de que as palavras deveriam estar
entre aquelas que ocorriam mais de duas vezes, definiram o conjunto de parágrafos
e frases que ficaram disponı́veis para selecção dos diferentes conjuntos.
5.1.3 Selecção dos textos
O texto resultante das limitações anteriores foi dividido em três partes: treino,
teste de desenvolvimento e teste de avaliação. Definimos 80% do texto para treino,
10% para teste de desenvolvimento e 10% para teste de avaliação. A divisão do
texto foi realizada através de uma selecção aleatória de parágrafos até perfazer a
quantidade correspondente às partes do teste, sendo o restante correspondente ao
treino. Destes textos seriam seleccionados os parágrafos e frases correspondentes
aos vários conjuntos e, adicionalmente, com base nos textos de treino seriam treinados os modelos de linguagem.
5.1 Definição e desenvolvimento de uma base de dados de fala contı́nua em Português 213
Da parte do texto de treino seleccionaram-se aleatoriamente parágrafos, num
total de 10 000 frases, para serem usados como material para gravação. As partes do texto de teste foram usadas na selecção dos conjuntos de desenvolvimento e
avaliação, respectivamente. Em ambos os conjuntos de teste se optou, à semelhança
do WSJ0, por definir dois vocabulários: um de dimensão reduzida até 5 000 palavras (5K) e um maior até 20 000 palavras (20K). De forma análoga ao WSJ0
pretendı́amos seleccionar 2 000 frases para cada um dos conjuntos de 5K (desenvolvimento e avaliação) e 4 000 frases para cada um dos conjuntos de 20K.
Para os conjuntos de teste de 20K seleccionámos aleatoriamente parágrafos, e,
portanto, frases, obedecendo às restrições definidas no ponto anterior e uma adicional em que se restringia a um máximo de 20 000 palavras diferentes. Foram
seleccionadas 4 000 frases, como pretendido, em ambos os conjuntos de teste.
Para os conjuntos de 5K o processo de selecção processou-se, inicialmente,
conforme o realizado para os conjuntos de 20K. No caso do conjunto de teste de
desenvolvimento obtivemos somente 809 frases que satisfaziam as restrições respectivas (as restrições definidas no ponto anterior e uma adicional em que se restringia a um máximo de 5 000 palavras diferentes). Decidiu-se relaxar esta última
restrição, permitindo, assim, que o tamanho do vocabulário crescesse, até obtermos
as 2 000 frases pretendidas. Os resultados desta operação encontram-se apresentados na Tabela 5.2.
Dimensão do Número de Frases
Vocabulário
Seleccionadas
5 000
809
6 000
1 111
7 000
1 401
8 800
2 000
Tabela 5.2: Evolução do número de frases para o conjunto de teste de desenvolvimento obedecendo à restrição da dimensão do vocabulário.
214
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
Como se verifica foi necessário um vocabulário com 8 800 palavras diferentes
para se seleccionarem as 2 000 frases pretendidas. Nas experiências realizadas
verificou-se que existia um número de palavras com uma frequência de ocorrência
elevada, e que a partir daı́ as outras palavras que eram adicionadas tinham uma
frequência de ocorrência muito baixa.
Apesar de todos estes conjuntos existirem na base de dados foi decidido usar
o primeiro com as 5 000 palavras e só com 809 frases seleccionadas. Como veremos adiante este número é suficientemente representativo para o total de frases que
queremos gravar e permite-nos manter este conjunto numa dimensão significativa
em termos da carga computacional. O mesmo processo foi aplicado ao conjunto de
teste de avaliação, sendo os resultados em tudo idênticos aos apresentados para o
conjunto de teste de desenvolvimento.
Adicionalmente, definiram-se 15 frases de adaptação ao orador e três frases de
calibração. Estas frases foram seleccionadas por serem foneticamente ricas. Eram
originalmente do PÚBLICO mas foram modificadas manualmente. Estas frases
foram fornecidas pela Professora Isabel Trancoso.
As frases seleccionadas foram manualmente examinadas de forma a corrigir
qualquer eventual erro e a se poderem eliminar aquelas que fossem difı́ceis de ler e,
portanto, susceptı́veis de prejudicar o processo de gravação.
5.1.4 Conjuntos para gravação
Após a selecção das frases para os vários conjuntos da base de dados, passou-se
à definição dos conjuntos para gravação. Decidiu-se desenvolver um grande conjunto de treino com 8 000 frases gravadas resultantes de 100 oradores, e conjuntos
de teste de desenvolvimento e avaliação com 400 frases gravadas resultantes de 10
oradores cada, e para ambos os vocabulários de 5K e 20K.
Formalmente definiram-se para cada conjunto os seguintes números:
5.1 Definição e desenvolvimento de uma base de dados de fala contı́nua em Português 215
Conjunto de Treino:
– 100 oradores (50 masculinos e 50 femininos)
– 80 frases do conjunto de treino e 3 frases de calibração por cada orador
Conjunto de Teste de Desenvolvimento:
– 5K
10 oradores (5 masculinos e 5 femininos)
40 frases do conjunto de teste de desenvolvimento de 5K, 15 frases
de adaptação ao orador e 3 frases de calibração por cada orador
– 20K
10 oradores (5 masculinos e 5 femininos)
40 frases do conjunto de teste de desenvolvimento de 20K, 15 frases
de adaptação ao orador e 3 frases de calibração por cada orador
Conjunto de Teste de Avaliação:
– 5K
10 oradores (5 masculinos e 5 femininos)
40 frases do conjunto de teste de avaliação de 5K, 15 frases de
adaptação ao orador e 3 frases de calibração por cada orador
– 20K
10 oradores (5 masculinos e 5 femininos)
40 frases do conjunto de teste de avaliação de 20K, 15 frases de
adaptação ao orador e 3 frases de calibração por cada orador
As três frases de calibração são as mesmas para todos os oradores. As 15 frases
de adaptação ao orador são as mesmas para todos os oradores nos conjuntos de
teste.
A atribuição das frases aos oradores foi realizada de uma forma aleatória, com
reposição das frases entre oradores.
216
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
Do processo de atribuição das frases aos oradores resultaram as dimensões dos
vocabulários apresentados na Tabela 5.3.
Dimensão do Vocabulário em
Total de
Frases
Conjunto
Frases
Seleccionadas
Treino
21 025
15 877
Desenvolvimento 5K
5 000
2 528
Avaliação 5K
5 000
2 543
Desenvolvimento 20K
13 070
3 030
Avaliação 20K
13 023
3 156
Tabela 5.3: Dimensão do vocabulário (número de palavras) para os diferentes conjuntos.
Dos diferentes vocabulários apresentados na Tabela 5.3 extraiu-se uma lista
com todas as palavras diferentes. Esta lista foi extraı́da a partir dos vocabulários
respeitantes ao total de frases. Obteve-se uma lista com 27 833 palavras. É a partir
desta lista que se deverá gerar um dicionário de pronunciação com as transcrições
fonéticas respeitantes a cada palavra.
5.1.5 Desenvolvimento dos modelos de linguagem
A partir dos textos de treino foram gerados modelos de linguagem para os diferentes conjuntos de teste. Os modelos gerados são modelos estatı́sticos baseados
em bigramas, fechados com pesos back-off. Para isso usou-se o CMU-Cambridge
SLM Toolkit 1 . Para mais pormenores sobre estes modelos de linguagem conferir
[Martins, 1997]. Na Tabela 5.4 apresentamos os resultados obtidos da perplexidade
para cada um dos conjuntos de teste.
Como podemos observar pelos valores obtidos e apresentados na Tabela 5.4
1
Disponı́vel em http://svr-www.eng.cam.ac.uk/˜prc14/CMU-Camb Toolkit v2-BETA.4.tar.gz
5.1 Definição e desenvolvimento de uma base de dados de fala contı́nua em Português 217
Conjunto
Perplexidade
Desenvolvimento 5K
231
Avaliação 5K
241
Desenvolvimento 20K
261
Avaliação 20K
262
Tabela 5.4: Perplexidade dos modelos de linguagem para cada um dos conjuntos de
teste.
a tarefa associada a esta base de dados apresenta valores de perplexidade bastante
elevados quando comparados, por exemplo, com o a base de dados RM, que apresentava uma perplexidade de 60, e com o WSJ, que tinha uma perplexidade de 120.
5.1.6 Gravação da base de dados
Numa primeira fase das gravações, que se iniciou em Abril de 1997, optou-se
por gravar o conjunto de treino e ambos os conjuntos de teste, de desenvolvimento
e avaliação, de 5K. As gravações concluiram-se em Novembro de 1997.
As gravações decorreram numa câmara insonorizada existente nas instalações
do INESC. Foi utilizado um microfone de alta qualidade, posicionado em cima da
mesa de apoio existente na câmara, para a recolha do sinal.
Os oradores foram alunos do IST e foram recrutados através de anúncios colocados no campus, aos quais os alunos responderam oferecendo-se para participar no
projecto. Como compensação pela sua colaboração foi-lhes oferecida uma T-shirt
com o logotipo do projecto.
Na Figura 5.1 encontramos a distribuição das idades dos oradores presentes na
base de dados.
218
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
20
18
16
14
12
10
8
6
4
2
0
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Idades
Sexo Masculino
Sexo Feminino
Figura 5.1: Distribuição das idades dos oradores.
5.2 Desenvolvimento de um sistema básico de reconhecimento da fala contı́nua
O desenvolvimento do sistema básico de reconhecimento da fala contı́nua em
Português [Neto et al., 1997a], que aqui apresentamos, ocorreu em simultâneo com
a definição, desenvolvimento e recolha da base de dados que apresentámos na
secção anterior. Dada, portanto, a inexistência da base de dados do P ÚBLICO
utilizámos no desenvolvimento deste sistema a base de dados EUROM.1 SAM
[Ribeiro et al., 1993].
O desenvolvimento deste sistema básico teve como objectivo principal a
investigação de técnicas e modos de definir um alinhamento fonético automático.
Dado que não existe nenhuma base de dados segmentada e etiquetada foneticamente, tarefa esta que exige um grande esforço manual e mão-de-obra especializada, procurou-se definir um procedimento automático que nos permitisse gerar
as etiquetas associadas aos segmentos acústicos para o treino de um reconhecedor
5.2 Desenvolvimento de um sistema básico de reconhecimento da fala contı́nua
219
fonético. Este é um problema de crucial importância dado que o desenvolvimento
de um sistema de reconhecimento da fala contı́nua terá que passar sempre por esta
fase. No inglês isso foi resolvido através do desenvolvimento da base de dados TIMIT [Fisher et al., 1987]. Associado ainda ao desenvolvimento do sistema básico
gerámos o dicionário de pronunciação e modelos de linguagem especı́ficos da base
de dados SAM.
5.2.1 Descrição da base de dados SAM
A base de dados EUROM.1 SAM existe para várias lı́nguas incluindo o Português. A parte portuguesa foi desenvolvida no INESC pelo grupo de Processamento
da Fala e encontra-se disponı́vel em formato CD através da ELRA 2 . Esta base de
dados consiste em fala contı́nua, resultante de um processo de leitura, por parte dos
oradores, de um conjunto de frases, com três conjuntos de oradores diferentes, cada
um com diferentes caracterı́sticas, tanto em termos do número de oradores como em
termos de material de gravação [Ribeiro et al., 1993]. Na base de dados não existe
segmentação fonética, dicionário ou modelo de linguagem.
Como conjunto de treino para o desenvolvimento do nosso sistema seleccionámos as passagens do conjunto Many Talker Set (60 oradores com 3 passagens
por cada orador, num total de 179 passagens). O conjunto de teste consiste nas passagens do conjunto Few Talker Set (10 oradores com 3 passagens por cada orador,
num total de 30 passagens). Cada passagem é composta de 5 frases tematicamente
ligadas. Existem 10 passagens diferentes, perfazendo um total de 50 frases diferentes. Em cada ficheiro de fala encontramos uma passagem completa. A base de
dados contém um total de 3 408 palavras, das quais 1 314 são palavras distintas.
Muitas destas palavras ocorrem um única vez na base de dados.
Como podemos concluir trata-se de uma base de dados de dimensão reduzida se
a compararmos com as bases de dados usadas ao nı́vel do inglês no reconhecimento
de fala contı́nua e que apresentámos no Capı́tulo 3 desta dissertação.
2
Para mais informações ver na Web o URL (http://www.icp.grenet.fr/ELRA/home.html).
220
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
5.2.2 Desenvolvimento do dicionário de pronunciações
Incluı́das na base de dados encontramos as transcrições fonéticas das 10 passagens. Apresentamos de seguida uma das passagens e a respectiva transcrição
fonética [Ribeiro et al., 1993]:
Na semana passada uma amiga minha teve que ir ao médico para levar umas
injecções. Vai de férias para a Índia e tem de ser vacinada contra a cólera,
a febre tifóide, a hepatite A, a pólio e o tétano. Acho que depois destas
injecções todas, fica doente com certeza! Vai leva-las todas de uma vez!
Mesmo assim não tenho pena nenhuma dela!
n6 s@m”6n6 p6s”ad6 wma m”ig6 m”iJ6 t”ev k@ ”ir aw m”Ediku pr6 l@v”ar
um6z i ZEs”o j S. v”aj d f”Erj6S p”6ra ”i dj6 i t”6 j d s”er v6sin”ad6
k”o tra k”Ol@r6, 6 f”Ebr tif”Ojd@, 6 ep6t”it a, 6 p”Olju j u t”Et6nu. ”aSu
k d@p”ojZ d”ESt6z i ZEs”o j S t”od6S, f”ik6 dw”e t k”o s@rt”ez6! v”aj
l@v”a-l6S t”od6Z dj um6 v”eS! m”eZmw 6s”i n”6 w t”6Ju p”en6 n@J”um6
d”El6!
Esta transcrição fonética não leva em linha de conta a produção acústica de
cada orador na base de dados, mas sim os efeitos expectáveis do ponto de vista
linguı́stico para as várias frases. Com base nas transcrições fonéticas das 10 passagens executámos um processo de alinhamento entre essas transcrições e o texto das
mesmas. Como se pode verificar pelo exemplo anterior as palavras e as transcrições
encontram-se divididas entre si por um espaço. Usando esta caracterı́stica como
ponto de sincronismo podemos avançar ao longo da frase e da transcrição em simultâneo. Desse processo de alinhamento resultou a definição, para cada palavra presente nas passagens, da sua transcrição fonética. Essas transcrições têm em
consideração efeitos de co-articulação linguisticamente expectáveis da sequência
de palavras presentes nas frases. Devido a este facto obtivemos para algumas das
palavras diferentes pronunciações. Obtivemos 1 437 diferentes pronunciações para
as 1 314 palavras do dicionário, obtendo assim um dicionário multipronunciação
para algumas das palavras.
5.2 Desenvolvimento de um sistema básico de reconhecimento da fala contı́nua
221
5.2.3 Segmentação e etiquetagem automática
Dado que não existe uma segmentação e etiquetagem da base de dados
SAM procurámos definir um processo automático que nos permitisse obter essa
segmentação e etiquetagem.
Começámos por criar através da base de dados TIMIT um sistema de reconhecimento fonético para o Inglês. Este sistema foi apresentado na secção 3.5.2, do
Capı́tulo 3 da presente dissertação. De seguida através de uma transformação linguı́stica dos fonemas e fones da TIMIT para os fonemas do Português criámos os
modelos acústico-fonéticos correspondentes ao Português. Neste processo foram
realizados os seguintes passos:
1. Criação dos modelos acústico-fonéticos para o inglês através da base de dados
TIMIT (treino de um MLP sobre a base de dados para realizar classificação
fonética).
2. Criação de duas tabelas de conversão: uma dos fonemas e fones da TIMIT
para sı́mbolos do International Phonetic Alphabet (IPA) [Fisher et al., 1987],
e outra dos fonemas portugueses do SAM-PA para os sı́mbolos do IPA
[Viana et al., 1991a]. Juntando as duas tabelas e usando como denominador
comum os sı́mbolos do IPA criámos uma transformação aproximada dos fonemas e fones da TIMIT para os fonemas portugueses. Esta transformação
é apresentada nas Tabelas 5.5 e 5.6. Obviamente nem todos os fonemas têm
correspondência. Os fonemas da TIMIT sem correspondência são transformados para os fonemas portugueses mais próximos. Existem somente uns
poucos fonemas nestas condições. Inversamente, existem alguns fonemas
portugueses que não tem correspondência na TIMIT. Para estes define-se um
pequeno valor fixo para as suas probabilidades.
3. No passo seguinte passa-se a base de dados SAM através dos modelos
acústico-fonéticos (mais propriamente através do MLP) da TIMIT. Na saı́da
obtêm-se as estimativas da probabilidade a posteriori independente do con-
222
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
texto dos fonemas e fones da TIMIT relativamente à base de dados SAM.
4. As probabilidades resultantes são transformadas de acordo com a tabela de
conversão, obtendo-se um novo conjunto de probabilidades correspondente
aos fonemas portugueses.
5. Estas probabilidades vão constituir a entrada para o descodificador para a
realização de um alinhamento forçado. Como entrada para este processo de
alinhamento forçado usamos também o dicionário de pronunciação, descrito
anteriormente, e o texto correcto das frases correspondentes à base de dados
SAM. Deste processo resultam as etiquetas, relativamente aos fonemas portugueses, associados a cada trama de vectores de caracterı́sticas da base de
dados SAM.
6. Após se ter completado o alinhamento forçado treinamos um novo MLP sobre
a base de dados SAM, com as etiquetas resultantes do alinhamento forçado,
numa tarefa de classificação fonética.
7. Com este novo modelo, completamente baseado em componentes directamente obtidos do português, geramos um novo conjunto de probabilidades
para a base de dados SAM.
8. O processo de alinhamento forçado e de treino dos modelos acústicofonéticos, descritos nos pontos 5, 6 e 7, pode ser iterado várias vezes até
se deixar de observar uma melhoria no nı́vel de classificação durante o treino.
Nas Tabelas 5.5 e 5.6 apresentamos uma transformação, aproximada, entre os
fonemas e fones utilizados na TIMIT e os fonemas portugueses. Estas tabelas foram elaboradas com base numa outra tabela apresentada em [Fisher et al., 1987] que
apresentava a correspondência entre os sı́mbolos da TIMIT e os sı́mbolos do IPA e
numa tabela [Viana et al., 1991a] com as relações entre os sı́mbolos do SAM PA
e os sı́mbolos do IPA. No caso do Português utilizámos também a informação
presente em [Oliveira, 1996] que apresentava uma versão mais actual dessa correpondência.
5.2 Desenvolvimento de um sistema básico de reconhecimento da fala contı́nua
223
Na primeira coluna apresentamos os diferentes sı́mbolos do IPA que são utilizados tanto na TIMIT como no SAM PA. As três colunas seguintes apresentam a
informação relativa à TIMIT. Nessas colunas apresenta-se o sı́mbolo, um exemplo
de uma palavra onde o som correspondente a esse sı́mbolo se encontra presente e a
transcrição fonética dessa palavra. As três colunas seguintes apresentam o mesmo
tipo de informação, mas agora associada ao SAM PA. Nas duas últimas colunas
apresentamos a transformação entre os sı́mbolos da TIMIT e os sı́mbolos em Português de acordo com a nomenclatura por nós utilizada na Tabela 2.1. Na coluna
denominada Entrada encontramos os sı́mbolos da TIMIT que são transformados nos
sı́mbolos em Português e que se encontram na coluna anterior denominada Saı́da.
Quando há uma correspondência directa entre os sı́mbolos da TIMIT e do
SAM PA eles encontram-se na mesma linha (por exemplo em tea e tia ). Isto significa que tanto para a TIMIT como para o SAM PA estes sı́mbolos têm a mesma
representação ao nı́vel do IPA. Existem casos em que a equivalência é aproximada (por exemplo entre ray e caro ). Existem, ainda, casos em que um sı́mbolo em
Português não tem nenhum som parecido na representação da TIMIT (por exemplo senha ). Pelo contrário admitimos que exitem sı́mbolos da TIMIT que não
têm possibilidade de serem pronunciados em Português e que são ignorados na
transformação (são os casos do q, jh, ch, th, ng, nx, hh e hv ). Finalmente, temos
os casos de sı́mbolos da TIMIT que são transformados em dois sı́mbolos em Portguês, com a divisão em dois do valor da probabilidade que lhes está associada (são
os casos do ey, aw, oy e ow ).
Trata-se de uma transformação aproximada cuja finalidade é, unicamente, permitir ultrapassar a falta de uma segmentação e etiquetagem da base de dados SAM 3 .
Na Tabela 5.7 observa-se a evolução da percentagem de tramas correctas nas
várias iterações realizadas neste processo alternado de alinhamento e treino. A
3
Uma aproximação deste tipo tinha já sido anteriormente desenvolvida pelo Eng. Carlos Ribeiro
(INESC) e aplicada ao conjunto Few Talker Set, da base de dados SAM, tendo essa segmentação
sido corrigida manualmente, e na sua totalidade, pela Dra. Isabel Mascarenhas, especializada em
Linguı́stica.
224
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
IPA
Sı́mb.
Oclusivas
b
d
g
p
t
k
p
b
t
d
k
g
Africadas
Sı́mb.
Exemplo
TIMIT
Trans.
SAM PA
Exemplo
Trans.
b
d
g
p
t
k
(b)ar
(d)ata
(g)ato
(p)ai
(t)ia
(c)asa
bar
dat6
gatu
paj
ti6
kaz6
b
d
g
p
t
k
b,bcl
d,dcl,dh
g,gcl
p,pcl
t,tcl
k,kcl
Sı́mb.
TIMIT2PT
Saı́da
Entrada
b
d
g
p
t
k
q
pcl
bcl
tcl
dcl
kcl
gcl
bee
day
gay
pea
tea
key
bat
BCL B iy
DCL D ey
GCL G ey
PCL P iy
TCL T iy
KCL K iy
bcl b ae Q
jh
ch
joke
choke
DCL JH ow kcl k
TCL CH ow kcl k
sea
she
zone
azure
fin
thin
van
then
S iy
SH iy
Z ow n
ae ZH er
F ih n
TH ih n
V ae n
DH e n
s
S
z
Z
f
(s)elo
(ch)ave
a(z)ul
a(g)ir
(f)érias
selu
Sav@
6zul˜
6Zir
fErj6S
s
ch
z
j
f
s
sh
z
zh
f
v
(v)aca
vak6
v
v
lay
L ey
l
l˜
L
(l)ado
sa(l)
fo(lh)a
ladu
sal˜
foL6
l
lf
lh
l,el
-
r
R
ca(r)o
ca(rr)o
karu
kaRu
r
rr
r,dx
-
m
n
(m)eta
(n)eta
mEt6
nEt6
m
n
m,em
n,en,eng
J
se(nh)a
s6J6
nh
-
č
Fricativas
s
s
sh
z
z
zh
f
f
th
v
v
dh
Lı́quidas laterais
l
l
Lı́quidas vibrantes
r
r
ray
dx
dirty
R ey
dcl d er DX iy
Nasais
m
n
m
n
˜
m
n
ng
em
en
eng
nx
mom
noon
sing
bottom
button
washington
winner
M aa M
N uw N
s ih NG
b aa tcl t EM
b ah q EN
w aa sh ENG tcl t ax n
w ih NX axr
Tabela 5.5: Tabela de conversão entre os sı́mbolos fonéticos da TIMIT para o Português.
225
5.2 Desenvolvimento de um sistema básico de reconhecimento da fala contı́nua
IPA
Sı́mb.
Sı́mb.
Semivogais
w
w
y
y
h
hh
hv
l
el
j
Vogais Nasais
ı̃
õ
˜
ẽ
ũ
Semivogais nasais
Exemplo
way
yacht
hay
ahead
bottle
TIMIT
Trans.
æ
u
u
.
iy
ih
eh
ey
ae
aa
aw
ay
ah
ao
oy
ow
uh
uw
ux
er
ax
ix
axr
ax-h
beet
bit
bet
bait
bat
bott
bout
bite
but
bought
boy
boat
book
boot
toot
bird
about
debit
butter
suspect
bcl b IY tcl t
bcl b IH tcl t
bcl b EH tcl t
bcl b EY tcl t
bcl b AE tcl t
bcl b AA tcl t
bcl b AW tcl t
bcl b AY tcl t
bcl b AH tcl t
bcl b AO tcl t
bcl b OY
bcl b OW tcl t
bcl b UH kcl k
bcl b UW tcl t
tcl t UX tcl t
bcl b ER dcl d
AX bcl b aw tcl t
dcl d eh bcl b IX tcl t
bcl b ah dx AXR
s AX-H s pcl p eh kcl l tcl
i
e
a
o
Outros
pau
epi
h#
1
2
Trans.
pa(u)
paw
w
w,aw,ow
j
pa(i)
paj
y
y,ey,oy
i˜
o˜
6˜
e˜
u˜
p(in)to
p(on)te
c(an)to
d(en)te
f(un)do
pi˜tu
po˜t@
k6˜tu
de˜t
fu˜du
in
on
an
en
un
-
j˜
w˜
põ(e)
mã(o)
po˜j˜
m6˜w˜
yn
wn
-
E
s(e)te
sEt@
ea
eh
O
c(o)rda
kOrd6
oa
aa,ao,oy
u
m(u)do
mudu
u
uh,uw,ux
@
i
e
a
6
o
qu(e)
f(i)ta
p(e)ra
c(a)ra
c(a)m(a)
d(ou)
k@
fit6
per6
kar6
k6m6
do
em
i
ef
aa
af
of
ax,ow
iy,ih,ix
er,axr,ey
ae
ah,ay,ax-h,aw
-
h#
pau,epi,h#
W ey
Y aa tcl t
HH ey
ax HV eh dcl d
bcl b aa tcl t EL
w̃
Vogais
SAM PA
Exemplo
Sı́mb.
pause
epenthetic silence
begin/end marker
primary stress
secondary stress
Saı́da
TIMIT2PT
Entrada
Tabela 5.6: Tabela de conversão entre os sı́mbolos fonéticos da TIMIT para o Português.
226
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
avaliação mostrada na tabela foi realizada durante o treino com as etiquetas do
alinhamento anterior ao treino.
% de tramas correctas no
% de tramas correctas no
Iteração
conjunto de treino
conjunto de teste
1
54,86
53,15
2
63,40
62,26
3
65,41
63,91
Tabela 5.7: Evolução do processo de alinhamento e treino.
Os resultados mostram a melhoria obtida através do treino do MLP na tarefa
de classificação fonética ao nı́vel da trama. Este processo de alinhamento e treino
mostrou-se efectivo no objectivo de fazer decrescer o erro de classificação.
5.2.4 Modelamento da linguagem no sistema básico
Para o treino dos modelos de linguagem para o sistema básico estávamos limitados aos textos do SAM. As frases destes textos foram geradas artificialmente e
explicitamente para esta base de dados. Isto significa que as frases desta base de
dados não são um subconjunto de um outro texto de maior dimensão. Torna-se,
assim, difı́cil inserir estes textos num contexto mais amplo que nos permita estimar
de uma forma apropriada as probabilidades associadas a um modelo de linguagem
estatı́stico.
Como referimos anteriormente na base de dados existem 50 frases diferentes
com um total de 3 408 palavras, das quais 1 314 são diferentes entre si. No total
existem 3 158 pares de palavras, dos quais 2 782 são diferentes entre si e 2 560
pares só ocorrem uma única vez. Com base nestes números, aliás como esperado
dada a dimensão da base de dados, não foi possı́vel criar um modelo de bigramas e
tivemos que nos restringir a um modelo de linguagem simples baseado em pares de
palavras.
5.2 Desenvolvimento de um sistema básico de reconhecimento da fala contı́nua
227
Foram construı́dos dois modelos de linguagem diferentes de pares de palavras.
No primeiro consideraram-se os pares de palavras presentes no texto do SAM quando as frases se encontravam separadas entre si. Neste caso considerámos 50 frases
separadas. No segundo modelo considerámos como nossa unidade a passagem em
si, obtendo, assim, 10 passagens. Neste caso não se entra em conta com a divisão
entre frases ao longo de uma passagem. Este segundo modelo descreve melhor a
constituição da base de dados, dado que os ficheiros com os dados acústicos contêm
a passagem na sua totalidade.
5.2.5 Avaliação do sistema básico
Após a realização do processo iterativo de alinhamento e de treino procurámos
avaliar o sistema básico em termos de reconhecimento ao nı́vel da palavra. Durante
o treino usámos 179 ficheiros extraı́dos do conjunto Many Talker. Para avaliação do
sistema usámos os 10 oradores do conjunto Few Talker através de três passagens de
cada orador. Os resultados do sistema encontram-se na Tabela 5.8.
Modelo de Linguagem
% de erro no conjunto de teste
Modelo 1
50,1%
Modelo 2
15,6%
Tabela 5.8: Percentagem de erro ao nı́vel da palavra no conjunto de teste em função
do modelo de linguagem utilizado.
Estes resultados mostram a grande influência do modelo de linguagem numa
tarefa bastante limitada. No primeiro caso (Modelo 1) não se consideraram, no modelo de linguagem, as ligações entre as frases nas passagens. Quando introduzimos
essas ligações no modelo de linguagem (Modelo 2) houve uma melhoria significativa no desempenho do sistema.
228
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
O trabalho realizado ao longo do desenvolvimento deste sistema básico criou as
fundações para um processo futuro de desenvolvimento de um sistema de reconhecimento de fala contı́nua para a lı́ngua Portuguesa. Um dos passos mais significativos foi no sentido de definir um processo automático de alinhamento começando
nos alinhamentos da base de dados TIMIT e terminando num modelo acústicofonético para o Português. Infelizmente esta tarefa apresenta limitações bastante
severas, como seja, o seu vocabulário limitado, uma quantidade de texto associada
à base de dados bastante limitada que não permite a geração de modelos de linguagem apropriados, e poucos dados para treino e teste do sistema. Esperamos que
com a disponibilidade da base de dados por nós anteriormente desenvolvida, estas
limitações venham a ser ultrapassadas.
5.3 Considerações finais
O grande desenvolvimento dos sistemas comerciais de reconhecimento da fala
contı́nua, na nossa perspectiva, terá alguma dificuldade em se expandir rapidamente
ao Português Europeu. Trata-se de um mercado limitado e que será relegado para
um segundo plano relativamente ao mercado brasileiro. Por outro lado o Português
apresenta um conjunto de caracterı́sticas muito próprias que indicia a necessidade
de um trabalho particular e especı́fico.
Baseando-nos nestas premissas iniciámos um trabalho de transporte dos sistemas de reconhecimento da fala contı́nua, anteriormente desenvolvidos para o inglês, para Português. Começámos por definir, desenvolver e recolher uma base
de dados de tamanho adequado para o reconhecimento da fala contı́nua. Em simultâneo realizámos um sistema básico que nos permitiu desenvolver um processo
de alinhamento fonético automático. Os outros processos associados à definição do
vocabulário e das transcrições fonéticas e dos modelos de linguagem não podem ter
um carácter geral sendo dependentes da tarefa.
O nosso objectivo foi o de lançar as bases para o desenvolvimento de siste-
5.3 Consideraç ões finais
229
mas de reconhecimento em Português, o que começa agora a ser possı́vel, dada a
existência da base de dados do PÚBLICO e por outro lado a existência de um sistema em que nos podemos basear para definir os alinhamentos fonéticos associados a
essa nova base de dados.
230
Capı́tulo 5 - Desenvolvimento de um sistema de reconhecimento para Português
Capı́tulo 6
Conclusões
O trabalho realizado no âmbito desta dissertação insere-se no desenvolvimento
de sistemas de reconhecimento da fala contı́nua e onde procurámos potenciar as
caracterı́sticas das redes neuronais artificiais. Estas redes foram aplicadas, na tarefa
de modelização acústico-fonética, a um sistema de reconhecimento baseado em
modelos de Markov não-observáveis. A partir deste sistema hı́brido realizámos um
conjunto de técnicas de adaptação ao orador explorando as caracterı́sticas das redes
neuronais artificiais. Finalmente debruçámo-nos sobre o problema do transporte
deste sistema de reconhecimento, desenvolvido inicialmente para o inglês, para a
lı́ngua Portuguesa.
6.1 Revisão do trabalho realizado
O nosso trabalho compreendeu uma fase inicial de estudo dos modelos de Markov não-observáveis e de todo o problema associado ao reconhecimento da fala
contı́nua, apresentado no Capı́tulo 2, e três fases de desenvolvimento distintas. Na
primeira destas fases desenvolvemos sistemas de reconhecimento da fala contı́nua
para a lı́ngua inglesa, através do estudo e desenvolvimento de sistemas hı́bridos integrando o perceptrão multi-camada (MLP) nos modelos de Markov não-observáveis
232
Capı́tulo 6 - Conclusões
(HMM), trabalho este apresentado ao longo do Capı́tulo 3. Na segunda fase desenvolvemos um conjunto de técnicas de adaptação ao orador aplicadas aos modelos
acústico-fonéticos, representados através do MLP, onde analisámos diferentes estruturas e procedimentos e mostrámos que a adaptação ao orador, aplicada a sistemas
hı́bridos, melhorava significativamente o desempenho dos sistemas de reconhecimento. Este trabalho foi apresentado no Capı́tulo 4. Na terceira e última fase do
nosso trabalho iniciámos o desenvolvimento de sistemas de reconhecimento da fala contı́nua para a lı́ngua Portuguesa. Nesse sentido desenvolvemos uma base de
dados de caracterı́sticas e dimensões apropriadas para a realização de sistemas de
reconhecimento da fala contı́nua e um sistema básico de reconhecimento para a
base de dados SAM.
6.1.1 Sistemas hı́bridos para reconhecimento da fala contı́nua
O ressurgimento do interesse nas redes neuronais artificiais motivou um enorme
entusiasmo dadas as suas caracterı́sticas de aprendizagem baseadas em exemplos
dos dados de classificação. Uma das áreas que beneficiou com este entusiasmo foi a
do reconhecimento da fala, já que viu serem aplicadas novas estruturas baseadas em
redes neuronais artificiais ao reconhecimento de palavras isoladas e, posteriormente, estendidas ao reconhecimento da fala contı́nua. Neste último caso os sistemas
hı́bridos, resultantes da integração dos novos paradigmas nos modelos de Markov
não-observáveis, foram aqueles que maior sucesso alcançaram.
No nosso trabalho desenvolvemos um sistema hı́brido integrando o perceptrão
multi-camada (MLP) nos modelos de Markov não-observáveis (HMM). O perceptrão multi-camada realizava a transformação acústico-fonética, ou seja, transformava as tramas de caracterı́sticas, extraı́das do sinal acústico, numa estimativa das
probabilidades a posteriori associadas a cada um dos fonemas ou fones correspondentes à trama de caracterı́sticas na entrada. Realiza-se, assim, a substituição do
modelo paramétrico utilizado nos modelos de Markov não-observáveis pelas saı́das
da rede. Os HMMs continuam a ser usados para, através da concatenação dos mo-
6.1 Revisão do trabalho realizado
233
delos dos fonemas ou fones e de acordo com um conjunto de restrições lexicais,
formarem os modelos das palavras e com base nestes modelos, de acordo com um
conjunto de restrições sintácticas, formar os modelos das frases.
Este sistema hı́brido foi por nós desenvolvido e avaliado em três bases de dados de fala contı́nua em Inglês, bases de dados comummente utilizadas pela comunidade cientı́fica internacional. Na primeira, TIMIT, tratava-se exclusivamente
de uma tarefa de reconhecimento fonético, dado que não existia um dicionário e
um modelo de linguagem associado a esta base de dados. O objectivo principal
prendia-se com a realização de reconhecimento fonético motivado pelo facto de ser
a única base de dados segmentada manualmente. Esta tarefa permitiu-nos avaliar,
explicitamente, as caracterı́sticas do perceptrão multi-camada numa tarefa de reconhecimento fonético. Este sistema serviu de base ao alinhamento fonético inicial
em todos os outros sistemas por nós desenvolvidos para as outras bases de dados
(inclusive para o Português). Na segunda base de dados, Resource Management
(RM), estávamos perante uma tarefa com um vocabulário de 991 palavras e com
um modelo de linguagem baseado em pares de palavras, dado tratar-se de uma tarefa artificial. Esta base de dados foi largamente, e durante vários anos, utilizada
pela comunidade cientı́fica internacional no desenvolvimento e estudo de diferentes
métodos e processos. O sistema por nós desenvolvido para esta base de dados, tanto
independente como dependente do orador, apresentou um desempenho idêntico ao
de outros sistemas para a mesma base de dados e nas mesmas condições. O desenvolvimento deste sistema foi extremamente importante para nós, pois, colocou-nos
junto de laboratórios e grupos com outras condições, tanto técnicas como humanas,
e com uma larga experiência no desenvolvimento deste tipo de sistemas. O terceiro
sistema por nós desenvolvido foi aplicado à nova base de dados Wall Street Journal
(WSJ), a sucessora do RM, apresentando uma tarefa de grandes vocabulários com
conjuntos de teste com 5K e 20K palavras. Tratou-se de um salto significativo, dado que as suas caracterı́sticas eram muito mais exigentes, aproximando-nos mais de
uma verdadeira tarefa de reconhecimento da fala contı́nua.
O desenvolvimento por nós realizado ao nı́vel dos sistemas de reconhecimento
234
Capı́tulo 6 - Conclusões
da fala contı́nua permitiu-nos atingir um patamar elevado que nos possibilitava estudar e desenvolver diferentes módulos no processo de reconhecimento. Optámos
por estudar a adaptação ao orador no âmbito dos modelos hı́bridos com o objectivo de melhorar o desempenho dos sistemas de reconhecimento e com o intuito de
explorar as caracterı́sticas das redes neuronais nesse tipo de tarefa.
6.1.2 Adaptação ao orador no âmbito dos sistemas hı́bridos
Ao longo do nosso trabalho, no âmbito da adaptação ao orador, procurámos desenvolver um conjunto de novas técnicas de adaptação aplicadas a sistemas hı́bridos
de reconhecimento da fala contı́nua. Essas técnicas foram aplicadas ao modelo
acústico-fonético, realizado, no nosso caso, através do perceptrão multi-camada.
Na primeira dessas técnicas (RLS) criámos uma transformação linear de forma a modificar as estimativas da probabilidade a posteriori, obtidas na saı́da do
MLP do sistema independente do orador, num novo conjunto de estimativas mais
apropriadas às caracterı́sticas do novo orador. Verificámos que esta transformação
é difı́cil de obter não se tendo conseguido uma melhoria substancial e consistente no nı́vel de desempenho do sistema depois de transformado. Deve-se notar que
esta transformação é aplicada na fronteira entre os modelos acústico-fonéticos e a
imposição das restrições lexicais através dos dicionários de pronunciação. A forma
como estes dicionários são actualmente realizados é bastante rı́gida não dando a
liberdade necessária para encontrar novas formas de pronunciação mais apropriadas aos oradores. Este é, certamente, um dos pontos a desenvolver em investigação
futura.
Na segunda técnica por nós desenvolvida (RLE) criámos, também, uma
transformação linear, mas agora na entrada do MLP do sistema independente do
orador. Nesta técnica são os vectores de entrada que são transformados através da
RLE. Esta técnica não deve ser vista como uma simples transformação espectral,
como nas técnicas clássicas de normalização do orador, dado que não se impõe
qualquer tipo de restrição na saı́da da RLE ou entrada do MLP-IO, que nas técnicas
6.1 Revisão do trabalho realizado
235
clássicas se faz através do conceito do orador de referência. Basicamente, o que pretendemos definir com esta técnica são as diferenças entre o novo orador e um modelo genérico, caracterizado através do sistema independente do orador, e representar
essas diferenças através de um mapeamento linear, que resulta da maximização da
verosimilhança dos dados de adaptação. Esta técnica apresentou um excelente nı́vel
de desempenho com uma redução de 35% no erro ao nı́vel da palavra, comparativamente com o desempenho do sistema independente do orador. Esta técnica foi
posteriormente modificada de forma a permitir uma estrutura de pesos partilhados
para cada trama de entrada. Obteve-se assim uma transformação com um número
inferior de parâmetros a que correspondeu uma ligeira degradação do nı́vel de desempenho quando comparada com a técnica RLE standard.
As técnicas anteriores realizavam transformações a partir do sistema independente do orador. Além destas técnicas desenvolvemos outras duas onde adaptámos
o sistema independente do orador através da modificação dos parâmetros internos
do MLP ou através do suplemento de unidades intermédias adicionais.
Na primeira destas técnicas (MPSIO) voltámos a treinar o MLP do sistema
independente do orador, mas agora com os dados do novo orador pretendendo,
assim, melhorar o nı́vel de desempenho do sistema para o novo orador. Verificámos que a adaptação do sistema ao orador foi aumentando com o treino, mas,
também, com a quantidade de dados de treino disponı́veis. Na segunda técnica
(CIP) complementou-se o sistema independente do orador com um conjunto adicional de novas ligações de modo a que o sistema global providencie um modelamento
mais adequado para o novo orador. Nesta técnica criou-se uma rede paralela ao
MLP-IO onde se verificava a partilha das suas camadas de entrada e de saı́da, mas
com uma diferente camada intermédia. Através desta técnica pretende-se compensar as diferenças entre o sistema independente do orador e o novo orador através de
um conjunto adicional de pesos que resultam das novas ligações não lineares entre
a entrada e a saı́da. Ambas as técnicas tendem para um sistema final semelhante à
medida que se aumenta a quantidade de dados de adaptação e semelhante ao obtido
para a técnica RLE, apesar de o ser de uma forma mais lenta. Na técnica MPSIO
236
Capı́tulo 6 - Conclusões
deve-se sobretudo ao número elevado de parâmetros que é necessário adaptar e no
caso da CIP ao facto de termos novas relações não lineares entre a entrada e a saı́da
para treinar.
Apesar do objectivo principal do nosso trabalho ter sido a adaptação ao orador a partir de sistemas independentes do orador resolvemos investigar, também, a
adaptação de sistemas dependentes do orador. O processo de adaptação foi idêntico
à técnica MPSIO, mas, agora, aplicado aos sistemas dependentes do orador. Partindo de um sistema treinado exclusivamente para um dado orador (orador de referência) e através da modificação dos parâmetros do MLP, que realiza os modelos
acústico-fonéticos desse sistema, adaptámos o sistema de referência aos dados do
novo orador. Verificou-se que para quantidades reduzidas de dados de adaptação (80
frases) o nı́vel de desempenho do sistema de referência adaptado ao novo orador era
inferior ao apresentado para as outras técnicas descritas anteriormente. No entanto, estas técnicas começavam num sistema independente do orador que à partida era
muito mais representativo para um qualquer novo orador, do que um sistema dependente do orador. Ao utilizarmos todas as frases de adaptação disponı́veis passámos
para um novo sistema dependente do orador. Através deste procedimento obtivemos
um modelo final melhor do que os obtidos através dos outros métodos.
Todas as técnicas anteriores utilizavam aprendizagem supervisionada, já que
existia um conhecimento a priori do conteúdo das frases usadas como material de
adaptação. Com este tipo de aprendizagem cada orador passa, forçosamente, por
uma fase inicial onde terá de pronunciar um conjunto pré-definido de frases. No
entanto, existem situações em que os oradores não se encontram disponı́veis antes
de se iniciar a utilização do sistema. De forma a ultrapassar este problema desenvolvemos uma técnica de adaptação ao orador não supervisionada e incremental,
onde a adaptação ocorre em simultâneo com o reconhecimento, deixando de haver um conhecimento a priori do conteúdo das frases que servirão de material de
adaptação. Esta evolução foi realizada em dois passos. Primeiro desenvolvemos a
técnica RLE de forma a incorporar aprendizagem não-supervisionada, mas de uma
forma estática como fizemos anteriormente, e desenvolvida sobre a base de dados
6.1 Revisão do trabalho realizado
237
RM. Num segundo passo passámos para um modo de adaptação incremental com
aprendizagem não-supervisionada agora sobre uma tarefa associada à base de dados
WSJ. Os resultados obtidos foram extremamente positivos mostrando que se pode
realizar adaptação ao orador directamente na utilização do sistema e portanto de
uma forma perfeitamente transparente para o utilizador.
Este trabalho de adaptação ao orador aplicado a sistemas de reconhecimento da fala contı́nua independentes do orador foi um trabalho novo, dado tratar-se
de sistemas hı́bridos, onde as técnicas de adaptação ao orador incidiram sobre a
modificação dos parâmetros do modelo acústico-fonético realizado através do perceptrão multi-camada.
6.1.3 Desenvolvimento de um sistema de reconhecimento da fala
contı́nua para Português
Nos últimos anos temos assistido a um enorme desenvolvimento dos sistemas
de reconhecimento da fala contı́nua. Esse desenvolvimento tem-se verificado principalmente para o Inglês Americano apesar de se começar a tomar consciência de
que é necessário um esforço cada vez maior no sentido de se transportar estes sistemas para outras lı́nguas. Dada a forma como os sistemas actuais de reconhecimento
são realizados a sua estrutura básica não depende substancialmente da lı́ngua. Assim, tem-se procurado estudar, desenvolver e definir as caracterı́sticas dos sistemas
que podem ser consideradas independentes da lı́ngua e aquelas que são, necessariamente, dependentes.
Após termos desenvolvido sistemas de reconhecimento da fala contı́nua em Inglês e termos produzido trabalho inovador a nı́vel da adaptação ao orador no âmbito
de sistemas hı́bridos, procurámos criar as condições básicas necessárias para o desenvolvimento futuro de um sistema de reconhecimento da fala contı́nua, de grandes
vocabulários, para Português. Essas condições passavam pela existência de uma base de dados de caracterı́sticas e dimensões apropriadas para este tipo de sistemas e
onde existisse associada uma segmentação fonética da base de dados.
238
Capı́tulo 6 - Conclusões
Como o Português apresentava uma situação elementar, dada a inexistência de
bases de dados de tamanho apropriado para o reconhecimento da fala contı́nua, planeámos e desenvolvemos uma nova base de dados baseada em textos extraı́dos do
jornal PÚBLICO e cujos oradores faziam parte da população estudantil do Instituto
Superior Técnico. Esta base de dados foi gravada no INESC no perı́odo de Abril a
Novembro de 1997 e a sua realização teve o contributo de várias pessoas. Em paralelo com o desenvolvimento desta base de dados realizámos um sistema básico com
o intuito de desenvolver um procedimento automático para alinhamento fonético.
Esse sistema foi realizado sobre a base de dados EUROM.1 SAM. Associado a esse
sistema desenvolvemos um dicionário de pronunciações e um modelo de linguagem
baseado em pares de palavras. A avaliação do desempenho deste sistema mostrou
que, dada uma tarefa tão reduzida, existe uma forte dependência do modelo de linguagem.
6.2 Desenvolvimentos futuros
Ao realizarmos um trabalho que englobou as diferentes fases do processo de reconhecimento da fala contı́nua, sentimos que, nesse processo, existem um conjunto
de pontos que necessitam de investigação e desenvolvimentos futuros. Esses pontos
podem ser encarados numa perspectiva de médio prazo, com a definição de objectivos para uma linha de investigação, ou como desenvolvimentos pontuais, mas de
enorme interesse em termos de investigação.
Obviamente que a nossa maior atenção deverá recair no desenvolvimento do
sistema de reconhecimento da fala contı́nua, de grandes vocabulários, para o Português. Isto deve-se à disponibilidade actual de uma base de dados com as dimensões
e caracterı́sticas adequadas a esse desenvolvimento. Este trabalho passa, necessariamente, pela realização inicial do tipo de abordagem por nós anteriormente efectuada a nı́vel dos sistemas hı́bridos para o Inglês, mas analisando as especificidades
do Português e procurando tirar partido das caracterı́sticas resultantes.
6.2 Desenvolvimentos futuros
239
Por outro lado, consideramos importante o transporte dos principais desenvolvimentos obtidos em termos de adaptação ao orador para o sistema em Português. A investigação em adaptação ao orador tem ainda fortes possibilidades de
evolução, quer através da exploração de transformações não lineares, quer através
da incorporação dessa adaptação directamente no treino dos modelos acústicofonéticos, com o desenvolvimento de novas estruturas.
O desenvolvimento de dicionários de pronunciação que possibilitem uma forma
menos rı́gida e determinı́stica de definir novas pronunciações, ou de modificar as
existentes extraindo directamente dos dados acústicos informação relevante sobre a
forma de pronunciação associada à palavra ou ao modo de pronunciação do orador,
é um dos exemplos de investigação de enorme interesse e ao qual pretendemos,
também, dedicar a nossa atenção.
240
Capı́tulo 6 - Conclusões
Bibliografia
[Abrash, 1997] V. Abrash (1997). Mixture Input Transformations for Adaptation of
Hybrid Connectionist Speech Recognizers. In Proceedings EUROSPEECH 97.
[Abrash et al., 1995] V. Abrash, H. Franco, A. Sankar, e M. Cohen (1995). Connectionist Speaker Normalization and Adaptation. In Proceedings EUROSPEECH
95, pp. 2183–2186.
[Acer e Stern, 1991] A. Acer e R. Stern (1991). Robust Speech Recognition by
Normalization of the Acoustic Space. In Proceedings ICASSP 91, pp. 893–896.
[Alamo et al., 1996] C. Alamo, J. Alvarez, C. Torre, F. Poyatos, e L. Hernandez
(1996). Incremental Speaker Adaptation with Minimum Error Discriminative
Training for Speaker Identification. In Proceedings ICSLP 96.
[Almeida, 1987] L. Almeida (1987). A Learning Rule for Asynchronous Perceptrons with Feedback in a Combinatorial Environment. In IEEE First International
Conference on Neural Networks, volume II, pp. 609–618.
[Almeida, 1988] L. Almeida (1988). Backpropagation in Perceptrons with Feedback. Neural Computers, NATO ASI Series, Editores R. Eckmiller e C. Malsburg,
pp. 199–208.
[Almeida, 1996] L. Almeida (1996). Multilayer perceptrons. Handbook of Neural Computation, Editores E. Fiesler e R. Beale, IOP Publishing Ltd. e Oxford
University Press.
242
BIBLIOGRAFIA
[Asanovic et al., 1991] K. Asanovic, J. Beck, B. Kingsbury, P. Kohn, N. Morgan,
e J. Wawrzynek (1991). SPERT: a VLIW/SIMD Microprocessor for Artificial
Neural Network Computations. Relatório Técnico TR-91-072, ICSI.
[Bahl et al., 1986] L. Bahl, P. Brown, P. Souza, e R. Mercer (1986). Maximum
Mutual Information Estimation of Hidden Markov Models Parameters for Speech
Recognition. In Proceedings ICASSP 86, pp. 49–52.
[Bahl et al., 1988] L. Bahl, P. Brown, P. Souza, e R. Mercer (1988). Speech Recognition with Continuous-Parameter Hidden Markov Models. In Proceedings
ICASSP 88, pp. 40–43.
[Baker, 1975a] J. Baker (1975a). The DRAGON System - An Overview. IEEE
Trans. on Acoustic, Speech and Signal Processing, 23(1):24–29.
[Baker, 1975b] J. Baker (1975b). Stochastic Modeling for Automatic Speech Understanding. Speech Recognition, Editor Raj Reddy, pp. 521–541, (Republicado
in Readings in Speech Recognition, Editores A. Waibel e K.–F. Lee, 1990).
[Baker, 1991] J. Baker (1991). Large vocabulary speaker-adaptive continuous speech recognition research overview at Dragon Systems. In Proceedings EUROSPEECH 91, pp. 29–32.
[Bamberg e Mandel, 1991] P. Bamberg e M. Mandel (1991). Adaptable phonemebased models for large-vocabulary speech recognition. Speech Communication,
10(5-6):437–451.
[Bellegarda e Nahamoo, 1989] J. Bellegarda e D. Nahamoo (1989). Tied Mixture
Continuous Parameter Models for Large Vocabulary Isolated Speech Recognition. In Proceedings ICASSP 89, pp. 13–16.
[Bellegarda et al., 1992] J. Bellegarda, P. De Souza, A. Nadas, D. Nahomoo, M. Picheny, e L. Bahl (1992). Robust Speaker Adaptation Using a Piecewise Linear
Acoustic Mapping. In Proceedings ICASSP 92, volume I, pp. 445–448.
[Bengio, 1996] Y. Bengio (1996). Neural Networks for Speech and Sequence Recognition. Ed. International Thomson Computer Press, London (GB).
BIBLIOGRAFIA
243
[Bengio et al., 1992] Y. Bengio, R. Mori, G. Flammia, e R. Kompe (1992). Global
optimization of a neural network - hidden Markov model hybrid. IEEE Trans. on
Neural Networks, 3(2):252–259.
[Bengio et al., 1990] Y. Bengio, R. De Mori, G. Flammia, e R. Kompe (1990). Global Optimization of a Neural Network - Hidden Markov Model Hybrid. Relatório
Técnico TR-SOCS-90.22, McGill University School of Computer Science, Montreal (Canada).
[Bengio et al., 1991] Y. Bengio, R. De Mori, G. Flammia, e R. Kompe (1991). A
Comparative study of hybrid acoustic phonetic decoders based on artificial neural networks. In Proceedings EUROSPEECH 91, pp. 1007–1010.
[Bonneau e Bonneau, 1987] H. Bonneau e J. L. Bonneau (1987). Vector Quantization for Speaker Adaptation. In Proceedings ICASSP 87, volume III, pp.
1434–1437.
[Bourlard, 1990] H. Bourlard (1990). Continuous Speech Recognition and Connectionist Models. In Proceedings of ”VERBA 90”, International Conference on
Speech Technologies.
[Bourlard, 1991] H. Bourlard (1991). Neural Nets and Hidden Markov Models:
Review and Generalizations. In Proceedings EUROSPEECH 91, pp. 363–369.
[Bourlard et al., 1996] H. Bourlard, S. Dupont, H. Hermansky, e N. Morgan
(1996). Towards Subband-Based Speech Recognition. In Proceedings of EUSIPCO 96, pp. 1579–1582.
[Bourlard e Morgan, 1990] H. Bourlard e N. Morgan (1990). A Continuous Speech
Recognition System Embedding MLP into HMM. In Proceedings NIPS 90, pp.
186–193.
[Bourlard e Morgan, 1994] H. Bourlard e N. Morgan (1994). Connectionist Speech
Recognition - A Hybrid Approach. Kluwer Academic Publishers, Massachusetts
(EUA).
244
BIBLIOGRAFIA
[Bourlard et al., 1992a] H. Bourlard, N. Morgan, e S. Renals (1992a). Neural nets
and hidden Markov models: Review and generalizations. Speech Communication, 11(2-3):237–246.
[Bourlard et al., 1989] H. Bourlard, N. Morgan, e C. Wellekens (1989). Statistical
Inference in Multilayer Perceptrons and Hidden Markov Models with Applications in Continuous Speech Recognition. Neuro Computing, Algorithm, Architectures and Applications, NATO ASI Series.
[Bourlard et al., 1992b] H. Bourlard, N. Morgan, C. Wooters, e Steve Renals
(1992b). CDNN: A context dependent neural network for continuous speech
recognition. In Proceedings ICASSP 92, pp. 349–352.
[Bourlard e Wellekens, 1987] H. Bourlard e C. Wellekens (1987). Multilayer Perceptrons and Automatic Speech Recognition. In Proceedings of the IEEE First
International Conference on Neural Networks, volume IV, pp. 407–416.
[Bourlard e Wellekens, 1988] H. Bourlard e C. Wellekens (1988). Links between
Markov Models and Multilayer Perceptrons. In Proceedings NIPS 88, pp. 502–
510.
[Bourlard e Wellekens, 1989] H. Bourlard e C. Wellekens (1989). Speech Pattern
Discrimination and Multilayer Perceptrons. Computer Speech and Language,
3(1):1–20.
[Bourlard e Wellekens, 1990] H. Bourlard e C. Wellekens (1990). Links between
Markov Models and Multilayer Perceptrons. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(12):1167–1178.
[Bridle, 1989a] J. Bridle (1989a). Training Stochastic Model Recognition Algorithms as Networks can lead to Maximum Mutual Information Estimation of Parameters. In Proceedings NIPS 89, volume 2, pp. 211–217.
[Bridle, 1989b] J. Bridle (1989b). Unsupervised Speaker Adaptation by Probabilistic Spectrum Fitting. In Proceedings ICASSP 89, volume I, pp. 294–297.
BIBLIOGRAFIA
245
[Bridle, 1990] J. Bridle (1990). Alphanets: a recurrent “neural” network architecture with a hidden Markov model interpretation. Speech Communication,
9(1):83–92.
[Bridle e Cox, 1990] J. Bridle e S. Cox (1990). RecNorm: Simultaneous Normalisation and Classification applied to Speech Recognition. In Proceedings NIPS
90, pp. 234–240.
[Cerf et al., 1994] P. Le Cerf, W. Da, e D. Van Compernolle (1994). Multilayer Perceptrons as Labelers for Hidden Markov Models. IEEE Transactions on Speech
and Audio Processing, 2(1):185–193.
[Charniak, 1993] Eugene Charniak (1993). Statistical Language Learning. The
MIT Press, Cambridge (EUA).
[Choi e Wing, 1994] H. Choi e R. Wing (1994). Fast Speaker Adaptation Through
Spectral Transformation for Continuous Speech Recognition. In Proceedings
ICSLP 94, volume IV, pp. 2219–2222.
[Choukri et al., 1986] K. Choukri, G. Chollet, e Y. Grenier (1986). Spectral Transformations through Canonical Correlation Analysis for Speaker Adaptation in
ASR. In Proceedings ICASSP 86, pp. 2659–2662.
[Choukri et al., 1990] K. Choukri, G. Chollet, e C. Montacié (1990). Speaker adaptation using multi-layer feed-forward automata and canonical correlation analysis. Neurocomputing, F68.
[Class et al., 1992] F. Class, A. Kaltenmeier, R. Regel-Brietzamann, e K. Trottler
(1992). Fast Speaker Adaption Combined with SOFT Vector Quantization in a
HMM Speech Recognition System. In Proceedings ICASSP 92, volume I, pp.
461–464.
[Cohen et al., 1992] M. Cohen, H. Franco, N. Morgan, D. Rumelhart, e V. Abrash
(1992).
Context-Dependent Multiple Distribution Phonetic Modeling with
MLPs. In Proceedings NIPS 92, pp. 649–657.
246
BIBLIOGRAFIA
[Cole et al., 1995] R. Cole, L. Hirschman, L. Atlas, M. Beckman, A. Biermann,
M. Bush, M. Clements, J. Cohen, O. Garcia, B. Hanson, H. Hermansky, S. Levinson, K. McKeown, N. Morgan, D. Novick, M. Ostendorf, S. Oviatt, P. Price,
H. Silverman, J. Spitz, A. Waibel, C. Weinstein, S. Zahorian, e V. Zue (1995).
The Challenge of Spoken language Systems: Research Directions for the Nineties. IEEE Trans. on Speech and Audio Processing, 3(1):1–21.
[Cook, 1996] G. Cook (1996). Model Combination for Connectionist Speech Recognition. Tese de Doutoramento, Cambridge University Engineering Department.
[Cook et al., 1996] G. Cook, J. Christie, P. Clarkson, S. Cooper, M. Hochberg,
D. Kershaw, B. Logan, S. Renals, A. Robinson, C. Seymour, S. Waterhouse,
e P. Zolfaghari (1996). Real-Time Recognition of Broadcast Radio Speech. In
Proceedings ICASSP 96, pp. 141–144.
[Cook e Robinson, 1995] G. Cook e T. Robinson (1995). Utterance Clustering for
Large Vocabulary Speech Recognition. In Proceedings ICASSP 95.
[Cox, 1992] S. Cox (1992). Speaker adaptation in speech recognition using linear
regression techniques. Electronics Letters, 28(22):2093–2094.
[Cox, 1993] S. Cox (1993). Speaker Adaptation using a Predictive Model. In
Proceedings EUROSPEECH 93, pp. 2283–2286.
[Cox e Bridle, 1990] S. Cox e J. Bridle (1990). Simultaneous Speaker Normalization and Utterance Labelling Using Bayesian Neural Net Techniques. In Proceedings ICASSP 90, volume I, pp. 161–164.
[Cun, 1985] Y. Le Cun (1985). Une procedure d’apprentissage pour reseau a seuil
assymetrique. In Proceedings of Cognitiva 85, pp. 599–604.
[Cybenko, 1989] G. Cybenko (1989). Approximation by Superpositions of a Sigmoid Function. Mathematics of Control, Signals and Systems, 2:303–314.
[Duda e Hart, 1973] R. Duda e P. Hart (1973). Pattern Classification and Scene
Analysis. Wiley.
BIBLIOGRAFIA
247
[Elman, 1988] J. Elman (1988). Finding Structure in Time. Relatório Técnico
CRL Technical Report 8801, Center for Research in Language, University of
California, San Diego (EUA).
[Elman e Zipser, 1987] J. Elman e D. Zipser (1987). Learning the Hidden Structure
of Speech. Relatório Técnico ICS Report 8701, Institute for Cognitive Science,
University of California, San Diego (EUA).
[Euler, 1991] S. Euler (1991). Adaptation techniques in tied density hidden Markov
models. In Proceedings EUROSPEECH 91, pp. 919–922.
[Fallside, 1992] F. Fallside (1992). On the acquisition of speech by machines, ASM.
Speech Communication, 11(2-3):247–260.
[Fallside et al., 1990] F. Fallside, H. Lucke, T. Marsland, M. Owen, R. Prager,
A. Robinson, e N. Russell (1990). Continuous Speech Recognition for the TIMIT
Database Using Neural Networks. In Proceedings ICASSP 90, pp. 445–448.
[Feng et al., 1988] M. W. Feng, F. Kubala, R. Schwartz, e J. Makhoul (1988). Improved Speaker Adaptation Using Text Dependent Spectral Mappings. In Proceedings ICASSP 88, volume I, pp. 131–134.
[Ferreti e Scarci, 1989] M. Ferreti e S. Scarci (1989). Large-Vocabulary Speech
Recognition with Speaker-Adapted Codebook and HMM Parameters. In Proceedings EUROSPEECH 89, volume II, pp. 154–156.
[Fisher et al., 1987] W. M. Fisher, V. Zue, J. Bernstein, e D. Pallett (May 1987).
An acoustic-phonetic database. In 113th Meeting of the Acoustical Society of
America.
[Franzini et al., 1990] M. Franzini, K. Lee, e A. Waibel (1990). Connectionist Viterbi Training: A new hibrid method for Continuous Speech Recognition. In
Proceedings ICASSP 90, pp. 425–428.
[Franzini et al., 1989] M. Franzini, M. Witbrock, e K.-F. Lee (1989). A Connectionist Approach to Continuous Speech Recognition. In Proceedings ICASSP 89,
pp. 425–428.
248
BIBLIOGRAFIA
[Fukuzawa et al., 1992] K. Fukuzawa, Y. Komori, H. Sawai, e M. Sugiyama
(1992). A Segment-based Speaker Adaptation Neural Network Applied to Continuous Speech Recognition. In Proceedings ICASSP 91, volume I, pp. 433–436.
[Furui, 1986] S. Furui (1986). Speaker Independent Isolated Word Recognizer
Using Dynamic Features of Speech Spectrum. IEEE Trans. on Acoustic, Speech and Signal Processing, 34(1):52–59.
[Furui, 1989] S. Furui (1989). Unsupervised Speaker Adaptation Method Based
on Hierarchical Spectral Clustering. In Proceedings ICASSP 89, volume I, pp.
286–289.
[Gauvain et al., 1994] J. Gauvain, L. Lamel, G. Adda, e M. Decker (1994). The
LIMSI Continuous Speech Dictation Sysem: Evaluation on the ARPA Wall Street
Journal Task. In Proceedings ICASSP 94, volume I, pp. 557–560.
[Gemello e Mana, 1990] R. Gemello e F. Mana (1990). A Neural Approach to
Speaker Independent Isolated Word Recognition in an Uncontrolled Environment. In Proceedings of INNC-90, pp. 163–164.
[Gish, 1990] H. Gish (1990). A Probabilistic Approach to the Understanding and
Training of Neural Network Classifiers. In Proceedings ICASSP 90, pp. 1361–
1364.
[Hampshire e Pearlmutter, 1990] J. Hampshire e B. Pearlmutter (1990). Equivalence proofs for multilayer perceptron classifiers and the Bayesian discriminant
function. In Proceedings 1990 Connectionist Models Summer School , Editores
D. Touretzky, J. Elman, T. Sejnowski e G. Hinton, pp. 159–172.
[Hampshire e Waibel, 1990] J. Hampshire e A. Waibel (1990).
The Meta-Pi
Network: Connectionist Rapid Adaptation for High-Performance Multi-Speaker
Phoneme Recognition. In Proceedings ICASSP 90, volume I, pp. 165–168.
[Hao e Fang, 1994] Y. Hao e D. Fang (1994). Speech Recognition Using Speaker
Adaptation by System Parameter Transformation. IEEE Transactions on Speech
and Audio Processing, 2(1):63–68.
BIBLIOGRAFIA
249
[Hermansky, 1990] H. Hermansky (1990). Perceptual Linear Predictive (PLP)
analysis of speech. Journal of the Acoustical Society of America, 87(4):1738–
1752.
[Hermansky et al., 1985] H. Hermansky, B. Hanson, e H. Wakita (1985). Perceptually Based Linear Predictive Analysis of Speech. In Proceedings ICASSP 85,
pp. 509–512.
[Hermansky et al., 1992] H. Hermansky, N. Morgan, A. Baya, e P. Kohn (1992).
RASTA-PLP Speech Analysis Technique. In Proceedings ICASSP 92, pp. 121–
124.
[Hermansky et al., 1991] H. Hermansky, N. Morgan, A. Bayya, e P. Kohn (1991).
Compensation for the effect of the communication channel in auditory-like analysis of speech (RASTA-PLP). In Proceedings EUROSPEECH 91, pp. 1367–1371.
[Hinton et al., 1984] G. Hinton, T. Sejnowski, e D. Ackley (1984). Boltzmann Machines: Constraint Satisfaction Networks that Learn. Relatório Técnico CMUCS-84-119, Computer Science Department, Carnegie Mellon University, Pittsburgh (EUA).
[Hochberg et al., 1994a] M. Hochberg, G. Cook, S. Renals, e T. Robinson (1994a).
Connectionist Model Combination for Large-Vocabulary Speech Recognition. In
Proceedings NNSP IV.
[Hochberg et al., 1994b] M. Hochberg, T. Robinson, e S. Renals (1994b). ABBOT:
A connectionist-HMM hybrid system for the WSJ CSR task. In Proceedings
ICASSP 94.
[Hochberg e Silverman, 1993] M. Hochberg e H. Silverman (1993). Constraining
Model Duration Variance in HMM-Based Connected-Speech Recognition. In
Proceedings EUROSPEECH 93, pp. 323–326.
[Hopfield, 1982] J. Hopfield (1982). Neural Networks and Physical Systems with
Emergent Collective Computational Abilities. In Proceedings National Academie of Sciences, volume 79, pp. 2554–2558.
250
BIBLIOGRAFIA
[Huang e Lippman, 1987] W. Huang e R. Lippman (1987). Comparisons Between Neural Net and conventional classifiers. In Proceedings of the IEEE First
International Conference on Neural Networks, volume IV, pp. 485–494.
[Huang, 1991] X. Huang (1991). A Study on Speaker-Adaptive Speech Recognition. In Proceedings DARPA Speech and Natural Language Workshop, pp. 278–
283.
[Huang, 1992] X. Huang (1992). Speaker Normalization for Speech Recognition.
In Proceedings ICASSP 92, volume I, pp. 465–468.
[Huang et al., 1990] X. Huang, Y. Ariki, e M. Jack (1990). Hidden Markov Models
For Speech Recognition. Edinburgh University Press, Edinburgh (GB).
[Huang e Lee, 1993] X. Huang e K. Lee (1993).
On Speaker-Independent,
Speaker-Dependent, and Speaker-Adaptive Speech Recognition. IEEE Transactions on Speech and Audio Processing, I(2):150–157.
[Huang e Lee, 1991] X. Huang e K. F. Lee (1991).
On Speaker-Independent,
Speaker-Dependent, and Speaker-Adaptive Speech Recognition. In Proceedings
ICASSP 91, volume II, pp. 877–880.
[Jelinek, 1976] F. Jelinek (1976). Continuous Speech Recognition by Statistical
Methods. Proceedings of the IEEE, 64(4):532–556.
[Jelinek, 1990] F. Jelinek (1990). Self-organized Language Modeling for Speech
Recognition. Readings in Speech Recognition, Editores A. Waibel and K.-F.
Lee.
[Jelinek, 1991] F. Jelinek (1991). Up From Trigrams! The Struggle for Improved
Language Models. In Proceedings EUROSPEECH 91, pp. 1037–1040.
[Jelinek et al., 1992] F. Jelinek, R. Mercer, e S. Roukos (1992). Principles of Lexical Language Modeling for Speech Recognition. Advances in Speech Signal
Processing, Editores S. Furui and M. Sandhi, pp. 651–699.
BIBLIOGRAFIA
251
[Johansen, 1994] F. Johansen (1994). Global Optimisation of HMM Input Transformations. In Proceedings ICSLP 94, volume I, pp. 239–242.
[Johansen e Johnsen, 1994] F. Johansen e M. Johnsen (1994). Non-Linear Input
Transformations for Discriminative HMMs. In Proceedings ICASSP 94, volume I, pp. 225–228.
[Jordan e Xu, 1993] M. Jordan e L. Xu (1993). Convergence results for the EM
approach to mixtures of experts architecture. Relatório Técnico TR 9303, MIT
Computational Cognitive Science.
[Kershaw, 1996] D. Kershaw (1996). Phonetic Context-Dependency in a Hybrid
ANN/HMM Speech Recognition System. Tese de Doutoramento, Cambridge University Engineering Department.
[Kobayashi et al., 1992] T. Kobayashi, Y. Uchiyama, J. Osada, e K. Shirai (1992).
Speaker Adaptive Phoneme Recognition Based on Feature Mapping from Spectral Domain to Probabilistic Domain. In Proceedings ICASSP 92, volume I, pp.
457–460.
[Kohn, 1994] P. Kohn (1994). BoB: User’s Manual. Relatório técnico, ICSI.
[Kohonen, 1982] T. Kohonen (1982). Clustering, Taxonomy and Topological Maps
of Patterns. In Proceedings of the 6th International Conference on Pattern Recognition.
[Konig et al., 1996] Y. Konig, H. Bourlard, e N. Morgan (1996). REMAP - Experiments with Speech Recognition. In Proceedings of ICASSP 96, volume VI, pp.
3350–3353.
[Konig e Morgan, 1993] Y. Konig e N. Morgan (1993). Supervised and Unsupervised Clustering of the Speaker Space for Connectionist Speech Recognition. In
Proceedings ICASSP 93, volume I, pp. 545–548.
[Konig e Morgan, 1994] Y. Konig e N. Morgan (1994). Modeling Dynamics in
Connectionist Speech Recognition - The Time Index Model. In Proceedings
ICSLP 94, volume III, pp. 1523–1526.
252
BIBLIOGRAFIA
[Krause e Hackbarth, 1989] A. Krause e H. Hackbarth (1989). Scally Artificial
Neural Networks for Speaker-Independent Recognition of Isolated Words. In
Proceedings ICASSP 89, pp. 21–24.
[Kubala et al., 1989a] F. Kubala, M. Feng, J. Makhoul, e R. Schwartz (1989a).
Speaker Adaptation from Limited Training in the BBN BYBLOS Speech Recognition System. In Proceedings DARPA Speech and Natural Language Workshop,
pp. 100–105.
[Kubala et al., 1989b] F. Kubala, R. Schwartz, e C. Barry (1989b). Speaker Adaptation Using Multiple reference Speakers. In Proceedings DARPA Speech and
Natural Language Workshop, pp. 256–262.
[Kubala et al., 1990] F. Kubala, R. Schwartz, e C. Barry (1990). Speaker Adaptation from a Speaker-Independent Training Corpus. In Proceedings ICASSP 90,
volume I, pp. 137–140.
[Lamel et al., 1995] L. Lamel, M. Adda-Decker, e J. L. Gauvain (1995). Issues in
Large Vocabulary, Multilingual Speech Recognition. In Proceedings of EUROSPEECH 95, pp. 185–188.
[Lawrence et al., 1996] S. Lawrence, A. Tsoi, e A. Back (1996). The Gamma MLP
for Speech Phoneme Recognition. In Proceedings NIPS 96.
[Lee e Gauvin, 1993] C. Lee e J. Gauvin (1993). Speaker Adaptation Based on
MAP Estimation of HMM Parameters. In Proceedings ICASSP 93, volume II,
pp. 558–561.
[Lee et al., 1990] C. Lee, C. H. Lin, e B. Juang (1990). A Study on Speaker Adaptation of Continuous Density HMM Parameters. In Proceedings ICASSP 90,
volume I, pp. 145–148.
[Lee et al., 1989] C. Lee, L. Rabiner, R. Pieraccini, e J. Wilpon (1989). Acoustic
Modeling of Subword Units for Large Vocabulary Speaker Independent Speech
Recognition. In Proceedings DARPA Speech and Natural Language Workshop,
pp. 280–291.
BIBLIOGRAFIA
253
[Lee, 1989] K.-F. Lee (1989). Automatic Speech Recognition: The Development of
the SPHINX System. Kluwer Academic Press, Massachusetts (EUA).
[Leggetter, 1995] C. Leggetter (1995). Improved acoustic modelling for HMMs
using linear transformations. Tese de Doutoramento, Cambridge University Engineering Department.
[Leggetter e Woodland, 1994] C. Leggetter e P. Woodland (1994). Speaker Adaptation of Continuous Density HMMs Using Multivariate Linear Regression. In
Proceedings ICSLP 94, volume II, pp. 451–454.
[Lippmann, 1989] R. Lippmann (1989). Review of Neural Networks for Speech
Recognition. Neural Computation, (1):1–38.
[Lippmann e Gold, 1987] R. Lippmann e B. Gold (1987). Neural-Net Classifiers
Useful for Speech Recognition. In Proceedings of the IEEE First International
Conference on Neural Networks, volume IV, pp. 417–426.
[Ljolje, 1993] A. Ljolje (1993). Spekaer Clustering for Improved Speech Recognition. In Proceedings EUROSPEECH 93, pp. 631–634.
[Markowitz, 1996] J. Markowitz (1996). Using Speech Recognition. Ed. PrenticeHall, New Jersey (EUA).
[Martins, 1997] C. Martins (1997). Modelos de Linguagem no Reconhecimento de
Fala Contı́nua. Tese de Mestrado, Instituto Superior Técnico da Universidade
Técnica de Lisboa, Lisboa (Portugal).
[Martins, 1995] F. Martins (1995). Modelo de Reconhecimento de Fala para a
Lı́ngua Portuguesa - As invariantes fonéticas e a programação por objectos.
Tese de Doutoramento, Faculdade de Letras da Universidade de Lisboa, Lisboa
(Portugal).
[Martins, 1988] M. Martins (1988). Ouvir Falar - Introdução à Fonética do Português. Ed. Caminho, Lisboa (Portugal), 2a. edição edição.
254
BIBLIOGRAFIA
[Matsui e Furui, 1994] T. Matsui e S. Furui (1994). Speaker Adaptation of TiedMixture-Based Phoneme Models For Text-Prompted Speaker Recognition. In
Proceedings ICASSP 94, volume I, pp. 125–128.
[Matsukoto e Inone, 1992] H. Matsukoto e H. Inone (1992). A Piecewise Linear
Spectral Mapping for Supervised Speaker Adaptation. In Proceedings ICASSP
92, volume I, pp. 449–452.
[Miller e Levinson, 1988] L. Miller e S. Levinson (1988). Syntactic Analysis for
Large Vocabulary Speech Recognition using a Context-Free Covering Grammar.
In Proceedings ICASSP 88, pp. 270–274.
[Mirghafori et al., 1995] N. Mirghafori, E. Fosler, e N. Morgan (1995). Fast Speakers in Large Vocabulary Continuous Speech Recognition: Analysis & Antidotes.
In Proceedings EUROSPEECH 95.
[Mirghafori et al., 1994] N. Mirghafori, N. Morgan, e H. Bourlard (1994). Parallel Training of MLP Probability Estimators for Speech Recognition: A GenderBased Approach. In Proceedings of Workshop NNSP IV, pp. 289–297.
[Moody e Darken, 1988] J. Moody e C. Darken (1988). Learning with localized receptive fields. In Proceedings of the 1988 Connectionist Models Summer School,
pp. 133–143.
[Morgan e Scofield, 1991] D. Morgan e C. Scofield (1991). Neural Networks and
Speech Processing. Kluwer Academic Publishers, Massachusetts (EUA).
[Morgan et al., 1992] N. Morgan, J. Beck, P. Kohn, J. Bilmes, E. Allman, e J. Beer
(1992). The Ring Array Processor (RAP): A multiprocessing peripheral for connectionist applications. Journal of Parallel and Distributed Computing, 14:248–
259.
[Morgan e Bourlard, 1990] N. Morgan e H. Bourlard (1990). Continuous Speech
Recognition Using Multilayer Perceptrons with Hidden Markov Models. In Proceedings ICASSP 90, pp. 413–416.
BIBLIOGRAFIA
255
[Morgan e Bourlard, 1995] N. Morgan e H. Bourlard (1995). Continuous Speech
Recognition - An introduction to the hybrid HMM/connectionist approach. IEEE
Signal Processing Magazine, 12(3):25–42.
[Morgan et al., 1994] N. Morgan, H. Bourlard, S. Greenberg, e H. Hermansky
(1994). Stochastic perceptual auditory-event-based models for speech recognition. In Proceedings ICSLP 94, pp. 1943–1946.
[Morgan et al., 1991] N. Morgan, H. Bourlard, C. Wooters, P. Kohn, e M. Cohen
(1991). Phonetic Context in Hybrid HMM/MLP Continuous Speech Recognition.
In Proceedings EUROSPEECH 91, pp. 109–112.
[Nakamura e Shikano, 1990] S. Nakamura e K. Shikano (1990). A Comparative
Study of Spectral Mapping for Speaker Adaptation. In Proceedings ICASSP 90,
volume I, pp. 157–160.
[Neto, 1991] J. Neto (1991). Integração de Modelos Conexionistas nos Métodos
Convencionais de Reconhecimento da Palavras Isoladas. Tese de Mestrado, Instituto Superior Técnico da Universidade Técnica de Lisboa, Lisboa (Portugal).
[Neto et al., 1995a] J. Neto, L. Almeida, M. Hochberg, C. Martins, L. Nunes,
S. Renals, e T. Robinson (1995a). Speaker-Adaptation for Hybrid HMM-ANN
Continuous Speech Recognition System. In Proceedings EUROSPEECH 95, pp.
2171–2174.
[Neto et al., 1995b] J. Neto, C. Martins, e L. Almeida (1995b). Unsupervised
Speaker-Adaptation for Hybrid HMM-ANN Continuous Speech Recognition System. In Proceedings IEEE Signal Processing Society - 1995 Workshop on Automatic Speech Recognition, pp. 187–188.
[Neto et al., 1996a] J. Neto, C. Martins, e L. Almeida (1996a). An Incremental
Speaker-Adaptation Technique for Hybrid HMM-MLP Recognizer. In Proceedings ICSLP 96, pp. 1289–1292.
[Neto et al., 1996b] J. Neto, C. Martins, e L. Almeida (1996b). Speaker-Adaptation
in a Hybrid HMM-MLP Recognizer. In Proceedings ICASSP 96, pp. 3383–3386.
256
BIBLIOGRAFIA
[Neto et al., 1997a] J. Neto, C. Martins, e L. Almeida (1997a). The Development
of a Speaker Independent Continuous Speech recognizer for Portuguese. In Proceedings EUROSPEECH 97.
[Neto et al., 1997b] J. Neto, C. Martins, H. Meinedo, e L. Almeida (1997b). The
Design of a Large Vocabulary Speech Corpus for Portuguese. In Proceedings of
EUROSPEECH 97.
[Ney, 1991] H. Ney (1991). Modelling and Search in Continuous Speech Recognition. In Proceedings EUROSPEECH 91, pp. 491–500.
[Oliveira, 1996] L. Oliveira (1996). Sı́ntese de Fala a Partir de Texto. Tese de
Doutoramento, Instituto Superior Técnico da Universidade Técnica de Lisboa.
[Pallett, 1989] D. Pallett (1989). Benchmark Tests for DARPA Resource Management Database Performance Evaluations. In Proceedings ICASSP 89, pp.
536–539.
[Pallett et al., 1994] D. Pallett, F. Fiscus, W. Fisher, J. Garafolo, B. Lund, e M. Przybocki (1994). 1993 WSJ-CSR Benchmark Test Results. In Proceedings ARPA’s
Spoken Language Systems Technology Workshop.
[Parker, 1985] D. Parker (1985). Learning-logic. Relatório Técnico TR-47, Massachusetts Institute of Technology, Center for Computational Research in Economics and Management Science.
[Parris e Carey, 1991] E. Parris e M. Carey (1991). Adapting input transformations
using alpha-nets for whole word speech recognition. In Proceedings EUROSPEECH 91, pp. 551–554.
[Paul, 1991] D. Paul (1991). Experience with a Stack Decoder-Based HMM CSR
and Back-Off N-Gram Language Models. In Proceedings DARPA Speech and
Natural Language Workshop, pp. 284–288.
[Paul, 1992] D. Paul (1992). An efficient A* Stack Decoder Algorithm for Continuous Speech Recognition with a Stochastic Language Model. In Proceedings
ICASSP 92, pp. 25–28.
BIBLIOGRAFIA
257
[Paul e Baker, 1992] D. Paul e J. Baker (1992). The Design for the Wall Street
Journal-based CSR Corpus. In Proceedings of ICSLP 92, pp. 899–902.
[Pieraccini et al., 1991] R. Pieraccini, C. Lee, E. Giachin, e L. Rabiner (1991).
Complexity reduction in a Large Vocabulary Speech Recognizer. In Proceedings
ICASSP 91, pp. 729–732.
[Pineda, 1987] F. Pineda (1987). Generalization of Backpropagation to Recurrent
Neural Networks. Physical Review Letters, (59):2229–2232.
[Prager et al., 1986] R. Prager, T. Harrison, e F. Fallside (1986). Boltzmann machines for speech recognition. Computer Speech and Language, 1:3–27.
[Price et al., 1988] P. Price, W. Fisher, J. Bernstein, e D. Pallett (1988). The DARPA 1,000-Word Resource Management Database for Continuous Speech Recognition. In Proceedings of ICASSP 88, pp. 651–654.
[Principe et al., 1991] J. Principe, B. de Vries, J. Kao, e P. Oliveira (1991). Modeling Applications with the Focused Gamma Net. In Proceedings NIPS 4, pp.
143–150.
[Principe et al., 1993] J. Principe, B. Vries, e P. Oliveira (1993). The Gamma filter
- A new class of adaptive IIR filters with restricted feedback. IEEE Transactions
on Signal Processing, 41(2):649–656.
[Rabiner, 1989] L. Rabiner (1989). A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2):257–
285.
[Rabiner e Juang, 1986] L. Rabiner e B. Juang (1986). An Introduction to Hidden
Markov Models. IEEE ASSP Magazine, pp. 4–16.
[Rabiner e Juang, 1993] L. Rabiner e B.-H. Juang (1993). Fundamentals of Speech
Recognition. Ed. Prentice-Hall, New Jersey (EUA).
[Rabiner e Schafer, 1978] L. Rabiner e R. Schafer (1978). Digital Processing of
Speech Signals. Prentice-Hall, New Jersey (EUA).
258
BIBLIOGRAFIA
[Ramesh e Wilpon, 1992] P. Ramesh e J. Wilpon (1992). Modeling State Durations
in Hidden Markov Models for Automatic Speech Recognition. In Proceedings
ICASSP 92, volume I, pp. 381–384.
[Renals e Hochberg, 1994] S. Renals e M. Hochberg (1994). Using Gamma Filters
to Model Temporal Dependencies in Speech. In Proceedings ICSLP 94, volume
III, pp. 1491–1494.
[Renals e Hochberg, 1995] S. Renals e M. Hochberg (1995). Decoder Technology for Connectionist Large Vocabulary Speech Recognition. Relatório Técnico
CUED/F-INFENG/TR.186, Cambridge University Engineering Department.
[Renals et al., 1994] S. Renals, N. Morgan, H. Bourlard, M. Cohen, e H. Franco
(1994). Connectionist probability estimators in HMM speech recognition. IEEE
Transactions on Speech and Audio Processing, 2(1):161–174.
[Renals et al., 1991] S. Renals, N. Morgan, H. Bourlard, H. Franco, e M. Cohen
(1991). Connectionist Optimisation of Tied Mixture Hidden Markov Models. In
Proceedings NIPS 91, pp. 167–174.
[Ribeiro et al., 1993] C. Ribeiro, I. Trancoso, e M. Viana (1993). EUROM.1 Portuguese Database. Relatório técnico, ESPRIT Project 6819 SAM-A.
[Richard e Lippmann, 1991] M. Richard e R. Lippmann (1991). Neural Network
Classifiers Estimate Bayesian a posteriori Probabilities. Neural Computation,
3:461–483.
[Rigoll, 1989a] G. Rigoll (1989a). An Information Theory Approach to Speaker
Adaptation. In Proceedings EUROSPEECH 89, volume I, pp. 494–497.
[Rigoll, 1989b] G. Rigoll (1989b). Speaker Adaptation for Large Vocabulary Speech Recognition Systems Using “Speaker Markov Models”. In Proceedings
ICASSP 89, volume I, pp. 5–8.
[Rigoll, 1993] G. Rigoll (1993). Speaker Adaptation using Improved Speaker Markov Models. In Proceedings ICASSP 93, volume II, pp. 566–569.
BIBLIOGRAFIA
259
[Rigoll, 1994] G. Rigoll (1994). Maximum Mutual Information Neural Networks
for Hybrid Connectionist-HMM Speech Recognition Systems. IEEE Transactions
on Speech and Audio Processing, 2(1):175–184.
[Robinson, 1989] A. Robinson (1989). Dynamic Error Propagation Networks. Tese de Doutoramento, Cambridge University Engineering Department, Cambridge (GB).
[Robinson et al., 1993] A.J. Robinson, L. Almeida, J.-M. Boite, H. Bourlard,
F. Fallside, M. Hochberg, D. Kershaw, P. Kohn, Y. Konig, N. Morgan, J.P. Neto,
S. Renals, M. Saerens, e C. Wooters (1993). A Neural Network Based, Speaker
Independent, Large Vocabulary, Continuous Speech Recognition System: The
Wernicke Project. In Proceedings EUROSPEECH 93, pp. 1941–1944.
[Robinson, 1992a] T. Robinson (1992a). A real-time Recurrent Error Propagation
network word recognition system. In Proceedings ICASSP 92, volume I, pp.
617–620.
[Robinson, 1992b] T. Robinson (1992b). Recurrent Nets for Phone Probability
Estimation. In Proceedings DARPA Speech and Natural Language Workshop.
[Robinson, 1994] T. Robinson (1994). An application of recurrent nets to phone
probability estimation. IEEE Transactions on Neural Networks, 5(2):298–305.
[Robinson e Fallside, 1991] T. Robinson e F. Fallside (1991). A Recurrent Error
Propagation Network Speech Recognition System. Computer Speech and Language, 5(3).
[Robinson et al., 1995] T. Robinson, J. Fransen, D. Pye, J. Foote, e S. Renals
(1995). WSJCAM0: A British English Speech Corpus for Large Vocabulary
Continuous Speech Recognition. In Proceedings of ICASSP 95, pp. 81–84.
[Robinson et al., 1994] T. Robinson, M. Hochberg, e Steve Renals (1994). IPA:
Improved Phone Modelling with Recurrent Neural Networks. In Proceedings
ICASSP 94, pp. 37–40.
260
BIBLIOGRAFIA
[Rumelhart et al., 1986] D. Rumelhart, H. Hinton, e R. Williams (1986). Learning
Internal Representations by Error Propagation. Parallel Distributed Processing:
Explorations in the Microstucture of Cognition, I.
[Rumelhart e McClelland, 1986] D. Rumelhart e J. McClelland (1986). Parallel
Distributed Processing: Explorations in the Microstructure of Cognition. MIT
Press, Cambridge (EUA).
[Rumelhart e Zipser, 1985] D. Rumelhart e D. Zipser (1985). Feature Discovery
by Competitive Learning. Cognitive Science, 9:75–112.
[Santini e Bimbo, 1995] S. Santini e A. Bimbo (1995). Recurrent Neural Networks
can be Trained to be Maximum a posteriori Probability Classifiers. Neural
Networks, 8(1):25–29.
[Schwartz et al., 1987] R. Schwartz, Y. Chow, e F. Kubala (1987). Rapid Speaker
Adaptation Using a Probabilistic Spectral Mapping. In Proceedings ICASSP 87,
volume II, pp. 633–636.
[Serralheiro, 1990] A. Serralheiro (1990). Metodologias Probabilı́sticas no Reconhecimento de Palavras Isoladas. Tese de Doutoramento, Instituto Superior
Técnico, Universidade Técnica de Lisboa, Lisboa (Portugal).
[Shaughnessy, 1987] D. Shaughnessy (1987). Speech Communication - Human
and machine. Addison-Wesley, Massachusetts (EUA).
[Shikano et al., 1986] K. Shikano, K. F. Lee, e R. Reddy (1986). Speaker Adaptation through Vector Quantization. In Proceedings ICASSP 86, pp. 2643–2646.
[Silva e Almeida, 1990a] F. Silva e L. Almeida (1990a). Acceleration Techniques
for the Backpropagation Algorithm. Proceedings EURASIP Workshop on Neural
Networks, Editores L. Almeida e C. Wellekens, pp. 110–119.
[Silva e Almeida, 1990b] F. Silva e L. Almeida (1990b). Speeding up backpropagation algorithm. Advanced Neural Computers, Editor R. Eckmiller, pp. 151–
160.
BIBLIOGRAFIA
261
[Silva e Almeida, 1991] F. Silva e L. Almeida (1991). Speeding-Up backpropagation by data orthonormalization. Artificial Neural Networks, Editores T. Kohonen, K. Makisara, O. Simula e J. Kangas, 2:149–156.
[Steeneken e Leeuwen, 1995] H. Steeneken e D. V. Leeuwen (1995).
Multi-
Lingual Assessment of Speaker Independent Large Vocabulary Speech Recognition Systems: the SQALE Project. In Proceedings of EUROSPEECH 95, pp.
1271–1274.
[Sturtevant, 1989] D. Sturtevant (1989). A Stack Decoder for Continuous Speech
Recognition. In Proceedings DARPA Speech and Natural Language Workshop,
pp. 193–198.
[Tsoukalas et al., 1993] D. Tsoukalas, J. Mourjopoulos, e G. Kokkinakis (1993).
Neural Network Speech Enhancer Utilizing Masking Properties. In Proceedings
EUROSPEECH 93, pp. 1595–1598.
[Tsurumi e Nakagawa, 1994] Y. Tsurumi e S. Nakagawa (1994). An Unsupervised
Speaker Adaptation Method for Continuous Parameter HMM by Maximum a
Posteriori Probability Estimation. In Proceedings ICSLP 94, volume II, pp. 431–
434.
[Tuerk e Robinson, 1993] C. Tuerk e T. Robinson (1993). A New Frequency Shift
Function for Reducing Inter-Speaker Variance. In Proceedings EUROSPEECH
93, pp. 351–354.
[Umbach e Ney, 1992] R. H. Umbach e H. Ney (1992). Linear Discriminant Analysis for improved large vocabulary speech recognition. In Proceedings ICASSP
92, volume I, pp. 13–16.
[Viana et al., 1991a] M. Viana, E. Andrade, L. Oliveira, e I. Trancoso (1991a).
Ler PE: Um utensı́lio para o estudo da ortografia do Português. In Actas do
VII Encontro da Associação Portuguesa de Linguı́stica, pp. 474–489.
[Viana et al., 1991b] M. Viana, I. Trancoso, C. Ribeiro, A. Andrade, e E. d Ándrade
(1991b). The Relationship between Spelled and Spoken Portuguese: Implications
262
BIBLIOGRAFIA
for Speech Synthesis and Recognition. In Proceedings EUROSPEECH 91, pp.
275–278.
[Vries e Principe, 1992] B. Vries e J. Principe (1992). The gamma model - a new
neural model for temporal processing. IEEE Transactions on Neural Networks,
5:565–576.
[Waibel et al., 1987] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, e K. Lang
(1987). Phoneme Recognition: using Time-Delay Neural Networks. Relatório
Técnico TR-1-0006, ATR Interpreting Telephony Research Laboratories.
[Waibel et al., 1988] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, e K. Lang
(1988). Phoneme Recognition: Neural Networks vs. Hidden Markov Models. In
Proceedings ICASSP 88, pp. 107–110.
[Waterhouse, 1997] S. Waterhouse (1997). Divide and Conquer: Pattern recognition using mixtures of experts. Tese de Doutoramento, Cambridge University
Engineering Department.
[Waterhouse et al., 1996] S. Waterhouse, D. Kershaw, e T. Robinson (1996). Smoothed Local Adaptation of Connectionist Systems. In Proceedings ICSLP 96.
[Waterhouse e Robinson, 1994] S. Waterhouse e A. Robinson (1994). Classification using Hierarchical Mixtures of Experts. In Proceedings NNSP IV, pp. 269–
278.
[Watrous, 1988] R. Watrous (1988).
Speech Recognition Using Connectionist
Networks. Tese de Doutoramento, University of Pennsylvania, Philadelphia
(EUA).
[Watrous, 1993] R. Watrous (1993). Speaker Normalization and Adaptation Using
Second-Order Connectionist Networks. IEEE Transactions on Neural Networks,
4(1):21–30.
[Watrous e Shastri, 1987] R. Watrous e L. Shastri (1987). Learning Phonetic Features Using Connectionist Networks: An Experiment in Speech Recognition. In
BIBLIOGRAFIA
263
Proceedings of the IEEE First International Conference on Neural Networks, volume IV, pp. 381–388.
[Weenink e Pols, 1993] D. Weenink e L. Pols (1993). Modeling Speaker Normalization by Adapting the Bias in a Neural Net. In Proceedings EUROSPEECH 93,
pp. 2259–2262.
[Werbos, 1974] P. Werbos (1974). Beyond Regression: New Tools for Prediction
and Analysis in Behavioral Sciences. Tese de Doutoramento, Harvard University.
[Wernicke, 1993] Wernicke (1993). WERNICKE - Progress Report.
[Wernicke, 1994] Wernicke (1994). WERNICKE - Progress Report.
[Wernicke, 1995] Wernicke (1995). WERNICKE - Progress Report.
[Witbrock e Haffner, 1992] M. Witbrock e P. Haffner (1992). Rapid Connectionist
Speaker Adaptation. In Proceedings ICASSP 92, volume I, pp. 453–456.
[Woodland et al., 1995] P. Woodland, C. Leggetter, J. Odell, V. Valtchev, e
S. Young (1995). The 1994 HTK Large Vocabulary Speech Recognition System.
In Proceedings of ICASSP 95, pp. 73–76.
[Woodland e Young, 1993] P. Woodland e S. Young (1993). The HTK Continuous
Speech Recogniser. In Proceedings of EUROSPEECH 93, pp. 2207–2219.
[Wooters e Stolcke, 1994] C. Wooters e A. Stolcke (1994). Multiple-Pronunciation
Lexical Modeling in a Speaker Independent Speech Understanding System. In
Proceedings ICSLP 94, volume III, pp. 1363–1366.
[Xu et al., 1994] D. Xu, D. Chen, Q. Ma, B. Xu, e T. Huang (1994). Adaptation
of Neural Network Model: Comparison of Multilayer Perceptron and LVQ. In
Proceedings ICSLP 94, volume III, pp. 1567–1570.
[Yong e Mason, 89] G. Yong e J. Mason (89). Speaker Normalization via a linear
Transformation on a Perceptual Feature Space and its benefits in ASR Adaptation. In Proceedings EUROSPEECH 89, volume I, pp. 258–261.
264
BIBLIOGRAFIA
[Young, 1996] S. Young (1996). A Review of Large-vocabulary Continuous-speech
Recognition. IEEE Signal Processing Magazine, 13(5):45–57.
[Zhao, 1993] Y. Zhao (1993). A New Speaker Adaptation Technique using Very
Short Calibration Speech. In Proceedings ICASSP 93, volume II, pp. 562–565.

Documentos relacionados