Utilização de Arrays de Microfones em ASR - INESC-ID

Transcrição

Utilização de Arrays de Microfones em ASR - INESC-ID
Utilização de Arrays de Microfones para Sistemas de
Reconhecimento de Fala
GUSTAVO FERNANDES ESTEVES SOARES COELHO
Dissertação para obtenção do Grau de Mestre em
ENGENHARIA ELECTROTÉCNICA E DE COMPUTADORES
Júri
Presidente:
Prof. Doutor Francisco Miguel Prazeres da Silva Garcia
Orientador:
Prof. Doutor João Paulo da Silva Neto
Co-orientador:
Prof. Doutor António Joaquim dos Santos Romão Serralheiro
Vogais:
Prof. Doutor Moisés Simões Piedade
Outubro de 2007
Agradecimentos
Gostaria de agradecer, em primeiro lugar, ao meu orientador, Professor João Paulo Neto pelo
seu apoio e orientação, pelo estímulo contínuo à investigação, pelo aprofundamento deste tema e
pela confiança transmitida ao atribuir-me este trabalho. Ao meu co-orientador, Professor António
Joaquim Serralheiro, pelo seu apoio incondicional, acompanhamento constante, discussão de ideias,
sentido crítico e por, desde o princípio, me ter ajudado a resolver os problemas que à partida
pareciam intransponíveis.
Ao Professor Bento Coelho, por me ter cedido a câmara anecóica do CAPS para os testes e
calibrações do agregado de microfones. Ao Sr. Rafael Serrenho, pela ajuda prestada durante os
testes na câmara anecóica e ao Eng. Onofre Moreira pelos seus sábios conselhos sobre acústica.
Ao Alberto Gareta, pela sua disponibilidade em partilhar a sua larga experiência com
agregados de microfones e na interpretação de vários resultados experimentais.
Ao David Matos, ao Hugo Meinedo e ao Sérgio Paulo, pela sempre disponível e preciosa
ajuda durante o trabalho
Ao Renato Cassaca e ao Márcio Viveiros na preciosa ajuda com as aplicações de ASR e com
sistema de diálogo do mordomo virtual “Ambrósio” e à Helena Moniz pela ajuda com sugestões de
escrita da tese.
Ao Cerick Rochet do NIST, que desenvolveu o hardware original do agregado de microfones,
pela sua ajuda na solução de problemas pontuais com agregado de microfones.
A todos os meus colega que, de forma directa ou indirecta, contribuíram para este trabalho.
E principalmente, à Cesaltina pela sua paciência e incansável ajuda que sempre me deu, e à
minha família que sempre me apoiou em todos os momentos, pela confiança e orientação que
sempre me deram. A eles, o meu muito obrigado!
Lisboa, 30 de Setembro de 2007,
Gustavo Esteves Coelho.
i
Resumo
Desenvolvido no âmbito do Mestrado em Engenharia Electrotécnica e de Computadores, este
trabalho tem como objectivo criar um modelo de aquisição de fala ubíquo, capaz de estabelecer uma
interface de fala entre o homem e um computador. Pretende aplicar-se um agregado de microfones
para adquirir o sinal de fala de um locutor colocado em campo distante e processa-lo em sistemas de
Reconhecimento Automático de Fala (ASR).
Usualmente, em aquisição de fala, são implementadas técnicas em campo próximo por meio
de um ou dois microfones colocados perto do locutor. Este método clássico, permite minimizar a
influência dos sinais espúrios, como o ruído ambiente ou sinais de fala de outros locutores, dada a
proximidade do locutor aos microfones. No entanto, a colocação de microfones perto do locutor é, do
ponto de vista do utilizador, um método intrusivo dado que existe uma restrição da liberdade de
movimentos do próprio utilizador.
O modelo de aquisição de fala proposto neste trabalho, permite criar um sistema hands-free
e, como tal, ubíquo na interacção entre as pessoas e os computadores, minimizando os
constrangimentos do utilizador ao equipamento de aquisição de fala. Pretende-se adquirir a fala em
campo distante, num espaço físico limitado, sem que o locutor tenha a preocupação com a presença
ou posição dos dispositivos de aquisição do sinal. No entanto, o sinal de fala adquirido em campo
distante é severamente degradado pela reverberação do próprio sinal e por sinais espúrios.
A utilização de agregados de microfones permite explorar a dimensão espaço-temporal do
problema, com a implementação de técnicas de filtragem espacial. Como o sinal de fala e o ruído têm
origem em pontos diferentes no espaço, os métodos de filtragem espacial permitem separar
fisicamente estes dois sinais acústicos. O objectivo é direccionar electronicamente (por software) o
agregado de microfones, de forma adquirir sinais de fala que se propagam numa determinada
direcção, enquanto se rejeitam os sinais vindos de outras direcções. Uma vez que é feita a
abordagem no domínio espaço-temporal dos sinais, o agregado de microfones pode ainda ser
aplicado para localizar e seguir um número ilimitado de fontes acústicas (e.g. locutores).
Para isso, foi construído um agregado de 64 microfones linearmente espaçados, como
equipamento de aquisição da fala em campo distante. São desenvolvidas e aplicados métodos de
filtragem espacial para speech enhancement: Delay-and-Sum Beamforming e Super Directive
Beamforming como métodos de filtragem espacial fixa e o Generalized Sidelobe Canceller como
método de filtragem espacial adaptativa. Para a localização, espacial é abordado o método de
Generalized Cross Correlation. Foi desenvolvido ainda um método de calibração do agregado, que
permitiu ajustar as sensibilidades dos 64 microfones com uma variação máxima de 0,3dB e
aproximadamente invariante na frequência.
Palavras chave
Agregados de microfones, Filtragem espacial, Reconhecimento automático de fala, Aquisição
de fala, Speech enhancement, Localização de fontes acústicas, Domótica.
iii
Abstract
This work was developed for my graduation theses for the Master of Science in Electrical and
Computer Engineering, and aims to develop a ubiquitous speech acquisition system for Automatic
Speech Recognition (ASR) applications. The main objective is to build a speech acquisition system
capable of enhancing the speech signals and attenuating the noise signals in far-talk environments.
The classic approach for speech acquisition is normally implemented by using one or two
microphones close to the speech source (e.g. using head-set mounted microphones), in order to
maximize the signal-to-noise ratio. One drawback of the classic approach is the intrusive point of view
for the user, where the speaker cannot be free to move or wear a specific device. However, if the
speaker needs to move inside a large room, or to an adjacent one, other ways of speech acquisition
are mandatory.
Microphone arrays are commonly use for far-talk speech acquisition. However, they have
drawbacks, such as also capturing ambient noises or other conversations, which adversely affect
speech recognition.
Seeking to create ubiquitous speech acquisition for human and computer interaction
environment and minimizing constrains for speech acquisition, where humans does not have to
concern about the presence or positions of the microphones, or speak directly to a close-talk
microphone. Microphone arrays can explore the fact that speech and interfering noise sources are
physically separate in space enabling, thus, to perform speech enhancement.
This spatial-temporal approach, allows performing the spatial filtering of speech and noise
signals for speech enhancement. Spatial filters or beamforming methods, is a process that emphasize
signals from a particular direction while attenuating those from other directions. This spatial-temporal
approach can be also used for source detection and tracking, e.g. a locating a moving speaker.
In this work, spatial filtering techniques where implemented using a 64 microphone Uniform
Linear Array, for speech acquisition. For speech enhancement was developed and applied the
Delay-and-sum Beamforming and Super Directive Beamforming algorithms for fixed beamforming, and
the Generalized Sidelobe Canceller for adaptive beamforming. The Generalized Cross Correlation
method was address for the source localization issues.
In addition, a novel microphone arrays calibration method was developed. The array
microphone’s sensitivity with a 0.3dB variation and approximated invariant frequency was achieved.
Keywords
Microphone arrays, Beamforming, Spatial filtering, Automatic speech recognition, Speech
acquisition, Speech enhancement, Audio source localization, Smart home environment.
v
Índice
AGRADECIMENTOS ............................................................................................................................... I
RESUMO ................................................................................................................................................ III
PALAVRAS CHAVE .............................................................................................................................. III
ABSTRACT ............................................................................................................................................. V
KEYWORDS ........................................................................................................................................... V
ÍNDICE................................................................................................................................................... VII
LISTA DE FIGURAS .............................................................................................................................. IX
LISTA DE TABELAS ........................................................................................................................... XIII
LISTA DE ACRÓNIMOS .......................................................................................................................XV
1.
2.
INTRODUÇÃO ............................................................................................................................. 1
1.1.
ENQUADRAMENTO – PROJECTO DA CASA DO FUTURO .............................................................. 2
1.2.
OUTROS TRABALHOS RELACIONADOS ...................................................................................... 4
1.3.
TRABALHO REALIZADO E CONTRIBUTOS .................................................................................. 6
1.4.
ESTRUTURA DO TRABALHO ...................................................................................................... 7
DESCRIÇÃO DO AGREGADO DE MICROFONES .................................................................... 9
2.1.
ARQUITECTURA E FUNCIONAMENTO ........................................................................................ 9
2.2.
DESCRIÇÃO DO HARDWARE.................................................................................................... 10
2.2.1.
Microboard ....................................................................................................................... 10
2.2.2.
Motherboard ..................................................................................................................... 13
2.3.
3.
CALIBRAÇÃO DO AGREGADO DE MICROFONES ............................................................... 17
3.1.
INFLUÊNCIA DAS CARACTERÍSTICAS DOS MICROFONES .......................................................... 17
3.2.
MÉTODOS IMPLEMENTADOS ................................................................................................... 18
3.2.1.
Condições de teste ............................................................................................................. 18
3.2.2.
Cálculo dos ganhos dos microfones .................................................................................. 19
3.3.
4.
MONTAGEM E ALTERAÇÕES DO HARDWARE........................................................................... 15
PRINCIPAIS RESULTADOS DA CALIBRAÇÃO ............................................................................. 20
INTRODUÇÃO AO PROCESSAMENTO COM AGREGADOS DE MICROFONES ................. 21
4.1.
CONCEITOS FUNDAMENTAIS .................................................................................................. 21
4.1.1.
Propagação das ondas acústicas ...................................................................................... 23
4.1.2.
Modelo do sinal do agregado............................................................................................ 23
4.1.3.
Direcção da onda incidente (DoA) ................................................................................... 25
4.1.4.
Amostragem e aliasing espacial ........................................................................................ 26
4.1.5.
Resolução espacial ............................................................................................................ 28
4.2.
APLICAÇÃO DO AGREGADO DE MICROFONES: FILTRAGEM ESPACIAL E LOCALIZAÇÃO ........... 32
4.2.1.
Filtragem espacial – Beamforming ................................................................................... 32
4.2.2.
Estimação do DoA para localização e seguimento ........................................................... 33
vii
5.
FILTRAGEM ESPACIAL PARA SPEECH ENHANCEMENT ................................................... 34
5.1.
FILTRAGEM ESPACIAL FIXA ................................................................................................... 34
5.1.1.
Delay-and-Sum Beamformer (DnSB) ................................................................................ 35
5.1.2.
Filter-and-Sum Beamformer ............................................................................................. 36
5.1.3.
Super Directive Beamformer (SDB) .................................................................................. 38
5.2.
FILTRAGEM ESPACIAL ADAPTATIVA ...................................................................................... 39
5.2.1.
Generalized Sidelobe Canceller (GSC) ............................................................................. 39
5.2.2.
Robust Adaptive Beamformer............................................................................................ 41
5.3.
RESULTADOS EXPERIMENTAIS ............................................................................................... 44
5.3.1.
Filtragem Espacial Fixa ................................................................................................... 44
Ensaio em câmara anecóica ........................................................................................................... 45
Ensaio em ambientes reverberantes reais ...................................................................................... 48
5.3.2.
Filtragem Espacial Adaptativa ......................................................................................... 51
Ensaio em câmara anecóica simulada............................................................................................ 51
Ensaio em ambientes reverberantes reais ...................................................................................... 53
5.4.
6.
ANÁLISE DOS RESULTADOS .................................................................................................... 54
LOCALIZAÇÃO E SEGUIMENTO COM AGREGADOS DE MICROFONES ........................... 59
6.1.
STEERED RESPONCE POWER (SRP) ........................................................................................ 60
6.2.
GENERALIZED CROSS CORRELATION (GCC) ......................................................................... 61
6.3.
RESULTADOS EXPERIMENTAIS ............................................................................................... 63
6.3.1.
6.4.
7.
8.
ANÁLISE DOS RESULTADOS .................................................................................................... 71
AVALIAÇÃO DO AGREGADO DE MICROFONES EM SISTEMAS ASR ............................... 73
7.1.
RESULTADOS EXPERIMENTAIS EM AMBIENTES REVERBERANTES REAIS ................................. 73
7.2.
ANÁLISE DOS RESULTADOS .................................................................................................... 75
CONCLUSÕES E TRABALHOS FUTUROS ............................................................................. 77
8.1.
9.
Ensaio em ambientes reverberantes reais ......................................................................... 65
TRABALHOS FUTUROS ............................................................................................................ 79
REFERÊNCIAS .......................................................................................................................... 81
ANEXO A.
RESULTADOS EXPERIMENTAIS DA CALIBRAÇÃO DO AGREGADO.................. 85
A.1.
EFEITO DA RESSONÂNCIA E DA VIBRAÇÃO ............................................................................. 85
A.2.
INFLUÊNCIA DAS REFLEXÕES DOS SINAIS ............................................................................... 87
A.3.
TESTES COM SINAIS DE FALA .................................................................................................. 91
ANEXO B.
DESCRIÇÃO DAS SALAS DE ENSAIOS EXPERIMENTAIS .................................... 95
B.1.
SALA Nº 226 (SALA DE ALUNOS) ............................................................................................ 95
B.2.
SALA DE DEMONSTRAÇÕES .................................................................................................... 96
viii
Lista de figuras
Fig. 1.1 Arquitectura do mordomo virtual “Ambrósio”. ............................................................... 3
Fig. 1.2 Maior agregado de microfones do mundo, construído no MIT. .................................... 5
Fig. 1.3 Diferentes exemplos de aplicação de agregados de microfones. ................................ 6
Fig. 2.1 Arquitectura do agregado de microfones. ..................................................................... 9
Fig. 2.2 Visualização dos canais do agregado com o programa “osciloscope”. ...................... 10
Fig. 2.3 Placa da Microboard. .................................................................................................. 11
Fig. 2.4 Resposta em frequência dos microfones usados. ...................................................... 11
Fig. 2.5 Andar de amplificação da Microboard. ........................................................................ 12
Fig. 2.6 Andar de digitalização. ................................................................................................ 12
Fig. 2.7 Pinout da interface com a Motherboard. ..................................................................... 13
Fig. 2.8 Placa da Motherboard. ................................................................................................ 13
Fig. 2.9 Esquema do funcionamento da Motherboard ............................................................. 14
Fig. 2.10 Pacote UDP de comunicação do agregado. ............................................................. 14
Fig. 2.11 Agregado de microfones suspenso no interior da câmara anecóica. ....................... 15
Fig. 3.1 Simulação dos diagramas de directividade do agregado de microfones. .................. 18
Fig. 4.1 Efeito da direcção de propagação de uma sinusóide incidente num agregado de
microfones. ............................................................................................................................................ 22
Fig. 4.2 Campo próximo e campo distante............................................................................... 23
Fig. 4.3 Modelo do sinal para um agregado de N microfones. ................................................ 24
Fig. 4.4 Modelo do sinal incidente no agregado. ..................................................................... 26
Fig. 4.5 Influência da variação da distância d na directividade do agregado para aberturas
constantes: (a)(b) filtragem sem aliasing, (c)(d) filtragem com aliasing. ............................................... 29
Fig. 4.6 Influência do número de microfones na resolução espacial do agregado. ................. 30
Fig. 4.7 Influência da frequência do sinal incidente na directividade do agregado. ................ 31
ix
Fig. 5.1 Esquema de implementação do Delay-and-Sum Beamformer. .................................. 35
Fig. 5.2 Filtragem Espacial do DnSB para um agregado de 64 microfones com 2cm de
espaçamento. ........................................................................................................................................ 36
Fig. 5.3 Filter-and-Sum Beamformer no domínio da frequência, para um intervalo de
frequência k . ........................................................................................................................................ 37
Fig. 5.4 Filtragem Espacial do Super Directive Beamformer para um agregado de 64
microfones com 2cm de espaçamento. ................................................................................................. 38
Fig. 5.5 Estrutura do GSC: Fixed Beamformer (FBF), Blocking Matrix (BM) e Multiple
Canceller (MC). ..................................................................................................................................... 40
Fig. 5.6 Estrutura CCAF-NCAF do Robust Adaptive Beamformer. ......................................... 42
Fig. 5.7 Resultado do algoritmo Delay and Sum Beamforming (DnSB). ................................. 45
Fig. 5.8 Resultados do algoritmo Super Directive Beamforming (SDB). ................................. 46
Fig. 5.9 Resultados da filtragem espacial em ambientes reais. ............................................... 50
Fig. 5.10 (a) Factor de directividade (DI) e (b) Atenuação do ruído incorrelacionado (WNG)
para DnSB e SDB. ................................................................................................................................. 55
Fig. 5.11 Efeito da variação de μ em DI e WNG ...................................................................... 56
Fig. 5.12 Resultados experimentais do GSC com VAD em ambientes reais: evolução da
energia do sinal de fala processado pelo FBF e GSC. ......................................................................... 57
Fig. 6.1 Divisão do agregado em sub-agregados de dimençõe inferiores. .............................. 64
Fig. 6.2 Posições reais do locutor para o ensaio experimental ............................................... 65
Fig. 6.3 Estimação do ângulo DoA com dois pares de microfones. ........................................ 66
Fig. 6.4 Análise do sinal de fala do microfone #32. ................................................................. 67
Fig. 6.5 Influência dos parâmetros do GCC na estimação do ângulo DoA. ............................ 68
Fig. 6.6 Relação entre DoA e  para microfones com 0,14m de separação ............................ 71
Fig. 6.7 Variação da resolução de DoA com a distância entre microfones e frequência de
amostragem. .......................................................................................................................................... 72
Fig. 7.1 Forma de onda de uma frase adquirida por vários métodos. ..................................... 75
x
Fig. 7.2 Evolução da energia do sinal de fala processado pelo FBF e GSC, e do microfone
#32. ........................................................................................................................................................ 76
Fig. 7.3 Densidade espectral dos sinais de processados. ....................................................... 76
Fig. A.1 Calibração com uma sinusóide a 430Hz. ................................................................... 85
Fig. A.2 Efeito da ressonância. ................................................................................................ 86
Fig. A.3 Influência da reflexão do painel. ................................................................................. 88
Fig. A.4 Influência do modulo M2. ............................................................................................ 89
Fig. A.5 Influência do painel reflector. ...................................................................................... 90
Fig. A.6 Calibração com WGN. ................................................................................................ 91
Fig. A.7 Testes com fala ........................................................................................................... 92
Fig. A.8 Posições do locutor na câmara anecóica ................................................................... 92
Fig. A.9 Variação das sensibilidades com a posição do locutor. ............................................. 93
Fig. B.1 Planta da sala de alunos ............................................................................................. 95
Fig. B.2 Planta da sala de demonstrações .............................................................................. 96
xi
Lista de Tabelas
Tab. 5.1 Variação do SNR com o algoritmo de filtragem espacial. ......................................... 47
Tab. 5.2 Variação do SNR com o ângulo DoA. ........................................................................ 49
Tab. 5.3 Simulação do GSC para dois sinais interferentes: variação do SNR. ....................... 52
Tab. 5.4 Aplicação do GSC em ambientes reais: variação do SNR. ....................................... 54
Tab. 6.1 Estimação do ângulo DoA com GCC-PHAT sem filtro de mediana. ......................... 69
Tab. 6.2 Estimação do ângulo DoA com GCC-PHAT com filtro de mediana. ......................... 70
Tab. 7.1 Resultados de reconhecimento das 20 frases. .......................................................... 74
xiii
Lista de acrónimos
AD
Analógico-Digital.
AMI
Augmented Multi-party Interaction.
ASR
Automatic Speech Recognition, Reconhecimento Automático de Fala.
BF
BeamForming, Filtragem Espacial.
BM
Blocking Matrix, Matriz de Bloqueio.
CAPS
Centro de Análise e Processamento de Sinais.
CCAF
Coefficient Constrained Adaptive Filters.
CHIL
Computers In The Human Communication Loop.
DI
Directivity Index, Índice de directividade teórica do agregado.
DnSB
Delay-and-Sum Beamforming.
DoA
Direction of Arrival, Direcção do sinal Incidente no agregado.
FBF
Fixed Beamformer, Filtro de Espacial Fixo
FPGA
Field-Programmable Gate Array.
GCC
Generalized Cross Correlation.
GND
Ground, Referência do circuito.
GSC
Generalized Sidelobe Canceller.
ICASSP
International Conference on Acoustics, Speech and Signal Processing.
INESC-ID
Instituto de Engenharia de Sistemas de Computadores Investigação e Desenv.
IO
Input-Output.
IOM
Input Output Manager.
IST
Instituto Superior Técnico.
ITC-irst
Istituto Trentino di Cultura - Centro per la ricerca scientifica e tecnologica.
2
LF
Laboratório de Sistemas Língua Falada.
LMS
Least Mean Squares Filter.
MA
Microphone Arrays, Agregado de Microfones.
MAC
Media Access Control address, Endereço físico da interface de rede.
MC
Multiple Canceller, Cancelador de múltiplas entradas.
MIT
Massachusetts Institute of Technology.
ML
Maximum Likelihood, Máxima Verosimilhança.
MVDR
Minimum Variance Distortionless Response.
NCAF
Norm Constrained Adaptive Filters.
NIST
National Institute of Standards and Technology.
NLMS
Normalized Least Mean Squares Filter.
PCB
Printed Circuit Board.
PCM
Pulse Code Modulation, Modulação por impulso codificado.
PHAT
Phase Transform.
xv
PROM
Programmable Read Only Memory.
RAM
Random Access Memory, Memória de acesso aleatório.
ROM
Read Only Memory.
SDB
Super Directive Beamforming.
SIPS
Sistemas de Processamento de Sinal.
SM
Service Manager.
SNR
Signal-to-Noise Ratio, Relação Sinal-Ruído.
SPL
Sound Pressure Level, Nível de Pressão Acústica.
TDoA
Time Diference of Arrival, Atraso de propagação dos sinais entre microfones.
TM
Tex Maneger.
TTS
Text-To-Speech.
UDP
User Datagram Protocol.
ULA
Uniform Linear Array, Agregado de Microfones Linearmente Espaçados.
USB
Universal Serial Port.
VAD
Voice Activation Detector, Detector de fala.
VHDL
VHSIC hardware description language.
WER
Word Error Rate, Taxa de erro de palavras.
WGN
White Gaussian Noise, Ruído branco Gaussiano.
WNG
White Noise Gain, Atenuação do ruído incorrelacionado.
xvi
1. Introdução
Advertência:
Devido à limitada ou inexistente bibliografia em língua portuguesa sobre aplicações com
agregados de microfones ou temas como a filtragem espacial para sinais de fala, optei por utilizar a
terminologia técnica anglo-saxónica, sob pena de a tradução para português desvirtualizar o contexto
dos termos. O mesmo se aplica na terminologia de acrónimos. No entanto, sempre que possível é
feita a tentativa de tradução dos termos técnicos para português, mas sempre com referência em
inglês em parêntesis.
Usualmente, em aquisição de fala, são implementadas técnicas por meio de um ou dois
microfones perto da fonte emissora (campo próximo) (close-talk), de forma a maximizar o sinal de fala
e minimizar os sinais de ruído. Esta forma de captação do sinal é, do ponto de vista do utilizador, uma
técnica intrusiva. Os microfones sem fios, montados na lapela do utilizador, conferem mais liberdade
de movimento. No entanto, existe uma degradação significativa da qualidade do sinal na presença de
ruído ambiente e/ou múltiplos oradores, devido à omnidireccionalidade do microfone.
O modelo de aquisição de fala proposto, nesta tese, permite criar um sistema hands-free e,
como tal, ubíquo na interacção entre as pessoas e os computadores; minimizando os
constrangimentos do utilizador ao equipamento de aquisição da fala. Pretende-se adquirir a fala num
espaço físico limitado (sala de estar, sala de reuniões, quarto, etc.) sem que o utilizador tenha a
preocupação com a presença ou posição dos dispositivos de aquisição do sinal.
O modelo proposto, usa um dispositivo constituído por um agregado de sensores para a
captura dos sinais de fala, colocado afastado da fonte emissora (campo distante) (far-talk). Dado que
os sensores do agregado em questão são microfones, este dispositivo é denominado como Agregado
de Microfones (Microphone Arrays).
Ao contrário dos convencionais microfones, os agregados de microfones permitem ser
electronicamente direccionáveis (electronic steer). Deste modo, num modelo de aquisição far-talk, o
agregado permite adquirir o sinal (ou sinais) com qualidade, para uma direcção (ou direcções)
específica, atenuando o ruído ou fontes interferentes de outras direcções. Como o agregado é
electronicamente direccionado, por via de software, em vez de fisicamente alinhar os microfones, o
agregado de microfones pode ser usado para localizar e seguir um número ilimitado de fontes
emissoras de sinal (e.g. locutor) em movimento. Os sinais capturados, podem ser posteriormente
manipulados por algoritmos de forma obter-se um sinal de fala sem ruído e que possa ser processado
por um Sistema de Reconhecimento Automático de Fala (Automatic Speech Recognition) (ASR).
O estudo e a implementação de agregados de sensores têm uma grande importância nas
mais vastas áreas científicas com aplicações como, sonares, radares, sismologia, biomédica,
comunicação, astronomia e processamento de imagem. Embora com diferentes aplicações, os
princípios e técnicas de processamento aplicados a agregados de microfones, são comuns e
baseiam-se nas características da propagação das ondas no espaço e no tempo [1-3].
1
O objectivo do processamento com agregados de sensores é extrair informação de sinais no
espaço, combinando os sinais dos sensores de forma a obter-se a informação de interesse. A
informação de interesse de um sinal pode ser o seu conteúdo (comunicação) ou o local de origem
que produz ou reflecte um sinal (radares e sonares). Em qualquer uma das situações, os sinais
captados pelos sensores do agregado têm de ser processados de forma a extrair informação útil.
A aplicação de agregados de microfones não é recente, os primeiros passos nesta área
tiveram início na década de 80. No entanto, dada a complexidade e volume de informação que os
sinais de fala geram, a sua evolução foi estrangulada pela então limitação de processamento
computacional. Actualmente, dado o poder de processamento que os computadores atingiram, aliado
ao amadurecimento nas áreas de reconhecimento da fala e à crescente procura em massa de novas
tecnologias, o tema de modelos de aquisição de fala em campo distante (far-talk) ressuscitam o
domínio da tecnologia com agregados de microfones.
Mesmo existindo agregados de microfones funcionais, alguns on-the-shelf, observa-se que
cada vez mais existem trabalhos académicos nesta área, o que indica que a aplicação com estes
agregados ainda se encontra em estado embrionário. Desta forma, esta tese pretende ser uma
aplicação desta tecnologia, mas também um contributo para a mesma, na medida em que são
apresentados alguns trabalhos de campo inéditos levados a cabo com o agregado de microfones. A
titulo de exemplo, a calibração do agregado na câmara anecóica e a corroboração de resultados de
simulação com resultados experimentais.
A teoria base por detrás desta forma ubíqua de adquirir a fala não foi inventada, mas sim
reinventada. A teoria por detrás aos agregados de microfones, parte da tecnologia aplicada aos
agregados de antenas, tais como radares e sonares, que é utilizada nas mais diversas áreas desde a
sismologia à medicina. Todos os exemplos referidos anteriormente, referem-se à aplicação no
domínio dos sinais de largura de banda estreita. No caso da mesma aplicação aos agregados de
microfones para aquisição de fala, já não se pode partir do mesmo pressuposto, uma vez que os
sinais de fala têm um espectro largo, cobrindo cerca de oito oitavas.
1.1. Enquadramento – Projecto da casa do futuro
Com o objectivo de criar um modelo de uma casa inteligente e baseado em Sistemas de
2
Diálogo Falado, o Laboratório de Sistemas de Língua Falada (L F), do INESC-ID, desenvolveu o
projecto do mordomo virtual “Ambrósio” [4]. É um projecto ambicioso, que visa desenvolver e aplicar
tecnologias de automação de casas inteligentes e foi introduzido na Casa Interactiva do Futuro da
Fundação Portuguesa das Comunicações, como um exemplo da potencialidade das tecnologias de
domótica.
A ideia subjacente ao projecto “Ambrósio” é a de criar um sistema que permita a um utilizador
qualquer a possibilidade de interagir com os vários sistemas em casa, via diálogo com o mordomo
virtual que está sempre disponível. Os sistemas a controlar podem ser muito variados (virtualmente
infinitos), desde a iluminação de uma determinada divisão, ao ar condicionado, aos estores da janela,
2
passando por sistemas multimédia, televisão, acesso ao e-mail, informação meteorológica, trânsito,
cotação da bolsa, etc.
Para tornar a interacção entre o utilizador e o sistema o mais flexível possível, a interface é
feita estabelecendo um diálogo entre o utilizador e o “Ambrósio”. O Ambrósio tem uma representação
graficamente animada que responde aos pedidos feitos pelo utilizador, tornando a interacção com o
sistema mais humana.
A arquitectura do sistema está dividida de forma modular em 3 blocos genéricos (Fig. 1.1). No
primeiro bloco, de entradas e saídas do sistema (Input Output Manager) (IOM) são implementados
sistemas de ASR, Text-To-Speech (TTS), FACE e Text Manager (TM). O sistema de ASR é aplicado
para reconhecimento da fala, como interface entre o utilizador e o Ambrósio; o sistema TTS é
aplicado para gerar a fala do Ambrósio como interface entre este o utilizador. O sistema FACE é uma
implementação 3D em Java que gera os movimentos e emoções da interface gráfica do Ambrósio. À
semelhança do sistema ASR, o sistema TM serve de interface entre um utilizador por acesso WEB e
o Ambrósio, criando-se assim duas formas possíveis de comunicar com o sistema: uma por fala, a
partir do ASR, outra por WEB, a partir do TM.
O segundo bloco, de Gestão de Diálogo (Dialogue Manager) (DM), recebe pedidos do bloco
IOM e decide que tipo de acção deve tomar e enviar para o terceiro bloco de Gestão de Serviços
(Service Manager) (SM). Este último, serve de interface entre o DM e os vários sistemas que se
podem controlar ou interagir.
Esta modularidade do sistema permite ainda que as interfaces, à qual o sistema global está
associado, sejam independentes da aplicação; e.g. o módulo IOM pode receber os sinais de fala de
vários tipos de microfones ou outro tipos de aparelhos, tais como PDA’s, telefones portáteis ou fixos,
interface WEB, etc. O mesmo se aplica ao interface gráfico do Ambrósio que pode ser visualizado
local ou remotamente por diferentes equipamentos multimédia.
Fig. 1.1 Arquitectura do mordomo virtual “Ambrósio”.
Esta independência do sistema de diálogo com a interface de fala, permite criar um sistema
ubíquo de automação da casa inteligente, possibilitando que a interacção entre o utilizador e o
Ambrósio possa ser feita virtualmente em qualquer divisão da casa ou até mesmo fora dela.
3
No âmbito do desenvolvimento de sistemas de interacção ubíquos, esta tese tem como
objectivo a aplicação e desenvolvimento de sistemas de aquisição de fala ubíquos para ambientes
virtuais. Pretende-se criar um módulo de aquisição de fala que seja também ubíquo, para ser
integrado como sistema de aquisição de fala do IOM, no sistema de diálogo falado “Ambrósio”.
Neste trabalho, é feita uma abordagem da aplicação de um agregado de microfones para
aquisição de fala e eliminação de ruído (speech enhancement). No entanto, a aplicação do agregado
de microfones não se esgota neste tipo de aplicação. Ao contrário do modelo de aquisição em campo
próximo, o agregado de microfones pode ainda ser usado em aplicações de localização, seguimento
e separação de oradores. Desta forma, a utilização de agregados de microfones na aquisição de fala,
permite extrair informações para além do sinal de fala em si; o que possibilita abordar novos
conceitos de automação de casas inteligentes, e.g. para localização e seguimento do locutor. Isto
permite desambiguar comandos de fala como e.g. “liga esta televisão” ou “liga a luz por cima de
mim”, uma vez que é possível obter a informação da localização do locutor a durante a aquisição do
seu sinal de fala. Em contraste com as aplicações clássicas de aquisição de fala em campo próximo,
todos estes exemplos são estimulantes para desenvolver aplicações de aquisição de fala com
agregados de microfones.
1.2. Outros trabalhos relacionados
Para contextualizar a aplicação dos agregados de microfones, serão referenciados nesta
secção, aplicações com agregados de microfones e alguns projectos em curso.
Direccionado para a área de teleconferência, o projecto Smart Space [5], desenvolvido no
NIST (www.nist.gov/smartspace), aplica o mesmo agregado usado neste trabalho, na sua sala de
reuniões inteligente. O agregado é usado para localizar o locutor com o objectivo de direccionar
câmaras de vídeo, enquanto a fala é captada com microfones em campo próximo. Com um total de
208 microfones e 7 câmaras digitais distribuídos pela sala, esta sala de reuniões inteligente gera
informação a uma taxa impressionante de 500Mbps.
Integrado no projecto CHIL (http://chil.server.de) e desenvolvido no ITC-irst [6], são aplicados
agregados de microfones para estimar a orientação da cabeça do locutor. São usados 7 agregados
de 4 microfones, em forma de T, distribuídos pela sala de teste.
Integrado no projecto AMI (www.amiproject.org) e desenvolvido por várias universidades, no
artigo em [7], é descrito a implementação de agregados circulares, com 8 microfones, para sistemas
automáticos de transcrição de reuniões.
Existem vários projectos de investigação que utilizam agregados de microfones de grandes
dimensões, para aplicações de aquisição de fala e/ou de localização/seguimento do orador. Em 1996
foi desenvolvido na Brown University [8], um agregado de 512 microfones que tinha como objectivo a
aquisição de fala em ambientes ruidosos e reverberantes. Em 2004 no MIT [9], foi desenvolvido o
maior agregado de microfones construído até hoje; um agregado de 1024 microfones que possibilita a
separação e seguimento 3D de múltiplos oradores.
4
Fig. 1.2 Maior agregado de microfones do mundo, construído no MIT.
No mercado já é possível encontrar algumas marcas que comercializam agregados de
microfones. Normalmente, estes agregados lineares possuem desde duas unidades, até uma dezena
de microfones incorporados, com interface USB ou analógico para uma utilização tipo plug-n-play em
computadores pessoais. Estes agregados são comercializados com o objectivo de captar a fala em
ambientes de ruído moderado, sem que o utilizador tenha que se preocupar com a colocação de um
microfone perto de si.
Dentro do conceito de aplicações hands-free e direccionado para a indústria automóvel, o
AKG Q100 é um agregado de microfones digital que permite reduzir activamente o ruído e o eco,
aumentando a directividade em ambientes específicos, como no interior de um carro.
Existem também aplicações de agregados de microfones na área de auxílio à audição, em
que se coloca um pequeno agregado pendurado no peito do utilizador, ligado a um auricular ou
mesmo um mini agregado embutido no auricular.
A Microsoft lançou em 2005 (www.microsoft.com/whdc/device/audio/MicArrays.mspx) um
relatório preliminar sobre as vantagens e versatilidades de agregados de microfones aplicados em
computadores. Direccionado para fabricantes de hardware (portáteis, monitores ou mesmo
fabricantes de agregados com interface USB), o relatório descreve um conjunto de normas para a
implementação de agregados em equipamento baseado na arquitectura da Microsoft Windows Vista.
As normas especificam a implementação a nível da geometria, do número de microfones e das
características do hardware.
5
Fig. 1.3 Diferentes exemplos de aplicação de agregados de microfones.
Na Fig. 1.3: (a) agregado de dois microfones omnidireccionais para ligar a um computador;
(b) auricular com um mini agregado de dois microfones direccionais; (c) e (d) agregado de 6
microfones para deficientes auditivos; (e) AKG Q100, agregado de 4 microfones incorporado no
retrovisor de um Mercedes; (f) e (g) dois agregados de 8 microfones para ligação a um computador.
1.3. Trabalho realizado e contributos
Uma vez que existem agregados com diferente número de microfones e diferentes
disposições dos mesmos, foi elaborado inicialmente um estado da arte que permitisse aferir o tipo
agregados de microfones apropriado para este trabalho. O estado de arte mostrou que a aplicação
com agregado de microfones, para aquisição de fala, ainda se encontra numa fase de
amadurecimento tecnológico e em contínua investigação. Não existindo por isso, uma avaliação
objectiva quanto ao tipo de agregado de microfones indicado para a tarefa de aquisição de fala em
sistemas de ASR. Da mesma forma, e por não existirem agregados de microfones de venda ao
publico que merecessem a nossa atenção, foi construído de raiz um agregado de microfones.
2
Dotando assim o L F de um equipamento para aquisição de fala, com capacidade de filtrar
espacialmente sinais acústicos, para localizar e seguir fontes acústicas como e.g. locutores em
movimento.
O agregado construído é baseado na última geração de agregados de microfones
desenvolvidos pelo NIST. Este agregado tem a versatilidade de poder ser alterado em termos de
número de microfones e disposição dos mesmos. Tem também a vantagem de ter uma interface
Ethernet com protocolos de comunicação UDP normalizado, o que possibilita uma interface flexível
entre o agregado e o módulo de IOM do mordomo virtual.
Concluída a sua construção, o agregado foi submetido a uma fase de testes para verificar a
integridade dos microfones, nomeadamente a sua resposta em frequência e verificar a variação de
sensibilidades entre microfones. A fase de testes revelou que era necessário ajustar individualmente
6
o ganho do pré-amplificador de cada microfone, de forma a homogeneizar as sensibilidades entre os
mesmos. Pelo facto de não existir qualquer tipo de material bibliográfico, que formalizasse um método
de calibração de agregados de microfones para aquisição de fala, foi necessário conceber um
método de calibração de raiz que foi submetido sob forma de artigo à ICASSP 2007.
Como o sinal de fala tem um espectro de frequência largo (cobrindo cerca de 8 oitavas), o
espectro do ruído pode aparecer sobreposto ao sinal de fala, tornando a filtragem na frequência por
vezes ineficaz. Mais do que uma selecção na frequência, pretende-se focar os sinais numa dada
direcção, descriminando-se espacialmente os sinais. Pretende-se que o agregado de microfones
capte os sinais que se propagam no espaço ao longo do tempo e processá-los de forma a acentuar o
sinal de uma dada direcção, i.e. funciona como um filtro espaço-temporal e emula uma antena
mecanicamente direccionada. A capacidade de um agregado de microfones descriminar
espacialmente os sinais é conhecido como beamforming e depende, entre outros factores, da
disposição e quantidade dos seus sensores.
Para a aplicação dos métodos de beamforming, foram desenvolvidos algoritmos em
Matlab/Octave para processar os sinais acústicos adquiridos pelo agregado. Os métodos de filtragem
espacial são aplicados neste trabalho para maximizar o sinal de fala (speech enhancement); i.e. para
atenuar o efeito dos sinais espúrios, no sinal de fala adquirido em campo distante. Primeiramente,
são aplicados métodos de filtragem espacial fixa, com o Delay-and-Sum Beamforming (DnSB) e o
Super Directive Beamforming (SDB). Seguidamente, são desenvolvidos e aplicados métodos de
filtragem espacial adaptativa, baseados no Generalized Sidelobe Canceller (GSC).
A aplicação dos vários métodos de filtragem espacial é avaliada segundo a capacidade de
atenuação dos sinais interferentes. Esta avaliação é feita comparado a relação sinal-ruído (SNR), em
várias condições acústicas e para diferentes tipos de sinais interferentes. Para avaliar o resultado da
filtragem espacial dos sinais de fala, que são posteriormente aplicados em sistemas ASR, é também
feita uma avaliação quantitativa das taxas de erros de palavras (WER). Do mesmo modo, são
também comparados os resultados dos métodos de aquisição de fala em campo próximo, usando um
microfone tipo head-set colocado no locutor, com os métodos de aquisição de fala em campo
distante, usando o agregado de microfones.
Para localização e seguimento de fontes acústicas (mais propriamente para localização e
seguimento do locutor), é implementado o método de Generalized Cross Correlation (GCC) com uma
função de ponderação para transformação de fase (GCC-PHAT).
1.4. Estrutura do trabalho
Esta tese está dividida em 8 capítulos, sendo que neste primeiro capítulo foi feito o
enquadramento do trabalho, os objectivos e motivações. Apresenta-se uma resenha do estado da
arte, descrevendo outros projectos relacionados com aplicações de agregados de microfones e
soluções de aquisição de fala abordado neste trabalho.
No segundo capítulo, descreve-se a implementação e funcionamento dos vários
componentes do agregado de microfones, abordando-se a calibração do agregado no terceiro
7
capítulo. São apresentadas simulações que motivaram a calibração e avaliação da robustez do
agregado de microfones. É também descrita a implementação do método de calibração proposto e
são apresentados principais resultados da calibração.
No quarto capítulo, é feita uma introdução ao processamento com agregados de microfones.
São introduzidos os conceitos fundamentais aplicados aos agregados, onde é apresentado o modelo
matemático bem como os pressupostos necessários à sua abordagem. É também feita uma
introdução das aplicações com agregados de microfones, abordadas neste trabalho.
O quinto capítulo, é dedicado aos métodos de filtragem espacial para speech enhancement.
Primeiro são descritos algoritmos de filtragem espacial fixa, seguidos dos algoritmos de filtragem
espacial adaptativa. Seguidamente, são apresentados os resultados experimentais da implementação
dos filtros espaciais em vários tipos de ambientes acústicos reais e simulados. No final do capítulo é
feita a análise dos resultados apresentados.
No sexto capítulo, são abordados dois algoritmos distintos para implementação de métodos
de localização e seguimento, utilizando agregados de microfones. São apresentados os resultados
experimentais da aplicação do algoritmo GCC-PHAT em ambientes reverberantes reais, seguida da
análise dos mesmos.
No sétimo capítulo, é feita uma avaliação da aplicação dos agregados de microfones em
sistemas de ASR. Primeiro, é feita uma breve caracterização do ASR aplicado em sistemas de
diálogo, seguida da avaliação dos resultados de reconhecimento levados a cabo em ambientes
reverberantes reais e com sinais interferentes com diferentes características. A avaliação do
desempenho do reconhecimento é feita comparando os resultados de WER, para os sinais de fala
adquiridos com o agregado de microfones e processados pelos filtros espaciais implementados.
Por último, no oitavo capítulo, são apresentadas as conclusões e discussão dos principais
resultados obtidos, e uma orientação do trabalho a realizar no futuro.
8
2. Descrição do Agregado de Microfones
Neste capítulo é apresentado o equipamento de captura da fala, o agregado de microfones,
fazendo-se a descrição da arquitectura e seu funcionamento, os módulos de hardware que o
compõem e alguns pormenores mais relevantes. Por último é descrita a montagem e as alterações
efectuadas no hardware implementado.
2.1. Arquitectura e funcionamento
O agregado de microfones construído para este trabalho, foi baseado na arquitectura do
“Mark III Microphone Array (vers.2)” [10]. Concluído nos finais de Setembro de 2005, esta é a terceira
e mais recente geração de agregados de microfones desenvolvidos pelo NIST.
A arquitectura do agregado é composta por oito placas electrónicas, as Microboards, com oito
microfones cada e uma placa electrónica central, a Motherboard. Na Microboard é feita a aquisição,
amplificação e conversão analógico-digital (AD) do sinal de áudio de cada microfone. A Motherboard
sincroniza todos os sinais de controlo das Microboards e serve de interface de comunicação com o
exterior.
Genericamente, pode resumir-se o funcionamento deste agregado da seguinte forma (Fig.
2.1): cada Microboard captura nas suas múltiplas entradas o sinal de audio, que é convertido para
digital e enviado, através de uma ligação série, para a Motherboard; A Motherboard recebe até um
máximo de 64 canais e formata-os em pacotes UDP sobre uma ligação Ethernet.
Placa de Aquisição e AD
Placa de Aquisição e AD
(Microboard)
(Microboard)
Ethernet
Placa de Controlo
e Comunicação
(Motherboard)
Fig. 2.1 Arquitectura do agregado de microfones.
Para além de ser um módulo de aquisição de sinal totalmente digital, este agregado tem a
versatilidade de ter um interface Ethernet que permite enviar os dados da captura e receber dados de
controlo de qualquer computador.
Uma vez ligado o interface Ethernet do agregado numa rede ou directamente a outro
computador, é possível enviar comandos de um computador para o agregado e/ou receber os dados
de áudio dos microfones, usando software específico para cada aplicação [11]. Este software
desenvolvido pelo NIST é escrito em linguagem C e funciona em sistemas operativos Linux.
Usando o programa “osciloscope”, é possível visualizar e ouvir em tempo real os sinais em
cada canal/microfone. Este software serviu para testar a integridade e sequência dos microfones e foi
9
também usado no processo de calibração dos microfones (ver capítulo 3), com o objectivo de verificar
as amplitudes dos sinais de teste. Na Fig. 2.2, mostra-se os sinais dos canais 1 a 16, como exemplo
do funcionamento do programa “osciloscope”.
Fig. 2.2 Visualização dos canais do agregado com o programa “osciloscope”.
Para a captura dos 64 sinais de áudio em simultâneo é usado o programa mk3_cap_22K ou
mk3_cap_44K, que capturam os sinais de áudio a 22,050kHz ou a 44,100kHz de frequência de
1
amostragem , respectivamente. Ambos os programas geram um ficheiro de áudio em formato RAW
com codificação Signed 24bit PCM Big-endian, com amostras sequenciais de cada canal/microfone.
2.2. Descrição do hardware
No intuito de reduzir o ruído das interferências electromagnéticas, as placas de circuito
impresso quer na Microboard quer na Motherboard são de quatro camadas, permitindo assim colocar
os planos de massa (GND) e de alimentação (VCC) perto do plano dos sinais, reduzindo-se assim as
interferências através de uma mecanismo de blindagem.
2.2.1. Microboard
Como já se afirmou, a função da Microboard é a de captar e digitalizar os sinais provenientes
dos microfones. Cada Microboard comporta oito microfones que estão fisicamente próximos dos
conversores AD, reduzindo-se assim as probabilidades de captação de sinais espúrios ou de ruído.
Os dados digitalizados são posteriormente enviados para a Motherboard, através de uma ligação
série.
1
Este agregado de microfones tem duas frequências de amostragem de funcionamento possíveis (22kHz e 44kHz), fixadas
pela arquitectura do hardware.
10
Fig. 2.3 Placa da Microboard.
A Microboard está dividida em quatro partes:

Alimentação e interface com a Motherboard

Andar de digitalização

Andar de pré-amplificação

Microfones
O circuito digital da Microboard é alimentado directamente pela interface com Motherboard,
para não existirem flutuações de tensão na lógica digital. Na versão original a alimentação dos
microfones é feita externamente por um conjunto de baterias. Desta forma, evita-se introduzir ruído
harmónico de 50Hz da rede eléctrica na polarização dos microfones.
Foram usados microfones do tipo “electreto” omnidireccionais, por estes apresentarem uma
2
resposta em frequência plana (Fig. 2.4) para as frequências da voz humana . Pelo facto da massa da
membrana ser pequena, a sua inércia é reduzida, imunizando os microfones às vibrações mecânicas.
A qualidade dos microfones foi verificada experimentalmente (ver Anexo A).
Fig. 2.4 Resposta em frequência dos microfones usados.
O andar de pré-amplificação (Fig. 2.5) é feito com dois Ampops (OPA2228). O primeiro
Ampop tem um ganho de 10 dado por R7 e R4 e o segundo com um ganho de 1,2 de R11 e R5. O
potenciómetro, POT1, serve para o ajuste do ganho deste andar.
2
Entre 100Hz e 8kHz, o limite superior está limitado pela frequência de amostragem do ASR.
11
Fig. 2.5 Andar de amplificação da Microboard.
O andar de digitalização (Fig. 2.6) é feito por um conversor AD PCM1802 de 24bits PCM. Por
ser um conversor estéreo, apenas um AD é usado para cada par de microfones, perfazendo um total
de quatro conversores AD por cada Microboard. As entradas VinL e VinR correspondem aos sinais de
saída de cada andar de amplificação (LADC1 da Fig. 2.5). Os bits de controlo LRCK, BCK e SCKI
representam a frequência de amostragem, bit clock e clock do sistema, respectivamente, são gerados
pela Motherboard. O sinal digitalizado resultante é enviado na saída DATA.
Fig. 2.6 Andar de digitalização.
O andar de interface com a Motherboard é feito por um conector de 16 pinos (Fig. 2.7), 4 para
os dados e 3 para bits de controlo dos conversores, respectivamente. Os restantes pinos são usados
para alimentação do circuito digital.
12
Fig. 2.7 Pinout da interface com a Motherboard.
2.2.2. Motherboard
A Motherboard controla as oito Microboards, recolhe os sinais de áudio dos 64 microfones
digitalizados e envia-os, via interface de Ethernet, para um computador remoto, podendo também
receber comandos via Ethernet para executar tarefas específicas.
Fig. 2.8 Placa da Motherboard.
A Motherboard está dividida em quatro partes:

Alimentação

FPGA

Interface para Microboards

Interface para Ethernet
A alimentação do circuito digital da Motherboard é feita por uma fonte de alimentação externa
de 6V. Foram usados três reguladores de tensão (REG104) para obter 5V para os osciladores de
tensão, 2,5V para a FPGA e 3,3V para IOs.
A FPGA (Xilinx Spartan II) controla todo o processo de captura e comunicação da
Motherboard por um programa em VHDL armazenado numa PROM. Como bancos de memória, são
usadas quatro memórias estáticas num total de 2Mbytes.
13
No topo da placa da Fig. 2.8, estão os 8 conectores para interface com as Microboards,
semelhantes aos descritos anteriormente para a Microboard.
A interface por Ethernet é implementada num circuito integrado LS80225 10/100 BASE-TX e
um H1089 como oscilador, com um conector RJ45. Para que o agregado tenha um endereço MAC
3
4
único, existe um interruptor MAC que possibilita escolher entre 256 endereços diferentes .
Na Fig. 2.9 mostra-se o funcionamento da placa da Motherboard.
64 sinais
digitalizados
Sinais de
controlo
para AD
Sinais de
controlo
RJ45
4 bits
H1089
4 bits
LS
80225
Controlador
4 bits TX
FPGA
18 bits
endereçamento
4x8bits dados
4 bits RX
Sinais de
controlo
Memória 4 x 512bytes
Fig. 2.9 Esquema do funcionamento da Motherboard
Os dados de captura dos 64 canais são enviados em pacotes UDP, cujo formato se
apresenta na Fig. 2.10.
PREAMBLE
MAC header
IP header
TYPE PACKET
UDP header
PACKET NUMBER
DATA
RESERVED
CRC32
DATA......................................................................................
Fig. 2.10 Pacote UDP de comunicação do agregado.
Todos os segmentos do pacote UDP são gerados pela FPGA. O porto de comunicação do
agregado é o 32767 e o tamanho do dos dados é 964 bytes, sendo estes valores fixados pelo
programa da FPGA.
O segmento de DATA da Fig. 2.10, está dividido em vários subsegmentos:

Type packet: com um tamanho de 1byte e com o valor de 86 decimal, que
corresponde ao código da FPGA para envio de dados.

Packet Number: com um tamanho 2bytes, varia entre 0 e 2048 e numera os pacotes
enviados de forma a ser possível ordenar os pacotes no destino.
3
Endereço físico da interface para Ethernet.
4
MAC: 10:00:00:00:03:xx, Apenas os bits menos significativos são alterados pelo interruptor MAC.
14

Reserved: com um tamanho de 1byte, este subsegmento não é usado.

Data: com um tamanho de 960bytes, que corresponde a: 64canais * 3bytes de
5
precisão * 5 amostras de dados.
Em cada segmento de Data são colocados 5 amostras dos 64 canais. Como a frequência de
6
amostragem Fs pode variar, o MA gera pacotes UDP a uma taxa de (964bytes+UDPOverhead )*Fs/5
bytes por segundo. As duas frequências de amostragem possíveis são de 22,05kHz ou 44,1kHz, o
que significa que o agregado pode gerar informação a uma taxa de cerca de 4,5MB/s (36Mbps) ou
9MB/s (72Mbps) respectivamente.
A Motherboard tem ainda 3 interfaces para sincronização externa, 1 MasterOut e 2
SlaveIn/Out. Desta forma, é possível ligar até quatro agregado em daisy chain.
2.3. Montagem e alterações do hardware
Todo o equipamento descrito anteriormente foi montado pelo Eng. António Nunes do grupo
de Sistemas de Processamento de Sinal (SIPS) do INESC-ID. A caixa dos microfones foi desenhada
e construída pelo meu co-orientador Professor Doutor António J. Serralheiro, que também elaborou e
orientou as alterações de hardware apresentadas nesta secção
Na montagem do hardware, o agregado de microfones foi fisicamente dividido em dois
módulos: o módulo dos microfones, M1, que consiste numa caixa em acrílico com 0,07x1,40x0,12m,
onde estão alojadas as Microboards e estão embutidos, no painel frontal, os 64 microfones
omnidireccionais; o módulo dedicado à comunicação, M2, com 0,16x0,16x0,1m onde está colocada a
Motherboard e a fonte de alimentação.
Fig. 2.11 Agregado de microfones suspenso no interior da câmara anecóica.
5
Conversor AD com 24bits de precisão.
6
Segmentos de overhead do protocolo UDP = PREAMBLE+MACheader+IPheader+UDPheader+ CRC32 = 8+18+20+8+4 =
58bytes
15
Foram feitas algumas alterações no hardware do agregado, de forma a melhorar alguns
aspectos do projecto original do NIST. No andar de amplificação da Microboard na Fig. 2.5, foi
alterado C8 de 10μF para 100μF para diminuir a frequência de corte inferior, que inicialmente se
situava em 1kHz, de forma a melhorar a resposta em frequência do agregado. Como consequência,
foi também necessário alterar as resistências dos andares do ganho dos Ampops, para corrigir os
ganhos dos pré-amplificadores dos microfones. Foi alterado R4 de 1kΩ para 4kΩ, de forma a
aumentar o ganho de 10 para 43, e alterado POT1 de 500Ω para 2kΩ (TSM4YJ 2K0), para aumentar
a amplitude de ajuste dos ganhos dos pré-amplificadores.
Na placa da Motherboard, optou-se por colocar uma memória Flash ROM (XCF02S) com um
adaptador PCB ao circuito original, para ser possível reprogramar a FPGA, uma vez que as memórias
PROM não são reprogramáveis.
No projecto inicial, as Microboards são alimentadas por baterias de forma a eliminar o ruído
das harmónicas de 50Hz. No entanto, neste caso foi executado uma fonte de alimentação com
recurso a uma fonte contínua (FL2/9) de 2VA, realizada sobre um regulador série (LM78L05) para
polarização dos microfones.
Para a alimentação da Motherboard foi usada uma fonte comutada de baixo ruído (Traco
Power TXL 025-05S) de 6V e 25W, para alimentação do circuito digital.
Ambas as fontes de alimentação foram colocadas no interior do módulo M2, onde também foi
colocada a alimentação de 230V para as fontes de alimentação, protegidas por um fusível de 315mA
de fusão lenta.
16
3. Calibração do Agregado de Microfones
No capítulo anterior descreveu-se a arquitectura do agregado de microfones e o seu
funcionamento. Neste capítulo é descrito o processo de calibração individual dos microfones do
agregado. Primeiramente, são apresentadas simulações do efeito das variações das características
dos microfones no comportamento global do agregado, que motivaram a calibração e avaliação da
robustez do mesmo. Seguidamente, são descritos os métodos experimentais implementados no
processo de calibração e avaliação da sua robustez. Finalmente, são apresentando os principais
resultados da calibração do agregado. No entanto, são apresentados no Anexo A, os resultados mais
detalhados do método de calibração proposto e a avaliação do comportamento do agregado de
microfones com sinais de fala
3.1. Influência das características dos microfones
A primeira captura feita com o agregado de microfones, revelou que existiam variações de
cerca de 6dB nas amplitudes dos sinais captados pelos microfones; o que motivou a calibração dos
ganhos de cada pré-amplificador. Antes de ajustar os ganhos dos pré-amplificadores, de cada
microfone, foram elaborados uma série de testes para avaliar o comportamento do agregado aos
fenómenos acústicos a que este pode estar sujeito. Os primeiros testes efectuados, indicam que
existe uma influência da reflexão do painel dos microfones nas suas sensibilidades. Desta forma,
para uma correcta calibração das sensibilidades dos microfones, é necessário ter em conta o factor
reflectivo do painel frontal.
Em [12] é referido que as variações das características dos microfones (microphone
mismatch) são responsáveis pela degradação da filtragem espacial. Por isso, foram feitas simulações
para averiguar qual o efeito da variação das características dos microfones, na directividade do
agregado.
Na Fig. 3.1, apresenta-se os diagramas de simulação da directividade do agregado de
microfones “apontado” para um ângulo de 90°, para 3 sinais a frequências diferentes. O vermelho
7
representa o efeito das variações das características dos 64 microfones e o azul a situação ideal .
Verifica-se que o efeito da variação das características dos microfones altera o diagrama da
directividade, aumentando consideravelmente as amplitudes dos lobos secundários. Como
consequência, este efeito degrada o desempenho da filtragem espacial. O aparecimento dos lobos
secundários é mais acentuado quando se diminui a frequência do sinal, comprometendo-se assim a
filtragem espacial para essas frequências.
Como se pretende obter lobos secundários com a menor amplitude possível, para maximizar
8
a directividade do agregado para um ângulo arbitrário (que neste caso é 90°), os diagramas de
7
Microfones com os ganhos homogéneos e sem efeitos reflectivos do painel frontal.
8
O problema da directividade do agregado, é abordado com mais pormenor no capítulo 4.
17
directividade da Fig. 3.1, justificam a necessidade de um método de calibração dos microfones do
agregado.
Fig. 3.1 Simulação dos diagramas de directividade do agregado de microfones.
Seguidamente,
serão
apresentados
os
métodos
implementados
para
averiguar
experimentalmente, qual o método mais eficaz de calibração dos microfones; de forma a reduzir a
influência da variações das características dos microfones, na directividade do agregado.
3.2. Métodos implementados
Pretende-se avaliar o comportamento do agregado de microfones face às suas
características estruturais, às alterações acústicas do meio e a sua influência na captura dos sinais,
com o objectivo de estabelecer um método de calibração que permita uniformizar as sensibilidades
dos 64 microfones.
3.2.1. Condições de teste
De forma a avaliar o comportamento e calibrar o agregado de microfones com precisão, são
necessárias condições ideais, tais como inexistência de ruídos ambientes e reverberações. Estas
condições garantem que apenas o sinal de teste, directo e gerado por uma fonte sonora, seja o único
sinal capturado pelos microfones do agregado. O local escolhido com essas características foi a
Câmara Anecóica do IST-CAPS (http://caps.ist.utl.pt).
Para evitar vibrações por contacto mecânico com outras superfícies o agregado foi suspenso
num dos extremos da câmara anecóica. No outro extremo da câmara, é colocado um altifalante, que
serve de fonte emissora de sinais de teste, numa posição central ao painel dos microfones do
agregado.
Para diminuir os erros associados às medições é necessário garantir que:

Sinal de teste como uma onda plana:
A uma distância suficientemente grande, a propagação esférica das ondas acústicas no espaço
pode ser aproximada a uma onda plana. Desta forma, se a fonte de sinal estiver suficientemente
18
afastada do agregado, o modelo de uma onda plana incidente no painel de microfones do
agregado é válido e permite que todos os microfones sejam excitados com a mesma pressão
acústica (SPL). O modelo de onda plana pode ser verificado experimentalmente, medindo as
diferenças de intensidade do sinal de teste no centro e nas extremidades do painel dos
microfones, com um sonómetro de precisão. Neste teste foi usado um Brüel & Kjær, type 2209
munido de um microfone de membrana de ouro.
Por limitações físicas da câmara anecóica, o altifalante foi colocado a 3,8m do centro do painel
dos microfones. A esta distância, é garantido uma boa aproximação do modelo de onda plana,
com uma variação máxima de 0,3dB entre o microfone do centro e os microfones nas
extremidades do painel.

Não saturação dos sinais dos microfones
Como se pretende concluir sobre as sensibilidades dos microfones, apenas se podem analisar os
sinais quando as amplitudes variam linearmente. No caso de saturação dos sinais dos
microfones, deixa de ser possível uma interpretação linear das amplitudes entre os sinais.
Comprometendo-se deste modo os resultados obtidos e conduzindo a calibrações incorrectas.
Usando o programa “osciloscope” descrito em [11], escolheu-se uma amplitude do sinal de teste,
de modo a que não existam saturações em nenhum dos 64 canais do agregado de microfones.
3.2.2. Cálculo dos ganhos dos microfones
Assumindo o modelo da onda plana incidente no painel dos microfones, todos os microfones
estão submetidos à mesma SPL (82dB). A calibração tem como objectivo ajustar os ganhos do préamplificador de cada microfone, de forma a obter-se uma uniformização nas amplitudes do sinal,
garantindo assim que os microfones têm todos a mesma sensibilidade.
Desta forma, para a avaliar a sensibilidade de cada um dos 64 microfones é calculado o
ganho individual correspondente, pela expressão:
Ganho(n)  20log10
ARMS (n)
1
N
N
A
n 1
RMS
(0.1)
( n)
onde ARMS(n) é a amplitude RMS do sinal do enésimo microfone e N o número total de microfones. O
Ganho é um valor relativo e mede o desvio, em dB, da amplitude do microfone n em relação à média
das amplitudes dos 64 microfones. Desta forma, um valor negativo do Ganho(n) significa que o
enésimo microfone está sub-sensível, sendo necessário aumentar o ganho do seu pré-amplificador e
vice versa.
Uma vez que o ajuste do pré-amplificador de cada microfone depende directamente da
variação do potenciómetro, POT1, (de acordo com a descrição do andar de amplificação da
Microboard em [10]) a amplitude dos ajustes está limitada à amplitude de variação do potenciómetro.
19
Por essa razão, foi escolhida a média das amplitudes RMS como amplitude de referência, por ser o
dado estatístico que diminui as amplitudes de ajuste.
3.3. Principais resultados da calibração
O método da calibração proposto, permitiu ajustar as sensibilidades da totalidade dos 64
microfones do agregado com uma variação máxima de 0,3dB e aproximadamente invariante na
frequência. Este valor máximo obtido corresponde porém, à aproximação do modelo de onda plana
do sinal de teste incidente no agregado.
Os resultados permitiram verificar experimentalmente que existe uma variação não desejada
dos ganhos dos microfones, devido ao efeito reflectivo do painel de microfones. Por este motivo, o
sinal de teste para calibração do agregado deve ser escolhido tendo em conta este fenómeno não
desejável. Os ensaios sobre o efeito reflectivo dos sinais de teste mostram que o ruído branco
Gaussiano é imune aos efeitos reflectivos e por isso adequado para a calibração dos microfones do
agregado.
Dado que o módulo onde estão inseridos os microfones possui um volume considerável,
foram conduzidos ensaios experimentais para aferir influência de possíveis fenómenos ressonantes
no comportamento dos microfones do agregado. Foi possível verificar que os fenómenos ressonantes
não afectam o comportamento dos microfones.
Foram também levados a cabo, ensaios com sinal de fala que permitiram concluir que as
componentes não-vozeadas dos sinais de fala não são influênciadas pelo efeito reflectivo do painel
dos microfones, ao contrario do que acontece com as componentes vozeadas dos sinais de fala. Os
mesmos ensaios permitiram também verificar que os microfones do agregado são sensíveis à
variação da posição da fonte de sinal, como era desejado.
No Anexo A, são apresentados com mais detalhe todos os resultados experimentais do
processo de calibração do agregado de microfones.
20
4. Introdução
ao
processamento
com
Agregados
de
Microfones
O sinal de fala adquirido em campo distante (far talk) é severamente degradado por sinais
espúrios, como o ruído ambiente, outros sinais de fala (cross talking) ou a reverberação, apenas para
mencionar alguns. Num contexto de sistemas de reconhecimento automático de fala (ASR), a
degradação deste sinal compromete seriamente a qualidade, ou até mesmo a concretização do seu
reconhecimento.
Ao contrário dos microfones colocados em campo próximo (close talk), a influência dos
factores externos é minimizada pela proximidade dos sensores à fonte do sinal de fala. No entanto à
medida que se afastam desta, a degradação de qualidade é evidente.
O processamento com agregados de microfones pretende conceber filtros espaciais que
permitam seleccionar direcções específicas de propagação dos sinais. O objectivo é adquirir sinais de
fala que se propagam numa determinada direcção enquanto se rejeitam os sinais vindos de outras
direcções. Deste modo, o agregado de microfones pode ser encarado como uma unidade de préprocessamento dos sinais de fala que se propagam em campo distante, para sistemas de ASR.
4.1. Conceitos fundamentais
Em processamento digital de sinal, classicamente são aplicadas técnicas de filtragem no
domínio do tempo. Amostrando sinais contínuos em diferentes instantes no tempo, é possível atenuar
ou amplificar certas componentes do sinal desejado, e.g. utilizando um filtro FIR passa-alto é possível
atenuar as componentes de baixa frequência do sinal.
O agregado de microfones é por definição um conjunto de sensores que permite amostrar o
sinal desejado em diferentes posições no espaço, permitindo assim explorar o sinal num domínio
espaço-temporal.
É possível estabelecer uma correspondência entre a amostragem no tempo e no espaço (Fig.
4.1). Considerando um sinal sinusoidal,
s(n) , que incide num agregado com microfones colocados
uniforme e linearmente espaçados (Uniform Linear Array) (ULA) e admitindo que a fonte de sinal
s(n) está suficientemente afastada do agregado, de forma a se modelar o sinal incidente no
agregado como uma onda plana. No caso de a sinusóide ter uma direcção de propagação
perpendicular ao plano do agregado, observa-se no mesmo instante que todos os microfones
recebem o mesmo sinal, com a mesma amplitude, i.e.
xn (n)  s(n) . Caso a direcção de propagação
se desvie ligeiramente da perpendicular (Fig. 4.1 (a)), os microfones recebem o mesmo sinal,
s ( n) ,
mas com um ligeiro atraso que se traduz num variação aproximadamente constante da amplitude
entre cada microfone (fraca resolução espacial). No caso de um desvio mais acentuado da direcção
21
de propagação (e.g.  45º da perpendicular (Fig. 4.1 (b)), no mesmo instante todos os microfone
recebem o mesmo sinal
s(n) com uma desfasagem  n , que representa o atraso de propagação
para cada microfone (aumento da resolução espacial). i.e.
xn (n)  s(n   n ) .
Como resultado, é possível verificar que a variação da posição da fonte altera o sinal na
saída do agregado. Tal como a filtragem no tempo, é possível desenhar filtros espaciais que
permitam amplificar ou atenuar sinais de direcções específicas. A este processo denomina-se
Filtragem Espacial que é também conhecido por Beamforming.
Fig. 4.1 Efeito da direcção de propagação de uma sinusóide incidente num agregado de microfones.
Quando o sinal de fala e os sinais de ruído ocupam a mesma gama de frequência, a filtragem
no domínio do tempo não é eficaz para separar o sinal desejado do ruído. Como o sinal de fala e o
ruído têm normalmente origem em pontos diferentes no espaço, a técnica de filtragem espacial
explora a dimensão espaço-temporal do problema de forma a separar fisicamente estes sinais, para
obter um sinal de fala com qualidade sem que o locutor tenha que falar directamente para um
microfone perto de si (close-talk).
A implementação da filtragem no tempo requer que os sinais sejam adquiridos numa
dimensão temporal. Similarmente, a filtragem espacial requer que os sinais sejam adquiridos numa
dimensão espacial. Usualmente, o processo de filtragem espacial combina linearmente os sinais de
cada microfone, amostrados no espaço e no tempo, para obter um sinal ao longo do tempo.
No exemplo da Fig. 4.1, foi assumido que o sinal incidente tem uma largura de banda estreita
e que a sua fonte está afastada do agregado (campo distante). Como consequência, o sinal incidente
é modelado como onda plana. No caso da aplicação de agregados de microfones para aquisição de
fala, é possível assumir o pressuposto de onda plana, na medida em que locutor está colocado
afastado do agregado de microfones. No entanto, o pressuposto de largura de banda estreita não é
válido na medida em que o sinal de fala tem uma largura de banda considerável (cerca de 8 oitavas
de frequência).
22
4.1.1. Propagação das ondas acústicas
Um pressuposto comum assumido em aplicações com agregados é o de aproximar o sinal
acústico a uma fonte pontual, i.e. o tamanho da fonte de emissão é suficientemente pequeno
comparado com a largura do agregado e a distância deste à fonte.
Como já também foi referido, é assumido que o sinal incidente no agregado é modelado
como uma onda plana. Embora a onda acústica se propague esfericamente, quando a fonte de
emissão está suficientemente afastada do agregado, é possível desprezar o efeito esférico da
propagação das ondas e modelá-lo com uma onda plana (Fig. 4.2). Desta forma para um ULA, todos
os microfones captam no mesmo instante um sinal com a mesma fase e amplitude, para uma onda
que incide perpendicularmente ao plano dos microfones do agregado. Em processamento com
agregados, é considerado que a fonte de emissão está em campo distante (far-field) se a distância é
r  2L2  , onde L representa a largura ou abertura do agregado e  o comprimento de onda do
sinal incidente.
Fig. 4.2 Campo próximo e campo distante.
Dada a complexidade inerente aos fenómenos acústicos, sempre que possível, são feitas
aproximações ou pressupostos para simplificar o modelo matemático da propagação dos sinais de
fala no meio envolvente. Embora a velocidade do som varie com a temperatura e humidade do ar, ou
até mesmo com a frequência, assume-se que o meio é não dispersivo e homogéneo, e que a
velocidade do som tem um valor constante c  340ms . O efeito de Doppler é desprezado, pelo que
a fonte de sinal acústico em movimento tem sempre uma velocidade muito inferior à do som.
4.1.2. Modelo do sinal do agregado
Considerando que se aplica um agregado de N microfones para a aquisição de um sinal
desejado
s  n  , que pode ser um sinal de fala (espectro largo) ou uma simples sinusóide (banda
estreita). Assume-se o modelo de campo distante e, por consequência, o sinal desejado é
contaminado com outros sinais não desejados, como ruído ambiente
v  n .
23
O modelo discreto do sinal para
atenuação
i microfone, xi  n  , consiste numa réplica com atraso  i e
ai do sinal s  n  , mais um sinal de ruído v  n  com características aleatórias e
incorrelacionadas.
 x1 (n)   a1s1 (n   1 )   v1 (n) 

 
 

 x2 (n)    a2 s2 (n   2 )    v2 (n) 
   
   


 
 

 xN ( n)   a N s N ( n   N )   v N ( n) 
(4.1)
x ( n )  s ( n   )  v ( n)
w1
w2
y(n)
+
w3
x 1(n)
1
x 2(n)
2
x 3(n)
3
...
...
...
wN
x N(n)
N
v(n)
ruído
s(n) sinal desejado
Fig. 4.3 Modelo do sinal para um agregado de N microfones.
Na forma mais geral, a saída do agregado é uma combinação ponderada dos sinais dos N
microfones,
N
y (n)   wi* xi (n)  w H x(n)
i 1
(4.2)
w   w1 , w2 , ... , wN 
T
sendo
wi o coeficiente de ponderação do sistema para cada i microfone.
Por conveniência, esta abordagem pode também ser feita no domínio da frequência. Neste
caso o sistema (4.1) é dado por,
X(k )  S(k )p( )  V(k ),
f
com, k  2
fs
24
(4.3)
onde
p   representa o vector de direcção (steering vector) do agregado que depende da sua
geometria e do ângulo, θ, de direcção do sinal
com
s  n  . k representa a frequência discreta do sinal,
f sendo a frequência do sinal e f s a frequência de amostragem.
De (4.1) e (4.3), o vector de direcção é dado por,
p( )   a1e jk1   , a2e jk 2   ,  , aN e jk N   
T
(4.4)
Assume-se que os microfones têm uma resposta isotrópica e constante em frequência, o que
significa que
ai é constante para todas as frequências e direcções e assume um valor unitário9.
4.1.3. Direcção da onda incidente (DoA)
No agregado, o sinal em cada microfone tem um atraso de propagação que depende da
distância percorrida entre microfones sucessivos. Para um agregado linear com uma distância
d entre microfones (ver Fig. 4.4), o atraso de propagação é dado por:
 i    (i  1)
fs
d cos 
c
(4.5)
Substituindo em (4.4), o vector de direcção pode ser reescrito da seguinte forma:
f
f
 jk s ( d cos )
 jk s ( d cos )( N ) 

p( )  1, e c
,  ,e c



Na verdade o vector de direcção
T
(4.6)
p é função da frequência e do ângulo de direcção, i.e.
p  k ,   , mas para simplificar a notação é suprimido k .
A direcção de propagação (Direction of Arrival) (DoA), de uma onda, é definida como o
ângulo do vector que aponta na direcção da propagação da onda. Quantificado por um ângulo, o
ângulo DoA ou simplesmente DoA, define a direcção de propagação do sinal incidente em relação ao
agregado.
Em campo próximo, dada a esfericidade da propagação da onda, existe um DoA para cada
microfone. No caso de o campo ser distante, o DoA é válido para todos os microfones.
9
Na verdade ai também depende da resposta em frequência dos Ampops do andar de pré-amplificação, da placa da
Microboard do agregado, que neste caso se considera constante e uniforme na frequência.
25
A convenção dos ângulos adoptada para o DoA é calculada segundo uma bissectriz paralela
ao plano dos microfones. O sentido do ângulo é convencionado no sentido do primeiro para o último
microfone (ver Fig. 4.4). Dado que o atraso
i
é um valor relativo, é necessário estabelecer um
microfone de referência. Para conservar a causalidade dos sinais, o microfone de referência depende
do sinal de
i .
Quando
i  0 é
escolhido o primeiro microfone como referência, permitindo que
todos os restantes sinais sejam desfasados, mantendo assim a causalidade do sistema. De forma
inversa, é escolhido o último microfone como referência quando
i  0 .
Considerando um espaço cartesiano tridimensional, onde os sensores estão colocados no
eixo
xx , o agregado apenas distingue a direcção com ângulo  no plano xy . Deste modo, o
agregado não distingue ângulos de elevação diferentes para sinais com mesmo

. Por este motivo,
um agregado linear apenas tem resolução em duas dimensões.
Visto que a função coseno é par, existe uma ambiguidade no cálculo dos atrasos de
propagação
i
para  . Isto significa que o agregado não distingue sinais provenientes de
direcções simétricas em relação ao eixo dos microfones. Limitando-se DoA ao intervalo
contra-domínio de
  0,  , o
 i é injectivo, sem perda de generalização, uma vez que se considera que todos os
sinais de interesse estão na frente do agregado.
Fig. 4.4 Modelo do sinal incidente no agregado.
4.1.4. Amostragem e aliasing espacial
Em geral, o agregado pode ser visto como um sensor que amostra espacialmente uma onda
que se propaga no espaço de uma determinada direcção.
26
De um modo semelhante ao processo da amostragem no tempo, o agregado faz uma
amostragem discreta no espaço e no tempo. Tal como no domínio do tempo, para que não existam
ambiguidades espaciais, alguns critérios têm de ser garantidos, nomeadamente o teorema de
Nyquist, para evitar o aliasing espacial.
Dado que os microfones são colocados linear e uniformemente espaçados, existe uma
correspondência directa entre o posicionamento dos sensores e a amostragem no espaço. Desta
forma, pode definir-se a frequência de amostragem espacial, como:
Us 
1
d
(4.7)
onde o período de amostragem é definido pela distância d entre sensores e
U s vem em ciclos por
metro.
De (4.6), conclui-se que os sinais observados em cada microfone diferem apenas na fase
dada por
e jk , i.e. observa-se em cada microfone a progressão da fase do sinal que varia com
frequência k e o ângulo DoA. Desta forma, pode calcular-se a frequência espacial do agregado
como:
U
fs
cos 
c
(4.8)
Definindo-se assim a frequência espacial normalizada, por:
u
f
U
 s d cos 
Us c
(4.9)
Rescrevendo (4.6) em termos de frequência espacial normalizada, temos:
p( )  p(u)  1, e jku ,  , e jkuN 
T
(4.10)
De acordo com o teorema de Nyquist, para garantir que não existe aliasing na frequência
espacial normalizada tem de se verificar
u  1 2 . Desta forma, é possível calcular a relação entre a
distância d e a frequência espacial desejada. Como o maior atraso da propagação acontece para
  0 ou    , temos:
fs

1
d cos    d  s
c
2
2
(4.11)
A eq. (4.11) define assim o espaçamento entre microfones em função da frequência do sinal
incidente, garantindo a condição de anti-aliasing espacial.
27
10
Uma vez que a abordagem neste trabalho é feita para sinais de espectro alargado , a
distância d é definida de acordo com a frequência máxima de resolução espacial pretendida, i.e.
d  min 2 sendo que min  c f max . Como os sinais resultantes da aplicação do agregado são
11
posteriormente aplicados em sistemas de ASR , a frequência de amostragem é escolhida de acordo
com as especificações deste. Desta forma, optou-se por colocar os microfones com d  2cm , o que
equivale a um frequência de amostragem de fs=17kHz. Consequentemente, o efeito de aliasing
espacial é verificado apenas para sinais com frequências superiores a fs/2=8,5kHz. O facto de a
frequência máxima de processamento dos sinais de fala estar limitada a 8kHz, significa que o aliasing
espacial não constitui um problema nestas condições.
4.1.5. Resolução espacial
Para avaliar o desempenho da filtragem espacial do agregado (beam response), é necessário
avaliar o comportamento do agregado em função de várias direcções possíveis, para um dado vector
de coeficientes w. Por outras palavras, pretende saber-se o comportamento do agregado em todas as
direcções do espaço (0 ≤ θ ≤ π) quando se “aponta” agregado numa direcção de DoA específica.
B    w H ( DoA )  p  
(4.12)
Usualmente a avaliação é feita calculando o ganho de (4.12), i.e. 20log10(B(θ)). Nas próximas
figuras, apresenta-se a análise da filtragem espacial do agregado, quando este é apontado na
direcção perpendicular ao eixo dos microfones (DoA=90°) (broadside). Neste caso, e assumindo
T
campo distante, os sinais de cada microfone estão em fase, o que significa que w=1/N [1, … ,1] . O
termo 1/N aparece aqui como normalizador das amplitudes dos sinais.
Na Fig. 4.5 (b) apresenta-se o resultado teórico da filtragem espacial, para um agregado com
N  20 e d   / 2 . Observa-se que existe um lobo principal com maior amplitude, na direcção do
ângulo DoA, e vários lobos secundários com menores amplitudes nas restantes direcções do
agregado. O lobo principal, com 0dB, determina a direcção para qual o agregado está “apontado”.
Para os lobos secundários, a diminuição das suas amplitudes determinam a capacidade do agregado
em atenuar os sinais com diferentes direcções de DoA. Por outras palavras, observa-se que o
agregado “deixa passar” os sinais com direcção DoA=90º e atenua os sinais que se afastam desta
mesma direcção.
10
Sinais de fala com espectro de frequências de 100Hz a 8kHz.
11
O ASR desenvolvido no L2F tem capacidade para funcionar com sinais de fala, para frequências de amostragem de fs=8kHz
ou fs=16kHz.
28
Dado que a directividade de um agregado depende do número de microfones N e do
espaçamento d entre os mesmos, seguidamente avalia-se a influência de N e d no desempenho
da filtragem espacial.
Define-se a abertura de um agregado
L , como a área finita onde os microfones captam o
sinal. No caso de um ULA, a abertura corresponde à distância entre o primeiro e o último microfone.
Quanto maior for a abertura do agregado, maior é a resolução espacial, i.e. maior capacidade em
distinguir espacialmente os sinais. Desta forma, para um dado número de microfones pretende obterse um agregado com a maior abertura possível, de forma a maximizar a resolução espacial,
mantendo a restrição anti-aliasing espacial ( d   / 2 ).
Na Fig. 4.5, mostra-se a influência da variação do espaçamento d entre microfones. Para
garantir a mesma resolução espacial em todos os exemplos, a abertura do agregado é mantida
constante, i.e. com L  Nd  10 , (para N  40, 20, 10 e 5, respectivamente).
Fig. 4.5 Influência da variação da distância d na directividade do agregado para aberturas constantes:
(a)(b) filtragem sem aliasing, (c)(d) filtragem com aliasing.
Na Fig. 4.5 (a) e (b) as directividades são idênticas, o que indica que diminuindo o
espaçamento dos microfones de d   / 2 apenas se obtém informação redundante, devido ao efeito
de sob-amostragem. No caso de sub-amostragem (c) e (d) o lobo principal, a 90°, é idêntico aos
anteriores mas observa-se a presença de lobos secundários com amplitude igual à do lobo principal.
A sub-amostragem resulta no efeito de aliasing e cria ambiguidades espaciais. Isto significa que o
29
agregado é incapaz de distinguir os sinais com direcção DoA assim como os sinais com a direcção
correspondente aos ângulos dos lobos secundários de amplitude 0dB.
Dos exemplos anteriores, conclui-se que a distância entre microfones que maximiza a
abertura
L , sem aliasing, é concretizada para d   / 2 .
A resolução espacial do agregado pode ser quantificada pela largura do lobo principal
(beamwidth) quando este atinge metade da energia (-3dB). De (4.12), para
B    1
valor do ângulo θ correspondente a -3dB. Descrito em [2], a largura do lobo principal
2 obtém-se o
 3dB para
N  30 é aproximado por:
3dB  0,886   Nd
(4.13)
Quando a frequência do sinal é igual a frequência de funcionamento do agregado, temos que
d   / 2 . Deste modo, a eq. (4.13) pode ser reescrita na forma 3dB  0,886  2 N , podendo
concluir-se que a largura do lobo principal varia inversamente com o número de microfones, N . Na
Fig. 4.6, ilustra-se a influência de número de microfones na resolução espacial, garantindo a condição
de anti-aliasing. Como se pode observar, o aumento do número de microfones diminui a largura dos
lobos, como consequência do aumento da abertura do agregado. Conforme mencionado, o aumento
da abertura contribui para aumento da resolução espacial do agregado, permitindo distinguir os sinais
no espaço com mais exactidão.
Fig. 4.6 Influência do número de microfones na resolução espacial do agregado.
30
Note-se ainda que o primeiro lobo secundário tem uma amplitude de ≈-13dB, em todos os
exemplos ilustrados, que se devem ao facto de a filtragem espacial de um agregado seguir uma
função sinc.
Até aqui, o problema da filtragem espacial foi abordado com o pressuposto de que os sinais
incidentes no agregado tinham uma largura de banda estreita (narrowband assumption). Foi também
mencionado que a distância entre microfones é definida de acordo com a frequência máxima de
funcionamento, para evitar ambiguidades espaciais. Como os sinais de fala têm uma largura de
banda elevada, na Fig. 4.7, ilustra-se o efeito da variação da frequência do sinal incidente na
directividade do agregado. Tal como o agregado utilizado neste trabalho, os resultados seguintes são
elaborados para um agregado com N=64 e d=0.02m.
Fig. 4.7 Influência da frequência do sinal incidente na directividade do agregado.
Dado que a abertura do agregado é dada por L  N   / 2 , em que
 representa o
comprimento de onda do sinal incidente, o resultado da Fig. 4.7 é, em parte, semelhante ao
comportamento ilustrado na Fig. 4.6. Como consequência, para um valor fixo da abertura
L, a
diminuição da frequência do sinal incidente resulta numa diminuição da resolução espacial do
agregado. Esta limitação traduz-se na diminuição da eficácia do agregado na seperação
espacialmente dos sinais, à medida que diminui a frequência do sinal incidente.
31
4.2. Aplicação do agregado de microfones: filtragem espacial e
localização
O objectivo do processamento com agregados de sensores é extrair informação de sinais no
espaço, combinando os sinais dos sensores de forma a se obter a informação de interesse. A
informação de interesse de um sinal pode ser o seu conteúdo (comunicação) ou o local de origem
que produz ou reflecte um sinal (radares e sonares). Em qualquer uma das aplicações, os sinais
recolhidos pelos sensores do agregado têm de ser processados de forma a extrair informação útil.
4.2.1. Filtragem espacial – Beamforming
Uma vez adquiridos os sinais individuais de cada microfone do agregado, pretende-se
combiná-los de forma a atenuar os sinais de interferência (ou ruído) e preservar o sinal de interesse.
A forma como se combinam os sinais constitui tema central do algoritmo de filtragem espacial
(beamforming). Mais especificamente, o algoritmo de filtragem espacial centra-se no cálculo óptimo
dos coeficientes
wi de cada microfone, de maneira a adquirir os sinais que se propagam numa
direcção específica (DoA) e rejeitando os sinais vindos de outras direcções.
A generalidade dos conceitos de filtragem espacial apresentados anteriormente está limitada
ao processamento de sinais de largura de banda estreita. Em aplicações como radares ou
comunicações, este pressuposto é válido, no entanto em aplicações de aquisição de fala, como os
sinais incidentes são de espectro largo, este pressuposto não é válido.
A extensão aos métodos de filtragem espacial com sinais de fala pode ser feita decompondo
o sinal incidente em vários intervalos com sub-bandas de frequência. A cada sub-banda é aplicado
um filtro espacial independente, o que equivale a aplicar um número de filtros espaciais igual ao
número de intervalos de frequência.
Do modelo matemático do agregado no domínio o tempo na eq. (4.2), aplicando a
transformada de Fourier, obtemos o equivalente no domínio da frequência,
N
Y (k )  Wi* (k ) X i (k )  W H X
(4.14)
i 0
Desta forma, os sinais de cada microfone são analisados na frequência, aplicando um modelo
de filtragem espacial para cada intervalo da mesma. Na filtragem espacial em frequência são
calculados os coeficientes
Wi  k  para cada i microfone e frequência k , que podem ser
interpretados como os coeficientes no domínio da frequência de um filtro FIR. Como resultado, a
aplicação do algoritmo de filtragem espacial é implementada na prática como um filtro FIR, aplicado a
múltiplos sinais de entradas (sinais de cada microfone do agregado), para gerar um único sinal
resultante. Como o algoritmo é independente do número de intervalos de frequência, é possível
escolher um número arbitrário de intervalos aumentando ou diminuindo a precisão no domínio da
frequência.
32
Existem vários critérios e métodos de abordagem aos filtros espaciais mas, de uma forma
geral, podem classificar-se em métodos independentes dos sinais (data independent) e métodos
dependentes dos sinais (data dependent). O método independente dos sinais, consiste numa
abordagem que apenas depende das restrições espaciais e não da natureza dos sinais incidentes no
agregado; os métodos dependentes dos sinais incidentes no agregado, em condições específicas,
optimizam o método de filtragem espacial.
O algoritmo Delay-and-Sum é um exemplo de um método independente dos sinais. Este
método apenas depende da direcção do sinal desejado (restrição espacial) para se obter um
resultado da filtragem espacial. Já na aplicação de algoritmos de filtragem adaptativa, como e.g. o
Generalized Sidelobe Canceller (GSC), que implementa um processo de cancelamento dos sinais
espúrios que dependem da natureza dos sinais dos sensores. Ambos os algoritmos aqui
mencionados, são descritos com mais detalhe no capítulo 5.
4.2.2. Estimação do DoA para localização e seguimento
Localização e seguimento de fontes de sinal são outras das aplicações em processamento
com agregados de sensores, especificamente na estimação do atraso
 i entre sensores, cuja relação
matemática permite estimar directamente o DoA. Dependendo das restrições geométricas do
agregado, também é possível estimar a localização da fonte de sinal no espaço.
De uma forma geral, os métodos de localização podem ser classificados em três categorias:
métodos baseados na energia do sinal resultante do filtro espacial, métodos de correlação cruzada e
técnicas de estimação de espectros de alta resolução.
No capítulo 6 serão abordadas com mais detalhe as duas primeira técnicas. A terceira técnica
será apenas comentada nesta secção, meramente a título de exemplo de outras abordagens para
localização utilizando agregados de sensores.
O primeiro método é baseado na maximização da energia do sinal, resultante da aplicação de
filtros espaciais. Inicialmente o agregado faz um varrimento no espaço de forma a “apontar” para
todas as direcções possíveis. Como consequência, a energia do sinal resultante do filtro espacial
exibirá um máximo na direcção da fonte de sinal.
Os métodos de correlação cruzada normalmente implicam a correlação de espectros dos
sinais observados, para se estimar a desfasagem entre dois sinais de sensores separados
fisicamente. No caso de agregados lineares, a estimação de várias desfasagens aplicada a vários
pares de sensores com a combinação das suas posições, permite que seja possível obter uma
localização 2D da fonte de sinal.
Por último, os métodos de estimação de espectros de alta resolução, baseados em técnicas
espaço-espectrais dos sinais de todos os sensores, determinam a posição da fonte do sinal como o
sub-espaço ortogonal ao espaço dos sinais espúrios. Esta técnica é usualmente aplicada em sinais
de largura de banda estreita, pelo que a sua aplicação é computacionalmente penalizadora em
processamento de sinais de fala.
33
5. Filtragem espacial para speech enhancement
Os métodos de filtragem espacial permitem separar fisicamente os sinais acústicos que são
captados pelos microfones do agregado, amplificando o sinal desejado e atenuando os sinais não
desejados. Como o sinal de fala adquirido em campo distante é severamente degradado por sinais
espúrios, estes métodos permitem teoricamente reduzir ruído de um sinal de fala de um locutor
colocado afastado do agregado. O sinal de fala processado pelo agregado é geralmente menos
reverberante, tendo ambas as componentes de ruído difuso e de ruído direccional atenuadas; quando
comparado com o resultado da aplicação de um único microfone na captação do sinal de fala, nas
mesmas condições.
Dadas as particularidades dos sinais de fala e dos agregados de microfones, o processo de
eliminação de ruído acústico num sinal de fala, passível de ser aplicado a sistemas de ASR, é ainda
um desafio que está em contínua investigação. Por este motivo, existem diferentes processos e
abordagens à problemática deste tema, com diferentes resultados, limitações e aplicações. De uma
forma global, podem resumir-se os vários métodos de aplicação dos agregados de microfones para
redução de ruído acústico (microphone array processing for speech enhancement) em três grupos:
filtragem espacial fixa [13-18] (fixed beamforming), filtragem espacial adaptativa [13-15] (adaptive
beamforming) e técnicas de pós-filtragem [16-20] (post filtering techniques).
Neste capítulo, são enunciadas algumas das propostas mais relevantes das técnicas de
filtragem espacial para a redução de ruído de um sinal de fala processado por agregados de
microfones. Na primeira e segunda secção, são, respectivamente apresentadas técnicas de filtragem
fixa e adaptativa, com detalhes da implementação dos algoritmos em questão. Na terceira secção são
aplicadas algumas das técnicas anteriormente mencionadas, onde simulações são conduzidas e
resultados com dados reais elaborados. Isto permite validar as várias técnicas em condições reais.
Finalmente, são apresentados e comentados os resultados que permitem comparar as várias
técnicas abordadas.
5.1. Filtragem Espacial Fixa
Das técnicas de filtragem espacial (Beamforming), a técnica de filtragem espacial fixa (Fixed
Beamforming) aparece como a técnica mais convencional. Esta estratégia optimiza a filtragem
espacial para uma dada direcção fixa e não acompanha dinamicamente a direcção do sinal incidente
no agregado. Desta forma, a resposta direccional do agregado está fixa para um valor particular do
ângulo DoA. No caso do sinal desejado se deslocar no espaço, a capacidade de atenuação do ruído
diminui à medida que o sinal se afasta da direcção espacial fixada.
Da mesma forma que as restrições espaciais são fixadas a priori, também os dados
estatísticos dos sinais são considerados estacionários e definidos a priori, não existindo qualquer
adaptação a possíveis alterações dos sinais ou do meio acústico. Por este motivo, os métodos que
34
se apresentam de seguida, são denominados “fixos” e como consequência, não se adaptam à
mutabilidade dos sinais incidentes.
Existe vários tipos de algoritmos e variantes dos mesmos, que aplicam a abordagem de Fixed
Beamforming. Destas abordagens destacam-se: Dealy-and-Sum Beamformer (DnSB) [21], Filter-andSum Beamformer [21] e o Super Directive Beamformer (SDB) [22-24].
5.1.1. Delay-and-Sum Beamformer (DnSB)
A aplicação do Delay-and-Sum Beamformer (DnSB) [21], no domínio do tempo, é
apresentada na eq. (5.1). Este algoritmo consiste em alinhar todos os sinais de cada microfone do
agregado, para compensar a diferença de percurso que cada sinal tem de percorrer, até chegar ao
respectivo microfone.
N
y(n)   i xi (n   i )
(5.1)
i 1
Sendo
xi (n) o sinal do microfone i e  i o atraso correspondente à diferença de percurso do
mesmo microfone, os atrasos
i
são valores relativos a um microfone de referência. Como tal,
dependem da geometria do agregado. Normalmente
sinal
i
é igual a 1 N para que as amplitudes do
y(n) sejam normalizadas pela quantidade de microfones do agregado, i.e. uma ponderação
média de cada sinal captado pelo agregado. No entanto é possível estabelecer critérios de
ponderação para cada microfone de forma a compensar a variação de ganho de acordo com o
modelo de propagação específico (e.g. modelos de propagação campo próximo) ou para compensar
algumas descalibrações pontuais dos microfones.
x1 (n)
1
1
x2 (n)
2
y(n)
2
x N ( n)
N
N
Fig. 5.1 Esquema de implementação do Delay-and-Sum Beamformer.
35
A simplicidade do DnSB, torna este algoritmo de fácil e prática implementação na maior parte
de aplicações com agregados de microfones. Embora esta abordagem resulte numa filtragem
espacial dependente da frequência do sinal desejado que, como se pode ver pela Fig. 5.2, para
baixas frequências, a directividade do agregado é praticamente nula, o que resulta num fraca
atenuação de ruídos direccionais para essas frequências.
O atraso de propagação
 i de cada microfone está relacionado com
(4.5), que é conhecido a priori. No entanto o cálculo do atraso
i
o ângulo DoA pela eq.
também pode ser estimado, como
será abordado no capítulo 6.
Fig. 5.2 Filtragem Espacial do DnSB para um agregado de 64 microfones com 2cm de espaçamento.
A razão pela qual o agregado não tem resolução nas baixas frequências, está directamente
relacionada com a abertura do mesmo (descrito no capítulo 4). Desta forma, para que o agregado
tenha resolução espacial e.g. a 300Hz, (em condições semelhantes às verificadas nas frequências
mais elevadas), o agregado teria de ter umas dezenas de metros. Esta não seria uma solução
praticável na maior parte dos casos. Mesmo com as estas limitações, para este agregado de 64
microfones, com o Delay-and-Sum Beamforming é possível obter resoluções espaciais satisfatórias
para as médias-altas frequências (> 1000Hz).
5.1.2. Filter-and-Sum Beamformer
Com o objectivo de diminuir a dependência da frequência na resolução espacial do Sum-andDelay Beamformer, entre outros métodos, é proposto o Filter-and-Sum Beamformer [21, 25]. No
domínio do tempo, a implementação deste método é semelhante ao Delay-and-Sum Beamforming,
com a diferença de que o sinal de cada microfone é previamente filtrado em sub-bandas de
frequências mais estreitas.
36
M
M L 1
i 1
i 1 l 0
y(n)   hi (n)  xi (n   i )   hi (l ) xi (n  l   i )
Onde  representa a convolução e
(5.2)
hi (n) o filtro associado ao microfone i de ordem L .
Embora não seja prática a implementação deste método no domínio do tempo, por ser
computacionalmente ineficiente, a sua abordagem no domínio da frequência é mais eficaz.
Considerando o vector dos sinais de cada microfone X(n, k )  [ X 1 (n, k ),..., X M ( n, k )] , no instante
T
n e no intervalo de frequência k , e W(k ) o vector de ponderação do agregado para o mesmo
intervalo de frequência k , então a saída Y (n, k ) do Filter-and-Sum é dada por:
M
Y (n, k )  Wi (k ) X i (n, k )  W(k ) H X(n, k )
(5.3)
i 1
A parametrização de W para uma filtragem espacial invariante na frequência, requer um
agregado com geometria de espaçamento harmónica (não linear) dos microfones [25, 26]. No
entanto, para garantir uma resolução constante para frequências e.g. < 500Hz, é necessário um
agregado com algumas dezenas de metros, o que é impraticável na maioria das aplicações
pretendidas.
X( k )
W(k )
X 1 (k )
W1 (k )
X 2 (k )
Y (k )
W2 (k )
X N (k )
WN (k )
Fig. 5.3 Filter-and-Sum Beamformer no domínio da frequência, para um intervalo de frequência
k.
37
5.1.3. Super Directive Beamformer (SDB)
O Super Directive Beamformer [22, 24] é um caso particular do Filter-and-Sum Beamformer,
aplicado com o objectivo de maximizar a directividade do agregado na direcção do sinal desejado e
minimizar o ruído ambiente ou sinais de direcções diferentes do sinal desejado. Nesta abordagem, o
ruído ambiente é aproximado a um fonte de ruído difuso, assumido como uma boa estimação do
ruído ambiente. A parametrização de W apresentada na eq. (5.4) é feita no domínio da frequência e
de acordo com os critérios de Minimum Variance Distortionless Response (MVDR).
Γ 1 (k )p
W (k )  H 1
p Γ (k )p
(5.4)
Onde Γ( k ) define a matriz de correlação do ruído difuso no intervalo de frequência k entre
cada microfone e
p é o vector de direcção do sinal desejado (descrito no capítulo 4).
Comparativamente com o Delay-and-Sum Beamformer (ver Fig. 5.3) é possível obter maiores
directividades, mesmo nas baixas frequências, como se pode ver pela Fig. 5.4.
Fig. 5.4 Filtragem Espacial do Super Directive Beamformer para um agregado de 64 microfones com 2cm
de espaçamento.
Esta abordagem tem no entanto uma limitação: a amplificação do ruído dos microfones,
especialmente nas baixas frequências. Para compensar esse efeito, na eq. (5.4) é introduzido um
factor de limitação de ganho do ruído incorrelacionado
.
No entanto, este factor de redução do
ruído dos microfones é conseguido à custa da diminuição da directividade do agregado.
W(k ) 
38
(Γ(k )   I ) 1 p
p H (Γ(k )   I ) 1 p
(5.5)
5.2. Filtragem Espacial Adaptativa
Na secção anterior, foram apresentadas técnicas de filtragem espacial onde são conhecidas
a priori as características do ruído e que as mesmas são estacionárias no decorrer do processo de
filtragem espacial. Na maioria das situações reais, este pressuposto não é válido. Dessa forma é
necessário obter ou estimar as características do ruído ao longo do tempo.
Nesta secção, serão abordadas algumas das técnicas mais conhecidas de filtragem espacial
adaptativa (Adaptive Beamformer). A ideia geral deste método, consiste em obter duas direcções
distintas de acção da filtragem espacial e processá-los de forma conveniente. A primeira direcção
corresponde à do sinal desejado (beam steering) e a segunda direcção à dos sinais de ruído (null
steering). O processo como se combinam estes dois sinais, difere de algoritmo para algoritmo, mas
consiste tipicamente em aplicar filtros adaptativos (e.g. LMS, NLMS, RLS, etc.), com o objectivo de
eliminar o ruído correlacionado existente na direcção do sinal desejado. Tal como na filtragem fixa, a
direcção do sinal desejado (DoA) é conhecida a priori e assume-se que é constante ao longo do
processo de filtragem, embora se possa encadear estes métodos com técnicas de estimação de DoA,
que serão abordadas no próximo capítulo, como já foi mencionado.
Em geral, a filtragem espacial adaptativa permite obter melhores resultados de supressão de
ruído, comparativamente aos métodos de filtragem espacial fixa. Pelo facto de estes métodos se
adaptarem às condições de ruído existente, o desempenho da filtragem espacial adaptativa é
particularmente superior, em situações de ruído direccional cuja direcção seja conhecida a priori. No
entanto estes métodos são sensíveis a erros na direcção DoA, que tipicamente resultam em
situações de cancelamento do próprio sinal desejado.
Nesta secção são destacados dois métodos de filtragem espacial adaptativa, como o
Generalized Sidelobe Canceller [13] e o Robust Adaptive Beamforming [14, 15].
5.2.1. Generalized Sidelobe Canceller (GSC)
A maioria das actuais técnicas de filtragem adaptativa é baseada nos métodos de
Generalized Sidelobe Canceller (GSC) [13], com modificações que permitem aumentar a robustez,
normalmente à custa de maior complexidade computacional.
Conhecido também como Griffiths-Jim Beamformer, o método de GSC pode ser interpretado
como a sobreposição de dois métodos com funções distintas de processamento: filtragem fixa e
filtragem adaptativa. Na filtragem fixa são aplicadas técnicas de filtragem espacial fixa, Fixed
Beamforming (FBF), já anteriormente mencionadas. Este processamento tem objectivo obter uma
referência do sinal desejado (beam steering). Na filtragem adaptativa, existem também duas partes
distintas: uma matriz de bloqueio e um cancelador de múltiplas entradas. A matriz de bloqueio,
blockig matrix (BM), permite obter múltiplas referências dos sinais de ruído (null steering). No
cancelador de múltiplas entradas (MC) são aplicados filtros adaptativos (e.g. LMS ou NLMS). A sua
função é cancelar os sinais correlacionados entre o filtro espacial fixo (FBF) e a matriz de bloqueio
(BM).
39
Fig. 5.5 Estrutura do GSC: Fixed Beamformer (FBF), Blocking Matrix (BM) e Multiple Canceller (MC).
A modularidade do GSC permite que se possa integrar qualquer tipo de filtro espacial no FBF.
Aplicando um Delay-and-Sum Beamformer, a saída d ( n) do FBF é dada por:
d (n)  pT x(n)
onde
(5.6)
p representa o vector de direcção do sinal desejado e no caso de os sinais em todos microfone
estarem alinhados (DoA = 90º), o vector
p é dado por:
p  1 N ,1 N , ,1 N 
T
(5.7)
sendo N o número total de microfones do agregado.
Neste caso, o resultado da saída de cada sinal
zi (n) na BM do GSC é obtido subtraindo o
sinal de cada microfone em pares adjacentes. Na forma matricial BM é dado por
z (n)  Bx(n)
40
1
0

B  

0
0
B:
1 0 0  0 
1 1 0  0 
    

 0 1 1 0 
 0 0 1 1
(5.8)
A saída
e(n) do processamento do MC é dada por:
e(n)  aT z(n)
onde
(5.9)
a representa o vector de coeficientes do filtro adaptativo do MC. Desta forma, o sinal de saída
do GSC é dado por:
y(n)  d (n)  e(n)  pT x(n)  aT z(n)
(5.10)
Neste caso, temos o sinal d ( n) na saída do FBF que representa o sinal desejado (mais
componentes residuais do ruído interferentes) e
z (n) na saída da BM que representa os sinais de
ruído interferentes. Os coeficientes a do filtro que minimizam a energia do sinal d ( n) , podem ser
obtidos aplicando um filtro adaptativo LMS. Deste modo,
a pode ser dado por:
an1  an   y(n)z(n)
onde

(5.11)
representa o factor de adaptação do filtro LMS.
Uma vez que o filtro LMS estima o ruído
e(n) a partir dos sinais z (n) , da eq.(5.10) conclui-
se que apenas é possível reduzir o ruído correlacionado entre d ( n) e
presença de ruído na BM incorrelacionado com o sinal
z (n) . Isto significa que a
d (n) do FBF, não melhora o desempenho
global do GSC. Do mesmo modo, na eventualidade de existir sinal desejado presente na BM, existirá
cancelamento do próprio sinal desejado, resultando numa degradação do GSC face ao Delay-andSum Beamformer. Esta fuga de sinal desejado para a BM, conhecido por signal leakage, deve-se a
erros associados ao valor de DoA ao qual este método é particularmente sensível e a outros factores,
que serão abordados na secção seguinte.
5.2.2. Robust Adaptive Beamformer
O efeito de cancelamento do sinal desejado, no método de GSC deve-se fundamentalmente
a erros associados ao ângulo DoA. Por o DoA nem sempre coincidir com a direcção real do locutor,
resulta num alinhamento incorrecto da fase dos sinais; ou por as diferenças de fase entre os sinais
xi (n) nem sempre poderem ser discretizadas, resulta que o sinal desejado aparece na saída da BM
(signal leakage). Como consequência, o bloqueio do sinal desejado pela BM não é total e resulta
quase sempre num cancelamento do sinal desejado à saída do FBF. Os erros associados ao DoA
são inevitáveis, na medida em que os modelos de propagação dos sinais acústicos assumidos nem
sempre reflectem os fenómenos não-estacionários do meio acústico real. A variação das
características dos microfones e erros associados à posição dos mesmos, contribuem também para
os erros associados ao DoA. Adicionalmente, a reverberação do sinal desejado é outro factor que
41
mais contribui para o cancelamento do sinal desejado, uma vez que o sinal interferente passa a ser
espacialmente correlacionado com o sinal desejado vindo de outras direcções.
A variação de ganho entre microfones e a variação de amplitude do sinal, devido a variação
da distância que os sinais têm de percorrer até chegar aos microfones, resulta em que a simples
subtracção dos sinais dos microfones, feita na BM, não elimina por completo o sinal desejado. As
respostas impulsivas de cada microfone (que não são tidas em conta no modelo do agregado)
alteram a correlação dos sinais, e consequentemente diminuem a capacidade de supressão de ruído
correlacionado.
Todas estas situações, que tipicamente aparecem conjugadas degradam severamente o
desempenho do GSC e novas soluções são necessárias.
Para minimizar o cancelamento do sinal desejado, foram propostas várias técnicas para
diminuir o efeito de signal leakage na BM [27-33] e para limitar o crescimento dos coeficientes dos
filtros adaptativos do MC [33-36].
Baseado no GSC, o método de Robust Adaptive Beamformer [14, 15] permite melhorar a
robustez da BM e do MC, embora este aumento de robustez aumente a complexidade computacional,
face ao GSC. Este método permite não só melhor a capacidade do BM em bloquear o sinal desejado
e deixar passar os sinais de ruído, como permite que no geral o método seja mais robusto a erros
associados ao ângulo DoA.
Fig. 5.6 Estrutura CCAF-NCAF do Robust Adaptive Beamformer.
Uma solução eficaz para reduzir o efeito do signal leakage na BM, passa por colocar filtros
adaptativos com restrições nos coeficientes (CCAF) (Coefficient Constrained Adaptive Filters). Os
CCAF’s funcionam como canceladores adaptativos de ruído. Nesta estrutura, o sinal de entrada do
42
filtro é d ( n) , da saída do FBF. À saída do CCAF é então subtraído o sinal de cada microfone
Como resultado, no sinal
xi (n) .
z (n) , à saída do BM, as componentes correlacionadas com d (n) são
canceladas pelos CCAF’s. Por outras palavras, as componentes do sinal desejado d ( n) que aparece
no microfone
i (sinal xi (n) ), são activamente canceladas pelo CCAF. A implementação dos CCAF’s
pode ser feita por um filtro LMS normalizado (NLMS), de acordo com a eq. (5.12).
zi (n)
d(n)
d(n)T d(n)
(5.12)
 Φi , para hi ( n  1)  i

hi (n  1)  Ψ i , para hi ( n  1)   i

hi (n  1), c.c.

(5.13)
hi (n  1)  hi (n)  
Sendo
Φi e Ψi os vectores com os limites superiores e inferiores, respectivamente, dos
coeficientes do filtro
hi (n) , com dimensões correspondentes à ordem do filtro. O vector d(n)
representa o sinal na saída do FBF, também com dimensão correspondente à ordem do filtro. A
constante

representa o factor de adaptação do CCAF.
Todos os coeficientes do CCAF são restringidos, pelo facto da minimização do sinal desejado
variar significativamente com o valor de DoA, permitindo assim ajustar os coeficientes dos CCAF’s a
partir de um erro arbitrário de DoA.
Combinando os CCAF da BM com filtros adaptativos com restrição da norma dos
coeficientes (NCAF) (Norm Constrained Adaptive Filters) no MC, é possível cancelar as componentes
correlacionadas de d ( n) presentes em
z (n) . Uma vez que z (n) não contém componentes do sinal
desejado, os NCAF’s apenas cancelam o ruído correlacionado do sinal
d (n) na saída do FBF. A
restrição da norma dos coeficientes do NCAF, evita o cancelamento do sinal desejado quando os
CCAF’s não conseguem eliminar por completo o sinal desejado em
x(n) , i.e. quando a BM deixa
passar algumas componentes do sinal desejado. Na prática, o cancelamento total do sinal desejado
pela BM é na realidade quase impossível, uma vez que na maioria dos ambientes reais existem
reverberações do sinal desejado e do ruído. Dessa forma, é também necessário colocar restrições
aos coeficientes dos filtros no MC, para evitar o cancelamento do sinal desejado. A implementação do
NCAF pode também ser feita recorrendo a filtros NLMS, de acordo com a eq (5.14).
wi (n  1)  w i (n)  
y ( n)
z i ( n)
z i (n)T z i (n)

 K  wi (n  1), para >K
w i (n  1)  
wi (n  1), c.c.


(5.14)
(5.15)
43
onde   wi (n  1) wi (n  1) e
T
K representa um limiar arbitrário. Neste caso, w i (n) representa
o vector de coeficientes para cada filtro NCAF, com dimensão igual à ordem do filtro. O vector
representa o sinal na saída de cada CCAF, com a mesma dimensão de
z i ( n)
w i (n) . A constante 
representa o factor de adaptação do NCAF.
Idealmente, a BM e o MC devem funcionar alternadamente, dado que ambos executam
tarefas complementares. No caso da BM, o sinal desejado é o sinal de fala, enquanto que no MC, o
sinal desejado é o sinal de ruído. Desta forma, os CCAF’s devem adaptar os seus coeficientes
quando existe apenas sinal de fala (sinal desejado), enquanto que os NCAF’s devem adaptar apenas
os seus coeficientes quando não existe sinal de fala (apenas sinal de ruído). Assim, a robustez deste
método depende do desempenho de algoritmos para detecção de fala, pois uma incorrecta
adaptação dos filtros CCAF-NCAF conduz a um cancelamento quase total do sinal desejado.
5.3. Resultados experimentais
Nas secções anteriores, foram enunciadas técnicas que permitem melhorar a qualidade de
um sinal de fala processado por agregados de microfones. Resumidamente, as técnicas anteriores
permitem captar o sinal de fala de um locutor em campo distante (far field) e diminuir as componentes
de ruído ou sinais interferentes, em ambientes moderadamente ruidosos.
Para avaliar os métodos de filtragem espacial implementados, são comparados os resultados
da relação de sinal-ruído (SNR), dos sinais acústicos resultantes do processo de filtragem espacial.
Em condições de ensaio idênticas, a comparação dos resultados de SNR, permite avaliar a
capacidade de supressão dos sinais espúrio, de cada método de filtragem espacial abordado.
É de salientar, que estes resultados têm também como objectivo validar a viabilidade e
capacidade das técnicas de filtragem espacial, aplicadas com um o agregado linear e uniforme (ULA)
de 64 microfones com espaçamento de 2cm.
5.3.1. Filtragem Espacial Fixa
Nos próximos ensaios, são comparados os resultados relativos ao desempenho do Delayand-Sum Beamformer (DnSB) e do Super Directive Beamformer (SDB). Como o algoritmo de Filterand-Sum Beamformer é idealmente aplicado em agregados com espaçamento harmónicos [25, 26],
não são elaborados resultados com este método de filtragem espacial.
Os primeiros resultados experimentais foram elaborados com o agregado colocado na
câmara anecóica, por esta apresentar uma acústica sem ecos e sem ruídos ambientes. Dada a
ausência de ruído no interior da câmara anecóica, este ensaio permite averiguar qual o ruído gerado
pelos microfones do agregado e obter um resultado padrão para comparação com os ensaios em
ambientes reais.
44
2
O ensaio em ambientes reais foi efectuado na sala nº226 do L F/INESC-ID (ver Anexo B).
Esta sala apresenta uma acústica reverberante, com ruído ambiente provocado por ventoinhas de
computadores e máquinas de ar-condicionado.
Ensaio em câmara anecóica
Neste ensaio o locutor é colocado o mais afastado do agregado possível, para modelar o
sinal acústico como uma onda plana incidente no agregado. O locutor está colocado no interior da
câmara anecóica a 3,8m de distância com uma direcção de 90º, em relação ao eixo dos microfones
(de acordo com a Fig. 4.4). O pressuposto de onda plana incidente no agregado é validado com um
sonómetro de alta precisão, medindo a intensidade dum sinal de teste ao logo do plano dos
microfones do agregado.
Para que seja possível comparar os resultados entre o modelo clássico de aquisição de fala
em campo próximo com o modelo em campo distante, o sinal de fala é simultaneamente adquirido
pelo agregado de microfones e por um head-set colocado no locutor.
Dada a ausência total de sinais espúrios no interior do local de ensaio, é esperado que o sinal
de fala, resultante da aplicação dos algoritmos de filtragem espacial, seja semelhante ao sinal de fala
do head-set. Da aplicação do algoritmo Super Directive Beamformer (SDB), é esperado ainda
determinar experimentalmente a constante

(da eq.(5.5)) que minimiza o efeito do ruído dos
microfones no sinal de fala processado pelo agregado.
Fig. 5.7 Resultado do algoritmo Delay and Sum Beamforming (DnSB).
45
Na Fig. 5.7 e Fig. 5.8 apresentam-se as formas de onda e espectros do sinal de fala
adquiridos pelo agregado e processados pelo algoritmo de DnSB e de SDB, respectivamente.
Na Tab. 5.1 apresenta-se na segunda coluna a relação entre o sinal-mais-ruído e o ruído
12
13
(SNR ); na terceira coluna apresenta-se a variação de SRN relativa ao modelo close talk. Os
resultados de SNR são obtidos directamente dos sinais de fala apresentados nas Fig. 5.7 e Fig. 5.8.
Fig. 5.8 Resultados do algoritmo Super Directive Beamforming (SDB).
12
Assume-se que o ruído é estacionário e nesta caso o SNR=10log10(σ2sinal+ruído/ σ2ruído). Como o SNR de um sinal de fala varia
com o número de silêncios ou tamanho do sinal, apenas faz sentido a avaliação com SNRs para a mesma locução (utterance).
13
Pretende-se verificar a variação do SNR usando como referência o sinal de fala captado com um head-set (campo próximo).
46
O sinal do microfone #32
14
do agregado, na Fig. 5.7, mostra o efeito do ruído dos microfones
no sinal de fala adquirido pelo agregado. Dada a ausência total de sinais espúrios no interior do local
de ensaio, deduz-se que este ruído tem origem no próprio agregado. A origem do ruído pode ser
devido à qualidade dos microfones de electreto, ao ruído residual proveniente dos sistemas
electrónicos que compõem o agregado. Como consequência, usando apenas um microfone em
campo distante (mic. #32 do agregado), observa-se que existe degradação do resultado de SNR em
cerca de metade, quando comparado com o microfone colocado em campo próximo (mic. head-set).
No entanto, com a aplicação do DnSB obtém-se uma melhoria de SNR, quando comparado com
apenas o microfone #32.
Comparando o resultado do sinal adquirido pelo head-set e a aplicação do DnSB, verifica-se
que foi possível eliminar grande parte do ruído dos microfones sem distorção do sinal de fala (Fig.
5.7). Dado que a intensidade acústica varia inversamente com o quadrado da distância e, com o
locutor colocado a 3,8m do agregado, é esperada uma atenuação de pelo menos de 10dB entre o
modelo em campo próximo e em campo distante. Na Tab. 5.1, a variação da atenuação 50dB para
40dB no SNR do head-set para o DnSB, está de acordo com a atenuação prevista da propagação
dos sinais acústicos em campo livre.
Na Fig. 5.8, é apresentado o processamento do mesmo sinal de áudio mas desta vez
aplicando algoritmo de SDB, com diferentes valores de
.
Dos resultados de SDB, na Fig. 5.8, verifica-se que para
 0
degradado pelo ruído introduzido pelos microfones. Diminuindo
,
monótona do ruído dos microfones introduzidos no sinal de fala. Para
o sinal de fala é severamente
verifica-se uma diminuição
  10dB ,
o algoritmo de
SDB produz um sinal de fala com níveis de ruído dos microfones que se consideram aceitáveis. No
entanto, comparando com o resultado de DnSB, verifica-se que existe uma degradação de 9dB. Isto
significa que o ganho teórico de directividade do SDB face ao DnSB não compensa o ruído dos
microfones introduzido.
Tab. 5.1 Variação do SNR com o algoritmo de filtragem espacial.
Sinal
SNR
Variação do SNR relativa ao
head-set
head-set
Microfone #32
DnSB
SDB, μ =0
SDB, μ =-60dB
SDB, μ =-40dB
SDB, μ =-20dB
SDB, μ =-10dB
50dB
27dB
40dB
10dB
18dB
22dB
29dB
31dB
- 46%
- 20%
- 80%
- 64%
- 56%
- 42%
- 38%
14
Como referência de um microfone isolado em campo distante escolheu-se o microfone no centro do agregado. Uma vez que
os microfones do agregado foram previamente calibrados, assume-se que todos os microfones do agregado têm valores
idênticos de SNR.
47
Comparando os resultados de SDB (para
  10dB )
com DnSB, verifica-se que existe
uma perda de 9dB da qualidade do sinal para apenas um ganho de ≈5dB na directividade do
agregado. Em termos relativos ao sinal do head-set, esta variação atinge o dobro da atenuação
quando se aplica o DnSB e SDB (para μ =-10dB), o que levanta algumas dúvidas sobre o
desempenho do SDB aplicado neste agregado de microfones.
Ensaio em ambientes reverberantes reais
Pretende-se com este ensaio avaliar o desempenho (em SNR) dos filtros espaciais com dois
tipos de sinal. Os dois sinais que se pretende separar espacialmente são, um sinal de fala e um sinal
de ruído branco, respectivamente, ambos com origem em pontos diferentes do espaço.
Como sinal de fala, usou-se fala natural com o locutor colocado a 2,4m de distância do
agregado e com uma direcção de DoA=90º. Como fonte de ruído utilizou-se um altifalante colocado a
uma distância de 2,6m do centro do agregado com uma direcção DoA=0° deste, ao qual se aplica um
sinal de ruído branco Gaussiano gerado num computador.
São avaliados os resultados da aplicação dos dois algoritmos, na separação espacial do sinal
de fala e de um sinal de ruído branco. Foram processados os sinais do agregado pelo algoritmo
DnSB e SDB (com
  10dB )
respectivamente, “apontando”
15
o agregado individualmente na
direcção de cada uma das fontes de sinal, i.e. para DoA=90° e 0°.
Destes resultados, é esperada uma variação de SNR com ambos os algoritmos de filtragem
espacial, quando se altera a direcção do agregado. Uma vez que a direcção DoA=0º corresponde à
da fonte de ruído, é esperada uma degradação do sinal de fala para esta direcção, quando
comparada com a direcção de DoA=90°.
As variações dos valores de SNR em condições reais dependem das condições acústicas da
sala de ensaio, mais concretamente do tipo de ruído presente na sala. Como já foi referido
anteriormente, no caso de existir ruído de frequências inferiores a 500Hz é esperada uma
degradação considerável dos resultados, uma vez que a filtragem espacial não é eficaz na separação
espacial para frequências inferiores a 500Hz.
Dado que o locutor está a 2,4m do agregado, é esperada uma atenuação de pelo menos 8dB
no SNR para o sinal processado pelo agregado, quando comparado com o resultado do head-set.
15
Entenda-se “apontar” com direccionar por software (electronic steer), mantendo o agregado fisicamente estático.
48
Tab. 5.2 Variação do SNR com o ângulo DoA.
Sinal
head-set
Microfone #32
◦
DnSB
DoA = 90
◦
DoA = 0
◦
SDB
DoA = 90
◦
DoA = 0
SNR
37dB
9dB
11dB
6dB
13dB
12dB
Variação do SNR relativa ao
head-set
-76%
-70%
-84%
-65%
-68%
De acordo com o esperado, os resultados da Tab. 5.2 mostram que na aplicação do DnSB e
SDB existe um aumento do SNR quando se “aponta” o agregado para o sinal de fala (DoA=90º) e o
inverso quando se “aponta” para o sinal de ruído (DoA = 0º). Comparando a forma de onda da Fig.
5.9, para DnSB com DoA=0º e 90º, respectivamente, observa-se que para DoA=0º, o sinal apresenta
uma maior amplitude do ruído em relação ao resultado para DoA=90º, como esperado. Para o caso
de SDB, essa variação é menos evidente, por se observar um corte nas baixas frequências, o que
diminui o nível de ruído quando DoA = 0º.
Dos resultados da Tab. 5.2, observa-se ainda que os sinais processados pelos filtros
espaciais obtêm níveis de SNR na generalidade reduzidos, quando comparados com o sinal
adquirido com o head-set. Este resultado devem ao facto de a sala de ensaio apresentar grande
reverberação e existirem múltiplas fontes de ruído, para além do ruído de teste em DoA=0º.
Por inspecção do espectro dos sinais na Fig. 5.8 e Fig. 5.9 processados pelo agregado,
verifica-se a presença elevada de ruído abaixo da frequência de 500Hz, proveniente de sistemas de
extracção de ar exteriores à sala de ensaio (ver Anexo B). A presença deste tipo ruído resulta numa
degradação dos resultados de SNR em ambos algoritmos. No caso do SDB, o ligeiro aumento de
directividade nas baixas frequências contribui para uma diminuição da presença de ruído de baixa
frequência e, como consequência, uma melhoria do SNR face ao DnSB. Ao contrário, dada a fraca
resolução do DnSB nas baixas frequências, a presença do mesmo tipo de ruído tem um efeito
penalizador acrescido no desempenho deste método, resultando numa diminuição do SNR.
49
Fig. 5.9 Resultados da filtragem espacial em ambientes reais.
Outro factor relevante que condiciona o resultado é a presença de ecos. As superfícies lisas
das mesas de trabalho, dos móveis em toda sala e as próprias paredes, contribuem para as
reverberações na sala. A presença de ecos degrada a separação espacial dos sinais, uma vez que
coloca o sinal de fala e de ruído no mesmo ponto do espaço (aumento da correlação espacial dos
sinais), tornando a separação espacial ineficaz.
50
5.3.2. Filtragem Espacial Adaptativa
Tipicamente, o aumento do custo computacional dos algoritmos de filtragem espacial é, no
melhor dos casos, proporcional ao número de microfones. Porque se pretende implementar num
futuro próximo algoritmos de filtragem espacial em tempo real, a linha de investigação e aplicação
nesta tese pondera o custo computacional dos algoritmos. Dado que o agregado em questão tem 64
microfones, qualquer aumento da complexidade computacional do algoritmo é crítico. Desse ponto de
vista, apenas o GSC é apresentado como solução de filtragem adaptativa para este agregado.
Primeiramente, são conduzidos ensaios em ambiente anecóico simulado, que servem para
validar os métodos de filtragem espacial. De seguida, são obtidos os resultados com o áudio do
agregado em ambientes reais (moderadamente ruidosos e reverberantes) para avaliar o desempenho
dos métodos de filtragem espacial implementados.
Ensaio em câmara anecóica simulada
16
As simulações são conduzidas em Octave , com fala masculina adquirida num computador,
com 6 segundos de duração amostrada a 22050 amostras por segundo. O ruído branco é simulado
por software com um gerador de sinais aleatórios.
A simulação da câmara anecóica pretende simular uma acústica sem reverberações e sem
sinais espúrios (além dos sinais interferentes simulados). Nestas condições ideais, assume-se
também que os microfones do agregado são todos iguais e têm um comportamento linear na
frequência. Desta forma, é esperado que a BM do GSC (Fig. 5.5) cancele totalmente o sinal
desejado.
São conduzidas duas simulações para verificar o desempenho do GSC no cancelamento de
dois tipos de sinais interferentes, ambos com uma direcção em DoA=45º: um sinal de ruído branco
(estacionário) e um sinal de fala de um segundo locutor (não-estacionário). Em ambas as simulações,
existe um primeiro locutor que está colocado em DoA=90º e que representa o sinal de fala desejado.
Como se está perante uma simulação em ambientes acústicos ideais, nada é dito sobre as
distâncias da fonte de sinal ao agregado, apenas se assume que a onda incidente no agregado é
idealmente plana.
Como módulo de filtragem espacial fixa (FBF), foi aplicado o Delay-and-Sum Beamformer por
ser o algoritmo de filtragem espacial com menor custo computacional. No entanto, dada a
modularidade do GSC, é possível integrar qualquer filtro espacial como unidade de processamento
do FBF.
Na unidade de MC do GSC são aplicados filtros LMS em cada canal. Todos os filtros LMS
são de ordem L=64, com um coeficiente de adaptação
16
  0, 01 .
Dado o número de dados
Solução freeware do Matlab que infelizmente não está optimizada para multi-processamento.
51
envolvidos, como unidade de processamento, foi usado um computador com 4 processadores e 8G
de memória RAM. Nestas condições, o tempo de processamento dos 6 segundos de áudio é de ≈ 27
segundos, i.e. 4,5 x tempo real.
Na Tab. 5.3 são apresentados os valores de SNR dos sinais resultantes das várias etapas de
processamento do algoritmo GSC.
Tab. 5.3 Simulação do GSC para dois sinais interferentes: variação do SNR.
Sinal
SNR
Ruído branco
head-set
Microfone #32
FBF
GSC
2º Locutor
30,7dB
-5,6dB
7,6dB
12,7dB
4,6dB
11,2dB
22,5dB
Numa primeira análise dos resultados da Tab. 5.3 torna-se evidente que a aplicação do
algoritmo GSC melhora os resultados de cancelamento dos sinais interferentes, quando comparados
com os resultados da aplicação da filtragem espacial fixa (FBF). Avaliando o desempenho individual
do FBF e do GSC, verifica-se que existem diferenças quanto ao tipo de sinal interferente. Dado que o
ruído branco tem um espectro plano e que o sinal de fala tem predominância nas baixas frequências,
do ponto de vista de correlação espacial, o sinal interferente do 2º locutor tem menos componentes
espacialmente incorrelacionadas que o ruído branco. Uma vez que o FBF apenas permite eliminar
componentes espacialmente incorrelacionadas, devido à variação da directividade com a frequência,
observa-se um melhor desempenho no cancelamento do ruído branco (com um ganho de 13dB em
relação ao microfone #32), quando comparado com o cancelamento do sinal de fala do 2º locutor
(com um ganho de 7dB também em relação ao microfone #32).
De forma inversa, e porque o MC do GSC é implementado com filtros LMS (Fig. 5.5), o MC
apenas elimina as componentes correlacionadas entre os sinais de BM e o sinal de FBF. Observa-se
o GSC tem melhor desempenho a cancelar o sinal do 2º locutor (com um ganho de 11dB em relação
ao microfone #32) do que o sinal de ruído branco (com um ganho de 5dB em relação ao microfone
#32), mesmo que o ruído branco seja um sinal mais estacionário que o sinal de voz do 2º locutor.
No entanto, o resultado global do GSC mostra que se obtém um ganho de 18dB (em relação
ao sinal do microfone #32 do agregado) de atenuação, para ambos os sinais interferentes.
Em suma, considerando que o sinal desejado é “contaminado” por sinais espúrios com
componentes espaciais incorrelacionadas e correlacionadas, os resultados mostram que o FBF
minimiza as componentes espacialmente incorrelacionadas dos sinais de ruído e o MC do GSC
minimiza as componentes espacialmente correlacionadas do ruído. Ao contrário das estruturas de
filtragem espacial fixa, como o DnSB, que apenas minimiza as componentes espacialmente
incorrelacionadas do ruído, a estrutura do GSC permite teoricamente eliminar ambas as componentes
incorrelacionadas e correlacionadas dos sinais de ruído. O que significa que o GSC obtém um ganho
substancial na eliminação de sinais espúrios quando aplicados aos sinais de fala que, dadas as
52
componentes de baixas frequências típicas dos mesmos, aparecem como sinais com elevada
correlação espacial.
Ensaio em ambientes reverberantes reais
Neste ensaio, os sinais de fala são obtidos directamente do agregado de microfones colocado
2
na sala de demonstrações do L F/INESC-ID (ver Anexo B). Esta sala apresenta ruído moderado com
características estacionárias, proveniente das ventoinhas dos computadores, de máquinas de ar
condicionado e alguns ruídos não-estacionários (e.g. batimento de portas, passos no exterior da sala,
etc.)
O locutor está colocado 2m na frente do agregado (DoA=90º) e é gravado um segmento de
fala com duração de 20 segundos. Para além do ruído ambiente existente na sala, é colocada uma
fonte de ruído branco artificial a 2m e com uma direcção de DoA = 45º.
Neste ensaio, é usado o método de GSC para filtragem espacial aplicado no ensaio anterior.
No entanto, são feitas algumas alterações para permitir que o GSC apresente alguma robustez em
ambientes reais. Os resultados com dados reais são também conduzidos em Octave.
No ensaio em câmara anecóica simulada, não é assumida qualquer influência dos microfones
ou da propagação dos sinais acústicos no ar, i.e. no modelo matemático da simulação não é tido em
conta a função de transferência dos microfones ou do meio de propagação. Deste modo, neste
ensaio é esperada uma diminuição global na atenuação dos sinais interferentes, face aos resultados
anteriormente simulados.
Tal como referido anteriormente, na introdução ao Roubust Adaptive Beamformer, devido ao
efeito de signal leakage na BM, o GSC pode cancelar o sinal desejado, normalmente devido ao efeito
da reverberação do sinal desejado e erros associados à direcção do sinal desejado. A solução
encontrada para evitar o cancelamento do sinal desejado foi a de colocar um detector de fala (Voice
Activation Detector) (VAD). Deste modo, os coeficientes dos filtros adaptativos do MC apenas são
actualizados quando não existe sinal de fala (sinal desejado) na saída do FBF. Como resultado,
teoricamente o MC apenas cancela os sinais correlacionados entre o FBF e BM nas zonas de ruído,
embora a filtragem do MC nunca seja interrompida.
Neste ensaio, os filtros LMS do MC são de ordem L=64, com um coeficiente de adaptação
  0, 001 . Com estes parâmetros, a duração de processamento de 20 segundos de áudio adquirido
do agregado é de 87segundos (4,5 x tempo real), num computador de 8 processadores com 16G de
memória RAM.
Na Tab. 5.4 apresentam-se os valores de SNR dos sinais reais resultantes das várias etapas
de processamento do algoritmo GSC. Ao contrário do ensaio anterior, os sinais são adquiridos
directamente do agregado, o que significa que não se tem acesso aos sinais desejados e sinais
interferentes, separadamente. Assumindo que os sinais interferentes são estacionários (como é o
53
caso do sinal de ruído branco colocado a DoA = 45º), o SNR
17
pode ser calculado de acordo com a
fórmula clássica do rácio das energias dos sinais. Neste caso, a energia do ruído é obtida nos
segmentos de “não-fala”
18
e a energia do sinal desejado mais ruído é obtida nos segmentos de fala
dos mesmos.
Tab. 5.4 Aplicação do GSC em ambientes reais: variação do SNR.
Sinal
Microfone #32
FBF
GSC
Sem VAD
Com VAD
SNR
3,9dB
12,2dB
6,4dB
14,3dB
A aplicação do FBF obtém um ganho de 8dB em relação ao microfone #32 do agregado, que
de acordo com o ensaio anterior, corresponde ao cancelamento do ruído espacialmente
incorrelacionado.
A aplicação do GSC resulta num cancelamento do ruído espacialmente correlacionado. Dada
a acústica reverberante da sala de ensaio, o ruído espacialmente correlacionado inclui o sinal
desejado reflectivo nas várias direcções. Como consequência, o GSC sem o detector de fala (VAD)
resulta num cancelamento do próprio sinal desejado, o que se traduz numa atenuação de 6dB do
sinal do FBF. A introdução do VAD no GSC permite que o efeito de cancelamento do sinal desejado
19
seja minimizado , cancelando assim o ruído espacialmente correlacionado apenas nos segmentos
de “não-fala” do sinal do FBF. Como resultado, com a aplicação do GSC com VAD verifica-se um
ganho de 2dB em relação ao FBF.
5.4. Análise dos resultados
Como já se referiu na secção 5.1.1, uma das limitações do filtro espacial DnSB é a sua fraca
resolução espacial (directividade) para sinais com frequências inferiores a 500Hz. Dado que 80% da
energia do sinal de fala se encontra no intervalo frequências entre 100 e 500Hz [37], a perda de
directividade do agregado para as baixas frequências não é desejável.
Como veremos, o aumento do custo computacional do SDB face ao DnSB não justifica a
aplicação do filtro espacial SDB, na medida em que ao pequeno aumento de directividade não é
compensado o aumento do ganho do ruído incorrelacionado dos microfones.
Na Fig. 5.10 é apresentado em (a) a evolução do factor de directividade teórico (DI) ao longo
da frequência e em (b) a correspondente variação da atenuação do ruído incorrelacionado (WNG)
17
18
Assumindo ruído estacionário: SNR  10log 10
 (
2
sinal  ruido
  ruido )  ruido
2
2

Entenda-se por segmentos de “não-fala” como os segmentos do sinal onde apenas existe sinal interferente.
19
Notar que o VAD não interrompe o processo de filtragem adaptativa do MC, apenas controla o processo de adaptação dos
coeficientes dos filtros adaptativos LMS no MC.
54
para os métodos de DnSB e SDB. Na Fig. 5.11 é apresentado o mesmo resultado mas desta vez
apenas para o SDB para diferentes constantes

(eq.(5.5)). Como se pode observar pelas duas
figuras, verifica-se que a directividade dos filtros espaciais diminui monotonamente com a frequência
dos sinais. Do ponto de vista espacial, a diminuição da frequência do sinal resulta num aumento da
correlação espacial dos sinais, i.e. à medida que a frequência dos sinais diminuem, diminui
igualmente a capacidade do filtro espacial em distinguir espacialmente os sinais (directividade)
mesmo que estes tenham origem em pontos distintos do espaço. Por este motivo, quando se
aumenta a correlação espacial, diminui-se a directividade do agregado e vice versa.
Da Fig. 5.10 (a) observa-se que o SDB tem uma directividade superior ao DnSB. No entanto,
da Fig. 5.10 (b) confirma-se que o SDB amplifica severamente o ruído incorrelacionado, tornando
este algoritmo inadequado para aplicações de aquisição de fala. Para compensar este efeito da
amplificação do ruído incorrelacionado no SDB, é introduzida a constante
,
(ver eq. (5.4) ), que
funciona como factor de redução do ruído dos microfones. No entanto, esta de redução do ruído
implica uma diminuição da directividade do filtro espacial (Fig. 5.11).
Fig. 5.10 (a) Factor de directividade (DI) e (b) Atenuação do ruído incorrelacionado (WNG) para DnSB e
SDB.
Os ensaios experimentais com o SDB na câmara anecóica permitiram determinar
experimentalmente a constante
.
Para o valor
  10dB ,
considera-se que se obtém um nível
aceitável de ruído dos microfones (ruído incorrelacionado). No entanto, o desempenho do SDB é
inferior ao DnSB e, uma vez que se verifica experimentalmente uma atenuação do ruído dos
microfones inferior em 9dB, para apenas se obter um aumento inferior a 5dB na directividade
relativamente ao DnSB (ver DI para o SDB com
  10dB
na Fig. 5.11(a) versus DI para o DnSB
na Fig. 5.10 (a)).
55
Fig. 5.11 Efeito da variação de μ em DI e WNG
A aplicação do GSC mostrou ser uma solução elegante para colmatar a ineficiência dos filtros
espaciais fixos, na atenuação dos sinais espacialmente correlacionados. A estrutura de filtros
adaptativos do MC no GSC permite o cancelamento dos sinais espacialmente correlacionados. A
estrutura do GSC não é mais do que a integração de um filtro espacial (neste caso um DnSB) com
um conjunto de filtros adaptativos (Fig. 5.5). Em consequência, se dividirmos o sinal de ruído em
componentes espaciais incorrelacionadas e correlacionadas, o FBF permite cancelar a componente
espacialmente incorrelacionada do ruído e o MC a respectiva componente espacialmente
correlacionada.
As simulações dos GSC com sinais de fala, mostram que é possível atingir o limite teórico de
atenuação com um filtro espacial [24, 38],
10log10 ( N ) (sendo N o número total de microfones do
agregado). No entanto a aplicação deste algoritmo em ambientes reais (reverberantes), evidenciou
algumas das suas limitações: os erros associados à direcção DoA e a variação discreta dos atrasos
de propagação levam a que a BM não bloqueie totalmente o sinal desejado. A presença de sinal
desejado na saída da BM (signal leakage) resulta num cancelamento do próprio sinal desejado. A
reverberação do sinal desejado é também um dos factores que mais contribui para o mau
desempenho de qualquer filtro espacial. O sinal desejado sendo reflectido em várias direcções
correlaciona-se espacialmente com o ruído, na medida em que o sinal desejado aparece em várias
direcções do espaço, além da direcção DoA desejada.
A solução encontrada para minimizar estes efeitos, foi a de colocar um detector de fala
(VAD). O VAD funciona como uma função booleana que permite que os coeficientes do LMS apenas
sejam actualizados em períodos de “não-fala”, restringindo-se assim os filtros adaptativos do MC à
minimização dos sinais espúrios. Como seria de esperar, o GSC em ambientes reais apresenta um
desempenho inferior comparado com as simulações, no entanto os resultados experimentais
mostram ser possível atenuar as fontes de ruído em mais de 10dB (em situações de ruído
aproximadamente estacionário).
Como o FBF apenas elimina o ruído espacialmente incorrelacionado verifica-se, pela Fig.
5.12, que o FBF apresenta um limite de atenuação do ruído devido às restrições geométricas
impostas pelo agregado, nomeadamente pela limitação da abertura deste. No entanto, a atenuação
56
do ruído espacialmente correlacionado evolui no tempo, uma vez no GSC são aplicados filtros que se
adaptam ao ruído ao logo do decorrer do processo de filtragem espacial.
Fig. 5.12 Resultados experimentais do GSC com VAD em ambientes reais: evolução da energia do sinal
de fala processado pelo FBF e GSC.
Para o factor de adaptação dos filtros LMS do GSC, estipulado em
  0, 001
(eq. (5.11)),
era esperado uma adaptação lenta, como se observa na linha de base do GSC na Fig. 5.12: esta
situa-se inicialmente em 10dB, evoluindo para 5dB ao longo do ensaio. Ao contrário das simulações
do GSC, em que

é de uma ordem de grandeza inferior, esta convergência da atenuação do ruído
não é tão lenta. No entanto, a maximização da atenuação do ruído de FBF, parece ser o melhor
critério para escolha de
.
Um aspecto importante a reter da Fig. 5.12 é o de que a atenuação do ruído evolui no tempo,
o que significa que o valor de 10dB de atenuação, apresentado nos ensaios experimentais anteriores,
corresponde a um valor médio de atenuação do ruído. Na realidade, a proposta de combinar o GSC
com um VAD permitiu atenuar o ruído (com características estacionárias) em pelo menos 16dB,
mantendo a energia dos segmentos de fala, o que significa que o cancelamento do sinal de fala é
neste caso evitado. Da mesma figura, é ainda possível extrapolar que um aumento da ordem dos
filtros LMS do MC permite melhorar o desempenho do GSC. No entanto, existe um aumento do custo
computacional que pode ser restritivo.
57
6. Localização
e
Seguimento
com
Agregados
de
Microfones
A utilização de agregados de microfones, na aquisição do sinal de fala, e a aplicação de
algoritmos de filtragem espacial possibilitam a aquisição de fala de forma ubíqua e menos intrusiva do
ponto de vista do utilizador.
Um agregado de microfones pode ser encarado como um elemento passivo, na medida em
que apenas adquire os sinais de cada microfone e os disponibiliza para uma qualquer área de
processamento. É na área de processamento que se aplicam por exemplo métodos de filtragem
espacial, que por sua vez combinam os sinais capturados pelo agregado. A forma como se combinam
ou processam os sinais é, de facto, o tema central deste trabalho.
No capítulo 5, foram enunciados vários métodos de filtragem espacial onde se assume a
priori a posição ou direcção do locutor (ou sinal desejado). Em aplicações reais, a posição ou
direcção do locutor é quase sempre desconhecida. Desta forma, para que os algoritmos de filtragem
espacial tenham aplicabilidade em situações reais, é necessário elaborar métodos de estimação da
posição ou direcção do locutor em relação ao agregado de microfones. Como consequência e pelo
que já anteriormente foi dito, o desempenho da filtragem depende directamente do desempenho da
estimação da localização do locutor.
Existem duas características observáveis dos sinais capturados pelo agregado de microfones
que permitem inferir sobre a localização de um locutor: o ângulo de direcção dos sinais incidentes no
agregado (Direction of Arrival) (DoA) e o atraso de propagação dos sinais entre pares de microfones
(Time Diference of Arrival) (TDoA).
Neste capítulo, serão abordados os métodos mais relevantes para localização e seguimento
de oradores usando agregados de microfones. Para a estimação de DoA será abordado o método de
maximização da energia do sinal do filtro espacial (SRP) (Steered Response Power) e para a
estimação de TDoA serão enunciados métodos de correlação cruzada (Generalized Cross
Correlation) (GCC).
De salientar que DoA e TDoA são relacionados matematicamente, uma vez que DoA é obtido
a partir do atraso do sinal entre dois microfones, e por esse motivo, é possível relacionar os dois
métodos aqui abordados, como se verá mais à frente.
De uma forma sucinta, a ideia do método SRP consiste em calcular a energia de um sinal
resultante do um filtro espacial (e.g. Delay-and-Sum Beamformer) para todos os ângulos DoA
possíveis. O método de GCC tem como objectivo estimar os atrasos entre pares de microfones,
recorrendo a técnicas de correlação cruzada dos sinais capturados.
59
6.1. Steered Responce Power (SRP)
Em condições de onda plana, o atraso relativo em cada microfone depende apenas da
distância d que separa cada microfone i .
 i ( DoA )  (i  1)
fs
d cos  DoA
c
f
 f

τ ( DoA )  1, s d cos  DoA , , ( N  1) s d cos  DoA 
c
 c

Sendo
(6.1)
f s a frequência de amostragem e c a velocidade do som e 1  i  N , sendo N o
número de microfones do agregado.
O método SRP pode ser implementada com qualquer tipo de filtro espacial. Neste caso
aplica-se um Delay-and-Sum Beamformer (DnSB) por ser o mais simples de implementar. No domínio
do tempo, o sinal na saída do DnSB em função do ângulo DoA é dado por:
N
y (n, τ( DoA ))   xi (n   i )
(6.2)
i 1
onde
xi (n) representa o sinal do microfone i e os atrasos  i são calculados de acordo com a eq.
(6.1).
De acordo com a eq. (6.2), obtemos o sinal
y(n, τ( DoA )) , que representa o sinal capturado
pelo agregado “apontado” para vários ângulos de DoA. Calculando a potência do sinal do DnSB para
cada ângulo DoA, obtemos:
P( DoA )   y(n)T y(n)
(6.3)
A estimação do ângulo DoA é dada então por:
 DoA  arg max P( DoA )
(6.4)
i
são desfasagens relativas a um microfone de referência, o ângulo
 DoA
Dado que os atrasos
DoA estimado é válido para todos os microfones do agregado, se for assumido um modelo de onda
plana incidente do agregado. Isto significa que apenas se tem informação da direcção da fonte do
sinal e nada se sabe sobre a posição da fonte de sinal. Quando não é possível assumir o modelo de
onda plana, o SRP é extensível à localização da fonte através de técnicas de triangulação dos vários
valores de ângulo DoA estimados.
60
Como se pode ver pela eq. (6.3), a estimação do ângulo DoA requer o cálculo da potência
para todos os ângulos DoA possíveis, i.e. o SRP é um algoritmo de varrimento, o que pode tornar a
sua implementação ineficiente em tempo real.
6.2. Generalized Cross Correlation (GCC)
Ao contrário dos métodos como o SRP, a correlação entre os sinais de dois microfones
permite que a estimação do atraso entre os microfones seja possível, sem recorrer a métodos de
varrimento no espaço. Por esta razão, as técnicas de correlação dos sinais são as mais usadas para
estimação de TDoA.
O método de Generalized Cross Correlation [39] (GCC), permite a estimação do TDoA entre
pares de microfones.
No domínio do tempo, a correlação cruzada entre dois sinais
c12 ( ) 
x1 (t ) e x2 (t ) é definida por:

 x (t ) x (t   )dt
1
(6.5)
2

Aplicando a transformada de Fourier na eq. (6.5), obtemos a densidade espectral ou o
espectro cruzado:
C12 ( ) 

c
12
( )e  j d
(6.6)

A densidade espectral em função dos sinais
x1 (t ) e x2 (t ) é dada por:
C12 ( )  X 1 ( ) X 2 ( )
Considerando que o sinal
(6.7)
x2 (t ) corresponde a uma versão desfasada de x1 (t ) , a função de
espectro cruzado idealmente exibe um máximo absoluto correspondente à desfasagem (ou atraso)
entre os dois sinais. Em condições acústicas reais, a presença de factores como ruído, a diferença de
percursos entre a fonte de sinal e os microfones e o efeito de reverberação, podem dissimular este
máximo absoluto. Para aumentar a robustez face a estes efeitos adversos, a função de espectro
cruzado em (6.6) é normalmente ponderada segundo critérios de optimização, aplicando funções de
ponderação que de alguma forma alterem os espectro dos sinais
x1 (t ) e x2 (t ) . Deste modo, e por
definição, a função do método de GCC [39] é dada por:
1
R12 ( ) 
2


12
( ) X 1 ( ) X 2 ( )e j d
(6.8)

61
Isto equivale à função inversa de Fourier da eq. (6.7), com um termo de ponderação
Idealmente a eq. (6.8) tem um máximo quando

corresponde ao atraso entre os sinais
12 () .
x1 (t ) e
x2 (t ) , como já foi referido. Deste modo, o método GCC estima o valor de  que maximiza a
densidade espectral de dois sinais:
  arg max R12 ( )
(6.9)

Assumindo que o sinal
x2 (t ) corresponde ao sinal x1 (t ) com um atraso  , idealmente a
correlação cruzada entre os sinais exibe um máximo correspondente ao atraso. Na realidade, a
presença de ruído, reverberações e as diferenças nos caminhos percorridos pelos sinais desde a sua
origem até aos microfones, pode mascarar este máximo [40]. Por exemplo, em condições de valores
baixos de SNR ou múltiplas fontes de ruído, a eq. (6.9) exibe vários máximos locais correspondentes
aos vários sinais de ruído. Da mesma forma, em condições reverberantes observam-se vários
máximos locais correspondentes ao sinal desejado reflectido em várias direcções. Para minimizar o
impacto destes factores na estimação de

, é colocado um termo de ponderação  ( ) na
correlação entre os sinais.
Dado que a eq. (6.8) equivale ao cálculo do máximo da energia entre dois sinais, para um
agregado com dois microfones o método de GCC com ( )  1 é semelhante ao método de SRP
com um Delay-and-Sum Beamformer (DnSB). Deste modo, à semelhança do SRP, o método de GCC
pode ser interpretado como o cálculo da energia máxima entre dois sinais, na saída do DnSB. A
função de ponderação  ( ) funciona como um pré-filtro, aplicado a esses mesmos sinais, antes de
ser aplicado o filtro espacial.
As funções de ponderação  ( ) mais usadas são: Máxima Verosimilhança (Maximum
Likelihood) (ML) [41] e Transformação de Fase (Phase Transform) (PHAT) [39]. A ML é normalmente
aplicada em condições não reverberantes e quando o ruído ambiente pode ser modelado como ruído
branco Gaussiano e incorrelacionado, neste caso  ( ) é dado por:
 ML ( ) 
onde
X1 ( ) X 2 ( )
X1 ( ) V2 ( )  X 2 ( ) V1 ( )
2
2
2
2
(6.10)
V1 ( ) e V2 ( ) representam os sinais de ruído que afectam os sinais X1 ( ) e X 2 ( )
respectivamente.
Uma limitação desta abordagem é a de, na maior parte dos casos, não ser possível estimar
com precisão os espectros do ruído e pelo facto de que em situações de reverberação, situação
comum na maior parte dos ambientes acústicos reais, o pressuposto de ruído incorrelacionado ser
violado.
62
A função de ponderação
 ( ) actualmente mais utilizada é a abordagem feita pela PHAT.
Sub-óptima em condições não reverberantes, mas com desempenhos superiores à ML em condições
reais, é definida como:
 PHAT ( ) 
1
X 1 ( ) X 2 ( )
(6.11)
A função PHAT tem várias vantagens, relativamente à ML, por ser simples de implementar e
não depender do espectro dos sinais de ruído. Esta normalização, permite também que os espectros
20
dos sinais sejam “branqueados” , o que significa de a estimação de

depende apenas da fase dos
sinais e não na magnitude destes, o que é conveniente uma vez que a informação de

diz respeito à
diferença de fase entre os dois sinais. Outra vantagem do “branqueamento” do espectro é a
possibilidade de eliminar os máximos locais, devido à periodicidade dos segmentos vozeados da fala.
Dadas as semelhanças entre os métodos de SRP e GCC, já referidas anteriormente, existem
também outras técnicas de localização e seguimento como o SRP-PHAT [42]. Baseada no GCC com
uma função de ponderação PHAT (GCC-PHAT) e com a estimação da posição baseado no
varrimento de posições como o SRP, esta elegante e robusta solução é actualmente o método de
localização com mais precisão aplicado em agregados de microfones, no entanto apresenta um custo
computacional superior ao GCC.
Embora menos frequentemente usados por serem normalmente aplicação ad-hoc, existem
também métodos com recurso a algoritmos de aprendizagem para localização e seguimento com
agregados de microfones [43, 44].
6.3. Resultados Experimentais
Os métodos apresentados nas secções anteriores permitem que sejam estimadas as
posições de um locutor no espaço. No caso do SRP a localização é implementada com métodos
exaustivos de varrimento de todas as posições possíveis no espaço, onde cada posição corresponde
a um ângulo DoA específico. No método como o GCC, a posição pode ser obtida aplicando técnicas
de intersecção de rectas, para cada estimação do ângulo DoA de vários pares de microfones do
agregado.
Embora seja possível usar o método de GCC para estimar a posição do locutor, neste tese o
método de GCC será aplicado com o objectivo de estimar a direcção do locutor em relação ao
agregado (ângulo DoA). Uma vez estimada a direcção do locutor, é possível implementar um sistema
de filtragem espacial (fixa ou adaptativa) que funcione de forma autónoma, sem que seja necessária
a intervenção humana na decisão do ângulo DoA a aplicar ao filtro espacial. Por este motivo, nos
20
Tal como acontece com o espectro do ruído branco, pretende-se que a densidade espectral dos sinais seja a mais plana
possível.
63
próximos resultados experimentais pretende mostrar-se que é possível estimar a direcção do locutor
com precisão aceitável.
Como se pretende avaliar o desempenho do GCC na estimação do ângulo DoA em situações
reais e porque não pareceu ser necessário apresentar uma secção de simulação do GCC, são
apresentados os resultados directamente de ensaios em ambientes reverberantes reais. Escolheu-se
o método de GCC para estimação do DoA pelo seu desempenho e baixo custo computacional face
ao SRP.
Dadas as particularidades inerentes às aplicações com agregados de microfones e a
dependência das condições acústicas, alguns pressupostos têm de ser tidos em conta,
nomeadamente a incidência de onda plana no agregado. Como já foi referido no capítulo 4, o
pressuposto de onda plana incidente no agregado depende da distância da fonte de sinal, da
frequência do sinal e da abertura do próprio agregado. Deste modo, o método de GCC tem de ser
devidamente adaptado às condições reais existentes. Dadas as dimensões do agregado em questão
(1,26m de comprimento), o pressuposto de onda plana é válido apenas para elevadas distâncias
entre o locutor e agregado. Para um agregado com estas dimensões, o pressuposto de onda plana a
uma frequência de 100Hz é válido para uma distância de cerca de 9 metros. Para contornar este
problema e viabilizar este pressuposto, o agregado é dividido em sub-agregados de dimensão
inferior. Desta forma, o agregado é dividido em 8 sub-agregados iguais onde cada sub-agregado é
constituído por 8 microfones com um comprimento total apenas de 0,14m. Para uma onda de 100Hz,
o pressuposto de onda plana é válido para distâncias inferiores a 1m entre o locutor e o agregado.
Fig. 6.1 Divisão do agregado em sub-agregados de dimençõe inferiores.
Na Fig. 6.1 ilustra-se a divisão em 8 sub-agregados de iguais dimensões. No caso da
aplicação do GCC para a estimação da direcção de incidência de uma fonte de sinal em P, são
estimados 8 ângulos DoA em simultâneo que correspondem aos ângulos estimados de cada subagregado. Os ângulos DoA estimados são posteriormente aplicados a filtros espaciais (e.g. DnSB ou
GSC). Como o pressuposto de onda plana é válido para cada sub-agregado, os sinais são
64
processados por um filtro espacial que depende do ângulo DoA estimado. Os sinais resultantes de
cada filtro espacial são posteriormente combinados, de forma a gerar um único sinal do agregado.
Uma vez que o GCC é aplicado em blocos do sinal capturado pelo agregado e como os
mesmos avançam no tempo, é possível fazer o seguimento do locutor que se move no tempo e no
espaço. O tamanho do bloco de análise depende do intervalo de tempo em que se assume constante
a posição do locutor. No entanto, o tamanho dos blocos tem uma influência directa nos resultados:
quanto menor o número de amostras por bloco de análise, maior a resolução no seguimento e
menores as latências em cada estimação. Por outro lado, a precisão da estimativa de DoA aumenta
com o número de amostras por bloco de análise, criando-se assim um compromisso.
6.3.1. Ensaio em ambientes reverberantes reais
Os ensaios foram conduzidos na sala de demonstrações do L2F/INESC-ID (ver Anexo B) e
pretende-se estimar os ângulos de direcção do locutor em relação ao agregado, i.e. o ângulo DoA
correspondente à posição do locutor.
Para evitar que o agregado “aponte” para as fontes de ruído, a localização no GCC é
controlada por um VAD. Deste modo, apenas se pretende localizar o locutor quando este fala. Foi
usada fala natural com o locutor colocado em 5 posições distintas da sala (Fig. 6.2). Em cada posição
o locutor mantém-se estático, onde apenas são permitidos os movimentos da cabeça durante o
discurso.
Fig. 6.2 Posições reais do locutor para o ensaio experimental
65
Para determinar experimentalmente os parâmetros de GCC que minimizam o erro de
estimação do ângulo DoA, são elaborados ensaios para os vários parâmetros como o tipo de função
de ponderação  ( ) e o tamanho da janela de análise.
É esperado estimar os ângulos de DoA dos 8 sub-agregados para as 5 posições diferentes e
aferir a precisão da estimação. É esperado também, determinar qual a função de ponderação e
tamanho de janela de análise, que melhor minimiza os efeitos de reverberação do sinal de fala e o
erro de estimação de DoA.
Dado que são estimados 8 ângulos diferentes, é feita uma análise estatística dos resultados
para aferir sobre o desempenho da estimação do ângulo DoA. Deste modo, é feita uma média do erro
de estimação como indicador do enviesamento e exactidão do estimador e o erro médio absoluto
como medidor da precisão do estimador. Os valores dos ângulos reais são calculados directamente,
por meio de triangulação das coordenadas do locutor na sala de ensaio. Os valores das coordenadas
são inseridos num programa específico para esta aplicação, que devolve os ângulos e distâncias do
locutor reais relativamente ao agregado de microfones. Como as coordenadas do locutor são obtidas
por medições directas na sala de ensaio, são espectáveis erros de estimação associados aos erros
de medição que se manifestam no enviesamento do estimador. Dado que o erro do ângulo estimado
tem um impacto directo na localização do locutor, e que este varia com a distância, são apresentados
os desvios padrão do erro de estimação e seu impacto associado à localização do locutor.
Fig. 6.3 Estimação do ângulo DoA com dois pares de microfones.
Embora sejam estimados 8 ângulos DoA, para melhor se compreender o processo de
estimação dos ângulos de cada sub-agregado, na Fig. 6.3 são apresentados os resultados da
estimação de apenas dois ângulos. A estimação é feita partir dos sinais de dois pares de microfones,
(1,8) e (57,64), correspondentes a cada sub-agregado (ver Fig. 6.1). O locutor está colocado na
posição “A” (ver Fig. 6.2) e como não se movimenta, é espectável obter uma estimação de DoA
66
constante ao logo do tempo, que se constata pela Fig. 6.3 (c). Em (a) mostra-se a forma de onda do
primeiro microfone. Em (b), o andamento da energia do sinal do microfone #1 (azul) e do microfone
#57 (vermelho), a linha a verde representa o nível de threshold do VAD que comanda a estimação do
ângulo nos períodos de fala. Em (c) a linha a cheio representa a estimação do ângulo DoA e a
tracejado, o valor do ângulo real, a cor azul e vermelho remete para os pares de microfones (1,8) e
(57,64), respectivamente.
Os resultados da Fig. 6.3 são obtidos com uma janela de análise inferior a 190ms. Mesmo
numa situação de movimento do locutor, com um intervalo de análise de 190ms é possível assumir
que o locutor está estático, entre intervalos de análise. Os resultados mostram que nos períodos de
fala, é possível obter um estimação do ângulo com um erro de 1,9º e 0,7º para o par (1,8) e (57,64),
respectivamente. A uma distância de 2,3m do agregado, os erros de ângulo representam um erro de
8 a 3cm respectivamente, da posição do locutor. O erro máximo neste caso é inferior ao tamanho da
própria cabeça do locutor, e por isso desprezável.
Para se ter uma ideia da importância da duração da janela de análise e da função de
ponderação  ( ) , na estimação do ângulo DoA, são apresentados os resultados de estimação do
DoA para o locutor colocado na posição “E”, mantendo-se imóvel durante todo o ensaio. Pretende-se
então concluir sobre os parâmetros do GCC que produzem estimativas de ângulo DoA, robustas às
condições adversas impostas pelo ruído ambiente e o efeito reverberante da sala de ensaio. Como o
locutor não se move durante os períodos de locução, é esperado obter uma estimação da sua
direcção constante ao logo do tempo.
Na Fig. 6.4 apresenta-se a forma de onda e o respectivo andamento da energia do sinal do
microfone #32, bem com o nível de threshold do VAD aplicado. Na Fig. 6.5 são apresentados os
resultados experimentais de estimação do ângulo DoA com o sub-agregado (25,32) com variação dos
do parâmetros do GCC: em (a, b, c), é aplicada a função de ponderação PHAT com diferentes
durações da janela de análise; em (d), é aplicada a janela de análise, com uma duração
experimentalmente ideal, mas é suprimida a função de ponderação PHAT, i.e. ( )  1 .
Fig. 6.4 Análise do sinal de fala do microfone #32.
Como já foi referido na secção 6.2, a estimação do ângulo DoA com o GCC recorre a
técnicas de correlação cruzada de densidades espectrais de sinais dos microfones do agregado.
Como tal, todo o método de estimação de DoA é feito no domínio da frequência. Para optimizar a
67
transformada de Fourier, são aplicadas janelas de análise com um número de amostras múltiplas de
2n (n) aos sinais de cada sub-agregado. Na Fig. 6.5 (a, b, c) é evidente a degradação do
resultado quando se diminui a duração da janela de análise, mesmo quando se aplica a função de
ponderação PHAT (eq. (6.11)). Como a densidade espectral de cada sinal é estimada directamente
do sinal de cada microfone, a redução da duração da janela de análise diminui a resolução do
espectro estimado e, como consequência, diminui o factor de correlação dos sinais. A diminuição do
factor de correlação afecta directamente o processo de estimação do ângulo DoA, dado que o
máximo da correlação correspondente à desfasagem entre os sinais é mascarado pelos máximos
locais. Os máximos locais podem ter origem nos sinais de ruído ou no próprio sinal de fala reflectido
em direcções diferentes. Para uma janela de 186ms (com função de ponderação PHAT) os valores
de ângulo estimados apresentam-se uniformes, pelo que se considera ideal este resultado
experimental da estimação de DoA.
Fig. 6.5 Influência dos parâmetros do GCC na estimação do ângulo DoA.
A Fig. 6.5 (d) mostra que a função de ponderação PHAT tem um papel fundamental na
robustez do GCC. Quando a função PHAT é suprimida, observa-se que os resultados de estimação
de DoA são severamente degradados, mesmo quando se aplica uma janela de análise de 186ms.
Como foi referido na secção 6.2, a função de ponderação PHAT permite “branquear” os espectros
dos sinais de forma a garantir que a correlação dos espectros dependa apenas das desfasagens dos
sinais. Tal como a duração da janela de análise influencia o resultado da correlação cruzada dos
sinais, o mesmo sucede com a diferença de magnitude dos sinais que podem mascarar os máximos
absolutos da correlação. Para além de aumentar a dependência da desfasagem e diminuir a
influência da magnitude dos sinais, no resultado da correlação cruzada, o PHAT é acompanhado com
o bónus de ser simples de implementar.
68
Finalizado o processo experimental que permitiu concluir sobre os parâmetros do GCC que
produzem melhores resultados de estimação do ângulo DoA, seguidamente apresentam-se os
resultados de estimação dos ângulos DoA para o conjunto total dos 8 sub-agregados, quando o
locutor é colocado nas várias posições ilustradas na Fig. 6.2. A estimação é feita com 20 segundos
de áudio processados com uma janela de análise de 186ms de duração com 50% de overlap. Cada
janela é processada pelo GCC com a função de ponderação PHAT (GCC-PHAT).
Na Tab. 6.1, são apresentados os resultados da estimação dos ângulos para as 5 posições:
o erro médio mostra que, de uma forma geral, à excepção da posição “F”, o estimador não está
enviesado, indicando que o impacto dos erros de medição da posição do locutor não afecta
significativamente os resultados. Verifica-se um aumento do erro absoluto do estimador à medida que
o locutor se afasta da posição frontal ao agregado (DoA = 90), o que aponta para uma diminuição da
precisão da estimação do ângulo, à mediada que o locutor se move para direcções tangenciais ao
plano dos microfones do agregado. Os valores de desvio padrão máximo a partir da posição “D”
(inclusivé) resultam em erros de localização superiores a mais de metade da distância entre o locutor
e o agregado, indicando um fraco desempenho do estimador. Por outro lado, os valores elevados de
do desvio padrão com erros absolutos menores apontam para uma dispersão dos resultados de
estimação do ângulo.
Tab. 6.1 Estimação do ângulo DoA com GCC-PHAT sem filtro de mediana.
Distância do locutor ao agregado
Direcção real do locutor (DoA)
Erro médio de estimação
Erro absoluto de estimação
Desvio padrão
Max.
Min.
Erro de localização
Max.
Min.
Pos. A
2,2m
91º
0,1º
1,9º
2,3º
0º
0,092m
0m
Pos. E
2,3m
123º
0,4º
2,6
14,3
0º
0,5m
0m
Pos .D
2,5m
66º
1,4º
2,4º
26,3º
0º
1,4m
0m
Pos. C
3,8m
43º
2.2º
4,9º
36º
0º
2,8m
0m
Pos. F
3m
3,2º
53,3º
58,1º
44,2º
0º
2,9m
0m
Para diminuir a dispersão dos resultados de estimação do ângulo, num óptica de seguimento
do locutor, é integrado do método de GCC-PHAT um filtro de mediana. Este filtro permite remover
outliers mantendo um seguimento eficaz mesmo em situações de variações rápidas da direcção do
locutor. Como resultado, o desvio padrão máximo diminui sem comprometer a seguimento do orador.
Seguidamente, são apresentados os resultados do processamento com GCC-PHAT + filtro
de mediana, para o mesmo conjunto de teste apresentado na Tab. 6.1. Como se pode ver pela Tab.
6.2 os valores de desvio padrão máximo diminuíram significativamente, com excepção da posição “F”,
resultando num aumento da precisão do estimador e, consequentemente, uma diminuição do erro
associado à localização do locutor. Verifica-se porém que o erro mínimo de posição aumenta, o que
está directamente relacionado com o facto de o filtro de mediana não permitir a dispersão da
estimação do DoA mesmo quando este coincide com o ângulo real. Como consequência, a colocação
do filtro de mediana permite aumentar a estabilidade do estimador e diminuir o erro absoluto. No
entanto, pode introduzir erro residual (erro mínimo de posição) nas estimações de DoA, como
acontece neste caso.
69
Tab. 6.2 Estimação do ângulo DoA com GCC-PHAT com filtro de mediana.
Distância do locutor ao agregado
Direcção real do locutor (DoA)
Erro médio de estimação
Erro absoluto de estimação
Desvio padrão
Max.
Min.
Erro de localização
Max.
Min.
Ordem do Filtro de mediana
Pos. A
2,2m
91º
0,1º
1,9º
1,9º
1,8
0,073m
0,069m
5
Pos. E
2,3m
123º
0,6º
2º
1,9º
1,9º
0,08m
0,08m
5
Pos .D
2,5m
66º
1,3º
2,2º
1,9º
1,9º
0,8m
0,8m
5
Pos. C
3,8m
43º
1º
2,5º
2,5º
1,8º
1,6m
1,2m
5
Pos. F
3m
3,2º
51,5º
53,7º
28,2º
5º
1,6m
0,3m
10
Em relação aos maus resultados da posição “F”, o seu fraco desempenho tem origem no
facto de a desfasagem

resultado, a derivada de
entre os sinais dos microfones seguir uma função coseno (eq. (4.5)). Como

segue uma função seno, o que significa que o agregado tem um máximo
de sensibilidade para deslocações locutor em DoA=90º e mínimos em DoA = 0º e 180º. Deste modo,
o agregado tem mais precisão na estimação de direcções de sinais tendencialmente perpendiculares
ao plano dos microfones do agregado, do que para os sinais que se aproximam da direcção
tangencial ao plano do mesmo. Na Fig. 6.6, mostra-se a relação entre o ângulo DoA e o atraso


entre microfones do sub-agregado. Relembrando que como se está no domínio digital, os atrasos
são valores discretos, o que significa que o seu contradomínio, os ângulos DoA, também são
valores discretos. Verifica-se então um aumento da amplitude do intervalo discreto para DoA<40º, o
que significa que uma variação do atraso corresponde a uma variação maior do ângulo. Isto traduz-se
na diminuição da precisão de estimação do ângulo DoA. No caso da posição “F” a direcção real é
DoA ≈ 3º, que por sua vez corresponde a um intervalo de elevada variação entre a desfasagem e os
respectivos ângulos. Nesta situação, e para uma distância de 0,14m entre microfones, o agregado
apenas “distingue”
21
sinais com direcções de 0º e 8º. Na eventualidade de existir o mesmo sinal, mas
reflectido numa direcção que maximize a correlação entre os sinais, a estimação do ângulo DoA irá
coincidir com a direcção do sinal reverberado. No entanto, dada a imprevisibilidade dos fenómenos
de reverberação e a complexidade dos fenómenos acústicos, que saem fora do âmbito de análise
desta tese, apenas se pode apontar possíveis causas dos maus resultados de estimação dos ângulos
DoA.
21
Entenda-se por “distinguir” sinais, como a maximização da correlação entre os sinais de dois microfones.
70
Fig. 6.6 Relação entre DoA e  para microfones com 0,14m de separação
6.4. Análise dos resultados
Mesmo quando se aplica a função de ponderação PHAT é visível a influência do efeito dos
sinais reverberados na estimação do DoA, devido ao facto do valor discreto dos ângulos DoA criar
descontinuidades entre o valor real o valor estimado do ângulo DoA. Esta degradação dos resultados
é tanto mais visível, quanto menor for a janela de análise, pois o tamanho da janela tem um impacto
directo nos resultados: como a resolução da estimação da densidade espectral de um sinal, aumenta
com a quantidade de dados, a resolução dos resultados da correlação dos espectros (pelos quais são
estimadas as desfasagens entre sinais) aumenta com a janela de análise. Deste modo, conclui-se
que quanto maior for a janela de análise, mais precisas são as estimações da direcção do locutor.
Como se pretende fazer seguimento do locutor, o tamanho da janela depende da velocidade deste,
ou do tempo em que se assume que o locutor está estático. Isto significa que o tamanho da janela é
uma situação de compromisso entre a precisão da localização e a precisão de seguimento.
Como se mostra na Fig. 6.7, um aumento da distância entre os pares de microfones permite
aumentar a resolução da estimação do ângulo DoA. No entanto, a condição de onda plana pode ser
violada. Da mesma forma, para um aumento da frequência de amostragem, mantendo o mesmo
espaçamento entre microfones, produz-se um aumento da resolução da estimação do ângulo DoA.
No entanto, relembrando o que foi dito no capítulo 4, um aumento da frequência mantendo o mesmo
espaçamento entre microfones compromete a filtragem espacial devido efeito de aliasing espacial.
71
Fig. 6.7 Variação da resolução de DoA com a distância entre microfones e frequência de amostragem.
72
7. Avaliação do agregado de microfones em sistemas ASR
No capítulo 5, foram apresentados vários métodos de filtragem espacial para speech
enhancement e avaliados os resultados em termos de SNR. Concluindo-se assim, sobre a
capacidade dos filtros espaciais em atenuar os sinais não desejados. Neste capítulo será feita uma
avaliação da aplicação da filtragem espacial em sistemas de ASR. Pretende-se aferir, qual o efeito
dos filtros espaciais no processamento do sinal de fala aplicado para reconhecimento. Permitindo
assim, quantificar aplicação de filtros espaciais na aquisição do sinal de fala de um locutor em campo
distante, em termos de melhorias do reconhecimento do seu sinal.
Formalmente, a avaliação é feita comparando as taxas de erros de palavras (WER) do
mesmo sinal de fala captado em várias situações (campo próximo e em campo distante) e com dois
métodos de filtragem espacial distintos (fixa e adaptativa).
7.1. Resultados experimentais em ambientes reverberantes
reais
Como já foi referido na introdução desta trabalho, este agregado de microfones foi
desenvolvido com o objectivo de servir de equipamento de aquisição de fala ubíquo para o sistema
de diálogo “Ambrósio”. Os resultados de reconhecimento são obtidos sobre um sistema de ASR de
domínio limitado, utilizando como modelo de linguagem uma gramática restrita ao domínio de
domótica com cerca de 200 palavras distintas. O modelo acústico utilizado foi um modelo não
adaptado ao orador, treinado sobre áudio de notícias televisivas [45].
O conjunto de teste utilizado para a obtenção de resultados de reconhecimento é constituído
por 20 frases (contendo um total de 82 palavras), correspondentes a acções válidas pelo sistema de
diálogo. O teste é conduzido na sala de demonstrações (ver Anexo B), onde o locutor está colocado a
2m de distância do agregado e com uma direcção de DoA=90º. No primeiro ensaio não é usada
qualquer fonte de ruído aditivo, no entanto existem fontes de ruído ambiente provenientes de
ventoinhas de computadores e do ar-condicionado (caracterização do ruído ambiente desta sala com
mais detalhe no Anexo B). No segundo ensaio, é colocado uma fonte de sinal interferente a 2m do
agregado e com uma direcção de DoA=170º. A fonte de sinal interferente corresponde a um sinal de
fala espontânea, proveniente de um rádio que é ligado durante todo o segundo ensaio experimental.
Nestes ensaios pretende-se comparar os resultados de WER do sinal adquirido com um
head-set (como modelo de aquisição em campo próximo), com o sinal adquirido com o agregado de
microfones (como modelo de aquisição em campo distante). Do sinal adquirido com o agregado são
comparados os resultados: sinal de fala adquirido com apenas um microfone, colocado em campo
distante (microfone #32); Sinal processado por um filtro espacial fixo (FBF), que se optou por um
73
Delay-and-Sum Beamformer (DnSB); Sinal processado por um filtro espacial adaptativo, neste caso o
Generalized Sidelobe Canceller (GSC).
Destes ensaios, é esperado obter um desempenho de reconhecimento do sinal adquirido com
o head-set, superior a qualquer um dos sinais adquiridos com o agregado; i.e. espera-se um aumento
de WER quando se passa do modelo de aquisição em campo próximo, para o modelo de aquisição
em campo distante. De acordo com os resultados do capítulo 5, verifica-se um aumento do SNR
quando são aplicados filtros espaciais aos sinais de fala adquiridos com o agregado. Da mesma
forma, dos resultados de reconhecimento dos sinais adquiridos em campo distante, é esperado uma
diminuição de WER (aumento de reconhecimento do sinal de fala) quando de passa do microfone
#32 para o FBF e para o GSC, respectivamente.
Tab. 7.1 Resultados de reconhecimento das 20 frases.
head-set
mic #32
FBF (DnSB)
GSC
1º Ensaio (sem sinal interferente)
SNR
WER %
Total de
Acções
Correctas
25,4dB
0%
20/20
14dB
6,5%
17/20
12dB
3,3%
18/20
23,2dB
1,1%
19/20
2º Ensaio (com sinal interferente)
SNR
WER%
Total de
Acções
Correctas
15,1dB
3,3%
20/20
1,9 dB
75%
2/20
1,4 dB
5,4%
19/20
14 dB
34,8%
12/20
Analisando os resultados da Tab. 7.1, para o ensaio sem sinal interferente verifica-se que o
WER varia de acordo com o esperado, i.e. existe uma degradação do reconhecimento quando se
passa do modelo de aquisição de fala em campo próximo (head-set) para o modelo em campo
distante (microfone #32, FBF e GSC). Verifica-se também, um aumento do desempenho de
reconhecimento, com o aumento da supressão do ruído: desde o microfone #32 ao FBF até ao GSC.
No entanto é necessária fazer uma breve nota em relação à diminuição do valor de SNR do sinal do
microfone #32 para o FBF: além da atenuação de sinais espacialmente incorrelacionados, a
aplicação de filtros espaciais em ambientes reverberantes resulta numa diminuição do efeito
reverberante. Como consequência, observa-se um aumento do SNR e da perceptibilidade acústica,
que se traduz numa diminuição do WER. No entanto, a diminuição do efeito reverberante pode
diminuir a energia do sinal de fala e, como resultado, uma aparente diminuição do valor de SNR.
Para os resultados da Tab. 7.1, para o ensaio com sinal interferente verifica-se que, como era
esperado, os melhores resultados dizem respeito ao sinal de fala adquirido com o head-set. Para o
resultado do sinal do microfone #32: neste caso o sinal interferente, correspondente à fala
espontânea do rádio, aumenta drasticamente o WER. No entanto, a aplicação do FBF permite uma
diminuição substancial do WER, para um aumento marginal de SNR. Este resultado remete mais uma
vez para o efeito, já comentado no parágrafo anterior, da redução do efeito de reverberação. Na
aplicação do GSC obtém um ganho de mais de 12dB relativamente ao FBF. Porém, ao contrário do
esperado verifica-se um aumento do WER. Esta aparente contradição, deve-se ao efeito de distorção
espectral que os filtros adaptativos do GSC introduzem no sinal de fala resultante. Pelo facto de
serem aplicados filtros, que se adaptam ao ruído ambiente, a introdução de distorção espectral varia
com o tipo de ruído. No primeiro ensaio, o GSC atenuou o ruído ambiente em cerca de 10 dB sem
74
distorção espectral, o que permitiu um aumento da taxa de reconhecimento. No caso do segundo
ensaio, o GSC atenuou os sinais interferentes em mais de 12 dB, mas no entanto a distorção
espectral, introduzida pelos filtros adaptativos, diminuem a taxa de reconhecimento.
7.2. Análise dos resultados
Para se compreender o efeito de distorção espectral do GSC, no sinal de fala, na Fig. 7.1 são
apresentadas a várias formas de onda correspondente a um segmento de sinal de fala adquirido no
segundo ensaio (o sinal interferente corresponde neste caso a fala espontânea do rádio). Na Fig. 7.2
mostra-se a evolução da energia dos respectivos sinais com uma janela de análise de 64ms de
duração. A forma de onda do head-set serve de sinal de referência e permite localizar no tempo o
sinal de fala desejado que está situado no intervalo entre 1s a 3s. Fora deste intervalo é esperado
que exista apenas sinal interferente. Como se pode verificar pelas duas figuras, o efeito do sinal
interferente no microfone #32 e no FBF é evidente: As correspondentes formas de onda e andamento
da energia são semelhantes. No caso do GSC, a forma de onda mostra que foi possível atenuar o
sinal interferente, que é comprovado pelo andamento da energia que mostra uma diminuição da
energia do sinal fora do intervalo de 1 a 3s.
Fig. 7.1 Forma de onda de uma frase adquirida por vários métodos.
Estes resultados mostram uma evidente melhoria do sinal resultante, quando é aplicado o
GSC. Este método de filtragem espacial adaptativa, permite eliminar sinais interferentes
espacialmente correlacionados. Já o mau resultado do FBF, em eliminar o sinal interferente, deve-se
ao facto de correlação espacial dos sinais aumentar de forma inversa com a frequência. Neste caso o
sinal interferente corresponde a fala masculina com um frequência fundamental inferior a 300Hz.
Como foi referido na secção 5.1, o filtro DnSB aplicado no FBF não tem directividade suficiente para
separar espacialmente os sinais com frequências inferiores a 500Hz, i.e. todos os sinais são
75
espacialmente correlacionados para valores de frequência inferiores a 500Hz. Deste modo, no
segundo ensaio, o FBF não é eficaz em separar espacialmente o sinal desejado e o sinal interferente.
No entanto, a redução de reverberação do sinal desejado e a redução do sinal interferente nas
médias-altas frequências, permitem melhorar a qualidade do sinal resultante, obtendo-se assim uma
diminuição evidente do WER quando se aplica o FBF.
Fig. 7.2 Evolução da energia do sinal de fala processado pelo FBF e GSC, e do microfone #32.
Na Fig. 7.3, é apresentada densidade espectral para cada um dos sinais da Fig. 7.1. A
densidade espectral é calculada pelo método de Welch [46], com uma janela de análise de 8ms com
50% de overlap e uma FFT com 128 pontos na frequência. Uma avaliação da densidade espectral
mostra que, comparativamente com o FBF, o GSC consegue efectivamente atenuar o sinal
interferente nas baixas frequências. No entanto, verifica-se que o mesmo sinal apresenta um
aumento da densidade espectral nas frequências superiores a 500Hz, resultando num distorção
espectral do sinal. Como resultado, embora com o método de GSC se obtenha um sinal de fala com
maior perceptibilidade acústica ao ouvido humano, a introdução de distorção espectral resulta numa
degradação do reconhecimento do sinal de fala. Por outro lado, o FBF não consegue eliminar as
componentes para frequências <500Hz, no entanto para as frequências superiores a densidade
espectral do sinal resultante do FBF assemelha-se ao sinal do head-set, o que explica uma melhoria
dos resultados de WER do FBF face ao GSC.
Fig. 7.3 Densidade espectral dos sinais de processados.
76
8. Conclusões e trabalhos futuros
Foi construído um agregado de microfones, que serve de equipamento de aquisição ubíqua
para fala. O conceito de ubiquidade, permite criar um modelo de aquisição de fala hands-free na
interacção entre pessoas e os computadores.
Para além das abordagens clássicas de filtragem no domínio do tempo, os agregados de
microfones permitem explorar a dimensão espaço-temporal do problema, aplicando métodos de
filtragem espacial. Os métodos de filtragem espacial, permitem separar fisicamente os sinais
acústicos que são captados pelos microfones do agregado: amplificando o sinal desejado e
atenuando os sinais não desejados. Como sinal de fala adquirido em campo distante é severamente
degradado por sinais espúrios, estes métodos permitem reduzir ruído de um sinal de fala de um
locutor colocado afastado do agregado. Quando comparado com o resultado de apenas aplicar um
microfone na captação do sinal de fala nas mesmas condições, o sinal de fala processado pelo
agregado é geralmente menos reverberante, com ambas as componentes de ruído difuso e ruído
direccional atenuados.
A utilização de agregados de microfones permite a aplicação de metodologias de filtragem
espacial e tem, ainda, a versatilidade de poderem ser aplicados para localizar e seguir locutores, ou
outras fontes de sinais acústicos.
As simulações do efeito da variação das características dos 64 microfones, apresentadas no
capítulo 3, apontam para uma degradação da filtragem espacial do agregado. Por esta razão foi
necessário calibrar todos os 64 microfones do agregado. Para um processo de calibração eficaz e
preciso, foi necessário calibrar o agregado em ambientes acústicos ideais. Como local de calibração,
foi escolhida a câmara anecóica, por esta apresentar uma acústica sem sinais espúrios e efeitos
reverberantes desprezáveis. No decorrer do processo de calibração, verificou-se que o painel frontal
do agregado reflectia os sinais de testes. Como consequência, as sensibilidades dos microfones
variavam com a frequência do sinal de teste. Dado não existir qualquer tipo de material bibliográfico
que formalizasse um método de calibração de agregados de microfones para aquisição de fala, foi
necessário criar um método de calibração robusto ao efeito reflectivo do painel frontal. O método de
calibração proposto, permitiu ajustar as sensibilidades dos 64 microfones com uma variação máxima
de 0,3dB e aproximadamente invariante na frequência.
Os ensaios experimentais da filtragem espacial fixa, apresentados na secção 5.1, evidenciam
uma limitação na directividade do agregado nas baixas frequências. Verifica-se que a correlação
espacial dos sinais aumenta com a diminuição da frequência, que na prática se traduz numa
incapacidade do agregado em separar espacialmente sinais de baixa frequência, mesmo que estes
tenham origem em pontos distintos do espaço. Os resultados experimentais mostram que, para
frequências inferiores a 500Hz, os sinais estão praticamente correlacionados espacialmente. Como
consequência, sinais de ruído nesta gama de frequências não serão eliminadas pelo processo de
filtragem espacial. Uma vez que 80% da energia do sinal de fala situa-se no intervalo de frequências
entre 100 e 500Hz, a perda de directividade para as baixas frequências é critica. Em teoria, uma
77
forma de contornar esta limitação, passa por aumentar abertura L do agregado para algumas
dezenas de metros, que é impraticável na maioria das aplicações de aquisição de fala.
Os métodos de filtragem espacial adaptativa, apresentados na secção 5.2, procuraram
solucionar o problema da perda de directividade dos agregados e dessa forma aumentar a
capacidade de atenuação espacial dos sinais espúrios. Como solução para diminuir as componentes
espacialmente correlacionadas dos sinais, são aplicadas técnicas clássicas de filtragem adaptativa,
que neste trabalho são implementadas com recurso a filtros LMS. Os ensaios simulados com o
método de GSC, mostram que é possível atenuar as componentes espacialmente correlacionadas
dos sinais de ruído, mesmo em situações de ruído não-estacionário, com e.g. um sinal de fala
correspondente a um segundo locutor. Na prática, as particularidades inerentes à complexidade dos
fenómenos acústicos, com especial ênfase ao efeito reverberante. O facto de no domínio digital a
desfasagem dos sinais ser explicitamente um valor discreto, torna a BM do GSC permeável ao sinal
desejado. Como resultando, existe o cancelamento do próprio sinal de fala. No entanto, a proposta de
introduzir um VAD no GSC permite minimizar o cancelamento do sinal de fala. Como resultado, foi
possível obter um ganho de atenuação dos sinais espúrios, face aos métodos filtragem fixa, com o
mínimo de cancelamento do sinal desejado. Os resultados experimentais com o GSC em ambientes
reverberantes reais, apresentados na secção 5.2 e na secção 7.1, mostram que é possível atenuar
sinais espúrios, mesmo quando estes estão espacialmente correlacionados.
No capítulo 6, mostrou-se ser eficaz a aplicação do agregado, para localização e seguimento
no espaço em 2D de fontes acústicas ou locutores. Os ensaios em ambientes reais, com o método
GCC-PHAT demonstraram que: mesmo com restrições de precisão imposta pela discretização das
desfasagens entre microfones, é possível obter resultados de localização com erros inferiores a 2º
(que a uma distância de 2,3m corresponde ao deslocamento da cabeça do locutor). O método GCCPHAT mostrou ainda ser possível obter bons resultados de localização e seguimento, em condições
de reverberação, com uma janela de análise inferior a 190ms (4x1024 amostras @ 22050Hz) de
duração.
Os resultados de avaliação do agregado de microfones em sistemas de reconhecimento
automático de fala (ASR), apresentados no capítulo 7, mostram que a aplicação de filtros espaciais
na aquisição de fala em campo distante, melhoram os resultados de reconhecimento. Os ensaios
conduzidos em ambientes reais reverberantes, mostram que em situações de ruído moderado a
aplicação de filtros espaciais permitem reduzir o WER de 6,5% (quando é utilizado de apenas
microfone em campo distante), para 1,1% (quando se aplica o GSC). Em condições mais adversas de
ruído, e.g. a presença de um segundo locutor, a aplicação de filtros espaciais permite uma diminuição
do WER de 75% (na situação de apenas microfone), para 5,4% (aplicando o DnSB). Embora o
método de GSC permita obter um sinal de fala com maior perceptibilidade acústica ao ouvido
humano, é verificado que os filtros adaptativos colocam distorções espectrais que resultam numa
degradação do reconhecimento do sinal de fala resultante. Este resultado, aponta para uma
necessidade de adaptação de novos modelos acústicos do ASR ao agregado de microfones e ao tipo
de filtragem espacial que é aplicado.
78
8.1. Trabalhos futuros
Os resultados preliminares
22
de adaptação dos modelos acústicos do ASR, com fala
adquirida com o agregado de microfones, mostram uma diminuição do WER em cerca de 1%. Em
termos de número de acções correctamente interpretadas pelo sistema de diálogo, verifica-se um
aumento superior a 2%. Estes resultados evidenciam que a adaptação dos modelos acústicos,
utilizando corpus de treino adquirido com o agregado de microfones, apresenta-se como um método
a explorar para um aumento da robustez dos sistemas de ASR, integrados com agregados de
microfones.
Por razões de ordem prática, no futuro o agregado deverá tender para dimensões mais
reduzida, que está directamente associado a uma redução do número de microfones do agregado.
Embora a redução do agregado diminua directamente a sua abertura espacial (o que não é
desejável), por outro lado a diminuição do número de microfones reduz significativamente o peso
computacional de métodos de filtragem espacial, como o GSC. Deste modo, é possível explorar
outros métodos com o Robust Adaptive Beamformer (apresentado na secção 5.2), que implica uma
maior exigência computacional, no entanto são anunciados [14, 15, 47] que este método produz
melhores resultados de atenuação de sinais espúrios.
A disposição linear dos microfones no agregado, não permite que este seja utilizado para
localização em 3D. Por esta razão, será abordado num futuro próximo a alteração da disposição dos
microfones para permitir a localização e seguimento no espaço a 3D. A disposição dos microfones
deve ser de tal forma, que garanta a maior abertura possível do agregado, com o menor número de
microfones. Desta forma, é maximizada a resolução espacial do agregado e minimizado o custo
computacional, devido ao volume de dados que os filtros espaciais têm de processar.
22
São feitos treinos dos modelos acústicos com 25 minutos de áudio adquirido e processado com o DnSB. Como conjunto de
teste foram usadas 120 frases (492 palavras), correspondentes a acções correctas do sistema de diálogo.
79
9. Referências
[1]
P. S. Naidou, "Sensor Array Signal Processing," CRC Press, 2001.
[2]
H. L. Van Trees, "Optimum Array Processing," Wiley, 2002.
[3]
D. G. Manolakis, V. K. Ingle, and S. M. Kogon, "Statistical and adaptive signal
processing.Spectral estimation, signal modeling, adaptive filtering and array processing "
McGraw-Hill, 2005.
[4]
J. P. Neto, R. Cassaca, M. Viveiros, and M. Mourão, "Design of a Multimodal Input Interface
for a Dialog System," in Proceedings of PROPOR, 2006.
[5]
V. Stanford, J. Garofolo, O. Galibert, M. Michel, and C. Laprun, "The NIST Smart Space and
Meeting Room Projects: Signals, Acquisition, Annotation and Metrics," in Proceedings of
ICASSP, 2003.
[6]
A. Brutti, M. Omologo, and P. Svaizer, "Oriented global coherence field for the estimation of
the head orientation in smart rooms equipped with distributed microphone arrays," in
Proceedings of INTERSPEECH, 2005.
[7]
T. Hain, L. Burget, J. Dines, I. McCowan, M. Karafiat, M. Lincoln, D. Moore, G. Garau, V.
Wan, R. Ordelman, and S. Renals, "The Development of the AMI System for the Transcription
of Speech in Meetings," 2nd Joint Workshop on Multimodal Interaction and Related Machine
Learning Algorithms, 2005.
[8]
H. F. Silverman, W. R. Patterson, and J. L. Flanagan, "The huge microphone array. Technical
report," LEMS, Brown University, 1996.
[9]
E. Weinstein, K. Steele, A. Agarwal, and J. Glass, "LOUD: A 1020-Node Modular Microphone
Array and Beamformer for Intelligent Computing Spaces," MIT/LCS Technical Memo MITLCS-TM-642, 2004.
[10]
C. Rochet, "Technical Documentation of the Microphone Array Mark III " NIST, sep. 2005.
[11]
C. Rochet, "User's Manual of the Microphone Array Mark III version 2," NIST, sep. 2005.
[12]
M. Brandstein and D. Ward, "Microphone Arrays," Springer, jan. 2001.
[13]
L. J. Griffiths and C. W. Jim, "An alternative approach to linear constrained adaptive
beamforming," IEEE Trans. Antennas Propagat., vol. AP-30, pp. 27-34, 1982.
81
[14]
O. Hoshuyama, A. Sugiyama, and A. Hirano, "A roubust adaptive beamformer with a blocking
matrix using coefficient constrained adaptive filters," IEEE Trans. Signal Processing, vol. 47,
pp. 2677-2684, 1999.
[15]
O. Hoshuyama and A. Sugiyama, "Robust Adaptive Beamforming," in Microphone Arrays, M.
Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 87-109.
[16]
R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant
rooms," Proc. IEEE Int. Conf. Acoustics, Speech and Signal Proc. (ICASSP), vol. 5, pp. 2578–
2581, 1988.
[17]
R. Zelinski, "Noise reduction based on microphone array with LMS adaptive post-filtering,"
Electron. Lett., vol. 26, pp. 2036–2037, 1990.
[18]
K. U. Simmer, J. Bitzer, and C. Marro, "Post-Filtering Techniques," in Microphone Arrays, M.
Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 39-60.
[19]
C. Marro, Y. Mahieux, and K. U. Simmer, "Analysis of noise reduction and dereverberation
techniques based on microphone arrays with postfiltering," IEEE Trans. Speech and Audio
Processing, vol. 6, pp. 240-259, 1998.
[20]
I. A. McCowan and H. Bourlard, "Microphone array post-filter based on noise field coherence,"
IEEE Trans. Speech and Audio Processing, vol. 11, pp. 709-716, 2003.
[21]
D. H. Johnson and D. E. Dudgeon, Array Signal Processing: Concepts and Techniques:
Prentice Hall, 1993.
[22]
H. Cox, R. M. Zeskind, and T. Kooij, "Pratical supergain," IEEE Trans. Acoust. Speech Signal
Processing, vol. 34, pp. 393-398, 1986.
[23]
J. Bitzer, K. U. Simmer, and K. D. Kammeyer, "An alternative implementation of the
superdirective beamformer," in Proc. IEEE Workshop Applicat. Signal Processing to Audio
Acoust. NY, USA, 1999, pp. 7-10.
[24]
J. Bitzer and K. U. Simmer, "Superdirective Microphone Arrays," in Microphone Arrays, M.
Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 19-38.
[25]
D. B. Ward, R. A. Kennedy, and R. C. Williamson, "Constant Directivity Beamforming," in
Microphone Arrays, M. Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 3-17.
[26]
D. B. Ward, R. A. Kennedy, and R. C. Williamson, "Theory and design of broadband sensors
arrays with frequency invariant far-field beam pattrens," J. Acoust. Soc. Amer., vol. 97, pp.
1023-1034, 1995.
82
[27]
S. Affes and Y. Grenier, "A signal subspace tracking algorithm for microphone array
processing of speech," IEEE Trans. Speech and Audio Processing, vol. 5, pp. 425 - 437,
1997.
[28]
M. H. Er and B. C. Ng, "A new approach to robust beamforming in the presence of steering
vector errors," IEEE Trans. Signal Processing, vol. 42, pp. 1826-1829, 1994.
[29]
G. L. Fudge and D. A. Linebarger, "A calibrated generalized sidelobe canceller for wideband
beamforming," IEEE Trans. Signal Processing, vol. 42, pp. 2871 - 2875, 1994.
[30]
B. Widrow and J. McCool, "A comparison of adaptive algorithms based on the methods of
steepest descent and random search," IEEE Trans. Antennas Propagat., vol. 24, pp. 615 637, 1976.
[31]
M. H. Er and A. Cantoni, "Derivative constraints for broad-band element space antenna array
processors," IEEE Trans. Acoust. Speech Signal Processing, vol. 31, pp. 1378 - 1393, 1983.
[32]
M. H. Er and A. Cantoni, "An unconstrained partitioned realization for derivative constrained
broad-band antenna array processors," IEEE Trans. Acoust. Speech Signal Processing, vol.
34, pp. 1376 - 1379, 1986.
[33]
I. Claesson and S. Nordholm, "A spatial filtering approach to robust adaptive beaming," IEEE
Trans. Antennas Propagat., vol. 40, pp. 1093 - 1096, 1992.
[34]
N. K. Jablon, "Adaptive beamforming with the generalized sidelobe canceller in the presence
of array imperfections," IEEE Trans. Antennas Propagat., vol. 34, pp. 996 - 1012, 1986.
[35]
H. Cox, R. Zeskind, and M. Owen, "Robust adaptive beamforming," IEEE Trans. Acoust.
Speech Signal Processing, vol. 35, pp. 1365 - 1376, 1987.
[36]
J. E. Greenberg and P. M. Zurek, "Evaluation of an adaptive beamforming method for hearing
aids," J. Acoust. Soc. Amer., vol. 91, pp. 1662-1676, 1992.
[37]
F. A. Everest, "Master Handbook of Acoustics," McGraw-Hill, 2001.
[38]
J. E. Adcock, "Optimal filtering and speech recognition with microphone arrays." vol. PhD
thesis, Providence RI: Brown University, 2001.
[39]
C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay,"
IEEE Trans. Acoust. Speech Signal Processing, vol. 24, pp. 320 - 327, 1976.
[40]
B. Champagne, S. Bedard, and A. Stephenne, "Performance of time-delay estimation in the
presence of room reverberation," IEEE Trans. Speech and Audio Processing, vol. 4, pp. 148152, 1996.
83
[41]
M. Brandstein and H. Silverman, "A pratical methodology for speech source localization with
microphone arrays " Computer, Speech and Language vol. 11, pp. 91-126, 1997.
[42]
J. DiBiase, "A high-accuracy, low-latency technique for talker localization in reverberant
environments." vol. PhD thesis, Providence RI: Brown University, 2000.
[43]
P. Smaragdis and P. Boufounos, "Position and Trajectory Learning for Microphone Arrays,"
IEEE Trans. Audio, Speech and Language Processing, vol. 15, pp. 358 - 368, 2007.
[44]
G. Arslan, F.A. Sakarya, and B.L. Evans, "Speaker Localization for Far-field and Near-field
Wideband Sources Using Neural Networks," IEEE Workshop on Nonlinear Signal and Image
Processing, 1999.
[45]
H. Meinedo, D. A. Caseiro, J. P. Neto, and I. Trancoso, "AUDIMUS.media: a Broadcast News
speech recognition system for the European Portuguese language," in PROPOR'2003 - 6th
International Workshop on Computational Processing of the Portuguese Language, Springer,
Ed., 2003.
[46]
P. D. Welch, "The use of fast Fourier transforms for the estimation of power spectra: A method
based on time averaging over short modified periodograms," IEEE Transactions on Audio and
Electroacoustics, vol. 15, pp. 70-73, 1967.
[47]
A. A. Gareta, "A multi-microphone approach to speech processing in a smart-room
environment." vol. PhD thesis, Barcelona (Spain): Universitat Politècnica de Catalunya, 2006.
84
Anexo A. Resultados
experimentais
da
calibração
do
agregado
A primeira calibração foi feita usando um sinal sinusoidal com uma frequência de 430 Hz,
como sinal de teste. O sinal é gerado por um gerador de sinais analógico que é ligado, por intermédio
de um amplificador, ao altifalante colocado no interior da câmara anecóica. Foi escolhido um sinal
sinusoidal porque, sendo uma onda estacionária de amplitude constante e, como são garantidas as
condições de onda plana, todos os microfones do agregado são excitados da mesma forma e com a
mesma intensidade. Como a calibração dos microfones é um método intrusivo, por ser necessário
ajustar manualmente os potenciómetros de cada microfone, escolheu-se uma frequência de 430 Hz
por ser confortável ao ouvido humano e por ser uma frequência não múltipla das harmónicas da rede
eléctrica à qual o MA está ligado, de modo a evitar uma potencial influência das harmónicas de 50Hz
no processo de calibração.
Depois de ajustados todos os pré-amplificadores com uma variação 0,5 dB, foram feitos
testes para sinais sinusoidais às frequências de 1kHz e 3kHz e com ruído branco Gaussiano (WGN).
Os resultados da Fig. A.1 mostram que existe uma variação dos ganhos com a frequência
dos sinais. Uma vez que a fala é um sinal com um espectro de frequências alargado, este resultado
não é desejável porque compromete a filtragem espacial pelas razões já referidas anteriormente.
Fig. A.1 Calibração com uma sinusóide a 430Hz.
Dado que os microfones estão mecanicamente inseridos na estrutura do MA, esta variação
em frequência pode ser explicada pela influência da ressonância na caixa dos microfones e/ou por
vibrações da estrutura do agregado propagadas aos microfones.
A.1. Efeito da ressonância e da vibração
Foram conduzidos testes para verificar a influência dos efeitos de ressonância do agregado
nas sensibilidades dos microfones. A hipótese da existência de ressonância justifica-se pelas
dimensões do módulo dos microfones, M1, onde estão implantados os 64 microfones. Os testes
85
consistem em verificar quais as alterações nas variações das sensibilidades dos microfones para
vários sinais de teste, alterando as condições de ressonância no módulo dos microfones.
As condições de ressonância foram alteradas de três formas diferentes, alterando as
condições acústicas no interior de M2: (i) módulo fechado sem barreiras acústicas, de forma a
maximizar o efeito ressonante; (ii) módulo com o topo aberto, ficando o seu interior exposto ao campo
livre; (iii) módulo fechado com o seu interior totalmente preenchido com lã, de forma a minimizar o
efeito ressonante.
Observa-se pela Fig. A.1 que a maior variação dos ganhos na frequência acontece para
sinais sinusoidais a 1 kHz. Da mesma forma, se a ressonância influenciar o comportamento dos
ganhos dos microfones, espera-se que a esta frequência existam maiores variações dos ganhos.
Os resultados da Fig. A.2 mostram que as sensibilidades dos microfones não são
influenciadas pelo efeito da ressonância, uma vez que a variação dos ganhos em frequência não é
alterada pelas modificações das propriedades acústicas feitas no módulo dos microfones.
Fig. A.2 Efeito da ressonância.
Dado que o agregado é suspenso na câmara anecóica apenas as vibrações, resultantes das
ondas acústicas incidentes no painel frontal do agregado, são tidas em conta. Como o sinal de teste é
o único elemento que pode variar a acústica no interior da câmara, as frequências de vibrações do
painel dependem das frequências dos sinais de teste. Dadas as dimensões do painel frontal onde
estão colocados os microfones, existem dois tipos de vibrações na estrutura do agregado passíveis
de serem propagadas aos microfones:
86

Vibrações extrínsecas:
Tal como a corda de uma guitarra, o painel pode sofrer vibrações que dependem do seu
comprimento e da frequência à qual é excitado. Desta forma, as vibrações propagadas aos
microfones dependem da sua posição no painel: nos microfones colocados nos extremos a
influência será nula ou desprezável e será mais intensa para os microfones colocados no centro
do painel.

Vibrações intrínsecas:
Como em qualquer material, as vibrações a que o painel está sujeito dependem das velocidades
de propagação características do próprio acrílico. Este tipo de vibração é uniforme ao longo do
painel e depende da frequência do sinal de teste.
Como já foi referido, os microfones estão implantados no painel frontal do agregado. Desta
forma, as vibrações da estrutura são propagadas aos microfones resultando na vibração da
membrana destes. No caso de existirem vibrações que alterem a sensibilidade dos microfones, as
mesmas podem ser quantificadas por análise espectral dos sinais, em cada microfone.
Da análise espectral dos sinais capturados, apenas se regista a frequência fundamental do
sinal, podendo eliminar-se a hipótese de propagação de vibrações aos microfones como causa da
variação dos ganhos em frequência. Este resultado constata a qualidade dos microfones usados.
Como a membrana do microfone de electreto tem uma inércia muito pequena, este tipo de microfones
têm um bom comportamento face a vibrações por acoplamento mecânico e uma resposta plana na
frequência para variações de SPL.
A.2. Influência das reflexões dos sinais
Eliminado o efeito de ressonância e das vibrações com causa da variação dos
ganhos/sensibilidades em frequência, procedeu-se a um teste para verificar a influência da reflexão
da onda incidente do painel frontal, na variação das sensibilidades dos microfones. Para esse efeito,
foram desacoplados o microfone #16 e #32. O último microfone foi escolhido por ser o microfone com
maior variação do ganho para a frequência de 1kHz, enquanto que o primeiro foi escolhido para
comparação dos resultados.
Para se concluir acerca dos resultados de desacoplamento dos microfones, foram
desacoplados e colocados a uma distância do painel de: (a) 0,5 cm; (b) 1,5 cm.
Ambas as situações são comparadas com uma referência, na qual todos os microfones estão
inseridos no painel.
87
Fig. A.3 Influência da reflexão do painel.
A variação do ganho dos microfones devido à variação da distância relativa entre o microfone
e a fonte de sinal é pequena. Para uma variação de 1,5cm a variação de ganho associada é de ≈
+0,03dB e por isso desprezável. Dessa forma, a variação da sensibilidade dos microfones
desacoplados (Fig. A.3) só pode ser justificado pelo facto de existirem reflexões no painel da onda
incidente e que interferem com a onda captada pelo microfone.
Concluindo-se sobre a existência de reflexões do painel frontal, que influencia o processo de
calibração, foram feitos uma série de testes para averiguar o efeito da reflexão na sensibilidade dos
microfones.
Pelo facto de o módulo de comunicação, M2, estar próximo do painel frontal, foi feito um teste
para se concluir sobre o efeito da reflexão causado por M2. Na Fig. A.4 mostra-se o resultado da
captura feita com (i) M2 colocado na sua posição original (ver Fig. 2.11) e (ii) M2 isolado
acusticamente (envolvido em lã de vidro) e colocado na parte posterior do agregado, de forma a
eliminar o seu efeito reflector. Destes resultados pode-se concluir que o efeito da alteração do campo
acústico, causado pela presença de M2 junto do painel dos microfones, altera a variação dos ganhos
com a frequência.
88
Fig. A.4 Influência do modulo M2.
A vantagem de testar o agregado de microfones na câmara anecóica é a possibilidade de
manipular as condições acústicas no seu interior com grande facilidade. Desta forma é possível testar
o comportamento do agregado face alterações acústicas, especificamente aos efeitos de reflexão dos
sinais de teste. Desta forma, foram feitos testes colocando um painel com 0,9x1m, que serve de
elemento reflector dos sinais da fonte sonora, em duas posições específicas: (i) por trás do agregado
a 0,6 m de distância, simulando a reflexão de uma parede; (ii) debaixo do agregado a 0,90 m de
distância da base, simulando a reflexão do chão.
Foi tomado como referência destes testes a situação (ii) da Fig. A.4, para se eliminar a
reflexão causada por M2. Desta forma, apenas a superfície do painel frontal do agregado e o painel
reflector em (i) e (ii) podem reflectir as ondas incidentes.
89
Fig. A.5 Influência do painel reflector.
Os resultados do efeito do painel reflector na Fig. A.5, mostram que existe uma influência das
ondas reflectidas na variação das sensibilidades dos microfones com a frequência. Na Fig. A.5 (a), (b)
e (c) observa-se que os sinais sinusoidais são pesadamente influenciados pelas superfícies
reflectoras, perpendiculares ao plano da propagação das ondas e por isso não são sinais apropriados
para a calibração dos microfones, uma vez que o painel frontal é perpendicular ao plano da
propagação dos sinais.
90
O resultado mais significativo deste teste é o obtido na Fig. A.5 (d), verifica-se que o ruído
branco Gaussiano (WGN) não é influenciado por nenhum dos efeitos reflectivos testados, permitindo
calibrar os microfones eliminando o efeito reflectivo adverso do painel frontal do agregado.
Desta forma, foi feita a calibração usando o WGN como sinal de teste. Contudo, este teste
obrigou a que se medissem os valores eficazes do ruído captado logo à saída dos pré-amplificadores,
em vez de se usar o “osciloscope” no computador. Este processo de calibração não foi inicialmente
considerado devido aos riscos que implicava.
O resultado da calibração com WGN, na Fig. A.6 mostra que foi possível calibrar os ganhos
dos pré-amplificadores dos microfones com uma variação de 0,3dB, que corresponde ao erro
associados às medições. Para os sinais sinusoidais verifica-se que existe uma variação nas
sensibilidades dos microfones limitado num intervalo de 3dB, no entanto as variações são
aproximadamente invariantes na frequência, quando comparadas com o resultado obtido na Fig. A.1
pelo método de calibração com uma sinusóide.
Fig. A.6 Calibração com WGN.
A variação das sensibilidades para sinusóides, observada na Fig. A.6, deve-se à influência
das reflexões do painel frontal. Uma forma de eliminar esta variação, passa por alterar fisicamente o
painel frontal, e.g. colocando o painel frontal em forma de cunha para reflectir a onda incidente numa
direcção diferente do plano da propagação das ondas incidentes.
A.3. Testes com sinais de fala
Até aqui apenas foram realizados testes ao agregado de microfones com sinais estacionários.
Como o objectivo do agregado é capturar sinais de fala (sinais não-estacionários), pretende-se
verificar qual o comportamento da variação das sensibilidades dos microfones com sinais de fala e
comparar com os resultados obtidos anteriormente. Na Fig. A.7 comparam-se as componentes
vozeadas e não vozeadas de um sinal de fala, com WGN.
91
Fig. A.7 Testes com fala
Como seria de esperar, a variação das sensibilidades dos microfones para os segmentos
vozeados e não-vozeados na Fig. A.7 é semelhante à variação observada na Fig. A.6, para as
sinusóides e WGN respectivamente. Em termos gerais, este resultado permite concluir que as
componentes não vozeadas dos sinais de fala não são influenciadas pelo efeito reflectivo do painel
dos microfones, o mesmo já não acontece para as componentes vozeadas, onde esse mesmo efeito
influência os valores de amplitude em cada microfone, tal como acontecia para os sinais sinusoidais.
Para verificar a variação das sensibilidades dos microfones com a variação da posição da
fonte sonora, foram feitas capturas de segmentos de fala com 6s de duração e com o locutor
colocado em varias posições na câmara anecóica, de acordo com a Fig. A.8.
1,7m
A3
22°
1,1m
B3
36°
0,5m 0,5m
C3
56°
D3
72°
0,85m
A2
B2
10°
C2
17°
D2
33°
A1
B1
C1
A4
B4
C4
D4
0,65m
D1
A5
B5
C5
D5
52°
Array
0,65m
0,85m
Fig. A.8 Posições do locutor na câmara anecóica
92
Fig. A.9 Variação das sensibilidades com a posição do locutor.
Dos resultados da Fig. A.9 (a) observa-se que a variação dos ganhos para as várias posições
não varia com a posição do locutor, excepto para a posição D1 onde se observa uma variação
acentuada dos ganhos porque, dada a proximidade do locutor ao agregado, não é garantido o modelo
de onda plana. Os resultados da Fig. A.9 (b) mostram que as sensibilidades dos microfones variam
com a direcção do locutor relativamente ao agregado. Conclui-se assim que os microfones são
sensíveis à variação da posição do locutor, o que significa que a calibração está de acordo com os
objectivos pretendidos.
93
Anexo B. Descrição das salas de ensaios experimentais
B.1. Sala nº 226 (Sala de alunos)
2
Esta sala tem uma área bruta de 29 m com um pé directo de 2,78 m. Por apresentar muitas
superfícies lisas (dos moveis colocados em todo os perímetro da sala) esta sala apresenta uma
acústica bastante reverberante.
Verificou-se que a janela da sala isola deficientemente o ruído do exterior da sala. Foi
verificada a presença de ruído de baixa frequência (<200Hz) de elevada intensidade, proveniente dos
extractores de ar colocados no exterior da sala. Este ruído, não é inteiramente perceptível pelo ouvido
humano. No entanto devido à elevada correlação espacial dos sinais nas baixas frequências, os filtros
espaciais não conseguem eliminar este tipo de ruído.
Extractores de Ar
Area: 29m2
Agregado de Microfones
Computadores
Ar Condicionado
Fig. B.1 Planta da sala de alunos
95
B.2. Sala de demonstrações
2
Esta sala tem uma área bruta de 16 m com um pé directo de 2,78 m. Têm uma acústica com
alguma reverberação. No entanto, devido a forma geométrica que esta sala apresenta, existem
pontos nesta sala onde se verifica a presença de efeitos ressonantes. A ressonância do sinal de fala
acontece quando uma ou mais direcções do sinal reflectido apresentam intensidades superiores ao
sinal não reflectido. O fenómeno de ressonância é particularmente indesejado na estimação da
posição do locutor na sala. No entanto, tal como acontece com o efeito reverberante dos sinais, a
ressonância potencia o efeito da correlação espacial entre o sinal desejado e os sinais interferentes,
diminuindo a capacidade de filtragem espacial em atenuar os sinais interferentes.
Area: 16m2
Agregado de Microfones
Quadro Branco
Computadores
Ar Condicionado
Fig. B.2 Planta da sala de demonstrações
96

Documentos relacionados