Utilização de Arrays de Microfones em ASR - INESC-ID
Transcrição
Utilização de Arrays de Microfones em ASR - INESC-ID
Utilização de Arrays de Microfones para Sistemas de Reconhecimento de Fala GUSTAVO FERNANDES ESTEVES SOARES COELHO Dissertação para obtenção do Grau de Mestre em ENGENHARIA ELECTROTÉCNICA E DE COMPUTADORES Júri Presidente: Prof. Doutor Francisco Miguel Prazeres da Silva Garcia Orientador: Prof. Doutor João Paulo da Silva Neto Co-orientador: Prof. Doutor António Joaquim dos Santos Romão Serralheiro Vogais: Prof. Doutor Moisés Simões Piedade Outubro de 2007 Agradecimentos Gostaria de agradecer, em primeiro lugar, ao meu orientador, Professor João Paulo Neto pelo seu apoio e orientação, pelo estímulo contínuo à investigação, pelo aprofundamento deste tema e pela confiança transmitida ao atribuir-me este trabalho. Ao meu co-orientador, Professor António Joaquim Serralheiro, pelo seu apoio incondicional, acompanhamento constante, discussão de ideias, sentido crítico e por, desde o princípio, me ter ajudado a resolver os problemas que à partida pareciam intransponíveis. Ao Professor Bento Coelho, por me ter cedido a câmara anecóica do CAPS para os testes e calibrações do agregado de microfones. Ao Sr. Rafael Serrenho, pela ajuda prestada durante os testes na câmara anecóica e ao Eng. Onofre Moreira pelos seus sábios conselhos sobre acústica. Ao Alberto Gareta, pela sua disponibilidade em partilhar a sua larga experiência com agregados de microfones e na interpretação de vários resultados experimentais. Ao David Matos, ao Hugo Meinedo e ao Sérgio Paulo, pela sempre disponível e preciosa ajuda durante o trabalho Ao Renato Cassaca e ao Márcio Viveiros na preciosa ajuda com as aplicações de ASR e com sistema de diálogo do mordomo virtual “Ambrósio” e à Helena Moniz pela ajuda com sugestões de escrita da tese. Ao Cerick Rochet do NIST, que desenvolveu o hardware original do agregado de microfones, pela sua ajuda na solução de problemas pontuais com agregado de microfones. A todos os meus colega que, de forma directa ou indirecta, contribuíram para este trabalho. E principalmente, à Cesaltina pela sua paciência e incansável ajuda que sempre me deu, e à minha família que sempre me apoiou em todos os momentos, pela confiança e orientação que sempre me deram. A eles, o meu muito obrigado! Lisboa, 30 de Setembro de 2007, Gustavo Esteves Coelho. i Resumo Desenvolvido no âmbito do Mestrado em Engenharia Electrotécnica e de Computadores, este trabalho tem como objectivo criar um modelo de aquisição de fala ubíquo, capaz de estabelecer uma interface de fala entre o homem e um computador. Pretende aplicar-se um agregado de microfones para adquirir o sinal de fala de um locutor colocado em campo distante e processa-lo em sistemas de Reconhecimento Automático de Fala (ASR). Usualmente, em aquisição de fala, são implementadas técnicas em campo próximo por meio de um ou dois microfones colocados perto do locutor. Este método clássico, permite minimizar a influência dos sinais espúrios, como o ruído ambiente ou sinais de fala de outros locutores, dada a proximidade do locutor aos microfones. No entanto, a colocação de microfones perto do locutor é, do ponto de vista do utilizador, um método intrusivo dado que existe uma restrição da liberdade de movimentos do próprio utilizador. O modelo de aquisição de fala proposto neste trabalho, permite criar um sistema hands-free e, como tal, ubíquo na interacção entre as pessoas e os computadores, minimizando os constrangimentos do utilizador ao equipamento de aquisição de fala. Pretende-se adquirir a fala em campo distante, num espaço físico limitado, sem que o locutor tenha a preocupação com a presença ou posição dos dispositivos de aquisição do sinal. No entanto, o sinal de fala adquirido em campo distante é severamente degradado pela reverberação do próprio sinal e por sinais espúrios. A utilização de agregados de microfones permite explorar a dimensão espaço-temporal do problema, com a implementação de técnicas de filtragem espacial. Como o sinal de fala e o ruído têm origem em pontos diferentes no espaço, os métodos de filtragem espacial permitem separar fisicamente estes dois sinais acústicos. O objectivo é direccionar electronicamente (por software) o agregado de microfones, de forma adquirir sinais de fala que se propagam numa determinada direcção, enquanto se rejeitam os sinais vindos de outras direcções. Uma vez que é feita a abordagem no domínio espaço-temporal dos sinais, o agregado de microfones pode ainda ser aplicado para localizar e seguir um número ilimitado de fontes acústicas (e.g. locutores). Para isso, foi construído um agregado de 64 microfones linearmente espaçados, como equipamento de aquisição da fala em campo distante. São desenvolvidas e aplicados métodos de filtragem espacial para speech enhancement: Delay-and-Sum Beamforming e Super Directive Beamforming como métodos de filtragem espacial fixa e o Generalized Sidelobe Canceller como método de filtragem espacial adaptativa. Para a localização, espacial é abordado o método de Generalized Cross Correlation. Foi desenvolvido ainda um método de calibração do agregado, que permitiu ajustar as sensibilidades dos 64 microfones com uma variação máxima de 0,3dB e aproximadamente invariante na frequência. Palavras chave Agregados de microfones, Filtragem espacial, Reconhecimento automático de fala, Aquisição de fala, Speech enhancement, Localização de fontes acústicas, Domótica. iii Abstract This work was developed for my graduation theses for the Master of Science in Electrical and Computer Engineering, and aims to develop a ubiquitous speech acquisition system for Automatic Speech Recognition (ASR) applications. The main objective is to build a speech acquisition system capable of enhancing the speech signals and attenuating the noise signals in far-talk environments. The classic approach for speech acquisition is normally implemented by using one or two microphones close to the speech source (e.g. using head-set mounted microphones), in order to maximize the signal-to-noise ratio. One drawback of the classic approach is the intrusive point of view for the user, where the speaker cannot be free to move or wear a specific device. However, if the speaker needs to move inside a large room, or to an adjacent one, other ways of speech acquisition are mandatory. Microphone arrays are commonly use for far-talk speech acquisition. However, they have drawbacks, such as also capturing ambient noises or other conversations, which adversely affect speech recognition. Seeking to create ubiquitous speech acquisition for human and computer interaction environment and minimizing constrains for speech acquisition, where humans does not have to concern about the presence or positions of the microphones, or speak directly to a close-talk microphone. Microphone arrays can explore the fact that speech and interfering noise sources are physically separate in space enabling, thus, to perform speech enhancement. This spatial-temporal approach, allows performing the spatial filtering of speech and noise signals for speech enhancement. Spatial filters or beamforming methods, is a process that emphasize signals from a particular direction while attenuating those from other directions. This spatial-temporal approach can be also used for source detection and tracking, e.g. a locating a moving speaker. In this work, spatial filtering techniques where implemented using a 64 microphone Uniform Linear Array, for speech acquisition. For speech enhancement was developed and applied the Delay-and-sum Beamforming and Super Directive Beamforming algorithms for fixed beamforming, and the Generalized Sidelobe Canceller for adaptive beamforming. The Generalized Cross Correlation method was address for the source localization issues. In addition, a novel microphone arrays calibration method was developed. The array microphone’s sensitivity with a 0.3dB variation and approximated invariant frequency was achieved. Keywords Microphone arrays, Beamforming, Spatial filtering, Automatic speech recognition, Speech acquisition, Speech enhancement, Audio source localization, Smart home environment. v Índice AGRADECIMENTOS ............................................................................................................................... I RESUMO ................................................................................................................................................ III PALAVRAS CHAVE .............................................................................................................................. III ABSTRACT ............................................................................................................................................. V KEYWORDS ........................................................................................................................................... V ÍNDICE................................................................................................................................................... VII LISTA DE FIGURAS .............................................................................................................................. IX LISTA DE TABELAS ........................................................................................................................... XIII LISTA DE ACRÓNIMOS .......................................................................................................................XV 1. 2. INTRODUÇÃO ............................................................................................................................. 1 1.1. ENQUADRAMENTO – PROJECTO DA CASA DO FUTURO .............................................................. 2 1.2. OUTROS TRABALHOS RELACIONADOS ...................................................................................... 4 1.3. TRABALHO REALIZADO E CONTRIBUTOS .................................................................................. 6 1.4. ESTRUTURA DO TRABALHO ...................................................................................................... 7 DESCRIÇÃO DO AGREGADO DE MICROFONES .................................................................... 9 2.1. ARQUITECTURA E FUNCIONAMENTO ........................................................................................ 9 2.2. DESCRIÇÃO DO HARDWARE.................................................................................................... 10 2.2.1. Microboard ....................................................................................................................... 10 2.2.2. Motherboard ..................................................................................................................... 13 2.3. 3. CALIBRAÇÃO DO AGREGADO DE MICROFONES ............................................................... 17 3.1. INFLUÊNCIA DAS CARACTERÍSTICAS DOS MICROFONES .......................................................... 17 3.2. MÉTODOS IMPLEMENTADOS ................................................................................................... 18 3.2.1. Condições de teste ............................................................................................................. 18 3.2.2. Cálculo dos ganhos dos microfones .................................................................................. 19 3.3. 4. MONTAGEM E ALTERAÇÕES DO HARDWARE........................................................................... 15 PRINCIPAIS RESULTADOS DA CALIBRAÇÃO ............................................................................. 20 INTRODUÇÃO AO PROCESSAMENTO COM AGREGADOS DE MICROFONES ................. 21 4.1. CONCEITOS FUNDAMENTAIS .................................................................................................. 21 4.1.1. Propagação das ondas acústicas ...................................................................................... 23 4.1.2. Modelo do sinal do agregado............................................................................................ 23 4.1.3. Direcção da onda incidente (DoA) ................................................................................... 25 4.1.4. Amostragem e aliasing espacial ........................................................................................ 26 4.1.5. Resolução espacial ............................................................................................................ 28 4.2. APLICAÇÃO DO AGREGADO DE MICROFONES: FILTRAGEM ESPACIAL E LOCALIZAÇÃO ........... 32 4.2.1. Filtragem espacial – Beamforming ................................................................................... 32 4.2.2. Estimação do DoA para localização e seguimento ........................................................... 33 vii 5. FILTRAGEM ESPACIAL PARA SPEECH ENHANCEMENT ................................................... 34 5.1. FILTRAGEM ESPACIAL FIXA ................................................................................................... 34 5.1.1. Delay-and-Sum Beamformer (DnSB) ................................................................................ 35 5.1.2. Filter-and-Sum Beamformer ............................................................................................. 36 5.1.3. Super Directive Beamformer (SDB) .................................................................................. 38 5.2. FILTRAGEM ESPACIAL ADAPTATIVA ...................................................................................... 39 5.2.1. Generalized Sidelobe Canceller (GSC) ............................................................................. 39 5.2.2. Robust Adaptive Beamformer............................................................................................ 41 5.3. RESULTADOS EXPERIMENTAIS ............................................................................................... 44 5.3.1. Filtragem Espacial Fixa ................................................................................................... 44 Ensaio em câmara anecóica ........................................................................................................... 45 Ensaio em ambientes reverberantes reais ...................................................................................... 48 5.3.2. Filtragem Espacial Adaptativa ......................................................................................... 51 Ensaio em câmara anecóica simulada............................................................................................ 51 Ensaio em ambientes reverberantes reais ...................................................................................... 53 5.4. 6. ANÁLISE DOS RESULTADOS .................................................................................................... 54 LOCALIZAÇÃO E SEGUIMENTO COM AGREGADOS DE MICROFONES ........................... 59 6.1. STEERED RESPONCE POWER (SRP) ........................................................................................ 60 6.2. GENERALIZED CROSS CORRELATION (GCC) ......................................................................... 61 6.3. RESULTADOS EXPERIMENTAIS ............................................................................................... 63 6.3.1. 6.4. 7. 8. ANÁLISE DOS RESULTADOS .................................................................................................... 71 AVALIAÇÃO DO AGREGADO DE MICROFONES EM SISTEMAS ASR ............................... 73 7.1. RESULTADOS EXPERIMENTAIS EM AMBIENTES REVERBERANTES REAIS ................................. 73 7.2. ANÁLISE DOS RESULTADOS .................................................................................................... 75 CONCLUSÕES E TRABALHOS FUTUROS ............................................................................. 77 8.1. 9. Ensaio em ambientes reverberantes reais ......................................................................... 65 TRABALHOS FUTUROS ............................................................................................................ 79 REFERÊNCIAS .......................................................................................................................... 81 ANEXO A. RESULTADOS EXPERIMENTAIS DA CALIBRAÇÃO DO AGREGADO.................. 85 A.1. EFEITO DA RESSONÂNCIA E DA VIBRAÇÃO ............................................................................. 85 A.2. INFLUÊNCIA DAS REFLEXÕES DOS SINAIS ............................................................................... 87 A.3. TESTES COM SINAIS DE FALA .................................................................................................. 91 ANEXO B. DESCRIÇÃO DAS SALAS DE ENSAIOS EXPERIMENTAIS .................................... 95 B.1. SALA Nº 226 (SALA DE ALUNOS) ............................................................................................ 95 B.2. SALA DE DEMONSTRAÇÕES .................................................................................................... 96 viii Lista de figuras Fig. 1.1 Arquitectura do mordomo virtual “Ambrósio”. ............................................................... 3 Fig. 1.2 Maior agregado de microfones do mundo, construído no MIT. .................................... 5 Fig. 1.3 Diferentes exemplos de aplicação de agregados de microfones. ................................ 6 Fig. 2.1 Arquitectura do agregado de microfones. ..................................................................... 9 Fig. 2.2 Visualização dos canais do agregado com o programa “osciloscope”. ...................... 10 Fig. 2.3 Placa da Microboard. .................................................................................................. 11 Fig. 2.4 Resposta em frequência dos microfones usados. ...................................................... 11 Fig. 2.5 Andar de amplificação da Microboard. ........................................................................ 12 Fig. 2.6 Andar de digitalização. ................................................................................................ 12 Fig. 2.7 Pinout da interface com a Motherboard. ..................................................................... 13 Fig. 2.8 Placa da Motherboard. ................................................................................................ 13 Fig. 2.9 Esquema do funcionamento da Motherboard ............................................................. 14 Fig. 2.10 Pacote UDP de comunicação do agregado. ............................................................. 14 Fig. 2.11 Agregado de microfones suspenso no interior da câmara anecóica. ....................... 15 Fig. 3.1 Simulação dos diagramas de directividade do agregado de microfones. .................. 18 Fig. 4.1 Efeito da direcção de propagação de uma sinusóide incidente num agregado de microfones. ............................................................................................................................................ 22 Fig. 4.2 Campo próximo e campo distante............................................................................... 23 Fig. 4.3 Modelo do sinal para um agregado de N microfones. ................................................ 24 Fig. 4.4 Modelo do sinal incidente no agregado. ..................................................................... 26 Fig. 4.5 Influência da variação da distância d na directividade do agregado para aberturas constantes: (a)(b) filtragem sem aliasing, (c)(d) filtragem com aliasing. ............................................... 29 Fig. 4.6 Influência do número de microfones na resolução espacial do agregado. ................. 30 Fig. 4.7 Influência da frequência do sinal incidente na directividade do agregado. ................ 31 ix Fig. 5.1 Esquema de implementação do Delay-and-Sum Beamformer. .................................. 35 Fig. 5.2 Filtragem Espacial do DnSB para um agregado de 64 microfones com 2cm de espaçamento. ........................................................................................................................................ 36 Fig. 5.3 Filter-and-Sum Beamformer no domínio da frequência, para um intervalo de frequência k . ........................................................................................................................................ 37 Fig. 5.4 Filtragem Espacial do Super Directive Beamformer para um agregado de 64 microfones com 2cm de espaçamento. ................................................................................................. 38 Fig. 5.5 Estrutura do GSC: Fixed Beamformer (FBF), Blocking Matrix (BM) e Multiple Canceller (MC). ..................................................................................................................................... 40 Fig. 5.6 Estrutura CCAF-NCAF do Robust Adaptive Beamformer. ......................................... 42 Fig. 5.7 Resultado do algoritmo Delay and Sum Beamforming (DnSB). ................................. 45 Fig. 5.8 Resultados do algoritmo Super Directive Beamforming (SDB). ................................. 46 Fig. 5.9 Resultados da filtragem espacial em ambientes reais. ............................................... 50 Fig. 5.10 (a) Factor de directividade (DI) e (b) Atenuação do ruído incorrelacionado (WNG) para DnSB e SDB. ................................................................................................................................. 55 Fig. 5.11 Efeito da variação de μ em DI e WNG ...................................................................... 56 Fig. 5.12 Resultados experimentais do GSC com VAD em ambientes reais: evolução da energia do sinal de fala processado pelo FBF e GSC. ......................................................................... 57 Fig. 6.1 Divisão do agregado em sub-agregados de dimençõe inferiores. .............................. 64 Fig. 6.2 Posições reais do locutor para o ensaio experimental ............................................... 65 Fig. 6.3 Estimação do ângulo DoA com dois pares de microfones. ........................................ 66 Fig. 6.4 Análise do sinal de fala do microfone #32. ................................................................. 67 Fig. 6.5 Influência dos parâmetros do GCC na estimação do ângulo DoA. ............................ 68 Fig. 6.6 Relação entre DoA e para microfones com 0,14m de separação ............................ 71 Fig. 6.7 Variação da resolução de DoA com a distância entre microfones e frequência de amostragem. .......................................................................................................................................... 72 Fig. 7.1 Forma de onda de uma frase adquirida por vários métodos. ..................................... 75 x Fig. 7.2 Evolução da energia do sinal de fala processado pelo FBF e GSC, e do microfone #32. ........................................................................................................................................................ 76 Fig. 7.3 Densidade espectral dos sinais de processados. ....................................................... 76 Fig. A.1 Calibração com uma sinusóide a 430Hz. ................................................................... 85 Fig. A.2 Efeito da ressonância. ................................................................................................ 86 Fig. A.3 Influência da reflexão do painel. ................................................................................. 88 Fig. A.4 Influência do modulo M2. ............................................................................................ 89 Fig. A.5 Influência do painel reflector. ...................................................................................... 90 Fig. A.6 Calibração com WGN. ................................................................................................ 91 Fig. A.7 Testes com fala ........................................................................................................... 92 Fig. A.8 Posições do locutor na câmara anecóica ................................................................... 92 Fig. A.9 Variação das sensibilidades com a posição do locutor. ............................................. 93 Fig. B.1 Planta da sala de alunos ............................................................................................. 95 Fig. B.2 Planta da sala de demonstrações .............................................................................. 96 xi Lista de Tabelas Tab. 5.1 Variação do SNR com o algoritmo de filtragem espacial. ......................................... 47 Tab. 5.2 Variação do SNR com o ângulo DoA. ........................................................................ 49 Tab. 5.3 Simulação do GSC para dois sinais interferentes: variação do SNR. ....................... 52 Tab. 5.4 Aplicação do GSC em ambientes reais: variação do SNR. ....................................... 54 Tab. 6.1 Estimação do ângulo DoA com GCC-PHAT sem filtro de mediana. ......................... 69 Tab. 6.2 Estimação do ângulo DoA com GCC-PHAT com filtro de mediana. ......................... 70 Tab. 7.1 Resultados de reconhecimento das 20 frases. .......................................................... 74 xiii Lista de acrónimos AD Analógico-Digital. AMI Augmented Multi-party Interaction. ASR Automatic Speech Recognition, Reconhecimento Automático de Fala. BF BeamForming, Filtragem Espacial. BM Blocking Matrix, Matriz de Bloqueio. CAPS Centro de Análise e Processamento de Sinais. CCAF Coefficient Constrained Adaptive Filters. CHIL Computers In The Human Communication Loop. DI Directivity Index, Índice de directividade teórica do agregado. DnSB Delay-and-Sum Beamforming. DoA Direction of Arrival, Direcção do sinal Incidente no agregado. FBF Fixed Beamformer, Filtro de Espacial Fixo FPGA Field-Programmable Gate Array. GCC Generalized Cross Correlation. GND Ground, Referência do circuito. GSC Generalized Sidelobe Canceller. ICASSP International Conference on Acoustics, Speech and Signal Processing. INESC-ID Instituto de Engenharia de Sistemas de Computadores Investigação e Desenv. IO Input-Output. IOM Input Output Manager. IST Instituto Superior Técnico. ITC-irst Istituto Trentino di Cultura - Centro per la ricerca scientifica e tecnologica. 2 LF Laboratório de Sistemas Língua Falada. LMS Least Mean Squares Filter. MA Microphone Arrays, Agregado de Microfones. MAC Media Access Control address, Endereço físico da interface de rede. MC Multiple Canceller, Cancelador de múltiplas entradas. MIT Massachusetts Institute of Technology. ML Maximum Likelihood, Máxima Verosimilhança. MVDR Minimum Variance Distortionless Response. NCAF Norm Constrained Adaptive Filters. NIST National Institute of Standards and Technology. NLMS Normalized Least Mean Squares Filter. PCB Printed Circuit Board. PCM Pulse Code Modulation, Modulação por impulso codificado. PHAT Phase Transform. xv PROM Programmable Read Only Memory. RAM Random Access Memory, Memória de acesso aleatório. ROM Read Only Memory. SDB Super Directive Beamforming. SIPS Sistemas de Processamento de Sinal. SM Service Manager. SNR Signal-to-Noise Ratio, Relação Sinal-Ruído. SPL Sound Pressure Level, Nível de Pressão Acústica. TDoA Time Diference of Arrival, Atraso de propagação dos sinais entre microfones. TM Tex Maneger. TTS Text-To-Speech. UDP User Datagram Protocol. ULA Uniform Linear Array, Agregado de Microfones Linearmente Espaçados. USB Universal Serial Port. VAD Voice Activation Detector, Detector de fala. VHDL VHSIC hardware description language. WER Word Error Rate, Taxa de erro de palavras. WGN White Gaussian Noise, Ruído branco Gaussiano. WNG White Noise Gain, Atenuação do ruído incorrelacionado. xvi 1. Introdução Advertência: Devido à limitada ou inexistente bibliografia em língua portuguesa sobre aplicações com agregados de microfones ou temas como a filtragem espacial para sinais de fala, optei por utilizar a terminologia técnica anglo-saxónica, sob pena de a tradução para português desvirtualizar o contexto dos termos. O mesmo se aplica na terminologia de acrónimos. No entanto, sempre que possível é feita a tentativa de tradução dos termos técnicos para português, mas sempre com referência em inglês em parêntesis. Usualmente, em aquisição de fala, são implementadas técnicas por meio de um ou dois microfones perto da fonte emissora (campo próximo) (close-talk), de forma a maximizar o sinal de fala e minimizar os sinais de ruído. Esta forma de captação do sinal é, do ponto de vista do utilizador, uma técnica intrusiva. Os microfones sem fios, montados na lapela do utilizador, conferem mais liberdade de movimento. No entanto, existe uma degradação significativa da qualidade do sinal na presença de ruído ambiente e/ou múltiplos oradores, devido à omnidireccionalidade do microfone. O modelo de aquisição de fala proposto, nesta tese, permite criar um sistema hands-free e, como tal, ubíquo na interacção entre as pessoas e os computadores; minimizando os constrangimentos do utilizador ao equipamento de aquisição da fala. Pretende-se adquirir a fala num espaço físico limitado (sala de estar, sala de reuniões, quarto, etc.) sem que o utilizador tenha a preocupação com a presença ou posição dos dispositivos de aquisição do sinal. O modelo proposto, usa um dispositivo constituído por um agregado de sensores para a captura dos sinais de fala, colocado afastado da fonte emissora (campo distante) (far-talk). Dado que os sensores do agregado em questão são microfones, este dispositivo é denominado como Agregado de Microfones (Microphone Arrays). Ao contrário dos convencionais microfones, os agregados de microfones permitem ser electronicamente direccionáveis (electronic steer). Deste modo, num modelo de aquisição far-talk, o agregado permite adquirir o sinal (ou sinais) com qualidade, para uma direcção (ou direcções) específica, atenuando o ruído ou fontes interferentes de outras direcções. Como o agregado é electronicamente direccionado, por via de software, em vez de fisicamente alinhar os microfones, o agregado de microfones pode ser usado para localizar e seguir um número ilimitado de fontes emissoras de sinal (e.g. locutor) em movimento. Os sinais capturados, podem ser posteriormente manipulados por algoritmos de forma obter-se um sinal de fala sem ruído e que possa ser processado por um Sistema de Reconhecimento Automático de Fala (Automatic Speech Recognition) (ASR). O estudo e a implementação de agregados de sensores têm uma grande importância nas mais vastas áreas científicas com aplicações como, sonares, radares, sismologia, biomédica, comunicação, astronomia e processamento de imagem. Embora com diferentes aplicações, os princípios e técnicas de processamento aplicados a agregados de microfones, são comuns e baseiam-se nas características da propagação das ondas no espaço e no tempo [1-3]. 1 O objectivo do processamento com agregados de sensores é extrair informação de sinais no espaço, combinando os sinais dos sensores de forma a obter-se a informação de interesse. A informação de interesse de um sinal pode ser o seu conteúdo (comunicação) ou o local de origem que produz ou reflecte um sinal (radares e sonares). Em qualquer uma das situações, os sinais captados pelos sensores do agregado têm de ser processados de forma a extrair informação útil. A aplicação de agregados de microfones não é recente, os primeiros passos nesta área tiveram início na década de 80. No entanto, dada a complexidade e volume de informação que os sinais de fala geram, a sua evolução foi estrangulada pela então limitação de processamento computacional. Actualmente, dado o poder de processamento que os computadores atingiram, aliado ao amadurecimento nas áreas de reconhecimento da fala e à crescente procura em massa de novas tecnologias, o tema de modelos de aquisição de fala em campo distante (far-talk) ressuscitam o domínio da tecnologia com agregados de microfones. Mesmo existindo agregados de microfones funcionais, alguns on-the-shelf, observa-se que cada vez mais existem trabalhos académicos nesta área, o que indica que a aplicação com estes agregados ainda se encontra em estado embrionário. Desta forma, esta tese pretende ser uma aplicação desta tecnologia, mas também um contributo para a mesma, na medida em que são apresentados alguns trabalhos de campo inéditos levados a cabo com o agregado de microfones. A titulo de exemplo, a calibração do agregado na câmara anecóica e a corroboração de resultados de simulação com resultados experimentais. A teoria base por detrás desta forma ubíqua de adquirir a fala não foi inventada, mas sim reinventada. A teoria por detrás aos agregados de microfones, parte da tecnologia aplicada aos agregados de antenas, tais como radares e sonares, que é utilizada nas mais diversas áreas desde a sismologia à medicina. Todos os exemplos referidos anteriormente, referem-se à aplicação no domínio dos sinais de largura de banda estreita. No caso da mesma aplicação aos agregados de microfones para aquisição de fala, já não se pode partir do mesmo pressuposto, uma vez que os sinais de fala têm um espectro largo, cobrindo cerca de oito oitavas. 1.1. Enquadramento – Projecto da casa do futuro Com o objectivo de criar um modelo de uma casa inteligente e baseado em Sistemas de 2 Diálogo Falado, o Laboratório de Sistemas de Língua Falada (L F), do INESC-ID, desenvolveu o projecto do mordomo virtual “Ambrósio” [4]. É um projecto ambicioso, que visa desenvolver e aplicar tecnologias de automação de casas inteligentes e foi introduzido na Casa Interactiva do Futuro da Fundação Portuguesa das Comunicações, como um exemplo da potencialidade das tecnologias de domótica. A ideia subjacente ao projecto “Ambrósio” é a de criar um sistema que permita a um utilizador qualquer a possibilidade de interagir com os vários sistemas em casa, via diálogo com o mordomo virtual que está sempre disponível. Os sistemas a controlar podem ser muito variados (virtualmente infinitos), desde a iluminação de uma determinada divisão, ao ar condicionado, aos estores da janela, 2 passando por sistemas multimédia, televisão, acesso ao e-mail, informação meteorológica, trânsito, cotação da bolsa, etc. Para tornar a interacção entre o utilizador e o sistema o mais flexível possível, a interface é feita estabelecendo um diálogo entre o utilizador e o “Ambrósio”. O Ambrósio tem uma representação graficamente animada que responde aos pedidos feitos pelo utilizador, tornando a interacção com o sistema mais humana. A arquitectura do sistema está dividida de forma modular em 3 blocos genéricos (Fig. 1.1). No primeiro bloco, de entradas e saídas do sistema (Input Output Manager) (IOM) são implementados sistemas de ASR, Text-To-Speech (TTS), FACE e Text Manager (TM). O sistema de ASR é aplicado para reconhecimento da fala, como interface entre o utilizador e o Ambrósio; o sistema TTS é aplicado para gerar a fala do Ambrósio como interface entre este o utilizador. O sistema FACE é uma implementação 3D em Java que gera os movimentos e emoções da interface gráfica do Ambrósio. À semelhança do sistema ASR, o sistema TM serve de interface entre um utilizador por acesso WEB e o Ambrósio, criando-se assim duas formas possíveis de comunicar com o sistema: uma por fala, a partir do ASR, outra por WEB, a partir do TM. O segundo bloco, de Gestão de Diálogo (Dialogue Manager) (DM), recebe pedidos do bloco IOM e decide que tipo de acção deve tomar e enviar para o terceiro bloco de Gestão de Serviços (Service Manager) (SM). Este último, serve de interface entre o DM e os vários sistemas que se podem controlar ou interagir. Esta modularidade do sistema permite ainda que as interfaces, à qual o sistema global está associado, sejam independentes da aplicação; e.g. o módulo IOM pode receber os sinais de fala de vários tipos de microfones ou outro tipos de aparelhos, tais como PDA’s, telefones portáteis ou fixos, interface WEB, etc. O mesmo se aplica ao interface gráfico do Ambrósio que pode ser visualizado local ou remotamente por diferentes equipamentos multimédia. Fig. 1.1 Arquitectura do mordomo virtual “Ambrósio”. Esta independência do sistema de diálogo com a interface de fala, permite criar um sistema ubíquo de automação da casa inteligente, possibilitando que a interacção entre o utilizador e o Ambrósio possa ser feita virtualmente em qualquer divisão da casa ou até mesmo fora dela. 3 No âmbito do desenvolvimento de sistemas de interacção ubíquos, esta tese tem como objectivo a aplicação e desenvolvimento de sistemas de aquisição de fala ubíquos para ambientes virtuais. Pretende-se criar um módulo de aquisição de fala que seja também ubíquo, para ser integrado como sistema de aquisição de fala do IOM, no sistema de diálogo falado “Ambrósio”. Neste trabalho, é feita uma abordagem da aplicação de um agregado de microfones para aquisição de fala e eliminação de ruído (speech enhancement). No entanto, a aplicação do agregado de microfones não se esgota neste tipo de aplicação. Ao contrário do modelo de aquisição em campo próximo, o agregado de microfones pode ainda ser usado em aplicações de localização, seguimento e separação de oradores. Desta forma, a utilização de agregados de microfones na aquisição de fala, permite extrair informações para além do sinal de fala em si; o que possibilita abordar novos conceitos de automação de casas inteligentes, e.g. para localização e seguimento do locutor. Isto permite desambiguar comandos de fala como e.g. “liga esta televisão” ou “liga a luz por cima de mim”, uma vez que é possível obter a informação da localização do locutor a durante a aquisição do seu sinal de fala. Em contraste com as aplicações clássicas de aquisição de fala em campo próximo, todos estes exemplos são estimulantes para desenvolver aplicações de aquisição de fala com agregados de microfones. 1.2. Outros trabalhos relacionados Para contextualizar a aplicação dos agregados de microfones, serão referenciados nesta secção, aplicações com agregados de microfones e alguns projectos em curso. Direccionado para a área de teleconferência, o projecto Smart Space [5], desenvolvido no NIST (www.nist.gov/smartspace), aplica o mesmo agregado usado neste trabalho, na sua sala de reuniões inteligente. O agregado é usado para localizar o locutor com o objectivo de direccionar câmaras de vídeo, enquanto a fala é captada com microfones em campo próximo. Com um total de 208 microfones e 7 câmaras digitais distribuídos pela sala, esta sala de reuniões inteligente gera informação a uma taxa impressionante de 500Mbps. Integrado no projecto CHIL (http://chil.server.de) e desenvolvido no ITC-irst [6], são aplicados agregados de microfones para estimar a orientação da cabeça do locutor. São usados 7 agregados de 4 microfones, em forma de T, distribuídos pela sala de teste. Integrado no projecto AMI (www.amiproject.org) e desenvolvido por várias universidades, no artigo em [7], é descrito a implementação de agregados circulares, com 8 microfones, para sistemas automáticos de transcrição de reuniões. Existem vários projectos de investigação que utilizam agregados de microfones de grandes dimensões, para aplicações de aquisição de fala e/ou de localização/seguimento do orador. Em 1996 foi desenvolvido na Brown University [8], um agregado de 512 microfones que tinha como objectivo a aquisição de fala em ambientes ruidosos e reverberantes. Em 2004 no MIT [9], foi desenvolvido o maior agregado de microfones construído até hoje; um agregado de 1024 microfones que possibilita a separação e seguimento 3D de múltiplos oradores. 4 Fig. 1.2 Maior agregado de microfones do mundo, construído no MIT. No mercado já é possível encontrar algumas marcas que comercializam agregados de microfones. Normalmente, estes agregados lineares possuem desde duas unidades, até uma dezena de microfones incorporados, com interface USB ou analógico para uma utilização tipo plug-n-play em computadores pessoais. Estes agregados são comercializados com o objectivo de captar a fala em ambientes de ruído moderado, sem que o utilizador tenha que se preocupar com a colocação de um microfone perto de si. Dentro do conceito de aplicações hands-free e direccionado para a indústria automóvel, o AKG Q100 é um agregado de microfones digital que permite reduzir activamente o ruído e o eco, aumentando a directividade em ambientes específicos, como no interior de um carro. Existem também aplicações de agregados de microfones na área de auxílio à audição, em que se coloca um pequeno agregado pendurado no peito do utilizador, ligado a um auricular ou mesmo um mini agregado embutido no auricular. A Microsoft lançou em 2005 (www.microsoft.com/whdc/device/audio/MicArrays.mspx) um relatório preliminar sobre as vantagens e versatilidades de agregados de microfones aplicados em computadores. Direccionado para fabricantes de hardware (portáteis, monitores ou mesmo fabricantes de agregados com interface USB), o relatório descreve um conjunto de normas para a implementação de agregados em equipamento baseado na arquitectura da Microsoft Windows Vista. As normas especificam a implementação a nível da geometria, do número de microfones e das características do hardware. 5 Fig. 1.3 Diferentes exemplos de aplicação de agregados de microfones. Na Fig. 1.3: (a) agregado de dois microfones omnidireccionais para ligar a um computador; (b) auricular com um mini agregado de dois microfones direccionais; (c) e (d) agregado de 6 microfones para deficientes auditivos; (e) AKG Q100, agregado de 4 microfones incorporado no retrovisor de um Mercedes; (f) e (g) dois agregados de 8 microfones para ligação a um computador. 1.3. Trabalho realizado e contributos Uma vez que existem agregados com diferente número de microfones e diferentes disposições dos mesmos, foi elaborado inicialmente um estado da arte que permitisse aferir o tipo agregados de microfones apropriado para este trabalho. O estado de arte mostrou que a aplicação com agregado de microfones, para aquisição de fala, ainda se encontra numa fase de amadurecimento tecnológico e em contínua investigação. Não existindo por isso, uma avaliação objectiva quanto ao tipo de agregado de microfones indicado para a tarefa de aquisição de fala em sistemas de ASR. Da mesma forma, e por não existirem agregados de microfones de venda ao publico que merecessem a nossa atenção, foi construído de raiz um agregado de microfones. 2 Dotando assim o L F de um equipamento para aquisição de fala, com capacidade de filtrar espacialmente sinais acústicos, para localizar e seguir fontes acústicas como e.g. locutores em movimento. O agregado construído é baseado na última geração de agregados de microfones desenvolvidos pelo NIST. Este agregado tem a versatilidade de poder ser alterado em termos de número de microfones e disposição dos mesmos. Tem também a vantagem de ter uma interface Ethernet com protocolos de comunicação UDP normalizado, o que possibilita uma interface flexível entre o agregado e o módulo de IOM do mordomo virtual. Concluída a sua construção, o agregado foi submetido a uma fase de testes para verificar a integridade dos microfones, nomeadamente a sua resposta em frequência e verificar a variação de sensibilidades entre microfones. A fase de testes revelou que era necessário ajustar individualmente 6 o ganho do pré-amplificador de cada microfone, de forma a homogeneizar as sensibilidades entre os mesmos. Pelo facto de não existir qualquer tipo de material bibliográfico, que formalizasse um método de calibração de agregados de microfones para aquisição de fala, foi necessário conceber um método de calibração de raiz que foi submetido sob forma de artigo à ICASSP 2007. Como o sinal de fala tem um espectro de frequência largo (cobrindo cerca de 8 oitavas), o espectro do ruído pode aparecer sobreposto ao sinal de fala, tornando a filtragem na frequência por vezes ineficaz. Mais do que uma selecção na frequência, pretende-se focar os sinais numa dada direcção, descriminando-se espacialmente os sinais. Pretende-se que o agregado de microfones capte os sinais que se propagam no espaço ao longo do tempo e processá-los de forma a acentuar o sinal de uma dada direcção, i.e. funciona como um filtro espaço-temporal e emula uma antena mecanicamente direccionada. A capacidade de um agregado de microfones descriminar espacialmente os sinais é conhecido como beamforming e depende, entre outros factores, da disposição e quantidade dos seus sensores. Para a aplicação dos métodos de beamforming, foram desenvolvidos algoritmos em Matlab/Octave para processar os sinais acústicos adquiridos pelo agregado. Os métodos de filtragem espacial são aplicados neste trabalho para maximizar o sinal de fala (speech enhancement); i.e. para atenuar o efeito dos sinais espúrios, no sinal de fala adquirido em campo distante. Primeiramente, são aplicados métodos de filtragem espacial fixa, com o Delay-and-Sum Beamforming (DnSB) e o Super Directive Beamforming (SDB). Seguidamente, são desenvolvidos e aplicados métodos de filtragem espacial adaptativa, baseados no Generalized Sidelobe Canceller (GSC). A aplicação dos vários métodos de filtragem espacial é avaliada segundo a capacidade de atenuação dos sinais interferentes. Esta avaliação é feita comparado a relação sinal-ruído (SNR), em várias condições acústicas e para diferentes tipos de sinais interferentes. Para avaliar o resultado da filtragem espacial dos sinais de fala, que são posteriormente aplicados em sistemas ASR, é também feita uma avaliação quantitativa das taxas de erros de palavras (WER). Do mesmo modo, são também comparados os resultados dos métodos de aquisição de fala em campo próximo, usando um microfone tipo head-set colocado no locutor, com os métodos de aquisição de fala em campo distante, usando o agregado de microfones. Para localização e seguimento de fontes acústicas (mais propriamente para localização e seguimento do locutor), é implementado o método de Generalized Cross Correlation (GCC) com uma função de ponderação para transformação de fase (GCC-PHAT). 1.4. Estrutura do trabalho Esta tese está dividida em 8 capítulos, sendo que neste primeiro capítulo foi feito o enquadramento do trabalho, os objectivos e motivações. Apresenta-se uma resenha do estado da arte, descrevendo outros projectos relacionados com aplicações de agregados de microfones e soluções de aquisição de fala abordado neste trabalho. No segundo capítulo, descreve-se a implementação e funcionamento dos vários componentes do agregado de microfones, abordando-se a calibração do agregado no terceiro 7 capítulo. São apresentadas simulações que motivaram a calibração e avaliação da robustez do agregado de microfones. É também descrita a implementação do método de calibração proposto e são apresentados principais resultados da calibração. No quarto capítulo, é feita uma introdução ao processamento com agregados de microfones. São introduzidos os conceitos fundamentais aplicados aos agregados, onde é apresentado o modelo matemático bem como os pressupostos necessários à sua abordagem. É também feita uma introdução das aplicações com agregados de microfones, abordadas neste trabalho. O quinto capítulo, é dedicado aos métodos de filtragem espacial para speech enhancement. Primeiro são descritos algoritmos de filtragem espacial fixa, seguidos dos algoritmos de filtragem espacial adaptativa. Seguidamente, são apresentados os resultados experimentais da implementação dos filtros espaciais em vários tipos de ambientes acústicos reais e simulados. No final do capítulo é feita a análise dos resultados apresentados. No sexto capítulo, são abordados dois algoritmos distintos para implementação de métodos de localização e seguimento, utilizando agregados de microfones. São apresentados os resultados experimentais da aplicação do algoritmo GCC-PHAT em ambientes reverberantes reais, seguida da análise dos mesmos. No sétimo capítulo, é feita uma avaliação da aplicação dos agregados de microfones em sistemas de ASR. Primeiro, é feita uma breve caracterização do ASR aplicado em sistemas de diálogo, seguida da avaliação dos resultados de reconhecimento levados a cabo em ambientes reverberantes reais e com sinais interferentes com diferentes características. A avaliação do desempenho do reconhecimento é feita comparando os resultados de WER, para os sinais de fala adquiridos com o agregado de microfones e processados pelos filtros espaciais implementados. Por último, no oitavo capítulo, são apresentadas as conclusões e discussão dos principais resultados obtidos, e uma orientação do trabalho a realizar no futuro. 8 2. Descrição do Agregado de Microfones Neste capítulo é apresentado o equipamento de captura da fala, o agregado de microfones, fazendo-se a descrição da arquitectura e seu funcionamento, os módulos de hardware que o compõem e alguns pormenores mais relevantes. Por último é descrita a montagem e as alterações efectuadas no hardware implementado. 2.1. Arquitectura e funcionamento O agregado de microfones construído para este trabalho, foi baseado na arquitectura do “Mark III Microphone Array (vers.2)” [10]. Concluído nos finais de Setembro de 2005, esta é a terceira e mais recente geração de agregados de microfones desenvolvidos pelo NIST. A arquitectura do agregado é composta por oito placas electrónicas, as Microboards, com oito microfones cada e uma placa electrónica central, a Motherboard. Na Microboard é feita a aquisição, amplificação e conversão analógico-digital (AD) do sinal de áudio de cada microfone. A Motherboard sincroniza todos os sinais de controlo das Microboards e serve de interface de comunicação com o exterior. Genericamente, pode resumir-se o funcionamento deste agregado da seguinte forma (Fig. 2.1): cada Microboard captura nas suas múltiplas entradas o sinal de audio, que é convertido para digital e enviado, através de uma ligação série, para a Motherboard; A Motherboard recebe até um máximo de 64 canais e formata-os em pacotes UDP sobre uma ligação Ethernet. Placa de Aquisição e AD Placa de Aquisição e AD (Microboard) (Microboard) Ethernet Placa de Controlo e Comunicação (Motherboard) Fig. 2.1 Arquitectura do agregado de microfones. Para além de ser um módulo de aquisição de sinal totalmente digital, este agregado tem a versatilidade de ter um interface Ethernet que permite enviar os dados da captura e receber dados de controlo de qualquer computador. Uma vez ligado o interface Ethernet do agregado numa rede ou directamente a outro computador, é possível enviar comandos de um computador para o agregado e/ou receber os dados de áudio dos microfones, usando software específico para cada aplicação [11]. Este software desenvolvido pelo NIST é escrito em linguagem C e funciona em sistemas operativos Linux. Usando o programa “osciloscope”, é possível visualizar e ouvir em tempo real os sinais em cada canal/microfone. Este software serviu para testar a integridade e sequência dos microfones e foi 9 também usado no processo de calibração dos microfones (ver capítulo 3), com o objectivo de verificar as amplitudes dos sinais de teste. Na Fig. 2.2, mostra-se os sinais dos canais 1 a 16, como exemplo do funcionamento do programa “osciloscope”. Fig. 2.2 Visualização dos canais do agregado com o programa “osciloscope”. Para a captura dos 64 sinais de áudio em simultâneo é usado o programa mk3_cap_22K ou mk3_cap_44K, que capturam os sinais de áudio a 22,050kHz ou a 44,100kHz de frequência de 1 amostragem , respectivamente. Ambos os programas geram um ficheiro de áudio em formato RAW com codificação Signed 24bit PCM Big-endian, com amostras sequenciais de cada canal/microfone. 2.2. Descrição do hardware No intuito de reduzir o ruído das interferências electromagnéticas, as placas de circuito impresso quer na Microboard quer na Motherboard são de quatro camadas, permitindo assim colocar os planos de massa (GND) e de alimentação (VCC) perto do plano dos sinais, reduzindo-se assim as interferências através de uma mecanismo de blindagem. 2.2.1. Microboard Como já se afirmou, a função da Microboard é a de captar e digitalizar os sinais provenientes dos microfones. Cada Microboard comporta oito microfones que estão fisicamente próximos dos conversores AD, reduzindo-se assim as probabilidades de captação de sinais espúrios ou de ruído. Os dados digitalizados são posteriormente enviados para a Motherboard, através de uma ligação série. 1 Este agregado de microfones tem duas frequências de amostragem de funcionamento possíveis (22kHz e 44kHz), fixadas pela arquitectura do hardware. 10 Fig. 2.3 Placa da Microboard. A Microboard está dividida em quatro partes: Alimentação e interface com a Motherboard Andar de digitalização Andar de pré-amplificação Microfones O circuito digital da Microboard é alimentado directamente pela interface com Motherboard, para não existirem flutuações de tensão na lógica digital. Na versão original a alimentação dos microfones é feita externamente por um conjunto de baterias. Desta forma, evita-se introduzir ruído harmónico de 50Hz da rede eléctrica na polarização dos microfones. Foram usados microfones do tipo “electreto” omnidireccionais, por estes apresentarem uma 2 resposta em frequência plana (Fig. 2.4) para as frequências da voz humana . Pelo facto da massa da membrana ser pequena, a sua inércia é reduzida, imunizando os microfones às vibrações mecânicas. A qualidade dos microfones foi verificada experimentalmente (ver Anexo A). Fig. 2.4 Resposta em frequência dos microfones usados. O andar de pré-amplificação (Fig. 2.5) é feito com dois Ampops (OPA2228). O primeiro Ampop tem um ganho de 10 dado por R7 e R4 e o segundo com um ganho de 1,2 de R11 e R5. O potenciómetro, POT1, serve para o ajuste do ganho deste andar. 2 Entre 100Hz e 8kHz, o limite superior está limitado pela frequência de amostragem do ASR. 11 Fig. 2.5 Andar de amplificação da Microboard. O andar de digitalização (Fig. 2.6) é feito por um conversor AD PCM1802 de 24bits PCM. Por ser um conversor estéreo, apenas um AD é usado para cada par de microfones, perfazendo um total de quatro conversores AD por cada Microboard. As entradas VinL e VinR correspondem aos sinais de saída de cada andar de amplificação (LADC1 da Fig. 2.5). Os bits de controlo LRCK, BCK e SCKI representam a frequência de amostragem, bit clock e clock do sistema, respectivamente, são gerados pela Motherboard. O sinal digitalizado resultante é enviado na saída DATA. Fig. 2.6 Andar de digitalização. O andar de interface com a Motherboard é feito por um conector de 16 pinos (Fig. 2.7), 4 para os dados e 3 para bits de controlo dos conversores, respectivamente. Os restantes pinos são usados para alimentação do circuito digital. 12 Fig. 2.7 Pinout da interface com a Motherboard. 2.2.2. Motherboard A Motherboard controla as oito Microboards, recolhe os sinais de áudio dos 64 microfones digitalizados e envia-os, via interface de Ethernet, para um computador remoto, podendo também receber comandos via Ethernet para executar tarefas específicas. Fig. 2.8 Placa da Motherboard. A Motherboard está dividida em quatro partes: Alimentação FPGA Interface para Microboards Interface para Ethernet A alimentação do circuito digital da Motherboard é feita por uma fonte de alimentação externa de 6V. Foram usados três reguladores de tensão (REG104) para obter 5V para os osciladores de tensão, 2,5V para a FPGA e 3,3V para IOs. A FPGA (Xilinx Spartan II) controla todo o processo de captura e comunicação da Motherboard por um programa em VHDL armazenado numa PROM. Como bancos de memória, são usadas quatro memórias estáticas num total de 2Mbytes. 13 No topo da placa da Fig. 2.8, estão os 8 conectores para interface com as Microboards, semelhantes aos descritos anteriormente para a Microboard. A interface por Ethernet é implementada num circuito integrado LS80225 10/100 BASE-TX e um H1089 como oscilador, com um conector RJ45. Para que o agregado tenha um endereço MAC 3 4 único, existe um interruptor MAC que possibilita escolher entre 256 endereços diferentes . Na Fig. 2.9 mostra-se o funcionamento da placa da Motherboard. 64 sinais digitalizados Sinais de controlo para AD Sinais de controlo RJ45 4 bits H1089 4 bits LS 80225 Controlador 4 bits TX FPGA 18 bits endereçamento 4x8bits dados 4 bits RX Sinais de controlo Memória 4 x 512bytes Fig. 2.9 Esquema do funcionamento da Motherboard Os dados de captura dos 64 canais são enviados em pacotes UDP, cujo formato se apresenta na Fig. 2.10. PREAMBLE MAC header IP header TYPE PACKET UDP header PACKET NUMBER DATA RESERVED CRC32 DATA...................................................................................... Fig. 2.10 Pacote UDP de comunicação do agregado. Todos os segmentos do pacote UDP são gerados pela FPGA. O porto de comunicação do agregado é o 32767 e o tamanho do dos dados é 964 bytes, sendo estes valores fixados pelo programa da FPGA. O segmento de DATA da Fig. 2.10, está dividido em vários subsegmentos: Type packet: com um tamanho de 1byte e com o valor de 86 decimal, que corresponde ao código da FPGA para envio de dados. Packet Number: com um tamanho 2bytes, varia entre 0 e 2048 e numera os pacotes enviados de forma a ser possível ordenar os pacotes no destino. 3 Endereço físico da interface para Ethernet. 4 MAC: 10:00:00:00:03:xx, Apenas os bits menos significativos são alterados pelo interruptor MAC. 14 Reserved: com um tamanho de 1byte, este subsegmento não é usado. Data: com um tamanho de 960bytes, que corresponde a: 64canais * 3bytes de 5 precisão * 5 amostras de dados. Em cada segmento de Data são colocados 5 amostras dos 64 canais. Como a frequência de 6 amostragem Fs pode variar, o MA gera pacotes UDP a uma taxa de (964bytes+UDPOverhead )*Fs/5 bytes por segundo. As duas frequências de amostragem possíveis são de 22,05kHz ou 44,1kHz, o que significa que o agregado pode gerar informação a uma taxa de cerca de 4,5MB/s (36Mbps) ou 9MB/s (72Mbps) respectivamente. A Motherboard tem ainda 3 interfaces para sincronização externa, 1 MasterOut e 2 SlaveIn/Out. Desta forma, é possível ligar até quatro agregado em daisy chain. 2.3. Montagem e alterações do hardware Todo o equipamento descrito anteriormente foi montado pelo Eng. António Nunes do grupo de Sistemas de Processamento de Sinal (SIPS) do INESC-ID. A caixa dos microfones foi desenhada e construída pelo meu co-orientador Professor Doutor António J. Serralheiro, que também elaborou e orientou as alterações de hardware apresentadas nesta secção Na montagem do hardware, o agregado de microfones foi fisicamente dividido em dois módulos: o módulo dos microfones, M1, que consiste numa caixa em acrílico com 0,07x1,40x0,12m, onde estão alojadas as Microboards e estão embutidos, no painel frontal, os 64 microfones omnidireccionais; o módulo dedicado à comunicação, M2, com 0,16x0,16x0,1m onde está colocada a Motherboard e a fonte de alimentação. Fig. 2.11 Agregado de microfones suspenso no interior da câmara anecóica. 5 Conversor AD com 24bits de precisão. 6 Segmentos de overhead do protocolo UDP = PREAMBLE+MACheader+IPheader+UDPheader+ CRC32 = 8+18+20+8+4 = 58bytes 15 Foram feitas algumas alterações no hardware do agregado, de forma a melhorar alguns aspectos do projecto original do NIST. No andar de amplificação da Microboard na Fig. 2.5, foi alterado C8 de 10μF para 100μF para diminuir a frequência de corte inferior, que inicialmente se situava em 1kHz, de forma a melhorar a resposta em frequência do agregado. Como consequência, foi também necessário alterar as resistências dos andares do ganho dos Ampops, para corrigir os ganhos dos pré-amplificadores dos microfones. Foi alterado R4 de 1kΩ para 4kΩ, de forma a aumentar o ganho de 10 para 43, e alterado POT1 de 500Ω para 2kΩ (TSM4YJ 2K0), para aumentar a amplitude de ajuste dos ganhos dos pré-amplificadores. Na placa da Motherboard, optou-se por colocar uma memória Flash ROM (XCF02S) com um adaptador PCB ao circuito original, para ser possível reprogramar a FPGA, uma vez que as memórias PROM não são reprogramáveis. No projecto inicial, as Microboards são alimentadas por baterias de forma a eliminar o ruído das harmónicas de 50Hz. No entanto, neste caso foi executado uma fonte de alimentação com recurso a uma fonte contínua (FL2/9) de 2VA, realizada sobre um regulador série (LM78L05) para polarização dos microfones. Para a alimentação da Motherboard foi usada uma fonte comutada de baixo ruído (Traco Power TXL 025-05S) de 6V e 25W, para alimentação do circuito digital. Ambas as fontes de alimentação foram colocadas no interior do módulo M2, onde também foi colocada a alimentação de 230V para as fontes de alimentação, protegidas por um fusível de 315mA de fusão lenta. 16 3. Calibração do Agregado de Microfones No capítulo anterior descreveu-se a arquitectura do agregado de microfones e o seu funcionamento. Neste capítulo é descrito o processo de calibração individual dos microfones do agregado. Primeiramente, são apresentadas simulações do efeito das variações das características dos microfones no comportamento global do agregado, que motivaram a calibração e avaliação da robustez do mesmo. Seguidamente, são descritos os métodos experimentais implementados no processo de calibração e avaliação da sua robustez. Finalmente, são apresentando os principais resultados da calibração do agregado. No entanto, são apresentados no Anexo A, os resultados mais detalhados do método de calibração proposto e a avaliação do comportamento do agregado de microfones com sinais de fala 3.1. Influência das características dos microfones A primeira captura feita com o agregado de microfones, revelou que existiam variações de cerca de 6dB nas amplitudes dos sinais captados pelos microfones; o que motivou a calibração dos ganhos de cada pré-amplificador. Antes de ajustar os ganhos dos pré-amplificadores, de cada microfone, foram elaborados uma série de testes para avaliar o comportamento do agregado aos fenómenos acústicos a que este pode estar sujeito. Os primeiros testes efectuados, indicam que existe uma influência da reflexão do painel dos microfones nas suas sensibilidades. Desta forma, para uma correcta calibração das sensibilidades dos microfones, é necessário ter em conta o factor reflectivo do painel frontal. Em [12] é referido que as variações das características dos microfones (microphone mismatch) são responsáveis pela degradação da filtragem espacial. Por isso, foram feitas simulações para averiguar qual o efeito da variação das características dos microfones, na directividade do agregado. Na Fig. 3.1, apresenta-se os diagramas de simulação da directividade do agregado de microfones “apontado” para um ângulo de 90°, para 3 sinais a frequências diferentes. O vermelho 7 representa o efeito das variações das características dos 64 microfones e o azul a situação ideal . Verifica-se que o efeito da variação das características dos microfones altera o diagrama da directividade, aumentando consideravelmente as amplitudes dos lobos secundários. Como consequência, este efeito degrada o desempenho da filtragem espacial. O aparecimento dos lobos secundários é mais acentuado quando se diminui a frequência do sinal, comprometendo-se assim a filtragem espacial para essas frequências. Como se pretende obter lobos secundários com a menor amplitude possível, para maximizar 8 a directividade do agregado para um ângulo arbitrário (que neste caso é 90°), os diagramas de 7 Microfones com os ganhos homogéneos e sem efeitos reflectivos do painel frontal. 8 O problema da directividade do agregado, é abordado com mais pormenor no capítulo 4. 17 directividade da Fig. 3.1, justificam a necessidade de um método de calibração dos microfones do agregado. Fig. 3.1 Simulação dos diagramas de directividade do agregado de microfones. Seguidamente, serão apresentados os métodos implementados para averiguar experimentalmente, qual o método mais eficaz de calibração dos microfones; de forma a reduzir a influência da variações das características dos microfones, na directividade do agregado. 3.2. Métodos implementados Pretende-se avaliar o comportamento do agregado de microfones face às suas características estruturais, às alterações acústicas do meio e a sua influência na captura dos sinais, com o objectivo de estabelecer um método de calibração que permita uniformizar as sensibilidades dos 64 microfones. 3.2.1. Condições de teste De forma a avaliar o comportamento e calibrar o agregado de microfones com precisão, são necessárias condições ideais, tais como inexistência de ruídos ambientes e reverberações. Estas condições garantem que apenas o sinal de teste, directo e gerado por uma fonte sonora, seja o único sinal capturado pelos microfones do agregado. O local escolhido com essas características foi a Câmara Anecóica do IST-CAPS (http://caps.ist.utl.pt). Para evitar vibrações por contacto mecânico com outras superfícies o agregado foi suspenso num dos extremos da câmara anecóica. No outro extremo da câmara, é colocado um altifalante, que serve de fonte emissora de sinais de teste, numa posição central ao painel dos microfones do agregado. Para diminuir os erros associados às medições é necessário garantir que: Sinal de teste como uma onda plana: A uma distância suficientemente grande, a propagação esférica das ondas acústicas no espaço pode ser aproximada a uma onda plana. Desta forma, se a fonte de sinal estiver suficientemente 18 afastada do agregado, o modelo de uma onda plana incidente no painel de microfones do agregado é válido e permite que todos os microfones sejam excitados com a mesma pressão acústica (SPL). O modelo de onda plana pode ser verificado experimentalmente, medindo as diferenças de intensidade do sinal de teste no centro e nas extremidades do painel dos microfones, com um sonómetro de precisão. Neste teste foi usado um Brüel & Kjær, type 2209 munido de um microfone de membrana de ouro. Por limitações físicas da câmara anecóica, o altifalante foi colocado a 3,8m do centro do painel dos microfones. A esta distância, é garantido uma boa aproximação do modelo de onda plana, com uma variação máxima de 0,3dB entre o microfone do centro e os microfones nas extremidades do painel. Não saturação dos sinais dos microfones Como se pretende concluir sobre as sensibilidades dos microfones, apenas se podem analisar os sinais quando as amplitudes variam linearmente. No caso de saturação dos sinais dos microfones, deixa de ser possível uma interpretação linear das amplitudes entre os sinais. Comprometendo-se deste modo os resultados obtidos e conduzindo a calibrações incorrectas. Usando o programa “osciloscope” descrito em [11], escolheu-se uma amplitude do sinal de teste, de modo a que não existam saturações em nenhum dos 64 canais do agregado de microfones. 3.2.2. Cálculo dos ganhos dos microfones Assumindo o modelo da onda plana incidente no painel dos microfones, todos os microfones estão submetidos à mesma SPL (82dB). A calibração tem como objectivo ajustar os ganhos do préamplificador de cada microfone, de forma a obter-se uma uniformização nas amplitudes do sinal, garantindo assim que os microfones têm todos a mesma sensibilidade. Desta forma, para a avaliar a sensibilidade de cada um dos 64 microfones é calculado o ganho individual correspondente, pela expressão: Ganho(n) 20log10 ARMS (n) 1 N N A n 1 RMS (0.1) ( n) onde ARMS(n) é a amplitude RMS do sinal do enésimo microfone e N o número total de microfones. O Ganho é um valor relativo e mede o desvio, em dB, da amplitude do microfone n em relação à média das amplitudes dos 64 microfones. Desta forma, um valor negativo do Ganho(n) significa que o enésimo microfone está sub-sensível, sendo necessário aumentar o ganho do seu pré-amplificador e vice versa. Uma vez que o ajuste do pré-amplificador de cada microfone depende directamente da variação do potenciómetro, POT1, (de acordo com a descrição do andar de amplificação da Microboard em [10]) a amplitude dos ajustes está limitada à amplitude de variação do potenciómetro. 19 Por essa razão, foi escolhida a média das amplitudes RMS como amplitude de referência, por ser o dado estatístico que diminui as amplitudes de ajuste. 3.3. Principais resultados da calibração O método da calibração proposto, permitiu ajustar as sensibilidades da totalidade dos 64 microfones do agregado com uma variação máxima de 0,3dB e aproximadamente invariante na frequência. Este valor máximo obtido corresponde porém, à aproximação do modelo de onda plana do sinal de teste incidente no agregado. Os resultados permitiram verificar experimentalmente que existe uma variação não desejada dos ganhos dos microfones, devido ao efeito reflectivo do painel de microfones. Por este motivo, o sinal de teste para calibração do agregado deve ser escolhido tendo em conta este fenómeno não desejável. Os ensaios sobre o efeito reflectivo dos sinais de teste mostram que o ruído branco Gaussiano é imune aos efeitos reflectivos e por isso adequado para a calibração dos microfones do agregado. Dado que o módulo onde estão inseridos os microfones possui um volume considerável, foram conduzidos ensaios experimentais para aferir influência de possíveis fenómenos ressonantes no comportamento dos microfones do agregado. Foi possível verificar que os fenómenos ressonantes não afectam o comportamento dos microfones. Foram também levados a cabo, ensaios com sinal de fala que permitiram concluir que as componentes não-vozeadas dos sinais de fala não são influênciadas pelo efeito reflectivo do painel dos microfones, ao contrario do que acontece com as componentes vozeadas dos sinais de fala. Os mesmos ensaios permitiram também verificar que os microfones do agregado são sensíveis à variação da posição da fonte de sinal, como era desejado. No Anexo A, são apresentados com mais detalhe todos os resultados experimentais do processo de calibração do agregado de microfones. 20 4. Introdução ao processamento com Agregados de Microfones O sinal de fala adquirido em campo distante (far talk) é severamente degradado por sinais espúrios, como o ruído ambiente, outros sinais de fala (cross talking) ou a reverberação, apenas para mencionar alguns. Num contexto de sistemas de reconhecimento automático de fala (ASR), a degradação deste sinal compromete seriamente a qualidade, ou até mesmo a concretização do seu reconhecimento. Ao contrário dos microfones colocados em campo próximo (close talk), a influência dos factores externos é minimizada pela proximidade dos sensores à fonte do sinal de fala. No entanto à medida que se afastam desta, a degradação de qualidade é evidente. O processamento com agregados de microfones pretende conceber filtros espaciais que permitam seleccionar direcções específicas de propagação dos sinais. O objectivo é adquirir sinais de fala que se propagam numa determinada direcção enquanto se rejeitam os sinais vindos de outras direcções. Deste modo, o agregado de microfones pode ser encarado como uma unidade de préprocessamento dos sinais de fala que se propagam em campo distante, para sistemas de ASR. 4.1. Conceitos fundamentais Em processamento digital de sinal, classicamente são aplicadas técnicas de filtragem no domínio do tempo. Amostrando sinais contínuos em diferentes instantes no tempo, é possível atenuar ou amplificar certas componentes do sinal desejado, e.g. utilizando um filtro FIR passa-alto é possível atenuar as componentes de baixa frequência do sinal. O agregado de microfones é por definição um conjunto de sensores que permite amostrar o sinal desejado em diferentes posições no espaço, permitindo assim explorar o sinal num domínio espaço-temporal. É possível estabelecer uma correspondência entre a amostragem no tempo e no espaço (Fig. 4.1). Considerando um sinal sinusoidal, s(n) , que incide num agregado com microfones colocados uniforme e linearmente espaçados (Uniform Linear Array) (ULA) e admitindo que a fonte de sinal s(n) está suficientemente afastada do agregado, de forma a se modelar o sinal incidente no agregado como uma onda plana. No caso de a sinusóide ter uma direcção de propagação perpendicular ao plano do agregado, observa-se no mesmo instante que todos os microfones recebem o mesmo sinal, com a mesma amplitude, i.e. xn (n) s(n) . Caso a direcção de propagação se desvie ligeiramente da perpendicular (Fig. 4.1 (a)), os microfones recebem o mesmo sinal, s ( n) , mas com um ligeiro atraso que se traduz num variação aproximadamente constante da amplitude entre cada microfone (fraca resolução espacial). No caso de um desvio mais acentuado da direcção 21 de propagação (e.g. 45º da perpendicular (Fig. 4.1 (b)), no mesmo instante todos os microfone recebem o mesmo sinal s(n) com uma desfasagem n , que representa o atraso de propagação para cada microfone (aumento da resolução espacial). i.e. xn (n) s(n n ) . Como resultado, é possível verificar que a variação da posição da fonte altera o sinal na saída do agregado. Tal como a filtragem no tempo, é possível desenhar filtros espaciais que permitam amplificar ou atenuar sinais de direcções específicas. A este processo denomina-se Filtragem Espacial que é também conhecido por Beamforming. Fig. 4.1 Efeito da direcção de propagação de uma sinusóide incidente num agregado de microfones. Quando o sinal de fala e os sinais de ruído ocupam a mesma gama de frequência, a filtragem no domínio do tempo não é eficaz para separar o sinal desejado do ruído. Como o sinal de fala e o ruído têm normalmente origem em pontos diferentes no espaço, a técnica de filtragem espacial explora a dimensão espaço-temporal do problema de forma a separar fisicamente estes sinais, para obter um sinal de fala com qualidade sem que o locutor tenha que falar directamente para um microfone perto de si (close-talk). A implementação da filtragem no tempo requer que os sinais sejam adquiridos numa dimensão temporal. Similarmente, a filtragem espacial requer que os sinais sejam adquiridos numa dimensão espacial. Usualmente, o processo de filtragem espacial combina linearmente os sinais de cada microfone, amostrados no espaço e no tempo, para obter um sinal ao longo do tempo. No exemplo da Fig. 4.1, foi assumido que o sinal incidente tem uma largura de banda estreita e que a sua fonte está afastada do agregado (campo distante). Como consequência, o sinal incidente é modelado como onda plana. No caso da aplicação de agregados de microfones para aquisição de fala, é possível assumir o pressuposto de onda plana, na medida em que locutor está colocado afastado do agregado de microfones. No entanto, o pressuposto de largura de banda estreita não é válido na medida em que o sinal de fala tem uma largura de banda considerável (cerca de 8 oitavas de frequência). 22 4.1.1. Propagação das ondas acústicas Um pressuposto comum assumido em aplicações com agregados é o de aproximar o sinal acústico a uma fonte pontual, i.e. o tamanho da fonte de emissão é suficientemente pequeno comparado com a largura do agregado e a distância deste à fonte. Como já também foi referido, é assumido que o sinal incidente no agregado é modelado como uma onda plana. Embora a onda acústica se propague esfericamente, quando a fonte de emissão está suficientemente afastada do agregado, é possível desprezar o efeito esférico da propagação das ondas e modelá-lo com uma onda plana (Fig. 4.2). Desta forma para um ULA, todos os microfones captam no mesmo instante um sinal com a mesma fase e amplitude, para uma onda que incide perpendicularmente ao plano dos microfones do agregado. Em processamento com agregados, é considerado que a fonte de emissão está em campo distante (far-field) se a distância é r 2L2 , onde L representa a largura ou abertura do agregado e o comprimento de onda do sinal incidente. Fig. 4.2 Campo próximo e campo distante. Dada a complexidade inerente aos fenómenos acústicos, sempre que possível, são feitas aproximações ou pressupostos para simplificar o modelo matemático da propagação dos sinais de fala no meio envolvente. Embora a velocidade do som varie com a temperatura e humidade do ar, ou até mesmo com a frequência, assume-se que o meio é não dispersivo e homogéneo, e que a velocidade do som tem um valor constante c 340ms . O efeito de Doppler é desprezado, pelo que a fonte de sinal acústico em movimento tem sempre uma velocidade muito inferior à do som. 4.1.2. Modelo do sinal do agregado Considerando que se aplica um agregado de N microfones para a aquisição de um sinal desejado s n , que pode ser um sinal de fala (espectro largo) ou uma simples sinusóide (banda estreita). Assume-se o modelo de campo distante e, por consequência, o sinal desejado é contaminado com outros sinais não desejados, como ruído ambiente v n . 23 O modelo discreto do sinal para atenuação i microfone, xi n , consiste numa réplica com atraso i e ai do sinal s n , mais um sinal de ruído v n com características aleatórias e incorrelacionadas. x1 (n) a1s1 (n 1 ) v1 (n) x2 (n) a2 s2 (n 2 ) v2 (n) xN ( n) a N s N ( n N ) v N ( n) (4.1) x ( n ) s ( n ) v ( n) w1 w2 y(n) + w3 x 1(n) 1 x 2(n) 2 x 3(n) 3 ... ... ... wN x N(n) N v(n) ruído s(n) sinal desejado Fig. 4.3 Modelo do sinal para um agregado de N microfones. Na forma mais geral, a saída do agregado é uma combinação ponderada dos sinais dos N microfones, N y (n) wi* xi (n) w H x(n) i 1 (4.2) w w1 , w2 , ... , wN T sendo wi o coeficiente de ponderação do sistema para cada i microfone. Por conveniência, esta abordagem pode também ser feita no domínio da frequência. Neste caso o sistema (4.1) é dado por, X(k ) S(k )p( ) V(k ), f com, k 2 fs 24 (4.3) onde p representa o vector de direcção (steering vector) do agregado que depende da sua geometria e do ângulo, θ, de direcção do sinal com s n . k representa a frequência discreta do sinal, f sendo a frequência do sinal e f s a frequência de amostragem. De (4.1) e (4.3), o vector de direcção é dado por, p( ) a1e jk1 , a2e jk 2 , , aN e jk N T (4.4) Assume-se que os microfones têm uma resposta isotrópica e constante em frequência, o que significa que ai é constante para todas as frequências e direcções e assume um valor unitário9. 4.1.3. Direcção da onda incidente (DoA) No agregado, o sinal em cada microfone tem um atraso de propagação que depende da distância percorrida entre microfones sucessivos. Para um agregado linear com uma distância d entre microfones (ver Fig. 4.4), o atraso de propagação é dado por: i (i 1) fs d cos c (4.5) Substituindo em (4.4), o vector de direcção pode ser reescrito da seguinte forma: f f jk s ( d cos ) jk s ( d cos )( N ) p( ) 1, e c , ,e c Na verdade o vector de direcção T (4.6) p é função da frequência e do ângulo de direcção, i.e. p k , , mas para simplificar a notação é suprimido k . A direcção de propagação (Direction of Arrival) (DoA), de uma onda, é definida como o ângulo do vector que aponta na direcção da propagação da onda. Quantificado por um ângulo, o ângulo DoA ou simplesmente DoA, define a direcção de propagação do sinal incidente em relação ao agregado. Em campo próximo, dada a esfericidade da propagação da onda, existe um DoA para cada microfone. No caso de o campo ser distante, o DoA é válido para todos os microfones. 9 Na verdade ai também depende da resposta em frequência dos Ampops do andar de pré-amplificação, da placa da Microboard do agregado, que neste caso se considera constante e uniforme na frequência. 25 A convenção dos ângulos adoptada para o DoA é calculada segundo uma bissectriz paralela ao plano dos microfones. O sentido do ângulo é convencionado no sentido do primeiro para o último microfone (ver Fig. 4.4). Dado que o atraso i é um valor relativo, é necessário estabelecer um microfone de referência. Para conservar a causalidade dos sinais, o microfone de referência depende do sinal de i . Quando i 0 é escolhido o primeiro microfone como referência, permitindo que todos os restantes sinais sejam desfasados, mantendo assim a causalidade do sistema. De forma inversa, é escolhido o último microfone como referência quando i 0 . Considerando um espaço cartesiano tridimensional, onde os sensores estão colocados no eixo xx , o agregado apenas distingue a direcção com ângulo no plano xy . Deste modo, o agregado não distingue ângulos de elevação diferentes para sinais com mesmo . Por este motivo, um agregado linear apenas tem resolução em duas dimensões. Visto que a função coseno é par, existe uma ambiguidade no cálculo dos atrasos de propagação i para . Isto significa que o agregado não distingue sinais provenientes de direcções simétricas em relação ao eixo dos microfones. Limitando-se DoA ao intervalo contra-domínio de 0, , o i é injectivo, sem perda de generalização, uma vez que se considera que todos os sinais de interesse estão na frente do agregado. Fig. 4.4 Modelo do sinal incidente no agregado. 4.1.4. Amostragem e aliasing espacial Em geral, o agregado pode ser visto como um sensor que amostra espacialmente uma onda que se propaga no espaço de uma determinada direcção. 26 De um modo semelhante ao processo da amostragem no tempo, o agregado faz uma amostragem discreta no espaço e no tempo. Tal como no domínio do tempo, para que não existam ambiguidades espaciais, alguns critérios têm de ser garantidos, nomeadamente o teorema de Nyquist, para evitar o aliasing espacial. Dado que os microfones são colocados linear e uniformemente espaçados, existe uma correspondência directa entre o posicionamento dos sensores e a amostragem no espaço. Desta forma, pode definir-se a frequência de amostragem espacial, como: Us 1 d (4.7) onde o período de amostragem é definido pela distância d entre sensores e U s vem em ciclos por metro. De (4.6), conclui-se que os sinais observados em cada microfone diferem apenas na fase dada por e jk , i.e. observa-se em cada microfone a progressão da fase do sinal que varia com frequência k e o ângulo DoA. Desta forma, pode calcular-se a frequência espacial do agregado como: U fs cos c (4.8) Definindo-se assim a frequência espacial normalizada, por: u f U s d cos Us c (4.9) Rescrevendo (4.6) em termos de frequência espacial normalizada, temos: p( ) p(u) 1, e jku , , e jkuN T (4.10) De acordo com o teorema de Nyquist, para garantir que não existe aliasing na frequência espacial normalizada tem de se verificar u 1 2 . Desta forma, é possível calcular a relação entre a distância d e a frequência espacial desejada. Como o maior atraso da propagação acontece para 0 ou , temos: fs 1 d cos d s c 2 2 (4.11) A eq. (4.11) define assim o espaçamento entre microfones em função da frequência do sinal incidente, garantindo a condição de anti-aliasing espacial. 27 10 Uma vez que a abordagem neste trabalho é feita para sinais de espectro alargado , a distância d é definida de acordo com a frequência máxima de resolução espacial pretendida, i.e. d min 2 sendo que min c f max . Como os sinais resultantes da aplicação do agregado são 11 posteriormente aplicados em sistemas de ASR , a frequência de amostragem é escolhida de acordo com as especificações deste. Desta forma, optou-se por colocar os microfones com d 2cm , o que equivale a um frequência de amostragem de fs=17kHz. Consequentemente, o efeito de aliasing espacial é verificado apenas para sinais com frequências superiores a fs/2=8,5kHz. O facto de a frequência máxima de processamento dos sinais de fala estar limitada a 8kHz, significa que o aliasing espacial não constitui um problema nestas condições. 4.1.5. Resolução espacial Para avaliar o desempenho da filtragem espacial do agregado (beam response), é necessário avaliar o comportamento do agregado em função de várias direcções possíveis, para um dado vector de coeficientes w. Por outras palavras, pretende saber-se o comportamento do agregado em todas as direcções do espaço (0 ≤ θ ≤ π) quando se “aponta” agregado numa direcção de DoA específica. B w H ( DoA ) p (4.12) Usualmente a avaliação é feita calculando o ganho de (4.12), i.e. 20log10(B(θ)). Nas próximas figuras, apresenta-se a análise da filtragem espacial do agregado, quando este é apontado na direcção perpendicular ao eixo dos microfones (DoA=90°) (broadside). Neste caso, e assumindo T campo distante, os sinais de cada microfone estão em fase, o que significa que w=1/N [1, … ,1] . O termo 1/N aparece aqui como normalizador das amplitudes dos sinais. Na Fig. 4.5 (b) apresenta-se o resultado teórico da filtragem espacial, para um agregado com N 20 e d / 2 . Observa-se que existe um lobo principal com maior amplitude, na direcção do ângulo DoA, e vários lobos secundários com menores amplitudes nas restantes direcções do agregado. O lobo principal, com 0dB, determina a direcção para qual o agregado está “apontado”. Para os lobos secundários, a diminuição das suas amplitudes determinam a capacidade do agregado em atenuar os sinais com diferentes direcções de DoA. Por outras palavras, observa-se que o agregado “deixa passar” os sinais com direcção DoA=90º e atenua os sinais que se afastam desta mesma direcção. 10 Sinais de fala com espectro de frequências de 100Hz a 8kHz. 11 O ASR desenvolvido no L2F tem capacidade para funcionar com sinais de fala, para frequências de amostragem de fs=8kHz ou fs=16kHz. 28 Dado que a directividade de um agregado depende do número de microfones N e do espaçamento d entre os mesmos, seguidamente avalia-se a influência de N e d no desempenho da filtragem espacial. Define-se a abertura de um agregado L , como a área finita onde os microfones captam o sinal. No caso de um ULA, a abertura corresponde à distância entre o primeiro e o último microfone. Quanto maior for a abertura do agregado, maior é a resolução espacial, i.e. maior capacidade em distinguir espacialmente os sinais. Desta forma, para um dado número de microfones pretende obterse um agregado com a maior abertura possível, de forma a maximizar a resolução espacial, mantendo a restrição anti-aliasing espacial ( d / 2 ). Na Fig. 4.5, mostra-se a influência da variação do espaçamento d entre microfones. Para garantir a mesma resolução espacial em todos os exemplos, a abertura do agregado é mantida constante, i.e. com L Nd 10 , (para N 40, 20, 10 e 5, respectivamente). Fig. 4.5 Influência da variação da distância d na directividade do agregado para aberturas constantes: (a)(b) filtragem sem aliasing, (c)(d) filtragem com aliasing. Na Fig. 4.5 (a) e (b) as directividades são idênticas, o que indica que diminuindo o espaçamento dos microfones de d / 2 apenas se obtém informação redundante, devido ao efeito de sob-amostragem. No caso de sub-amostragem (c) e (d) o lobo principal, a 90°, é idêntico aos anteriores mas observa-se a presença de lobos secundários com amplitude igual à do lobo principal. A sub-amostragem resulta no efeito de aliasing e cria ambiguidades espaciais. Isto significa que o 29 agregado é incapaz de distinguir os sinais com direcção DoA assim como os sinais com a direcção correspondente aos ângulos dos lobos secundários de amplitude 0dB. Dos exemplos anteriores, conclui-se que a distância entre microfones que maximiza a abertura L , sem aliasing, é concretizada para d / 2 . A resolução espacial do agregado pode ser quantificada pela largura do lobo principal (beamwidth) quando este atinge metade da energia (-3dB). De (4.12), para B 1 valor do ângulo θ correspondente a -3dB. Descrito em [2], a largura do lobo principal 2 obtém-se o 3dB para N 30 é aproximado por: 3dB 0,886 Nd (4.13) Quando a frequência do sinal é igual a frequência de funcionamento do agregado, temos que d / 2 . Deste modo, a eq. (4.13) pode ser reescrita na forma 3dB 0,886 2 N , podendo concluir-se que a largura do lobo principal varia inversamente com o número de microfones, N . Na Fig. 4.6, ilustra-se a influência de número de microfones na resolução espacial, garantindo a condição de anti-aliasing. Como se pode observar, o aumento do número de microfones diminui a largura dos lobos, como consequência do aumento da abertura do agregado. Conforme mencionado, o aumento da abertura contribui para aumento da resolução espacial do agregado, permitindo distinguir os sinais no espaço com mais exactidão. Fig. 4.6 Influência do número de microfones na resolução espacial do agregado. 30 Note-se ainda que o primeiro lobo secundário tem uma amplitude de ≈-13dB, em todos os exemplos ilustrados, que se devem ao facto de a filtragem espacial de um agregado seguir uma função sinc. Até aqui, o problema da filtragem espacial foi abordado com o pressuposto de que os sinais incidentes no agregado tinham uma largura de banda estreita (narrowband assumption). Foi também mencionado que a distância entre microfones é definida de acordo com a frequência máxima de funcionamento, para evitar ambiguidades espaciais. Como os sinais de fala têm uma largura de banda elevada, na Fig. 4.7, ilustra-se o efeito da variação da frequência do sinal incidente na directividade do agregado. Tal como o agregado utilizado neste trabalho, os resultados seguintes são elaborados para um agregado com N=64 e d=0.02m. Fig. 4.7 Influência da frequência do sinal incidente na directividade do agregado. Dado que a abertura do agregado é dada por L N / 2 , em que representa o comprimento de onda do sinal incidente, o resultado da Fig. 4.7 é, em parte, semelhante ao comportamento ilustrado na Fig. 4.6. Como consequência, para um valor fixo da abertura L, a diminuição da frequência do sinal incidente resulta numa diminuição da resolução espacial do agregado. Esta limitação traduz-se na diminuição da eficácia do agregado na seperação espacialmente dos sinais, à medida que diminui a frequência do sinal incidente. 31 4.2. Aplicação do agregado de microfones: filtragem espacial e localização O objectivo do processamento com agregados de sensores é extrair informação de sinais no espaço, combinando os sinais dos sensores de forma a se obter a informação de interesse. A informação de interesse de um sinal pode ser o seu conteúdo (comunicação) ou o local de origem que produz ou reflecte um sinal (radares e sonares). Em qualquer uma das aplicações, os sinais recolhidos pelos sensores do agregado têm de ser processados de forma a extrair informação útil. 4.2.1. Filtragem espacial – Beamforming Uma vez adquiridos os sinais individuais de cada microfone do agregado, pretende-se combiná-los de forma a atenuar os sinais de interferência (ou ruído) e preservar o sinal de interesse. A forma como se combinam os sinais constitui tema central do algoritmo de filtragem espacial (beamforming). Mais especificamente, o algoritmo de filtragem espacial centra-se no cálculo óptimo dos coeficientes wi de cada microfone, de maneira a adquirir os sinais que se propagam numa direcção específica (DoA) e rejeitando os sinais vindos de outras direcções. A generalidade dos conceitos de filtragem espacial apresentados anteriormente está limitada ao processamento de sinais de largura de banda estreita. Em aplicações como radares ou comunicações, este pressuposto é válido, no entanto em aplicações de aquisição de fala, como os sinais incidentes são de espectro largo, este pressuposto não é válido. A extensão aos métodos de filtragem espacial com sinais de fala pode ser feita decompondo o sinal incidente em vários intervalos com sub-bandas de frequência. A cada sub-banda é aplicado um filtro espacial independente, o que equivale a aplicar um número de filtros espaciais igual ao número de intervalos de frequência. Do modelo matemático do agregado no domínio o tempo na eq. (4.2), aplicando a transformada de Fourier, obtemos o equivalente no domínio da frequência, N Y (k ) Wi* (k ) X i (k ) W H X (4.14) i 0 Desta forma, os sinais de cada microfone são analisados na frequência, aplicando um modelo de filtragem espacial para cada intervalo da mesma. Na filtragem espacial em frequência são calculados os coeficientes Wi k para cada i microfone e frequência k , que podem ser interpretados como os coeficientes no domínio da frequência de um filtro FIR. Como resultado, a aplicação do algoritmo de filtragem espacial é implementada na prática como um filtro FIR, aplicado a múltiplos sinais de entradas (sinais de cada microfone do agregado), para gerar um único sinal resultante. Como o algoritmo é independente do número de intervalos de frequência, é possível escolher um número arbitrário de intervalos aumentando ou diminuindo a precisão no domínio da frequência. 32 Existem vários critérios e métodos de abordagem aos filtros espaciais mas, de uma forma geral, podem classificar-se em métodos independentes dos sinais (data independent) e métodos dependentes dos sinais (data dependent). O método independente dos sinais, consiste numa abordagem que apenas depende das restrições espaciais e não da natureza dos sinais incidentes no agregado; os métodos dependentes dos sinais incidentes no agregado, em condições específicas, optimizam o método de filtragem espacial. O algoritmo Delay-and-Sum é um exemplo de um método independente dos sinais. Este método apenas depende da direcção do sinal desejado (restrição espacial) para se obter um resultado da filtragem espacial. Já na aplicação de algoritmos de filtragem adaptativa, como e.g. o Generalized Sidelobe Canceller (GSC), que implementa um processo de cancelamento dos sinais espúrios que dependem da natureza dos sinais dos sensores. Ambos os algoritmos aqui mencionados, são descritos com mais detalhe no capítulo 5. 4.2.2. Estimação do DoA para localização e seguimento Localização e seguimento de fontes de sinal são outras das aplicações em processamento com agregados de sensores, especificamente na estimação do atraso i entre sensores, cuja relação matemática permite estimar directamente o DoA. Dependendo das restrições geométricas do agregado, também é possível estimar a localização da fonte de sinal no espaço. De uma forma geral, os métodos de localização podem ser classificados em três categorias: métodos baseados na energia do sinal resultante do filtro espacial, métodos de correlação cruzada e técnicas de estimação de espectros de alta resolução. No capítulo 6 serão abordadas com mais detalhe as duas primeira técnicas. A terceira técnica será apenas comentada nesta secção, meramente a título de exemplo de outras abordagens para localização utilizando agregados de sensores. O primeiro método é baseado na maximização da energia do sinal, resultante da aplicação de filtros espaciais. Inicialmente o agregado faz um varrimento no espaço de forma a “apontar” para todas as direcções possíveis. Como consequência, a energia do sinal resultante do filtro espacial exibirá um máximo na direcção da fonte de sinal. Os métodos de correlação cruzada normalmente implicam a correlação de espectros dos sinais observados, para se estimar a desfasagem entre dois sinais de sensores separados fisicamente. No caso de agregados lineares, a estimação de várias desfasagens aplicada a vários pares de sensores com a combinação das suas posições, permite que seja possível obter uma localização 2D da fonte de sinal. Por último, os métodos de estimação de espectros de alta resolução, baseados em técnicas espaço-espectrais dos sinais de todos os sensores, determinam a posição da fonte do sinal como o sub-espaço ortogonal ao espaço dos sinais espúrios. Esta técnica é usualmente aplicada em sinais de largura de banda estreita, pelo que a sua aplicação é computacionalmente penalizadora em processamento de sinais de fala. 33 5. Filtragem espacial para speech enhancement Os métodos de filtragem espacial permitem separar fisicamente os sinais acústicos que são captados pelos microfones do agregado, amplificando o sinal desejado e atenuando os sinais não desejados. Como o sinal de fala adquirido em campo distante é severamente degradado por sinais espúrios, estes métodos permitem teoricamente reduzir ruído de um sinal de fala de um locutor colocado afastado do agregado. O sinal de fala processado pelo agregado é geralmente menos reverberante, tendo ambas as componentes de ruído difuso e de ruído direccional atenuadas; quando comparado com o resultado da aplicação de um único microfone na captação do sinal de fala, nas mesmas condições. Dadas as particularidades dos sinais de fala e dos agregados de microfones, o processo de eliminação de ruído acústico num sinal de fala, passível de ser aplicado a sistemas de ASR, é ainda um desafio que está em contínua investigação. Por este motivo, existem diferentes processos e abordagens à problemática deste tema, com diferentes resultados, limitações e aplicações. De uma forma global, podem resumir-se os vários métodos de aplicação dos agregados de microfones para redução de ruído acústico (microphone array processing for speech enhancement) em três grupos: filtragem espacial fixa [13-18] (fixed beamforming), filtragem espacial adaptativa [13-15] (adaptive beamforming) e técnicas de pós-filtragem [16-20] (post filtering techniques). Neste capítulo, são enunciadas algumas das propostas mais relevantes das técnicas de filtragem espacial para a redução de ruído de um sinal de fala processado por agregados de microfones. Na primeira e segunda secção, são, respectivamente apresentadas técnicas de filtragem fixa e adaptativa, com detalhes da implementação dos algoritmos em questão. Na terceira secção são aplicadas algumas das técnicas anteriormente mencionadas, onde simulações são conduzidas e resultados com dados reais elaborados. Isto permite validar as várias técnicas em condições reais. Finalmente, são apresentados e comentados os resultados que permitem comparar as várias técnicas abordadas. 5.1. Filtragem Espacial Fixa Das técnicas de filtragem espacial (Beamforming), a técnica de filtragem espacial fixa (Fixed Beamforming) aparece como a técnica mais convencional. Esta estratégia optimiza a filtragem espacial para uma dada direcção fixa e não acompanha dinamicamente a direcção do sinal incidente no agregado. Desta forma, a resposta direccional do agregado está fixa para um valor particular do ângulo DoA. No caso do sinal desejado se deslocar no espaço, a capacidade de atenuação do ruído diminui à medida que o sinal se afasta da direcção espacial fixada. Da mesma forma que as restrições espaciais são fixadas a priori, também os dados estatísticos dos sinais são considerados estacionários e definidos a priori, não existindo qualquer adaptação a possíveis alterações dos sinais ou do meio acústico. Por este motivo, os métodos que 34 se apresentam de seguida, são denominados “fixos” e como consequência, não se adaptam à mutabilidade dos sinais incidentes. Existe vários tipos de algoritmos e variantes dos mesmos, que aplicam a abordagem de Fixed Beamforming. Destas abordagens destacam-se: Dealy-and-Sum Beamformer (DnSB) [21], Filter-andSum Beamformer [21] e o Super Directive Beamformer (SDB) [22-24]. 5.1.1. Delay-and-Sum Beamformer (DnSB) A aplicação do Delay-and-Sum Beamformer (DnSB) [21], no domínio do tempo, é apresentada na eq. (5.1). Este algoritmo consiste em alinhar todos os sinais de cada microfone do agregado, para compensar a diferença de percurso que cada sinal tem de percorrer, até chegar ao respectivo microfone. N y(n) i xi (n i ) (5.1) i 1 Sendo xi (n) o sinal do microfone i e i o atraso correspondente à diferença de percurso do mesmo microfone, os atrasos i são valores relativos a um microfone de referência. Como tal, dependem da geometria do agregado. Normalmente sinal i é igual a 1 N para que as amplitudes do y(n) sejam normalizadas pela quantidade de microfones do agregado, i.e. uma ponderação média de cada sinal captado pelo agregado. No entanto é possível estabelecer critérios de ponderação para cada microfone de forma a compensar a variação de ganho de acordo com o modelo de propagação específico (e.g. modelos de propagação campo próximo) ou para compensar algumas descalibrações pontuais dos microfones. x1 (n) 1 1 x2 (n) 2 y(n) 2 x N ( n) N N Fig. 5.1 Esquema de implementação do Delay-and-Sum Beamformer. 35 A simplicidade do DnSB, torna este algoritmo de fácil e prática implementação na maior parte de aplicações com agregados de microfones. Embora esta abordagem resulte numa filtragem espacial dependente da frequência do sinal desejado que, como se pode ver pela Fig. 5.2, para baixas frequências, a directividade do agregado é praticamente nula, o que resulta num fraca atenuação de ruídos direccionais para essas frequências. O atraso de propagação i de cada microfone está relacionado com (4.5), que é conhecido a priori. No entanto o cálculo do atraso i o ângulo DoA pela eq. também pode ser estimado, como será abordado no capítulo 6. Fig. 5.2 Filtragem Espacial do DnSB para um agregado de 64 microfones com 2cm de espaçamento. A razão pela qual o agregado não tem resolução nas baixas frequências, está directamente relacionada com a abertura do mesmo (descrito no capítulo 4). Desta forma, para que o agregado tenha resolução espacial e.g. a 300Hz, (em condições semelhantes às verificadas nas frequências mais elevadas), o agregado teria de ter umas dezenas de metros. Esta não seria uma solução praticável na maior parte dos casos. Mesmo com as estas limitações, para este agregado de 64 microfones, com o Delay-and-Sum Beamforming é possível obter resoluções espaciais satisfatórias para as médias-altas frequências (> 1000Hz). 5.1.2. Filter-and-Sum Beamformer Com o objectivo de diminuir a dependência da frequência na resolução espacial do Sum-andDelay Beamformer, entre outros métodos, é proposto o Filter-and-Sum Beamformer [21, 25]. No domínio do tempo, a implementação deste método é semelhante ao Delay-and-Sum Beamforming, com a diferença de que o sinal de cada microfone é previamente filtrado em sub-bandas de frequências mais estreitas. 36 M M L 1 i 1 i 1 l 0 y(n) hi (n) xi (n i ) hi (l ) xi (n l i ) Onde representa a convolução e (5.2) hi (n) o filtro associado ao microfone i de ordem L . Embora não seja prática a implementação deste método no domínio do tempo, por ser computacionalmente ineficiente, a sua abordagem no domínio da frequência é mais eficaz. Considerando o vector dos sinais de cada microfone X(n, k ) [ X 1 (n, k ),..., X M ( n, k )] , no instante T n e no intervalo de frequência k , e W(k ) o vector de ponderação do agregado para o mesmo intervalo de frequência k , então a saída Y (n, k ) do Filter-and-Sum é dada por: M Y (n, k ) Wi (k ) X i (n, k ) W(k ) H X(n, k ) (5.3) i 1 A parametrização de W para uma filtragem espacial invariante na frequência, requer um agregado com geometria de espaçamento harmónica (não linear) dos microfones [25, 26]. No entanto, para garantir uma resolução constante para frequências e.g. < 500Hz, é necessário um agregado com algumas dezenas de metros, o que é impraticável na maioria das aplicações pretendidas. X( k ) W(k ) X 1 (k ) W1 (k ) X 2 (k ) Y (k ) W2 (k ) X N (k ) WN (k ) Fig. 5.3 Filter-and-Sum Beamformer no domínio da frequência, para um intervalo de frequência k. 37 5.1.3. Super Directive Beamformer (SDB) O Super Directive Beamformer [22, 24] é um caso particular do Filter-and-Sum Beamformer, aplicado com o objectivo de maximizar a directividade do agregado na direcção do sinal desejado e minimizar o ruído ambiente ou sinais de direcções diferentes do sinal desejado. Nesta abordagem, o ruído ambiente é aproximado a um fonte de ruído difuso, assumido como uma boa estimação do ruído ambiente. A parametrização de W apresentada na eq. (5.4) é feita no domínio da frequência e de acordo com os critérios de Minimum Variance Distortionless Response (MVDR). Γ 1 (k )p W (k ) H 1 p Γ (k )p (5.4) Onde Γ( k ) define a matriz de correlação do ruído difuso no intervalo de frequência k entre cada microfone e p é o vector de direcção do sinal desejado (descrito no capítulo 4). Comparativamente com o Delay-and-Sum Beamformer (ver Fig. 5.3) é possível obter maiores directividades, mesmo nas baixas frequências, como se pode ver pela Fig. 5.4. Fig. 5.4 Filtragem Espacial do Super Directive Beamformer para um agregado de 64 microfones com 2cm de espaçamento. Esta abordagem tem no entanto uma limitação: a amplificação do ruído dos microfones, especialmente nas baixas frequências. Para compensar esse efeito, na eq. (5.4) é introduzido um factor de limitação de ganho do ruído incorrelacionado . No entanto, este factor de redução do ruído dos microfones é conseguido à custa da diminuição da directividade do agregado. W(k ) 38 (Γ(k ) I ) 1 p p H (Γ(k ) I ) 1 p (5.5) 5.2. Filtragem Espacial Adaptativa Na secção anterior, foram apresentadas técnicas de filtragem espacial onde são conhecidas a priori as características do ruído e que as mesmas são estacionárias no decorrer do processo de filtragem espacial. Na maioria das situações reais, este pressuposto não é válido. Dessa forma é necessário obter ou estimar as características do ruído ao longo do tempo. Nesta secção, serão abordadas algumas das técnicas mais conhecidas de filtragem espacial adaptativa (Adaptive Beamformer). A ideia geral deste método, consiste em obter duas direcções distintas de acção da filtragem espacial e processá-los de forma conveniente. A primeira direcção corresponde à do sinal desejado (beam steering) e a segunda direcção à dos sinais de ruído (null steering). O processo como se combinam estes dois sinais, difere de algoritmo para algoritmo, mas consiste tipicamente em aplicar filtros adaptativos (e.g. LMS, NLMS, RLS, etc.), com o objectivo de eliminar o ruído correlacionado existente na direcção do sinal desejado. Tal como na filtragem fixa, a direcção do sinal desejado (DoA) é conhecida a priori e assume-se que é constante ao longo do processo de filtragem, embora se possa encadear estes métodos com técnicas de estimação de DoA, que serão abordadas no próximo capítulo, como já foi mencionado. Em geral, a filtragem espacial adaptativa permite obter melhores resultados de supressão de ruído, comparativamente aos métodos de filtragem espacial fixa. Pelo facto de estes métodos se adaptarem às condições de ruído existente, o desempenho da filtragem espacial adaptativa é particularmente superior, em situações de ruído direccional cuja direcção seja conhecida a priori. No entanto estes métodos são sensíveis a erros na direcção DoA, que tipicamente resultam em situações de cancelamento do próprio sinal desejado. Nesta secção são destacados dois métodos de filtragem espacial adaptativa, como o Generalized Sidelobe Canceller [13] e o Robust Adaptive Beamforming [14, 15]. 5.2.1. Generalized Sidelobe Canceller (GSC) A maioria das actuais técnicas de filtragem adaptativa é baseada nos métodos de Generalized Sidelobe Canceller (GSC) [13], com modificações que permitem aumentar a robustez, normalmente à custa de maior complexidade computacional. Conhecido também como Griffiths-Jim Beamformer, o método de GSC pode ser interpretado como a sobreposição de dois métodos com funções distintas de processamento: filtragem fixa e filtragem adaptativa. Na filtragem fixa são aplicadas técnicas de filtragem espacial fixa, Fixed Beamforming (FBF), já anteriormente mencionadas. Este processamento tem objectivo obter uma referência do sinal desejado (beam steering). Na filtragem adaptativa, existem também duas partes distintas: uma matriz de bloqueio e um cancelador de múltiplas entradas. A matriz de bloqueio, blockig matrix (BM), permite obter múltiplas referências dos sinais de ruído (null steering). No cancelador de múltiplas entradas (MC) são aplicados filtros adaptativos (e.g. LMS ou NLMS). A sua função é cancelar os sinais correlacionados entre o filtro espacial fixo (FBF) e a matriz de bloqueio (BM). 39 Fig. 5.5 Estrutura do GSC: Fixed Beamformer (FBF), Blocking Matrix (BM) e Multiple Canceller (MC). A modularidade do GSC permite que se possa integrar qualquer tipo de filtro espacial no FBF. Aplicando um Delay-and-Sum Beamformer, a saída d ( n) do FBF é dada por: d (n) pT x(n) onde (5.6) p representa o vector de direcção do sinal desejado e no caso de os sinais em todos microfone estarem alinhados (DoA = 90º), o vector p é dado por: p 1 N ,1 N , ,1 N T (5.7) sendo N o número total de microfones do agregado. Neste caso, o resultado da saída de cada sinal zi (n) na BM do GSC é obtido subtraindo o sinal de cada microfone em pares adjacentes. Na forma matricial BM é dado por z (n) Bx(n) 40 1 0 B 0 0 B: 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 (5.8) A saída e(n) do processamento do MC é dada por: e(n) aT z(n) onde (5.9) a representa o vector de coeficientes do filtro adaptativo do MC. Desta forma, o sinal de saída do GSC é dado por: y(n) d (n) e(n) pT x(n) aT z(n) (5.10) Neste caso, temos o sinal d ( n) na saída do FBF que representa o sinal desejado (mais componentes residuais do ruído interferentes) e z (n) na saída da BM que representa os sinais de ruído interferentes. Os coeficientes a do filtro que minimizam a energia do sinal d ( n) , podem ser obtidos aplicando um filtro adaptativo LMS. Deste modo, a pode ser dado por: an1 an y(n)z(n) onde (5.11) representa o factor de adaptação do filtro LMS. Uma vez que o filtro LMS estima o ruído e(n) a partir dos sinais z (n) , da eq.(5.10) conclui- se que apenas é possível reduzir o ruído correlacionado entre d ( n) e presença de ruído na BM incorrelacionado com o sinal z (n) . Isto significa que a d (n) do FBF, não melhora o desempenho global do GSC. Do mesmo modo, na eventualidade de existir sinal desejado presente na BM, existirá cancelamento do próprio sinal desejado, resultando numa degradação do GSC face ao Delay-andSum Beamformer. Esta fuga de sinal desejado para a BM, conhecido por signal leakage, deve-se a erros associados ao valor de DoA ao qual este método é particularmente sensível e a outros factores, que serão abordados na secção seguinte. 5.2.2. Robust Adaptive Beamformer O efeito de cancelamento do sinal desejado, no método de GSC deve-se fundamentalmente a erros associados ao ângulo DoA. Por o DoA nem sempre coincidir com a direcção real do locutor, resulta num alinhamento incorrecto da fase dos sinais; ou por as diferenças de fase entre os sinais xi (n) nem sempre poderem ser discretizadas, resulta que o sinal desejado aparece na saída da BM (signal leakage). Como consequência, o bloqueio do sinal desejado pela BM não é total e resulta quase sempre num cancelamento do sinal desejado à saída do FBF. Os erros associados ao DoA são inevitáveis, na medida em que os modelos de propagação dos sinais acústicos assumidos nem sempre reflectem os fenómenos não-estacionários do meio acústico real. A variação das características dos microfones e erros associados à posição dos mesmos, contribuem também para os erros associados ao DoA. Adicionalmente, a reverberação do sinal desejado é outro factor que 41 mais contribui para o cancelamento do sinal desejado, uma vez que o sinal interferente passa a ser espacialmente correlacionado com o sinal desejado vindo de outras direcções. A variação de ganho entre microfones e a variação de amplitude do sinal, devido a variação da distância que os sinais têm de percorrer até chegar aos microfones, resulta em que a simples subtracção dos sinais dos microfones, feita na BM, não elimina por completo o sinal desejado. As respostas impulsivas de cada microfone (que não são tidas em conta no modelo do agregado) alteram a correlação dos sinais, e consequentemente diminuem a capacidade de supressão de ruído correlacionado. Todas estas situações, que tipicamente aparecem conjugadas degradam severamente o desempenho do GSC e novas soluções são necessárias. Para minimizar o cancelamento do sinal desejado, foram propostas várias técnicas para diminuir o efeito de signal leakage na BM [27-33] e para limitar o crescimento dos coeficientes dos filtros adaptativos do MC [33-36]. Baseado no GSC, o método de Robust Adaptive Beamformer [14, 15] permite melhorar a robustez da BM e do MC, embora este aumento de robustez aumente a complexidade computacional, face ao GSC. Este método permite não só melhor a capacidade do BM em bloquear o sinal desejado e deixar passar os sinais de ruído, como permite que no geral o método seja mais robusto a erros associados ao ângulo DoA. Fig. 5.6 Estrutura CCAF-NCAF do Robust Adaptive Beamformer. Uma solução eficaz para reduzir o efeito do signal leakage na BM, passa por colocar filtros adaptativos com restrições nos coeficientes (CCAF) (Coefficient Constrained Adaptive Filters). Os CCAF’s funcionam como canceladores adaptativos de ruído. Nesta estrutura, o sinal de entrada do 42 filtro é d ( n) , da saída do FBF. À saída do CCAF é então subtraído o sinal de cada microfone Como resultado, no sinal xi (n) . z (n) , à saída do BM, as componentes correlacionadas com d (n) são canceladas pelos CCAF’s. Por outras palavras, as componentes do sinal desejado d ( n) que aparece no microfone i (sinal xi (n) ), são activamente canceladas pelo CCAF. A implementação dos CCAF’s pode ser feita por um filtro LMS normalizado (NLMS), de acordo com a eq. (5.12). zi (n) d(n) d(n)T d(n) (5.12) Φi , para hi ( n 1) i hi (n 1) Ψ i , para hi ( n 1) i hi (n 1), c.c. (5.13) hi (n 1) hi (n) Sendo Φi e Ψi os vectores com os limites superiores e inferiores, respectivamente, dos coeficientes do filtro hi (n) , com dimensões correspondentes à ordem do filtro. O vector d(n) representa o sinal na saída do FBF, também com dimensão correspondente à ordem do filtro. A constante representa o factor de adaptação do CCAF. Todos os coeficientes do CCAF são restringidos, pelo facto da minimização do sinal desejado variar significativamente com o valor de DoA, permitindo assim ajustar os coeficientes dos CCAF’s a partir de um erro arbitrário de DoA. Combinando os CCAF da BM com filtros adaptativos com restrição da norma dos coeficientes (NCAF) (Norm Constrained Adaptive Filters) no MC, é possível cancelar as componentes correlacionadas de d ( n) presentes em z (n) . Uma vez que z (n) não contém componentes do sinal desejado, os NCAF’s apenas cancelam o ruído correlacionado do sinal d (n) na saída do FBF. A restrição da norma dos coeficientes do NCAF, evita o cancelamento do sinal desejado quando os CCAF’s não conseguem eliminar por completo o sinal desejado em x(n) , i.e. quando a BM deixa passar algumas componentes do sinal desejado. Na prática, o cancelamento total do sinal desejado pela BM é na realidade quase impossível, uma vez que na maioria dos ambientes reais existem reverberações do sinal desejado e do ruído. Dessa forma, é também necessário colocar restrições aos coeficientes dos filtros no MC, para evitar o cancelamento do sinal desejado. A implementação do NCAF pode também ser feita recorrendo a filtros NLMS, de acordo com a eq (5.14). wi (n 1) w i (n) y ( n) z i ( n) z i (n)T z i (n) K wi (n 1), para >K w i (n 1) wi (n 1), c.c. (5.14) (5.15) 43 onde wi (n 1) wi (n 1) e T K representa um limiar arbitrário. Neste caso, w i (n) representa o vector de coeficientes para cada filtro NCAF, com dimensão igual à ordem do filtro. O vector representa o sinal na saída de cada CCAF, com a mesma dimensão de z i ( n) w i (n) . A constante representa o factor de adaptação do NCAF. Idealmente, a BM e o MC devem funcionar alternadamente, dado que ambos executam tarefas complementares. No caso da BM, o sinal desejado é o sinal de fala, enquanto que no MC, o sinal desejado é o sinal de ruído. Desta forma, os CCAF’s devem adaptar os seus coeficientes quando existe apenas sinal de fala (sinal desejado), enquanto que os NCAF’s devem adaptar apenas os seus coeficientes quando não existe sinal de fala (apenas sinal de ruído). Assim, a robustez deste método depende do desempenho de algoritmos para detecção de fala, pois uma incorrecta adaptação dos filtros CCAF-NCAF conduz a um cancelamento quase total do sinal desejado. 5.3. Resultados experimentais Nas secções anteriores, foram enunciadas técnicas que permitem melhorar a qualidade de um sinal de fala processado por agregados de microfones. Resumidamente, as técnicas anteriores permitem captar o sinal de fala de um locutor em campo distante (far field) e diminuir as componentes de ruído ou sinais interferentes, em ambientes moderadamente ruidosos. Para avaliar os métodos de filtragem espacial implementados, são comparados os resultados da relação de sinal-ruído (SNR), dos sinais acústicos resultantes do processo de filtragem espacial. Em condições de ensaio idênticas, a comparação dos resultados de SNR, permite avaliar a capacidade de supressão dos sinais espúrio, de cada método de filtragem espacial abordado. É de salientar, que estes resultados têm também como objectivo validar a viabilidade e capacidade das técnicas de filtragem espacial, aplicadas com um o agregado linear e uniforme (ULA) de 64 microfones com espaçamento de 2cm. 5.3.1. Filtragem Espacial Fixa Nos próximos ensaios, são comparados os resultados relativos ao desempenho do Delayand-Sum Beamformer (DnSB) e do Super Directive Beamformer (SDB). Como o algoritmo de Filterand-Sum Beamformer é idealmente aplicado em agregados com espaçamento harmónicos [25, 26], não são elaborados resultados com este método de filtragem espacial. Os primeiros resultados experimentais foram elaborados com o agregado colocado na câmara anecóica, por esta apresentar uma acústica sem ecos e sem ruídos ambientes. Dada a ausência de ruído no interior da câmara anecóica, este ensaio permite averiguar qual o ruído gerado pelos microfones do agregado e obter um resultado padrão para comparação com os ensaios em ambientes reais. 44 2 O ensaio em ambientes reais foi efectuado na sala nº226 do L F/INESC-ID (ver Anexo B). Esta sala apresenta uma acústica reverberante, com ruído ambiente provocado por ventoinhas de computadores e máquinas de ar-condicionado. Ensaio em câmara anecóica Neste ensaio o locutor é colocado o mais afastado do agregado possível, para modelar o sinal acústico como uma onda plana incidente no agregado. O locutor está colocado no interior da câmara anecóica a 3,8m de distância com uma direcção de 90º, em relação ao eixo dos microfones (de acordo com a Fig. 4.4). O pressuposto de onda plana incidente no agregado é validado com um sonómetro de alta precisão, medindo a intensidade dum sinal de teste ao logo do plano dos microfones do agregado. Para que seja possível comparar os resultados entre o modelo clássico de aquisição de fala em campo próximo com o modelo em campo distante, o sinal de fala é simultaneamente adquirido pelo agregado de microfones e por um head-set colocado no locutor. Dada a ausência total de sinais espúrios no interior do local de ensaio, é esperado que o sinal de fala, resultante da aplicação dos algoritmos de filtragem espacial, seja semelhante ao sinal de fala do head-set. Da aplicação do algoritmo Super Directive Beamformer (SDB), é esperado ainda determinar experimentalmente a constante (da eq.(5.5)) que minimiza o efeito do ruído dos microfones no sinal de fala processado pelo agregado. Fig. 5.7 Resultado do algoritmo Delay and Sum Beamforming (DnSB). 45 Na Fig. 5.7 e Fig. 5.8 apresentam-se as formas de onda e espectros do sinal de fala adquiridos pelo agregado e processados pelo algoritmo de DnSB e de SDB, respectivamente. Na Tab. 5.1 apresenta-se na segunda coluna a relação entre o sinal-mais-ruído e o ruído 12 13 (SNR ); na terceira coluna apresenta-se a variação de SRN relativa ao modelo close talk. Os resultados de SNR são obtidos directamente dos sinais de fala apresentados nas Fig. 5.7 e Fig. 5.8. Fig. 5.8 Resultados do algoritmo Super Directive Beamforming (SDB). 12 Assume-se que o ruído é estacionário e nesta caso o SNR=10log10(σ2sinal+ruído/ σ2ruído). Como o SNR de um sinal de fala varia com o número de silêncios ou tamanho do sinal, apenas faz sentido a avaliação com SNRs para a mesma locução (utterance). 13 Pretende-se verificar a variação do SNR usando como referência o sinal de fala captado com um head-set (campo próximo). 46 O sinal do microfone #32 14 do agregado, na Fig. 5.7, mostra o efeito do ruído dos microfones no sinal de fala adquirido pelo agregado. Dada a ausência total de sinais espúrios no interior do local de ensaio, deduz-se que este ruído tem origem no próprio agregado. A origem do ruído pode ser devido à qualidade dos microfones de electreto, ao ruído residual proveniente dos sistemas electrónicos que compõem o agregado. Como consequência, usando apenas um microfone em campo distante (mic. #32 do agregado), observa-se que existe degradação do resultado de SNR em cerca de metade, quando comparado com o microfone colocado em campo próximo (mic. head-set). No entanto, com a aplicação do DnSB obtém-se uma melhoria de SNR, quando comparado com apenas o microfone #32. Comparando o resultado do sinal adquirido pelo head-set e a aplicação do DnSB, verifica-se que foi possível eliminar grande parte do ruído dos microfones sem distorção do sinal de fala (Fig. 5.7). Dado que a intensidade acústica varia inversamente com o quadrado da distância e, com o locutor colocado a 3,8m do agregado, é esperada uma atenuação de pelo menos de 10dB entre o modelo em campo próximo e em campo distante. Na Tab. 5.1, a variação da atenuação 50dB para 40dB no SNR do head-set para o DnSB, está de acordo com a atenuação prevista da propagação dos sinais acústicos em campo livre. Na Fig. 5.8, é apresentado o processamento do mesmo sinal de áudio mas desta vez aplicando algoritmo de SDB, com diferentes valores de . Dos resultados de SDB, na Fig. 5.8, verifica-se que para 0 degradado pelo ruído introduzido pelos microfones. Diminuindo , monótona do ruído dos microfones introduzidos no sinal de fala. Para o sinal de fala é severamente verifica-se uma diminuição 10dB , o algoritmo de SDB produz um sinal de fala com níveis de ruído dos microfones que se consideram aceitáveis. No entanto, comparando com o resultado de DnSB, verifica-se que existe uma degradação de 9dB. Isto significa que o ganho teórico de directividade do SDB face ao DnSB não compensa o ruído dos microfones introduzido. Tab. 5.1 Variação do SNR com o algoritmo de filtragem espacial. Sinal SNR Variação do SNR relativa ao head-set head-set Microfone #32 DnSB SDB, μ =0 SDB, μ =-60dB SDB, μ =-40dB SDB, μ =-20dB SDB, μ =-10dB 50dB 27dB 40dB 10dB 18dB 22dB 29dB 31dB - 46% - 20% - 80% - 64% - 56% - 42% - 38% 14 Como referência de um microfone isolado em campo distante escolheu-se o microfone no centro do agregado. Uma vez que os microfones do agregado foram previamente calibrados, assume-se que todos os microfones do agregado têm valores idênticos de SNR. 47 Comparando os resultados de SDB (para 10dB ) com DnSB, verifica-se que existe uma perda de 9dB da qualidade do sinal para apenas um ganho de ≈5dB na directividade do agregado. Em termos relativos ao sinal do head-set, esta variação atinge o dobro da atenuação quando se aplica o DnSB e SDB (para μ =-10dB), o que levanta algumas dúvidas sobre o desempenho do SDB aplicado neste agregado de microfones. Ensaio em ambientes reverberantes reais Pretende-se com este ensaio avaliar o desempenho (em SNR) dos filtros espaciais com dois tipos de sinal. Os dois sinais que se pretende separar espacialmente são, um sinal de fala e um sinal de ruído branco, respectivamente, ambos com origem em pontos diferentes do espaço. Como sinal de fala, usou-se fala natural com o locutor colocado a 2,4m de distância do agregado e com uma direcção de DoA=90º. Como fonte de ruído utilizou-se um altifalante colocado a uma distância de 2,6m do centro do agregado com uma direcção DoA=0° deste, ao qual se aplica um sinal de ruído branco Gaussiano gerado num computador. São avaliados os resultados da aplicação dos dois algoritmos, na separação espacial do sinal de fala e de um sinal de ruído branco. Foram processados os sinais do agregado pelo algoritmo DnSB e SDB (com 10dB ) respectivamente, “apontando” 15 o agregado individualmente na direcção de cada uma das fontes de sinal, i.e. para DoA=90° e 0°. Destes resultados, é esperada uma variação de SNR com ambos os algoritmos de filtragem espacial, quando se altera a direcção do agregado. Uma vez que a direcção DoA=0º corresponde à da fonte de ruído, é esperada uma degradação do sinal de fala para esta direcção, quando comparada com a direcção de DoA=90°. As variações dos valores de SNR em condições reais dependem das condições acústicas da sala de ensaio, mais concretamente do tipo de ruído presente na sala. Como já foi referido anteriormente, no caso de existir ruído de frequências inferiores a 500Hz é esperada uma degradação considerável dos resultados, uma vez que a filtragem espacial não é eficaz na separação espacial para frequências inferiores a 500Hz. Dado que o locutor está a 2,4m do agregado, é esperada uma atenuação de pelo menos 8dB no SNR para o sinal processado pelo agregado, quando comparado com o resultado do head-set. 15 Entenda-se “apontar” com direccionar por software (electronic steer), mantendo o agregado fisicamente estático. 48 Tab. 5.2 Variação do SNR com o ângulo DoA. Sinal head-set Microfone #32 ◦ DnSB DoA = 90 ◦ DoA = 0 ◦ SDB DoA = 90 ◦ DoA = 0 SNR 37dB 9dB 11dB 6dB 13dB 12dB Variação do SNR relativa ao head-set -76% -70% -84% -65% -68% De acordo com o esperado, os resultados da Tab. 5.2 mostram que na aplicação do DnSB e SDB existe um aumento do SNR quando se “aponta” o agregado para o sinal de fala (DoA=90º) e o inverso quando se “aponta” para o sinal de ruído (DoA = 0º). Comparando a forma de onda da Fig. 5.9, para DnSB com DoA=0º e 90º, respectivamente, observa-se que para DoA=0º, o sinal apresenta uma maior amplitude do ruído em relação ao resultado para DoA=90º, como esperado. Para o caso de SDB, essa variação é menos evidente, por se observar um corte nas baixas frequências, o que diminui o nível de ruído quando DoA = 0º. Dos resultados da Tab. 5.2, observa-se ainda que os sinais processados pelos filtros espaciais obtêm níveis de SNR na generalidade reduzidos, quando comparados com o sinal adquirido com o head-set. Este resultado devem ao facto de a sala de ensaio apresentar grande reverberação e existirem múltiplas fontes de ruído, para além do ruído de teste em DoA=0º. Por inspecção do espectro dos sinais na Fig. 5.8 e Fig. 5.9 processados pelo agregado, verifica-se a presença elevada de ruído abaixo da frequência de 500Hz, proveniente de sistemas de extracção de ar exteriores à sala de ensaio (ver Anexo B). A presença deste tipo ruído resulta numa degradação dos resultados de SNR em ambos algoritmos. No caso do SDB, o ligeiro aumento de directividade nas baixas frequências contribui para uma diminuição da presença de ruído de baixa frequência e, como consequência, uma melhoria do SNR face ao DnSB. Ao contrário, dada a fraca resolução do DnSB nas baixas frequências, a presença do mesmo tipo de ruído tem um efeito penalizador acrescido no desempenho deste método, resultando numa diminuição do SNR. 49 Fig. 5.9 Resultados da filtragem espacial em ambientes reais. Outro factor relevante que condiciona o resultado é a presença de ecos. As superfícies lisas das mesas de trabalho, dos móveis em toda sala e as próprias paredes, contribuem para as reverberações na sala. A presença de ecos degrada a separação espacial dos sinais, uma vez que coloca o sinal de fala e de ruído no mesmo ponto do espaço (aumento da correlação espacial dos sinais), tornando a separação espacial ineficaz. 50 5.3.2. Filtragem Espacial Adaptativa Tipicamente, o aumento do custo computacional dos algoritmos de filtragem espacial é, no melhor dos casos, proporcional ao número de microfones. Porque se pretende implementar num futuro próximo algoritmos de filtragem espacial em tempo real, a linha de investigação e aplicação nesta tese pondera o custo computacional dos algoritmos. Dado que o agregado em questão tem 64 microfones, qualquer aumento da complexidade computacional do algoritmo é crítico. Desse ponto de vista, apenas o GSC é apresentado como solução de filtragem adaptativa para este agregado. Primeiramente, são conduzidos ensaios em ambiente anecóico simulado, que servem para validar os métodos de filtragem espacial. De seguida, são obtidos os resultados com o áudio do agregado em ambientes reais (moderadamente ruidosos e reverberantes) para avaliar o desempenho dos métodos de filtragem espacial implementados. Ensaio em câmara anecóica simulada 16 As simulações são conduzidas em Octave , com fala masculina adquirida num computador, com 6 segundos de duração amostrada a 22050 amostras por segundo. O ruído branco é simulado por software com um gerador de sinais aleatórios. A simulação da câmara anecóica pretende simular uma acústica sem reverberações e sem sinais espúrios (além dos sinais interferentes simulados). Nestas condições ideais, assume-se também que os microfones do agregado são todos iguais e têm um comportamento linear na frequência. Desta forma, é esperado que a BM do GSC (Fig. 5.5) cancele totalmente o sinal desejado. São conduzidas duas simulações para verificar o desempenho do GSC no cancelamento de dois tipos de sinais interferentes, ambos com uma direcção em DoA=45º: um sinal de ruído branco (estacionário) e um sinal de fala de um segundo locutor (não-estacionário). Em ambas as simulações, existe um primeiro locutor que está colocado em DoA=90º e que representa o sinal de fala desejado. Como se está perante uma simulação em ambientes acústicos ideais, nada é dito sobre as distâncias da fonte de sinal ao agregado, apenas se assume que a onda incidente no agregado é idealmente plana. Como módulo de filtragem espacial fixa (FBF), foi aplicado o Delay-and-Sum Beamformer por ser o algoritmo de filtragem espacial com menor custo computacional. No entanto, dada a modularidade do GSC, é possível integrar qualquer filtro espacial como unidade de processamento do FBF. Na unidade de MC do GSC são aplicados filtros LMS em cada canal. Todos os filtros LMS são de ordem L=64, com um coeficiente de adaptação 16 0, 01 . Dado o número de dados Solução freeware do Matlab que infelizmente não está optimizada para multi-processamento. 51 envolvidos, como unidade de processamento, foi usado um computador com 4 processadores e 8G de memória RAM. Nestas condições, o tempo de processamento dos 6 segundos de áudio é de ≈ 27 segundos, i.e. 4,5 x tempo real. Na Tab. 5.3 são apresentados os valores de SNR dos sinais resultantes das várias etapas de processamento do algoritmo GSC. Tab. 5.3 Simulação do GSC para dois sinais interferentes: variação do SNR. Sinal SNR Ruído branco head-set Microfone #32 FBF GSC 2º Locutor 30,7dB -5,6dB 7,6dB 12,7dB 4,6dB 11,2dB 22,5dB Numa primeira análise dos resultados da Tab. 5.3 torna-se evidente que a aplicação do algoritmo GSC melhora os resultados de cancelamento dos sinais interferentes, quando comparados com os resultados da aplicação da filtragem espacial fixa (FBF). Avaliando o desempenho individual do FBF e do GSC, verifica-se que existem diferenças quanto ao tipo de sinal interferente. Dado que o ruído branco tem um espectro plano e que o sinal de fala tem predominância nas baixas frequências, do ponto de vista de correlação espacial, o sinal interferente do 2º locutor tem menos componentes espacialmente incorrelacionadas que o ruído branco. Uma vez que o FBF apenas permite eliminar componentes espacialmente incorrelacionadas, devido à variação da directividade com a frequência, observa-se um melhor desempenho no cancelamento do ruído branco (com um ganho de 13dB em relação ao microfone #32), quando comparado com o cancelamento do sinal de fala do 2º locutor (com um ganho de 7dB também em relação ao microfone #32). De forma inversa, e porque o MC do GSC é implementado com filtros LMS (Fig. 5.5), o MC apenas elimina as componentes correlacionadas entre os sinais de BM e o sinal de FBF. Observa-se o GSC tem melhor desempenho a cancelar o sinal do 2º locutor (com um ganho de 11dB em relação ao microfone #32) do que o sinal de ruído branco (com um ganho de 5dB em relação ao microfone #32), mesmo que o ruído branco seja um sinal mais estacionário que o sinal de voz do 2º locutor. No entanto, o resultado global do GSC mostra que se obtém um ganho de 18dB (em relação ao sinal do microfone #32 do agregado) de atenuação, para ambos os sinais interferentes. Em suma, considerando que o sinal desejado é “contaminado” por sinais espúrios com componentes espaciais incorrelacionadas e correlacionadas, os resultados mostram que o FBF minimiza as componentes espacialmente incorrelacionadas dos sinais de ruído e o MC do GSC minimiza as componentes espacialmente correlacionadas do ruído. Ao contrário das estruturas de filtragem espacial fixa, como o DnSB, que apenas minimiza as componentes espacialmente incorrelacionadas do ruído, a estrutura do GSC permite teoricamente eliminar ambas as componentes incorrelacionadas e correlacionadas dos sinais de ruído. O que significa que o GSC obtém um ganho substancial na eliminação de sinais espúrios quando aplicados aos sinais de fala que, dadas as 52 componentes de baixas frequências típicas dos mesmos, aparecem como sinais com elevada correlação espacial. Ensaio em ambientes reverberantes reais Neste ensaio, os sinais de fala são obtidos directamente do agregado de microfones colocado 2 na sala de demonstrações do L F/INESC-ID (ver Anexo B). Esta sala apresenta ruído moderado com características estacionárias, proveniente das ventoinhas dos computadores, de máquinas de ar condicionado e alguns ruídos não-estacionários (e.g. batimento de portas, passos no exterior da sala, etc.) O locutor está colocado 2m na frente do agregado (DoA=90º) e é gravado um segmento de fala com duração de 20 segundos. Para além do ruído ambiente existente na sala, é colocada uma fonte de ruído branco artificial a 2m e com uma direcção de DoA = 45º. Neste ensaio, é usado o método de GSC para filtragem espacial aplicado no ensaio anterior. No entanto, são feitas algumas alterações para permitir que o GSC apresente alguma robustez em ambientes reais. Os resultados com dados reais são também conduzidos em Octave. No ensaio em câmara anecóica simulada, não é assumida qualquer influência dos microfones ou da propagação dos sinais acústicos no ar, i.e. no modelo matemático da simulação não é tido em conta a função de transferência dos microfones ou do meio de propagação. Deste modo, neste ensaio é esperada uma diminuição global na atenuação dos sinais interferentes, face aos resultados anteriormente simulados. Tal como referido anteriormente, na introdução ao Roubust Adaptive Beamformer, devido ao efeito de signal leakage na BM, o GSC pode cancelar o sinal desejado, normalmente devido ao efeito da reverberação do sinal desejado e erros associados à direcção do sinal desejado. A solução encontrada para evitar o cancelamento do sinal desejado foi a de colocar um detector de fala (Voice Activation Detector) (VAD). Deste modo, os coeficientes dos filtros adaptativos do MC apenas são actualizados quando não existe sinal de fala (sinal desejado) na saída do FBF. Como resultado, teoricamente o MC apenas cancela os sinais correlacionados entre o FBF e BM nas zonas de ruído, embora a filtragem do MC nunca seja interrompida. Neste ensaio, os filtros LMS do MC são de ordem L=64, com um coeficiente de adaptação 0, 001 . Com estes parâmetros, a duração de processamento de 20 segundos de áudio adquirido do agregado é de 87segundos (4,5 x tempo real), num computador de 8 processadores com 16G de memória RAM. Na Tab. 5.4 apresentam-se os valores de SNR dos sinais reais resultantes das várias etapas de processamento do algoritmo GSC. Ao contrário do ensaio anterior, os sinais são adquiridos directamente do agregado, o que significa que não se tem acesso aos sinais desejados e sinais interferentes, separadamente. Assumindo que os sinais interferentes são estacionários (como é o 53 caso do sinal de ruído branco colocado a DoA = 45º), o SNR 17 pode ser calculado de acordo com a fórmula clássica do rácio das energias dos sinais. Neste caso, a energia do ruído é obtida nos segmentos de “não-fala” 18 e a energia do sinal desejado mais ruído é obtida nos segmentos de fala dos mesmos. Tab. 5.4 Aplicação do GSC em ambientes reais: variação do SNR. Sinal Microfone #32 FBF GSC Sem VAD Com VAD SNR 3,9dB 12,2dB 6,4dB 14,3dB A aplicação do FBF obtém um ganho de 8dB em relação ao microfone #32 do agregado, que de acordo com o ensaio anterior, corresponde ao cancelamento do ruído espacialmente incorrelacionado. A aplicação do GSC resulta num cancelamento do ruído espacialmente correlacionado. Dada a acústica reverberante da sala de ensaio, o ruído espacialmente correlacionado inclui o sinal desejado reflectivo nas várias direcções. Como consequência, o GSC sem o detector de fala (VAD) resulta num cancelamento do próprio sinal desejado, o que se traduz numa atenuação de 6dB do sinal do FBF. A introdução do VAD no GSC permite que o efeito de cancelamento do sinal desejado 19 seja minimizado , cancelando assim o ruído espacialmente correlacionado apenas nos segmentos de “não-fala” do sinal do FBF. Como resultado, com a aplicação do GSC com VAD verifica-se um ganho de 2dB em relação ao FBF. 5.4. Análise dos resultados Como já se referiu na secção 5.1.1, uma das limitações do filtro espacial DnSB é a sua fraca resolução espacial (directividade) para sinais com frequências inferiores a 500Hz. Dado que 80% da energia do sinal de fala se encontra no intervalo frequências entre 100 e 500Hz [37], a perda de directividade do agregado para as baixas frequências não é desejável. Como veremos, o aumento do custo computacional do SDB face ao DnSB não justifica a aplicação do filtro espacial SDB, na medida em que ao pequeno aumento de directividade não é compensado o aumento do ganho do ruído incorrelacionado dos microfones. Na Fig. 5.10 é apresentado em (a) a evolução do factor de directividade teórico (DI) ao longo da frequência e em (b) a correspondente variação da atenuação do ruído incorrelacionado (WNG) 17 18 Assumindo ruído estacionário: SNR 10log 10 ( 2 sinal ruido ruido ) ruido 2 2 Entenda-se por segmentos de “não-fala” como os segmentos do sinal onde apenas existe sinal interferente. 19 Notar que o VAD não interrompe o processo de filtragem adaptativa do MC, apenas controla o processo de adaptação dos coeficientes dos filtros adaptativos LMS no MC. 54 para os métodos de DnSB e SDB. Na Fig. 5.11 é apresentado o mesmo resultado mas desta vez apenas para o SDB para diferentes constantes (eq.(5.5)). Como se pode observar pelas duas figuras, verifica-se que a directividade dos filtros espaciais diminui monotonamente com a frequência dos sinais. Do ponto de vista espacial, a diminuição da frequência do sinal resulta num aumento da correlação espacial dos sinais, i.e. à medida que a frequência dos sinais diminuem, diminui igualmente a capacidade do filtro espacial em distinguir espacialmente os sinais (directividade) mesmo que estes tenham origem em pontos distintos do espaço. Por este motivo, quando se aumenta a correlação espacial, diminui-se a directividade do agregado e vice versa. Da Fig. 5.10 (a) observa-se que o SDB tem uma directividade superior ao DnSB. No entanto, da Fig. 5.10 (b) confirma-se que o SDB amplifica severamente o ruído incorrelacionado, tornando este algoritmo inadequado para aplicações de aquisição de fala. Para compensar este efeito da amplificação do ruído incorrelacionado no SDB, é introduzida a constante , (ver eq. (5.4) ), que funciona como factor de redução do ruído dos microfones. No entanto, esta de redução do ruído implica uma diminuição da directividade do filtro espacial (Fig. 5.11). Fig. 5.10 (a) Factor de directividade (DI) e (b) Atenuação do ruído incorrelacionado (WNG) para DnSB e SDB. Os ensaios experimentais com o SDB na câmara anecóica permitiram determinar experimentalmente a constante . Para o valor 10dB , considera-se que se obtém um nível aceitável de ruído dos microfones (ruído incorrelacionado). No entanto, o desempenho do SDB é inferior ao DnSB e, uma vez que se verifica experimentalmente uma atenuação do ruído dos microfones inferior em 9dB, para apenas se obter um aumento inferior a 5dB na directividade relativamente ao DnSB (ver DI para o SDB com 10dB na Fig. 5.11(a) versus DI para o DnSB na Fig. 5.10 (a)). 55 Fig. 5.11 Efeito da variação de μ em DI e WNG A aplicação do GSC mostrou ser uma solução elegante para colmatar a ineficiência dos filtros espaciais fixos, na atenuação dos sinais espacialmente correlacionados. A estrutura de filtros adaptativos do MC no GSC permite o cancelamento dos sinais espacialmente correlacionados. A estrutura do GSC não é mais do que a integração de um filtro espacial (neste caso um DnSB) com um conjunto de filtros adaptativos (Fig. 5.5). Em consequência, se dividirmos o sinal de ruído em componentes espaciais incorrelacionadas e correlacionadas, o FBF permite cancelar a componente espacialmente incorrelacionada do ruído e o MC a respectiva componente espacialmente correlacionada. As simulações dos GSC com sinais de fala, mostram que é possível atingir o limite teórico de atenuação com um filtro espacial [24, 38], 10log10 ( N ) (sendo N o número total de microfones do agregado). No entanto a aplicação deste algoritmo em ambientes reais (reverberantes), evidenciou algumas das suas limitações: os erros associados à direcção DoA e a variação discreta dos atrasos de propagação levam a que a BM não bloqueie totalmente o sinal desejado. A presença de sinal desejado na saída da BM (signal leakage) resulta num cancelamento do próprio sinal desejado. A reverberação do sinal desejado é também um dos factores que mais contribui para o mau desempenho de qualquer filtro espacial. O sinal desejado sendo reflectido em várias direcções correlaciona-se espacialmente com o ruído, na medida em que o sinal desejado aparece em várias direcções do espaço, além da direcção DoA desejada. A solução encontrada para minimizar estes efeitos, foi a de colocar um detector de fala (VAD). O VAD funciona como uma função booleana que permite que os coeficientes do LMS apenas sejam actualizados em períodos de “não-fala”, restringindo-se assim os filtros adaptativos do MC à minimização dos sinais espúrios. Como seria de esperar, o GSC em ambientes reais apresenta um desempenho inferior comparado com as simulações, no entanto os resultados experimentais mostram ser possível atenuar as fontes de ruído em mais de 10dB (em situações de ruído aproximadamente estacionário). Como o FBF apenas elimina o ruído espacialmente incorrelacionado verifica-se, pela Fig. 5.12, que o FBF apresenta um limite de atenuação do ruído devido às restrições geométricas impostas pelo agregado, nomeadamente pela limitação da abertura deste. No entanto, a atenuação 56 do ruído espacialmente correlacionado evolui no tempo, uma vez no GSC são aplicados filtros que se adaptam ao ruído ao logo do decorrer do processo de filtragem espacial. Fig. 5.12 Resultados experimentais do GSC com VAD em ambientes reais: evolução da energia do sinal de fala processado pelo FBF e GSC. Para o factor de adaptação dos filtros LMS do GSC, estipulado em 0, 001 (eq. (5.11)), era esperado uma adaptação lenta, como se observa na linha de base do GSC na Fig. 5.12: esta situa-se inicialmente em 10dB, evoluindo para 5dB ao longo do ensaio. Ao contrário das simulações do GSC, em que é de uma ordem de grandeza inferior, esta convergência da atenuação do ruído não é tão lenta. No entanto, a maximização da atenuação do ruído de FBF, parece ser o melhor critério para escolha de . Um aspecto importante a reter da Fig. 5.12 é o de que a atenuação do ruído evolui no tempo, o que significa que o valor de 10dB de atenuação, apresentado nos ensaios experimentais anteriores, corresponde a um valor médio de atenuação do ruído. Na realidade, a proposta de combinar o GSC com um VAD permitiu atenuar o ruído (com características estacionárias) em pelo menos 16dB, mantendo a energia dos segmentos de fala, o que significa que o cancelamento do sinal de fala é neste caso evitado. Da mesma figura, é ainda possível extrapolar que um aumento da ordem dos filtros LMS do MC permite melhorar o desempenho do GSC. No entanto, existe um aumento do custo computacional que pode ser restritivo. 57 6. Localização e Seguimento com Agregados de Microfones A utilização de agregados de microfones, na aquisição do sinal de fala, e a aplicação de algoritmos de filtragem espacial possibilitam a aquisição de fala de forma ubíqua e menos intrusiva do ponto de vista do utilizador. Um agregado de microfones pode ser encarado como um elemento passivo, na medida em que apenas adquire os sinais de cada microfone e os disponibiliza para uma qualquer área de processamento. É na área de processamento que se aplicam por exemplo métodos de filtragem espacial, que por sua vez combinam os sinais capturados pelo agregado. A forma como se combinam ou processam os sinais é, de facto, o tema central deste trabalho. No capítulo 5, foram enunciados vários métodos de filtragem espacial onde se assume a priori a posição ou direcção do locutor (ou sinal desejado). Em aplicações reais, a posição ou direcção do locutor é quase sempre desconhecida. Desta forma, para que os algoritmos de filtragem espacial tenham aplicabilidade em situações reais, é necessário elaborar métodos de estimação da posição ou direcção do locutor em relação ao agregado de microfones. Como consequência e pelo que já anteriormente foi dito, o desempenho da filtragem depende directamente do desempenho da estimação da localização do locutor. Existem duas características observáveis dos sinais capturados pelo agregado de microfones que permitem inferir sobre a localização de um locutor: o ângulo de direcção dos sinais incidentes no agregado (Direction of Arrival) (DoA) e o atraso de propagação dos sinais entre pares de microfones (Time Diference of Arrival) (TDoA). Neste capítulo, serão abordados os métodos mais relevantes para localização e seguimento de oradores usando agregados de microfones. Para a estimação de DoA será abordado o método de maximização da energia do sinal do filtro espacial (SRP) (Steered Response Power) e para a estimação de TDoA serão enunciados métodos de correlação cruzada (Generalized Cross Correlation) (GCC). De salientar que DoA e TDoA são relacionados matematicamente, uma vez que DoA é obtido a partir do atraso do sinal entre dois microfones, e por esse motivo, é possível relacionar os dois métodos aqui abordados, como se verá mais à frente. De uma forma sucinta, a ideia do método SRP consiste em calcular a energia de um sinal resultante do um filtro espacial (e.g. Delay-and-Sum Beamformer) para todos os ângulos DoA possíveis. O método de GCC tem como objectivo estimar os atrasos entre pares de microfones, recorrendo a técnicas de correlação cruzada dos sinais capturados. 59 6.1. Steered Responce Power (SRP) Em condições de onda plana, o atraso relativo em cada microfone depende apenas da distância d que separa cada microfone i . i ( DoA ) (i 1) fs d cos DoA c f f τ ( DoA ) 1, s d cos DoA , , ( N 1) s d cos DoA c c Sendo (6.1) f s a frequência de amostragem e c a velocidade do som e 1 i N , sendo N o número de microfones do agregado. O método SRP pode ser implementada com qualquer tipo de filtro espacial. Neste caso aplica-se um Delay-and-Sum Beamformer (DnSB) por ser o mais simples de implementar. No domínio do tempo, o sinal na saída do DnSB em função do ângulo DoA é dado por: N y (n, τ( DoA )) xi (n i ) (6.2) i 1 onde xi (n) representa o sinal do microfone i e os atrasos i são calculados de acordo com a eq. (6.1). De acordo com a eq. (6.2), obtemos o sinal y(n, τ( DoA )) , que representa o sinal capturado pelo agregado “apontado” para vários ângulos de DoA. Calculando a potência do sinal do DnSB para cada ângulo DoA, obtemos: P( DoA ) y(n)T y(n) (6.3) A estimação do ângulo DoA é dada então por: DoA arg max P( DoA ) (6.4) i são desfasagens relativas a um microfone de referência, o ângulo DoA Dado que os atrasos DoA estimado é válido para todos os microfones do agregado, se for assumido um modelo de onda plana incidente do agregado. Isto significa que apenas se tem informação da direcção da fonte do sinal e nada se sabe sobre a posição da fonte de sinal. Quando não é possível assumir o modelo de onda plana, o SRP é extensível à localização da fonte através de técnicas de triangulação dos vários valores de ângulo DoA estimados. 60 Como se pode ver pela eq. (6.3), a estimação do ângulo DoA requer o cálculo da potência para todos os ângulos DoA possíveis, i.e. o SRP é um algoritmo de varrimento, o que pode tornar a sua implementação ineficiente em tempo real. 6.2. Generalized Cross Correlation (GCC) Ao contrário dos métodos como o SRP, a correlação entre os sinais de dois microfones permite que a estimação do atraso entre os microfones seja possível, sem recorrer a métodos de varrimento no espaço. Por esta razão, as técnicas de correlação dos sinais são as mais usadas para estimação de TDoA. O método de Generalized Cross Correlation [39] (GCC), permite a estimação do TDoA entre pares de microfones. No domínio do tempo, a correlação cruzada entre dois sinais c12 ( ) x1 (t ) e x2 (t ) é definida por: x (t ) x (t )dt 1 (6.5) 2 Aplicando a transformada de Fourier na eq. (6.5), obtemos a densidade espectral ou o espectro cruzado: C12 ( ) c 12 ( )e j d (6.6) A densidade espectral em função dos sinais x1 (t ) e x2 (t ) é dada por: C12 ( ) X 1 ( ) X 2 ( ) Considerando que o sinal (6.7) x2 (t ) corresponde a uma versão desfasada de x1 (t ) , a função de espectro cruzado idealmente exibe um máximo absoluto correspondente à desfasagem (ou atraso) entre os dois sinais. Em condições acústicas reais, a presença de factores como ruído, a diferença de percursos entre a fonte de sinal e os microfones e o efeito de reverberação, podem dissimular este máximo absoluto. Para aumentar a robustez face a estes efeitos adversos, a função de espectro cruzado em (6.6) é normalmente ponderada segundo critérios de optimização, aplicando funções de ponderação que de alguma forma alterem os espectro dos sinais x1 (t ) e x2 (t ) . Deste modo, e por definição, a função do método de GCC [39] é dada por: 1 R12 ( ) 2 12 ( ) X 1 ( ) X 2 ( )e j d (6.8) 61 Isto equivale à função inversa de Fourier da eq. (6.7), com um termo de ponderação Idealmente a eq. (6.8) tem um máximo quando corresponde ao atraso entre os sinais 12 () . x1 (t ) e x2 (t ) , como já foi referido. Deste modo, o método GCC estima o valor de que maximiza a densidade espectral de dois sinais: arg max R12 ( ) (6.9) Assumindo que o sinal x2 (t ) corresponde ao sinal x1 (t ) com um atraso , idealmente a correlação cruzada entre os sinais exibe um máximo correspondente ao atraso. Na realidade, a presença de ruído, reverberações e as diferenças nos caminhos percorridos pelos sinais desde a sua origem até aos microfones, pode mascarar este máximo [40]. Por exemplo, em condições de valores baixos de SNR ou múltiplas fontes de ruído, a eq. (6.9) exibe vários máximos locais correspondentes aos vários sinais de ruído. Da mesma forma, em condições reverberantes observam-se vários máximos locais correspondentes ao sinal desejado reflectido em várias direcções. Para minimizar o impacto destes factores na estimação de , é colocado um termo de ponderação ( ) na correlação entre os sinais. Dado que a eq. (6.8) equivale ao cálculo do máximo da energia entre dois sinais, para um agregado com dois microfones o método de GCC com ( ) 1 é semelhante ao método de SRP com um Delay-and-Sum Beamformer (DnSB). Deste modo, à semelhança do SRP, o método de GCC pode ser interpretado como o cálculo da energia máxima entre dois sinais, na saída do DnSB. A função de ponderação ( ) funciona como um pré-filtro, aplicado a esses mesmos sinais, antes de ser aplicado o filtro espacial. As funções de ponderação ( ) mais usadas são: Máxima Verosimilhança (Maximum Likelihood) (ML) [41] e Transformação de Fase (Phase Transform) (PHAT) [39]. A ML é normalmente aplicada em condições não reverberantes e quando o ruído ambiente pode ser modelado como ruído branco Gaussiano e incorrelacionado, neste caso ( ) é dado por: ML ( ) onde X1 ( ) X 2 ( ) X1 ( ) V2 ( ) X 2 ( ) V1 ( ) 2 2 2 2 (6.10) V1 ( ) e V2 ( ) representam os sinais de ruído que afectam os sinais X1 ( ) e X 2 ( ) respectivamente. Uma limitação desta abordagem é a de, na maior parte dos casos, não ser possível estimar com precisão os espectros do ruído e pelo facto de que em situações de reverberação, situação comum na maior parte dos ambientes acústicos reais, o pressuposto de ruído incorrelacionado ser violado. 62 A função de ponderação ( ) actualmente mais utilizada é a abordagem feita pela PHAT. Sub-óptima em condições não reverberantes, mas com desempenhos superiores à ML em condições reais, é definida como: PHAT ( ) 1 X 1 ( ) X 2 ( ) (6.11) A função PHAT tem várias vantagens, relativamente à ML, por ser simples de implementar e não depender do espectro dos sinais de ruído. Esta normalização, permite também que os espectros 20 dos sinais sejam “branqueados” , o que significa de a estimação de depende apenas da fase dos sinais e não na magnitude destes, o que é conveniente uma vez que a informação de diz respeito à diferença de fase entre os dois sinais. Outra vantagem do “branqueamento” do espectro é a possibilidade de eliminar os máximos locais, devido à periodicidade dos segmentos vozeados da fala. Dadas as semelhanças entre os métodos de SRP e GCC, já referidas anteriormente, existem também outras técnicas de localização e seguimento como o SRP-PHAT [42]. Baseada no GCC com uma função de ponderação PHAT (GCC-PHAT) e com a estimação da posição baseado no varrimento de posições como o SRP, esta elegante e robusta solução é actualmente o método de localização com mais precisão aplicado em agregados de microfones, no entanto apresenta um custo computacional superior ao GCC. Embora menos frequentemente usados por serem normalmente aplicação ad-hoc, existem também métodos com recurso a algoritmos de aprendizagem para localização e seguimento com agregados de microfones [43, 44]. 6.3. Resultados Experimentais Os métodos apresentados nas secções anteriores permitem que sejam estimadas as posições de um locutor no espaço. No caso do SRP a localização é implementada com métodos exaustivos de varrimento de todas as posições possíveis no espaço, onde cada posição corresponde a um ângulo DoA específico. No método como o GCC, a posição pode ser obtida aplicando técnicas de intersecção de rectas, para cada estimação do ângulo DoA de vários pares de microfones do agregado. Embora seja possível usar o método de GCC para estimar a posição do locutor, neste tese o método de GCC será aplicado com o objectivo de estimar a direcção do locutor em relação ao agregado (ângulo DoA). Uma vez estimada a direcção do locutor, é possível implementar um sistema de filtragem espacial (fixa ou adaptativa) que funcione de forma autónoma, sem que seja necessária a intervenção humana na decisão do ângulo DoA a aplicar ao filtro espacial. Por este motivo, nos 20 Tal como acontece com o espectro do ruído branco, pretende-se que a densidade espectral dos sinais seja a mais plana possível. 63 próximos resultados experimentais pretende mostrar-se que é possível estimar a direcção do locutor com precisão aceitável. Como se pretende avaliar o desempenho do GCC na estimação do ângulo DoA em situações reais e porque não pareceu ser necessário apresentar uma secção de simulação do GCC, são apresentados os resultados directamente de ensaios em ambientes reverberantes reais. Escolheu-se o método de GCC para estimação do DoA pelo seu desempenho e baixo custo computacional face ao SRP. Dadas as particularidades inerentes às aplicações com agregados de microfones e a dependência das condições acústicas, alguns pressupostos têm de ser tidos em conta, nomeadamente a incidência de onda plana no agregado. Como já foi referido no capítulo 4, o pressuposto de onda plana incidente no agregado depende da distância da fonte de sinal, da frequência do sinal e da abertura do próprio agregado. Deste modo, o método de GCC tem de ser devidamente adaptado às condições reais existentes. Dadas as dimensões do agregado em questão (1,26m de comprimento), o pressuposto de onda plana é válido apenas para elevadas distâncias entre o locutor e agregado. Para um agregado com estas dimensões, o pressuposto de onda plana a uma frequência de 100Hz é válido para uma distância de cerca de 9 metros. Para contornar este problema e viabilizar este pressuposto, o agregado é dividido em sub-agregados de dimensão inferior. Desta forma, o agregado é dividido em 8 sub-agregados iguais onde cada sub-agregado é constituído por 8 microfones com um comprimento total apenas de 0,14m. Para uma onda de 100Hz, o pressuposto de onda plana é válido para distâncias inferiores a 1m entre o locutor e o agregado. Fig. 6.1 Divisão do agregado em sub-agregados de dimençõe inferiores. Na Fig. 6.1 ilustra-se a divisão em 8 sub-agregados de iguais dimensões. No caso da aplicação do GCC para a estimação da direcção de incidência de uma fonte de sinal em P, são estimados 8 ângulos DoA em simultâneo que correspondem aos ângulos estimados de cada subagregado. Os ângulos DoA estimados são posteriormente aplicados a filtros espaciais (e.g. DnSB ou GSC). Como o pressuposto de onda plana é válido para cada sub-agregado, os sinais são 64 processados por um filtro espacial que depende do ângulo DoA estimado. Os sinais resultantes de cada filtro espacial são posteriormente combinados, de forma a gerar um único sinal do agregado. Uma vez que o GCC é aplicado em blocos do sinal capturado pelo agregado e como os mesmos avançam no tempo, é possível fazer o seguimento do locutor que se move no tempo e no espaço. O tamanho do bloco de análise depende do intervalo de tempo em que se assume constante a posição do locutor. No entanto, o tamanho dos blocos tem uma influência directa nos resultados: quanto menor o número de amostras por bloco de análise, maior a resolução no seguimento e menores as latências em cada estimação. Por outro lado, a precisão da estimativa de DoA aumenta com o número de amostras por bloco de análise, criando-se assim um compromisso. 6.3.1. Ensaio em ambientes reverberantes reais Os ensaios foram conduzidos na sala de demonstrações do L2F/INESC-ID (ver Anexo B) e pretende-se estimar os ângulos de direcção do locutor em relação ao agregado, i.e. o ângulo DoA correspondente à posição do locutor. Para evitar que o agregado “aponte” para as fontes de ruído, a localização no GCC é controlada por um VAD. Deste modo, apenas se pretende localizar o locutor quando este fala. Foi usada fala natural com o locutor colocado em 5 posições distintas da sala (Fig. 6.2). Em cada posição o locutor mantém-se estático, onde apenas são permitidos os movimentos da cabeça durante o discurso. Fig. 6.2 Posições reais do locutor para o ensaio experimental 65 Para determinar experimentalmente os parâmetros de GCC que minimizam o erro de estimação do ângulo DoA, são elaborados ensaios para os vários parâmetros como o tipo de função de ponderação ( ) e o tamanho da janela de análise. É esperado estimar os ângulos de DoA dos 8 sub-agregados para as 5 posições diferentes e aferir a precisão da estimação. É esperado também, determinar qual a função de ponderação e tamanho de janela de análise, que melhor minimiza os efeitos de reverberação do sinal de fala e o erro de estimação de DoA. Dado que são estimados 8 ângulos diferentes, é feita uma análise estatística dos resultados para aferir sobre o desempenho da estimação do ângulo DoA. Deste modo, é feita uma média do erro de estimação como indicador do enviesamento e exactidão do estimador e o erro médio absoluto como medidor da precisão do estimador. Os valores dos ângulos reais são calculados directamente, por meio de triangulação das coordenadas do locutor na sala de ensaio. Os valores das coordenadas são inseridos num programa específico para esta aplicação, que devolve os ângulos e distâncias do locutor reais relativamente ao agregado de microfones. Como as coordenadas do locutor são obtidas por medições directas na sala de ensaio, são espectáveis erros de estimação associados aos erros de medição que se manifestam no enviesamento do estimador. Dado que o erro do ângulo estimado tem um impacto directo na localização do locutor, e que este varia com a distância, são apresentados os desvios padrão do erro de estimação e seu impacto associado à localização do locutor. Fig. 6.3 Estimação do ângulo DoA com dois pares de microfones. Embora sejam estimados 8 ângulos DoA, para melhor se compreender o processo de estimação dos ângulos de cada sub-agregado, na Fig. 6.3 são apresentados os resultados da estimação de apenas dois ângulos. A estimação é feita partir dos sinais de dois pares de microfones, (1,8) e (57,64), correspondentes a cada sub-agregado (ver Fig. 6.1). O locutor está colocado na posição “A” (ver Fig. 6.2) e como não se movimenta, é espectável obter uma estimação de DoA 66 constante ao logo do tempo, que se constata pela Fig. 6.3 (c). Em (a) mostra-se a forma de onda do primeiro microfone. Em (b), o andamento da energia do sinal do microfone #1 (azul) e do microfone #57 (vermelho), a linha a verde representa o nível de threshold do VAD que comanda a estimação do ângulo nos períodos de fala. Em (c) a linha a cheio representa a estimação do ângulo DoA e a tracejado, o valor do ângulo real, a cor azul e vermelho remete para os pares de microfones (1,8) e (57,64), respectivamente. Os resultados da Fig. 6.3 são obtidos com uma janela de análise inferior a 190ms. Mesmo numa situação de movimento do locutor, com um intervalo de análise de 190ms é possível assumir que o locutor está estático, entre intervalos de análise. Os resultados mostram que nos períodos de fala, é possível obter um estimação do ângulo com um erro de 1,9º e 0,7º para o par (1,8) e (57,64), respectivamente. A uma distância de 2,3m do agregado, os erros de ângulo representam um erro de 8 a 3cm respectivamente, da posição do locutor. O erro máximo neste caso é inferior ao tamanho da própria cabeça do locutor, e por isso desprezável. Para se ter uma ideia da importância da duração da janela de análise e da função de ponderação ( ) , na estimação do ângulo DoA, são apresentados os resultados de estimação do DoA para o locutor colocado na posição “E”, mantendo-se imóvel durante todo o ensaio. Pretende-se então concluir sobre os parâmetros do GCC que produzem estimativas de ângulo DoA, robustas às condições adversas impostas pelo ruído ambiente e o efeito reverberante da sala de ensaio. Como o locutor não se move durante os períodos de locução, é esperado obter uma estimação da sua direcção constante ao logo do tempo. Na Fig. 6.4 apresenta-se a forma de onda e o respectivo andamento da energia do sinal do microfone #32, bem com o nível de threshold do VAD aplicado. Na Fig. 6.5 são apresentados os resultados experimentais de estimação do ângulo DoA com o sub-agregado (25,32) com variação dos do parâmetros do GCC: em (a, b, c), é aplicada a função de ponderação PHAT com diferentes durações da janela de análise; em (d), é aplicada a janela de análise, com uma duração experimentalmente ideal, mas é suprimida a função de ponderação PHAT, i.e. ( ) 1 . Fig. 6.4 Análise do sinal de fala do microfone #32. Como já foi referido na secção 6.2, a estimação do ângulo DoA com o GCC recorre a técnicas de correlação cruzada de densidades espectrais de sinais dos microfones do agregado. Como tal, todo o método de estimação de DoA é feito no domínio da frequência. Para optimizar a 67 transformada de Fourier, são aplicadas janelas de análise com um número de amostras múltiplas de 2n (n) aos sinais de cada sub-agregado. Na Fig. 6.5 (a, b, c) é evidente a degradação do resultado quando se diminui a duração da janela de análise, mesmo quando se aplica a função de ponderação PHAT (eq. (6.11)). Como a densidade espectral de cada sinal é estimada directamente do sinal de cada microfone, a redução da duração da janela de análise diminui a resolução do espectro estimado e, como consequência, diminui o factor de correlação dos sinais. A diminuição do factor de correlação afecta directamente o processo de estimação do ângulo DoA, dado que o máximo da correlação correspondente à desfasagem entre os sinais é mascarado pelos máximos locais. Os máximos locais podem ter origem nos sinais de ruído ou no próprio sinal de fala reflectido em direcções diferentes. Para uma janela de 186ms (com função de ponderação PHAT) os valores de ângulo estimados apresentam-se uniformes, pelo que se considera ideal este resultado experimental da estimação de DoA. Fig. 6.5 Influência dos parâmetros do GCC na estimação do ângulo DoA. A Fig. 6.5 (d) mostra que a função de ponderação PHAT tem um papel fundamental na robustez do GCC. Quando a função PHAT é suprimida, observa-se que os resultados de estimação de DoA são severamente degradados, mesmo quando se aplica uma janela de análise de 186ms. Como foi referido na secção 6.2, a função de ponderação PHAT permite “branquear” os espectros dos sinais de forma a garantir que a correlação dos espectros dependa apenas das desfasagens dos sinais. Tal como a duração da janela de análise influencia o resultado da correlação cruzada dos sinais, o mesmo sucede com a diferença de magnitude dos sinais que podem mascarar os máximos absolutos da correlação. Para além de aumentar a dependência da desfasagem e diminuir a influência da magnitude dos sinais, no resultado da correlação cruzada, o PHAT é acompanhado com o bónus de ser simples de implementar. 68 Finalizado o processo experimental que permitiu concluir sobre os parâmetros do GCC que produzem melhores resultados de estimação do ângulo DoA, seguidamente apresentam-se os resultados de estimação dos ângulos DoA para o conjunto total dos 8 sub-agregados, quando o locutor é colocado nas várias posições ilustradas na Fig. 6.2. A estimação é feita com 20 segundos de áudio processados com uma janela de análise de 186ms de duração com 50% de overlap. Cada janela é processada pelo GCC com a função de ponderação PHAT (GCC-PHAT). Na Tab. 6.1, são apresentados os resultados da estimação dos ângulos para as 5 posições: o erro médio mostra que, de uma forma geral, à excepção da posição “F”, o estimador não está enviesado, indicando que o impacto dos erros de medição da posição do locutor não afecta significativamente os resultados. Verifica-se um aumento do erro absoluto do estimador à medida que o locutor se afasta da posição frontal ao agregado (DoA = 90), o que aponta para uma diminuição da precisão da estimação do ângulo, à mediada que o locutor se move para direcções tangenciais ao plano dos microfones do agregado. Os valores de desvio padrão máximo a partir da posição “D” (inclusivé) resultam em erros de localização superiores a mais de metade da distância entre o locutor e o agregado, indicando um fraco desempenho do estimador. Por outro lado, os valores elevados de do desvio padrão com erros absolutos menores apontam para uma dispersão dos resultados de estimação do ângulo. Tab. 6.1 Estimação do ângulo DoA com GCC-PHAT sem filtro de mediana. Distância do locutor ao agregado Direcção real do locutor (DoA) Erro médio de estimação Erro absoluto de estimação Desvio padrão Max. Min. Erro de localização Max. Min. Pos. A 2,2m 91º 0,1º 1,9º 2,3º 0º 0,092m 0m Pos. E 2,3m 123º 0,4º 2,6 14,3 0º 0,5m 0m Pos .D 2,5m 66º 1,4º 2,4º 26,3º 0º 1,4m 0m Pos. C 3,8m 43º 2.2º 4,9º 36º 0º 2,8m 0m Pos. F 3m 3,2º 53,3º 58,1º 44,2º 0º 2,9m 0m Para diminuir a dispersão dos resultados de estimação do ângulo, num óptica de seguimento do locutor, é integrado do método de GCC-PHAT um filtro de mediana. Este filtro permite remover outliers mantendo um seguimento eficaz mesmo em situações de variações rápidas da direcção do locutor. Como resultado, o desvio padrão máximo diminui sem comprometer a seguimento do orador. Seguidamente, são apresentados os resultados do processamento com GCC-PHAT + filtro de mediana, para o mesmo conjunto de teste apresentado na Tab. 6.1. Como se pode ver pela Tab. 6.2 os valores de desvio padrão máximo diminuíram significativamente, com excepção da posição “F”, resultando num aumento da precisão do estimador e, consequentemente, uma diminuição do erro associado à localização do locutor. Verifica-se porém que o erro mínimo de posição aumenta, o que está directamente relacionado com o facto de o filtro de mediana não permitir a dispersão da estimação do DoA mesmo quando este coincide com o ângulo real. Como consequência, a colocação do filtro de mediana permite aumentar a estabilidade do estimador e diminuir o erro absoluto. No entanto, pode introduzir erro residual (erro mínimo de posição) nas estimações de DoA, como acontece neste caso. 69 Tab. 6.2 Estimação do ângulo DoA com GCC-PHAT com filtro de mediana. Distância do locutor ao agregado Direcção real do locutor (DoA) Erro médio de estimação Erro absoluto de estimação Desvio padrão Max. Min. Erro de localização Max. Min. Ordem do Filtro de mediana Pos. A 2,2m 91º 0,1º 1,9º 1,9º 1,8 0,073m 0,069m 5 Pos. E 2,3m 123º 0,6º 2º 1,9º 1,9º 0,08m 0,08m 5 Pos .D 2,5m 66º 1,3º 2,2º 1,9º 1,9º 0,8m 0,8m 5 Pos. C 3,8m 43º 1º 2,5º 2,5º 1,8º 1,6m 1,2m 5 Pos. F 3m 3,2º 51,5º 53,7º 28,2º 5º 1,6m 0,3m 10 Em relação aos maus resultados da posição “F”, o seu fraco desempenho tem origem no facto de a desfasagem resultado, a derivada de entre os sinais dos microfones seguir uma função coseno (eq. (4.5)). Como segue uma função seno, o que significa que o agregado tem um máximo de sensibilidade para deslocações locutor em DoA=90º e mínimos em DoA = 0º e 180º. Deste modo, o agregado tem mais precisão na estimação de direcções de sinais tendencialmente perpendiculares ao plano dos microfones do agregado, do que para os sinais que se aproximam da direcção tangencial ao plano do mesmo. Na Fig. 6.6, mostra-se a relação entre o ângulo DoA e o atraso entre microfones do sub-agregado. Relembrando que como se está no domínio digital, os atrasos são valores discretos, o que significa que o seu contradomínio, os ângulos DoA, também são valores discretos. Verifica-se então um aumento da amplitude do intervalo discreto para DoA<40º, o que significa que uma variação do atraso corresponde a uma variação maior do ângulo. Isto traduz-se na diminuição da precisão de estimação do ângulo DoA. No caso da posição “F” a direcção real é DoA ≈ 3º, que por sua vez corresponde a um intervalo de elevada variação entre a desfasagem e os respectivos ângulos. Nesta situação, e para uma distância de 0,14m entre microfones, o agregado apenas “distingue” 21 sinais com direcções de 0º e 8º. Na eventualidade de existir o mesmo sinal, mas reflectido numa direcção que maximize a correlação entre os sinais, a estimação do ângulo DoA irá coincidir com a direcção do sinal reverberado. No entanto, dada a imprevisibilidade dos fenómenos de reverberação e a complexidade dos fenómenos acústicos, que saem fora do âmbito de análise desta tese, apenas se pode apontar possíveis causas dos maus resultados de estimação dos ângulos DoA. 21 Entenda-se por “distinguir” sinais, como a maximização da correlação entre os sinais de dois microfones. 70 Fig. 6.6 Relação entre DoA e para microfones com 0,14m de separação 6.4. Análise dos resultados Mesmo quando se aplica a função de ponderação PHAT é visível a influência do efeito dos sinais reverberados na estimação do DoA, devido ao facto do valor discreto dos ângulos DoA criar descontinuidades entre o valor real o valor estimado do ângulo DoA. Esta degradação dos resultados é tanto mais visível, quanto menor for a janela de análise, pois o tamanho da janela tem um impacto directo nos resultados: como a resolução da estimação da densidade espectral de um sinal, aumenta com a quantidade de dados, a resolução dos resultados da correlação dos espectros (pelos quais são estimadas as desfasagens entre sinais) aumenta com a janela de análise. Deste modo, conclui-se que quanto maior for a janela de análise, mais precisas são as estimações da direcção do locutor. Como se pretende fazer seguimento do locutor, o tamanho da janela depende da velocidade deste, ou do tempo em que se assume que o locutor está estático. Isto significa que o tamanho da janela é uma situação de compromisso entre a precisão da localização e a precisão de seguimento. Como se mostra na Fig. 6.7, um aumento da distância entre os pares de microfones permite aumentar a resolução da estimação do ângulo DoA. No entanto, a condição de onda plana pode ser violada. Da mesma forma, para um aumento da frequência de amostragem, mantendo o mesmo espaçamento entre microfones, produz-se um aumento da resolução da estimação do ângulo DoA. No entanto, relembrando o que foi dito no capítulo 4, um aumento da frequência mantendo o mesmo espaçamento entre microfones compromete a filtragem espacial devido efeito de aliasing espacial. 71 Fig. 6.7 Variação da resolução de DoA com a distância entre microfones e frequência de amostragem. 72 7. Avaliação do agregado de microfones em sistemas ASR No capítulo 5, foram apresentados vários métodos de filtragem espacial para speech enhancement e avaliados os resultados em termos de SNR. Concluindo-se assim, sobre a capacidade dos filtros espaciais em atenuar os sinais não desejados. Neste capítulo será feita uma avaliação da aplicação da filtragem espacial em sistemas de ASR. Pretende-se aferir, qual o efeito dos filtros espaciais no processamento do sinal de fala aplicado para reconhecimento. Permitindo assim, quantificar aplicação de filtros espaciais na aquisição do sinal de fala de um locutor em campo distante, em termos de melhorias do reconhecimento do seu sinal. Formalmente, a avaliação é feita comparando as taxas de erros de palavras (WER) do mesmo sinal de fala captado em várias situações (campo próximo e em campo distante) e com dois métodos de filtragem espacial distintos (fixa e adaptativa). 7.1. Resultados experimentais em ambientes reverberantes reais Como já foi referido na introdução desta trabalho, este agregado de microfones foi desenvolvido com o objectivo de servir de equipamento de aquisição de fala ubíquo para o sistema de diálogo “Ambrósio”. Os resultados de reconhecimento são obtidos sobre um sistema de ASR de domínio limitado, utilizando como modelo de linguagem uma gramática restrita ao domínio de domótica com cerca de 200 palavras distintas. O modelo acústico utilizado foi um modelo não adaptado ao orador, treinado sobre áudio de notícias televisivas [45]. O conjunto de teste utilizado para a obtenção de resultados de reconhecimento é constituído por 20 frases (contendo um total de 82 palavras), correspondentes a acções válidas pelo sistema de diálogo. O teste é conduzido na sala de demonstrações (ver Anexo B), onde o locutor está colocado a 2m de distância do agregado e com uma direcção de DoA=90º. No primeiro ensaio não é usada qualquer fonte de ruído aditivo, no entanto existem fontes de ruído ambiente provenientes de ventoinhas de computadores e do ar-condicionado (caracterização do ruído ambiente desta sala com mais detalhe no Anexo B). No segundo ensaio, é colocado uma fonte de sinal interferente a 2m do agregado e com uma direcção de DoA=170º. A fonte de sinal interferente corresponde a um sinal de fala espontânea, proveniente de um rádio que é ligado durante todo o segundo ensaio experimental. Nestes ensaios pretende-se comparar os resultados de WER do sinal adquirido com um head-set (como modelo de aquisição em campo próximo), com o sinal adquirido com o agregado de microfones (como modelo de aquisição em campo distante). Do sinal adquirido com o agregado são comparados os resultados: sinal de fala adquirido com apenas um microfone, colocado em campo distante (microfone #32); Sinal processado por um filtro espacial fixo (FBF), que se optou por um 73 Delay-and-Sum Beamformer (DnSB); Sinal processado por um filtro espacial adaptativo, neste caso o Generalized Sidelobe Canceller (GSC). Destes ensaios, é esperado obter um desempenho de reconhecimento do sinal adquirido com o head-set, superior a qualquer um dos sinais adquiridos com o agregado; i.e. espera-se um aumento de WER quando se passa do modelo de aquisição em campo próximo, para o modelo de aquisição em campo distante. De acordo com os resultados do capítulo 5, verifica-se um aumento do SNR quando são aplicados filtros espaciais aos sinais de fala adquiridos com o agregado. Da mesma forma, dos resultados de reconhecimento dos sinais adquiridos em campo distante, é esperado uma diminuição de WER (aumento de reconhecimento do sinal de fala) quando de passa do microfone #32 para o FBF e para o GSC, respectivamente. Tab. 7.1 Resultados de reconhecimento das 20 frases. head-set mic #32 FBF (DnSB) GSC 1º Ensaio (sem sinal interferente) SNR WER % Total de Acções Correctas 25,4dB 0% 20/20 14dB 6,5% 17/20 12dB 3,3% 18/20 23,2dB 1,1% 19/20 2º Ensaio (com sinal interferente) SNR WER% Total de Acções Correctas 15,1dB 3,3% 20/20 1,9 dB 75% 2/20 1,4 dB 5,4% 19/20 14 dB 34,8% 12/20 Analisando os resultados da Tab. 7.1, para o ensaio sem sinal interferente verifica-se que o WER varia de acordo com o esperado, i.e. existe uma degradação do reconhecimento quando se passa do modelo de aquisição de fala em campo próximo (head-set) para o modelo em campo distante (microfone #32, FBF e GSC). Verifica-se também, um aumento do desempenho de reconhecimento, com o aumento da supressão do ruído: desde o microfone #32 ao FBF até ao GSC. No entanto é necessária fazer uma breve nota em relação à diminuição do valor de SNR do sinal do microfone #32 para o FBF: além da atenuação de sinais espacialmente incorrelacionados, a aplicação de filtros espaciais em ambientes reverberantes resulta numa diminuição do efeito reverberante. Como consequência, observa-se um aumento do SNR e da perceptibilidade acústica, que se traduz numa diminuição do WER. No entanto, a diminuição do efeito reverberante pode diminuir a energia do sinal de fala e, como resultado, uma aparente diminuição do valor de SNR. Para os resultados da Tab. 7.1, para o ensaio com sinal interferente verifica-se que, como era esperado, os melhores resultados dizem respeito ao sinal de fala adquirido com o head-set. Para o resultado do sinal do microfone #32: neste caso o sinal interferente, correspondente à fala espontânea do rádio, aumenta drasticamente o WER. No entanto, a aplicação do FBF permite uma diminuição substancial do WER, para um aumento marginal de SNR. Este resultado remete mais uma vez para o efeito, já comentado no parágrafo anterior, da redução do efeito de reverberação. Na aplicação do GSC obtém um ganho de mais de 12dB relativamente ao FBF. Porém, ao contrário do esperado verifica-se um aumento do WER. Esta aparente contradição, deve-se ao efeito de distorção espectral que os filtros adaptativos do GSC introduzem no sinal de fala resultante. Pelo facto de serem aplicados filtros, que se adaptam ao ruído ambiente, a introdução de distorção espectral varia com o tipo de ruído. No primeiro ensaio, o GSC atenuou o ruído ambiente em cerca de 10 dB sem 74 distorção espectral, o que permitiu um aumento da taxa de reconhecimento. No caso do segundo ensaio, o GSC atenuou os sinais interferentes em mais de 12 dB, mas no entanto a distorção espectral, introduzida pelos filtros adaptativos, diminuem a taxa de reconhecimento. 7.2. Análise dos resultados Para se compreender o efeito de distorção espectral do GSC, no sinal de fala, na Fig. 7.1 são apresentadas a várias formas de onda correspondente a um segmento de sinal de fala adquirido no segundo ensaio (o sinal interferente corresponde neste caso a fala espontânea do rádio). Na Fig. 7.2 mostra-se a evolução da energia dos respectivos sinais com uma janela de análise de 64ms de duração. A forma de onda do head-set serve de sinal de referência e permite localizar no tempo o sinal de fala desejado que está situado no intervalo entre 1s a 3s. Fora deste intervalo é esperado que exista apenas sinal interferente. Como se pode verificar pelas duas figuras, o efeito do sinal interferente no microfone #32 e no FBF é evidente: As correspondentes formas de onda e andamento da energia são semelhantes. No caso do GSC, a forma de onda mostra que foi possível atenuar o sinal interferente, que é comprovado pelo andamento da energia que mostra uma diminuição da energia do sinal fora do intervalo de 1 a 3s. Fig. 7.1 Forma de onda de uma frase adquirida por vários métodos. Estes resultados mostram uma evidente melhoria do sinal resultante, quando é aplicado o GSC. Este método de filtragem espacial adaptativa, permite eliminar sinais interferentes espacialmente correlacionados. Já o mau resultado do FBF, em eliminar o sinal interferente, deve-se ao facto de correlação espacial dos sinais aumentar de forma inversa com a frequência. Neste caso o sinal interferente corresponde a fala masculina com um frequência fundamental inferior a 300Hz. Como foi referido na secção 5.1, o filtro DnSB aplicado no FBF não tem directividade suficiente para separar espacialmente os sinais com frequências inferiores a 500Hz, i.e. todos os sinais são 75 espacialmente correlacionados para valores de frequência inferiores a 500Hz. Deste modo, no segundo ensaio, o FBF não é eficaz em separar espacialmente o sinal desejado e o sinal interferente. No entanto, a redução de reverberação do sinal desejado e a redução do sinal interferente nas médias-altas frequências, permitem melhorar a qualidade do sinal resultante, obtendo-se assim uma diminuição evidente do WER quando se aplica o FBF. Fig. 7.2 Evolução da energia do sinal de fala processado pelo FBF e GSC, e do microfone #32. Na Fig. 7.3, é apresentada densidade espectral para cada um dos sinais da Fig. 7.1. A densidade espectral é calculada pelo método de Welch [46], com uma janela de análise de 8ms com 50% de overlap e uma FFT com 128 pontos na frequência. Uma avaliação da densidade espectral mostra que, comparativamente com o FBF, o GSC consegue efectivamente atenuar o sinal interferente nas baixas frequências. No entanto, verifica-se que o mesmo sinal apresenta um aumento da densidade espectral nas frequências superiores a 500Hz, resultando num distorção espectral do sinal. Como resultado, embora com o método de GSC se obtenha um sinal de fala com maior perceptibilidade acústica ao ouvido humano, a introdução de distorção espectral resulta numa degradação do reconhecimento do sinal de fala. Por outro lado, o FBF não consegue eliminar as componentes para frequências <500Hz, no entanto para as frequências superiores a densidade espectral do sinal resultante do FBF assemelha-se ao sinal do head-set, o que explica uma melhoria dos resultados de WER do FBF face ao GSC. Fig. 7.3 Densidade espectral dos sinais de processados. 76 8. Conclusões e trabalhos futuros Foi construído um agregado de microfones, que serve de equipamento de aquisição ubíqua para fala. O conceito de ubiquidade, permite criar um modelo de aquisição de fala hands-free na interacção entre pessoas e os computadores. Para além das abordagens clássicas de filtragem no domínio do tempo, os agregados de microfones permitem explorar a dimensão espaço-temporal do problema, aplicando métodos de filtragem espacial. Os métodos de filtragem espacial, permitem separar fisicamente os sinais acústicos que são captados pelos microfones do agregado: amplificando o sinal desejado e atenuando os sinais não desejados. Como sinal de fala adquirido em campo distante é severamente degradado por sinais espúrios, estes métodos permitem reduzir ruído de um sinal de fala de um locutor colocado afastado do agregado. Quando comparado com o resultado de apenas aplicar um microfone na captação do sinal de fala nas mesmas condições, o sinal de fala processado pelo agregado é geralmente menos reverberante, com ambas as componentes de ruído difuso e ruído direccional atenuados. A utilização de agregados de microfones permite a aplicação de metodologias de filtragem espacial e tem, ainda, a versatilidade de poderem ser aplicados para localizar e seguir locutores, ou outras fontes de sinais acústicos. As simulações do efeito da variação das características dos 64 microfones, apresentadas no capítulo 3, apontam para uma degradação da filtragem espacial do agregado. Por esta razão foi necessário calibrar todos os 64 microfones do agregado. Para um processo de calibração eficaz e preciso, foi necessário calibrar o agregado em ambientes acústicos ideais. Como local de calibração, foi escolhida a câmara anecóica, por esta apresentar uma acústica sem sinais espúrios e efeitos reverberantes desprezáveis. No decorrer do processo de calibração, verificou-se que o painel frontal do agregado reflectia os sinais de testes. Como consequência, as sensibilidades dos microfones variavam com a frequência do sinal de teste. Dado não existir qualquer tipo de material bibliográfico que formalizasse um método de calibração de agregados de microfones para aquisição de fala, foi necessário criar um método de calibração robusto ao efeito reflectivo do painel frontal. O método de calibração proposto, permitiu ajustar as sensibilidades dos 64 microfones com uma variação máxima de 0,3dB e aproximadamente invariante na frequência. Os ensaios experimentais da filtragem espacial fixa, apresentados na secção 5.1, evidenciam uma limitação na directividade do agregado nas baixas frequências. Verifica-se que a correlação espacial dos sinais aumenta com a diminuição da frequência, que na prática se traduz numa incapacidade do agregado em separar espacialmente sinais de baixa frequência, mesmo que estes tenham origem em pontos distintos do espaço. Os resultados experimentais mostram que, para frequências inferiores a 500Hz, os sinais estão praticamente correlacionados espacialmente. Como consequência, sinais de ruído nesta gama de frequências não serão eliminadas pelo processo de filtragem espacial. Uma vez que 80% da energia do sinal de fala situa-se no intervalo de frequências entre 100 e 500Hz, a perda de directividade para as baixas frequências é critica. Em teoria, uma 77 forma de contornar esta limitação, passa por aumentar abertura L do agregado para algumas dezenas de metros, que é impraticável na maioria das aplicações de aquisição de fala. Os métodos de filtragem espacial adaptativa, apresentados na secção 5.2, procuraram solucionar o problema da perda de directividade dos agregados e dessa forma aumentar a capacidade de atenuação espacial dos sinais espúrios. Como solução para diminuir as componentes espacialmente correlacionadas dos sinais, são aplicadas técnicas clássicas de filtragem adaptativa, que neste trabalho são implementadas com recurso a filtros LMS. Os ensaios simulados com o método de GSC, mostram que é possível atenuar as componentes espacialmente correlacionadas dos sinais de ruído, mesmo em situações de ruído não-estacionário, com e.g. um sinal de fala correspondente a um segundo locutor. Na prática, as particularidades inerentes à complexidade dos fenómenos acústicos, com especial ênfase ao efeito reverberante. O facto de no domínio digital a desfasagem dos sinais ser explicitamente um valor discreto, torna a BM do GSC permeável ao sinal desejado. Como resultando, existe o cancelamento do próprio sinal de fala. No entanto, a proposta de introduzir um VAD no GSC permite minimizar o cancelamento do sinal de fala. Como resultado, foi possível obter um ganho de atenuação dos sinais espúrios, face aos métodos filtragem fixa, com o mínimo de cancelamento do sinal desejado. Os resultados experimentais com o GSC em ambientes reverberantes reais, apresentados na secção 5.2 e na secção 7.1, mostram que é possível atenuar sinais espúrios, mesmo quando estes estão espacialmente correlacionados. No capítulo 6, mostrou-se ser eficaz a aplicação do agregado, para localização e seguimento no espaço em 2D de fontes acústicas ou locutores. Os ensaios em ambientes reais, com o método GCC-PHAT demonstraram que: mesmo com restrições de precisão imposta pela discretização das desfasagens entre microfones, é possível obter resultados de localização com erros inferiores a 2º (que a uma distância de 2,3m corresponde ao deslocamento da cabeça do locutor). O método GCCPHAT mostrou ainda ser possível obter bons resultados de localização e seguimento, em condições de reverberação, com uma janela de análise inferior a 190ms (4x1024 amostras @ 22050Hz) de duração. Os resultados de avaliação do agregado de microfones em sistemas de reconhecimento automático de fala (ASR), apresentados no capítulo 7, mostram que a aplicação de filtros espaciais na aquisição de fala em campo distante, melhoram os resultados de reconhecimento. Os ensaios conduzidos em ambientes reais reverberantes, mostram que em situações de ruído moderado a aplicação de filtros espaciais permitem reduzir o WER de 6,5% (quando é utilizado de apenas microfone em campo distante), para 1,1% (quando se aplica o GSC). Em condições mais adversas de ruído, e.g. a presença de um segundo locutor, a aplicação de filtros espaciais permite uma diminuição do WER de 75% (na situação de apenas microfone), para 5,4% (aplicando o DnSB). Embora o método de GSC permita obter um sinal de fala com maior perceptibilidade acústica ao ouvido humano, é verificado que os filtros adaptativos colocam distorções espectrais que resultam numa degradação do reconhecimento do sinal de fala resultante. Este resultado, aponta para uma necessidade de adaptação de novos modelos acústicos do ASR ao agregado de microfones e ao tipo de filtragem espacial que é aplicado. 78 8.1. Trabalhos futuros Os resultados preliminares 22 de adaptação dos modelos acústicos do ASR, com fala adquirida com o agregado de microfones, mostram uma diminuição do WER em cerca de 1%. Em termos de número de acções correctamente interpretadas pelo sistema de diálogo, verifica-se um aumento superior a 2%. Estes resultados evidenciam que a adaptação dos modelos acústicos, utilizando corpus de treino adquirido com o agregado de microfones, apresenta-se como um método a explorar para um aumento da robustez dos sistemas de ASR, integrados com agregados de microfones. Por razões de ordem prática, no futuro o agregado deverá tender para dimensões mais reduzida, que está directamente associado a uma redução do número de microfones do agregado. Embora a redução do agregado diminua directamente a sua abertura espacial (o que não é desejável), por outro lado a diminuição do número de microfones reduz significativamente o peso computacional de métodos de filtragem espacial, como o GSC. Deste modo, é possível explorar outros métodos com o Robust Adaptive Beamformer (apresentado na secção 5.2), que implica uma maior exigência computacional, no entanto são anunciados [14, 15, 47] que este método produz melhores resultados de atenuação de sinais espúrios. A disposição linear dos microfones no agregado, não permite que este seja utilizado para localização em 3D. Por esta razão, será abordado num futuro próximo a alteração da disposição dos microfones para permitir a localização e seguimento no espaço a 3D. A disposição dos microfones deve ser de tal forma, que garanta a maior abertura possível do agregado, com o menor número de microfones. Desta forma, é maximizada a resolução espacial do agregado e minimizado o custo computacional, devido ao volume de dados que os filtros espaciais têm de processar. 22 São feitos treinos dos modelos acústicos com 25 minutos de áudio adquirido e processado com o DnSB. Como conjunto de teste foram usadas 120 frases (492 palavras), correspondentes a acções correctas do sistema de diálogo. 79 9. Referências [1] P. S. Naidou, "Sensor Array Signal Processing," CRC Press, 2001. [2] H. L. Van Trees, "Optimum Array Processing," Wiley, 2002. [3] D. G. Manolakis, V. K. Ingle, and S. M. Kogon, "Statistical and adaptive signal processing.Spectral estimation, signal modeling, adaptive filtering and array processing " McGraw-Hill, 2005. [4] J. P. Neto, R. Cassaca, M. Viveiros, and M. Mourão, "Design of a Multimodal Input Interface for a Dialog System," in Proceedings of PROPOR, 2006. [5] V. Stanford, J. Garofolo, O. Galibert, M. Michel, and C. Laprun, "The NIST Smart Space and Meeting Room Projects: Signals, Acquisition, Annotation and Metrics," in Proceedings of ICASSP, 2003. [6] A. Brutti, M. Omologo, and P. Svaizer, "Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays," in Proceedings of INTERSPEECH, 2005. [7] T. Hain, L. Burget, J. Dines, I. McCowan, M. Karafiat, M. Lincoln, D. Moore, G. Garau, V. Wan, R. Ordelman, and S. Renals, "The Development of the AMI System for the Transcription of Speech in Meetings," 2nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms, 2005. [8] H. F. Silverman, W. R. Patterson, and J. L. Flanagan, "The huge microphone array. Technical report," LEMS, Brown University, 1996. [9] E. Weinstein, K. Steele, A. Agarwal, and J. Glass, "LOUD: A 1020-Node Modular Microphone Array and Beamformer for Intelligent Computing Spaces," MIT/LCS Technical Memo MITLCS-TM-642, 2004. [10] C. Rochet, "Technical Documentation of the Microphone Array Mark III " NIST, sep. 2005. [11] C. Rochet, "User's Manual of the Microphone Array Mark III version 2," NIST, sep. 2005. [12] M. Brandstein and D. Ward, "Microphone Arrays," Springer, jan. 2001. [13] L. J. Griffiths and C. W. Jim, "An alternative approach to linear constrained adaptive beamforming," IEEE Trans. Antennas Propagat., vol. AP-30, pp. 27-34, 1982. 81 [14] O. Hoshuyama, A. Sugiyama, and A. Hirano, "A roubust adaptive beamformer with a blocking matrix using coefficient constrained adaptive filters," IEEE Trans. Signal Processing, vol. 47, pp. 2677-2684, 1999. [15] O. Hoshuyama and A. Sugiyama, "Robust Adaptive Beamforming," in Microphone Arrays, M. Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 87-109. [16] R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," Proc. IEEE Int. Conf. Acoustics, Speech and Signal Proc. (ICASSP), vol. 5, pp. 2578– 2581, 1988. [17] R. Zelinski, "Noise reduction based on microphone array with LMS adaptive post-filtering," Electron. Lett., vol. 26, pp. 2036–2037, 1990. [18] K. U. Simmer, J. Bitzer, and C. Marro, "Post-Filtering Techniques," in Microphone Arrays, M. Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 39-60. [19] C. Marro, Y. Mahieux, and K. U. Simmer, "Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering," IEEE Trans. Speech and Audio Processing, vol. 6, pp. 240-259, 1998. [20] I. A. McCowan and H. Bourlard, "Microphone array post-filter based on noise field coherence," IEEE Trans. Speech and Audio Processing, vol. 11, pp. 709-716, 2003. [21] D. H. Johnson and D. E. Dudgeon, Array Signal Processing: Concepts and Techniques: Prentice Hall, 1993. [22] H. Cox, R. M. Zeskind, and T. Kooij, "Pratical supergain," IEEE Trans. Acoust. Speech Signal Processing, vol. 34, pp. 393-398, 1986. [23] J. Bitzer, K. U. Simmer, and K. D. Kammeyer, "An alternative implementation of the superdirective beamformer," in Proc. IEEE Workshop Applicat. Signal Processing to Audio Acoust. NY, USA, 1999, pp. 7-10. [24] J. Bitzer and K. U. Simmer, "Superdirective Microphone Arrays," in Microphone Arrays, M. Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 19-38. [25] D. B. Ward, R. A. Kennedy, and R. C. Williamson, "Constant Directivity Beamforming," in Microphone Arrays, M. Brandstein and D. Ward, Eds. NY: Springer, 2001, pp. 3-17. [26] D. B. Ward, R. A. Kennedy, and R. C. Williamson, "Theory and design of broadband sensors arrays with frequency invariant far-field beam pattrens," J. Acoust. Soc. Amer., vol. 97, pp. 1023-1034, 1995. 82 [27] S. Affes and Y. Grenier, "A signal subspace tracking algorithm for microphone array processing of speech," IEEE Trans. Speech and Audio Processing, vol. 5, pp. 425 - 437, 1997. [28] M. H. Er and B. C. Ng, "A new approach to robust beamforming in the presence of steering vector errors," IEEE Trans. Signal Processing, vol. 42, pp. 1826-1829, 1994. [29] G. L. Fudge and D. A. Linebarger, "A calibrated generalized sidelobe canceller for wideband beamforming," IEEE Trans. Signal Processing, vol. 42, pp. 2871 - 2875, 1994. [30] B. Widrow and J. McCool, "A comparison of adaptive algorithms based on the methods of steepest descent and random search," IEEE Trans. Antennas Propagat., vol. 24, pp. 615 637, 1976. [31] M. H. Er and A. Cantoni, "Derivative constraints for broad-band element space antenna array processors," IEEE Trans. Acoust. Speech Signal Processing, vol. 31, pp. 1378 - 1393, 1983. [32] M. H. Er and A. Cantoni, "An unconstrained partitioned realization for derivative constrained broad-band antenna array processors," IEEE Trans. Acoust. Speech Signal Processing, vol. 34, pp. 1376 - 1379, 1986. [33] I. Claesson and S. Nordholm, "A spatial filtering approach to robust adaptive beaming," IEEE Trans. Antennas Propagat., vol. 40, pp. 1093 - 1096, 1992. [34] N. K. Jablon, "Adaptive beamforming with the generalized sidelobe canceller in the presence of array imperfections," IEEE Trans. Antennas Propagat., vol. 34, pp. 996 - 1012, 1986. [35] H. Cox, R. Zeskind, and M. Owen, "Robust adaptive beamforming," IEEE Trans. Acoust. Speech Signal Processing, vol. 35, pp. 1365 - 1376, 1987. [36] J. E. Greenberg and P. M. Zurek, "Evaluation of an adaptive beamforming method for hearing aids," J. Acoust. Soc. Amer., vol. 91, pp. 1662-1676, 1992. [37] F. A. Everest, "Master Handbook of Acoustics," McGraw-Hill, 2001. [38] J. E. Adcock, "Optimal filtering and speech recognition with microphone arrays." vol. PhD thesis, Providence RI: Brown University, 2001. [39] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech Signal Processing, vol. 24, pp. 320 - 327, 1976. [40] B. Champagne, S. Bedard, and A. Stephenne, "Performance of time-delay estimation in the presence of room reverberation," IEEE Trans. Speech and Audio Processing, vol. 4, pp. 148152, 1996. 83 [41] M. Brandstein and H. Silverman, "A pratical methodology for speech source localization with microphone arrays " Computer, Speech and Language vol. 11, pp. 91-126, 1997. [42] J. DiBiase, "A high-accuracy, low-latency technique for talker localization in reverberant environments." vol. PhD thesis, Providence RI: Brown University, 2000. [43] P. Smaragdis and P. Boufounos, "Position and Trajectory Learning for Microphone Arrays," IEEE Trans. Audio, Speech and Language Processing, vol. 15, pp. 358 - 368, 2007. [44] G. Arslan, F.A. Sakarya, and B.L. Evans, "Speaker Localization for Far-field and Near-field Wideband Sources Using Neural Networks," IEEE Workshop on Nonlinear Signal and Image Processing, 1999. [45] H. Meinedo, D. A. Caseiro, J. P. Neto, and I. Trancoso, "AUDIMUS.media: a Broadcast News speech recognition system for the European Portuguese language," in PROPOR'2003 - 6th International Workshop on Computational Processing of the Portuguese Language, Springer, Ed., 2003. [46] P. D. Welch, "The use of fast Fourier transforms for the estimation of power spectra: A method based on time averaging over short modified periodograms," IEEE Transactions on Audio and Electroacoustics, vol. 15, pp. 70-73, 1967. [47] A. A. Gareta, "A multi-microphone approach to speech processing in a smart-room environment." vol. PhD thesis, Barcelona (Spain): Universitat Politècnica de Catalunya, 2006. 84 Anexo A. Resultados experimentais da calibração do agregado A primeira calibração foi feita usando um sinal sinusoidal com uma frequência de 430 Hz, como sinal de teste. O sinal é gerado por um gerador de sinais analógico que é ligado, por intermédio de um amplificador, ao altifalante colocado no interior da câmara anecóica. Foi escolhido um sinal sinusoidal porque, sendo uma onda estacionária de amplitude constante e, como são garantidas as condições de onda plana, todos os microfones do agregado são excitados da mesma forma e com a mesma intensidade. Como a calibração dos microfones é um método intrusivo, por ser necessário ajustar manualmente os potenciómetros de cada microfone, escolheu-se uma frequência de 430 Hz por ser confortável ao ouvido humano e por ser uma frequência não múltipla das harmónicas da rede eléctrica à qual o MA está ligado, de modo a evitar uma potencial influência das harmónicas de 50Hz no processo de calibração. Depois de ajustados todos os pré-amplificadores com uma variação 0,5 dB, foram feitos testes para sinais sinusoidais às frequências de 1kHz e 3kHz e com ruído branco Gaussiano (WGN). Os resultados da Fig. A.1 mostram que existe uma variação dos ganhos com a frequência dos sinais. Uma vez que a fala é um sinal com um espectro de frequências alargado, este resultado não é desejável porque compromete a filtragem espacial pelas razões já referidas anteriormente. Fig. A.1 Calibração com uma sinusóide a 430Hz. Dado que os microfones estão mecanicamente inseridos na estrutura do MA, esta variação em frequência pode ser explicada pela influência da ressonância na caixa dos microfones e/ou por vibrações da estrutura do agregado propagadas aos microfones. A.1. Efeito da ressonância e da vibração Foram conduzidos testes para verificar a influência dos efeitos de ressonância do agregado nas sensibilidades dos microfones. A hipótese da existência de ressonância justifica-se pelas dimensões do módulo dos microfones, M1, onde estão implantados os 64 microfones. Os testes 85 consistem em verificar quais as alterações nas variações das sensibilidades dos microfones para vários sinais de teste, alterando as condições de ressonância no módulo dos microfones. As condições de ressonância foram alteradas de três formas diferentes, alterando as condições acústicas no interior de M2: (i) módulo fechado sem barreiras acústicas, de forma a maximizar o efeito ressonante; (ii) módulo com o topo aberto, ficando o seu interior exposto ao campo livre; (iii) módulo fechado com o seu interior totalmente preenchido com lã, de forma a minimizar o efeito ressonante. Observa-se pela Fig. A.1 que a maior variação dos ganhos na frequência acontece para sinais sinusoidais a 1 kHz. Da mesma forma, se a ressonância influenciar o comportamento dos ganhos dos microfones, espera-se que a esta frequência existam maiores variações dos ganhos. Os resultados da Fig. A.2 mostram que as sensibilidades dos microfones não são influenciadas pelo efeito da ressonância, uma vez que a variação dos ganhos em frequência não é alterada pelas modificações das propriedades acústicas feitas no módulo dos microfones. Fig. A.2 Efeito da ressonância. Dado que o agregado é suspenso na câmara anecóica apenas as vibrações, resultantes das ondas acústicas incidentes no painel frontal do agregado, são tidas em conta. Como o sinal de teste é o único elemento que pode variar a acústica no interior da câmara, as frequências de vibrações do painel dependem das frequências dos sinais de teste. Dadas as dimensões do painel frontal onde estão colocados os microfones, existem dois tipos de vibrações na estrutura do agregado passíveis de serem propagadas aos microfones: 86 Vibrações extrínsecas: Tal como a corda de uma guitarra, o painel pode sofrer vibrações que dependem do seu comprimento e da frequência à qual é excitado. Desta forma, as vibrações propagadas aos microfones dependem da sua posição no painel: nos microfones colocados nos extremos a influência será nula ou desprezável e será mais intensa para os microfones colocados no centro do painel. Vibrações intrínsecas: Como em qualquer material, as vibrações a que o painel está sujeito dependem das velocidades de propagação características do próprio acrílico. Este tipo de vibração é uniforme ao longo do painel e depende da frequência do sinal de teste. Como já foi referido, os microfones estão implantados no painel frontal do agregado. Desta forma, as vibrações da estrutura são propagadas aos microfones resultando na vibração da membrana destes. No caso de existirem vibrações que alterem a sensibilidade dos microfones, as mesmas podem ser quantificadas por análise espectral dos sinais, em cada microfone. Da análise espectral dos sinais capturados, apenas se regista a frequência fundamental do sinal, podendo eliminar-se a hipótese de propagação de vibrações aos microfones como causa da variação dos ganhos em frequência. Este resultado constata a qualidade dos microfones usados. Como a membrana do microfone de electreto tem uma inércia muito pequena, este tipo de microfones têm um bom comportamento face a vibrações por acoplamento mecânico e uma resposta plana na frequência para variações de SPL. A.2. Influência das reflexões dos sinais Eliminado o efeito de ressonância e das vibrações com causa da variação dos ganhos/sensibilidades em frequência, procedeu-se a um teste para verificar a influência da reflexão da onda incidente do painel frontal, na variação das sensibilidades dos microfones. Para esse efeito, foram desacoplados o microfone #16 e #32. O último microfone foi escolhido por ser o microfone com maior variação do ganho para a frequência de 1kHz, enquanto que o primeiro foi escolhido para comparação dos resultados. Para se concluir acerca dos resultados de desacoplamento dos microfones, foram desacoplados e colocados a uma distância do painel de: (a) 0,5 cm; (b) 1,5 cm. Ambas as situações são comparadas com uma referência, na qual todos os microfones estão inseridos no painel. 87 Fig. A.3 Influência da reflexão do painel. A variação do ganho dos microfones devido à variação da distância relativa entre o microfone e a fonte de sinal é pequena. Para uma variação de 1,5cm a variação de ganho associada é de ≈ +0,03dB e por isso desprezável. Dessa forma, a variação da sensibilidade dos microfones desacoplados (Fig. A.3) só pode ser justificado pelo facto de existirem reflexões no painel da onda incidente e que interferem com a onda captada pelo microfone. Concluindo-se sobre a existência de reflexões do painel frontal, que influencia o processo de calibração, foram feitos uma série de testes para averiguar o efeito da reflexão na sensibilidade dos microfones. Pelo facto de o módulo de comunicação, M2, estar próximo do painel frontal, foi feito um teste para se concluir sobre o efeito da reflexão causado por M2. Na Fig. A.4 mostra-se o resultado da captura feita com (i) M2 colocado na sua posição original (ver Fig. 2.11) e (ii) M2 isolado acusticamente (envolvido em lã de vidro) e colocado na parte posterior do agregado, de forma a eliminar o seu efeito reflector. Destes resultados pode-se concluir que o efeito da alteração do campo acústico, causado pela presença de M2 junto do painel dos microfones, altera a variação dos ganhos com a frequência. 88 Fig. A.4 Influência do modulo M2. A vantagem de testar o agregado de microfones na câmara anecóica é a possibilidade de manipular as condições acústicas no seu interior com grande facilidade. Desta forma é possível testar o comportamento do agregado face alterações acústicas, especificamente aos efeitos de reflexão dos sinais de teste. Desta forma, foram feitos testes colocando um painel com 0,9x1m, que serve de elemento reflector dos sinais da fonte sonora, em duas posições específicas: (i) por trás do agregado a 0,6 m de distância, simulando a reflexão de uma parede; (ii) debaixo do agregado a 0,90 m de distância da base, simulando a reflexão do chão. Foi tomado como referência destes testes a situação (ii) da Fig. A.4, para se eliminar a reflexão causada por M2. Desta forma, apenas a superfície do painel frontal do agregado e o painel reflector em (i) e (ii) podem reflectir as ondas incidentes. 89 Fig. A.5 Influência do painel reflector. Os resultados do efeito do painel reflector na Fig. A.5, mostram que existe uma influência das ondas reflectidas na variação das sensibilidades dos microfones com a frequência. Na Fig. A.5 (a), (b) e (c) observa-se que os sinais sinusoidais são pesadamente influenciados pelas superfícies reflectoras, perpendiculares ao plano da propagação das ondas e por isso não são sinais apropriados para a calibração dos microfones, uma vez que o painel frontal é perpendicular ao plano da propagação dos sinais. 90 O resultado mais significativo deste teste é o obtido na Fig. A.5 (d), verifica-se que o ruído branco Gaussiano (WGN) não é influenciado por nenhum dos efeitos reflectivos testados, permitindo calibrar os microfones eliminando o efeito reflectivo adverso do painel frontal do agregado. Desta forma, foi feita a calibração usando o WGN como sinal de teste. Contudo, este teste obrigou a que se medissem os valores eficazes do ruído captado logo à saída dos pré-amplificadores, em vez de se usar o “osciloscope” no computador. Este processo de calibração não foi inicialmente considerado devido aos riscos que implicava. O resultado da calibração com WGN, na Fig. A.6 mostra que foi possível calibrar os ganhos dos pré-amplificadores dos microfones com uma variação de 0,3dB, que corresponde ao erro associados às medições. Para os sinais sinusoidais verifica-se que existe uma variação nas sensibilidades dos microfones limitado num intervalo de 3dB, no entanto as variações são aproximadamente invariantes na frequência, quando comparadas com o resultado obtido na Fig. A.1 pelo método de calibração com uma sinusóide. Fig. A.6 Calibração com WGN. A variação das sensibilidades para sinusóides, observada na Fig. A.6, deve-se à influência das reflexões do painel frontal. Uma forma de eliminar esta variação, passa por alterar fisicamente o painel frontal, e.g. colocando o painel frontal em forma de cunha para reflectir a onda incidente numa direcção diferente do plano da propagação das ondas incidentes. A.3. Testes com sinais de fala Até aqui apenas foram realizados testes ao agregado de microfones com sinais estacionários. Como o objectivo do agregado é capturar sinais de fala (sinais não-estacionários), pretende-se verificar qual o comportamento da variação das sensibilidades dos microfones com sinais de fala e comparar com os resultados obtidos anteriormente. Na Fig. A.7 comparam-se as componentes vozeadas e não vozeadas de um sinal de fala, com WGN. 91 Fig. A.7 Testes com fala Como seria de esperar, a variação das sensibilidades dos microfones para os segmentos vozeados e não-vozeados na Fig. A.7 é semelhante à variação observada na Fig. A.6, para as sinusóides e WGN respectivamente. Em termos gerais, este resultado permite concluir que as componentes não vozeadas dos sinais de fala não são influenciadas pelo efeito reflectivo do painel dos microfones, o mesmo já não acontece para as componentes vozeadas, onde esse mesmo efeito influência os valores de amplitude em cada microfone, tal como acontecia para os sinais sinusoidais. Para verificar a variação das sensibilidades dos microfones com a variação da posição da fonte sonora, foram feitas capturas de segmentos de fala com 6s de duração e com o locutor colocado em varias posições na câmara anecóica, de acordo com a Fig. A.8. 1,7m A3 22° 1,1m B3 36° 0,5m 0,5m C3 56° D3 72° 0,85m A2 B2 10° C2 17° D2 33° A1 B1 C1 A4 B4 C4 D4 0,65m D1 A5 B5 C5 D5 52° Array 0,65m 0,85m Fig. A.8 Posições do locutor na câmara anecóica 92 Fig. A.9 Variação das sensibilidades com a posição do locutor. Dos resultados da Fig. A.9 (a) observa-se que a variação dos ganhos para as várias posições não varia com a posição do locutor, excepto para a posição D1 onde se observa uma variação acentuada dos ganhos porque, dada a proximidade do locutor ao agregado, não é garantido o modelo de onda plana. Os resultados da Fig. A.9 (b) mostram que as sensibilidades dos microfones variam com a direcção do locutor relativamente ao agregado. Conclui-se assim que os microfones são sensíveis à variação da posição do locutor, o que significa que a calibração está de acordo com os objectivos pretendidos. 93 Anexo B. Descrição das salas de ensaios experimentais B.1. Sala nº 226 (Sala de alunos) 2 Esta sala tem uma área bruta de 29 m com um pé directo de 2,78 m. Por apresentar muitas superfícies lisas (dos moveis colocados em todo os perímetro da sala) esta sala apresenta uma acústica bastante reverberante. Verificou-se que a janela da sala isola deficientemente o ruído do exterior da sala. Foi verificada a presença de ruído de baixa frequência (<200Hz) de elevada intensidade, proveniente dos extractores de ar colocados no exterior da sala. Este ruído, não é inteiramente perceptível pelo ouvido humano. No entanto devido à elevada correlação espacial dos sinais nas baixas frequências, os filtros espaciais não conseguem eliminar este tipo de ruído. Extractores de Ar Area: 29m2 Agregado de Microfones Computadores Ar Condicionado Fig. B.1 Planta da sala de alunos 95 B.2. Sala de demonstrações 2 Esta sala tem uma área bruta de 16 m com um pé directo de 2,78 m. Têm uma acústica com alguma reverberação. No entanto, devido a forma geométrica que esta sala apresenta, existem pontos nesta sala onde se verifica a presença de efeitos ressonantes. A ressonância do sinal de fala acontece quando uma ou mais direcções do sinal reflectido apresentam intensidades superiores ao sinal não reflectido. O fenómeno de ressonância é particularmente indesejado na estimação da posição do locutor na sala. No entanto, tal como acontece com o efeito reverberante dos sinais, a ressonância potencia o efeito da correlação espacial entre o sinal desejado e os sinais interferentes, diminuindo a capacidade de filtragem espacial em atenuar os sinais interferentes. Area: 16m2 Agregado de Microfones Quadro Branco Computadores Ar Condicionado Fig. B.2 Planta da sala de demonstrações 96