O Disfarce da Voz em Fonética Forense

Transcrição

O Disfarce da Voz em Fonética Forense
Universidade de Lisboa
Faculdade de Letras
Departamento de Linguística Geral e Românica
O Disfarce da Voz em Fonética Forense
Raïssa Gillier
Mestrado em Linguística
Área de Especialização – Linguística Portuguesa
Ano de 2011
Universidade de Lisboa
Faculdade de Letras
Departamento de Linguística Geral e Românica
O Disfarce da Voz em Fonética Forense
Raïssa Gillier
Mestrado em Linguística
Área de Especialização – Linguística Portuguesa
Dissertação orientada por:
Professor Doutor Fernando Martins
Ano de 2011
AGRADECIMENTOS
É uma árdua tarefa agradecer o que muitas vezes não pode ser agradecido apenas com
palavras… Contudo, não posso deixar de mencionar algumas pessoas que se
destacaram ao longo desta ‘viagem’.
Em primeiro lugar, agradeço aos meus pais, a quem dedico este trabalho, por fazerem
de mim quem hoje sou e, ainda, pelo apoio incondicional que sempre me prestaram!
Agradeço ao meu orientador, Professor Doutor Fernando Martins, a disponibilidade e
prontidão que sempre demonstrou para resolução de problemas e esclarecimento de
dúvidas.
Um especial agradecimento vai para os vários Informantes que se disponibilizaram a
participar no estudo e pacientemente aceitaram a repetitiva, e por vezes aborrecida,
tarefa de leitura. Este trabalho não seria possível sem a vossa colaboração.
Quero agradecer muito à Gabriela e ao João, com quem tanto tenho aprendido, o
enorme apoio que me deram, a compreensão demonstrada e o bom humor. É
gratificante trabalhar convosco! A todos os outros membros do CLUL com quem me
relaciono diariamente e que me proporcionam momentos de partilha de
conhecimento e de boa disposição.
À Carla, Catarina e Filipa, um obrigado muito especial por terem estado sempre
presentes nesta etapa, por saberem respeitar o meu espaço e ausências e por me
aturarem nos momentos de maior tensão. Mas toda a alegria vivida, as gargalhadas
soltadas e disparates feitos são o maior motivo de agradecimento. Enfim, por todo o
tempo que passámos juntas!
Por fim, a todos aqueles que não foram mencionados e que, de alguma forma,
contribuiram para este trabalho.
RESUMO
O presente trabalho tem por objectivo estudar quatro tipos de disfarce da voz, de
forma a averiguar as consequências, que deles advêm, em dois parâmetros acústicos
utilizados na Identificação de Falantes – F0 e formantes. Com este propósito, foram
gravados oito indivíduos que leram um conjunto de frases em cinco condições de
produção: voz normal, subida de F0, descida de F0, máscara à frente da boca e
palhinha entre os incisivos.
A análise dos dados relativos à Voz Normal serve, por um lado, para verificar a eficácia
dos parâmetros na distinção de falantes e, por outro, como ponto de comparação para
observar a influência dos disfarces nos vários parâmetros acústicos.
Os resultados obtidos demonstram que (i) estes parâmetros (F0 e formantes) são
eficientes para a discriminação de indivíduos; (ii) os disfarces não actuam de forma
idêntica; (iii) nem todos os disfarces são eficazes, pois alguns não alteram as
frequências dos parâmetros; (iv) a robustez de cada parâmetro está directamente
relacionada com o tipo de disfarce; (v) o factor falante desempenha um papel
importante na performance do disfarce; (vi) o efeito do disfarce não é homogéneo
entre as várias vogais; (vii) mesmo no disfarce mais intrusivo, é possível recuperar
marcas específicas de cada falante através dos triângulos vocálicos.
Em suma, pretende-se (i) aprofundar conhecimentos sobre a robustez dos parâmetros
de identificação de falantes face ao disfarce; (ii) contribuir para o desenvolvimento dos
estudos na área da Fonética Forense e da Acústica Forense; (iii) colmatar a inexistência
de trabalhos neste âmbito para o Português Europeu.
Palavras-chave:
disfarce, F0, formantes, Fonética Forense, Acústica Forense
i
ABSTRACT
The present research aims to study four types of voice disguise in order to investigate
its influence on two acoustic parameters, often employed in Speaker Identification –
F0 and formants. To reach this goal, eight individuals were recorder and each of them
read a set of sentences in five different ways: normal voice, raising fundamental
frequency, lowering fundamental frequency, mask on mouth, use of bite block (straw).
Normal Voice data was analyzed to investigate, on the one hand, the efficiency of the
acoustic parameters to discriminate individuals and, on the other hand, to be the term
of comparison of each disguise in order to verify the influence of disguises on the
parameters.
The results reveal that (i) these acoustic parameters (F0 and formants) are efficient to
differentiate different speakers; (ii) disguises do not act in the same way; (iii) disguises
are not all efficient seeing that some of them do not affect the parameter’s values; (iv)
the strength of each acoustic parameter is directly related with the type of disguise; (v)
speaker factor perform an important role on disguise performance; (vi) disguise’s
effect is not homogeneous between vowels; (vii) it is possible to check speaker
specifics on vowel chart even in the stronger disguise.
The present research is expected to (i) expand knowledge about the robustness of
speaker identification parameters’ in presence of voice disguise; (ii) contribute to the
development of work in Forensic Phonetics and Acoustic Phonetics; (iii) end up the
inexistence of studies for European Portuguese in this field.
Key words:
disguise, F0, formants, Forensic Phonetics, Acoustic Phonetics
ii
ÍNDICE
RESUMO .................................................................................................................................... i
ABSTRACT ................................................................................................................................. ii
LISTA DE FIGURAS ..................................................................................................................... v
LISTA DE TABELAS ................................................................................................................... vii
1. INTRODUÇÃO ....................................................................................................................... 1
2. ENQUADRAMENTO TEÓRICO ............................................................................................... 4
2.0. Introdução ..................................................................................................................... 4
2.1. Teoria acústica da produção de fala................................................................................ 4
2.1.1. Fonte ....................................................................................................................... 5
2.1.2. Filtro........................................................................................................................ 5
2.2. Caracterização acustico-articulatória das vogais ............................................................. 6
2.2.1. Classificação articulatória ........................................................................................ 6
2.2.2. Classificação acústica ............................................................................................... 7
2.3. Fonética forense............................................................................................................. 9
2.3.1. Caracterização ......................................................................................................... 9
2.3.2. Fonética Acústica ................................................................................................... 12
2.3.3. Factores condicionantes ........................................................................................ 13
2.4. Identificação de falantes............................................................................................... 14
2.4.1. Parâmetros perceptivos ......................................................................................... 16
2.4.2. Parâmetros acústicos ............................................................................................. 18
2.5. Disfarce ........................................................................................................................ 20
3. METODOLOGIA ............................................................................................................... 25
3.0. Introdução ................................................................................................................ 25
3.1. Desenho Experimental.............................................................................................. 25
3.2. Informantes.............................................................................................................. 27
3.3. Materiais – Corpus.................................................................................................... 28
3.4. Recolha dos Dados ....................................................................................................... 29
3.4.1. Requisitos éticos .................................................................................................... 29
3.4.2. Gravações.............................................................................................................. 29
3.5. Tratamento dos Dados ................................................................................................. 30
3.5.1. Análise Espectrográfica .......................................................................................... 30
iii
3.5.2. Análise Estatística .................................................................................................. 32
4. ANÁLISE E DISCUSSÃO DOS DADOS .................................................................................... 33
4.0. Introdução ................................................................................................................... 33
4.1. Voz normal ................................................................................................................... 33
4.1.1. Triângulos vocálicos: variação intra e inter-falante................................................. 33
4.1.2. Frequência fundamental (F0) ................................................................................. 39
4.1.3. Formantes ............................................................................................................. 41
4.1.4. Eficácia dos parâmetros acústicos na distinção de falantes .................................... 42
4.1.5. Informante versus Vogais....................................................................................... 44
4.2. Disfarce – variação dos parâmetros acústicos ............................................................... 47
4.2.1. Voz Normal versus Disfarce(s)................................................................................ 47
4.2.2. Disfarce versus Informante .................................................................................... 54
4.2.3. Disfarce versus Vogais............................................................................................ 61
4.2.4. Triângulos vocálicos – Comparação de VN com o(s) Disfarce(s) .............................. 64
4.2.4.1. VN versus D1................................................................................................... 64
4.2.4.2. VN versus D2................................................................................................... 68
4.2.4.3. VN versus D3................................................................................................... 71
4.2.4.4.VN versus D4.................................................................................................... 74
4.2.4.5. Considerações finais ....................................................................................... 77
5. CONCLUSÃO ....................................................................................................................... 80
5.1. Conclusões ................................................................................................................... 80
5.2. Limitações do estudo.................................................................................................... 84
5.3. Perspectivas futuras ..................................................................................................... 85
BIBLIOGRAFIA ......................................................................................................................... 86
ANEXO 1 ................................................................................................................................. 91
ANEXO 2 ................................................................................................................................. 93
ANEXO 3 ................................................................................................................................. 95
ANEXO 4 ................................................................................................................................. 97
ANEXO 5 ................................................................................................................................. 99
ANEXO 6 ............................................................................................................................... 101
ANEXO 7 ............................................................................................................................... 102
ANEXO 8 ............................................................................................................................... 103
iv
LISTA DE FIGURAS
Figura 1 – Espectrograma do enunciado Minha querida, eu tentei informar que não esqueço
ainda dos documentos que levaste, portanto eu agradecia que os devolvesses (gravação X). .. 11
Figura 2 – Espectrograma do enunciado Minha querida, eu tentei informar que não esqueço
ainda dos documentos que levaste, portanto eu agradecia que depois (que) os devolvesses
(gravação K). ........................................................................................................................... 11
Figura 3 - Localização da medição de F2 da vogal [ɛ] em VN, na frase Eu digo cadela, Paulo. ... 31
Figura 4 - Triângulo vocálico do Informante 1. ........................................................................ 34
Figura 5 - Triângulo vocálico do Informante 2. ........................................................................ 34
Figura 6 - Triângulo vocálico do Informante 3......................................................................... 34
Figura 7 - Triângulo vocálico do Informante 4......................................................................... 34
Figura 8 - Triângulo vocálico do Informante 5......................................................................... 34
Figura 9 - Triângulo vocálico do Informante 6......................................................................... 34
Figura 10 - Triângulo vocálico do Informante 7........................................................................ 35
Figura 11 - Triângulo vocálico do Informante 8. ...................................................................... 35
Figura 12 - Valores médios da frequência fundamental de cada Informante............................ 39
Figura 13 - Valores médios de F1, F2, F3 e F4 de cada Informante. .......................................... 41
Figura 14 – Média de F1 por vogal, para cada Informante. ...................................................... 45
Figura 15 - Média de F2 por vogal, para cada Informante. ....................................................... 45
Figura 16 - Média de F3 por vogal, para cada Informante. ....................................................... 46
Figura 17 - Média de F4 por vogal, para cada Informante. ....................................................... 46
Figura 18 - Comparação de VN com D1 ................................................................................... 49
Figura 19 - Comparação de VN com D2. .................................................................................. 49
Figura 20 - Comparação de VN com D3. .................................................................................. 49
Figura 21 - Comparação de VN com D4. .................................................................................. 50
Figura 22 – Distribuição de F0 segundo o Informante em VN, D1, D2, D3 e D4. ....................... 54
Figura 23 – Distribuição de F1 segundo o Informante em VN, D1, D2, D3 e D4. ....................... 54
Figura 24 - Distribuição de F2 segundo o Informante em VN, D1, D2, D3 e D4. ........................ 55
Figura 25 - Distribuição de F3 segundo o Informante em VN, D1, D3 e D4. .............................. 55
Figura 26 - Distribuição de F4 segundo Informante em VN, D1, D2, D3 e D4. ........................... 55
Figura 27 – Valores médios de F0 de cada Informante em VN e D2. ........................................ 59
Figura 28 – Distribuição dos valores de F1 e F2 de cada vogal em VN e D1. ............................. 61
Figura 29 - Distribuição dos valores de F1 e F2 de cada vogal em VN e D2. .............................. 61
Figura 30 - Distribuição dos valores de F1 e F2 de cada vogal em VN e D3. .............................. 62
Figura 31 - Distribuição dos valores de F1 e F2 de cada vogal em VN e D4. .............................. 62
Figura 32 - Triângulo vocálico VN-D1, Informante 1 ................................................................ 64
Figura 33 - Triângulo vocálico VN-D1, Informante 2 ................................................................ 64
Figura 34 - Triângulo vocálico VN-D1, Informante 3 ................................................................ 65
Figura 35 - Triângulo vocálico VN-D1, Informante 4 ................................................................ 65
Figura 36 - Triângulo vocálico VN-D1, Informante 5 ................................................................ 65
Figura 37 - Triângulo vocálico VN-D1, Informante 6 ................................................................ 65
Figura 38 - Triângulo vocálico VN-D1, Informante 7 ................................................................ 65
Figura 39 - Triângulo vocálico VN-D1, Informante 8 ................................................................ 65
v
Figura 40 - Triângulo vocálico VN-D2, Informante 1 ................................................................ 68
Figura 41 - Triângulo vocálico VN-D2, Informante 2 ................................................................ 68
Figura 42 - Triângulo vocálico VN-D2, Informante 3 ................................................................ 68
Figura 43 - Triângulo vocálico VN-D2, Informante 4 ................................................................ 68
Figura 44 - Triângulo vocálico VN-D2, Informante 5 ................................................................ 68
Figura 45 - Triângulo vocálico VN-D2, Informante 6 ................................................................ 68
Figura 46 - Triângulo vocálico VN-D2, Informante 7 ................................................................ 69
Figura 47 - Triângulo vocálico VN-D2, Informante 8 ................................................................ 69
Figura 48 - Triângulo vocálico VN-D3, Informante 1 ................................................................ 71
Figura 49 - Triângulo vocálico VN-D3, Informante 2 ................................................................ 71
Figura 50 - Triângulo vocálico VN-D3, Informante 3 ................................................................ 71
Figura 51 - Triângulo vocálico VN-D3, Informante 4 ................................................................ 71
Figura 52 - Triângulo vocálico VN-D3, Informante 5 ................................................................ 71
Figura 53 - Triângulo vocálico VN-D3, Informante 6 ................................................................ 71
Figura 54 - Triângulo vocálico VN-D3, Informante 7 ................................................................ 72
Figura 55 - Triângulo vocálico VN-D3, Informante 8 ................................................................ 72
Figura 56 - Triângulo vocálico VN-D4, Informante 1 ................................................................ 74
Figura 57 - Triângulo vocálico VN-D4, Informante 2 ................................................................ 74
Figura 58 - Triângulo vocálico VN-D4, Informante 3 ................................................................ 74
Figura 59 - Triângulo vocálico VN-D4, Informante 4 ................................................................ 74
Figura 60 - Triângulo vocálico VN-D4, Informante 5 ................................................................ 74
Figura 61 - Triângulo vocálico VN-D4, Informante 6 ................................................................ 74
Figura 62 - Triângulo vocálico VN-D4, Informante 7 ................................................................ 75
Figura 63 - Triângulo vocálico VN-D4, Informante 8 ................................................................ 75
vi
LISTA DE TABELAS
Tabela 1 - Valores médios de F1 e F2 das vogais (Delgado-Martins, 1973) ................................. 8
Tabela 2 - Resultados do teste t-student na comparação dos valores de F0 entre os
Informantes. ........................................................................................................................... 40
Tabela 3 - Resultados do teste de análise de variância (ANOVA).............................................. 43
Tabela 4 - Resultado do teste da análise de variância (ANOVA) para cada género. .................. 44
Tabela 5 – Resultado do teste ANOVA..................................................................................... 48
Tabela 6 - Resultado do teste t-student na comparação entre VN e Disfarce(s). ...................... 57
vii
1. INTRODUÇÃO
O presente trabalho pretende contribuir para o desenvolvimento do conhecimento
sobre o disfarce da voz no âmbito da Fonética Forense. Trata-se, portanto, do estudo
do disfarce numa perspectiva linguística com aplicações para o Reconhecimento de
Falantes.
A Fonética Forense é uma área recente que tem vindo a expandir-se,
progressivamente, face às necessidades actuais. O aumento de casos que envolvem
escutas ou gravações telefónicas, nos últimos anos, destacam a importância da
Fonética para a identificação de indivíduos em ambiente forense.
A tarefa do reconhecimento de vozes é realizada nas mais diversas situações do
quotidiano, o que demonstra que um trecho de fala contém informação não linguística
relacionada com características pessoais dos falantes. O objectivo da Fonética Forense
consiste em procurar esses traços individuais da voz de cada falante que permitam
distingui-lo dos restantes indivíduos. Neste sentido, procuram-se correlatos acústicos
das características anatómicas do aparelho fonador dos indivíduos, uma vez que as
diferentes fisionomias do tracto vocálico deixam marcas específicas do falante no sinal
acústico. Assim, parâmetros relacionados com a fonte (F0) da produção sonora e os
filtros (formantes) que moldam essa fonte de energia são relevantes para a distinção
de falantes.
Contudo, os estudos fonéticos sobre a voz e a fala como ‘ferramenta’ discriminadora
de identidade são recentes, pelo que há, ainda, um longo percurso a explorar sobre as
potencialidades da voz, apesar dos grandes avanços que têm sido feitos nos últimos
anos. Para o Português Europeu, até ao momento, não é conhecido nenhum trabalho
neste sentido. Por outro lado, em casos forenses, é comum o infractor disfarçar a sua
voz para não ser reconhecido. Embora a investigação exploratória no domínio do
disfarce não seja muito abrangente, alguns trabalhos (Reich et al., 1976; Rose &
Simmons, 1996; Künzel, 2000; Zhan e Tan, 2007) demonstraram que parâmetros
1
acústicos como a frequência fundamental, a banda formântica ou a duração dos
segmentos são alterados na presença do disfarce.
A necessidade de aprofundar conhecimentos sobre os vários tipos de disfarce e quais
as consequências, que deles advêm, na análise para a identificação do falante são o
ponto basilar que motiva este estudo. O desenvolvimento da investigação no domínio
da Fonética Forense e da Acústica Forense, bem como o contributo do presente
estudo para as instituições judiciais são, também, aspectos pertinentes que justificam
este trabalho. Por último, o presente trabalho visa colmatar a inexistência de estudos
no campo da Fonética Forense para o Português Europeu, servindo como ponto de
partida para trabalhos futuros.
Deste modo, destacam-se os seguintes objectivos: (i) verificar a eficiência de cada
parâmetro na distinção entre falantes, na voz normal; (ii) averiguar se os disfarces
causam alterações nos vários parâmetros acústicos; (iii) verificar se os diferentes
disfarces produzem todos o mesmo efeito nos parâmetros acústicos; (iv) aferir se
todos os parâmetros são, igualmente, afectados por cada disfarce; (v) apurar se
existem parâmetros resistentes ao disfarce; (vi) observar se o efeito do disfarce é
homogéneo entre as vogais; e (vii) constatar se o factor falante tem alguma influência
na performance do disfarce.
Tendo em vista os objectivos mencionados, no segundo capítulo, descreve-se a teoria
acústica da produção de fala (2.1.); caracterizam-se as vogais do Português Europeu do
ponto de vista articulatório e acústico (2.2.); faz-se a descrição das principais questões
formais relacionadas com a Fonética Forense (2.3.); abordam-se alguns parâmetros
perceptivos relevantes para a Identificação de Falantes e descrevem-se estudos sobre
pistas perceptivas no reconhecimento de indivíduos (2.4.); finalmente, o último ponto
diz respeito ao disfarce da voz (2.5).
No terceiro capítulo, faz-se a descrição detalhada das questões metodológicas. Traçase a elaboração do desenho experimental, no que diz respeito às questões de partida e
hipóteses subjacentes ao presente trabalho (3.1.), a selecção dos Informantes (3.2.) e
2
dos materiais (3.3.); e explicitam-se os detalhes da recolha e tratamento dos dados
(secções 3.4. e 3.5.).
No quarto capítulo, são analisados e discutidos os resultados deste trabalho. Num
primeiro momento, descrevem-se os dados relativos à voz normal (secção 4.1.),
através da análise dos triângulos vocálicos (4.1.1.), F0 (4.1.2.) e formantes (4.1.3.), de
forma a testar a eficiência dos parâmetros acústicos na distinção de falantes (4.1.4) e a
relação entre falantes e vogais (4.1.5.). Na segunda parte deste capítulo (4.2.), faz-se a
comparação dos parâmetros acústicos entre a voz normal e os disfarces (4.2.1);
analisa-se a interacção entre o disfarce e o falante (4.2.2.), bem como a relação entre o
disfarce e as vogais (4.2.3.); por último, verificam-se as consequências produzidas por
cada disfarce nos triângulos vocálicos (4.2.4.).
Finalmente, no quinto capítulo, apresentam-se as conclusões deste trabalho e
confirmam-se ou infirmam-se as hipóteses delineadas (5.1.); listam-se as limitações do
estudo (5.2.) e sugerem-se linhas a desenvolver em trabalhos futuros (5.3.).
3
2. ENQUADRAMENTO TEÓRICO
2.0. Introdução
Neste capítulo, abordam-se, do ponto de vista teórico, algumas questões relevantes
para a Fonética Forense e são referidos vários trabalhos que servem de suporte para a
fundamentação teórica. Em primeiro lugar, apresenta-se a teoria acústica da produção
de fala (2.1) e faz-se a caracterização acustico-articulatória das vogais (2.2.); de
seguida, tratam-se os tópicos mais pertinentes da Fonética Forense, no que diz
respeito à área do Reconhecimento de Falantes (2.3.); posteriormente, descrevem-se
algumas características perceptivas e acústicas da voz que permitem identificar
falantes (2.4.); por fim, o último ponto é inteiramente dedicado à questão do disfarce
da voz (2.5.).
2.1. Teoria acústica da produção de fala
A teoria acústica da produção de fala estabelece uma relação entre a articulação dos
sons e as suas propriedades acústicas. Esta teoria foi desenvolvida por Fant em 1960
na obra Acoustic theory of speech production e é, geralmente, conhecida como teoria
fonte-filtro. Segundo esta, os sons de fala são o resultado da combinação de uma fonte
de energia sonora e de filtros que moldam o som produzido pela fonte. A fonte sonora
pode ser de dois tipos distintos: periódica ou aperiódica. Na primeira, a fonte sonora
corresponde às cordas vocais, ao passo que na segunda, a fonte sonora é o tracto
vocal. O filtro corresponde às várias configurações das cavidades supraglotais. Os sons
resultam, portanto, da relação entre um sistema de fontes sonoras e de filtros, mas o
mecanismo da fonte geradora é independente do processo de filtragem (Stevens,
2000). Isto é, as propriedades acústicas dos filtros não influenciam as propriedades da
fonte. Desta forma, é possível tratar separadamente cada uma das ‘fases’ responsáveis
pela produção da fala. No âmbito deste trabalho, as seguintes considerações serão
4
feitas apenas para as cordas vocais como fonte e a cavidade supraglotal oral como
filtro.
2.1.1. Fonte
A fonte de energia acústica é produzida pela vibração das cordas vocais, situadas na
laringe. Devido à pressão do fluxo do ar vindo dos pulmões, as cordas vocais fazem
movimentos sucessivos de abertura e fechamento (vibração). Este sistema mecânico
tem frequências naturais de vibração, aproximadamente entre os 100Hz e 300Hz para
um adulto (Stevens, 2000). É, portanto, a velocidade a que as cordas vocais abrem e
fecham durante a fonação que determina a frequência fundamental do fluxo de ar
glotal (Lieberman & Blumstein, 1988). A frequência de vibração das cordas vocais é
determinada, essencialmente, pela forma e pela massa das mesmas. Assim, quanto
maiores forem as cordas vocais de um adulto, menor será a faixa da frequência
fundamental. Adicionalmente, qualquer falante pode alterar a frequência natural de
vibração das cordas vocais – por exemplo, um aumento da rigidez das cordas vocais
traduz-se no aumento da frequência fundamental (Stevens, 2000). Na verdade, as
mudanças na frequência fundamental têm também uma finalidade linguística e são
usadas na comunicação entre falantes para diferenciar uma frase declarativa de uma
interrogativa ou para estabelecer diferenças de significado nas línguas tonais, por
exemplo.
2.1.2. Filtro
As cavidades supraglotais actuam como um sistema de filtragem, suprimindo a energia
de algumas frequências e amplificando outras. As frequências nas quais há um máximo
de concentração de energia, que são ressonâncias do tracto vocálico, chamam-se
formantes. Durante a produção de uma vogal, as partículas do ar expelido dos
pulmões vibram no tracto vocálico. As frequências de vibração das partículas de ar são
determinadas pela configuração do tracto vocálico que, por sua vez, está dependente
dos movimentos e posições dos vários articuladores (língua, lábios, maxilar, etc.).
5
Assim, a forma e tamanho do tracto vocálico determinam as frequências dos
formantes (Lieberman & Blumstein, 1988). Na literatura, é comum recorrer à vogal
schwa para exemplificar o efeito do filtro no som produzido pela fonte. O recurso a
esta vogal prende-se com o facto de esta ser relativamente simples do ponto de vista
da sua caracterização articulatória, isto é, não há protrusão dos lábios, a língua está
em posição de repouso e o véu palatino não permite a passagem do ar para a cavidade
nasal. Num tracto vocal de posição neutra com um comprimento de 17,5cm, a sua
área acústica seria equivalente a um tubo fechado num lado (glote) e aberto no outro
(lábios) o que resultaria num primeiro formante de 500Hz, o segundo de 1500Hz e o
terceiro de 2500Hz. Desta forma, são as alterações na forma do tubo que originam
diferentes configurações do tracto vocálico, e consequentemente diferentes
frequências de ressonância, que dão origem aos vários sons vocálicos.
2.2. Caracterização acústico-articulatória das vogais
2.2.1. Classificação articulatória
Os sons vocálicos são produzidos com vibração das cordas vocais e sem constrições à
passagem do ar no tracto vocálico. A posição dos vários articuladores, como os lábios e
a língua, determinam a produção das diferentes vogais. A identidade das vogais é,
essencialmente, caracterizada segundo três parâmetros: a altura do dorso da língua, o
movimento da raiz e dorso da língua e a posição dos lábios. A descrição dos diferentes
movimentos e posições que os articuladores executam é feita em função da posição
neutra dos mesmos que corresponde à vogal schwa. Relativamente à altura do dorso
da língua, a vogal pode ser alta ( [i], [ɨ] e [u] ), média ( [e], [ɐ] e [o] ) ou baixa ( [ɛ], [a]
e [ɔ] ). Nas vogais altas, o dorso da língua eleva-se em relação à sua posição neutra,
nas vogais médias, o dorso da língua mantém-se na sua posição neutra e, nas vogais
baixas, o dorso da língua baixa em relação à sua posição neutra (Mateus et al., 2005).
O movimento de elevação ou abaixamento do dorso da língua tem uma relação directa
com a abertura da cavidade oral, pelo que as vogais podem, também, ser
caracterizadas através deste critério. Assim, podem ser classificadas em vogais
6
fechadas ( [i], [ɨ] e [u] ), médias ( [e], [ɐ] e [o] ) ou abertas ( [ɛ], [a] e [ɔ] ). No que diz
respeito ao movimento de avanço ou recuo da língua, as vogais dividem-se em
anteriores ( [i], [e] e [ɛ] ), centrais ( [ɨ], [ɐ] e [a] ) ou posteriores ( [u], [o] e [ɔ] ). Nas
vogais anteriores, o dorso da língua avança em relação à sua posição neutra, nas
vogais centrais o dorso da língua mantém-se na sua posição neutra e nas vogais
posteriores o dorso da língua recua em relação à sua posição neutra (Mateus et al.,
2005). Por último, a posição dos lábios estabelece um traço distintivo relativo ao
arredondamento dos lábios que permite dividir as vogais em arredondadas ( [u], [o] e
[ɔ] ) e não arredondadas ( [i], [ɨ], [e], [ɐ], [ɛ] e [a] ).
Existem, também, as vogais nasais ( [ĩ], [õ], [ũ], [ẽ] e [ɐ̃] ) que se distinguem das vogais
orais pelo facto de o fluxo de ar proveniente dos pulmões passar não só na cavidade
oral, mas também na cavidade nasal, provocando ressonância nasal. Restam, ainda, as
semivogais ( [w] e [j] ) que são idênticas, do ponto de vista articulatório, às vogais [u] e
[i], respectivamente. No entanto, as semivogais diferenciam-se das vogais, pois são
produzidas com menor intensidade.
2.2.2. Classificação acústica
As características acústicas das vogais estão directamente relacionadas com as suas
propriedades articulatórias. Quer isto dizer que, tal como os vários articuladores se
movem e posicionam de forma a produzir sons diferentes, as características acústicas
de um segmento modificam-se de acordo com as diferentes configurações do tracto
vocálico. O sinal acústico produzido na fonte passa nas cavidades supraglotais que
adoptam diferentes formas e volumes segundo a posição dos articuladores. Se se
pensar na classificação articulatória das vogais [u] e [i], por exemplo, verifica-se que a
posição da língua e dos lábios é diferente em cada vogal, o que origina diferentes áreas
no tracto vocálico. Cada uma destas áreas actua como uma caixa de ressonância com
frequências naturais próprias (formantes). Retomando a posição dos articuladores na
vogal ‘neutra’ schwa, cujos valores dos formantes são 500hz, 1500hz e 2500hz para F1,
7
F2 e F3, respectivamente, facilmente se verifica que a passagem para outra vogal cria
novas áreas de ressonância, devido à nova configuração do tracto vocálico e,
consequentemente, novos valores dos formantes. As frequências destes formantes são
a identidade acústica das vogais, ou seja, cada vogal tem uma configuração formântica
específica que permite distinguí-las entre si. O primeiro e segundo formantes (F1 e F2)
são os responsáveis pela determinação da qualidade da vogal, pois F1 está relacionado
com o movimento articulatório de elevação e abaixamento da língua e F2 relaciona-se
com o movimento de avanço e recuo da língua. A relação entre o movimento da língua
e estes formantes permite estabelecer a ligação entre os traços articulatórios e
acústicos das vogais. A relação de F1 com a elevação/abaixamento da língua é
proporcionalmente inversa, isto é, as vogais baixas caracterizam-se por terem um F1
alto e as vogais altas por terem um F1 baixo. Em relação a F2, as vogais anteriores
caracterizam-se por terem valores elevados de F2 e as vogais posteriores por terem
valores baixos de F2.
Os vários trabalhos de Delgado-Martins foram o salto impulsionador na investigação
da fonética acústica do Português Europeu (PE). Em Delgado-Martins (1973), são
analisadas e estudadas as características formânticas das vogais orais tónicas do
Português Europeu. Neste artigo, a autora descreve os valores médios de frequência
do primeiro e segundo formantes de cada vogal (Tabela 1) e, simultaneamente,
estabelece o triângulo vocálico do PE.
Tabela 1 - Valores médios de F1 e F2 das vogais (Delgado-Martins, 1973)
F1
F2
[i]
293,58
2343,53
[e]
403,19
2083,94
[ɛ]
501,10
1893,21
[ɐ]
511,30
1602,07
[a]
626,04
1325,77
[ɔ]
530,70
993,91
[o]
425,53
863,59
[u]
315,00
677,80
8
A disposição dos valores de F1 e F2 em ordenada e absissa, respectivamente,
determinam o triângulo vocálico de uma língua em geral ou de um falante em
particular. Este é de grande relevo porque permite observar, através da sua
configuração, marcas específicas de cada indivíduo. Contudo, importa realçar que não
existem valores fixos para os formantes das vogais. Na verdade, os valores dos
formantes de um segmento são influenciados pelo contexto fonético em que se insere.
O fenómeno da coarticulação, isto é, a influência que um segmento exerce nos
segmentos adjacentes, altera os valores dos formantes de um mesmo segmento em
contextos fonéticos diferentes. Por outro lado, os formantes estão directamente
relacionados com as características fisiológicas do tracto vocal, pelo que as diferentes
fisionomias do tracto de cada indivíduo potenciam diferenças nos valores dos
formantes (variação inter-falante).
Existem, ainda, outros parâmetros que contribuem para a definição acústica das vogais
como a duração, a intensidade, a energia ou o F0 intrínseco da vogal que não cabe
abordar neste trabalho, já que não foram objecto de estudo.
2.3. Fonética forense
2.3.1. Caracterização
A Fonética Forense é uma ciência que corresponde à utilização de conhecimentos,
teorias e métodos fonéticos com finalidades judiciais. O carácter forense pode, na
verdade, ser aplicado a qualquer área da Linguística, mas o crescente aumento de
casos judiciais que envolvem escutas ou gravações telefónicas sublinham a relevância
da Fonética na identificação de falantes em ambiente forense. O caso Augustynek1
(Kredens & Góralewska-Lach, 1998) é um exemplo da resolução de um caso com base
em provas linguísticas que demonstra a importância da Fonética e do contributo de
outras áreas da linguística na resolução do mesmo. A utilização de pistas fonéticas
1
Em 1994, o centro de Cracóvia, Polónia, foi alvo de várias ameaças de bomba. Durante dez dias,
telefonemas anónimos ameaçavam explodir bombas deixadas no centro da cidade, caso não fosse paga
uma elevada quantia de dinheiro.
9
como a média da frequência fundamental, os traços articulatórios, a duração dos
segmentos, as marcas de hesitação, as frequências dos formantes das vogais ou a
qualidade da voz e o recurso a pistas morfológicas, dialectais e sintácticas permitiram
concluir que o autor das gravações e o suspeito eram o mesmo indivíduo.
O principal objecto de estudo da Fonética Forense relaciona-se com o reconhecimento
de falantes, embora outras áreas como a autenticação de gravações ou a identificação
do conteúdo de uma gravação (Rose, 2002) estejam também incluídas nas linhas de
investigação da Fonética Forense. Aparentemente, a noção de reconhecimento de
falantes através da voz parece simples, mas diferentes situações, como ser
reconhecido por alguém pelo telefone ou aceder à conta bancária através do
reconhecimento automático de voz, demonstram que existem vários tipos de
reconhecimento de falantes.
A tarefa do reconhecimento de falantes pode ser definida como qualquer processo de
decisão que usa algumas características do sinal de fala para determinar se uma
pessoa em particular é o falante de determinado enunciado (Atal, 1976; apud Rose,
2002). Existem duas tarefas dentro do reconhecimento de falantes – a verificação e a
identificação – que se relacionam com problemas e pressupostos específicos. Segundo
Nolan (1983), a verificação consiste na comparação de uma amostra de fala de um
indivíduo com amostras de referência do mesmo sujeito, de forma a verificar se existe
correspondência. A tarefa de verificação pode ter aplicações em bancos ou sistemas de
segurança, por exemplo, em que é necessário confirmar a identidade de determinado
falante. A identificação consiste, ainda segundo Nolan (1983), na atribuição (ou não)
do enunciado de um sujeito desconhecido a um indivíduo de uma população de que
estão disponíveis amostras de referência. Geralmente, é na identificação que recai o
tipo de reconhecimento que o contexto forense envolve. A verificação e identificação
têm em comum a comparação de duas amostras de fala com o objectivo de averiguar
se pertencem ou não ao mesmo indivíduo.
Observem-se, a título exemplificativo, os espectrogramas seguintes (Figuras 1 e 2)
provenientes de um caso forense real com disfarce de voz (nasalidade). O primeiro
espectrograma pertence ao infractor, cuja identidade se desconhece (gravação X) e o
10
segundo diz respeito ao suspeito (gravação K). Este é um caso que exemplifica a tarefa
de identificação, uma vez que se pretendia confirmar se o suspeito era o mesmo
sujeito que o autor da gravação X.
Figura 1 – Espectrograma do enunciado Minha querida, eu tentei informar que não esqueço ainda dos
documentos que levaste, portanto eu agradecia que os devolvesses (gravação X).
Figura 2 – Espectrograma do enunciado Minha querida, eu tentei informar que não esqueço ainda dos
documentos que levaste, portanto eu agradecia que depois (que) os devolvesses (gravação K).
Para além das diferentes aplicações de cada tarefa, existem outras diferenças entre a
identificação e verificação de falantes que as distingue. Rose (2002) aponta como
principais distinções as propriedades de referência do conjunto de falantes envolvidos
que assenta na distinção entre conjuntos abertos versus fechados e conjuntos
conhecidos versus desconhecidos. Num conjunto fechado, sabe-se que o falante a ser
identificado está entre a população de referência de falantes, enquanto que num
conjunto aberto, o falante pode ou não estar incluído nessa população. Esta distinção
entre conjuntos abertos e fechados não é relevante para a verificação já que se
assume que o indivíduo, cuja identidade é reclamada, está inserido no conjunto de
11
referência dos falantes. Por outro lado, na verificação o conjunto é conhecido, ao
passo que na identificação o conjunto pode ser conhecido ou desconhecido.
Dentro do reconhecimento de falantes distinguem-se três tipos de reconhecimento:
naïve – reconhecimento perceptivo; semiautomático – utilização da tecnologia, como
os espectrogramas, por peritos treinados; automático – utilização de sistemas
computadorizados na associação de vozes e falantes. O reconhecimento
semiautomático e automático envolve a aplicação de técnicas analíticas, quer
humanas quer automáticas, ao contrário do reconhecimento naïve que é
desempenhado por pessoas comuns sem treino específico. Baseado nesta distinção, o
reconhecimento de falantes pode categorizar-se em duas classes distintas:
reconhecimento técnico e reconhecimento naïve (Nolan, 1983). Esta categorização,
proposta por Nolan, permite diferenciar o reconhecimento de falantes baseado na
habilidade humana inata de reconhecer vozes de técnicas especializadas, quer sejam
perceptivas, visuais ou electrónicas.
2.3.2. Fonética Acústica
Foi já referido, anteriormente, que a Fonética Forense utiliza os recursos e métodos
fonéticos tradicionais para o reconhecimento de falantes. Como tal, vários parâmetros
são analisados para obter o máximo de informação individual sobre determinada voz,
de forma a poder relacioná-la com um indivíduo em particular. Na verdade, não existe
um conjunto de parâmetros definido e a escolha dos mesmos é, na generalidade,
ditada pela especificidade de cada caso. Ao longo dos anos, várias foram as tendências
para manter a análise perceptiva separada da análise acústica, mas a actual
abordagem centra-se na conjugação dos dois tipos de análise. De facto, o recurso
tanto à análise perceptiva como à acústica é indispensável uma vez que cada uma, por
si só, revela-se em muitos casos insuficiente. A utilização de parâmetros acústicos na
fonética forense é extremamente importante, pois a Fonética Acústica permite fazer
uma análise quantitativa e precisa dos traços perceptivos que caracterizam uma voz.
12
Desta forma, a análise forense deve contemplar a análise de parâmetros perceptivos e
acústicos que, em conjunto, permitem fazer uma descrição mais rigorosa da voz.
2.3.3. Factores condicionantes
Como tem vindo a ser dito, a principal tarefa da Fonética Forense assenta na extracção
das principais características de uma voz que permitam relacioná-la e atribuí-la a
determinado falante. No entanto, esta tarefa está longe de ser uma tarefa simples,
pois existem vários factores condicionantes que dificultam a análise e tornam a
identificação de falantes numa tarefa bastante complexa. Em primeiro lugar, a
principal dificuldade do reconhecimento de falantes relaciona-se com o facto de não
existirem traços no sinal de fala que veiculem, exclusivamente, a informação
discriminadora do falante (Figueiredo, 1994), ao contrário do que sugere o termo
voiceprint introduzido por Kersta (1962; apud Nolan 1983) na década de sessenta. No
início dos estudos forenses da voz, alguns investigadores interpretaram o termo
voiceprint como sendo uma forma gráfica de representação da voz com um valor de
identidade individual e exclusivo semelhante ao termo fingerprint. Porém, o sinal de
fala é, principalmente, determinado pela mensagem linguística, pelo que as
informações inerentes ao falante veiculam-se indirectamente no sinal acústico
produzido por cada indivíduo. Esta é uma das principais diferenças que distingue a
identificação de falantes de outras técnicas, como a análise de impressões digitais ou o
ADN, que assentam na identificação de pessoas a partir de características intrínsecas a
cada indivíduo. O carácter variável das emissões de fala demonstra bem que, ao
contrário de outros traços individuais anteriormente referidos, a voz não é um
‘instrumento’ com propriedades fixas e inalteráveis. De facto, a variação intra-falante é
muitas vezes um dos factores que mais dificultam a identificação de falantes. São
várias as circunstâncias que contribuem para a impossibilidade de produzir dois
enunciados idênticos. Factores como o contexto social (formal versus informal), o
contexto situacional (presença de stress psicológico ou estado emocional), entre
outros, contribuem para a variabilidade dos parâmetros de identificação. Apesar da
variação intra-falante ser constante e dificultar a tarefa de comparação entre duas
13
amostras de fala, essa variação não impossibilita a identificação, já que o pressuposto
de base é o de que a variação inter-falante é superior à variação intra-falante. A
variação intra-falante é uma limitação relacionada com a produção de fala, mas
existem outros problemas e limitações de ordem técnica. Uma das limitações técnicas
mais frequentes no contexto forense diz respeito à banda telefónica. A banda
telefónica tem um limite de frequências entre os 300Hz e os 3400Hz, pelo que todos os
parâmetros inerentes ao falante que se situem fora dessas frequências não são
captados, apesar de poderem ser reconstituídos pelos ouvintes. Assim, o espectro das
consoantes fricativas ou os formantes mais altos das vogais não podem ser usados
como parâmetros de identificação (Jessen, 2008). Por outro lado, a má qualidade das
gravações, a presença de eco ou barulho de fundo dificultam em muito a tarefa do
perito. Outra agravante está relacionada com a reduzida duração das amostras. Por
um lado, quanto mais reduzida for a gravação menos representativa é do padrão de
fala de um indivíduo e, por outro lado, se a amostra for muito reduzida pode não
conter os segmentos que são mais ricos em características dependentes do falante
(Jessen, 2008).
2.4. Identificação de falantes
Todos os seres humanos são dotados de capacidades para reconhecer indivíduos
apenas através da voz nas mais variadas situações do dia-a-dia. Um telefonema
anónimo ou uma personalidade famosa a discursar na rádio são apenas exemplos que
demonstram a capacidade humana de reconhecer vozes. Quando ouvem uma frase, os
indivíduos percebem o seu conteúdo linguístico e, ao mesmo tempo, reconhecem a
identidade do falante, mesmo sob várias condições adversas como a presença de ruído
de fundo ou várias pessoas a falar em simultâneo. A capacidade dos indivíduos para
reconhecer vozes sugere que estes armazenam informação detalhada sobre as vozes
das pessoas que conhecem ao longo da vida (Hollien & Schwartz, 2001), da mesma
forma que armazenam informação sobre particularidades físicas das pessoas, como
traços faciais ou a cor do cabelo. Neste sentido, o tempo de contacto com uma voz, a
14
familiaridade do ouvinte com a voz (Amino & Arai, 2008) ou a própria habilidade do
ouvinte são preponderantes na tarefa do reconhecimento de vozes. Por outro lado,
mesmo sem conhecer o enunciador de uma frase, o ser humano possui a capacidade
de lhe atribuir algumas características gerais como o sexo, a idade ou o estado
emocional. Assim, quando se ouve alguém falar, e não se tem informação visual sobre
o falante, os indivíduos podem reconstruir algumas características físicas ou
emocionais a partir de pistas acústicas.
A identificação do sexo de um falante é relativamente acessível, pois a separação entre
o sexo feminino e o masculino assenta na diferença da frequência fundamental (F0)
que, geralmente, é mais elevada nas mulheres (200Hz, em média (Stevens, 2000)) do
que nos homens (120Hz, em média (Stevens, 2000)). Ainda assim, a distinção entre o
sexo feminino e o masculino não é sempre evidente, já que valores de F0 que se
aproximem muito dos limites da gama de frequências associadas a cada sexo podem
ser difíceis de discriminar. Vários estudos demonstram que existem outras pistas para
identificar o sexo do falante para além de F0. Schwartz (1968, apud Figueiredo, 1994)
observou que é possível determinar o sexo do falante sem utilizar pistas com fonte
glotal. A partir de consoantes fricativas não vozeadas, Schwartz verificou que o ponto
de concentração de energia é mais elevado nas mulheres, consequência do menor
tamanho do tracto vocálico feminino. As diferenças entre os dois sexos estão,
também, associadas a questões ritmico-temporais (Kaiser, 1940; apud Figueiredo,
1994). Khuen e Moll (1976) sugerem que o facto de as mulheres falarem mais rápido
do que os homens deve-se, uma vez mais, ao menor tamanho do tracto vocálico
feminino que provoca movimentos mais rápidos entre os articuladores. Lasse et al.
(1979) realizaram um estudo sobre a relação entre pistas acústicas e a identificação do
peso e altura dos falantes e verificaram que existem pistas perceptivas que reflectem
características físicas como o peso e altura dos indivíduos. Neste estudo, verificou-se
também que o tamanho do enunciado não tem influência na avaliação de peso/altura.
Estes resultados sugerem a existência de uma relação entre F0 e altura/peso; no
entanto, Künzel (1989) realizou um estudo para averiguar esta associação e não
encontrou nenhuma correlação entre estes factores. Shipp & Hollien (1969) revelam
que, no seu estudo, houve um elevado acerto entre a idade dos participantes, que
15
abrangia uma gama de 70 anos, e a idade estimada pelos informantes. Todos estes
estudos demonstram que a voz é um ‘instrumento’ extremamente rico, transportador
de pistas perceptivas que podem revelar muitas informações sobre o falante.
2.4.1. Parâmetros perceptivos
O facto de os seres humanos serem capazes de associar vozes a indivíduos significa
que cada voz tem marcas individuais que os permite reconhecer falantes. Dito de
outro modo, para além do conteúdo linguístico de um continuum sonoro existe,
também, informação linguística e extra-linguística relacionada com aspectos
individuais do falante que se veiculam simultaneamente no sinal acústico. A
informação linguística está relacionada com o contexto linguístico do falante e a
informação extra-linguística relaciona-se com as características anatómicas do tracto
vocálico do falante. Neste sentido, o sinal de fala deve ser entendido como uma função
complexa que envolve não apenas traços anatómicos mas também factores sócioculturais (Figueiredo, 1994).
A produção linguística dos falantes é reflectora de marcas sócio-culturais, na medida
em que cada falante se expressa através de uma língua particular, exibindo traços
dialectais e sociolectais que o caracterizam. As variáveis sociológicas como o contexto
social ou a educação e a localização geográfica contribuem, portanto, para a
caracterização de um falante. O factor social e dialectal não constitui, por si só, um
parâmetro de identificação, já que as marcas dialectais e sociolectais são partilhadas
por comunidades linguísticas e não exclusivamente por um só falante. A este nível, a
noção de idiolecto é bastante interessante, pois Baldwin (1979; apud Nolan, 1983)
sugere que, mesmo numa comunidade dialectal, cada indivíduo continua a ter a sua
forma preferida de pronunciar as palavras. Segundo o mesmo autor, a combinação das
inúmeras alternativas de pronunciação das palavras dá origem a uma forma particular
de falar, isto é, um idiolecto. Mas, ainda que os traços dialectais e sociolectais não
sejam, em exclusivo, determinantes para a identificação de um falante, estes são
16
relevantes para o modelo forense, pois contribuem para a descrição do perfil da voz do
falante.
Outro domínio que fornece pistas para a identificação do falante é a qualidade da voz.
À qualidade da voz atribuem-se duas componentes: a componente orgânica e a
componente de setting articulatório (Laver, 1980). Estas duas componentes
distinguem-se, essencialmente, pelo facto de a primeira não poder ser controlada pelo
falante, ao passo que a segunda é deliberadamente controlada por cada indivíduo.
Segundo Laver, a primeira componente está relacionada com a fisiologia e anatomia
do tracto vocálico de cada falante em particular. A anatomia do falante condiciona a
sua qualidade da voz através da dimensão, massa e geometria dos órgãos vocálicos,
pelo que o tamanho do tracto vocálico ou o volume da cavidade nasal, por exemplo,
contribuem para a qualidade da voz de um falante. A segunda componente diz
respeito a configurações articulatórias habituais que cada indivíduo adopta quando
fala, pois, de acordo com Laver, cada falante tende a usar configurações específicas do
seu tracto vocálico na sua forma natural de falar. Na obra The phonetic description of
voice quality, Laver (1980) faz a descrição da qualidade da voz distinguindo dois tipos
de settings - os supralaríngeos e os fonatórios – sendo que estes são descritos como
‘desvios’ da configuração neutra do tracto vocálico. Assim, segundo Laver, alterações
na configuração neutra do tracto vocálico supralaríngeo resultam em mudanças
longitudinais, latitudinais ou velofaríngeas do tracto vocálico. As alterações do eixo
longitudinal resultam em quatro tipos de deslocamento dos órgãos da sua posição
neutra. Os dois primeiros implicam movimentos verticais da laringe, ou seja, o
levantamento e abaixamento da laringe. O terceiro tipo de modificação envolve a
protrusão dos lábios e o quarto implica a retracção e levantamento do lábio inferior.
Os settings latitudinais envolvem tendências quase permanentes para manter um
efeito constritivo ou expansivo na área de secção transversal nalgumas posições ao
longo do comprimento do tracto vocálico. Essas tendências podem ser originadas pela
acção de vários órgãos nomeadamente os lábios, a língua, a faringe e o queixo. As
mudanças velofaríngeas do tracto vocálico dizem respeito à nasalidade, pelo que o
autor distingue dois settings que dão origem à voz nasal e voz não-nasal. Por último, os
settings fonatórios estão relacionados com o comportamento da laringe que permite
17
categorizá-los em cinco modos de vibração da laringe (falsete, sussurro, creak,
harshness e breathiness) para além da voz modal.
2.4.2. Parâmetros acústicos
Os parâmetros de identificação de falantes descritos no ponto anterior (contexto
social/dialectal e qualidade da voz) são, geralmente, obtidos através de uma análise
perceptiva. Porém, alguns eventos são melhor captados acusticamente. A frequência
fundamental (F0) é considerada por muitos autores um dos parâmetros mais
importantes em fonética forense, sobretudo porque é considerado um parâmetro
robusto, uma vez que pode ser extraído mesmo em gravações de má qualidade (Rose,
2002). Tal como se demonstrou através da teoria fonte-filtro (2.1.), a produção de sons
vocálicos envolve a vibração das cordas vocais que actuam como fonte. A frequência
fundamental é o correlato acústico da frequência de vibração das cordas vocais que é
determinada pelo tamanho das mesmas - massa e comprimento. Quanto maiores
forem as cordas vocais mais baixos são os valores de F0. As diferenças da frequência
fundamental, relacionadas com o tamanho das cordas vocais, permitem distinguir (na
maioria dos casos) a voz masculina da voz feminina pois, geralmente, as mulheres têm
as cordas vocais mais pequenas do que os homens. A frequência fundamental revela,
portanto, características específicas do falante uma vez que as dimensões das cordas
vocais variam de indivíduo para indivíduo. No entanto, os valores de F0 de um falante
não são invariáveis. São, aliás, vários factores que contribuem para as mudanças da
frequência fundamental. Vários estudos demonstram que alterações do estado
emocional provocam variações em F0. Ghiurcau et al. (2010) realizaram um estudo,
testando cinco tipos de emoções (alegria, aborrecimento, medo, raiva e neutro) e
verificaram que, à excepção do ‘aborrecimento’, todas as outras emoções se afastam
do padrão de frequência fundamental do estado neutro, manifestando um aumento
nos valores de F0. Neste sentido, sabe-se, também, que a presença de stress
psicológico influencia os valores da frequência fundamental. Apesar das dificuldades
para simular o stress psicológico em laboratório, alguns autores conseguiram induzir o
18
stress através da execução de tarefas em tempo limitado. Hecker et al. (1968; apud
Figueiredo 1994) observaram que os valores médios de F0 sobem sob a presença de
stress, embora nalguns participantes do estudo se tenha observado o efeito contrário.
Outras alterações das frequências de F0 estão relacionadas com diferenças temporais
entre duas amostras que implicam sempre variações neste parâmetro. Garrett &
Healey (1987; apud Romero, 2001) observaram que o valor médio de F0 varia ao longo
do dia (manhã, início de tarde e fim de tarde). Outros autores estudaram as variações
de F0 em intervalos de tempo maiores e os resultados convergem todos no mesmo
sentido, demonstrando que a frequência fundamental sofre alterações entre dois
pontos temporais. Segundo Romero (2001), o índice de variabilidade de F0 será tanto
maior quanto maior for a duração do intervalo temporal. Por último, factores
relacionados com a ingestão de álcool, consumo de substâncias psicotrópicas ou
estado de saúde (gripes ou depressões) podem ter um efeito considerável nas medidas
de F0. Todos estes factores, que podem, potencialmente, influenciar a frequência
fundamental, demonstram que deve haver um controlo destas variáveis quando se
comparam duas gravações. Outros parâmetros relacionados com F0 são o jitter e o
shimmer que correspondem às microperturbações da frequência (jitter) e da
amplitude (shimmer) (Figueiredo, 1994). A utilização destes parâmetros pode ser
relevante para o contexto forense, porque estas perturbações estão associadas à
qualidade de voz.
Outro parâmetro acústico frequentemente analisado no contexto forense é o padrão
formântico das vogais. Como foi descrito na teoria acústica de produção de fala (2.1.),
os formantes são o resultado de diferentes áreas de ressonância do tracto vocálico.
Teoricamente, o número de formantes é infinito (Rose, 2002) mas apenas os primeiros
são tidos em conta devido às condições em que é obtida a gravação no contexto
forense (má qualidade ou limitação da banda telefónica, por exemplo). F1 e F2 têm
uma
relação
directa
com
os
movimentos
da
língua
(avanço/recuo
e
elevação/abaixamento) e são os principais responsáveis pela qualidade da vogal, como
foi já referido no ponto 2.2. A relação de F1 e F2 com a identidade da vogal restringe,
em parte, a variação inter-falante, já que as variações de F1 e F2 só podem existir
dentro dos limites impostos pelo sistema vocálico de cada língua. Contudo, as
19
frequências de F1 e F2 das vogais fornecem informação relevante para a identificação
de falantes na medida em que os valores destes formantes denotam as tendências
articulatórias de cada indivíduo, como a retracção permanente da língua. Por outro
lado, as frequências dos formantes são determinadas pelo tamanho e pelas diferenças
nas várias secções do tracto vocálico do falante (Jessen, 2008). Para além de F1 e F2,
existem outros formantes superiores, como F3 e F4, que não têm uma acção directa na
identidade da vogal, mas estão relacionados com as características anatómicas do
tracto vocálico de cada falante. Acredita-se que os formantes superiores reflectem as
ressonâncias de cavidades relativamente fixas, como a laringe, que geralmente são
pouco afectadas pelas mudanças na configuração do tracto vocálico, aquando da
produção dos diferentes sons (Rose, 2002). O facto de os formantes superiores serem
reflectores das características específicas de cada indivíduo torna-os um parâmetro
robusto para a identificação de falantes, no entanto, como foi referido, as
circunstâncias em que são obtidas as gravações inviabilizam, muitas vezes, a sua
utilização.
2.5. Disfarce
A presença do disfarce é, sem dúvida, um dos factores que mais dificulta a tarefa do
perito forense, dado que o disfarce pode distorcer a voz e produzir uma enorme
variação dos parâmetros tais como F0, frequência dos formantes, banda formântica e
duração dos segmentos, o que afecta significativamente a identificação do falante
através dos espectrogramas. A problemática do disfarce de voz começa na sua própria
definição. Em contraste com o processo normal de produção de fala, vários factores
como estados patológicos específicos (gripes ou estado psicológico, por exemplo)
podem modificar as características gerais do tracto vocálico e as suas propriedades
acústicas e, de alguma forma, camuflar a identidade do falante. Estas situações,
embora actuem como um disfarce, não são controladas pelo indivíduo. Por disfarce
entende-se a acção deliberada de um falante que altera a sua voz, discurso ou língua
com o propósito de esconder a sua identidade. Note-se que a detecção de muitas
formas de disfarce pressupõe o conhecimento do comportamento vocal do falante
20
sem disfarce, que muitas vezes é inexistente em situações forenses (Künzel, 2000). A
título exemplificativo, Künzel (2000) imagina uma gravação desconhecida que contém
a voz de um indivíduo, cuja qualidade é extremamente nasal. Sem referências da
forma normal de fala do mesmo indivíduo, a voz da gravação pode ser entendida como
um disfarce, mas pode ser, efectivamente, a qualidade de voz do falante.
O disfarce de voz pode ser classificado em deliberado versus não-deliberado e
electrónico versus não-electrónico (Rodman, 2000). O disfarce deliberado-electrónico
corresponde à utilização de aparelhos electrónicos para alterar a voz, enquanto o nãodeliberado-electrónico inclui as distorções e alterações na voz provocadas pelas
propriedades dos canais de transmissão ou limitações da banda telefónica, por
exemplo. O disfarce não-deliberado-não-electrónico diz respeito às alterações já
comentadas anteriormente que resultam de estados involuntários, como estado
emocional, doenças, consumo de álcool ou drogas. Por fim, o disfarce deliberado-nãoelectrónico é o que se enquadra na definição de disfarce antes apresentada,
correspondente à distorção da voz através de alterações na configuração do tracto
vocálico ou na forma de fonação tal como produção de falsetes ou bloqueio das fossas
nasais. É neste último tipo de disfarce que incide o presente trabalho. Künzel (2000)
apresenta os tipos de disfarce mais frequentes no contexto forense e classifica-os em
quatro categorias distintas, segundo o aspecto em que incidem. O autor categoriza os
diferentes tipos de disfarce em: alterações de voz (levantamento e abaixamento de
pitch2, voz chiada, rouquidão artificial e voz sussurrada), características de ressonância
(objecto no tracto vocálico, ressoador adicional – ex. caneca perto da boca,
hipernasalidade e lenço à frente da boca), língua (mudança de dialecto e simulação de
um sotaque estrangeiro) e a forma de falar (redução ou exagero na variação do pitch e
mudanças no tempo de fala). A lista apresentada por Künzel não é exaustiva, mas
demonstra bem a multiplicidade de formas possíveis para camuflar a identidade de um
falante. Assim, percebe-se facilmente que muitos dos disfarces apresentados
provoquem alterações significativas nos parâmetros acústicos do sinal de fala,
nomeadamente nos valores da frequência fundamental, nas frequências dos
2
O pitch é o correlato perceptivo da frequência fundamental.
21
formantes, na banda formântica ou na duração dos segmentos, o que dificulta ou
impossibilita, muitas vezes, a identificação do falante. Por outro lado, alguns disfarces
serão mais eficazes do que outros, isto é, determinados disfarces provocarão mais
modificações no sinal acústico do que outros. Da mesma forma, certos parâmetros
acústicos podem ser afectados por um tipo de disfarce mas podem ser impermeáveis a
um outro tipo. A eficácia do disfarce está, também, relacionada com o indivíduo que o
efectua. Dito de outro modo, nem todos os falantes são igualmente aptos para
efectuar um tipo de disfarce, já que a habilidade para disfarçar a voz está dependente
do poder de manipulação dos órgãos vocais, pelo que o mesmo disfarce pode ser
eficaz para um falante e ineficaz para outro.
A literatura sobre o disfarce de voz não é muito extensa. É necessário, por um lado,
estudar as várias possibilidades de disfarce e, por outro lado, é preciso alargar a
análise aos vários parâmetros acústicos. No entanto, alguns trabalhos demonstram
que a presença do disfarce interfere nos parâmetros acústicos.
Reich et al. (1976) testaram o efeito de seis tipos de disfarce (imitação da voz de um
velho, rouquidão, hiper-nasalidade, diminuição do tempo de fala e disfarce à escolha)
na identificação de falantes através da análise espectrográfica. Os resultados
revelaram que a presença do disfarce interfere na identificação de falantes, pelo que a
taxa de correcta identificação decresce significativamente. Os autores afirmam que,
embora todos os disfarces interfiram na identificação do falante, alguns são mais
eficazes que outros. A nasalidade e a diminuição no tempo de fala foram os disfarces
menos eficazes. A justificação para a ineficácia destes disfarces prende-se com o facto
de, no caso da nasalidade, o espectro gerado durante a fonação nasal ser fortemente
dependente das características anatómicas do falante. A diminuição no tempo de fala,
apesar de aumentar a duração das vogais e das palavras, provoca poucas alterações
nas frequências dos formantes e na banda formântica. Segundo os autores, a fraca
percentagem de correcta identificação nos disfarces da imitação da voz de um velho e
rouquidão deve-se, possivelmente, às alterações da fonte laríngea.
Rose & Simmons (1996) estudaram a influência de alguns tipos de disfarce no padrão
formântico das vogais. Neste estudo, são abordados os disfarces relativos à imitação
22
de um sotaque regional, imitação da voz de um comentador político, colocação de um
lenço à frente da boca e imitação de uma voz feminina. Os autores concluem que o
primeiro e segundo formantes apresentam sempre diferenças consideráveis,
independentemente do disfarce usado. Relativamente a F3 e F4, os autores afirmam
que a existência de diferenças depende do tipo de disfarce. Na imitação do
comentador político e da voz feminina, F3 e F4 apresentaram diferenças substanciais
contudo, na colocação do lenço à frente da boca ou na imitação de um sotaque, F3 e
F4 não diferiram consideravelmente. Ainda neste artigo, os autores mencionam que o
disfarce que envolvia uma alteração no tipo de fonação (falsete) teve de ser excluído
porque não podia ser adequadamente analisado pelo computador, dado que o
formant tracker3 confundia as harmónicas com os formantes. Esta constatação é
bastante interessante uma vez que demonstra as limitações impostas pelo disfarce na
utilização de uma ‘ferramenta’ de análise para medição dos formantes.
Num outro estudo sobre o disfarce da voz, Künzel (2000) testa os efeitos de três
disfarces (aumento de F0, descida de F0 e desnasalização apertando o nariz) na
frequência fundamental. Os resultados sugerem que é possível recuperar a frequência
fundamental natural de um falante, com uma margem de erro aceitável, se o disfarce
consistir na descida de F0 ou na desnasalização. Contudo, se o disfarce envolver a
subida de F0 os dados não permitem inferir, com precisão, a frequência fundamental.
O autor observa, ainda, que houve um decréscimo no tempo de fala particularmente
nos disfarces que envolvem a subida e descida de F0. Adicionalmente, observa-se um
aumento do número e duração das pausas que pode ser explicado como consequência
da configuração inabitual dos órgãos articulatórios que exige mais concentração e
esforço na articulação por parte do falante.
Zhang & Tan (2007) estudaram o efeito de dez tipos de disfarce na performance de um
sistema automático de reconhecimento de falantes. Os disfarces testados foram o
aumento de F0, a descida de F0, a rapidez e o abrandamento de elocução, o sussurro,
a nasalidade, uma máscara à frente da boca, o uso de um bite block (lápis), um objecto
3
O formant tracker é uma ferramenta disponível em vários softwares de análise acústica da voz que
localiza, automaticamente, os formantes nos espectrogramas.
23
na boca (pastilha elástica) e um sotaque estrangeiro. Os autores concluíram que, em
comparação com a voz normal, a taxa de correcta identificação diminui
substancialmente na presença de qualquer disfarce, à excepção do sotaque
estrangeiro. Contudo, os disfarces que mais degradaram a eficiência do sistema de
reconhecimento de falantes foram a máscara à frente da boca, a subida de F0 e o
sussurro. Em segundo lugar, os disfarces relativos à pastilha elástica, descida de F0 e
nasalidade foram os que tiveram mais influência no desempenho do sistema.
Constatou-se que o sistema automático de reconhecimento de falantes é eficiente nos
restantes disfarces, uma vez que o seu efeito não é significativo. Neste estudo
demonstrou-se, ainda, que a variação inter-falante existe não só na voz normal, mas
também no disfarce. Assim, a extensão da variação inter-falante difere para cada tipo
de disfarce, já que alguns falantes estão mais aptos para determinados disfarces. Neste
sentido, os autores verificaram que um determinado disfarce não é eficaz para todos
os indivíduos.
Depois de abordadas as principais questões relacionadas com a Fonética Forense e
reunidas algumas perspectivas que servem de suporte teórico no contexto da
Identificação de Falantes, pode proceder-se à análise exploratória dos dados, a fim de
compreender a influência do disfarce na voz.
24
3. METODOLOGIA
3.0. Introdução
Neste capítulo são apresentados todos os detalhes metodológicos. Em primeiro lugar,
descreve-se o desenho experimental e propõem-se as hipóteses subjacentes a este
trabalho (3.1.); em segundo lugar, caracterizam-se os Informantes que participaram no
estudo (3.2.); de seguida, descreve-se a elaboração dos materiais utilizados (3.3.) e fazse a descrição da recolha de dados (3.4.); por último, no ponto 3.5., explica-se como
foram tratados os dados relativamente à análise espectrográfica (3.5.1) e estatística
(3.5.2).
3.1. Desenho Experimental
É indiscutível que os seres humanos são capacitados para a identificação de vozes e
que, mesmo sem visualizar o emissor de um trecho de fala, são capazes de lhe atribuir
algumas características físicas ou psicológicas (Lasse et al., 1979; Shipp & Hollien,
1969). Estes factos demonstram que, para além do seu conteúdo linguístico, um
continuum sonoro possui informação inerente ao falante nele codificada.
O Reconhecimento de Falantes assenta na premissa de que o sinal acústico produzido
por um indivíduo contém marcas específicas do mesmo que se veiculam
indirectamente no sinal de fala. A assunção de que cada falante imprime traços
individuais em qualquer produção discursiva baseia-se no facto de o sistema produtor
dos sons de fala - combinação de uma fonte de energia sonora e de filtros que moldam
o som produzido pela fonte (Fant, 1960) - estar directamente relacionado com as
características anatómicas do aparelho fonador de cada falante. Desta forma, assumese que parâmetros acústicos como a frequência fundamental (F0) ou os formantes das
vogais fornecem informação particular sobre os indivíduos, visto que dependem da
configuração fisiológica e estrutural do tracto vocálico de cada sujeito.
25
Porém, no contexto forense, são vários os casos em que o infractor utiliza estratégias
para camuflar a voz, de forma a ocultar a sua identidade e, consequentemente, não
ser reconhecido. O recurso ao disfarce da voz levanta uma questão que serviu de
ponto de partida para este estudo: será que os parâmetros acústicos são
suficientemente robustos na tarefa de reconhecimento de falantes na presença do
disfarce? Nesta linha de pensamento, colocam-se outras questões, não menos
importantes, tais como:

Os disfarces actuam todos da mesma forma?

Haverá disfarces mais eficientes do que outros?

Os vários parâmetros acústicos são igualmente afectados na presença de um
disfarce em particular?

Haverá um padrão de mudança dos parâmetros acústicos associado a cada
disfarce?

Serão alguns parâmetros mais robustos do que outros?
No decurso da investigação surgiram, ainda, outras questões que importa averiguar:

Será que o factor falante tem alguma influência na execução do disfarce?

Serão todas as vogais igualmente permeáveis ao disfarce?
O principal objectivo deste trabalho é, portanto, estudar a influência do disfarce nos
seguintes parâmetros acústicos: F0, F1, F2, F3 e F4. Partindo da análise dos referidos
parâmetros nas vogais [u], [o], [ɔ], [i], [e], [ɛ] e [a] produzidas em diferentes
condições, pretende-se, num primeiro momento dedicado à análise da Voz Normal, (i)
descrever os vários parâmetros acústicos, abordando a variação intra e inter-falante; e
(ii) verificar a eficiência de cada parâmetro na distinção entre falantes. Na segunda
parte da análise, procura-se (iii) averiguar se os disfarces causam alterações nos vários
parâmetros acústicos, através da comparação dos dados da Voz Normal com os dados
dos disfarces testados; (iv) verificar se os diferentes disfarces produzem todos o
mesmo efeito nos parâmetros acústicos; (v) aferir se todos os parâmetros são,
igualmente, afectados por cada disfarce; (vi) apurar se existem parâmetros resistentes
ao disfarce; (vii) observar se o efeito do disfarce é homogéneo entre as vogais; (viii)
26
constatar se o factor falante tem alguma influência na performance do disfarce; e (ix)
observar as alterações produzidas pelo(s) disfarce(s) nos triângulos vocálicos.
Antes de descrever o procedimento metodológico, são apresentadas as hipóteses
subjacentes a este estudo, considerando os objectivos anteriormente descritos e
tendo em vista os resultados de trabalhos anteriores (secção 2.5.).
Hipótese 1:
A presença do disfarce interfere sempre nos parâmetros
acústicos, embora determinados disfarces provoquem mais
modificações no sinal acústico do que outros (Reich et al., 1976).
Hipótese 2:
A influência de um tipo de disfarce não é homogénea entre os
diversos parâmetros acústicos (Rose & Simmons, 1996; Künzel,
2000).
Hipótese 3:
Cada parâmetro acústico não é igualmente afectado pelos vários
disfarces (Künzel, 2000), pelo que o mesmo parâmetro pode ser
alterado por um tipo de disfarce mas ser impermeável a outro
(Rose & Simmons, 1996).
3.2. Informantes
A amostra formada para as gravações é constituída por oito pessoas, quatro do sexo
masculino e quatro do sexo feminino, inseridas na faixa etária dos 20-25 anos. Todos
os Informantes são falantes da variedade standard do Português Europeu e naturais da
zona de Lisboa. No que diz respeito à formação académica, apenas dois Informantes
possuem conhecimentos linguísticos, pois frequentam o 1º ano do curso de Línguas,
Literaturas e Culturas. Os restantes Informantes são formados em áreas diversas,
distintas da Linguística, pelo que não detêm nenhum tipo de conhecimento linguístico
específico.
27
3.3. Materiais – Corpus
O corpus utilizado é composto por 28 frases (vide Anexo 6). A elaboração do mesmo foi
feita com base nalguns critérios específicos, na tentativa de ser o mais uniforme
possível.
Em primeiro lugar, escolheram-se para a análise todas as vogais orais tónicas do
Português Europeu ( [u], [o], [ɔ], [i], [e], [ɛ] e [a] ) com excepção da vogal [ɐ]. Esta não
foi tida em consideração, uma vez que, devido às suas restrições fonológicas, não
ocorre em todos os contextos segmentais. Posteriormente, foram seleccionadas
palavras com três sílabas que contivessem cada uma das vogais mencionadas em
sílaba tónica intermédia. A escolha da sílaba tónica foi motivada pelo facto de,
geralmente, ser esta a sílaba com maior duração e com mais energia, propiciando uma
maior estabilidade, já que a quantidade de informação disponível é maior (mais
duração) e os formantes das vogais são mais visíveis (mais energia).
Em segundo lugar, foi tido em conta o contorno fonético das vogais relativamente à
consoante que ocupa a posição de ataque na sílaba tónica. Assim, foram escolhidas
quatro consoantes orais vozeadas com base no modo de articulação: duas fricativas
([z] e [v]) e duas oclusivas ([b] e [d]). No que diz respeito ao ponto de articulação, os
segmentos seleccionados classificam-se em consoantes dentais ([d] e [z]), bilabial ([b])
e labiodental ([v]). Importa referir que a selecção destas consoantes em particular não
obedeceu a nenhum critério específico, visto que o foco deste trabalho não incide na
influência exercida por cada consoante nos segmentos vocálicos. Estas foram
escolhidas com o intuito homogeneizar o efeito da coarticulação progressiva e de
modo a contextualizar as vogais a analisar.
Por último, todas as palavras foram integradas na frase Eu digo …, Paulo., de forma a
manter o mesmo ritmo e intensidade em todas as frases. Optou-se por manter o
mesmo contorno prosódico a fim de evitar variações entoacionais que poderiam ter
influência nos parâmetros acústicos analisados.
28
3.4. Recolha dos Dados
3.4.1. Requisitos éticos
Todos os Informantes leram a Declaração de Objectivos (vide Anexo 7) e assinaram o
Termo de Aceitação (vide Anexo 8), expressando o consentimento na utilização dos
dados nos termos descritos no documento.
3.4.2. Gravações
A recolha dos dados foi feita através de gravações de voz realizadas no Laboratório de
Fala do Centro de Linguística da Universidade de Lisboa, uma vez que este dispõe de
uma sala com tratamento acústico próprio - sem eco ou ruído. Este ambiente de
gravação, embora artificial, foi escolhido no sentido de se obter uma boa qualidade do
sinal e sem interferências de qualquer tipo. Foi utilizado um gravador Marantz PMD
670 e um microfone Sennheiser ME 62 com bandolete de suporte (tipo auricular) que
permite manter sempre a mesma distância entre a boca e o microfone para todos os
Informantes. As gravações foram efectuadas com uma frequência de amostragem de
44100Hz, 16-bit, Mono.
Todos os Informantes foram gravados em sessões individuais. As frases que
constituem o corpus surgiram num monitor, frente ao qual os Informantes ficaram
sentados. A passagem das frases foi feita pela investigadora de modo a poder
controlar a eventual necessidade de repetição de leitura.
Cada Informante leu o conjunto de 28 frases (ver ponto 3.3.) sob cinco condições
diferentes:
1 - Voz normal (VN);
2 - Subida de F0 (D1);
3 - Descida de F0 (D2);
4 - Máscara (D3);
5 - Palhinha (D4).
29
No decurso da análise dos dados, cada condição será referida como VN, D1, D2, D3 e
D4. Os disfarces mencionados foram escolhidos tendo em vista o tipo de influência
provocado por cada um. D1 e D2 têm uma acção directa na manipulação da fonte
sonora (cordas vocais); D3 e D4 incidem nos filtros do tracto vocálico, já que D3
funciona como um filtro adicional e D4 actua como limitador da acção do filtro. VN
actua como uma condição neutra, servindo como condição de controlo.
Antes de cada sessão, foram dadas instruções ao Informante sobre a forma de
produção das frases pretendida em cada Condição. Foi, também, explicado aos
Informantes que o tema do presente trabalho era o disfarce da voz. Assim, durante a
execução da tarefa, nas Condições 2 e 3, solicitou-se aos Informantes que imaginassem
uma situação fictícia de um telefonema anónimo em que tinham de disfarçar a voz,
segundo as instruções fornecidas, para não serem reconhecidos. Na Condição 1, foi
pedido aos Informantes que produzissem as frases de forma mais natural possível,
usando o seu modo de falar normal e a sua qualidade vocal. Na Condição 2, pediu-se
aos Informantes que produzissem as frases com uma voz aguda. Na Condição 3,
solicitou-se a produção das frases com uma voz grave. Na Condição 4, foi pedido aos
Informantes que produzissem as frases de forma natural com uma máscara à frente da
boca. Finalmente, na Condição 5, pediu-se aos Informantes que produzissem as frases
de forma natural com uma palhinha colocada horizontalmente entre os dentes
incisivos.
3.5. Tratamento dos Dados
3.5.1. Análise Espectrográfica
Os ficheiros foram segmentados e convertidos para uma frequência de amostragem de
11025Hz através do programa Adobe Audition, versão 3.0. Procedeu-se à redução da
frequência de amostragem para 11025Hz, que corresponde à visualização de
frequências entre os 0 e 5500Hz no espectrograma produzido pela SpeechStation –
programa usado na medição dos formantes - para que a medição das frequências dos
formantes fosse feita de forma mais precisa, uma vez que com uma frequência de
30
amostragem de 44100Hz o espectro encontra-se mais comprimido, dificultando a
localização dos formantes a medir. Deve salientar-se que a redução da frequência de
amostragem não acarreta consequências nos parâmetros acústicos.
O valor de F0 das vogais foi extraído, automaticamente, através do programa Praat,
versão 5.1.23. Para a medição das frequências dos formantes das vogais utilizou-se o
programa SpeechStation2.
Os formantes foram medidos através da técnica de Linear Predictive Coding (LPC), em
banda estreita (512 pontos), order 12 nas Condições 1, 3, 4 e 5 e order 10 na Condição
2. A medição dos formantes foi feita no núcleo vocálico, pois este é o ponto mais
estável do segmento (Figura 3). Foi escolhida a técnica de análise espectral LPC, em
detrimento da Fast Fourier Transform (FFT), dado que representa a combinação da
forma espectral da fonte glotal e a forma espectral imposta pelo tracto vocálico, sendo
assim mais apropriada para a medição dos formantes4. Através da técnica de autocorrelação para encontrar as frequências dos componentes proeminentes, a LPC
apresenta a forma global do espectro, independentemente das frequências específicas
das harmónicas, fornecendo uma representação precisa dos filtros do tracto vocálico.
Optou-se por fazer a análise em banda estreita porque esta fornece informação
frequencial mais detalhada sobre os formantes, ao contrário da banda larga que
destaca a informação temporal sobre cada impulso glotal. Por fim, foi necessário medir
os formantes das vogais produzidas na Condição 2 em order 10, pois em order 12 não
era possível identificar correctamente os formantes, já que eram, também, visíveis as
harmónicas. Importa, ainda, referir que nalguns casos não foi possível medir o valor de
F3 e F4, pois os formantes não eram legíveis.
Figura 3 - Localização da medição de F2 da vogal [ɛ] em VN, na frase Eu digo cadela, Paulo.
4
Deve referir-se que a LPC é considerada uma boa técnica de análise de fala, com resultados precisos,
desde que não se incluam segmentos nasais.
31
3.5.2. Análise Estatística
Os dados obtidos foram analisados através do programa de estatística SPSS 18. A
análise estatística efectuada assentou na aplicação de dois testes paramétricos: teste
t-student para comparação de médias e teste ANOVA para análise da variância. Antes
de se efectuar qualquer um dos testes, verificou-se se os dados em análise satisfazem
os requisitos impostos por estes testes. O primeiro requisito é cumprido, já que a
variável dependente (F0 e formantes) é sempre quantitativa; observou-se, através dos
testes Kolmogorov-Smirnov e Shapiro-Wilk, se a distribuição da variável dependente
(F0 e formantes) segue a normalidade; e, por último, confirmou-se a homogeneidade
de variância através do teste de Levene. Nalguns casos, as variáveis dependentes
representam
distribuições
afastadas
da
normalidade
ou
não
se
verifica
homogeneidade da variância devido, em parte, ao reduzido tamanho da amostra e à
variabilidade dos parâmetros entre os Informantes. Nas situações em que uma das
condições não é cumprida, realizou-se o teste não-paramétrico Kruskal-Wallis para
confirmar ou rejeitar o resultado dos testes paramétricos.
Como os testes referidos anteriormente (t-student e ANOVA) são testes de hipóteses,
implicam a existência de uma hipótese nula (H0) e de uma hipótese alternativa (Ha).
Designa-se por hipótese nula a hipótese da não diferença, a que é sujeita ao teste, por
oposição à hipótese alternativa que é a hipótese da diferença (Martinez & Ferreira,
2008). A rejeição ou aceitação da hipótese nula é feita em função do nível de
significância estabelecido, a que é directamente comparável uma probabilidade de
significância (p-value). Se o p-value for inferior ao nível de significância, então rejeitase a hipótese nula, caso contrário não existe evidência estatística para o fazer
(Martinez & Ferreira, 2008).
Neste trabalho, considerou-se que se rejeita a hipótese nula a partir de um valor de
significância de p < 0,05.
32
4. ANÁLISE E DISCUSSÃO DOS DADOS
4.0. Introdução
Este capítulo está dividido em duas secções, correspondentes à descrição dos dados da
voz normal (4.1.) e à comparação da voz normal com os disfarces (4.2.).
Na primeira parte (4.1.), faz-se a caracterização da voz normal, abordando, num
primeiro momento, a variação intra e inter-falante através da descrição dos triângulos
vocálicos (4.1.1.); posteriormente, descrevem-se os dados relativos à frequência
fundamental (4.1.2.) e aos formantes (4.1.3.); partindo dos dois últimos pontos,
verifica-se a eficácia de cada parâmetro na distinção de falantes (4.1.4.); e, por último,
analisa-se a relação entre as variáveis informante e vogais, de forma a testar a
influência do factor informante nas frequências das vogais (4.1.5.).
Na segunda parte (4.2.), faz-se a comparação dos parâmetros acústicos da voz normal
com os dos disfarces, com o intuito de constatar as alterações provocadas pelo(s)
disfarce(s) nos vários parâmetros (4.2.1.); testa-se a interacção entre disfarce e
informante (4.2.2.); verifica-se a influência do(s) disfarce(s) nas vogais (4.2.3.); por fim,
apresentam-se os triângulos vocálicos relativos a cada disfarce, no sentido de se
averiguar as modificações dos mesmos, comparativamente aos triângulos vocálicos da
voz normal (4.2.4.).
4.1. Voz normal
4.1.1. Triângulos vocálicos: variação intra e inter-falante
A partir das frequências de F1 e F2 das vogais estudadas, foi construído o triângulo
vocálico de cada Informante (Figuras 4 a 11). Os vários pontos que o constituem
resultam da conjugação das frequências de F1 em ordenada e de F2 em abcissa. Em
cada triângulo estão representadas as sete vogais em análise ( [u], [o], [ɔ], [i], [e], [ɛ] e
[a] ), apresentadas com cores distintas para a melhor visualização dos dados.
33
Figura 4 - Triângulo vocálico do Informante 1.
Figura 5 - Triângulo vocálico do Informante 2.
Figura 6 - Triângulo vocálico do Informante 3.
Figura 7 - Triângulo vocálico do Informante 4.
Figura 8 - Triângulo vocálico do Informante 5.
Figura 9 - Triângulo vocálico do Informante 6.
34
Figura 10 - Triângulo vocálico do Informante 7.
Figura 11 - Triângulo vocálico do Informante 8.
Legenda:
[i]
[e]
[ɛ]
[a]
[ɔ]
[o]
[u]
A observação dos vários triângulos vocálicos permite verificar que cada vogal não
corresponde a um ponto único, mas antes a uma área de localização. A dispersão dos
valores das vogais é consequência de diversos factores entre os quais se destacam,
para o presente estudo, o factor individual e o contexto fonético. Desta forma, a
variação das frequências dos segmentos está relacionada com o fenómeno da
coarticulação, isto é, a existência de quatro pontos distintos para cada vogal é, não
exclusivamente, o resultado da produção da mesma vogal em contextos fonéticos
diferentes. Por outro lado, a variação intra-falante desempenha, também, um papel
importante na variação dos valores de F1 e F2 de cada segmento, pois a extensão da
variabilidade das frequências das vogais depende de cada falante. Se se observarem, a
título exemplificativo, os pontos correspondentes às vogais [u], [i] e [a], verifica-se que
a disposição dos mesmos é distinta entre os indivíduos. Constate-se que os pontos
relativos à vogal [i] do Informante 3 (Figura 6) estão muito concentrados, formando
quase um ponto único, ao passo que no Informante 4 (Figura 7) os pontos estão mais
dispersos; a distribuição da vogal [a] nos Informantes 5 e 8 (Figuras 8 e 11) é variável,
quase exclusivamente, ao nível de F2, visto que os pontos apresentam
aproximadamente os mesmos valores no plano de F1; pelo contrário, as frequências
desta vogal variam tanto em F1 como em F2 no Informante 7 (Figura 10); a distribuição
dos valores da vogal [u] é mais uniforme no Informante 1 (Figura 4) do que no
35
Informante 2 (Figura 5). Assim, a inexistência de valores invariáveis deve-se não só à
influência dos segmentos adjacentes à vogal, mas também à variação intra-falante,
caso contrário a variação das frequências de um mesmo segmento seria igual em todos
os Informantes.
Por outro lado, a distribuição das vogais no espaço acústico não é semelhante entre os
Informantes. As diferentes configurações dos triângulos vocálicos, produto das
diferenças entre os falantes relativamente às frequências de F1 e F2 das vogais, são o
reflexo das características anatómicas do tracto vocálico de cada indivíduo e, ainda,
das tendências articulatórias adopta quando fala. Neste sentido, o triângulo vocálico
fornece pistas importantes para a identificação de falantes, uma vez que permite
apontar marcas específicas dos indivíduos, relacionadas com a localização das vogais, a
faixa de variação de F1 e F2, a dimensão do polígono, as distâncias acústicas, a
organização dos segmentos ou a própria localização do triângulo no espaço acústico.
Observe-se, assim, que no Informante 1 (Figura 4), existe uma separação demarcada
entre as vogais anteriores e os restantes segmentos e que os valores de F1 e F2 das
vogais anteriores média e baixa são muito próximos. No Informante 2 (Figura 5), a
proximidade das vogais posteriores alta e média forma um cluster, que se encontra
ligeiramente afastado do continuum gerado pela localização dos outros segmentos. O
triângulo vocálico do Informante 3 (Figura 6) é bastante compacto, uma vez que as
distâncias acústicas entre as vogais são pouco demarcadas. Relativamente ao
Informante 4 (Figura 7), a proximidade das vogais central e posteriores forma um
continuum separado das vogais anteriores, cujas distâncias acústicas são mais
acentuadas. O Informante 5 (Figura 8) e o Informante 6 (Figura 9) apresentam
triângulos vocálicos semelhantes do ponto de vista da sua configuração, assim como
no que diz respeito à divisão, não muito acentuada, entre as vogais anteriores e as
restantes. Contudo, os dois indivíduos apresentam alguns traços distintos, visto que o
polígono do Informante 5 é mais expandido, as distâncias acústicas entre os
segmentos são superiores às do Informante 6, bem como a extensão da variação intrafalante. A disposição dos valores de F1 e F2 das vogais do Informante 7 (Figura 10) dá
origem a uma configuração específica do triângulo acústico. A distribuição das vogais
anteriores é bastante coesa, na medida em que as distâncias acústicas são reduzidas;
36
as vogais posteriores alta e média estão dispostas de forma circular, o que constitui
uma característica deste falante; as vogais central e posterior baixa formam um pólo
afastado dos outros segmentos, que dá origem à organização dos segmentos em três
grupos: vogais anteriores, vogais central/posterior baixa e vogais posteriores
média/alta. Por último, as distâncias entre os segmentos são relativamente uniformes
no Informante 8 (Figura 11), embora haja uma proximidade acentuada entre as vogais
posteriores alta e média.
Tomando como referência as vogais correspondentes aos extremos de constrição do
tracto vocálico, que equivalem aos ‘vértices’ do polígono ( [u], [a] e [i] ), é possível
estimar a faixa de variação de F1 e F2 de cada indivíduo. O intervalo entre as vogais [i]
e [u] corresponde, respectivamente, ao valor mínimo e máximo de F2 e a distância
entre as vogais [i]/[u] e [a] está relacionada com o valor mínimo e máximo,
respectivamente, de F1. Desta forma, a gama de variação de F1 e F2 é proporcional às
distâncias entre os vértices do triângulo acústico, pelo que quanto menor for a
distância entre si, menor será a faixa de variação desse parâmetro (F1 ou F2). Quer isto
dizer que os polígonos com dimensões reduzidas têm também uma faixa de variação
de F1 e F2 reduzida. A observação dos vários triângulos vocálicos permite verificar que
a faixa de variação de F1 e F2 não é homogénea entre os indivíduos. Constate-se, por
exemplo, que entre os Informantes 2 e 3, a variação de F1 e de F2 é superior no
Informante 2, ou que entre os Informantes 4 e 6, a gama de variação de F2 é
claramente maior no Informante 4, apesar da faixa de variação de F1 ser próxima entre
os dois falantes.
No que diz respeito à dimensão dos triângulos vocálicos, comprova-se que esta é
menor nos Informantes 3, 5, 6 e 8 do que nos restantes. Consequentemente, a gama
de variação de F1 e F2 é menor nestes indivíduos do que nos Informantes 1, 2, 4 e 7.
Por outro lado, a localização do triângulo no espaço acústico também não é
semelhante entre os dois grupos. Os polígonos das Figuras 6, 8, 9 e 11 situam-se,
tendencialmente, na zona superior direita, resultado dos valores relativamente baixos
37
dos dois primeiros formantes, ao contrário dos das Figuras 4, 5, 7 e 10 que são mais
expandidos, tanto no plano de F1 como de F2.
A divisão entre os Informantes 3, 5, 6, 8 e Informantes 1, 2, 4 e 7, motivada pelas
diferenças na dimensão e localização dos triângulos, está relacionada com o sexo dos
indivíduos, já que ao primeiro grupo pertencem todos os Informantes do sexo
masculino e ao segundo correspondem os Informantes do sexo feminino. As diferenças
verificadas entre os dois géneros estão associadas, não exclusivamente, ao tamanho
do tracto vocálico, pois quanto maior for o comprimento do mesmo, menores serão as
frequências das vogais. Uma vez que o tracto vocálico masculino é, geralmente, maior
do que o feminino, é natural que os triângulos vocálicos dos Informantes do sexo
masculino apresentem dimensões mais reduzidas do que os do sexo feminino,
consequência dos baixos valores dos formantes.
Desta forma, a variação inter-falante é mais um factor que justifica a inexistência de
valores invariáveis de F1 e F2 para as vogais. Existem, pelo contrário, zonas de
incidência para cada segmento que os distingue entre si. Neste sentido, confrontando
os vários triângulos vocálicos, verifica-se que cada vogal ocupa sempre a mesma
posição relativamente à forma do triângulo. Ou seja, a área de cada vogal pode diferir
de falante para falante no espaço acústico, bem como a distância acústica entre as
vogais, mas a sua posição relativa é igual em todos os Informantes. Importa ainda
esclarecer que, apesar de as frequências das vogais diferirem consoante os indivíduos,
a variação só existe dentro de determinados limites, caso contrário a vogal perderia as
suas características acústicas, e consequentemente a sua identidade, deixando de ser
entendida como tal.
A análise efectuada centrou-se, primordialmente, na descrição da variação intra e
inter-falante, relativamente a F1 e F2, através da visualização dos triângulos vocálicos.
Porém, é necessário, por um lado, fazer uma descrição mais aprofundada do que a
análise visual e, por outro lado, é preciso estender a análise aos outros parâmetros.
Dado que para o modelo forense é a informação particular de cada falante que é
relevante, permitindo distinguir os indivíduos entre si, de agora em diante, a análise
centrar-se-á exclusivamente na variação inter-falante.
38
4.1.2. Frequência fundamental (F0)
O gráfico da Figura 12 reúne os valores médios da frequência fundamental de cada
Informante, possibilitando visualizar as diferenças de F0 entre os falantes. Pode
observar-se que o Informante 5 é o que apresenta o valor mais baixo de F0 (94Hz) e
que o valor mais elevado (212Hz) pertence ao Informante 2, o que demonstra que a
frequência fundamental oscila entre 94Hz e 212Hz entre os indivíduos.
Figura 12 - Valores médios da frequência fundamental de cada Informante.
À excepção dos Informantes 3, 5 e 8, que apresentam valores próximos de F0 em torno
dos 100Hz, os valores médios da frequência fundamental são bastante diversos nos
restantes falantes. No entanto, pode constatar-se que há uma clara separação entre os
Informantes que origina dois grupos distintos: num grupo, a média de F0 situa-se entre
os 160Hz e 212Hz (Informantes 1, 2, 4 e 7) e, no outro grupo, a média localiza-se entre
os 94Hz e 124Hz (Informantes 3, 5, 6 e 8). Tal como foi mencionado anteriormente, a
divisão em dois conjuntos é motivada pelo contraste de género, já que ao primeiro
correspondem todos os Informantes do sexo feminino e, no segundo conjunto, estão
incluídos os Informantes do sexo masculino, sendo que a média de F0 de cada grupo é
de 186Hz e 103Hz, respectivamente. Verifica-se, portanto, que a frequência
fundamental é um parâmetro relevante na distinção de indivíduos de sexos opostos,
visto que o valor médio de F0 de cada sexo é consideravelmente diferente.
39
Para averiguar se a frequência fundamental é um parâmetro proeminente na distinção
de falantes, independentemente do sexo, realizou-se um teste t-student que compara
os valores de F0 de cada par possível de Informantes. Na Tabela 2 são apresentados os
resultados do teste para cada par testado, através do valor de t e do valor de
significância (p).
Tabela 2 - Resultados do teste t-student na comparação dos valores de F0 entre os Informantes.
Informante
t
1
p
2
3
4
5
6
7
8
1
-
2
-17,9
3
4
5
6
49,111 -13,32 63,667 27,84
-
0,000
-
0,000 0,000 0,000 0,000 0,000 0,000
38,22 11,219 40,082 27,442 8,989 38,869
-
-
0,000
-
-
-
-
-
-
-
-
0,000
-
0,000
-20,28
0,002
-67,8
-
-
-
-
-
0,000
-
0,000 0,002
-34,62 28,714
p
t
p
t
-
-
-
-
-
-
0,000 0,000
60,129
-
-
-
-
-
-
-
0,000
-
p
-
-
-
-
-
-
-
-
t
p
t
p
t
p
t
p
t
0,000
-53,83
0,000
1,766
0,000
-22,97
7
-15,5
0,000
-63,2
8
48,926
0,000
-2,521
0,000 0,089 0,000 0,000 0,018
52,958 38,448 -3,429 61,036
0,000
-3,514
Os resultados indicam que, à excepção do par 3-5 (células marcadas a cinzento), todos
os pares testados são distintos entre si (p < 0,05). Dito de outro modo, o valor de F0 de
cada indivíduo difere significativamente quando comparado com outro falante. Apesar
de os sujeitos serem estatisticamente divergentes em relação a F0, o valor da
diferença não é igual em todos os pares. Ou seja, ainda que os falantes sejam distintos
entre si, o grau da diferença não é idêntico para todos os Informantes. Observe-se, a
título exemplificativo, que o valor de significância é igual (p < 0,000) em todos os pares
que contrastam o Informante 1 com os outros indivíduos. Todavia o valor de t varia
consoante o par de comparação. Assim, as diferenças são mais acentuadas no par 1-5
(t = 63,67) do que no par 1-4 (t = -13,32), por exemplo. Quer isto dizer que o
40
Informante 1 está mais próximo do Informante 4 do que do Informante 5 em relação
ao valor médio de F0, tal como se pode observar no gráfico da Figura 12. A diferença
do valor de t entre os dois pares assinalados é, maioritariamente, definida pelo sexo
dos Informantes: no par 1-4, os indivíduos são ambos do sexo feminino, ao passo que
o par 1-5 é composto por Informantes do sexo masculino e feminino. Neste sentido,
pode observar-se que os pares que apresentam resultados mais significativos, isto é,
valores mais elevados de t, são os pares constituídos por Informantes de sexos
opostos, já que os valores médios de F0 do sexo masculino e do feminino são
claramente distintos (Figura 12). Ainda assim, as diferenças de F0 também são
expressivas entre falantes do mesmo sexo, dado que, exceptuando um par, os
resultados do teste são estatisticamente significativos para todos os pares testados,
pelo que se pode afirmar que F0 é um parâmetro eficaz na distinção de falantes.
4.1.3. Formantes
No sentido do que se observou a partir dos triângulos vocálicos (ponto 4.1.1.), e tal
como sucede com a frequência fundamental, os valores dos formantes variam de
acordo com o falante. Na Figura 13 são apresentados os valores médios de F1, F2, F3 e
F4 de cada Informante, de forma a poder visualizar as diferenças entre si no conjunto
dos formantes.
Figura 13 - Valores médios de F1, F2, F3 e F4 de cada Informante.
41
O gráfico demonstra que as frequências dos formantes não são uniformes entre os
indivíduos. Constata-se que os valores mais baixos de qualquer um dos formantes
dizem respeito aos falantes do sexo masculino (Informantes 3, 5, 6 e 8) e que os
valores mais elevados correspondem aos sujeitos do sexo feminino (Informantes 1, 2,
4 e 7). O facto de os valores de F1, F2, F3 e F4 serem sempre mais baixos no sexo
masculino do que no feminino evidencia a relação existente entre a dimensão
(comprimento) do tracto vocálico e as frequências dos formantes. Assim, tal como F0,
os valores dos formantes permitem distinguir indivíduos de sexos opostos. Por outro
lado, a variabilidade entre os Informantes não é semelhante nos quatro parâmetros
acústicos (F1, F2, F3 e F4). A variação inter-falante verifica-se em todos os formantes,
mas quanto mais elevado for o formante, maior variabilidade existe entre os sujeitos,
já que a variação aumenta à medida que os valores são mais altos. Constate-se que as
frequências de F1 são muito próximas entre os indivíduos, porém os valores de F2 são
mais distintos entre os falantes, uma vez que há um aumento nas distâncias das
frequências. A diferença nos valores dos formantes é ainda mais notória em F3, pois a
separação entre os indivíduos é ampliada, verificando-se que as distâncias entre os
falantes variam numa extensão de 500Hz. Ainda assim, é em F4 que se registam as
maiores diferenças entre os indivíduos, visto que a dimensão da variabilidade deste
formante é superior aos restantes. Observe-se que a distância entre os Informantes 2 e
3, por exemplo, é de 250Hz em F3, mas que em F4 aumenta para 700Hz. Assim, as
diferenças entre os indivíduos são mais acentuadas em F3 e F4, ao contrário de F1 e
F2, cujos valores não são tão díspares. Desta forma, pode afirmar-se que a variação
inter-falante é mais elevada nos formantes altos (F3 e F4) do que em F1 e F2.
4.1.4. Eficácia dos parâmetros acústicos na distinção de falantes
No sentido de se verificar a eficácia de cada parâmetro na distinção de falantes, foi
realizado um teste de análise da variância (ANOVA), cujos resultados são apresentados
na Tabela 3. O valor de F juntamente com o valor de significância (p) demonstram a
eficiência de cada variável na discriminação de sujeitos. Quanto mais elevado for o
valor de F, mais variação do parâmetro existe entre os Informantes.
42
Tabela 3 - Resultado do teste de análise de variância (ANOVA).
Variável
F
Sig.
f0
456,422
0,000
f1
0,652
0,711
f2
0,638
0,722
f3
33,673
0,000
f4
37,914
0,000
Os baixos valores de F para F1 e F2, assim como os valores de significância (0,711 e
0,722), demonstram que estes dois parâmetros não variam muito entre os
Informantes, pelo que não são estatisticamente significativos para a discriminação de
falantes. Contudo, importa referir que F1 e F2 não são significantes, apenas, quando
analisados individualmente, pois a conjugação de ambos demonstra ser um parâmetro
relevante na distinção entre indivíduos, como se verificou na análise dos triângulos
vocálicos (ponto 4.1.1.). Em contrapartida, F3 e F4 apresentam valores elevados de F.
Quer isto dizer que estes parâmetros diferem consideravelmente entre os falantes,
sendo, por isso, eficientes na discriminação de indivíduos. No que diz respeito a F0, o
resultado do teste ANOVA indica que este é o parâmetro que apresenta a maior
variação inter-falante, como se pode observar através do valor de F (456,422) e de
significância (0,000). Porém, estes resultados podem estar relacionados com o facto de
o teste ter sido realizado sem fazer separação entre os Informantes do sexo masculino
e feminino. Recorde-se que, tal como se verificou através do gráfico da Figura 10,
existe uma diferença acentuada nos valores da frequência fundamental de indivíduos
de sexos opostos. Assim, é necessário testar a variável F0 em função do sexo dos
Informantes, de forma a perceber se o resultado obtido está relacionado com a
diferença de género ou se, pelo contrário, F0 continua a ser um parâmetro relevante
para a discriminação de falantes. Os resultados do teste da análise de variância
(ANOVA) para cada género são apresentados na Tabela 4. Adicionalmente, foram
testadas todas as outras variáveis (F1, F2, F3 e F4) em função do sexo do Informante.
43
Tabela 4 - Resultado do teste da análise de variância (ANOVA) para cada género.
Variável
f0
f1
f2
f3
f4
F
Sig.
feminino
46,11
0,000
masculino
188,51
0,000
feminino
0,281
0,839
masculino
0,047
0,986
feminino
0,006
0,999
masculino
0,069
0,976
feminino
8,545
0,000
masculino
3,777
0,024
feminino
4,813
0,009
masculino
0,843
0,484
À excepção de F4 para o sexo masculino, os resultados do teste em função do género
dos Informantes mantêm-se idênticos aos do primeiro teste ANOVA (Tabela 3). Deste
modo, verifica-se que F0 continua a ser um parâmetro eficaz na discriminação de
falantes do mesmo sexo, no sentido do que apontam os resultados obtidos com o
teste t-student (Tabela 2). À semelhança do anterior teste ANOVA, F1 e F2 não são
suficientemente distintos entre os indivíduos, tal como seria esperado. Da mesma
forma, F3 e F4 para o sexo feminino mantêm resultados que ilustram a variação interfalante. No entanto, F4 revela-se não significante para a distinção dos indivíduos do
sexo masculino, como se pode constatar através do valor de F (0,843) e de significância
(0,484). Por último, os valores de F de F0, tanto para o sexo masculino como para o
feminino, continuam a ser os mais elevados de todas as variáveis, revelando que, no
conjunto dos parâmetros testados, este é o mais robusto para a distinção de falantes.
4.1.5. Informante versus Vogais
Nos gráficos das Figuras 14 a 17 são apresentados os valores médios de F1, F2, F3 e F4
de cada vogal e para cada Informante. Pode observar-se que os valores dos formantes
das vogais variam consideravelmente consoante o falante, tal como se verificou no
ponto 4.1.3.. A representação das frequências de cada vogal por formante e falante
demonstra a existência da interacção Informante versus Vogal. Caso não existisse
44
nenhuma relação entre as variáveis apontadas, as linhas correspondentes a cada vogal
seriam paralelas.
Figura 14 – Média de F1 por vogal, para cada Informante.
Figura 15 - Média de F2 por vogal, para cada Informante.
45
Figura 16 - Média de F3 por vogal, para cada Informante.
Figura 17 - Média de F4 por vogal, para cada Informante.
A comparação dos gráficos permite verificar que a distribuição das linhas
correspondentes a cada vogal não é semelhante nos quatro formantes. Em relação a
F1 e F2 (Figuras 14 e 15), as linhas estão relativamente separadas entre si, o que
demonstra que os valores destes formantes variam de acordo com a vogal. Desta
forma, F1 e F2 determinam o espaço acústico de cada vogal, sendo, portanto, os
formantes responsáveis pela qualidade da vogal. Por outro lado, nos gráficos
correspondentes a F3 e F4 (Figuras 16 e 17), as linhas que representam as vogais estão
praticamente todas sobrepostas, tornando difícil a localização de uma vogal em
particular. Assim, F3 e F4 não são preponderantes para a identificação da vogal, ao
contrário de F1 e F2, mas estão relacionados com as características individuais de cada
46
falante. Note-se que, apesar de as linhas estarem sobrepostas, estas não são rectas, o
que indicaria a inexistência de variação inter-falante. Neste sentido, os valores de F3 e
F4 das várias vogais tendem a ser muito próximos em cada indivíduo, embora a
concentração das vogais seja maior nalguns Informantes do que noutros. Os diferentes
picos, formados pela concentração dos valores das vogais, demonstram a variação
entre os falantes, pois a localização dessas áreas de concentração é diferente para
cada sujeito, ainda que os Informantes 5 e 6 apresentem uma distribuição próxima.
Constata-se, ainda, que a tendência para uma certa uniformização dos valores das
vogais é superior em F4 (Figura 17), o que sugere que quanto mais elevado for o
formante menos divergente será o valor do mesmo.
A análise dos gráficos anteriores (Figuras 14 a 17) complementa os resultados obtidos
no teste ANOVA (Figura 5). Justifica-se, assim, o facto de F1 e F2 não serem
significantes na distinção de falantes, dado que estes são os formantes responsáveis
pela determinação da identidade da vogal, pelo que a variação entre os indivíduos
nunca pode ser em grande escala. Pelo contrário, F3 e F4 demonstram ser pouco
variáveis em função da vogal, de forma que a significância destes parâmetros para a
discriminação de sujeitos está relacionada com as diferenças anatómicas do tracto
vocálico dos indivíduos.
4.2. Disfarce – variação dos parâmetros acústicos
4.2.1. Voz Normal versus Disfarce(s)
Nesta secção, pretende-se averiguar se a presença dos disfarces estudados acarreta
alterações nos parâmetros acústicos. Para o efeito, realizou-se um teste de análise de
variância ANOVA, cujos resultados são apresentados na Tabela 5, que integra todos os
Informantes e todas as condições de produção (voz normal e disfarces). Este teste é o
ponto de partida para perceber se existem diferenças, em cada variável, no conjunto
dos dados da voz normal e dos disfarces.
47
Tabela 5 – Resultado do teste ANOVA.
Variável
F
Sig.
f0
37,423
0,000
f1
13,828
0,000
f2
4,036
0,009
f3
4,928
0,003
f4
4,507
0,005
Pode observar-se que existem alterações significativas em todos os parâmetros nas
diferentes condições de produção, como demonstram os valores de significância (p <
0,05), embora as modificações de cada variável não sejam homogéneas entre si. O
valor de F (37,423) e de significância (0,000) indicam que F0 é o parâmetro mais
afectado no conjunto dos dados. F1 é o formante que sofre mais alterações, visto que
apresenta o valor mais elevado de F (13,828), seguido de F3, F4 e F2, cuja proximidade
dos valores de F (4,928, 4,507 e 4,036, respectivamente) e de significância (0,003,
0,005 e 0,009, respectivamente) demonstra que a variabilidade destes formantes é
idêntica no conjunto das cinco condições de produção.
Uma vez que foram detectadas diferenças em todos as variáveis, é necessário fazer
uma análise mais pormenorizada para, em primeiro lugar, apurar quais os disfarces
que alteram os parâmetros acústicos e, em segundo lugar, aferir se todos os
parâmetros se modificam na presença do mesmo disfarce.
Nas Figuras 18, 19, 20 e 21 são apresentados os valores médios de F0, F1, F2, F3 e F4
da voz normal e de cada disfarce. Os gráficos permitem, por um lado, observar as
alterações que ocorrem nos parâmetros acústicos, através da comparação de VN com
D1, D2, D3 e D4, e, por outro lado, fazer uma caracterização geral de cada disfarce.
48
Figura 18 - Comparação de VN com D1
Figura 19 - Comparação de VN com D2.
Figura 20 - Comparação de VN com D3.
49
Figura 21 - Comparação de VN com D4.
No que diz respeito a D1 (Figura 18), as frequências de F0, F1, F2, F3 e F4 são
significativamente mais elevadas do que em VN. Apesar de existir um aumento
generalizado dos valores de todos os parâmetros acústicos, em F1 e F2 o aumento não
é tão significativo como em F0, F3 e F4. Pode afirmar-se, portanto, que a presença de
D1 potencia um aumento das frequências de todos os parâmetros acústicos.
Relativamente a D2 (Figura 19), não é possível apontar uma tendência tão evidente
como em D1, já que nem todos os parâmetros se alteram. Comprova-se um
decréscimo dos valores de F2 e F4, ainda que a diminuição destes seja mais visível em
F4 do que em F2. Contudo, F0, F1 e F3 não sofrem praticamente nenhuma alteração na
presença deste disfarce. Estes resultados são, de certa forma, inesperados, pois, para
além de D2 não apresentar uma tendência tão marcada e linear na mudança dos
parâmetros como D1, praticamente não se verificam alterações em relação a F0. De
facto, era esperado que F0 fosse o parâmetro mais afectado em D1 e D2, uma vez que
ambos os disfarces envolvem a manipulação da frequência fundamental, embora o
façam em direcções opostas (subida e descida, respectivamente). Deste modo,
esperar-se-ia que D1 e D2 apresentassem um padrão de mudança semelhante, isto é,
seria expectável que ambos os disfarces afectassem os mesmos parâmetros acústicos,
ainda que o fizessem de forma diferente. Previa-se, assim, que a presença de D2 se
reflectisse na descida dos valores de todos os parâmetros acústicos, tal como D1
potencia a subida dos mesmos, mas que tivesse, sobretudo, um impacto visível em F0.
Contrariamente ao esperado não se verificam mudanças em F0, sendo que as
50
mudanças mais marcadas se registam na descida dos valores de F2 e F4, como foi já
referido.
Os resultados obtidos por Künzel (2000) aproximam-se, em parte, do que se constatou
relativamente às diferenças entre D1 e D2, no que diz respeito a F0. O autor verificou
que, apesar de ambos os disfarces produzirem alterações na frequência fundamental,
na descida de F0 é possível recuperar o seu valor natural, ao passo que na subida de F0
não é possível determinar, com precisão, os valores da frequência fundamental dos
indivíduos. Estes dados sugerem que as transformações de F0 não são tão efectivas na
descida como na subida da frequência fundamental.
Por outro lado, Zhan & Tan (2007) constataram que, embora a subida de F0 tenha sido
mais eficaz, a descida de F0 também surge no grupo dos disfarces que mais
degradaram a eficácia do sistema de reconhecimento automático de falantes.
Tendo em vista os resultados dos experimentos dos autores mencionados, dever-seiam ter registado modificações na frequência fundamental não só em D1, mas também
em D2, embora de menor dimensão. Ainda a respeito de D1, é interessante fazer um
paralelismo com uma das questões metodológicas observadas em Rose & Simmons
(1996). Os investigadores afirmam que tiveram de excluir um dos disfarces (falsete),
pois não era possível analisar os formantes automaticamente, através do formant
tracker, dado que eram confundidas as harmónicas com os formantes. Recorde-se que
a análise de D1 foi efectuada com uma ligeira alteração dos valores de order no
programa de análise espectrográfica, uma vez que, no sentido do que verificaram Rose
& Simmons, não era possível distinguir os formantes das harmónicas. Estes dados
demonstram que os disfarces que implicam a elevação de F0 condicionam, logo à
partida, os recursos de análise, estando subjacente a ideia de que são potencialmente
eficazes.
No que concerne a D3 (Figura 20), os valores de qualquer um dos parâmetros
permanecem praticamente iguais aos registados em VN, pelo que se pode concluir que
este disfarce não é eficaz na alteração destes parâmetros acústicos.
51
Contrariamente a estes resultados, a máscara à frente da boca demonstrou ser um
disfarce bastante invasivo para o sistema de reconhecimento automático de falantes,
pois surge entre os três disfarces mais destabilizadores da performance do sistema
(Zhan & Tan, 2007).
Na investigação levada a cabo por Rose & Simmons (1996), as conclusões sobre o
disfarce do lenço à frente da boca - equivalente a D3 - são coincidentes com os dados
apresentados na Figura 20, no que diz respeito a F3 e F4. Porém, relativamente a F1 e
F2, os resultados não apontam no mesmo sentido, já que os autores afirmam que
estes formantes apresentam diferenças consideráveis comparativamente à voz
normal.
Por último, F0 e F1 não são alterados na presença de D4 (Figura 21), visto que os seus
valores se mantêm idênticos aos de VN, mas verifica-se uma ligeira descida nos valores
de F2, F3 e F4.
O resultado da análise comparativa entre VN e D1, D2, D3 e D4 vai ao encontro do que
tem sido apontado na literatura relativamente às diferenças entre os diversos
disfarces. Tal como demonstram alguns estudos (Reich et al., 1976; Zhang & Tan, 2007;
Rose & Simmons, 1996), determinados disfarces são mais eficazes do que outros, na
medida em que a sua influência é mais destabilizadora do conjunto dos parâmetros
acústicos. Desta forma, conclui-se que D1 é o mais eficiente, dado que afecta
significativamente todos os parâmetros, ao contrário de D3 que revelou ser ineficaz, já
que a sua presença não implica nenhuma modificação dos mesmos.
Adicionalmente, constata-se que o efeito produzido em cada parâmetro acústico
depende do disfarce utilizado. Quer isto dizer que o mesmo parâmetro é afectado em
função de alguns disfarces, mas permanece inalterável na presença de outros. Assim, a
robustez de um parâmetro acústico está dependente do próprio disfarce. Tendo em
vista esta linha de pensamento, F0 não é um parâmetro sólido em relação a D1, mas é
robusto quando se trata de D2, D3 e D4, visto que não existem mudanças significativas
dos valores da frequência fundamental nestes disfarces. A robustez de F1 verifica-se,
apenas, em D3 e D4, pois as frequências deste formante são alteradas em D1 e D2.
52
Uma vez que os valores de F2 são modificados em D1, D2 e D4, este parâmetro é
eficiente unicamente na presença de D3. F3 é eficaz com respeito a D2 e D3, mas não o
é relativamente a D1 e D4, dado que estes disfarces modificam as suas frequências,
embora as alterações sejam de maior magnitude em D1. Finalmente, F4 demonstra
não ser um parâmetro robusto em D1, D2 e D4, apesar de as transformações
produzidas por este último não serem tão significativas como nos dois primeiros (D1 e
D2), mas é eficaz em relação a D3 porque as transformações provocadas por si são
praticamente inexistentes.
Deste modo, conclui-se que, à semelhança do que verificaram outros autores, cada
parâmetro não é modificado de forma idêntica pelos vários tipos de disfarce. Reich et
al. (1976) constataram que as frequências dos formantes e a banda formântica não são
afectados no disfarce da diminuição do tempo de fala, embora haja um aumento da
duração das vogais e das palavras, uma vez que o próprio disfarce incide nestes
parâmetros. Contudo, neste estudo fica por esclarecer a influência específica dos
disfarces analisados em cada um dos parâmetros utilizados pelos autores. Ainda que se
afirme que os formantes e a banda formântica não foram afectados, não é certo que
todos os restantes parâmetros tenham sofrido alguma modificação. Da mesma forma,
fica por saber se os disfarces considerados mais eficazes (rouquidão e imitação da voz
de um velho) produziram modificações apenas nos parâmetros relacionados com a
fonte ou se estes foram os mais afectados, entre outros.
O trabalho de Rose & Simmons (1996) aponta, também, no sentido de que a robustez
de um parâmetro depende do disfarce utilizado. Os autores verificaram que na
presença de quatro tipos de disfarce, os dois primeiros formantes (F1 e F2)
apresentam sempre alterações significativas. Porém, F3 e F4 são modificados apenas
em dois dos disfarces (imitação do comentador político e voz feminina), uma vez que
se mantêm inalterados nos disfarces relativos à colocação do lenço à frente da boca e
à imitação de um sotaque.
53
4.2.2. Disfarce versus Informante
Após averiguar as alterações, no conjunto dos parâmetros acústicos, produzidas por
cada disfarce, importa analisar o efeito do disfarce em função de cada Informante. Os
gráficos que se seguem representam a distribuição dos valores de F0 (Figura 22), F1
(Figura 23), F2 (Figura 24), F3 (Figura 25) e F4 (Figura 26) para cada Informante,
relativamente a VN, D1, D2, D3 e D4.
Figura 22 – Distribuição de F0 segundo o Informante em VN, D1, D2, D3 e D4.
Figura 23 – Distribuição de F1 segundo o Informante em VN, D1, D2, D3 e D4.
54
Figura 24 - Distribuição de F2 segundo o Informante em VN, D1, D2, D3 e D4.
Figura 25 - Distribuição de F3 segundo o Informante em VN, D1, D3 e D4.
Figura 26 - Distribuição de F4 segundo Informante em VN, D1, D2, D3 e D4.
No que diz respeito ao disfarce, os gráficos permitem comprovar que D1 é o mais
invasivo entre os quatro disfarces testados. A eficiência de D1, que se traduz no
55
aumento dos valores de todos os parâmetros, é visível nos gráficos pelo afastamento
da linha que lhe corresponde de VN.
Da mesma forma, confirma-se, novamente, que o mesmo parâmetro acústico não é
influenciado de igual modo pelos vários disfarces, isto é, cada parâmetro pode ser
alterado na presença de um disfarce específico, mas pode ser impermeável a outro.
Assim, F0 é fortemente afectado na presença de D1, enquanto os restantes disfarces
não parecem causar grandes distorções neste parâmetro. Contrariamente a F0, a
variabilidade dos restantes parâmetros acústicos não se deve exclusivamente a um
disfarce. Verifica-se, então, que F1, F2 e F4 apresentam variações na presença dos
quatro disfarces, embora a magnitude e direcção da mudança não seja igual para
todos os disfarces. F3 é o parâmetro menos afectado, uma vez que, à excepção de D1,
as linhas relativas a cada disfarce se encontram praticamente sobrepostas,
demonstrando a inexistência de variabilidade deste parâmetro.
Ainda que existam tendências gerais associadas a cada disfarce relativamente ao tipo
de modificação dos parâmetros, a variação inter-falante existe não só na voz normal,
mas também na presença do disfarce, como demonstram os gráficos apresentados
anteriormente (Figuras 22 a 26). Desta forma, existe uma relação entre disfarce e
Informante, pois as mudanças produzidas por cada disfarce num parâmetro específico
não são semelhantes entre os falantes. Observe-se que, em relação à frequência
fundamental (Figura 22), o aumento de F0, em D1, não é tão elevado nos Informantes
2 e 5 como nos restantes; para a maioria dos indivíduos não há oscilação dos valores
de F0 entre VN, D2, D3 e D4, mas nos Informantes 1, 6 e 8 as frequências divergem
nestas quatro condições de produção. No que diz respeito a F1 (Figura 23), o
Informante 2 destaca-se dos demais falantes, uma vez que é o que apresenta a maior
subida e descida dos valores em D1 e D2, respectivamente. Apesar de as frequências
de F2 (Figura 24) serem idênticas entre os Informantes 2, 4 e 7 em VN e D1, o mesmo
não se verifica nos restantes disfarces. O Informante 2 apresenta valores distintos para
D2 e D4, ao passo que nos Informantes 4 e 7 as frequências de F2 são próximas nos
referidos disfarces, embora a variação seja mais elevada no Informante 7.
Relativamente a F3 (Figura 25), os Informantes 1 e 4 têm valores muito aproximados
56
de VN, D2, D3 e D4, contudo distinguem-se quanto às frequências de D1, dado que
estas são muito mais elevadas no Informante 4 do que no Informante 1. Por último,
também os diversos valores de F4 (Figura 26) entre os indivíduos, nas várias condições
de produção, ilustram a variação inter-falante. O Informante 2 é o único falante cujos
valores de D2 se afastam consideravelmente dos de VN; da mesma forma, o
Informante 4 isola-se dos restantes indivíduos, visto que apresenta frequências
distintas entre VN e D3, o que não se verifica nos outros Informantes.
Para verificar, estatisticamente, as diferenças entre os Informantes relativamente a
cada disfarce, realizou-se um teste t-student. Através deste teste, faz-se a comparação
de cada parâmetro entre VN e D1, D2, D3 e D4, para cada Informante individualmente.
Os resultados do teste são apresentados na Tabela 6, através do nível de significância
de cada parâmetro.
Tabela 6 - Resultado do teste t-student na comparação entre VN e Disfarce(s).
Disfarce/Parâmetro
1
2
3
4
5
6
7
8
f0 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
f1 0,042 0,000 0,037 0,012 0,012 0,000 NS 0,000
VN-D1
f2
NS
NS
NS
NS
NS
NS
NS
NS
f3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,028
VN-D2
VN-D3
VN-D4
f4
f0
f1
f2
f3
f4
f0
f1
f2
f3
NS
NS 0,000 0,000 0,000 0,000 NS 0,000
0,000 0,040 0,001 NS
NS 0,000 0,023 0,000
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
0,013 NS
NS
NS
NS
NS
NS
NS
NS 0,000 NS 0,000 0,027 NS
NS 0,000
NS
NS
NS
NS
NS
NS
NS 0,011
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
f4
f0
f1
f2
f3
NS
0,000
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
0,021
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
0,000
NS
NS
NS
f4
NS
NS
NS
NS
NS
NS
Legenda: NS = não significativo.
57
NS
NS
NS
NS
NS
NS
0,002
NS
NS
NS
0,025 0,011
Os resultados do teste confirmam a existência da interacção entre disfarce e
Informante, já que o efeito do disfarce não é igual para todos os indivíduos. Assim,
verifica-se que a presença de D1 não é significativa no Informante 7 em F1, nem nos
Informantes 1, 2, e 7 em F4. Na comparação de VN com D2, os Informantes 4 e 5 não
apresentam variabilidade de F0, ao contrário dos restantes Informantes, cujos valores
de significância demonstram que houve alteração da frequência fundamental; em
relação a F3, os valores não diferem na maioria dos falantes, à excepção do Informante
1, dado que o resultado do teste é significativo (p = 0,013); há um equilíbrio na
variação de F4, pois em 50% dos Informantes não se registam alterações significativas,
mas nos restantes 50% houve mudanças nas frequências deste parâmetro. Em VN-D3,
o Informante 8 distingue-se dos restantes falantes, uma vez que é o único indivíduo
que apresenta variabilidade nas frequências de F0; nos restantes parâmetros, os
resultados não são significantes para nenhum Informante. No contraste de VN-D4, os
resultados confirmam a variação dos valores em função do falante, pois só se registam
alterações de F0 nos Informantes 1, 6 e 8; não existem mudanças nos valores de F3 de
qualquer indivíduo, à excepção do Informante 3; e, em relação a F4, as alterações são
significativas apenas nos Informantes 7 e 8.
Por outro lado, apesar de existirem alterações significativas do mesmo parâmetro em
vários Informantes, a magnitude da mudança não é igual para todos os falantes, como
se pode constatar através do nível de significância. Para exemplificar, observe-se que,
embora os valores de F4, em VN-D2, sejam significativos nos Informantes 2, 4, 5 e 8, o
grau de alteração deste parâmetro não é igual entre si, pois os níveis de significância
demonstram que a mudança é superior nalguns indivíduos do que noutros. Assim, a
modificação dos valores de F4 foi mais elevada nos Informantes 2, 4 e 8 (p = 0,000) do
que no Informante 5, que é o que apresenta a menor variação das frequências (p =
0,027) nas duas condições de produção.
Mesmo quando o nível de significância é igual entre os Informantes, tal não significa
que as alterações dos parâmetros acústicos sejam homogéneas entre si. Os dados
apresentados na Tabela 6 indicam que a variação de F0 entre VN e D1 é significante (p
= 0,000) para qualquer falante. Contudo, as mudanças entre as duas condições de
58
produção não são semelhantes nos vários indivíduos, como se verificou através do
gráfico da Figura 22. A alteração das frequências de F0 é mais elevada no Informante 3
do que no Informante 2, por exemplo, uma vez que no primeiro o aumento é de cerca
de 300Hz, ao passo que no segundo é de 70Hz, aproximadamente.
Ainda a respeito de F0, importa averiguar isoladamente o efeito de D2 na frequência
fundamental, em função de cada Informante. O teste t-student (Tabela 6) indica que
houve alterações significativas de F0 em VN-D2 em todos os sujeitos, à excepção dos
Informantes 4 e 5. Porém, o gráfico VN versus D2 (Figura 19) contraria estes
resultados, visto que os valores de F0 se mantêm praticamente idênticos nas duas
condições de produção. Para compreender melhor este fenómeno, de seguida são
apresentados os valores médios de F0 de VN e D2 de cada Informante (Figura 27).
Figura 27 – Valores médios de F0 de cada Informante em VN e D2.
A descida dos valores da frequência fundamental efectua-se apenas nos Informantes 2,
5 e 7, pois nos restantes Informantes regista-se um aumento ou manutenção dos
valores de F0. Assim, houve uma alteração nos valores de F0, comprovada pelos
resultados significativos do teste t-student (Tabela 6), mas essa mudança traduz-se no
aumento da frequência fundamental. O facto de a maior parte dos Informantes não ter
sido capaz de alterar a sua frequência fundamental em D2 - pretendia-se uma descida
dos valores de F0 - levanta uma questão interessante relativamente ao desempenho
de cada indivíduo em disfarçar a voz. De facto, os disfarces que envolvem a alteração
59
do número de vibrações das cordas vocais por segundo, como D1 e D2, pressupõem
alguma ‘habilidade’ individual para executar essas mudanças.
Estes resultados revelam que, à luz do que foi apontado por Zhang & Tan (2007), existe
uma relação entre disfarce e Informante, demonstrando que a execução do disfarce
está dependente do desempenho de cada indivíduo. Consequentemente, nem todos
os tipos de disfarce são eficientes para todos os Informantes, já que alguns falantes
são mais aptos para determinados disfarces (Zhang & Tan, 2007). Neste sentido,
apesar de D1 ter sido eficiente para todos os sujeitos, D2 revelou-se eficaz apenas para
os Informantes 2 e 7. D2 não é considerado eficaz para o Informante 5 pois, embora se
tenha registado uma descida nos valores de F0 (Figura 27), os resultados do teste tstudent (Tabela 6) indicam que essa alteração não é estatisticamente significativa.
Por fim, a Tabela 6 permite cimentar algumas observações relativas ao(s) disfarce(s).
Em primeiro lugar, confirma-se que alguns disfarces não são eficientes. À excepção de
F0 no Informante 8, nenhum parâmetro foi significativamente alterado em D3, pelo
que os resultados não são significativos (NS). Desta forma, D3 não é um disfarce eficaz,
já que a utilização do mesmo não modifica nenhum dos parâmetros analisados.
Em segundo lugar, o mesmo disfarce não influencia de forma igual todos os
parâmetros acústicos. Recorde-se que na comparação de VN-D1, apesar de os
resultados serem significativos na maioria dos parâmetros, F2 não é significativo em
nenhum dos Informantes. Ainda que o gráfico da Figura 18 demonstre que, no
conjunto dos dados, os valores de F2 são mais elevados em D1 do que em VN, o
aumento das frequências não é significativo a nível estatístico. Por último, tendo em
vista o número de resultados significativos em todos os Informantes em D1, verifica-se
que este é, efectivamente, o disfarce que provoca mais alterações nos parâmetros
acústicos e, consequentemente, o disfarce mais eficaz.
60
4.2.3. Disfarce versus Vogais
Nesta secção, pretende-se testar o efeito do disfarce nas vogais para apurar se todos
os segmentos são igualmente afectados ou se, pelo contrário, existem alguns mais
permeáveis ao disfarce do que outros. Os gráficos que se seguem apresentam os
valores médios de F1 e F2 de cada vogal relativamente a D1 (Figura 28), D2 (Figura 29),
D3 (Figura 30) e D4 (Figura 31), no conjunto dos Informantes. Em cada gráfico, são
também apresentados os valores médios dos referidos parâmetros em VN, de forma a
poder observar as alterações produzidas por cada disfarce.
Figura 28 – Distribuição dos valores de F1 e F2 de cada vogal em VN e D1.
Figura 29 - Distribuição dos valores de F1 e F2 de cada vogal em VN e D2.
61
Figura 30 - Distribuição dos valores de F1 e F2 de cada vogal em VN e D3.
Figura 31 - Distribuição dos valores de F1 e F2 de cada vogal em VN e D4.
Relativamente a D1 (Figura 28), pode verificar-se que todas as vogais foram afectadas,
tanto em F1 como em F2. No entanto, a influência do disfarce não é semelhante entre
os vários segmentos, uma vez que alguns são mais afectados que outros. Da mesma
forma, o efeito do disfarce também não é idêntico em cada um dos formantes, isto é,
as vogais que sofrem maior influência do disfarce em F1 não são necessariamente as
mesmas que em F2. Assim, em F1 o aumento das frequências é mais elevado nas
vogais abertas ( [ɛ], [a], [ɔ] ) do que nas restantes, pelo que a interferência do disfarce
é maior nas três vogais referidas. Em relação a F2, são as vogais anteriores ( [i], [e], [ɛ] )
que sofrem maior influência do disfarce, dado que são estas que registam o maior
aumento dos valores. Deste modo, conclui-se que a vogal anterior baixa ( [ɛ] ) é a mais
vulnerável a D1, pois as suas frequências são alteradas de forma significativa, tanto em
62
F1 como em F2, ao passo que a mais resistente é a vogal posterior média ( [o] ), visto
que é a que sofre menos modificações no conjunto dos dados.
No que diz respeito a D2 (Figura 29), o efeito do disfarce é relativamente homogéneo
entre as vogais. Porém, tal como em D1, o primeiro e segundo formantes não são
igualmente afectados por este disfarce. Apesar de se registar uma ligeira descida nas
frequências de F1 das vogais central e posterior baixa ( [a] e [ɔ] ), a presença de D2 é
praticamente insignificante neste formante. Por outro lado, todas as vogais
apresentam uma descida mais acentuada dos valores de F2, ainda que não exista
grande disparidade entre os segmentos. No conjunto dos dados, a vogal anterior alta (
[i] ) é a mais vulnerável ao disfarce, pois é a que apresenta a maior variação do valor
de F2 entre VN e D2.
Na presença de D3 (Figura 30), não se regista praticamente nenhuma alteração das
frequências das vogais. Embora se observe um decréscimo superfluo na frequência de
F2 da vogal [i], os segmentos apresentam valores semelhantes aos de VN quer em F1,
quer em F2.
Por último, as frequências de F1 das vogais não são modificadas na presença de D4
(Figura 31). Porém, a presença do disfarce é visível em F2, ainda que não seja idêntica
para todas as vogais, como se verificou nos disfarces anteriores. Assim, à semelhança
do que sucede com D1, os segmentos mais permeáveis a D4 são as vogais anteriores (
[i], [e] e [ɛ] ). A influência de D4 nas vogais é algo surpreendente, pois esperava-se que
este disfarce tivesse um impacto de maior relevo, dadas as limitações impostas por si.
Devido ao facto de os movimentos do maxilar serem quase inexistentes, os lábios
estarem estirados e os movimentos da língua ficarem mais limitados, como
consequência da colocação da palhinha entre os dentes incisivos, esperar-se-ia que os
segmentos mais afectados fossem as vogais abertas e arredondadas, tanto no plano de
F1 como de F2.
Em suma, constata-se que quando os disfarces interferem nas frequências dos
formantes, as vogais não são afectadas de forma homogénea. Dito de outro modo, há
segmentos que são mais permeáveis ao disfarce do que outros. Da mesma forma, a
63
influência do disfarce também não é idêntica entre os formantes, uma vez que os
segmentos que sofrem maior interferência do disfarce variam em função do formante.
Por outro lado, a permeabilidade das vogais depende do tipo de disfarce, já que as
frequências de uma vogal podem ser alteradas por um disfarce, mas serem
impermeáveis a outro.
4.2.4. Triângulos vocálicos – Comparação de VN com o(s) Disfarce(s)
Nesta secção, pretende-se averiguar em que medida é que as alterações nas
frequências dos formantes (F1 e F2), provocadas por cada disfarce, afectam a
configuração dos triângulos vocálicos. Consequentemente, procura-se verificar se as
características individuais dos falantes são preservadas mesmo na presença do
disfarce. Assim, são apresentados os triângulos vocálicos de cada Informante
relativamente a D1 (Figuras 32, 33, 34, 35, 36, 37, 38 e 39), D2 (Figuras 40, 41, 42, 43,
44, 45, 46 e 47), D3 (Figuras 48, 49, 50, 51, 52, 53, 54 e 55) e D4 (Figuras 56, 57, 58, 59,
60, 61, 62 e 63). De forma a poder constatar as mudanças impostas por cada disfarce,
apresentam-se simultaneamente os triângulos vocálicos de VN para cada Informante.
Ao contrário dos triângulos apresentados no início da análise (ponto 4.1.1.) que
continham quatro pontos para cada vogal, estes são constituídos pelo valor médio de
cada segmento, uma vez que o foco de atenção recai na comparação de VN com os
disfarces.
4.2.4.1. VN versus D1
Figura 32 - Triângulo vocálico VN-D1, Informante 1 Figura 33 - Triângulo vocálico VN-D1, Informante 2
64
Figura 34 - Triângulo vocálico VN-D1, Informante 3 Figura 35 - Triângulo vocálico VN-D1, Informante 4
Figura 36 - Triângulo vocálico VN-D1, Informante 5 Figura 37 - Triângulo vocálico VN-D1, Informante 6
Figura 38 - Triângulo vocálico VN-D1, Informante 7 Figura 39 - Triângulo vocálico VN-D1, Informante 8
Legenda:
VN
D1
No que diz respeito ao Informante 1 (Figura 32), pode verificar-se que o disfarce incide
sobretudo nas vogais anteriores. O agrupamento formado pelas vogais anteriores
65
média e baixa e o afastamento da vogal anterior alta, característicos deste indivíduo,
não são conservados em D1. Há, pelo contrário, uma ‘inversão’ na disposição destes
segmentos, uma vez que a vogal [e] se aproxima de [i] e a vogal [ɛ] fica isolada. Por
outro lado, o disfarce altera também a relação entre as vogais posteriores média e
alta, dado que em D1 a vogal [o] é mais recuada que [u]. Contudo, a distribuição das
vogais central e posterior baixa é preservada, assim como o espaço acústico que gera a
divisão entre os segmentos central/posteriores e anteriores.
No Informante 2 (Figura 33), o disfarce provoca transformações significativas na
configuração do triângulo vocálico, pelo que nenhum traço individual do falante é
conservado. Observa-se, por um lado, o alargamento considerável da dimensão do
polígono e, por outro lado, uma reestruturação na organização dos segmentos. Assim,
o cluster existente em VN, marca específica deste indivíduo, não é mantido no
disfarce; devido à estandardização dos valores de F1, o traço de avanço/recuo é o
único traço distintivo entre os segmentos [i] e [e]; a relação entre as vogais baixas
obedece a um novo padrão que consiste na uniformização das distâncias acústicas
entre si e no alinhamento das vogais anterior e posterior no plano de F1; por último, a
separação das vogais anteriores dos restantes segmentos não se verifica em D1, sendo
criada uma nova divisão entre as vogais altas/anterior média e baixas/posterior média.
Relativamente ao Informante 3 (Figura 34), o triângulo vocálico é alargado devido,
essencialmente, ao aumento dos valores de F2 das vogais anteriores. Apesar de o
padrão de distribuição das vogais anteriores se manter em D1, a disposição dos
restantes segmentos é bastante alterada. O disfarce gera um cluster, formado pelas
vogais [o] e [u], que não se verifica em VN; o traço distintivo de avanço/recuo é
suprimido relativamente às vogais [a] e [ɔ], dado que estas estão alinhadas no plano de
F2; e a distância acústica entre a vogal central e as vogais anteriores é ampliada.
No Informante 4 (Figura 35), a faixa de variação de F1 é aumentada em D1 e,
consequentemente, a dimensão do triângulo vocálico é alargada. Por outro lado, o
acentuado aumento dos valores de F1 das vogais baixas origina uma separação, que
não é característica deste falante, entre as vogais baixas e os restantes segmentos.
66
Em relação ao Informante 5 (Figura 36), o disfarce provoca o alargamento do polígono,
essencialmente ao nível das vogais baixas. Apesar de os valores dos segmentos
posteriores alto e médio permanecerem idênticos aos de VN, o aumento das
frequências de F1 das vogais baixas gera uma divisão entre as vogais baixas e
médias/altas, inexistente em VN; a disposição das vogais anteriores também é
afectada, pois há uma aproximação das vogais [i] e [e] relativamente aos valores de F1;
e a distância acústica entre as vogais central e posterior baixa é aumentada.
No Informante 6 (Figura 37), o aumento das frequências dos segmentos dá origem ao
deslocamento do triângulo vocálico no espaço acústico. Embora a configuração geral
do polígono não seja afectada, o disfarce cria dois clusters ( [i]/[e] e [ɛ]/[a] ). Assim,
gera-se uma nova divisão entre as vogais posteriores alta/média e central/posterior
baixa. Contudo, a separação entre as vogais anteriores e os restantes segmentos
continua presente em D1.
No Informante 7 (Figura 38), a alteração das frequências das vogais anteriores altera
consideravelmente a configuração do triângulo vocálico. O aumento da faixa de
variação de F2, bem como das distâncias acústicas entre as vogais, dão origem ao
alargamento do polígono. Por outro lado, verifica-se que o disfarce modifica a
organização dos segmentos no triângulo vocálico, sobretudo ao nível das vogais baixas.
O traço distintivo de altura é praticamente suprimido em relação às vogais baixas
devido à aproximação dos valores de F1 destes segmentos. Ainda assim, pode
observar-se que a separação entre os segmentos posteriores médio/alto e
central/posterior baixo, existente em VN, é mantida também em D1.
Finalmente, no Informante 8 (Figura 39), o disfarce causa a deslocação do polígono no
espaço acústico, resultado do aumento das frequências, maioritariamente, de F1.
Verifica-se também que há uma aproximação das vogais médias às vogais altas
relativamente ao eixo de F1 e, ainda, um estreitamento do triângulo vocálico.
67
4.2.4.2. VN versus D2
Figura 40 - Triângulo vocálico VN-D2, Informante 1 Figura 41 - Triângulo vocálico VN-D2, Informante 2
Figura 42 - Triângulo vocálico VN-D2, Informante 3 Figura 43 - Triângulo vocálico VN-D2, Informante 4
Figura 44 - Triângulo vocálico VN-D2, Informante 5 Figura 45 - Triângulo vocálico VN-D2, Informante 6
68
Figura 46 - Triângulo vocálico VN-D2, Informante 7 Figura 47 - Triângulo vocálico VN-D2, Informante 8
Legenda:
VN
D2
Os resultados obtidos para D2 são, de certo modo, condicionados, uma vez que a
maioria dos indivíduos não efectuou a descida da frequência fundamental, como
pretendido com este disfarce. Constatou-se que, à excepção dos Informantes 2, 5 e 7,
os restantes falantes mantiveram ou aumentaram os valores de F0 em D2 (cf. Figura
27). Desta forma, pode observar-se que não há alterações significativas nos triângulos
vocálicos dos Informantes 1, 3 e 8 (Figuras 40, 42 e 47), pelo que as marcas indivíduais
de cada falante permanecem inalteráveis, relativamente à configuração e localização
do polígono.
No entanto, os triângulos vocálicos dos Informantes 4 e 6 apresentam algumas
modificações comparativamente a VN. No Informante 4 (Figura 43), há uma
diminuição das frequências, essencialmente de F1, das vogais posteriores e anteriores
alta e baixa. O aumento do valor de F1 da vogal central causa um maior
distanciamento entre esta e a vogal [ɔ], bem como a ampliação do intervalo acústico
entre a vogal central e as vogais anteriores. Por outro lado, o traço distintivo de altura
é suprimido relativamente às vogais anteriores média e baixa, dando origem a uma
nova disposição das vogais anteriores. Relativamente ao Informante 6 (Figura 45), o
disfarce tem um grande impacto nas vogais posteriores e central, dado que as
distâncias acústicas entre estes segmentos são, praticamente, elididas. As distâncias
entre as vogais anteriores também são reduzidas, mas de forma menos significativa.
Como resultado das alterações das frequências dos segmentos, a faixa de variação de
F1 e F2 é reduzida, dando origem ao encolhimento do triângulo vocálico. Ainda assim,
69
observe-se que a divisão entre as vogais anteriores e os restantes segmentos
permanece em D2.
As modificações observadas nos triângulos vocálicos dos Informantes 4 e 6 estão,
provavelmente, relacionadas com a alteração dos movimentos e posições dos
articuladores. No entanto, estes resultados não são tidos em conta, visto que se
pretendia a modificação da fonte e não dos filtros.
No que diz respeito ao Informante 2 (Figura 41), o disfarce provocou o encolhimento
do triângulo acústico, resultado da diminuição das frequências de F1 e F2 de todos os
segmentos; consequentemente, também a faixa de variação de F1 e F2 é reduzida; e a
redução da distância entre as vogais [a] e [ɔ] origina um cluster inexistente em VN.
Porém, pode verificar-se que alguns traços específicos deste falante são mantidos,
visto que o cluster formado por [o] e [u] continua presente, assim como a distância
entre este e a vogal posterior baixa, e a disposição das vogais anteriores ( [i], [e] e [ɛ] )
não é modificada.
No Informante 5 (Figura 44), a presença do disfarce manifesta-se no decréscimo das
frequências das vogais, maioritariamente no plano de F2, embora a redução dos
valores dos formantes não seja significativa. Desta forma, não há alterações
substanciais das características do triângulo vocálico deste falante.
Por último, é no Informante 7 (Figura 46) que se registam as maiores alterações
provocadas pelo disfarce. Embora a dimensão e localização do polígono não sejam
modificadas, a disposição de alguns segmentos é alterada, desfazendo algumas marcas
particulares deste indivíduo. A diminuição e aumento do valor de F2 das vogais [i] e
[e], respectivamente, gera a aproximação destes segmentos, ao passo que em VN as
distâncias entre [i], [e] e [ɛ] são semelhantes; o agrupamento formado pelas vogais
central e posterior baixa, existente VN, é desfeito; os segmentos [o] e [u] são distintos,
apenas, a partir das frequências de F1, pois o disfarce aproxima-os no plano de F2.
70
4.2.4.3. VN versus D3
Figura 48 - Triângulo vocálico VN-D3, Informante 1 Figura 49 - Triângulo vocálico VN-D3, Informante 2
Figura 50 - Triângulo vocálico VN-D3, Informante 3 Figura 51 - Triângulo vocálico VN-D3, Informante 4
Figura 52 - Triângulo vocálico VN-D3, Informante 5 Figura 53 - Triângulo vocálico VN-D3, Informante 6
71
Figura 54 - Triângulo vocálico VN-D3, Informante 7 Figura 55 - Triângulo vocálico VN-D3, Informante 8
Legenda:
VN
D3
No que diz respeito a D3, pode constatar-se que, no conjunto dos Informantes, este
disfarce não acarreta modificações substânciais na configuração dos triângulos
vocálicos. Tal como tinha já sido observado através da análise comparativa entre VN e
D3 (Figura 20), os valores de F1 e F2 não sofrem alterações na presença deste disfarce.
Assim, no Informante 1 (Figura 48), as posições das vogais permanecem inalteradas,
embora a vogal [ɛ] apresente um maior desvio dos que as restantes que, ainda assim,
não é relevante. Mantém-se, pois, a proximidade das vogais anteriores média e baixa,
bem como o afastamento demarcado das vogais anteriores dos restantes segmentos.
Pelo contrário, as alterações provocadas por D3 são mais visíveis no Informante 2
(Figura 49). A diminuição dos valores de F2 vogais anteriores alta e média provocam a
redução da faixa de variação de F2. Por outro lado, a distância acústica entre as vogais
[i]/[e] e [ɛ] é reduzida, alterando uma marca particular deste indivíduo que consiste no
isolamento de [ɛ] dos restantes segmentos. Regista-se, ainda, um ligeiro decréscimo
dos valores de F1 das vogais baixas [a] e [ɔ], mas a distância acústica entre si não é
afectada. Do mesmo modo, não houve nenhuma modificação relativamente aos
segmentos posteriores alto e médio, pelo que se mantém o cluster característico deste
falante.
No Informante 3 (Figura 50), a influência do disfarce é praticamente inexistente,
apesar de haver uma modificação nas frequências das vogais posteriores alta e média,
que reduz a distância acústica entre si e as aproxima no plano de F2.
72
Relativamente ao Informante 4 (Figura 51), não se verificam alterações substanciais no
triângulo acústico, uma vez que os valores de F1 e F2 dos segmentos não se afastam
muito dos de VN. Porém, é alterado um traço específico do falante, respeitante à
relação entre as vogais posteriores alta e média, dado que em VN estas estão
alinhadas no eixo de F2, ao passo que em D3 não.
O efeito de D3 não se manifesta no Informante 5 (Figura 52), pois as frequências de F1
e F2 das vogais são idênticas às de VN. Deste modo, todas as características do
polígono são preservadas na presença deste disfarce.
Da mesma forma, também a influência de D3 no Informante 6 (Figura 53) é supérflua.
Ainda que as frequências das vogais oscilem ligeiramente entre VN e D3, não há
alterações na configuração do triângulo vocálico.
Com respeito ao Informante 7 (Figura 54), pode observar-se que, à semelhança do
Informante 6, as ligeiras modificações nos valores dos formantes das vogais não
condicionam a configuração do polígono, pelo que as marcas específicas deste sujeito
são preservadas. Ainda assim, há uma mudança superficial nos segmentos anteriores
médio e baixo, pois a distância acústica entre si é reduzida devido à aproximação dos
seus valores de F1.
Finalmente, no Informante 8 (Figura 55), a presença do disfarce reflecte-se na redução
das frequências de F2 das vogais anteriores e, ainda, na perda do traço distintivo de
avanço/recuo entre as vogais posteriores média e alta. Contudo, o disfarce não
acarreta transformações substanciais nas características do triângulo vocálico, visto
que a sua configuração geral e a disposição dos segmentos não são modificadas.
73
4.2.4.4.VN versus D4
Figura 56 - Triângulo vocálico VN-D4, Informante 1 Figura 57 - Triângulo vocálico VN-D4, Informante 2
Figura 58 - Triângulo vocálico VN-D4, Informante 3 Figura 59 - Triângulo vocálico VN-D4, Informante 4
Figura 60 - Triângulo vocálico VN-D4, Informante 5 Figura 61 - Triângulo vocálico VN-D4, Informante 6
74
Figura 62 - Triângulo vocálico VN-D4, Informante 7 Figura 63 - Triângulo vocálico VN-D4, Informante 8
Legenda:
VN
D4
No que diz respeito ao Informante 1 (Figura 56), não se verificam transformações
consideráveis nas frequências das vogais. Para além do ligeiro aumento dos valores de
F1 das vogais posteriores alta e média, o disfarce potencia um aumento mais
significativo da frequência de F1 da vogal [ɛ], enfraquecendo a proximidade existente
entre as vogais anteriores média e baixa. Ainda assim, pode afirmar-se que as
características do triângulo vocálico deste falante são preservadas, na medida em que
a configuração do polígono não é alterada e o agrupamento formado pelos segmentos
[e] e [ɛ], característico deste indivíduo, é mantido, embora não seja tão coeso como
em VN.
Pelo contrário, no Informante 2 (Figura 57), a presença de D4 acarreta modificações
significativas na disposição dos segmentos. Em primeiro lugar, o decréscimo das
frequências de F2 das vogais anteriores e de F1 das vogais central e posterior baixa
originam a redução da faixa de variação de F1 e F2 e, consequentemente, a diminuição
da dimensão do polígono. Neste sentido, também as distâncias acústicas entre os
segmentos são afectadas, pelo que com o disfarce é suprimido o intervalo entre as
vogais [ɔ] e [o]/[u]. Por outro lado, perde-se o traço distintivo de avanço/recuo entre
as vogais [a] e [ɔ], dado que os valores de F2 destas são semelhantes, assim como as
vogais anteriores média, baixa e posterior baixa se aproximam no plano de F1. Desta
forma, a única marca que permanece intacta diz respeito ao cluster formado pelas
vogais [o] e [u], já que os restantes traços individuais não são conservados em D4.
75
No Informante 3 (Figura 58), a dimensão do polígono é reduzida, resultado da
diminuição e aumento das frequências de F2 das vogais anteriores e posteriores,
respectivamente, e da redução do valor de F1 da vogal central. Apesar de o disfarce
não comprometer a configuração geral do triângulo vocálico, a aproximação das
frequências de F1 das vogais [o] e [u] gera um cluster que não é característico deste
indivíduo.
Relativamente ao Informante 4 (Figura 59), a presença do disfarce desfaz uma marca
particular do falante, relativa ao alinhamento das vogais posteriores média e alta no
plano de F2. Em adição, são aumentadas as distâncias entre alguns segmentos,
nomeadamente entre as vogais anteriores alta e média e entre as vogais posteriores
média e baixa. Ainda assim, a divisão entre as vogais anteriores e os restantes
segmentos é preservada e a configuração geral do triângulo vocálico não é afectada.
No Informante 5 (Figura 60), apesar da redução generalizada das frequências de F2 dos
segmentos, à excepção da vogal [u] cujos valores se mantêm idênticos aos de VN, não
há alterações na configuração do triângulo vocálico, pelo que as marcas individuais do
falante continuam presentes em D4.
No Informante 6 (Figura 61), à semelhança do que sucede com o Informante 5, não há
grande discrepância nas frequências das vogais entre VN e D4. No entanto, o disfarce
provoca uma alteração na disposição das vogais posteriores, pois o traço distintivo de
avanço/recuo é eliminado, sendo que estas ficam alinhadas no eixo de F2. Ainda que a
mudança dos valores destas vogais não seja muito acentuada, esta é bastante
significativa, pois dá origem a uma configuração do triângulo vocálico diferente da de
VN.
No que diz respeito ao Informante 7 (Figura 62), não há modificações significativas na
configuração do triângulo vocálico. Embora a redução dos valores de F1 das vogais
central e posterior baixa elida o intervalo acústico que as separa das vogais
posteriores, pode observar-se que a organização dos segmentos permanece idêntica à
de VN.
Por último, no Informante 8 (Figura 63), o disfarce provoca a redução da faixa de
variação de F2, devido ao aumento das frequências do segundo formante das vogais
posteriores e decréscimo dos valores do mesmo formante nas vogais anteriores.
76
Embora a configuração do triângulo vocálico se mantenha semelhante a VN, as
distâncias entre as vogais anteriores e central são uniformizadas, pelo que o ligeiro
afastamento das vogais anteriores dos restantes segmentos é suprimido. Por outro
lado, e à semelhança do que acontece no Informante 3, a influência de D4 é mais
visível nas vogais posteriores média e alta, uma vez que há uma aproximação das
mesmas no plano de F2.
4.2.4.5. Considerações finais
No conjunto dos dados, verificou-se que as modificações dos triângulos vocálicos
provocadas pelos disfarces consistem na ampliação/redução das faixas de variação de
F1 e F2, aumento/diminuição da dimensão do polígono, deslocação do triângulo no
espaço acústico, alteração das distâncias acústicas entre as vogais e reorganização dos
segmentos.
De modo geral, as alterações produzidas por D1 traduzem-se na expansão da gama de
variação de F1 e F2, provocando a ampliação do triângulo vocálico, e/ou na deslocação
do polígono no espaço acústico, como resultado do aumento generalizado das
frequências de F1 e F2. No que diz respeito a D2, a presença deste disfarce resulta na
diminuição das faixas de variação de F1 e F2, originando o encolhimento do triângulo
vocálico. Contudo, os dados relativos a D2 não correspondem, na sua totalidade, ao
solicitado, visto que apenas três Informantes realizaram, efectivamente, a descida da
frequência fundamental. Neste sentido, alguns dos resultados obtidos não são tidos
em consideração, já que não podem ser entendidos como decorrentes da presença
deste disfarce. Relativamente a D3, observa-se que este não acarreta distorções na
configuração dos triângulos acústicos. Por último, o efeito de D4 causa a redução, não
muito acentuada, da dimensão do polígono, embora não se verifique nenhum tipo de
alteração nalguns Informantes. Assim, de entre os quatro disfarces analisados, D1 é o
que causa mais modificações na configuração do triângulo vocálico, ao passo que D3 é
o que menos interfere nas características do polígono.
77
Todavia, importa frisar que, como se demonstrou no ponto 4.2.2., existe uma
interacção entre as variáveis falante e disfarce, pelo que o efeito do(s) disfarce(s) não é
semelhante para todos os indivíduos. Apesar de haver tendências gerais associadas a
cada disfarce (aumento global das frequências dos formantes, por exemplo), tal não
significa que essas se verifiquem em todos os sujeitos. Desta forma, as transformações
que um disfarce em particular provoca no triângulo vocálico não são necessariamente
idênticas em todos os falantes.
Por outro lado, a variabilidade dos parâmetros acústicos é uma constante, visto que
existem sempre diferenças entre dois enunciados produzidos pelo mesmo falante nas
mesmas condições (variação intra-falante). Deste modo, ainda que um disfarce como
D3 não produza modificações nos triângulos vocálicos, as frequências dos formantes
não são exactamente iguais entre as duas condições de produção (VN e D3).
Adicionalmente, a extensão da variação intra-falante difere consoante os indivíduos,
sendo que nalguns falantes a variabilidade é maior do que noutros.
O triângulo vocálico é uma ‘ferramenta’ relevante para o Reconhecimento de Falantes,
na medida em que espelha as características anatómicas do tracto vocálico dos
indivíduos e as tendências articulatórias que adoptam enquanto falam, permitindo
fazer uma caracterização do falante. Neste sentido, toda a informação que é possível
extrair dos triângulos vocálicos, desde a sua configuração à organização interna dos
segmentos, constitui pistas extremamente importantes para a identificação do falante.
Assim, a tarefa do perito consiste em procurar as marcas específicas do indivíduo, que
permitam identificá-lo, e verificar através da comparação dos triângulos vocálicos se
esses traços individuais estão presentes nas duas amostras em análise. Porém, deve
salientar-se que, embora a análise e comparação do triângulo vocálico seja um método
valioso para a identificação, este não deve constituir uma prova única, mas deve antes
ser utilizado em conjunto com outros parâmetros acústicos e/ou outras pistas
linguísticas.
No que diz respeito à comparação de VN com D1, D2, D3 e D4, constata-se que,
mesmo na presença do disfarce, são preservadas algumas marcas individuais de cada
sujeto. Ainda que o(s) disfarce(s) provoque(m) alterações nos parâmetros acústicos,
78
em vários casos permanecem intactos alguns traços específicos dos falantes, tais como
a configuração do polígono, a conservação de clusters, a manutenção das distâncias
acústicas ou a própria organização dos segmentos. No entanto, nalgumas situações a
presença do disfarce não permite recuperar nenhuma marca particular, como se
verifica no Informante 2 em D1 (Figura 33).
79
5. CONCLUSÃO
Após a análise e discussão dos resultados, interessa agrupar as principais conclusões obtidas
com o presente trabalho, de forma a poder responder às questões de partida e confirmar ou
infirmar as hipóteses estabelecidas no ponto 3.1.
5.1. Conclusões
No que diz respeito à voz normal, a análise dos triângulos vocálicos permite demonstrar que
não existem valores fixos para as frequências das vogais, resultado do fenómeno da
coarticulação e da variação intra e inter-falante. Assim, a cada vogal corresponde um espaço
de dispersão no triângulo, que é determinado pelo sistema vocálico de cada língua. Neste
sentido, apesar de as zonas de incidência de cada vogal não serem idênticas para todos os
indivíduos, a variação dos segmentos é limitada, pois a sua posição relativa no triângulo
vocálico é aproximada dentro da mesma área para todos os falantes, desde que se
mantenham os mesmos factores de produção.
Por outro lado, as variadas configurações dos triângulos acústicos dos Informantes,
resultantes das dissemelhanças nos valores dos formantes das vogais, evidenciam as
diferenças entre os sujeitos relativamente às características anatómicas do tracto vocálico e
às tendências articulatórias adoptadas aquando da produção de fala. Desta forma, a
disposição dos segmentos, as distâncias acústicas entre as vogais, a faixa de variação de F1 e
F2, bem como a dimensão e localização do triângulo no espaço acústico permitem apontar
marcas específicas de cada falante e, consequentemente, distinguir os indivíduos entre si.
Os valores de F0 permitem verificar que este é um parâmetro relevante para a distinção de
indivíduos de sexos opostos, uma vez que a média da frequência fundamental é mais
elevada no sexo feminino do que no masculino. Do mesmo modo, a comparação dos valores
médios de F0 dos vários Informantes demonstra que a frequência fundamental é, também,
um parâmetro eficaz na distinção de falantes do mesmo sexo.
80
As frequências de F1, F2, F3 e F4 estabelecem, também, a separação entre Informantes de
sexos distintos, pois os valores dos formantes dos indivíduos do sexo masculino são mais
baixos do que os do sexo feminino. Da mesma forma, as frequências dos formantes
possibilitam a distinção entre falantes do mesmo sexo, dado que os valores diferem entre si,
embora a variação inter-falante seja superior nos formantes mais elevados (F3 e F4).
O facto de os valores dos formantes da mesma vogal não serem uniformes entre os
Informantes confirma a existência da relação falante/vogal. Porém, a variação entre os
indivíduos não é proporcional em todos os formantes. A menor variação inter-falante de F1
e F2 prende-se com o facto de estes formantes serem os responsáveis pela determinação da
identidade da vogal. Pelo contrário, as frequências de F3 e F4 são pouco variáveis em função
das vogais, mas são consideravelmente distintas entre os indivíduos, demonstrando que
estes parâmetros estão relacionados com as características anatómicas de cada falante.
Assim, a eficiência dos parâmetros na distinção de falantes é, por ordem de relevância, F0,
F4, F3, F1 e F2. Ainda que, individualmente, F1 e F2 apresentem resultados pouco
significativos, quando utilizados em conjunto são parâmetros satisfatórios para a
discriminação de indivíduos, como demonstram os triângulos vocálicos.
Em relação ao disfarce, pôde constatar-se que os diferentes disfarces não têm
consequências idênticas. Nos disfarces que envolvem a manipulação de F0, D1 traduz-se no
aumento das frequências de todos os parâmetros, ao passo que a influência de D2 é,
apenas, visível no decréscimo das frequências de F2 e F4. Os restantes parâmetros não são
afectados por D2, visto que F0, F1 e F3 mantêm valores semelhantes aos de VN.
Relativamente aos disfarces com recurso ao uso de um objecto, D3 não provoca alterações
em nenhum dos parâmetros acústicos e as modificações causadas por D4 manifestam-se
apenas em F2, F3 e F4, através da descida dos valores destes formantes. Deste modo,
infirma-se a primeira parte da Hipótese 1, que previa que a presença do disfarce interferiria
sempre nos parâmetros acústicos, visto que D3 não afecta nenhum dos parâmetros.
81
No entanto, a segunda parte da Hipótese 1, que afirmava que determinados disfarces
provocam mais modificações no sinal acústico, é válida, pois D1 afecta todos os parâmetros,
enquanto D2 e D4 interferem apenas em F2/F4 e F2/F3/F4, respectivamente.
Neste sentido, confirma-se também a Hipótese 2, que afirmava que a influência de um tipo
de disfarce não seria homogénea entre os vários parâmetros acústicos. De facto, os
diferentes parâmetros não são igualmente afectados pelo mesmo disfarce, uma vez que este
pode modificar todos os parâmetros acústicos (D1), mas pode ter o foco de alteração
centralizado apenas nalguns parâmetros em particular (D2 e D4).
A análise do efeito dos disfarces em cada parâmetro, individualmente, demonstrou que F0 é
alterado apenas em D1, pois, nos restantes disfarces, os valores da frequência fundamental
mantêm-se idênticos aos de VN; F1 não é alterado na presença de D3 e D4, mas sofre
modificações em D1 e D2; as frequências de F2 permanecem invariáveis apenas em D3, dado
que D1 potencia o aumento dos valores deste formante e o valor das frequências diminui
em D2 e D4; a modificação de F3 ocorre através do aumento das frequências em D1,
diminuição das mesmas em D4 e manutenção dos valores em D2 e D3; por fim, F4 não é
alterado em D3, mas verifica-se o aumento das frequências em D1 e a descida dos valores
em D2 e D4.
Desta forma, confirma-se a Hipótese 3, que afirmava que cada parâmetro acústico pode ser
afectado por um tipo de disfarce, mas ser impermeável a outro, visto que o mesmo
parâmetro não é alterado por todos os disfarces.
Assim, conclui-se que os disfarces não actuam todos da mesma forma e que há,
efectivamente, disfarces mais eficazes do que outros. No conjunto dos disfarces estudados,
D1 é o disfarce mais eficiente, pois potencia um aumento das frequências de todos os
parâmetros, ao passo que D3 demonstrou ser ineficaz, visto que a sua presença não acarreta
modificações em nenhum dos parâmetros acústicos. Por outro lado, uma vez que cada
parâmetro não é igualmente afectado por todos os disfarces, conclui-se que a sua robustez
está directamente relacionada com o tipo de disfarce utilizado.
82
Verificou-se que a variação inter-falante existe não só na voz normal, mas também no
disfarce, pelo que a variabilidade dos vários parâmetros em função do disfarce está
dependente de cada indivíduo. Existe, portanto, uma relação entre disfarce e falante, uma
vez que as mudanças produzidas pelos disfarces não são idênticas entre os Informantes,
sendo que um parâmetro pode ser alterado num indivíduo e permanecer inalterado noutro.
Desta forma, a eficiência do(s) disfarce(s) está relacionada com o desempenho de cada
falante na performance do disfarce, sobretudo naqueles que implicam a manipulação dos
articuladores do aparelho fonador, como D1 e D2. Consequentemente, ainda que todos os
Informantes tenham sido capazes de efectuar D1, D2 não foi bem conseguido pela maior
parte dos indivíduos, já que não conseguiram produzir o abaixamento de F0.
Averiguou-se, ainda, que a influência do(s) disfarce(s) não é homogénea entre as vogais e
que o efeito do disfarce em função da vogal não é semelhante em F1 e F2. A presença de D1
manifesta-se em todas as vogais, mas o aumento das frequências de F1 é mais elevado nas
vogais baixas ( [ɛ], [a], [ɔ] ), ao passo que, em F2, os segmentos mais afectados são as vogais
anteriores ( [i], [e], [ɛ] ). Em D2, há uma ligeira descida nos valores de F1 das vogais baixas [a]
e [ɔ], embora a interferência do disfarce seja quase insignificante neste formante. Ainda que
todas as vogais sofram uma descida nas frequências de F2, é na vogal [i] que o impacto do
disfarce é mais relevante. Com respeito a D3, não houve alterações significativas nas
frequências de F1 e F2, apesar de o valor de F2 da vogal [i] diminuir superficialmente.
Quanto a D4, registam-se modificações consideráveis apenas nas frequências de F2 das
vogais anteriores ( [i], [e], [ɛ] ).
Por fim, a confrontação dos triângulos vocálicos de VN com D1, D2, D3 e D4 demonstra que
D1 é o disfarce que causa mais modificações no formato do triângulo vocálico, enquanto que
D3 é o que menos interfere nas características do polígono. Apesar de a presença do(s)
disfarce(s) se reflectir nos triângulos vocálicos, verificou-se que são preservadas algumas
marcas individuais de cada falante, tais como a configuração do triângulo vocálico, a
tendência de localização das vogais, a manutenção de clusters, a não alteração das distâncias
83
acústicas entre as vogais ou a preservação da organização interna dos segmentos. A
recuperação dos traços específicos de cada indivíduo no disfarce é extremamente
importante, pois é através destes que se podem relacionar duas amostras de fala e,
consequentemente, associá-las ao mesmo falante. Contudo, num caso em particular, o
disfarce é tão invasivo que não é possível estabelecer a ligação entre os dois triângulos, já
que no polígono correspondente ao disfarce não é mantida nenhuma característica do
Informante.
Por outro lado, as alterações do triângulo vocálico provocadas pelo disfarce não são
idênticas em todos os indivíduos, uma vez que existe uma relação entre o disfarce e o
falante. Assim, o mesmo disfarce pode resultar na deslocação do triângulo vocálico no
espaço acústico num falante e no aumento da sua dimensão noutro indivíduo.
Para concluir, demonstrou-se que:
(i)
a diferente configuração e localização do triângulo vocálico no espaço acústico
resulta da variação inter-falante;
(ii)
os parâmetros relevantes para a distinção de falantes na voz normal são F0, F3 e
F4, mas também F1 e F2 se utilizados em conjunto;
(iii)
os vários disfarces não actuam todos da mesma forma;
(iv)
há disfarces mais eficientes do que outros;
(v)
cada parâmetro acústico não é afectado de igual modo pelos vários disfarces;
(vi)
a robustez dos parâmetros está dependente do tipo de disfarce;
(vii)
algumas vogais são mais permeáveis à influência do(s) disfarce(s);
(viii)
mesmo na presença do(s) disfarce(s), são preservadas algumas marcas individuais
de cada falante, que se podem observar através dos triângulos vocálicos.
5.2. Limitações do estudo
A principal limitação do presente estudo prende-se com o facto de um dos disfarces (D2) não
ter sido bem sucedido. Tal como se demonstrou através da análise de D2, a maioria dos
Informantes não efectuou a descida da frequência fundamental. Assim, os resultados
84
obtidos são, de certa forma, condicionados, uma vez que não revelam com precisão a
influência do disfarce nos parâmetros acústicos analisados. No entanto, apesar de o
conjunto dos dados relativos a este disfarce não espelhar, com rigor, as alterações
provocadas nos parâmetros, estes resultados permitiram concluir que a performance do
disfarce está dependente de cada falante, pelo que o mesmo tipo de disfarce não é eficaz
para todos os indivíduos.
Adicionalmente, o reduzido tamanho da amostra e as suas características (faixa etária e
dialecto) podem ser apontados como um factor limitador, na medida em que não são
representativos do padrão populacional.
5.3. Perspectivas futuras
Numa perspectiva futura, aposta-se, em primeiro lugar, na análise mais aprofundada dos
parâmetros acústicos estudados, bem como a extensão da análise a outros parâmetros
relevantes para o Reconhecimento de Falantes. Importa prosseguir a investigação na
procura de parâmetros, por um lado, potencialmente discriminadores da identidade e, por
outro, robustos perante o disfarce. Desta forma, é fundamental estender a investigação a
diferentes parâmetros como a banda formântica, a transição entre segmentos, a amplitude,
a duração de segmentos, o jitter, o shimmer, entre outros. Do mesmo modo, é essencial
alargar a investigação a outros tipos de disfarce que surgem no contexto forense, como a
nasalidade, o sussurro, a mudança de dialecto ou a rouquidão, por exemplo, de forma a
compreender a acção de cada um nos parâmetros geralmente utilizados na Identificação de
Falantes. Por outro lado, é relevante estender o presente estudo a uma amostra mais
abrangente, relativamente à faixa etária e à variedade dialectal. Fica, ainda, por explorar a
perspectiva perceptiva do disfarce da voz, já que é necessário verificar em que medida é que
o disfarce difere do ponto de vista perceptivo e acústico. Por agora, fica o contributo da
presente investigação como ponto de partida para o conhecimento e desenvolvimento dos
estudos sobre o disfarce da voz no âmbito da Fonética Forense.
85
BIBLIOGRAFIA
Amino, Kanae & Arai, Takayuki (2008). Effects of linguistic contents on perceptual speaker
identification: comparison of familiar and unknown speaker identifications. Acoustical
Science and Technology, 30(2): 89-99.
Amino, Kanae & Arai, Takayuki (2009). Speaker-dependent characteristics of the nasals.
Forensic Science International, 185: 21-28.
Bahr, Ruth (2007). Age as a disguise in a voice identification task. Fundamentals of Verbal
and Nonverbal Communication and the Biometric, 18(1): 129-139.
Ball, Martin & Rahilly, Joan (1999). Phonetics: the science of speech. London: Arnold.
Blatchford, Helen & Foulkes, Paul (2006). Identification of voices in shouting. International
Journal of Speech, Language and the Law, 13: 241-254.
Boë, Louis-Jean (2000). Forensic voice identification in France. Speech Communication, 31:
205-224.
Boersma, Paul & Weenink, David (2007). Praat – doing phonetics by computer. Version
5.1.23. [www.praat.org].
Bolt, Richard et al. (1970). Speaker identification by speech spectrograms: a scientists’ view
of its reliability for legal purposes. Journal of the Acoustical Society of America, 47(2):
597-612.
Bonastre, Jean-François et al. (2003). Person authentication by voice: a need for caution.
Proceedings of the European Conference on Speech, Communication and Technology,
Switzerland.
Broeders, A. (2001). Forensic speech and audio analysis forensic linguistics. Proceedings of
the 13th INTERPOL Forensic Sciences Symposium, 16-19 October, Lyon.
Champod, Christophe & Meuwly, Didier (2000). The inference of identity in forensic speaker
recognition. Speech Communication, 31(2-3): 193-203.
Clark, John & Yallop, Colin (1995). An introduction to phonetics and Phonology. 2ª edição.
Oxford: Blackwell Publishers.
Delgado-Martins, Maria Raquel (1973). Análise acústica das vogais tónicas em Português.
Boletim de Filologia, 22: 303-314.
86
Delgado-Martins, Maria Raquel (1992). Ouvir falar: Introdução à Fonética do Português. 2ª
edição. Lisboa: Caminho.
Delgado-Martins, Maria Raquel (2002). Fonética do Português: trinta anos de investigação.
Lisboa: Caminho.
Fant, Gunnar (1960). The acoustic theory of speech production. The Hague: Mouton.
Figueiredo, Ricardo (1994). Identificação de falantes: aspectos teóricos e metodológicos.
Dissertação de Doutoramento. Universidade Estadual de Campinas.
Fry, Dennis (1979). The physics of speech. Cambridge: Cambridge University Press.
Ghiurcau, Marius et al. (2010). A study of the effect of emotional state upon the variation of
fundamental frequency of a speaker. Journal of Applied Computer Science &
Mathematics, 4: 79-82.
Hansen, John (1996). Analysis and compensation of speech under stress and noise for
environmental robustness in speech recognition. Speech Communication - special issue
on speech under stress, 20(1&2): 151-170.
Hardcastle, William & Laver, John (1997). The handbook of phonetic sciences. Oxford:
Blackwell Publishers.
Harnsberger, James et al. (2008). Speaking rate and fundamental frequency as speech cues
to perceived age. Journal of Voice, 22(1): 58-69.
Hollien, Harry & Schwartz, Reva (2001). Speaker identification utilizing noncontemporary
speech. Journal of Forensic Science, 46(1): 63-67.
Jessen, Michael (2008). Forensic phonetics. Language and Linguistics Compass, 2(4): 671711.
Jessen, Michael et al. (2005). Influence of vocal effort on average and variability of
fundamental frequency. Speech, Language and the Law, 12(2): 174-213.
Johnson, Keith (1997). Acoustic and auditory phonetics. Oxford: Blackwell Publishers.
Koenig, Bruce (1986). Spectrographic voice identification: a forensic survey. Journal of the
Acoustical Society of America, 79(6): 2088-2090.
Kredens, Krzysztof & Góralewska-Lach, Grazyna (1998). Language as sole incriminating
evidence: the Augustynek case. Forensic Linguistics, 5(2): 194-202.
Kuehn D. & Moll, K. (1976). A cineradiographic of VC and CV articulatory velocities. Journal of
Phonetics, 4: 303-320.
87
Künzel, Hermann (1989). How well does average fundamental frequency correlate with
height and weight identification? Phonetica, 46: 117-125.
Künzel, Hermann (1995). The relation between speech tempo, loudness, and fundamental
frequency: an important issue in forensic speaker identification. Science and Justice,
35(4): 291-295.
Künzel, Hermann (2000). Effects of voice disguise on speaking fundamental frequency.
Journal of Speech, Language and the Law, 7(2): 150-179.
Ladefoged, Peter (1982). A course in phonetics. New York: Hartcourt Publishers.
Ladefoged, Peter (1996). Elements of acoustic phonetics. 2ª edição. Chicago: The University
of Chicago Press.
Lass, Norman et al. (1976). Speaker sex identification from voiced, whispered, and filtered
isolated vowels. Journal of the Acoustical Society of America, 59(3): 675-678.
Lass, Norman et al. (1979). The effect of phonetic complexity on speaker height and weight
identification. Language and Speech, 22: 297-309.
Laver, John (1980). The phonetic description of voice quality. Cambridge: Cambridge
University Press.
Lavner, Yizhar et al. (2000). The effects of acoustic modifications on the identification of
familiar voices speaking isolated vowels. Speech Communication, 30: 9-26.
Lieberman, Philip & Blumstein, Sheila (1988). Speech physiology, speech perception and
acoustic phonetics. Cambridge: Cambridge University Press.
Lu, Xugang & Dang, Jianwu (2008). An investigation of dependencies between frequency
components and speaker characteristics for text-independent speaker identification.
Speech Communication, 50: 312-322.
Martinez, Luís & Ferreira, Aristides (2008). Análise de dados com SPSS. 2ª edição. Lisboa:
Escolar Editora.
Mateus, Maria Helena Mira et al. (2005). Fonética e Fonologia do Português. Lisboa:
Universidade Aberta.
Nolan, Francis (1983). The phonetic basis of speaker recognition. Cambridge: Cambridge
University Press.
Nolan, Francis (1994). Auditory and acoustic analysis in speaker recognition. In Gibbons,
John, Language and Law. New York: Longman Publishing.
88
Perrot, Patrick et al. (2007). Detection and recognition of voice disguise. Proceedings of the
16th International Association for Forensic Phonetics and Acoustics, 22-25 July,
Plymouth.
Perrot, Patrick & Chollet, Gérard (2008). The question of disguised voice. Proceedings of
Acoustics 2008, 29 Juin-4 July, Paris.
Reich, Alan et al. (1976). Effects of selected voice disguises upon spectrographic speaker
identification. Journal of the Acoustical Society of America, 60(4): 919-925.
Rodman, Robert & Powell, Michael (2000). Computer recognition of speakers who disguise
their voice. Proceedings of the 2007 International conference on signal processing
applications and technology, 16-19 October, Dallas.
Romero, Carlos (2001). La identificación de locutores en el ámbito forense. Dissertação de
Doutoramento. Universidade Complutense de Madrid.
Rose, Phil (2006). Technical forensic recognition: evaluation, types and testing of evidence.
Computer Speech and Language, 20: 159-191.
Rose, Philip (2002). Forensic speaker identification. London: Taylor & Francis.
Rose, Philip & Simmons, Alison (1996). F-pattern variability in disguise and over the
telephone – comparisons for forensic speaker identification. Proceedings of the 6th
Australian International Conference on Speech Science and Technology, 10-12
December, Adelaide.
Shipp, Thomas & Hollien, Harry (1969). Perception of the aging male voice. Journal of Speech
and Hearing Research, 12: 703-710.
Sjöström, Maria et al. (2006). A switch of dialect as a disguise. Working Papers 52, Lund
University, Centre for Languages and Literatures, Department of Linguistics &
Phonetics: 113-116.
Solov’eva, E. et al. (2007). Use of pitch and formant analysis in speech biometry. Biomedical
Engineering, 41(1): 34-38.
Stevens, Kenneth (2000). Acoustic Phonetics. Cambridge: Massachusetts Institute of
Technology Press.
Van Lancker, Diana et al. (1985). Familiar voice recognition: patterns and parameters.
Journal of Phonetics, 13: 19-38.
Yarmey, Daniel et al. (2001). Commonsense beliefs and the identification of familiar voices.
Applied Cognitive Psychology, 15: 283-299.
89
Zetterholm, Elisabeth (2002). A case study of successful voice imitation. Logopedics
Phoniatrics Vocology, 27(2): 80-83.
Zetterholm, Elisabeth (2002). A comparative survey of phonetic features of two
impersonators. Proceedings of Phonetik 2002, 44(1): 129-132.
Zhang, Cuiling & Tan, Tiejun (2008). Voice disguise and automatic speaker recognition.
Forensic Science International, 175(2): 118-122.
Zhang, Cuiling et al. (2006). Intra- and inter-speaker variations of formant pattern for lateral
syllables in Standard Chinese. Forensic Science International, 158: 117-124.
90
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
166
179
179
163
163
168
164
163
158
165
171
158
170
162
158
164
163
156
165
162
152
156
163
158
164
166
152
157
163
6
F1
367
344
622
307
449
335
321
417
601
463
394
734
459
422
711
486
321
784
431
321
408
601
431
431
316
321
772
454
465
146
F2
1009
1073
1371
1014
1133
2518
2376
1211
1141
1945
2238
1472
2027
2155
1518
1321
968
1234
1844
2687
931
1165
2100
2032
1011
2678
1362
2105
1630
571
F3
2990
2889
3013
2917
3013
2940
2857
3004
3073
2972
2931
3036
2999
2889
3008
3045
2963
2999
2940
3146
2958
3059
2976
2972
2990
3141
2958
2986
2988
67
Informante 1
F4
3596
3967
3820
3875
3820
4265
4063
3761
3751
3788
4105
4238
3788
3898
3825
3806
3898
4040
3738
3793
3912
4095
3550
4059
3811
3751
3885
176
F0
216
247
231
252
210
193
223
218
212
217
212
221
204
202
194
192
234
192
197
213
207
196
209
189
221
228
192
203
212
17
F1
445
376
816
353
477
321
371
431
683
552
423
920
418
409
883
665
431
782
653
371
451
656
423
386
408
294
869
579
530
186
F2
917
1059
1312
1059
1055
2692
2201
1270
1096
1821
2326
1531
2161
2340
1563
1321
1202
1205
1637
2683
1099
1202
2198
2166
1094
2536
1365
2005
1647
569
F3
3031
2931
2729
2807
3036
3041
2669
2976
2697
2602
2828
2409
2676
2864
2285
2642
2990
2570
2713
3041
2660
2527
2708
2717
2770
2843
2405
2538
2739
205
Informante 2
F4
4238
4059
4283
3829
4233
4288
4100
4109
4165
4391
4216
4253
4170
4101
4027
4485
3968
4331
3884
4068
4013
4317
4248
4146
4018
4158
156
F0
96
106
96
101
98
94
99
100
95
97
93
94
90
97
96
94
95
94
96
100
94
93
97
106
96
100
99
98
97
4
F1
390
257
541
275
413
289
303
431
509
504
390
647
495
390
624
537
349
569
514
307
440
518
422
422
353
280
633
514
440
114
F2
784
780
1014
702
894
2022
2013
940
903
1445
1766
1202
1674
1917
1289
1023
926
972
1445
2055
949
949
1738
1766
876
2045
1078
1610
1313
458
F3
2509
2495
2522
2362
2651
2646
2463
2642
2564
2096
2449
2499
2504
2476
2426
2619
2412
2559
2499
2522
2408
2481
2366
2463
2233
2623
2454
2316
2474
124
Informante 3
F4
3224
3508
3224
3926
3073
3563
3357
3307
3252
3224
3389
3513
3490
3366
3554
3476
3385
3417
3513
3279
3252
3192
3311
3375
3137
3242
3403
3389
3369
169
F0
197
180
193
201
182
176
193
185
173
181
189
171
184
186
170
179
181
173
176
184
182
185
185
180
182
194
167
179
182
8
F1
514
353
601
394
468
303
367
431
615
555
390
775
546
381
743
615
365
702
546
358
491
560
399
404
353
307
743
532
493
139
F2
1051
1128
1302
1046
1059
2665
2389
1128
1142
1903
2220
1495
1972
2146
1495
1238
922
1229
1761
2550
1064
1215
2169
2151
1105
2554
1362
2055
1626
560
F3
2949
2843
3210
2853
3114
2944
2935
3022
3109
2802
2830
3114
2871
2779
3008
3077
3031
2981
2917
3132
2912
3045
2724
2848
2871
2908
2412
2866
2932
158
Informante 4
F4
3747
4091
3857
4013
3949
4169
4054
3930
3843
3962
4334
4169
4293
4288
4132
3834
4141
3898
4164
4072
3820
3871
4233
4228
4027
4091
3866
4127
4043
163
ANEXO 1
Valores F0, F1, F2, F3, F4 – VN
91
92
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
105
106
100
99
96
108
91
94
97
102
97
90
97
91
89
91
87
92
91
101
96
82
90
87
96
94
89
94
95
6
F1
339
307
587
275
431
257
289
431
523
527
408
670
495
385
670
569
261
647
523
280
408
560
399
408
312
275
660
523
444
136
F2
761
913
1169
825
1036
2197
2096
1224
1023
1605
1789
1270
1743
1903
1312
1142
793
1096
1596
2142
931
1046
1830
1834
837
2288
1151
1724
1403
477
F3
2490
2366
2582
2431
2449
2784
2550
2541
2385
2394
2376
2371
2559
2504
2022
2366
2467
2206
2568
2733
2334
2128
2357
2476
2293
2967
2192
2362
2438
195
Informante 5
F4
3192
3210
3641
3146
3229
3490
3389
3453
3605
3499
3596
3724
3687
3522
3742
3701
3774
3715
3472
3086
3628
3463
3573
3187
3545
3637
3591
3500
202
F0
122
120
131
128
131
122
130
121
128
119
122
121
120
121
111
129
116
127
131
124
124
123
129
124
129
122
115
124
124
5
F1
360
321
518
330
393
284
289
397
513
472
367
647
472
390
601
527
303
637
482
284
444
494
390
408
344
280
642
514
432
114
F2
813
968
1151
917
1017
1940
1876
1077
970
1637
1807
1234
1679
1816
1321
1164
803
1073
1610
2022
966
956
1793
1743
894
1986
1174
1665
1360
411
F3
2578
2458
2583
2389
2638
2316
2311
2555
2717
2293
2376
2646
2357
2353
2541
2652
2665
2660
2518
2320
2403
2574
2270
2321
2325
2357
2463
2293
2462
143
Informante 6
F4
3322
3192
3429
3054
3378
3366
3297
3401
3553
3453
3435
3715
3508
3394
3696
3539
3238
3628
3541
3361
3198
3433
3316
3449
3100
3320
3770
3522
3415
174
F0
191
202
189
204
187
193
193
195
186
190
191
187
185
176
195
180
185
176
182
199
200
189
182
182
184
193
182
174
188
8
F1
514
367
807
344
537
303
353
417
720
601
381
839
601
394
807
752
367
775
601
390
504
720
440
459
349
344
862
537
539
180
F2
1105
1174
1454
1147
1206
2344
2119
1376
1247
1775
2022
1637
1871
1981
1619
1367
1078
1229
1775
2389
1380
1261
1954
1908
1335
2288
1440
1894
1621
403
F3
2646
2816
2628
2862
2926
2655
2651
2912
2775
2706
2678
2908
2798
2614
2724
2857
3086
2752
2926
2729
2692
2765
2614
2660
2784
2793
2532
2665
2756
124
Informante 7
F4
3825
3806
4123
3949
3788
4105
4201
3990
3994
4316
4279
4563
4352
4215
4499
4407
3962
4132
4471
4077
3875
3949
4228
4384
4091
3935
4389
4145
226
F0
99
101
98
107
101
101
100
98
99
98
99
101
94
98
89
94
98
97
102
104
97
100
101
102
99
99
90
104
99
4
F1
390
303
504
303
417
257
280
399
486
486
390
592
472
390
596
523
335
582
482
303
381
486
390
394
349
271
587
436
421
102
F2
807
830
1087
789
922
2073
1876
972
835
1587
1724
1280
1637
1766
1275
1050
738
1073
1403
1958
858
871
1711
1729
844
1958
1137
1646
1301
437
F3
2293
2403
2321
2284
2366
2463
2261
2467
2270
2123
2238
2376
2279
2298
2243
2307
2371
2160
2261
2550
2298
2133
2201
2293
2288
2266
2027
2137
2285
112
Informante 8
F4
3302
3343
3343
3187
3430
3559
3467
3252
3339
3389
3573
3444
3371
3582
3453
3403
3352
3536
3284
3412
3380
3288
3339
3449
3362
3531
3440
3068
3389
117
F0
abono 434
abutre 467
adónis 399
adubo 425
andorra 380
ardido 420
asilo
410
azoto
395
babosa 398
barbela 451
cabeça 467
cadáver 372
cadela 368
cadete 395
casaco 366
casota 344
casulo 403
cavalo 369
donzela 369
ervilha 427
favores 394
gaivota 419
gaveta 432
gazeta 411
gravura 393
nabiça 412
tabaco 372
travessa 378
média 402
d.p.
31
Palavra
F1
468
472
780
431
491
422
408
518
766
853
454
766
784
468
752
674
408
761
770
431
509
798
518
468
408
408
793
775
591
165
F2
958
1032
1211
1229
1009
2843
2554
1110
1197
1775
2550
1362
2444
2454
1376
1280
1119
1325
1720
2802
926
1238
2596
2532
853
2798
1385
2279
1713
698
F3
3146
3316
3274
3064
3160
3284
3274
3485
3307
3178
3123
3389
3151
3206
2917
3444
3201
3440
3270
3412
3178
3508
3105
3270
3082
3261
3375
2921
3241
152
Informante 1
F4
3926
4132
4265
4288
3843
4013
4357
4118
196
F0
260
274
255
256
252
482
259
257
269
258
247
253
268
255
253
268
263
265
264
277
264
272
268
257
265
262
249
270
269
42
F1
674
537
958
518
944
495
518
913
1023
1018
518
1036
1124
532
1014
995
537
1029
1014
560
582
1032
560
523
537
518
944
890
769
236
F2
1101
1096
1101
1091
1059
2981
2600
1307
1144
2499
2587
1949
2339
2609
1949
1137
1119
1495
2541
2761
1069
1174
2669
2564
1078
3123
1500
2389
1858
737
F3
3210
3582
3086
2976
3843
3151
3476
3330
2495
3802
3174
2834
2999
3256
3866
3440
2495
3692
3262
415
Informante 2
F4
4137
4857
4036
4733
4114
4435
3577
4462
4421
4219
4283
4270
4201
4559
4439
4293
4467
4169
3972
4297
285
F0
423
385
426
404
402
377
396
428
373
473
442
419
419
444
346
454
405
431
385
374
411
371
423
392
416
393
402
387
407
28
F1
477
390
715
408
454
390
404
518
564
720
500
837
619
454
743
743
408
853
615
390
445
509
472
440
427
390
794
560
544
150
F2
885
1110
1266
1165
1183
2325
2380
1069
954
1981
2220
1133
2142
2220
1046
1293
1101
1275
2110
2238
991
1055
2197
2013
1105
2348
1252
1995
1573
550
F3
2710
2953
2798
2742
2683
3086
3155
2834
2958
2811
3316
2807
2958
2875
2940
2706
2908
3527
2834
2541
2871
2905
222
Informante 3
F4
3403
3403
3871
3412
3770
3976
3614
3632
3829
4504
3527
4059
3747
3825
3755
301
F0
F1
F2
F3
F4
451 518 963 3793 4297
462 472 1206 3729 4215
441 890 1357 3618 4132
451 454 1197 3871 4499
439 610 1188
4279
241 472 2896 3385 4696
445 454 2903 3568 4586
450 569 1348 3586 4504
400 839 1302 3802 4403
475 926 2321 3563
411 482 2458 3458 4416
420 1252 1674 3747
445 871 2133 3485
468 472 2742 3540 4609
408 1238 1784 3655
431 885 1376 3802 4279
454 472 1197 3770
436 752 1293 3894
446 780 1990 3559
439 436 3077 3518 4742
419 560 1151 3761
458 871 986 3774 4196
479 504 2431 3366
443 454 2605 3563 4756
436 449 1307 3573 4316
478 472 2862 3380 4655
246 945 1445 3485
237 812 2371 3407
422 675 1842 3617 4446
67 243 693 158 202
Informante 4
ANEXO 2
Valores F0, F1, F2, F3, F4 – D1
93
94
F0
abono 321
abutre 324
adónis 317
adubo 307
andorra 309
ardido 305
asilo
301
azoto
312
babosa 265
barbela 343
cabeça 320
cadáver 279
cadela 313
cadete 303
casaco 307
casota 295
casulo 298
cavalo 289
donzela 280
ervilha 294
favores 319
gaivota 276
gaveta 310
gazeta 315
gravura 269
nabiça 280
tabaco 285
travessa 287
média 301
d.p.
19
Palavra
F1
468
335
647
321
358
303
303
362
711
679
367
913
624
335
825
624
303
807
550
303
390
748
326
362
353
280
848
555
500
204
F2
968
848
1234
926
917
2454
2412
1096
1029
1807
2036
1463
1789
2119
1486
1087
885
1188
1922
2476
968
940
2220
1940
903
2504
1376
2013
1536
581
F3
3174
3123
3128
3082
3059
3008
3426
3022
3031
2752
2788
2798
2830
2756
3265
4141
2917
2908
3132
2820
2788
2816
3114
2596
2853
3013
303
Informante 5
F4
3843
3889
3962
4095
4114
4279
4545
4095
3917
4247
3862
3843
4091
3696
3917
4141
4036
4072
4146
3949
4155
4123
4490
3811
4013
4053
200
F0
466
473
455
474
466
453
453
452
446
453
449
451
437
430
453
445
476
431
461
452
463
452
447
438
453
464
444
452
453
12
F1
514
477
839
486
592
454
454
518
885
550
518
901
821
477
862
853
486
825
879
454
527
968
477
500
477
472
848
807
640
187
F2
1018
1110
991
1238
1357
2119
2302
1018
1587
1880
1724
1472
1743
2215
1316
1275
1105
1293
1894
2302
1059
1362
1729
1724
1128
2334
1330
1766
1550
431
F3
2853
3352
2568
3444
2692
2619
3609
2710
2628
2596
2476
2761
2628
3761
2875
3380
3563
2830
2467
2137
3086
3719
2943
466
Informante 6
F4
4481
3747
4880
4536
4715
4155
4040
4792
4426
4490
4843
3412
4783
4756
4433
444
F0
F1
F2
F3
F4
F0
411 569 1023 3132 4004 495
455 472 1302 3261 4095 435
410 863 1279 3286
480
416 408 1142 3274 4173 470
386 693 1201 3082 4215 459
458 454 2816 3174 4531 374
389 390 2706
4522 475
396 537 968 3146 4338 473
379 908 1344
461
463 858 2820
254
475 504 2885
4375 498
466 1160 1789 3206 4618 466
443 789 2266 3132
467
428 660 2692
468
409 569 1247 3284 4563 470
460 890 1431 3320
465
364 390 1004 3485 4183 468
412 917 1298 3320
465
382 1055 2293 3114 4270 453
363 367 2697 3297 4348 456
441 569 922 3082 4017 450
383 858 1289
469
370 742 2261 3307 4449 466
395 766 2587 3320 4627 464
442 454 945 3164 3985 444
410 431 2623 3238 4329 462
369 1101 1679 3339
467
321 821 2183 3123 4471 464
411 686 1810 3231 4322 455
38 234 712 103 208 45
Informante 7
F1
495
495
637
482
495
495
472
509
624
615
518
876
541
482
835
610
472
665
702
454
518
693
486
486
454
472
807
527
568
121
F2
991
1018
1353
1110
1059
2004
1798
1321
1124
1601
1967
1206
1844
1830
1376
1229
1000
1133
1798
2293
1091
1247
1793
1688
922
1807
1270
1766
1451
382
F3
2499
3453
2394
2623
2325
2710
2357
2454
2344
2128
2215
2344
2278
2330
2518
2476
2779
3577
2449
2307
2252
2188
2527
2353
2068
2252
2469
350
Informante 8
F4
3476
3614
3729
3761
3660
3820
3738
3770
3637
3802
3751
3760
3751
3884
3738
3660
3696
3878
3632
3641
3573
3683
3696
3692
3706
3715
3710
89
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
229
233
205
198
205
220
204
191
199
205
193
181
198
209
183
190
202
179
187
196
197
191
194
199
205
201
186
182
199
13
F1
454
381
610
381
459
266
312
408
592
482
404
738
592
431
766
569
390
697
560
330
440
564
399
408
367
252
738
546
483
142
F2
981
883
1073
986
1014
2435
2476
977
1023
1789
2339
1426
2119
2353
1417
1179
995
1192
1862
2591
981
1124
2334
2275
844
2614
1298
2165
1598
636
F3
2834
2830
2885
2788
2885
2908
2931
2917
2963
2706
2857
2935
2963
2843
2848
2908
2802
2894
2843
2999
2880
2972
2885
2885
2889
3160
2894
2880
2892
80
Informante 1
F4
3568
3770
3522
3733
3550
4013
4031
3609
3696
3637
3903
3843
4118
4017
3843
3586
3609
3829
3857
3898
3715
3673
3862
4008
3761
3949
3843
3912
3798
165
F0
199
198
198
194
186
200
200
199
191
199
202
192
187
191
197
184
182
181
183
198
189
186
207
201
193
199
187
191
193
7
F1
316
275
536
266
376
225
316
390
477
529
386
561
474
372
575
537
316
524
524
316
336
495
395
363
290
266
566
455
409
109
F2
903
780
1004
968
903
1949
1857
1133
958
1421
1830
1140
1531
1775
1218
1302
940
1067
1595
1885
777
991
1710
1715
1025
1990
1200
1600
1327
395
F3
2554
2405
2853
2155
2614
3279
3403
2527
2775
2400
2336
2685
2593
2524
2628
2458
2864
2671
2816
2657
2843
2188
2349
2370
2724
2818
2483
2629
285
Informante 2
F4
3155
3385
3252
3229
3261
3394
3338
3425
3513
3439
3402
3448
3527
3325
3384
3490
3380
3094
3325
3306
3402
3403
3637
3467
3374
121
F0
114
119
113
115
112
110
115
115
119
113
114
113
114
108
113
115
107
105
111
112
108
108
110
111
110
115
111
111
112
3
F1
408
275
555
280
408
303
248
381
486
463
371
693
472
335
670
546
307
592
459
294
390
514
371
394
284
238
592
468
421
126
F2
917
922
1096
848
885
2073
1995
926
917
1582
1834
1266
1683
1899
1293
1105
885
1041
1582
2013
899
931
1793
1880
881
2045
1124
1679
1357
451
F3
2353
2316
2454
2421
2536
2669
2440
2545
2637
2105
2316
2476
2399
2467
2454
2550
2366
2687
2412
2444
2614
2678
2266
2389
2215
2444
2532
2119
2439
152
Informante 3
F4
3064
3151
3210
3288
3146
3463
3343
3394
3022
3238
3481
3371
3476
3389
3660
3261
3219
3472
3495
3307
3132
3151
3270
3453
3183
3320
3481
3458
3318
155
F0
199
224
193
211
201
190
211
194
195
180
211
185
189
208
189
190
202
191
195
211
198
184
206
195
204
209
175
202
198
11
F1
394
307
793
261
390
206
238
349
495
523
408
807
440
390
835
509
394
848
371
229
385
385
408
390
294
216
837
353
445
198
F2
954
830
1165
965
1078
2366
2325
1014
1069
1853
2192
1490
2045
2288
1527
1202
922
1188
1917
2481
981
1082
2183
2252
977
2366
1362
2119
1578
580
F3
2935
2912
3018
2953
3004
2903
2798
3054
3114
2632
2683
3183
2820
2788
2747
3068
2949
2935
2921
3064
2958
3132
2756
2811
2605
2885
2995
3054
2917
150
Informante 4
F4
3678
3811
3605
4146
3609
3889
3985
3696
3733
3724
3907
3843
3733
3802
3692
3811
3715
3779
3949
3953
3926
3852
3747
3808
131
ANEXO 3
Valores F0, F1, F2, F3, F4 – D2
95
96
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
89
89
90
84
93
96
93
85
85
92
87
81
87
86
80
85
82
78
86
89
85
82
87
88
87
87
90
88
87
4
F1
344
238
550
294
436
257
275
404
509
518
408
688
518
390
688
560
252
624
495
252
371
523
417
422
252
248
688
523
434
144
F2
693
592
1096
848
977
2142
1972
936
885
1431
1793
1229
1692
1871
1202
1023
706
1036
1568
1935
784
954
1793
1738
660
2091
1192
1559
1300
485
F3
2449
2421
2738
2362
2376
2609
2504
2486
2697
2270
2339
2454
2403
2399
2229
2674
2266
2366
2444
2490
2311
2421
2325
2376
2151
2692
2476
2454
2435
144
Informante 5
F4
2921
3252
3325
3082
3105
3261
3178
3128
3187
3348
3362
3623
3398
3293
3508
3467
3412
3660
3490
3031
3045
3453
3348
3339
3114
3339
3453
3301
184
F0
127
131
122
121
135
119
133
129
127
119
121
120
130
122
125
129
131
120
123
121
124
127
129
126
126
132
122
115
125
5
F1
411
376
476
394
411
344
344
365
462
472
390
486
427
353
482
499
362
587
454
353
323
393
390
376
298
376
486
468
413
66
F2
883
853
1044
1069
1054
1674
1706
998
956
1413
1550
1174
1550
1646
1128
1030
991
1023
1486
1848
1035
915
1660
1610
986
1724
1087
1518
1272
319
F3
2611
2385
2564
2467
2481
2220
2648
2638
2389
2376
2582
2587
2357
2628
2643
2425
2752
2532
2518
2467
2592
2334
2366
2545
2417
2637
2499
2506
124
Informante 6
F4
3013
2770
2995
3216
3155
3050
3355
3270
3261
3573
3389
3164
3518
3442
3082
3568
3453
3352
2985
3244
3302
3224
3132
3513
3499
3261
209
F0
170
184
174
176
165
181
179
168
171
176
171
171
182
175
171
165
168
173
168
176
170
164
170
162
167
169
161
165
171
6
F1
472
312
647
335
472
316
344
413
670
532
330
825
546
422
780
624
330
770
518
335
477
656
394
482
330
312
830
500
499
167
F2
936
1046
1206
1055
1087
2169
1958
1192
1169
1706
2027
1454
1871
2128
1472
1243
1014
1247
1779
2366
1087
1165
2050
2096
1128
2238
1362
1894
1541
457
F3
3540
2655
2646
2651
2903
2660
2697
2857
2724
2481
2476
2986
2779
2752
2853
2976
3215
2761
2912
2637
2926
2591
2720
2995
2756
2775
2805
225
Informante 7
F4
3453
3797
3669
3550
3715
3972
3481
3921
3614
3605
4490
4384
4091
4531
3935
4242
4306
3696
3586
3962
3774
4036
3724
4297
4435
3931
335
F0
136
134
137
131
140
135
131
130
129
125
134
130
133
135
128
128
135
129
124
129
133
131
133
133
133
136
131
129
132
4
F1
399
326
527
316
440
280
257
399
459
495
390
550
518
390
560
495
321
527
500
321
394
518
394
390
330
280
532
449
420
92
F2
816
798
991
926
1004
1825
1779
972
894
1422
1660
1174
1463
1596
1147
1046
798
1000
1458
1857
844
949
1701
1660
825
1770
1059
1472
1247
370
F3
2284
2275
2463
2275
2334
2321
2087
2490
2362
2087
2073
2454
2458
2146
2174
2527
2321
2454
2307
2247
2353
2353
2091
2215
2220
2133
2316
2096
2283
136
Informante 8
F4
3123
3059
3146
3155
3128
2940
3123
3059
3238
3031
3325
3247
3004
3164
3788
3293
3137
3151
3274
2972
3096
3279
3059
3165
171
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
162
167
170
160
155
159
172
164
157
166
164
164
162
163
161
165
150
157
157
159
158
163
169
157
168
167
154
157
162
5
F1
436
326
624
316
449
335
335
449
615
523
413
693
482
431
697
587
326
720
495
321
449
601
440
431
326
321
775
504
479
138
F2
977
1041
1367
1096
1036
2628
2311
1211
1169
1853
2243
1403
2022
2243
1472
1330
885
1234
1867
2623
1027
1147
2133
2032
1055
2573
1426
2022
1622
565
F3
3050
2926
2995
2908
2963
3059
2843
2940
3036
2875
2880
2958
2921
2958
2875
2940
2921
2967
2986
3054
2866
3013
2954
3013
2871
3027
2875
2921
2950
64
Informante 1
F4
3889
4004
3719
3894
3706
4210
3944
3802
3907
3816
4050
3848
4242
4054
3907
3761
4008
3742
3733
3811
3889
4105
3843
4210
3733
3913
161
F0
204
213
207
221
202
216
225
200
213
216
207
197
208
215
208
200
210
205
220
222
203
209
221
212
216
220
200
211
211
8
F1
449
408
644
390
449
422
358
408
622
600
409
860
515
432
823
633
422
745
685
394
372
670
440
432
395
358
828
506
524
156
F2
1014
1119
1302
1055
1133
2481
2266
1270
1091
1834
2009
1393
2023
2188
1554
1335
1091
1223
1669
2435
1034
1206
2188
2023
1159
2440
1365
1908
1600
501
F3
2784
2830
2454
2637
2862
2793
2669
2775
2353
2294
2630
2550
2736
2657
2193
2706
2793
2513
2768
2866
2823
2623
2657
2703
2795
2779
2455
2382
2646
182
Informante 2
F4
4169
4279
3825
4031
3852
4407
4215
4132
3806
4147
4239
4313
4372
4331
4211
4338
4150
4147
4207
3779
4152
3926
4137
4198
4331
4242
4138
4244
4154
174
F0
104
104
98
104
109
95
103
100
109
98
103
102
102
103
99
105
100
97
103
101
103
100
102
104
102
107
105
97
102
3
F1
394
261
495
303
417
307
303
330
504
495
404
647
482
381
610
537
321
555
477
303
353
523
408
408
307
257
637
518
426
115
F2
784
862
1073
995
1008
2004
1922
931
908
1495
1743
1229
1729
1834
1302
1142
871
981
1463
1981
917
949
1738
1784
885
2050
1124
1610
1333
426
F3
2509
2380
2490
2266
2476
2490
2376
2701
2720
2073
2339
2527
2467
2431
2412
2541
2467
2481
2421
2380
2463
2568
2330
2458
2353
2619
2495
2316
2448
129
Informante 3
F4
3187
3325
3197
3109
3164
3348
3316
3316
3293
3151
3320
3504
3660
3403
3485
3403
3302
3407
3403
3219
3229
3302
3270
3430
3219
3302
3499
3330
3325
124
F0
188
199
182
202
187
188
182
186
185
182
184
170
181
180
173
175
189
163
172
188
177
173
180
176
185
182
178
170
181
8
F1
399
371
761
376
454
289
353
399
560
560
371
812
537
376
803
610
367
784
537
367
495
514
390
408
353
266
757
504
492
162
F2
922
991
1280
883
1078
2499
2311
1119
1082
1807
2041
1546
1949
2156
1394
1229
917
1293
1816
2486
1069
1215
2100
2137
1036
2628
1399
1981
1584
554
F3
2999
2912
3252
2981
3027
2885
2765
3082
3100
2692
2692
2953
2871
2862
2935
3109
3022
2692
2995
2894
2981
2986
2742
2784
2885
2990
2921
2825
2923
137
Informante 4
F4
3880
3958
3806
4059
3857
4105
3857
3788
3784
3848
4050
3962
4137
4215
3889
3788
4059
3994
4045
4114
3770
3742
4150
4077
3967
4027
3939
4091
3963
135
ANEXO 4
Valores F0, F1, F2, F3, F4 – D3
97
98
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
102
111
102
103
102
106
96
96
92
93
97
92
95
95
84
95
90
88
100
99
93
90
97
98
87
100
84
90
96
6
F1
358
280
596
289
408
261
266
376
537
518
390
702
504
367
706
601
312
642
541
271
413
555
390
390
284
248
660
537
443
146
F2
734
839
1119
1023
1073
2165
2096
1078
995
1568
1908
1316
1743
1871
1307
1133
815
1078
1601
2192
908
1082
1770
1816
780
2137
1169
1660
1392
469
F3
2449
2215
2651
2293
2412
2830
2591
2541
2417
2366
2467
2463
2518
2399
2155
2357
2573
2197
2536
2853
2412
2270
2399
2417
2220
2839
2000
2417
2438
201
Informante 5
F4
2995
3187
3481
3013
3238
3380
3261
3362
3518
3366
3540
3756
3687
3380
3774
3651
3407
3729
3605
3348
3178
3357
3449
3513
3091
3449
3591
3421
3419
211
F0
165
169
151
155
163
152
160
159
160
171
151
146
158
158
154
149
166
150
159
157
155
159
147
155
162
162
147
152
157
6
F1
393
321
564
321
439
312
316
420
522
518
404
651
500
404
711
545
316
656
482
321
453
504
408
422
330
303
683
472
453
121
F2
813
812
1109
926
970
1899
1839
966
929
1679
1816
1215
1679
1839
1270
1040
775
1156
1614
2009
933
920
1743
1812
853
1945
1234
1692
1339
428
F3
2583
2357
2564
2522
2643
2316
2330
2685
2735
2279
2394
2655
2389
2325
2412
2574
2683
2642
2435
2423
2440
2638
2311
2316
2412
2518
2490
2403
2481
137
Informante 6
F4
3258
3036
3521
3022
3248
3316
3201
3248
3470
3508
3430
3724
3559
3302
3770
3475
3169
3623
3563
3315
3253
3392
3284
3371
2995
3261
3623
3495
3373
202
F0
181
184
173
189
174
188
184
181
170
195
179
171
172
168
175
171
177
168
173
173
175
166
173
173
177
177
161
168
175
7
F1
587
362
770
353
500
353
344
514
670
601
495
757
541
482
812
720
362
748
578
344
504
660
518
477
344
344
816
518
538
157
F2
1064
1078
1403
1169
1234
2325
2013
1357
1174
1665
2032
1546
1885
1917
1518
1284
1142
1293
1720
2417
1206
1280
1990
1917
1114
2284
1376
1830
1580
414
F3
3174
2926
3141
2875
2875
2802
2816
2908
2839
2697
2609
2963
2752
2541
2770
2953
3036
2733
2875
2779
2908
2738
2591
2665
3077
2738
2596
2655
2823
165
Informante 7
F4
3829
3710
4260
3673
3733
4004
4095
3747
3994
4265
4494
4247
4173
4219
4224
3797
4219
4348
3994
3829
3921
4068
4224
3825
3994
4132
4077
4041
219
F0
135
134
131
114
115
134
111
127
112
126
139
116
116
120
131
124
127
104
107
108
109
115
110
114
120
121
119
109
119
10
F1
390
321
523
321
427
303
321
394
463
495
408
592
463
381
546
486
353
560
504
303
399
472
422
394
339
303
587
477
427
89
F2
794
793
1087
862
913
1885
1747
926
812
1463
1665
1289
1550
1683
1330
1050
858
958
1344
1903
803
871
1619
1605
913
1812
1041
1518
1253
386
F3
2270
2298
2284
2266
2325
2201
2133
2490
2435
2078
2201
2353
2284
2275
2288
2357
2467
2307
2288
2261
2220
2123
2174
2284
2220
2142
2160
2169
2263
101
Informante 8
F4
3247
3229
3508
3197
3132
3573
3197
3325
3274
3362
3366
3414
3490
3357
3385
3343
3325
3426
3334
3284
3164
3279
3302
3495
3082
3339
3426
3403
3331
117
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
183
214
187
187
180
191
187
183
181
189
193
170
186
183
174
184
179
177
172
189
172
172
174
181
192
188
174
177
183
9
F1
454
408
660
344
472
326
335
536
537
537
408
803
569
399
751
600
344
715
472
371
404
579
367
495
367
289
770
550
495
145
F2
945
1101
1280
926
1078
2646
2334
1229
1087
1958
2155
1513
2050
2279
1559
1339
899
1229
1862
2564
922
1160
2100
2165
986
2669
1348
1889
1617
585
F3
2885
2820
2747
2834
2857
2999
2940
2972
2972
2857
2862
2931
3041
3004
2862
2885
2807
2894
3045
3151
2811
2903
2908
2981
2885
3174
2848
2834
2918
101
Informante 1
F4
3784
3678
3485
3894
3719
4247
4270
3779
3866
3972
4215
3802
4068
4366
3738
3816
4022
4123
4137
4375
3793
3797
4050
4127
3596
4265
3825
4027
3958
238
F0
207
213
211
210
200
206
214
211
203
209
204
204
201
204
203
197
205
201
202
203
196
199
201
185
215
218
196
192
204
7
F1
381
431
615
408
558
408
427
440
587
543
405
768
533
400
851
587
436
731
611
394
515
601
386
405
428
399
667
575
518
129
F2
1000
1091
1380
1110
1105
2334
2123
1270
1018
1549
1839
1411
1853
2000
1411
1330
1041
1085
1494
2243
1191
1128
1876
1991
1108
2284
1122
1687
1503
436
F3
2871
2931
2371
2646
2678
2738
2642
2632
2596
2207
2625
2575
2602
2639
2248
2802
2940
2437
2519
2651
2588
2605
2510
2634
2777
2798
2354
2391
2607
185
Informante 2
F4
4036
4054
3857
4054
3816
4155
4072
4288
3981
4156
4101
4317
4276
4340
4178
4073
4041
3921
3742
3990
4285
4271
4233
3926
4090
166
F0
106
106
105
102
100
98
106
101
103
105
103
106
108
105
104
98
98
99
99
101
102
100
103
104
100
104
105
100
102
3
F1
335
243
482
344
339
326
307
381
472
463
408
527
436
417
555
493
358
518
500
321
349
491
390
408
298
289
550
472
410
88
F2
995
936
1174
1192
1036
1926
1775
1179
922
1417
1619
1298
1486
1642
1293
1151
991
995
1390
1839
1009
908
1605
1646
1091
1830
1023
1449
1315
319
F3
2270
2243
2435
2233
2490
2421
2261
2426
2449
2022
2321
2279
2376
2444
2421
2513
2366
2421
2417
2270
2201
2454
2302
2362
2151
2357
2325
2155
2335
116
Informante 3
F4
3219
3348
3270
3146
3155
3472
3366
3435
3265
3192
3421
3141
3421
3467
3330
3545
3499
3394
3284
3137
3164
3123
3302
3490
3100
3270
3279
3077
3297
138
F0
211
215
204
219
184
213
197
196
176
211
205
187
189
191
199
200
196
180
178
177
180
175
185
192
197
192
195
186
194
13
F1
431
399
679
381
504
385
344
436
688
637
431
908
560
404
862
647
381
752
697
371
422
637
518
417
376
339
848
569
537
171
F2
867
825
1261
968
1046
2509
2293
1133
1128
1885
1784
1536
1908
2183
1385
1220
968
1257
1614
2669
1036
1183
2078
2032
848
2532
1362
1853
1549
561
F3
2990
3031
2843
2949
3178
2958
2949
2926
3146
2692
2811
2981
2926
2999
2981
3545
2229
2986
3261
3059
2949
3064
2820
2958
2958
2981
2972
2944
2967
212
Informante 4
F4
3600
3596
3366
3343
3848
3926
3637
3385
3596
3733
3637
3499
4274
3577
3724
3449
3568
3761
4063
3806
3545
3531
3715
3467
3536
3586
3770
3563
3646
207
ANEXO 5
Valores F0, F1, F2, F3, F4 – D4
99
100
abono
abutre
adónis
adubo
andorra
ardido
asilo
azoto
babosa
barbela
cabeça
cadáver
cadela
cadete
casaco
casota
casulo
cavalo
donzela
ervilha
favores
gaivota
gaveta
gazeta
gravura
nabiça
tabaco
travessa
média
d.p.
Palavra
F0
107
107
104
98
102
108
102
98
98
108
107
94
100
100
95
98
95
94
98
106
96
96
95
104
99
103
96
93
100
5
F1
371
321
555
261
404
257
289
454
537
482
408
647
495
390
610
582
339
582
495
280
371
532
431
408
275
280
615
500
435
120
F2
720
908
1014
775
940
2169
1899
1169
972
1463
1669
1211
1660
1848
1169
1114
885
986
1514
2091
784
936
1734
1660
844
2032
1078
1500
1312
445
F3
2357
2353
2353
2275
2399
2587
2541
2275
2311
2229
2211
2133
2371
2298
1977
2495
2733
2220
2495
2403
2412
2146
2385
2376
2284
2293
2091
2238
2330
157
Informante 5
F4
3045
3646
3380
2940
3573
3733
3444
3710
3036
3623
3930
3729
3628
3706
3380
3403
3889
3545
3513
3476
3774
3385
2949
3499
3816
3510
278
F0
171
182
169
188
188
162
182
179
173
173
166
168
180
188
168
172
191
174
176
179
181
182
179
187
183
192
168
187
178
8
F1
439
381
591
367
508
344
353
439
568
482
431
725
537
459
637
578
385
633
495
344
476
522
399
431
390
376
656
537
482
105
F2
878
913
1086
936
1044
1679
1793
1077
956
1495
1692
1119
1587
1715
1165
1012
968
1055
1614
1981
915
883
1784
1743
936
1880
1091
1559
1306
374
F3
2333
2357
2380
2238
2430
2247
2288
2465
2449
2481
2444
2183
2417
2564
2628
2287
2665
2577
2435
2353
2223
2375
2515
2412
2389
2252
2275
2435
2396
124
Informante 6
F4
3225
3284
3368
2889
3198
3265
3444
3068
3484
3536
3504
3458
3655
3348
3683
3290
3210
3573
3871
3371
3230
3456
3880
3742
3073
3348
3596
3834
3424
248
F0
186
195
188
176
177
182
163
174
171
196
177
176
189
171
171
173
175
159
168
181
191
158
171
171
176
168
174
164
176
10
F1
601
367
688
344
509
326
330
399
537
605
399
715
642
413
743
651
349
647
582
353
495
647
471
445
344
257
711
500
503
144
F2
1124
958
1293
1018
1183
2302
1990
1307
1004
1683
1926
1270
1674
1880
1371
1234
1050
1105
1440
2146
1110
1114
1926
1816
1055
2536
1206
1798
1483
443
F3
2859
2885
2403
2958
2843
2605
2660
2802
2752
2545
2499
2825
2802
2697
2692
2798
3008
2733
2481
2623
2697
2596
2596
2609
2843
2486
2504
2696
157
Informante 7
F4
3967
3912
3930
3751
4238
4288
3724
3724
3684
3871
4155
4265
4077
3884
4082
3907
3825
3522
3673
3683
3609
3953
4219
3747
3398
3600
3873
241
F0
121
123
121
139
124
129
136
122
119
123
130
116
114
125
114
121
129
111
125
128
118
122
124
120
122
126
114
118
123
6
F1
381
284
463
284
399
307
330
408
495
468
390
582
504
390
573
504
358
560
495
303
390
504
390
404
367
321
587
509
427
93
F2
803
605
1165
1036
1046
1853
1614
1073
876
1211
1656
1257
1458
1637
1270
1174
1000
981
1371
1894
885
968
1472
1536
1032
1807
1091
1523
1261
339
F3
2417
2431
2550
2403
2614
2307
2311
2490
2348
1899
2233
2591
2344
2270
1885
2454
2426
2197
2316
2637
2238
2032
2013
2100
2321
1894
2220
2294
215
Informante 8
F4
3178
3187
3366
3132
3192
3256
3330
3339
3086
3141
3495
3366
3435
3394
3449
3077
3320
3343
3279
3183
3215
3050
3380
3219
3265
3238
3252
3265
118
ANEXO 6
Corpus
Eu digo barbela, Paulo.
Eu digo Andorra, Paulo.
Eu digo ardido, Paulo.
Eu digo cadete, Paulo.
Eu digo cabeça, Paulo.
Eu digo casulo, Paulo.
Eu digo adónis, Paulo.
Eu digo babosa, Paulo.
Eu digo abono, Paulo.
Eu digo gaivota, Paulo.
Eu digo abutre, Paulo.
Eu digo gazeta, Paulo.
Eu digo casaco, Paulo.
Eu digo tabaco, Paulo.
Eu digo azoto, Paulo.
Eu digo gaveta, Paulo.
Eu digo cadáver, Paulo.
Eu digo asilo, Paulo.
Eu digo cadela, Paulo.
Eu digo cavalo, Paulo.
Eu digo casota, Paulo.
Eu digo adubo, Paulo.
Eu digo favores, Paulo.
Eu digo donzela, Paulo.
Eu digo gravura, Paulo.
Eu digo ervilha, Paulo.
Eu digo nabiça, Paulo.
Eu digo travessa, Paulo.
101
ANEXO 7
Declaração de Objectivos
Fica determinado que o material gravado pela mestranda Raïssa Ricardo Gillier, aluna
nº 32755 da Faculdade de Letras da Universidade de Lisboa, será utilizado, divulgado e
disponibilizado nas circunstâncias e condições abaixo explicitadas:
1. No âmbito do Mestrado em Linguística Portuguesa (“O disfarce da voz em fonética
forense”). Para o desenvolvimento da investigação, será necessário fazer uso do
material recolhido, nos seguintes contextos situacionais:
- elaboração da Tese de Mestrado;
- apresentação regular, em aula, da investigação em curso;
- colaborações e/ou participações em congressos, conferências, entre outros eventos.
2. Conservação em bases de dados, com aplicações e fins exclusivamente científicos.
Deve salientar-se que a identificação explícita de qualquer interveniente nas gravações
não ficará expressa em nenhuma das circunstâncias acima apresentadas sendo,
apenas, reveladas as seguintes informações.
- naturalidade;
- idade;
- sexo;
- habilitações literárias;
102
ANEXO 8
Termo de Aceitação
Eu, abaixo-assinado, considero-me informado acerca do uso, bem como das condições
e circunstâncias de divulgação e disponibilização do material resultante da minha
participação nas gravações efectuadas pela mestranda Raïssa Ricardo Gillier, aluna nº
32755 da Faculdade de Letras da Universidade de Lisboa.
Concordo com as condições apresentadas e autorizo a utilização dos dados, conforme
os termos descritos na declaração em anexo a este documento.
Assinatura __________________________________________
103