Assessment of Laryngeal Disorders Through the Global

Transcrição

Assessment of Laryngeal Disorders Through the Global
982
IEEE LATIN AMERICA TRANSACTIONS, VOL. 9, NO. 7, DECEMBER 2011
Assessment of Laryngeal Disorders Through the
Global Energy of Speech
M. Fernandes, F. E. R. Mattioli, E. A. Lamounier Jr. and A. O. Andrade
Abstract— Voice analysis is an important tool in the diagnosis of
laryngeal disorders. Among distinct signal processing techniques
employed for voice analysis, the spectrogram is commonly used, as
it allows for a visualization of the variation of the energy of the
signal as a function of both time and frequency. In this context, this
study investigates the use of the global energy of the signal,
estimated through the spectrogram, as a tool for discrimination
between signals obtained from healthy and pathological subjects.
This research has also exploited the potential use of the global
energy of the voice signal to discriminate distinct laryngeal
disorders. In total, 94 subjects were involved in this study, from
which 46 were dysphonic and 48 normal. The diagnosis of
laryngeal disorders was confirmed by means of a
videolaryngoscopic examination. Participants were also subjected
to a clinical examination of vocal acoustic through the recording of
the sustained vowel /ε/. The global energy allowed the
discrimination between normal and dysphonic voice. Furthermore,
this technique could discriminate the voice signal of patients
suffering from left vocal fold paralysis from those suffering from
other investigated disorders. The results suggest the global energy
of the signal as an auxiliary and alternative tool for the diagnosis
between normal and dysphonic voice.
Keywords— Vocal and Laryngeal
Analysis, Spectrogram, Global Energy.
A
Disorders,
Acoustic
I. INTRODUÇÃO
PRODUÇÃO normal da voz se faz com o equilíbrio
entre a força aerodinâmica dos pulmões e a força
mioelástica das pregas vocais. A energia aerodinâmica gerada
pelo fluxo expiratório é convertida em energia acústica pela
vibração das pregas vocais [1].
Quando ocorrem alterações nas estruturas que compõem o
nosso aparelho fonador, a produção da voz se modifica e
estamos diante das disfonias ou distúrbios de voz. Essas
alterações são incapacitantes, pois além de prejudicarem a
inteligibilidade da fala, provocam fadiga vocal, ardência, dor,
sensação de tensão e estrangulamento, sensação de esforço,
redução do tempo de fonação, redução da extensão vocal,
quebras de sonoridade, falta de estabilidade e diminuição da
projeção vocal [2].
A avaliação da voz pode ser realizada por meio de uma
análise perceptivo-auditiva extraindo os diferentes graus de
perturbação vocal de forma subjetiva, contando para isto com
M. Fernandes, Universidade Federal de Uberlândia (UFU), Uberlândia,
Minas Gerais, Brasil, [email protected]
F. E. R. Mattioli, Universidade Federal de Uberlândia (UFU), Uberlândia,
Minas Gerais, Brasil, [email protected]
E. A. Lamounier Jr., Universidade Federal de Uberlândia (UFU),
Uberlândia, Minas Gerais, Brasil [email protected]
A. O. Andrade, Universidade Federal de Uberlândia (UFU), Uberlândia,
Minas Gerais, Brasil, [email protected]
o conhecimento prévio do especialista. Com esta finalidade, a
escala GRBAS e a escala RASAT [3], que avaliam diversos
parâmetros da voz (e.g., rouquidão, aspereza, soprosidade
vocal, astenia e tensão), são comumente utilizadas. Cada
parâmetro é avaliado seguindo uma escala com a graduação de
0 a 3, sendo zero (0) indicativo de ausência, um (1)
considerado grau leve, dois (2) grau moderado e três (3) grau
severo.
A escala RASAT é uma adaptação da escala GRBAS que
foi desenvolvida pelo Comitê para Testes de Função Fonatória
da Sociedade Japonesa de Logopedia e Foniatria (Committee
for Phonatory Function Tests - Japan Society of Logopedics
and Phoniatrics) em 1969 [3], [4]. A escala RASAT, em
contraste com a escala GRBAS, leva em consideração a
avaliação da aspereza da voz. Note que a escala RASAT
relaciona a avaliação subjetiva da voz, levando-se em conta o
que se percebe auditivamente, com aspectos fisiológicos
envolvidos na geração da voz.
Alguns pesquisadores utilizam a escala GRBAS ou suas
extensões, para realizar a análise perceptivo-auditiva vocal
[5], [6]. Porém, apesar dessas escalas fornecerem resultados
aceitáveis quando aplicadas por profissionais suficientemente
especializados, as mesmas necessitam de complementação por
serem subjetivas [7].
Em presença de distúrbios vocais, observa-se que o sinal de
voz sofre modificações da periodicidade e da amplitude dos
ciclos glóticos, e aumento da componente de ruído. Essas
modificações ocorrem devido às alterações nos padrões de
vibração da mucosa das pregas vocais [8] em caso de lesões
de massa, de retrações cicatriciais, decorticação, ou nos casos
em que se torna necessário remover parte, ou totalmente, as
pregas vocais na presença de câncer de laringe. Qualquer tipo
de lesão ou alteração nas pregas vocais provocará alterações
na qualidade da voz. É por esse motivo que algumas pesquisas
ressaltam a importância de se utilizar a análise acústica vocal
como uma técnica não invasiva e capaz de fornecer suporte ao
diagnóstico das disfunções laríngeas [9], [10], [11], [12].
Atualmente, a análise acústica vocal é muito utilizada na
prática clínica, sendo que esta emprega ferramentas de
processamento digital de sinais para extrair características do
sinal de voz [13], [14].
Para a avaliação do sinal de voz, é comum utilizar a
emissão sustentada das vogais /a/, /ε/ e /i/, por tempo de
fonação de 3 a 5 s, removendo os momentos instáveis iniciais
e finais da emissão. O sinal de voz referente à emissão de um
único fonema pode ser definido como um sinal quaseperiódico e não estacionário que possui características
estatísticas variantes no tempo. Portanto, utilizando técnicas
FERNANDES et al.: ASSESSMENT OF LARYNGEAL DISORDERS
de processamento digital de sinais aplicados aos sinais de voz,
é possível destacar o comportamento de determinada
característica do sinal ao longo do tempo [15].
As principais ferramentas utilizadas no processamento do
sinal de voz são: a análise de parâmetros temporais da forma
de onda, como por exemplo, a variação da amplitude do sinal;
o espectro de potência que representa a distribuição de energia
do sinal em função da freqüência; e o espectrograma que
estima a variação local da energia do sinal em função do
tempo e da freqüência [16].
Por meio da análise do espectrograma, pode-se visualizar a
variação da energia do sinal por meio de uma representação
monocromática ou de escala de cores. Porém, esta análise é
ainda subjetiva, por ser dependente de uma avaliação subjetiva
do especialista. Sendo assim, esta pesquisa propõe o uso da
energia global do sinal, estimada pelo espectrograma, como
característica discriminativa de vozes normais e disfônicas.
Um outro objetivo dessa investigação é verificar se a
energia global do sinal de voz permite a separabilidade ou
identificação de diversos distúrbios laríngeos.
II. MATERIAIS E MÉTODOS
No total, 94 sujeitos participaram dessa pesquisa. Antes da
coleta de dados eles foram informados sobre o objetivo do
estudo e assinaram o Termo de Consentimento Livre e
Esclarecido, o qual foi aprovado pelo Comitê de Ética e
pesquisa da Universidade Federal de Uberlândia, sob o
registro CEP 208/06.
A. Coleta de dados
Nesse estudo, participaram 94 sujeitos jovens, do sexo
masculino, com faixa etária entre 19 e 64 anos (média = 43
anos e desvio padrão = 16,97 anos). Desses sujeitos, 48 eram
portadores de voz normal e 46 eram portadores de voz
disfônica.
O pré-diagnóstico de voz disfônica foi feito por meio da
análise perceptivo-auditiva vocal. As características vocais
avaliadas foram: presença de rouquidão, aspereza, soprosidade
e instabilidade vocal, além de tremor, diplofonia e quebras de
sonoridade vocal e de freqüência. Essas modificações ocorrem
devido às alterações nos padrões de vibração da mucosa das
pregas vocais em caso de lesões de massa, de retrações
cicatriciais, decorticação, ou nos casos em que se torna
necessário remover parte, ou totalmente, as pregas vocais na
presença de câncer de laringe. Esta análise vocal realizada
pela fonoaudióloga especialista foi associada ao exame de
videolaringoscopia. Este exame permitiu a visualização das
pregas vocais e as demais estruturas da laringe e foi realizado
pelo otorrinolaringologista para fechamento do diagnóstico.
A definição da faixa etária desse estudo levou-se em
consideração que a voz madura ocorre aos 18 anos, já estando
a freqüência fundamental da voz nesta idade em um nível que
permanecerá por várias décadas [17], [18]. Observa-se
também que alguns estudos [19], [20] consideram que, a partir
dos 65 anos, alterações fisiológicas provocam uma
deterioração da laringe, decorrentes de calcificações das
983
cartilagens e modificações histológicas dos tecidos
conjuntivos, provocando variações acústicas no sinal de voz.
Sendo assim, os sujeitos na faixa etária investigada possuem
características vocais comuns.
Nota-se que crianças e sujeitos do sexo feminino foram
excluídos do estudo, pois estes apresentam características
vocais completamente distintas daquelas de sujeitos do sexo
masculino.
Inicialmente todos os sujeitos foram submetidos a um
exame de videolaringoscopia para a avaliação das condições
orgânico-funcionais da laringe e do trato vocal. Este
procedimento foi realizado utilizando-se um telefibroscópio
rígido 70o Endomed (FiberScope, endolight 1000, fonte de luz
HTI) e nasofibroscópio flexível Machid (Ent- 30P III, câmera
CCD Toshiba, dependendo da necessidade de cada caso).
Através da microcâmera acoplada na extremidade do aparelho
obteve-se a gravação da imagem dinâmica das pregas vocais
durante a produção da vogal /i/. A escolha dessa vogal
baseou-se no fato da mesma facilitar a visualização das pregas
vocais.
Os resultados da videolaringoscopia revelaram diferentes
distúrbios e lesões laríngeas, os quais são relacionados a
seguir: 1 caso de carcinoma in situ, 2 casos de cisto, 2 casos
de constrição mediana, 1 caso de disfonia espasmódica com
tremor vocal, 4 casos de edema de Reinke, 5 casos de fenda
fusiforme, 1 caso de fenda triangular antero-posterior, 4 casos
de granuloma, 1 caso de hemangioma, 3 casos de leucoplasia,
3 casos de papiloma, 2 casos de paralisia, 14 casos de pólipos,
1 caso de sulco vocális e 2 casos de vásculodisgenesia.
Participou também desta pesquisa um sujeito que tinha sido
submetido a microcirurgia de laringe à laser de CO2, para
retirada de um carcinoma in situ. Este caso foi citado acima. A
coleta da voz desse sujeito ocorreu 15 dias após o
procedimento cirúrgico.
Os portadores de voz normal foram avaliados por meio da
análise perceptivo-auditiva e foram também submetidos à
videolaringoscopia para confirmação das condições anátomofisiológicas da laringe.
O pré-diagnóstico de voz normal foi feito por meio da
análise perceptivo-auditiva vocal. Para o diagnóstico de voz
normal, considerou-se ausência de quebras de sonoridade
vocal e de frequência, ausência de tremor, ausência de
diplofonia, ausência de padrões de rouquidão, aspereza ou
soprosidade e ainda presença de padrões de estabilidade vocal.
Em vozes normais, a mucosa das pregas vocais está íntegra e
com padrões ideais de coaptação glótica. Para a verificação
das condições destas estruturas, foi realizado o exame de
videolaringoscopia
pelo
otorrinolaringologista
para
fechamento do diagnóstico.
A captação do sinal de voz para a realização da análise
acústica foi feita por meio do microfone Behringer (cardioid,
XM2000), e durante a avaliação, os indivíduos permaneceram
em pé com o microfone posicionado em ângulo de 90o à frente
da boca mantendo uma distância de 10 cm da mesma.
Conforme sugerido por Madazio (1998) [21], esta distância
atenua interferências no sinal e mantém uma proporção sinal-
984
IEEE LATIN AMERICA TRANSACTIONS, VOL. 9, NO. 7, DECEMBER 2011
ruído elevada. Os sujeitos foram orientados a respirar
profundamente antes de emitir a vogal oral anterior média
aberta não arredondada /ε/, de forma sustentada [21], [22],
[23]. O sinal de voz, amostrado a uma frequência de
amostragem (fs) igual a 44,1 kHz e com duração de três
segundos, foi gravado no formato Microsoft Waveform Audio
File (WAVE).
sujeitos disfônicos. Isto garantiu que o tamanho da série
temporal analisada fosse padronizado no estudo. A Fig. 2
ilustra esse janelamento para o caso de um sinal de voz obtido
de um paciente portador de paralisia de prega vocal esquerda.
Pode-se notar que essa região mais estável do sinal é
identificada no espectrograma como faixas de energia
contínuas e isoladas umas das outras.
B. Estratégia para Análise de Dados
A toolbox de Processamento de Sinais do MATLAB
(MathWorks) foi utilizada para a análise dos dados.
O diagrama apresentado na Fig. 1 descreve os principais
passos empregados na análise dos sinais de voz.
Inicialmente, os dados foram normalizados (Etapa 1)
linearmente de modo que os valores de amplitude do sinal
estivessem compreendidos dentro do intervalo [-1;1] V . Para
isto, a Equação 1 foi utilizada, onde x(n) é o sinal de voz no
tempo discreto n, b é o número de bits do conversor A/D
utilizado e y(n) é o sinal de voz (no tempo discreto n)
normalizado.
y ( n) =
x ( n)
2b
(1)
Figura 1. Diagrama de blocos ilustrando as etapas empregadas na análise dos
sinais de voz.
Nota-se que esta normalização não altera as características
do sinal, porém pode ser relevante no emprego de algumas
ferramentas de processamento digital de sinais [15], [24].
Os dados normalizados foram janelados (Etapa 2), por meio
de uma janela retangular de tamanho igual a 0,7 s, sendo seu
limite inferior igual a 0,5 s e superior 1,2 s. Este janelamento
permitiu a seleção da região mais estável do sinal de voz visto
que em algumas disfunções laríngeas os pacientes têm uma
dificuldade em iniciar e finalizar a emissão do sinal. A
estabilidade
vocal
foi
identificada
visualmente
e
auditivamente dentro desse intervalo. Este tipo de
identificação de estabilidade, embora subjetiva, é uma prática
comum na área que vem sendo empregada em diversos
estudos [21], [25]. O janelamento foi usado tanto para sinais
de voz de sujeitos saudáveis como para os sinais de voz de
Figura 2. Janela retangular de 0,7 s, com a seleção de região mais estável do
sinal de voz, utilizada para análise neste estudo.
O janelamento realizado neste trabalho corresponde ao
intervalo de tempo mais estável da emissão. Este janelamento
foi necessário uma vez que nos quadros de disfonias severas,
nos quais ocorre decorticação da mucosa das pregas vocais ou
nos casos em que a coaptação glótica está prejudicada, o
tempo de fonação é extremamente curto. Isso dificulta o início
da emissão, que geralmente não se dá de forma isocrônica
como nas vozes normais, ocorrendo por meio de ataque
brusco, e a manutenção da emissão que muitas vezes não
chega a atingir 1 s, o que pode ser verificado pela presença de
harmônicos no sinal apenas nesse intervalo de tempo
selecionado. Isto ocorre principalmente em casos mais
severos, como o de câncer, paralisias ou papilomatoses. Para
que este intervalo de tempo fosse padronizado em todas as
amostras, optou-se por fazer um janelamento nessa região de
maior estabilidade.
Na Etapa 3, o Periodograma [24] baseado na Transformada
de Fourier, foi utilizado para o estudo da distribuição de
energia dos sinais em função da freqüência. O Periodograma é
uma estimativa mais precisa do espectro de potência [24] visto
que este reduz o efeito do espalhamento de energia do sinal
por meio do emprego de técnicas de janelamento. A Equação
2 apresenta a transformada de Fourier para uma janela de L
amostras do sinal discreto x[n], onde w[n] representa a função
janela utilizada e ω a freqüência angular em rad/s. Neste
estudo, foram utilizadas 8 janelas consecutivas de Hanning
(sem sobreposição), para o cálculo do Periodograma. A
Equação 3 apresenta o método utilizado para o cálculo do
Periodograma a partir da transformada de Fourier, onde U
representa uma constante de normalização. Nota-se que o
Periodograma é a média do espectro de potência de cada uma
das 8 janelas utilizadas.
L −1
V (e jω ) =  w[n]x[ n]e − jω n
n =0
FERNANDES et al.: ASSESSMENT OF LARYNGEAL DISORDERS
985
(2)
2
1
V (e jω )
LU
PSS (ω ) =
A. Análise Visual do Espectrograma
(3)
A Etapa 4 consistiu na avaliação da variação da energia
instantânea dos sinais por meio do espectrograma [26], [27],
[28]. O espectrograma permite uma visualização dessa energia
em função da freqüência e do tempo. Esta ferramenta vem
sendo empregada em alguns estudos [29], [30], sendo
comumente utilizada na prática clínica para a análise acústica
vocal. Porém esta análise é freqüentemente subjetiva e
dependente da experiência do profissional. Para o cálculo do
espectrograma foi utilizada a STFT (Short-Time Fourier
Transform) e o tipo de janela empregada foi a de Hanning
com 1024 pontos. O espectrograma do sinal de voz pode ser
obtido como o resultado da aplicação da STFT, conforme
expresso na Equação 4,
X [ n, λ ] =
∞

x[n + m]w[ m]e − jλ m
(4)
m =−∞
sendo x[n + m] o sinal analisado, como uma função de uma
variável de tempo discreta n, deslocado de m posições, λ o
espectro (contínuo) de freqüências e X a energia do sinal, em
função de n e de λ. Novamente, w[m] é a janela de Hanning
neste estudo.
Na Etapa 5, avaliou-se o emprego da energia global do
sinal, estimada por meio da integral do espectrograma (ver
Equação 5) como uma técnica para a discriminação entre
vozes normais e disfônicas, e também para a discriminação
dos distúrbios laríngeos.
O procedimento para a determinação da energia global a
partir do espectrograma é apresentado na Equação 5,
U ( n) = 
λm
0
X [n, λ ]dn
III. RESULTADOS
Analisando visualmente o espectrograma de vozes normais,
percebe-se melhor definição dos harmônicos, que pode ser
visualizada por meio das raias horizontais na Fig. 3. Nesta
mesma figura observa-se ainda que estes harmônicos
aparecem em grande número, podendo ser percebidos
inclusive, nas faixas de freqüência acima de 3,0 kHz. Esta
característica é compatível com as vozes normais segundo
alguns pesquisadores [26]. A quantidade de ruído entre os
harmônicos de vozes normais é mínima, em contraste à
quantidade de ruído presente nas vozes disfônicas. Em vozes
disfônicas, o componente harmônico, quando presente, ocorre
apenas nas freqüências mais baixas. Nas disfonias
extremamente severas percebe-se uma grande quantidade de
ruído difuso em todo ou praticamente todo o espectrograma
(cf. Fig. 4).
B. Análise do Espectrograma Médio
Foram analisados os espectrogramas médios dos grupos de
vozes normais e disfônicas. Nessa análise destaca-se a
contribuição da faixa de freqüências de 500 a 550 Hz, na qual
se concentra grande parte da energia dos sinais, tanto no grupo
de vozes normais como no grupo de vozes disfônicas.
(5)
sendo U(n) a energia global do sinal de voz em função de uma
variável de tempo discreta n, λm a maior freqüência com
contribuição significativa para a formação do sinal e X[n;λ] o
espectrograma do sinal em questão [31].
A determinação da energia global da voz foi realizada
integrando-se os dados de energia obtidos no espectrograma,
para um valor discretizado de tempo. Tal procedimento
equivale ao somatório das contribuições de cada freqüência na
formação do sinal, para cada instante de tempo.
O cálculo do intervalo de confiança da média do sinal foi
realizado utilizando a técnica Bootstrap [32]. Esta técnica é
baseada em um processo de re-amostragem que seleciona
amostras, aleatoriamente, a partir do espaço amostral original,
gerando novos conjuntos de amostras diferentes do original,
contudo, mantendo suas características estatísticas. Maiores
detalhes sobre a aplicação do algoritmo de Bootstrap podem
ser encontrados em Efron, Tibshirani e Tibshirani [32]. O
presente estudo emprega esta técnica com o objetivo de
calcular o intervalo de confiança para a média das amostras
dos sujeitos disfônicos e eufônicos.
Figura 3. Espectrograma da emissão da vogal oral anterior média aberta não
arredondada /ε/ de um sujeito portador de voz normal.
Figura 4. Espectrograma da vogal oral anterior média aberta não arredondada
/ε/ de um sujeito portador de paralisia da prega vocal esquerda.
Essa faixa de freqüências é compatível com o primeiro
formante da vogal utilizada neste trabalho (vogal /ε/) para o
986
sexo masculino [27]. Nota-se, portanto, que nas vozes normais
existe apenas uma faixa de energia e esta faixa está bem
definida (cf. Fig. 5). O mesmo não ocorre nas vozes
disfônicas, nas quais é perceptível a presença de duas faixas
de freqüência onde se concentra a energia desses sinais (cf.
Fig. 6). Alguns pesquisadores citam que a definição dos
primeiros formantes das vogais anteriores /a/, /e/, /i/ e /ε/ é
muito clara, tanto no português como no inglês e comentam
que o mesmo não ocorre com as vogais posteriores /o/ e /u/
[27], [33], o que provoca uma grande quantidade de erros de
discriminação gerados por essas vogais. Assim como as
vogais posteriores geram erros de discriminação por não terem
seus primeiros formantes bem definidos, as vozes disfônicas
também geram os mesmos erros de discriminação. Neste
contexto, acredita-se que a presença de ruído nas vozes
disfônicas alterou o primeiro formante das mesmas,
dispersando a energia do sinal.
O componente de ruído presente nas disfonias é uma das
características mais valorizadas na análise do sinal de voz,
correlacionando a quantidade deste componente ao grau de
rouquidão. Com o objetivo de interpretar melhor este
componente de ruído, estudos anteriores adotaram uma escala
variando de 1 a 4 [34], [35]. O grau 1 desta escala refere-se a
sinais de voz com componente harmônico regular associado a
um componente de ruído concentrado nas faixas de formantes.
O grau 2 está relacionado a sinais de voz com predominância
de componente de ruído na região do 2o formante das vogais
/ε/ e /i/ e ruído adicional acima de 3,0 kHz. O grau 3 é
caracterizado por componente de ruído com energia intensa
substituindo totalmente os harmônicos das vogais /ε/ e /i/ e o
grau 4 relaciona-se com presença de ruído no 2o formante das
vogais /a/, /ε/ e /i/.
Neste contexto, observa-se que avaliando os sujeitos
disfônicos desta pesquisa, foram encontrados resultados
semelhantes aos dados da literatura, utilizando a mesma vogal
/ε/. Isto pode ser verificado no espectrograma médio, que
evidencia alteração nos formantes das vogais do grupo
disfônico. Além disso, como o grupo disfônico tem diferentes
graus de comprometimento vocal, o componente de ruído está
presente em diferentes faixas de freqüência.
IEEE LATIN AMERICA TRANSACTIONS, VOL. 9, NO. 7, DECEMBER 2011
Figura 6. Espectrograma médio das vozes disfônicas. As setas indicam as
faixas de freqüência onde a energia está concentrada.
C. Análise do Periodograma
Inicialmente utilizou-se o espectro de potência com o
objetivo de discriminar vozes normais de vozes disfônicas.
Para esta análise, escolheu-se a faixa de freqüência entre 0 e
1,0 kHz. Esta escolha justifica-se no fato de que parte da
energia dos sinais está concentrada nessa faixa de freqüência.
Isto ocorre porque o espectro laríngeo é linear e a energia dos
harmônicos, que são múltiplos inteiros da freqüência
fundamental, decresce em freqüência na taxa de 12 dB por
oitava. Por essa razão, apenas esta faixa de freqüência foi
relevante para esta análise.
Os resultados apresentados na Fig. 7 mostram uma
separabilidade entre os espectros médios de potência de vozes
normais e disfônicas em algumas faixas de freqüência. A
separabilidade entre os espectros de potência de vozes
normais e disfônicas em algumas faixas de freqüência, tais
como 0 –150 Hz e 550 – 800 Hz é evidente. Em outras faixas
de freqüência, observa-se uma sobreposição de energia. Isso
limita a aplicação do espectro de potência visando à
discriminação entre vozes normais e disfônicas.
Figura 7. Espectro de Potência médio e seus intervalos de confiança para
vozes normais e disfônicas.
D. Análise da Energia Global
Figura 5. Espectrograma médio das vozes normais. A seta indica a faixa de
freqüência onde a energia está concentrada.
A energia global é calculada integrando-se a energia
contida em cada freqüência que compõe o sinal, em um dado
instante de tempo. Esse é um método que fornece, de forma
precisa, a variação da energia da voz ao longo do tempo, por
considerar as contribuições de todas as freqüências do sinal,
FERNANDES et al.: ASSESSMENT OF LARYNGEAL DISORDERS
isto é, tanto a contribuição da energia dos harmônicos quanto
a contribuição da energia do componente de ruído. O
componente de ruído é provocado pela turbulência do ar ao
passar pela glote e o componente harmônico é produzido pela
vibração das pregas vocais e alterado de acordo com a
impedância do trato vocal.
Nas vozes disfônicas, sabe-se que as estruturas da laringe,
especificamente, as pregas vocais não estão em condições
normais. As alterações nestas estruturas, seja por atrofias,
retrações cicatriciais ou por lesões de massa, acabam
modificando o fluxo do ar ao passar pela glote. Essas
alterações provocam uma maior turbulência e tem como
conseqüência o componente de ruído amplificado em relação
ao sinal de voz. Esta componente de ruído é intensa e está
presente em todas as doenças laríngeas [26].
Avaliando-se os dados encontrados por meio da análise da
energia global, observamos que existe uma separabilidade
estatisticamente significante entre as vozes normais e
disfônicas. Esta separabilidade foi confirmada pelo intervalo
de confiança da média da energia global estimado pela técnica
Bootstrap. Esses resultados são apresentados na Fig. 8.
Com os resultados obtidos e suportados por meio do
intervalo de confiança, verifica-se o sucesso da utilização da
energia global na discriminação entre vozes normais e
disfônicas.
987
cada doença existirem diferentes graus de comprometimento.
A Fig. 9 apresenta a média da energia global das vozes com
doenças laríngeas analisadas neste estudo.
Não foi possível encontrar uma separabilidade entre todas
as desordens laríngeas investigadas neste estudo. A maior
parte das doenças investigadas tem uma energia global muito
semelhante, o que pode ser visualizado no gráfico acima.
Porém observa-se uma separabilidade entre o grupo de vozes
de paralisia de prega vocal esquerda por lesão do nervo
laríngeo recorrente e as demais doenças laríngeas
investigadas.
Com base nesses resultados, pode-se sugerir a energia
global como uma ferramenta auxiliar importante na
discriminação entre vozes normais e disfônicas.
Figura 9. Média da energia global dos diversos distúrbios laríngeos.
IV. DISCUSSÃO
Figura 8. Gráfico da média com intervalo de confiança da energia global de
vozes normais e disfônicas.
A energia global média foi maior para as vozes disfônicas
quando comparadas às vozes normais. Esse fato pode ser
justificado pela maior presença do componente de ruído em
vozes disfônicas, em decorrência das disfunções biomecânicas
das pregas vocais, da alteração da pressão subglótica e/ou dos
distúrbios neuromotores.
Em uma avaliação complementar, foram utilizados os sinais
de voz do grupo disfônico com o objetivo de discriminar os
diversos distúrbios laríngeos, através da energia global destes
sinais.
Neste estudo, foram encontradas vozes com parâmetros
vocais extremamente perturbados e outras com parâmetros
vocais bem próximos das vozes normais. Isto se deve ao fato
de existirem diferentes tipos de doenças laríngeas e dentro de
Nesse
estudo
foram
utilizadas
ferramentas
de
processamento digital de sinais no domínio da freqüência e do
tempo visando à discriminação entre sinais de vozes normais e
disfônicos.
Para a análise no domínio da freqüência, torna-se
necessário entender o modelo Fonte-Filtro descrito por Fant,
[36]. O filtro oral é caracterizado por picos (F1, F2, F3, etc.).
Estes picos são chamados de Formantes e correspondem aos
modos normais de ressonância dos tubos acústicos. Os três
primeiros formantes trazem informações quanto à
identificação da vogal, ou seja, têm maior conteúdo fonético,
porém certos pesquisadores referem o esforço vocal e a tensão
da musculatura intrínseca da laringe, como fator contribuinte
para o espectro resultante [37], [38]. Ao utilizar o espectro de
potência, foram observadas diferenças ao avaliar os espectros
médios das vozes normais e disfônicas. Acredita-se que o
esforço vocal provocado pela tensão dos músculos intrínsecos
das pregas vocais presente na produção das vozes disfônicas
modificou o espectro resultante. Isto determinou a diferença
entre os dois grupos, porém esta separabilidade não ocorreu
em toda a faixa de freqüência do sinal, o que limita a
aplicação deste método na discriminação das vozes normais e
disfônicas. Estes resultados são compatíveis com pesquisas
similares [39].
988
No presente trabalho, o diagnóstico de voz normal foi
atribuído aos indivíduos sem queixas vocais, que
apresentaram na videolaringoscopia um diagnóstico de pregas
vocais normais. Tal diagnóstico é compatível com coaptação
glótica completa, ausência de alterações estruturais mínimas,
ausência de lesões nas pregas vocais produção fonatória
equilibrada. Vários pesquisadores, ao definirem voz normal,
comentam que não existem padrões definidos sobre suas
características [26], mas acredita-se na evidência de uma
produção vocal equilibrada, considerada neutra, sem
comportamento hipofuncional de adução glótica, nem
hiperfuncional [40].
O diagnóstico de vozes disfônicas foi atribuído aos sujeitos
portadores de qualidade vocal alterada nos vários graus de
rouquidão, aspereza e soprosidade constatados pela análise
perceptivo-auditiva vocal. Estes sujeitos portadores de
disfonia apresentaram na videolaringoscopia presença de
lesões nas pregas vocais, ou alterações estruturais mínimas, ou
ainda, alterações quanto a coaptação glótica de caráter
hipofuncional ou hiperfuncional.
Ao comparar os espectrogramas das vozes normais e
disfônicas, nota-se que as vozes normais têm maior
componente harmônico e menor componente de ruído,
enquanto que as vozes disfônicas têm maior componente de
ruído e menor componente harmônico [39]. Portanto, acreditase que o componente de ruído contribui com maior energia na
formação do sinal em comparação ao componente harmônico
da voz.
Pesquisas anteriores fazem referência à presença de ruído
intenso na região dos primeiros formantes da vogal /ε/ nas
vozes disfônicas, comentando que este componente pode
substituir totalmente os harmônicos [34]. Estes achados de
ruído intenso nas disfonias em pesquisas anteriores explicam o
fato das vozes disfônicas desse estudo terem energia global
maior do que as vozes normais.
Os harmônicos são múltiplos inteiros da freqüência
fundamental que é a freqüência mais baixa da série, sendo,
portanto, periódicos. O ruído é um fenômeno acústico não
periódico, resultante da superposição desarmônica de sons
provenientes de várias fontes que têm movimentos de
vibração com diferentes freqüências, não apresentando relação
entre si [28].
Na paralisia laríngea, doença que teve a energia global
maior em comparação ao grupo de doenças analisadas neste
trabalho, ocorrem irregularidades no fechamento glótico. Tais
irregularidades contribuem significativamente com a presença
de ruído no sinal de voz.
As disfonias paralíticas têm o componente de ruído
aumentado em decorrência de muitas variáveis. A onda
mucosa da prega vocal tem o seu movimento parcialmente ou
totalmente afetado e a mesma pode estar fixada em posição
mediana, paramediana, intermediária ou lateral. A prega vocal
paralisada muitas vezes está desnivelada em relação à prega
vocal sadia, e a atrofia causada pela paralisia pode arquear a
borda livre da mesma. A gravidade da alteração vocal está
relacionada à denervação da musculatura e atenua-se em
IEEE LATIN AMERICA TRANSACTIONS, VOL. 9, NO. 7, DECEMBER 2011
presença de mecanismo compensatório pela prega sadia. O
quadro fonatório varia muito, porém predomina, na maioria
das vezes, uma voz rouca soprosa, emitida com esforço. A voz
pode ser diplofônica (bitonal) ou entrar em falsete, recebendo
a denominação de falsete paralítico [41]. Nas vozes de
paralisia deste estudo o componente de ruído era muito
intenso em toda a extensão de freqüência e os harmônicos
praticamente ausentes, o que justifica a energia global maior
nessa doença quando comparada com as demais doenças
laríngeas investigadas.
Como o sinal de voz é composto de harmônico e de ruído,
pode-se sugerir a energia global da voz como uma ferramenta
auxiliar na discriminação entre vozes normais e disfônicas
considerando a contribuição dos dois componentes.
Com base nos resultados apresentados acima, ressalta-se
que os métodos utilizados neste estudo contribuem para
esclarecer certas características relevantes para o diagnóstico
das desordens laríngeas. Porém, constatou-se que só foi
possível discriminar vozes normais de vozes disfônicas por
meio da energia global, pois o espectro de potência não foi
eficaz neste tipo de discriminação. Neste contexto, sugere-se o
uso da energia global como uma ferramenta computacional
com a finalidade de discriminar vozes normais de vozes
disfônicas.
V. CONCLUSÕES
O espectro de potência mostrou-se limitado quando
utilizado para discriminação entre vozes normais e disfônicas.
Os resultados obtidos com essa pesquisa proporcionaram
um melhor entendimento a respeito da energia global da voz.
Essa ferramenta não possibilita uma classificação dos diversos
distúrbios
laríngeos,
pois
não
há
separabilidade
estatisticamente significante na energia global das
laringopatias investigadas. Porém, a energia global da voz
mostrou ser uma importante ferramenta de processamento de
sinais, que propicia uma discriminação entre vozes normais e
disfônicas.
Pode-se ainda concluir, com estes resultados, que as vozes
disfônicas têm energia global maior do que vozes normais, e
que vozes de paralisia unilateral esquerda têm energia global
maior do que as vozes das demais laringopatias, apesar da
amostragem de paralisia ter sido pequena.
Os resultados desta pesquisa são úteis por fornecerem uma
estratégia de análise objetiva de apoio na realização de
diagnósticos de distúrbios laríngeos.
AGRADECIMENTOS
Os autores agradecem ao Conselho Nacional de
Desenvolvimento Científico e Tecnológico CNPq (Projeto
302655/2008-5), e a Fundação de Amparo à Pesquisa de
Minas Gerais (FAPEMIG) (Projeto TEC - PPM-00364-11)
pelo suporte financeiro a esta pesquisa.
FERNANDES et al.: ASSESSMENT OF LARYNGEAL DISORDERS
REFERÊNCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
A. Parraga, “Aplicação da transformada wavelet packet na análise e
classificação de sinais de vozes patológicas,” Dissertação de mestrado,
Universidade Federal do Rio Grande do Sul, Porto Alegre, Março 2002.
J. Casper, “Reabilitação vocal para disfonia por tensão muscular,” O
Melhor que Vi o Ouvi II, pp. 16–28, 2000.
S. M. R. Pinho and P. Pontes, “Escala de avaliação perceptiva da fonte
glótica: RASAT,” Vox Brasilis, vol. 8, no. 3, pp. 11–3, 2002.
S. M. Zitta, “Análise perceptivo-auditiva e acústica em mulheres com
nódulos vocais,” Dissertação de mestrado, Centro Federal de Educação
Tecnológica do Paraná, Curitiba, Setembro 2005.
E. P. M. Ma and E. M. L. Yiu, “Multiparametric evaluation of
dysphonic severity,” Journal of Voice, vol. 20, no. 3, pp. 380–390,
2006.
R. Medrado, L. P. Ferreira, and M. Behlau, “Voice-over: perceptual and
acoustic analysis of vocal features,” Journal of Voice, vol. 19, no. 3, pp.
340–349, 2005.
L. M. O. Andrade, Determinação dos limiares de normalidade dos
parâmetros acústicos da voz, Tese de doutorado, Universidade de São
Paulo, 2003.
J. J. Jiang, Y. Zhang, and C. McGilligan, “Chaos in voice, from
modeling to measurement,” Journal of Voice, vol. 20, no. 1, pp. 2–17,
2006.
L. Haddad, M. Abrahão, O. Cervantes, F. P. Ceccon, I. Gielow, J. R.
Carvalho, and F.D. Leonhardt, “Vocal assessment in patients submitted
to CO2 laser cordectomy,” Revista Brasileira de Otorrinolaringologia,
vol. 72, pp. 295–302, 2006.
Y. Zhang, J. J. Jiang, L. Biazzo, and M. Jorgensen, “Perturbation and
nonlinear dynamic analyses of voices from patients with unilateral
laryngeal paralysis,” Journal of Voice, vol. 19, no. 4, pp. 519–528,
2005.
G. P. Ledda, N. Grover, V. Pundir, E. Masala, and R. Puxeddu,
“Functional outcomes after CO2 laser treatment of glottic carcinoma,”
The Laryngoscope, vol. 116, no. 6, pp. 1007–1011, 2006.
P. Mitev and S. Hadjitodorov, “Fundamental frequency estimation of
voice of patients with laryngeal disorders,” Information Sciences, vol.
156, no. 1-2, pp. 3–19, 2003.
P. N. Carding, I. N. Steen, A. Webb, K. Mackenzie, I. J. Deary, and J.
A. Wilson, “The reliability and sensitivity to change of acoustic
measures of voice quality,” Clinical Otolaryngology & Allied Sciences,
vol. 29, no. 5, pp. 538–544, 2004.
P. R. Scalassara, J. C. Pereira, and Maciel C. D, “Análise do sinal de
voz usando processamento de sinais,” in 5o EncoBio de São Carlos, São
Carlos, 2005, Programa de Interunidades em Bioengenharia EESCUSP.
D. Rocchesso, Introduction to sound processing, Mondo Estremo,
2004.
M. H. Hayes, Schaum’s outline of theory and problems of digital signal
processing, McGraw-Hill, 1999.
L. F. Brito-Filho, “O processo de envelhecimento eo comportamento
vocal,” Centro de Especialização em Fonoaudiologia Clínica, 1999.
A. Mac-Kay, I. Q. Marchesan, J. L. Zorzi, and I. C. D. Gomes,
“Linguagem e envelhecimento,” Tópicos em fonoaudiologia, pp. 415–
20, 1997.
D. R. Boone and S. C. McFarlane, A voz e a terapia vocal, Artes
Médicas, Porto Alegre, 1994.
M. Hirano and D. M. Bless, Exame videoestroboscópico da laringe,
Artes Médicas, Porto Alegre, 1997.
G. Madazio, M. Behlau, P. Pontes, I. Q. Marchesan, J. L. Zorzi, and I.
C. G. Dias, “Análise da proporção harmônico-ruído pré e pós
reabilitação vocal,” Tópicos em Fonoaudiologia., pp. 169–89, 1998.
M. E. Dajher, J. C. Pereira, and Maciel C. D., “Padrões visuais
comparativos de vozes normais e patológicas,” in 5o EncoBio de São
Carlos, São Carlos, 2005, Programa de Interunidades em Bioengenharia
EESC-USP.
E. Yiu, L. Worrall, J. Longland, and C. Mitchell, “Analysing vocal
quality of connected speech using Kay’s computerized speech lab: a
preliminary finding,” Clinical Linguistics & Phonetics, vol. 14, no. 4,
pp. 295–305, 2000.
A. V. Oppenheim and R. W. Schafer, Discrete-time signal processing,
Prentice Hall, 1999.
989
[25] I. C. P. Spinelli and M. Behlau, “Estudo comparativo das medidas de
frequência fundamental, jitter e shimmer em diferentes sistemas de
análise vocal,” A voz do especialista, vol. 1, pp. 265–71, 2001.
[26] P. A. L. Pontes, V. P. Vieira, M. I. R. Gonçalves, and A. A. L. Pontes,
“Characteristics of hoarse, rough and normal voices: acoustic
spectrographic comparative analysis,” Revista Brasileira de
Otorrinolaringologia, vol. 68, pp. 182–188, 2002.
[27] I. Russo and M. Behlau, Percepção da fala: análise acústica do
português brasileiro, Lovise, 1993.
[28] I. C. P. Russo, Acústica e psicoacústica aplicadas à fonoaudiologia,
São Paulo, 1999.
[29] V. P. Vieira, N. G Biase, and P. Pontes, “Análise acústica e perceptivoauditiva versus coaptação glótica em alteração estrutural mínima,” Acta
AWHO, vol. 23, no. 1, pp. 6–12, 2005.
[30] L. C. Figueiredo, M. I. R. Gonçalves, A. Pontes, and P. Pontes, “Vocal
behavior during menstrual cycle: perceptual-auditory, acoustic and selfperception analysis,” Revista Brasileira de Otorrinolaringologia, vol.
70, pp. 331–339, 2004.
[31] A. V. Oppenheim, A. S. Willsky, and S. Hamid, Signals and systems,
Prentice Hall, 1997.
[32] B. Efron, R. Tibshirani, and R. J. Tibshirani, An introduction to the
bootstrap, Chapman & Hall/CRC, 1993.
[33] M. S. Behlau, Uma análise das vogais do português brasileiro falado
em São Paulo: perceptual, espectrográfica de formantes e
computadorizada de frequência fundamental, Escola Paulista de
Medicina, 1984.
[34] L. P. Ferreira, D. M. Befi-Lopes, and S. C. O. Limongi, Tratado de
fonoaudiologia, Roca, São Paulo: Roca, 2005.
[35] Z. Camargo, S. Madureira, L. P. Ferreira, D. M. Befi-Lopes, and S. C.
O. Limongi, “Análise acústica: revisão crítica de estudos no campo das
disfonias,” Tratado de fonoaudiologia, 2005.
[36] M. N. Vieira, “Uma introdução à acústica da voz cantada,” in I
Seminário Música, Ciência e Tecnologia: Acústica Musical, 2005.
[37] J. Laver, The phonetic description of voice quality, vol. 1, Cambridge
University Press, Cambridge, 1980.
[38] Z. Camargo, “Da fonação à articulação: princípios fisiológicos e
acústicos,” Jornal do CFFa, vol. 2, no. 2, 1999.
[39] P. J. Murphy, “Spectral noise estimation in the evaluation of
pathological voice,” Logopedics Phonatrics Vocology, vol. 31, no. 4,
pp. 182–189, 2006.
[40] J. Sundberg, “Research on singing voice in retrospect,” Speech, Music
and Hearing KTH, vol. 45, pp. 11–22, 2003.
[41] R. Lazzer, “The vocal paralysis in the adult: glottic configuration in the
unilateral paralyses with involvement of the recurrent laryngeal nerve
and its relationship with the therapeutic procedures,” Revista Cefac:
Atualização Científica em Fonoaudiologia, 1999.
Marlice Fernandes de Oliveira é graduada em
Fonoaudiologia pela Universidade Católica de Petrópolis
(1980). Possui especialização em Voz pelo Centro de Estudos
da Voz em São Paulo. Concluiu o mestrado em Ciências no
Laboratório de Engenharia Biomédica (Biolab) pela
Universidade Federal de Uberlândia (UFU) em 2007. Tem
experiência nas diversas áreas de atuação fonoaudiológica e
atua principalmente nas áreas de voz, motricidade orofacial e
reabilitação vestibular. É docente e coordenadora do Curso de Fonoaudiologia
do Centro Universitário do Cerrado Patrocínio-MG desde 2005. É membro do
Conselho Universitário e do Conselho de ensino, pesquisa e extensão do
UNICERP. Faz parte do Comitê de Ética e Pesquisa do UNICERP. É revisora
de trabalhos científicos submetidos à revista Saúde e Meio Ambiente do
Centro Universitário do Cerrado Patrocínio.
Fernando Eduardo Resende Mattioli é graduado em
Engenharia Elétrica pela Universidade Federal de Uberlândia
(UFU), Uberlândia, Minas Gerais, Brasil, em 2009. Tem
experiência na área de Engenharia da Computação, com ênfase
em Realidade Virtual, Engenharia de Software e Engenharia
Biomédica, atuando principalmente nos seguintes temas:
realidade virtual, inteligência artificial, engenharia de software e
processamento digital de sinais. Atualmente é aluno de Mestrado em
Engenharia Elétrica, na área de Realidade Virtual, na Universidade Federal de
Uberlândia (UFU).
990
Edgard Afonso Lamounier Jr. possui Licenciatura Plena em
Matemática (1986) e mestrado em Engenharia Elétrica, na área
de Engenharia da Computação (1989) pela Universidade
Federal de Uberlândia (UFU). Em 1996, obteve o título de
PhD pela Escola de Computação da Universidade de Leeds,
Inglaterra. Atualmente, é professor associado da Faculdade de
Engenharia Elétrica da UFU, certificado CREA/CONFEA em
Engenharia da Computação. Tem experiência na área de Engenharia e Ciência
da Computação, com ênfase em Arquitetura de Sistemas de Computação.
Atua, principalmente, nos temas: aplicações de Realidade Virtual e
Aumentada em Educação à Distância e em Engenharia Biomédica, Engenharia
de Software e CAD. É membro efetivo da Sociedade Brasileira de
Computação (SBC) e da Sociedade Brasileira de Engenharia Biomédica
(SBEB). Em 2007, concluiu um MBA na área de Administração de Negócios
e Comércio Eletrônico pela Abet Open Univerity, USA. Em 2010, foi eleito
Presidente da Comissão Especial de Realidade Virtual da Sociedade Brasileira
de Computação (CERV-SBC), para a gestão 2010-2012.
Adriano O. Andrade graduou-se em Engenharia Elétrica
pela Universidade Federal de Goiás (UFG) em 1997.
Concluiu o mestrado em Engenharia Elétrica no Laboratório
de Engenharia Biomédica (Biolab) pela Universidade
Federal de Uberlândia (UFU) em 2000. É doutor em
Cibernética (2005) pelo Department of Cybernetics,
University of Reading, Inglaterra, com especialização no
processamento e detecção de sinais biológicos. É professorpesquisador na Faculdade de Engenharia Elétrica da UFU desde 2006. É
Bolsista de Produtividade em Pesquisa do Conselho Nacional de
Desenvolvimento Científico e Tecnológico (CNPq) desde 2009. É bolsista do
Programa Pesquisador Mineiro da Fundação de Amparo à Pesquisa de Minas
Gerais (FAPEMIG) desde 2011. Sua pesquisa é voltada ao processamento e
detecção de sinais biológicos com o interesse em investigar estratégias de
controle adotadas pelo sistema neuromuscular, incluindo a utilização destes
sinais para o controle de dispositivos externos (por exemplo, membros
artificiais) e diagnóstico de doenças.
IEEE LATIN AMERICA TRANSACTIONS, VOL. 9, NO. 7, DECEMBER 2011