63 - rtic

Transcrição

63 - rtic
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
Análise de Sinais de Voz para Caracterização de
Patologias na Laringe
Silvana C. Costa, Washington C. de A. Costa, Suzete E. N. Correia,
Joseana M. F. R. de Araújo, Vinícius J. D. Vieira
Instituto Federal de Educação, Ciência e Tecnologia da Paraíba – IFPB
João Pessoa – Brasil
{silvana,suzete,washington}@ifpb.edu.br, [email protected], [email protected]
Resumo—Patologias na laringe causam distúrbios na voz
que podem ser detectados por meio de técnicas de processamento
digital de sinais. A análise acústica desses sinais,
comparativamente a sinais de vozes produzidos por locutores
com laringes saudáveis, pode ser empregada como uma
ferramenta de apoio ao diagnóstico de patologias laríngeas, bem
como ao tratamento terapêutico de disfonias e acompanhamento
pré e pós-cirúrgicos. A eficiência do método depende de fatores
tais como a escolha das características ou parâmetros que melhor
representem a patologia ou o distúrbio vocal, bem como do
método de classificação empregado. Este artigo apresenta alguns
métodos baseados no modelo linear de produção da fala, como
também na análise dinâmica não linear para a classificação de
patologias na laringe.
Palavras-Chave—Patologias na Laringe,
Acústica, Análise linear, Análise não-linear.
Análise
Abstract—Laryngeal pathologies cause disturbances in the
voice which can be detected by means of techniques of digital
signal processing. The acoustic analysis of these signals compared
to voices produced by speakers with healthy larynx, can be
employed as a tool to support the diagnosis of laryngeal diseases,
as well as therapeutic treatment of dysphonia and pre and postsurgery attendance. The method efficiency depends on factors
such as the choice of characteristics or parameters that best
represent the pathology or the voice disorders, as well as the
classification method employed. This article presents some
methods based on the linear model of speech production, as well
as in the nonlinear dynamic analysis for classification of
pathologies in the larynx.
Keywords—Laryngeal pathologies, Acoustic Analysis,
Linear Analysis, Nonlinear analysis.
I.
INTRODUÇÃO
T
écnicas de processamento digital têm sido empregadas
na obtenção de características relevantes de sinais de
vozes para a classificação ou detecção precoce de patologias
laríngeas. A análise acústica, por meio dessas técnicas, permite
a obtenção de uma ferramenta não invasiva de apoio ao
diagnóstico e de baixo custo, comparada aos exames
tradicionais baseados em videolaringoscopia [1,2].
Os métodos tradicionais de análise acústica de vozes
alteradas empregam o pitch e medidas oriundas dele como
jitter, shimmer, quociente de perturbação de amplitude (APQ –
Amplitude quociente perturbation), quociente de perturbação
do pitch (PPQ), relação harmônica-ruído (HNR – harmonic-tonoise ratio), excitação do ruído glotal (GNE –Glottal to Noise
Excitation), entre outras [3-7]. No entanto, sinais afetados por
patologias severas apresentam dificuldades para obtenção do
pitch tornando a análise por meio destes parâmetros, muitas
vezes, prejudicada.
Desta forma, surgem, em pesquisas mais recentes, métodos
de análise de sinais patológicos baseados no modelo linear de
produção da fala, que independem da obtenção do pitch. Como
exemplo, pesquisas apontam medidas obtidas a partir do
modelo fonte-filtro, a saber: os coeficientes de predição linear
(LPC), coeficientes cepstrais e suas ponderações e coeficientes
mel-cepstrais [1, 6-9].
A hipótese de que a voz é produzida por um sistema de
fonte-filtro (modelo linear de produção da voz), no entanto,
carrega intrinsecamente suas limitações. A presença de
patologias na laringe acarreta, dependendo da severidade,
alterações no padrão anatômico ou no padrão de vibração das
pregas vocais [10].
O modelo não linear de produção da voz baseia-se em
fatores que indicam não linearidades, tais como variação
temporal da forma do trato vocal, as ressonâncias associadas à
sua fisiologia, as perdas devido ao atrito viscoso nas paredes
internas do trato vocal, a suavidade dessas paredes internas, a
radiação do som nos lábios, o acoplamento nasal e a
flexibilidade (comportamento dinâmico) associada à vibração
das pregas vocais [11]. O estudo de modelos não lineares para
representar a produção da voz tem se destacado em recentes
pesquisas [12-15].
A transformada wavelet é uma ferramenta matemática que
possui propriedades úteis e interessantes para o processamento
de sinais, como: (i) a possibilidade de usar análise
multiresolucional, que permite a análise de sinais em
resoluções distintas, de modo que em cada escala aspectos
diferentes sejam observados; (ii) o fato das wavelets não serem
únicas, ou seja, existem na literatura vários tipos dessas
funções, que podem ser selecionadas de acordo com a
aplicação; (iii) a representação esparsa dos coeficientes, que é
exatamente importante para a extração de características, por
fornecer apenas um pequeno número de coeficientes não-nulos
[16]. Diversas pesquisas têm sido realizadas empregando a
63
64
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
transformada wavelet na avaliação de desordens vocais
provocadas por patologias laríngeas [17-24] e na detecção de
desvios vocais [25].
Uma determinada característica, ou um vetor de
características, pode representar bem a presença de um tipo de
patologia, mas não ser relevante para outro. Portanto, a busca
pelas características ou parâmetros mais representativos de
desordens vocais provocadas por patologias na laringe é uma
busca incessante. De posse das informações de quais
parâmetros são mais relevantes para cada patologia de
interesse, um sistema de apoio ao diagnóstico pode ser
implementado com maior eficiência, apresentando altos índices
de acurácia, com baixos valores de falso positivo e falso
negativo. Ou seja, um estudo mais aprofundado e a escolha do
melhor tipo de análise e de características proporciona um
sistema especialista com alto índice de confiabilidade.
Neste trabalho, estão apresentadas as principais pesquisas
realizadas nos últimos anos, pelos autores, na discriminação
entre sinais saudáveis e patológicos, afetados pelas patologias
edema, nódulos paralisia nas pregas vocais.
II.
TÉCNICAS BASEADAS NO MODELO LINEAR DE
PRODUÇÃO VOCAL
As técnicas que vêm sendo utilizadas para a detecção de
patologias na laringe, explorando o modelo linear de produção
vocal, o modelo fonte-filtro, empregam como características
representativas dos sinais de voz: coeficientes de predição
linear (LPC), coeficientes cepstrais, delta cepstrais e suas
versões ponderadas, coeficientes mel-cepstrais [1, 2, 8, 9].
parâmetros da fonte e do sistema devem ser escolhidos de
forma tal que a saída resultante tem as propriedades
semelhantes à voz desejada. Se isto puder ser feito, o modelo
serve como uma base útil para o processamento de sinais de
voz [26].
Figura 2: Modelo simplificado de produção da fala [27].
Um modelo detalhado para geração propagação e irradiação
do som pode, em princípio, ser solucionado com valores
adequados dos parâmetros da excitação e do trato vocal para
calcular uma forma de onda da voz na saída. A teoria acústica
fornece uma técnica simplificada, bastante utilizada, para
modelar sinais de voz, que apresenta a excitação separada do
trato vocal e da radiação. Os efeitos da radiação e do trato
vocal são representados por um sistema linear variante no
tempo [26]. O modelo completo é mostrado na Figura 2.
A modelagem do sistema de produção da voz humana na
codificação LPC é feita de forma que para a produção dos
sinais sonoros é gerado um trem de impulsos unitários cuja
periodicidade é determinada pelo período de pitch (T0 =1/F0),
em que F0 representa a frequência de vibração das pregas
vocais (frequência fundamental). Esse trem de pulsos é
aplicado a um filtro digital G(z) que simula o efeito dos pulsos
glotais, que são devidamente selecionados e aplicados ao trato
vocal, após um controle de ganho. Para a produção dos sinais
não-sonoros (sons surdos), é utilizado um gerador de ruído
aleatório com espectro plano e um controle de ganho [26].
Figura 3: Modelo geral discreto no tempo para produção de fala [27].
Figura 1: Diagrama de processamento de sinais da voz para detecção de
patologias na laringe.
A. Análise de voz por predição linear
A teoria acústica da produção da fala é constituída de
representações matemáticas do processo de produção da fala e
tem sido usada como base para toda a análise e síntese
realizada com os sinais da fala [26].
O modelo básico para produção da fala é constituído por
um gerador de excitação e um sistema linear variante no tempo
(Figura 1). O gerador de excitação deve fornecer dois tipos de
saída: um trem de pulsos (glotais) para sinais sonoros e ruído
aleatório para sinais não-sonoros. Os efeitos de radiação dos
lábios e do trato vocal são produzidos pelo sistema linear. Os
No caso de análise por predição linear, as funções do pulso
glotal, radiação e componentes do trato vocal, podem ser
combinadas em uma única função H(z), representando o
processo de produção da fala, como descrito na Equação 1.
H(z) = G(z).V(z).R(z)
(1)
em que G(z), V(z) e R(z), representam a transformada Z dos
modelos do pulso glotal, do trato vocal e da radiação,
respectivamente.
O método de predição linear estima cada amostra atual de
voz baseado numa combinação linear de n amostras anteriores,
em que um n maior permite um modelo mais preciso. Esta
análise fornece um conjunto de parâmetros da fala que
representa o trato vocal [26]. Um preditor linear com
coeficientes de predição, α(k), é definido como um sistema cuja
saída é dada pela Equação 2.
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
(2)
65
Na Figura 5 é apresentada a representação do cepstro
para um sinal de voz patológico, é possível observar a
diminuição do pico devido à presença da patologia.
em que α(k) são os coeficientes de predição, s(n-k) são as
amostras passadas e p é a ordem do preditor. Um valor de p
maior representa um modelo mais preciso do sinal de voz.
Existem várias formulações diferentes para a predição
linear, sendo que algumas delas são equivalentes entre si. O
método da autocorrelação, método utilizado neste trabalho, e o
método da covariância são dois métodos padrões de solução
para cálculo dos coeficientes do preditor [26, 28]. Ambos os
métodos são baseados na minimização do valor médio
quadrático do erro de estimação e(n), ou sinal residual, que é
descrito pela Equação 3.
(3)
B. Análise Cepstral
A análise cepstral do sinal de voz para o estudo das
alterações laríngeas pode ser muito útil, uma vez que permite
se trabalhar com o sinal da glote (excitação) separadamente das
repercussões ressonantes do trato vocal, facilitando o
entendimento das modificações que ocorrem nas pregas vocais.
A aplicação dessa técnica, no estudo do sinal acústico de vozes
alteradas, poderia detectar modificações no sinal de voz que se
relacionem com as alterações laríngeas e, consequentemente,
identificar modelos para uma classificação, permitindo a
obtenção de uma ferramenta de diagnóstico não-invasiva [29].
Na Figura 4 é apresentada a representação do cepstro para
um sinal de voz normal em que o pico correspondente ao
período fundamental (excitação) está próximo da quefrência
de 10 ms, separado das componentes do trato vocal, que são as
de baixas quefrências.
Figura 5: Cepstro de uma voz patológica [2].
Os coeficientes cepstrais podem ser obtidos a partir
dos coeficientes LPC, mantendo a validade para análise dos
efeitos das mudanças provocadas pelas pregas vocais no sinal
de voz. Mantendo-se o trato vocal inalterado, ou seja, supondo
que o trato vocal é saudável, as mudanças ocorridas no
parâmetro, pelas alterações vocais, serão consideradas como
sendo provenientes da excitação.
C. Coeficientes Cepstrais (CEP)
Os coeficientes cepstrais podem ser calculados
recursivamente a partir dos coeficientes de predição linear,
α(k), por meio da Equação 4 [30]. O uso dessa recursão
permite um cálculo eficiente dos coeficientes cepstrais e evita
fatoração polinomial.
c(1)   (1)

n 1
c (n)   (n)  1  j  ( j )c(n  j ) ,

i

n
j 1 

1 n  p
(4)
em que n é o índice do coeficiente.
Os coeficientes cepstrais obtidos pela Equação 4
fornecem uma boa medida das diferenças na envoltória
espectral dos segmentos de voz em análise. Estes coeficientes
são utilizados para observar as informações das transições do
sinal de voz patológico comparadas ao sinal de voz normal.
D. Coeficientes Delta Cepstrais (DCE)
Figura 4: Cepstro para uma voz normal [2].
Os
coeficientes
Cepstrais
representam
as
propriedades espectrais de um dado bloco de amostras de voz.
Entretanto, estes não caracterizam a informação temporal ou
de transição de uma sequência de blocos de amostras de voz.
Para se obter um aumento de desempenho é introduzida a
derivada cepstral que captura a informação de transição da
voz. A primeira derivada do cepstrum (também conhecida
como Delta Cepstrum),
, é definida pela Equação 5 [30]:
K
c(n, t )
 ci (n)    kc(n, t  k )
t
k  K
(5)
em que c(n, t) é o n-ésimo coeficiente da predição linear no
tempo t, ø é uma constante de normalização e 2K+1 é o
número de quadros sobre os quais o cálculo é realizado.
66
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
Os coeficientes delta cepstrais também podem ser
obtidos como uma versão simplificada da Equação 5, da forma
[30]:
avaliação da qualidade vocal. Uma descrição sucinta da
análise mel-cepstral é apresentada a seguir.
G. Análise mel-cepstral
 K

ci (n)    kci q (n)G
 q  K

1 n  p
(6)
onde G é um termo de ganho (por exemplo: 0,375), p é o
número dos coeficientes delta cepstrais, K = 2, n representa o
índice de coeficiente e i o quadro de análise.
E. Coeficientes Cepstrais Ponderados (CPP)
Com o objetivo de minimizar a sensibilidade dos
coeficientes cepstrais de baixa ordem em relação à envoltória
espectral e à sensibilidade dos coeficientes cepstrais de alta
ordem em relação ao ruído, é empregada a ponderação
cepstral, também conhecida como liftering ou suavização [30].
A ponderação é obtida multiplicando-se
por uma janela
(a escolha correta da janela melhora a robustez), obtendose assim, o cepstrum ponderado (Equação 7), como um vetor
de características.
cwi (n)  ci (n).w(n)
(7)
Geralmente, é a filtragem linear (liftering) passa-faixa
(Bandpass liftering– BPL) dada pela Equação 8, é mais
comumente empregada.
Os coeficientes mel-cepstrais (Mel-frequency Cepstral
Coefficients – MFCC) surgiram devido aos estudos na área de
psicoacústica (ciência que estuda a percepção auditiva
humana), que mostraram que a percepção humana das
frequências de tons puros ou de sinais de voz não segue uma
escala linear. Para cada tom com frequência f, medida em Hz,
define-se um tom subjetivo medido em uma escala que se
chama escala mel. O mel, então, é uma unidade de medida da
frequência percebida de um tom [28].
A diferença entre o cálculo dos coeficientes cepstrais e dos
coeficientes mel-cepstrais está na aplicação de um banco de
filtros digitais ao espectro real do sinal, antes da aplicação da
função logarítmica. Tais filtros, não estão linearmente
espaçados no domínio da frequência. O mapeamento entre a
escala de frequência real, em Hz, e a escala de frequências
percebida, em mel, é aproximadamente linear abaixo de 1000
Hz e, logarítmica, acima. Logo, o espaçamento dos filtros
digitais deve respeitar a escala de frequências percebidas
(escala Mel). A função de mapeamento da frequência acústica f
(em Hz) para uma escala de frequências percebidas Mel (em
mels) é dada por
Fmel  2595  log10 (1 
(8)
onde L é o tamanho da janela.
A ponderação linear ajusta cada componente cepstral
individualmente pelo índice n, suavizando as componentes de
ordem inferior. A BPL pondera uma sequência de coeficientes
cepstrais por uma função senoidal deslocada, de forma que as
componentes de baixa e de alta ordem são de-enfatizadas. O
esquema de ponderação descrito é baseado na ideia de que os
pesos são apenas função do índice do coeficiente cepstral e
não tem nenhuma relação explícita com as variações
instantâneas dos coeficientes cepstrais, que são introduzidas
pelas condições ambientais, como por exemplo, o ruído, os
efeitos do canal.
Os coeficientes delta-cepstrais ponderados (DCP) são
obtidos a partir das Equações 7 e 8, associando as
características dos coeficientes cepstrais ponderados com os
delta-cepstrais, resultando na Equação 9:
 L  n 
1  sin
,
N  1,2,..., L
w(n)   2  L 

0,
caso
contrário

(10)
em que Flinear é a frequência linear (em Hz) e Fmel é a
frequência percebida (em mel). Após o pré-processamento
dos sinais, os coeficientes mel cepstrais são obtidos para cada
segmento do sinal, de acordo com os seguintes passos [28]:




F. Coeficientes Delta Cepstrais Ponderados (DCP)
Flinear ( Hz )
),
700
É calculado do espectro de magnitude do sinal, x(n), a
partir do módulo da transformada de Fourier
(|FFT(x(n)|2);
Aplicação do banco de filtros triangulares em escala
mel. São utilizados geralmente 20 filtros de formato
triangular. No entanto, a quantidade de filtros é
baseada na frequência de amostragem (Fa) (3.ln(Fa)).
Cálculo do logaritmo da energia de saída de cada filtro.
A aplicação do logaritmo é necessária para a obtenção
do cepstro.
Finalmente, o processo de obtenção dos coeficientes
MFCC pode ser matematicamente descrito por [26,28]:
Nf
1 
( n)   log( Sf ( k )).cos[ n( k  )].
c
mel
2 Nf
k 1
n  0,1, ...., Nf
(11)
em que Nf é o número de filtros digitais utilizados, cmel(n) é o
n-ésimo coeficiente mel-cepstral e Sf(k) é o sinal de saída do
banco de filtros digitais, dado por
(8)
Espera-se que, qualquer mudança na estrutura
anatômica do trato vocal, devido à patologia, afete os
coeficientes LPC (Linear Prediction Coding) como também os
cepstrais e seus derivados. Os coeficientes mel-cepstrais
também são indicados em análise acústica de sinais de voz para
Sf ( k ) 
NFFT
 Wk ( j ). X ( j )
j 1
k  1, ..., Nf ,
(12)
em que Wk(j) são as janelas de ponderação triangulares
associadas às escalas-mel e X(j) é o espectro de magnitude da
FFT de N pontos [26,28].
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
III.
TÉCNICAS BASEADAS NA ANÁLISE DINÂMICA NÃOLINEAR DE SINAIS DE VOZES.
O uso do modelo linear para a produção da fala tem obtido
sucesso na discriminação entre vozes saudáveis e patológicas.
Estudos mais recentes têm apontado para a evidência do caos
na voz humana, aumentando o interesse do uso da análise
acústica baseada na análise dinâmica não linear [11-15]
A análise dinâmica não linear de sinais de voz leva em
consideração aspectos da voz humana não explorados na
abordagem linear, tais como: variação temporal da forma do
trato vocal, as ressonâncias associadas à sua fisiologia, as
perdas devido ao atrito viscoso nas paredes internas do trato
vocal, a suavidade dessas paredes internas, a radiação do som
nos lábios, o acoplamento nasal e a flexibilidade
(comportamento dinâmico) associada à vibração das pregas
vocais [31].
Em trabalhos anteriores, foram empregadas, oriundas da
análise dinâmica não linear as seguintes medidas: Dimensão de
correlação, entropia de correlação, entropia aproximada,
entropia de Shannon, entropia de Tsallis, expoente de Hurst,
maior expoente de Lyapunov e primeiro mínimo da função de
informação mútua, além da combinação de medidas lineares e
não lineares [12, 32, 33].
Em anos mais recentes, vem se destacando a Análise de
Quantificação de Recorrência como uma técnica promissora na
análise da qualidade vocal. Os gráficos de recorrência
apresentam estruturas (pontos de recorrência, linhas diagonais
e verticais) que se modificam com as mudanças em amplitude e
frequência provocadas no sinal de voz pela presença de um
desvio vocal (rugosidade, soprosidade, tensão, entre outros)
seja ele provocado por uma patologia na laringe (de origem
orgânica ou neurológica) ou resultante de abuso vocal e maus
hábitos sociais como tabagismo e alcoolismo.
Neste trabalho, será dada ênfase às medidas de
quantificação de recorrência por ser uma técnica mais recente e
que tem se destacado como mais uma opção na área de análise
acústica unindo avaliação visual e quantitativa dos sinais de
voz.
67
x x
x
instante i . A distância entre os estados i e j é calculada
por meio de alguma norma ||.|| (geralmente a norma
Euclidiana). Se essa distância for menor que o raio ε, a função
degrau unitário θ coloca valor 1, o qual representa um ponto
preto no Gráfico de Recorrência. Caso contrário, o valor é 0,
representado por um ponto branco.
Exemplos de Gráficos de Recorrência são apresentados na
Figura 5 para um segmento de 800 amostras (32 ms) para a
vogal sustentada /ah/ de um dos sinais de cada classe avaliada
neste trabalho.
As medidas de quantificação de recorrência foram
propostas inicialmente por [36] e consolidadas posteriormente
por [35], como uma análise objetiva das estruturas formadas
nos Gráficos de Recorrência. As principais medidas de
recorrência são:
-Taxa de Recorrência, que mede a densidade dos pontos de
recorrência;
- Determinismo, a qual está relacionada com a
previsibilidade do sistema;
- Comprimento máximo das linhas diagonais;
- Entropia de Shannon que representa a distribuição de
frequências dos comprimentos das linhas diagonais e reflete a
complexidade da estrutura determinística presente no sistema;
- Laminaridade, que fornece a quantidade de estruturas
verticais presentes no Gráfico de Recorrência, e representa a
ocorrência de estados recorrentes que não mudam com o
tempo;
- Tempo de Permanência (Trapping Time) – conhecido
como o comprimento médio dos estados laminares; e
- Comprimento máximo das linhas verticais.
900
900
800
800
700
700
600
600
500
500
400
400
300
300
200
200
100
100
200
400
600
200
800
400
(a)
600
800
(b)
A. Análise de Quantificação de Recorrência
Os Gráficos de Recorrência foram propostos por [34] como
uma técnica de análise de sistemas dinâmicos, a fim de
proporcionar uma visualização do comportamento da trajetória
do espaço de fases multidimensional [35]. Basicamente, os
Gráficos de Recorrência são matrizes quadradas preenchidas
por zeros e uns. Nos pontos em que houver a unidade, significa
que esses pontos são recorrentes, ou seja, os estados do sistema
dinâmico, referentes a esses pontos, visitam regiões próximas
uns dos outros na trajetória do espaço de fases [14].
Matematicamente, um Gráfico de Recorrência pode ser
definido por:


Rim, j,     xi  x j , xi m ,
(13)
com i, j = 1, ...., N Em que N é o número de variáveis xi
formadas do sistema, ε é o raio de vizinhança aplicado no
900
900
800
800
700
700
600
600
500
500
400
400
300
300
200
200
100
100
200
400
600
(c)
800
200
400
600
800
(d)
Figura 6: Gráfico de Recorrência obtido de um sinal de voz: (a) saudável,
com m=3 e τ=9; (b) afetado por paralisia nas pregas vocais, com m=3 e τ=12;
(c) afetado por edema de Reinke, com m=2 e τ=7; (d) afetado por nódulos, com
m=3 e τ=9.
68
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
IV.
ANÁLISE WAVELET
A transformada wavelet contínua permite uma análise dos
sinais de voz por meio de escalogramas, uma representação
tempo-frequência do sinal [19,20]. Através da transformada
wavelet discreta características como energia, entropia e
expoente de Hurst podem ser usadas para representar os sinais
analisados em várias resoluções diferentes [25,37].
A. Transformada Wavelet Contínua
Os coeficientes da transformada wavelet contínua de uma
função x(t) de energia finita são obtidos pela Equação (14).

WX (a, b, )   x(t )
*
a ,b
(t ) dt.
(14)

1
a
t b
 a  0, b  R.
 a 

(17)
d j (k )   g (m  2k )c j 1 (m).
(18)
m
m
As Equações (17) e (18) representam operações de
filtragem usando a resposta ao impulso de filtros passa-baixas
h e passa altas g. A transformada wavelet discreta é obtida
através de filtragens sucessivas pelos filtros h e g. O sinal
filtrado é subamostrado para manter o critério de Nyquist. Se o
sinal original possui N amostras, os coeficientes wavelets cj(k)
e dj(k) possuem, cada um, 2j N amostras [16].
A energia e a entropia dos coeficientes de detalhes da
transformada wavelet podem ser calculadas em cada resolução
por [26]:
em que o asterisco representa o conjugado complexo e ψa,b(t)
são as wavelets geradas pela dilatação e translação de uma
função wavelet mãe ψ(t), definida por:
 a ,b (t ) 
c j (k )   h(m  2k )c j 1 (m),
Ej 
| d
 (| c
j
(k ) |2
k
j
(19)
(k ) |2  | d j (k ) |2 )
k
(15)
A variável a representa o parâmetro da escala, b o
parâmetro da translação, e os dois variam continuamente. O
fator a-1/2 é utilizado para garantir a preservação de energia da
transformada [37].
A análise multirresolucional da transformada wavelet é
realiza através da variação do valor de a. Pequenos valores de
escala permitem uma análise em altas frequências, enquanto
valores altos permitem uma análise em baixas frequências. A
transformada wavelet contínua mapeia um sinal
unidimensional no tempo em uma representação
bidimensional tempo-frequência.
O módulo ao quadrado da transformada wavelet é definido
como escalograma wavelet e mostra como a energia do sinal
varia com o tempo e com a frequência. Os padrões obtidos
pelo escalograma dependem da família wavelet empregada.
Na avaliação de desordem vocais a wavelet Chapéu Mexicano
tem sido comumente usada [19]. A Figura 6 ilustra os
escalogramas de voz saudável e afetada por paralisia e edema
de Reinke nas pregas vocais.
(a)
(b)
B. Transformada Wavelet Discreta
A versão discreta da transformada wavelet é obtida
definindo a = 2j e b = k.2j, em que j e k são números inteiros.
Na análise multirresolucional, além da wavelet mãe ψ(t), é
empregada na decomposição outra função ortogonal
denominada função escalonamento, ϕ(t). Todas as funções
base são obtidas pela translação e escalonamento dessas
funções.
Uma função contínua x(t) pode ser decomposta em
termos das funções base wavelet e escalonamento por:
f (t )   ( c j (k ) j ,k (t )  d j (k ) j ,k (t ) ),
(c)
(16)
k
em cj(k) and dj(k) denotam os coeficientes wavelets de
aproximação e detalhes, na resolição j, definidos por:
Figura 7: Escalogramas obtidos de um sinal de voz: (a) saudável; (b) afetado
por paralisia nas pregas vocais; (c) afetado por edema de Reinke.
e por
H j   p j (k ) log p j (k ),
k
(20)
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
| d j (k ) |2 .
em que p j (k ) 
 | d j (k ) |2
k
A energia dos coeficientes de detalhe como característica,
pode ser útil para identificar o quanto a energia do sinal de voz
encontra-se distribuída ao longo da frequência. A entropia
pode avaliar as irregularidades presentes nos sinais de vozes
afetados por desordens vocais.
O parâmetro de Hurst, obtido por meio da transformada
wavelet discreta, foi investigado como extrator de
características, para diferenciar vozes saudáveis de vozes
afetadas por edema de Reinke, paralisia e nódulo nas pregas
vocais [37].
Na estimativa do expoente de Hurst por meio da
transformada wavelet discreta, considera-se o fato da
decomposição wavelet fornecer coeficientes em uma
determinada escala j, associados à quantidade média de
energia Гj. A energia do sinal Гj é calculada por meio da média
dos coeficientes de detalhes dj(k), da seguinte forma:
1
(21)
 | d j (k ) |2
nj k
em que nj é a quantidade de coeficientes wavelets no nível de
decomposição j e o parâmetro k corresponde à localização.
Uma estimativa para o expoente de Hurst (H) segue da
regressão linear de log2(Гj) por j. O coeficiente angular γ dessa
reta ajustada fornece uma estimativa para H por meio da
relação γ = 2H ± 1, em que H = γ+ / para γ < , e
H = γ-1)/2 para γ > 1.
j 
V.
CONCLUSÃO
Diversas abordagens tem sido utilizadas na discriminação
entre vozes saudáveis e vozes afetadas por patologias
laríngeas, no intuito de se chegar ao melhor método de apoio
ao diagnóstico. A escolha das características mais adequadas
para uma patologia específica é um campo ainda a ser bastante
explorado, dado que uma característica, ou um conjunto pode
representar bem uma desordem vocal provocada por uma
patologia, mas não ser adequada para outro tipo.
Os métodos empregados até então, seja por análise linear
ou não linear tem apresentado resultados bastante promissores.
Ainda falta definir, com exatidão, quais as melhores para cada
caso. As dificuldades de comparação são muitas devido ao uso
de base de dados diferentes, métodos de análise e de
processamento diversificados. Entretanto, já se pode verificar
que as pesquisas tem apresentado a análise acústica como uma
forma eficaz, segura e não invasiva que pode ser empregada
para auxílio ao diagnóstico médico e acompanhamento de
tratamento pré e pós-cirúrgicos de patologias laríngeas.
REFERÊNCIAS
[1] J. I. Godino-Llorente, P. Gómez-Vilda, M. B. Velasco.
“Dimensionality Reduction of a Pathological Voice Quality
Assessment System Based on Gaussian Mixture Models and ShortTerm Cepstral Parameters”. IEEE Transactions on Biomedical
Engineering, Vol. 53, No. 10, 2006.
[2] S. L. do N. C. Costa. Análise Acústica Baseada no Modelo Linear
de Produção da Fala, para Discriminação de Vozes Patológicas.
69
Tese de doutorado. Universidade Federal de Campina Grande
(UFCG), 2008, 161p.
[3] V. Valadez et al. “Voice Parameters and Videonasolaryngoscopy
in Children with Vocal Nodules: A Longitudinal Study, Before and
After Voice Therapy”. International Journal of Pediatric
Otorhinolaryngology, v. 76, p.1361-1365, 2012.
[4] J. I. Godino-Llorente et al. “The Effectiveness of the Glottal to
Noise Excitation Ratio for the Screening of Voice Disorders”.
Journal of Voice, v. 24, n. 1, p. 47-56, 2010.
[5] M. K Arjmandi et al. “Identification of Voice Disorders Using
Long-time Features and Support Vector Machine with Different
Feature Reduction Methods”. Journal of Voice, v. 25, n. 6, p. e275e289, 2011.
[6] Hakkesttegt, M. M. et al. “The Relationship Between Perceptual
Evaluation and Objective Multiparametric Evaluation of Dysphonia
Severity”. Journal of Voice, v. 22, n. 2, p. 138-145, 2008.
[7] B. Garcia et al. “Multiplatform Interface Adapted to Pathological
Voices. In: Signal Processing and Information Technology, 2005.
Proceedings of the Fifth IEEE International Symposium on. IEEE, p.
912-917, 2005.
[8] B.G. Aguiar Neto, S. C. Costa, J.M. Fechine, M. Muppa.
“Acoustic Features of Disordered Voices Under Vocal Fold
Pathology”. 19th International Congress on Acoustics (ICA’07),
Madrid,
September
2007a.
Disponível
em
http://www.seaacustica.es/WEB_ICA_07/fchrs/papers/cas-03003.pdf.
[9] B. G. Aguiar Neto, J. M. Fechine, S. C. Costa,
“Feature Estimation for Vocal Fold Edema Detection
Term Cepstral Analysis”. Proceedings of the 7th
Conference on Bioinformatics and Bioengineering,
page(s) 1158-1162, 2007b.
M. MUPPA.
Using ShortInternational
14-17 Oct.,
[10] M. Behlau Voz - O livro do Eespecialista. Volume I. Rio de
Janeiro: Revinter, 2001.
[11] A. Kumar, S. K. Mullick. “Nonlinear Dynamical Analysis of
Speech”. The Journal of the Acoustical Society of America, v. 100, p.
615, 1996.
[12] W. C. de A. Costa, S. L. do N. C. Costa, F. M. Assis , B. G.
Aguiar Neto. “Classificação de sinais de Vozes Saudáveis e
Patológicas por meio da Combinação entre Medidas da Análise
Dinâmica não Linear e Codificação Preditiva Linear”. Revista
Brasileira de Engenharia Biomédica, v. 29, p. 3-14, 2013. Disponível
em http://rbeb.org.br/files/v29n1/v29n1a01.pdf.
[13] P. Henríquez. et al. “Characterization of Healthy and
Pathological Voice Through Measures Based on Nonlinear
Dynamics”. Audio, Speech, and Language Processing, IEEE
Transactions on, v. 17, n. 6, p. 1186-1195, 2009.
[14] V. J. D. Vieira, et al. Discriminação de Sinais de Voz com
Análise de Quantificação de Recorrência e Redes Neurais MLP. In:
Anais do XXXI Simpósio Brasileiro de Telecomunicações (SBrT
2013), p.1-4, 2013.
[15] Y. Zhang, J. Jiang, “Acoustic Analyses of Sustained and
Running Voices from Patients with Laryngeal Pathologies”. Journal
of Voice, v. 22, n. 1, p. 1-9, 2008.
[16] S. Mallat, A Wavelet Tour of Signal Processing, Academic
Press, 1999.
[17] A. Parraga, A. Aplicação da Transformada Wavelet Packet na
Análise e Classificação de Sinais de Vozes Patológicas. Universidade
Federal do Rio Grande do Sul. Dissertação de Mestrado, 2002.
[18] E. Fonseca, R. Guido, P. Scalassara, C. Maciel, e J. Pereira.
“Wavelet Time-frequency Analysis and Least Squares Support
Vector Machines for the Identification of Voice Disorders”.
Computers in Biology and Medicine, v. 37, p. 571-578, 2007.
70
REVISTA DE TECNOLOGIA DA INFORMAÇÃO E COMUNICAÇÃO, VOL. 4, NO. 2, OUTUBRO 2014
[19] J. Nayak, P. Bhat, R. Acharya e U. Aithal. “Classification and
Analysis of Speech Abnormalities”. ITBM-RBM, v. 27, 2005.
[20] P. Kulharchik, D. Martynov, I. Kheidorov e O. Kotov. “Vocal
Fold Pathology Detection using Modified Wavelet-Like Features and
Support Vector Machinnes”, 15th European Signal Processing
Conference (EUSIPCO 2007), 2007.
[21] R. Behroozmand, e F. Almasganj. “Optimal Selection of
Wavelet-packet-based Features using Genetic Algorithm in
Pathological Assessment of Patient´s Speech Signal with Unilateral
Vocal Fold Paralysis”. Computers in Bioloy and Medicine, v. 37,
2007.
[22] L. Salhi.; M. Talbi and A. Cherif. “Voice Disorders
Identification Using Hybrid Approach: Wavelet Analysis and
Multilayer Meural Networks”, World Academy of Science,
Engineering and Technology, 45, pp. 330-339, 2008.
[23] P. T. Hosseini e F. Almasganj. “Different Other Wavelets and
Pathological Voice”. 2nd International Conference on Computer,
Control and Communication ( ICA 2009), 2009.
[24] S. E. N. Correia, W. C. A. Costa, S. L. N. C. Costa. “Detecção
Automática de Patologias Laríngeas usando a Transformada Wavelet
Discreta”. Em: Anais do 11th Brazilian Congress on Computational
Intelligence (CBIC), 2013.
[25] J. S. Lima, S. G. Vilela, S. C. Costa, W. C .A. Costa, S. E.
N. Correia. “Autossimilaridade de Sinais de Voz Baseada em
Wavelets na Detecção de Patologias Laríngeas”. Em: Anais do XXXI
Simpósio Brasileiro de Telecomunicações, 2013.
[26] L. R. Rabiner, R.W. Schafer. Digital Processing of Speech
Signals. New Jersey: Prentice-Hall, 1978.
[27] S. C Costa, B. G. Aguiar Neto, J. M. Fechine, S. Correia.
“Parametric Cepstral Analysis for Pathological Voice Assessment.
Proceedings of The 23rd ACM Symposium on Applied Computing
2008 (ACM SAC’ 2008). Computer Applications in Health Care
Track, Pages 1410-1414, Fortaleza, Ceará, Brazil, March 16-20,
2008.
[28] D. O’Shaughnessy. Speech Communications: Human and
Machine. 2nd Edition, NY, IEEE Press, 2000.
[29] I. C. Zwetsch, R. D. Ribeiro, T. R Fagundes, D. Scolari.
“Processamento Digital de Sinais no Diagnóstico Diferencial de
Doenças Laríngeas Benignas”. Scientia Medica, Porto Alegre:
PUCRS, Vol. 16, n. 3, jul./set. 2006.
[30] R. J. Mammone, X. Zhang, R. P. Ramachandran. “Speaker
Recognition - A Feature-Based Approach”. IEEE Signal Processing
Magazine, Vol. 13, No. 5, pages 58-71, September 1996.
[31] A. Kumar, S. K. Mullick. “Nonlinear Dynamical Analysis of
Speech”. The Journal of the Acoustical Society of America, v. 100, p.
615, 1996.
[32] W. C. de A. Costa. Análise Dinâmica não Linear de Sinais de
Voz para Detecção de Patologias Laríngeas. Universidade Federal
de Campina Grande, Tese de Doutorado, 176 p., 2012.
[33] R. T. Vieira, S. C. Costa, S. C ; N. Brunet, S. E. N. Correia, B.
G. Aguiar Neto, J. M. Fechine. “Combining Entropy Measures and
Cepstral Analysis for Phatological Voices Assessment”. Journal of
Medical and Biological Engineering, v. 32, p. 429-436, 2012.
[34] J. P. Eckmann, S. O Kamphorst, D. Ruelle. “Recurrence Plots of
Dynamical Systems”. Europhysics Letters, v. 4, p. 973-977, 1987.
[35] N. Marwan. Encounters with Neighbours. University of
Potsdam. PhD Thesis, 159 p., 2003.
[36] C. L. Webber, J. P. Zbilut. “Dynamical Assessment of
Physiological Systems and States Using Recurrence Plot Strategies”.
Journal of Applied Physiology, v. 76, n. 2, p. 965-973, 1994.
[37] M. O. Santos, S. C. Costa, W. C. de A. Costa, S. E. N. Correia e
L. W. Lopes. “Avaliação dos Distúrbios Vocais em Crianças Usando
Características Baseadas na Transformada Wavelet”. Em: Anais do
XIV Congresso Brasileiro em Engenharia Biomédica, 2014.