Aristófanes Corrêa Silva Algoritmos para Diagnóstico

Transcrição

Aristófanes Corrêa Silva Algoritmos para Diagnóstico
Aristófanes Corrêa Silva
Algoritmos para Diagnóstico
Assistido de Nódulos
Pulmonares Solitários em
Imagens de Tomografia
Computadorizada
TESE DE DOUTORADO
DEPARTAMENTO DE INFORMÁTICA
Programa de Pós–graduação em
Informática
Rio de Janeiro
Fevereiro de 2004
Aristófanes Corrêa Silva
Algoritmos para Diagnóstico Assistido de
Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
Tese de Doutorado
Tese apresentada ao Programa de Pós–graduação em
Informática do Departamento de Informática da PUC–Rio
como parte dos requisitos parciais para obtenção do tı́tulo
de Doutor em Informática.
Orientador: Prof. Marcelo Gattass
Co–Orientador: Prof. Paulo Cezar Pinto Carvalho
Rio de Janeiro
Fevereiro de 2004
Aristófanes Corrêa Silva
Algoritmos para Diagnóstico Assistido de
Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
Tese apresentada ao Programa de Pós–graduação em
Informática do Departamento de Informática do Centro
Técnico Cientı́fico da PUC–Rio como parte dos requisitos
parciais para obtenção do tı́tulo de Doutor em Informática.
Aprovada pela Comissão Examinadora abaixo assinada.
Prof. Marcelo Gattass
Orientador
Departamento de Informática — PUC–Rio
Prof. Paulo Cezar Pinto Carvalho
Co–Orientador
Departamento de Informática — PUC–Rio
Prof. Sidnei Paciornik
PUC–Rio
Prof. Marcelo Dreux
PUC–Rio
Prof. Rodolfo Acatauassú Nunes
UERJ
Prof. Aura Conci
UFF
Prof. Luiz Henrique de Figueiredo
IMPA
Prof. Waldemar Celles
PUC–Rio
Prof. José Eugenio Leal
Coordenador Setorial do Centro Técnico Cientı́fico —
PUC–Rio
Rio de Janeiro, 9 de Fevereiro de 2004
Todos os direitos reservados. É proibida a reprodução
total ou parcial do trabalho sem autorização da
universidade, do autor e do orientador.
Aristófanes Corrêa Silva
Graduou–se em Ciência da Computação na
Universidade Federal do Maranhão – UFMA. Fez
mestrado na Universidade Federal do Maranhão –
UFMA em Computação Gráfica.
Ficha Catalográfica
Silva, Aristófanes C.
Algoritmos para Diagnóstico Assistido de Nódulos
Pulmonares Solitários em Imagens de Tomografia
Computadorizada/ Aristófanes Corrêa Silva; orientador:
Marcelo Gattass; co–orientador: Paulo Cezar Pinto
Carvalho. — Rio de Janeiro : PUC–Rio, Departamento
de Informática, 2004.
v., 140 f: il. ; 30 cm
1. Tese (doutorado) - Pontifı́cia Universidade
Católica do Rio de Janeiro, Departamento de
Informática.
Inclui referências bibliográficas.
1. Informática – Teses. 2. Diagnóstico de
Nódulo Pulmonar Solitário. 3. Textura. 4. Geometria.
5. Análise Discriminante Linear de Fisher. 6. Redes
Neurais Perceptron de Múltiplas Camadas. I. Gattass,
Marcelo. II. Carvalho, Paulo Cezar Pinto. III. Pontifı́cia
Universidade Católica do Rio de Janeiro. Departamento
de Informática. IV. Tı́tulo.
CDD: 004
Aos meus pais, Acyr e Maria Nilde.
Agradecimentos
Neste longo caminho, vários são os agradecimentos acumulados.
Espero contemplar a todos e, se porventura, esquecer de alguém, com certeza
se deve a um lapso temporário de memória.
À DEUS, por tudo.
À minha esposa Tânia Castro pelo incentivo, sacrifı́cio, paciência,
compreensão e carinho ao longo deste perı́odo.
À minha famı́lia, que sempre esteve comigo me apoiando em todas as
horas, obrigado pelo incentivo e carinho.
Aos meus dois orientadores: Marcelo Gattass e Paulo Cezar Pinto
Carvalho. O primeiro, confiou e acreditou em mim no inı́cio e nos
momentos mais difı́ceis do doutorado. O segundo, pelas curtas, mas
proveitosas discussões, pelos incentivos, pelos ensinamentos, pelas crı́ticas,
e principalmente, pela segurança na orientação. Muito obrigado aos dois.
À instituição a que pertenço: a Universidade Federal do Maranhão –
UFMA; a instituição que me acolheu: a Pontı́ficia Universidade Católica do
Rio de Janeiro – PUC-RJ; e a instituição que me adotou e me deu suporte:
o Instituto de Matemática Pura e Aplicada – IMPA.
Ao Dr. Rodolfo Acatauassú Nunes pelos ensinamentos, apoio,
confiança e incentivo que me foram extremamente importantes durante toda
a tese.
Ao Dr. Rodolfo Acatauassú Nunes e sua equipe, pelo suporte médico,
e ao pessoal do Instituto Fernandes Figueira, em particular à Dra. Márcia
Cristina Bastos Boechat, pelas imagens fornecidas.
Ao Prof. Luiz Velho pelas boas idéias e por me abrir as portas do
Visgraf.
À Carolina Alfaro, pelas traduções, correções e dicas em meus artigos
e neste trabalho.
Ao Prof. Sidnei Paciornik pelas boas idéias durante a defesa de
proposta de tese.
Aos funcionários do IMPA e do Tecgraf pelo apoio logı́stico.
Ao Tecgraf pela ajuda financeira que me possibilitou ir em alguns
congressos.
À CAPES que me propiciou a bolsa PICDT, fundamental para a
realização desse trabalho.
Aos professores da UFMA, em especial ao Anselmo Paiva e a Maria
da Guia.
Aos meus amigos da minha “Ilhinha do Amor” - São Luı́s (MA):
Mário Borges, Gutemberg Santiago, Marcos Santos, Adriana Sousa, Salete
Farias, Eveline Sá, Jeane Diniz, Evaldinólia Gilbertoni e ..., que durante
este perı́odo sempre me deram apoio e incentivo.
Aos meus amigos Visgrafianos (Laboratório Visgraf - IMPA):
Adelailson Peixoto, Antônia Lucinelma, Beatriz Alvarez, Fábio Marcos,
Gustavo Pierre, José Luiz, Lourena Karen, Nair Duarte, Paula
Lucena, Perfilino Eugênio e Sérgio Estevão, pela amizade, convivência,
aprendizagem, companheirismo, enfim pelos bons momentos.
Muito obrigado a todos.
Resumo
Silva, Aristófanes C.; Gattass, Marcelo; Carvalho, Paulo
Cezar Pinto. Algoritmos para Diagnóstico Assistido
de Nódulos Pulmonares Solitários em Imagens de
Tomografia Computadorizada. Rio de Janeiro, 2004. 140p.
Tese de Doutorado — Departamento de Informática, Pontifı́cia
Universidade Católica do Rio de Janeiro.
O presente trabalho visa desenvolver uma ferramenta computacional para
sugerir sobre a malignidade ou benignidade de Nódulos Pulmonares
Solitários, através da análise de medidas de textura e geometria obtidas
a partir das imagens de tomografia computadorizada.
São propostos quatro grupos de métodos com o objetivo de sugerir
o diagnóstico para o nódulo. Os grupos de métodos são divididos de
acordo com suas caracterı́sticas comuns. O Grupo I trata dos métodos
baseados em textura adaptados para 3D, como o histograma, o Método
de Dependência Espacial de Nı́veis de Cinza, o Método de Diferença
de Nı́veis de Cinza e o Método de Comprimento de Primitivas de
Nı́veis de Cinza. O Grupo II também trata da textura dos nódulos,
mas utiliza quatro funções geoestatı́sticas denominadas semivariograma,
semimadograma, covariograma e correlograma. O Grupo III descreve
apenas medidas baseadas na geometria do nódulo, como a convexidade, a
esfericidade e medidas baseadas na curvatura. Por fim, o Grupo IV analisa
os métodos do coeficiente de Gini e do esqueleto dos nódulos, que levam em
consideração tanto a geometria quanto a textura do nódulo.
Foi analisada uma amostra com 36 nódulos, sendo 29 benignos e 7 malignos,
e os resultados preliminares são promissores na caracterização dos nódulos
pulmonares. A maioria dos grupos de métodos propostos tem o valor da
área sobre a curva ROC acima de 0.800, utilizando a Análise Discriminante
Linear de Fisher e a Rede Neural Perceptron de Múltiplas Camadas.
Isto significa que os métodos propostos possuem grande potencial na
discriminação e classificação dos Nódulos Pulmonares Solitários.
Palavras–chave
Diagnóstico de Nódulo Pulmonar Solitário; Textura; Geometria;
Análise Discriminante Linear de Fisher; Redes Neurais Perceptron de
Múltiplas Camadas.
Abstract
Silva, Aristófanes C.; Gattass, Marcelo; Carvalho, Paulo Cezar
Pinto. Algorithms for Assisted Diagnosis of Solitary Lung
Nodules in Computerized Tomography Images. Rio de
Janeiro, 2004. 140p. PhD. Thesis — Departamento de Informática,
Pontifı́cia Universidade Católica do Rio de Janeiro.
The present work seeks to develop a computational tool to suggest about
the malignancy or benignity of Solitary Lung Nodules by the analysis of
texture and geometry measures obtained from computadorized tomography
images.
Four groups of methods are proposed with the purpose of suggesting the
diagnosis for such nodule. The groups of methods are divided according
to their common characteristics. Group I includes methods based on
texture adapted for 3D, such as the histogram, the Spatial Gray Level
Dependence Method, the Gray Level Difference Method and Gray Level
Run Length Matrices. Group II also deals with the texture of nodules, but
uses four statistical functions denominated semivariogram, semimadogram,
covariogram and correlogram. Group III describes measures based only on
the geometry of the nodule, such as convexity, sphericity, and measures
based on the curvature. Finally, Group IV analyzes the Gini coefficient
and nodule skeleton methods, which take into account both the nodule’s
geometry and its texture.
A sample with 36 nodules, 29 benign and 7 malignant, was analyzed and
the preliminary results of this approach are very promising in characterizing
lung nodules. Most groups of proposed methods have the area under the
ROC curve value above 0.800, using Fisher’s Linear Discriminant Analysis
and Multilayer Perceptron Neural Networks. This means that the proposed
methods have great potential in the discrimination and classification of
Solitary Lung Nodules.
Keywords
Diagnosis of Solitary Lung Nodule; Texture; Geometry; Fisher’s Linear
Discriminant Analysis; Multilayer Perceptron Neural Networks.
Sumário
1 Introdução
1.1 Motivação
1.2 Objetivos
1.3 Contribuição
1.4 Trabalhos Relacionados
1.5 Estrutura da Tese
16
18
19
20
21
27
2 Conceitos Básicos
2.1 Imagem Médica
2.2 Nódulo Pulmonar Solitário
2.3 Técnicas para Analisar, Discriminar e Classificar
2.4 Validação do Modelo
2.5 Curva ROC (Receiver Operating Characteristic)
2.6 Resumo
29
29
38
42
55
55
62
3 Métodos Computacionais para Análise do NPS
3.1 Análise do Nódulo Pulmonar Baseada em Textura (Métodos
Clássicos) – Grupo I
3.2 Análise do Nódulo Pulmonar Baseada em Textura (Funções
Geoestatı́sticas) – Grupo II
3.3 Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III
3.4 Análise do Nódulo Pulmonar Baseada em Textura e na Geometria
– Grupo IV
3.5 Resumo
64
65
73
77
81
87
4 Testes e Resultados
4.1 Metodologia
4.2 Exemplo da Aplicação dos Métodos Estudados
4.3 Classificação
4.4 Conclusão
4.5 Resumo
91
91
96
105
115
117
5 Conclusão
5.1 Trabalhos Futuros
118
120
A Sistema de Análise de Nódulo Pulmonar – SANP
A.1 Visualização das fatias
A.2 Segmentação
A.3 Visualização 3D
A.4 Tempo de Dobra
A.5 Estruturas do Nódulo
134
135
136
137
138
139
Lista de Figuras
1.1 Nódulos Pulmonares Solitários.
1.2 Esquema dos objetivos deste trabalho.
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
Funcionamento
de
uma
TC
(Fonte:
http://www.geocities.com/siumingrd/CT).
Tomografia computadorizada do tórax.
Estrutura da imagem no formato DICOM.
Espaço amostral do voxel [56].
Exemplo de interpolação [56].
Interpolação linear [56].
Provável diagnóstico do NPS em relação ao coeficiente de
atenuação.
Provável diagnóstico do NPS em relação à forma.
Algoritmo para diagnóstico dos NPS.
Procedimento de seleção de variáveis passo a passo.
Modelo de uma rede MLP (3-4-1).
Exemplo da técnica deixa um de fora.
Ponto de corte.
Relação entre a curva ROC e pontos de corte.
Curva ROC e a qualidade no diagnóstico.
3.1
3.2
3.3
3.4
3.5
3.6
19
20
32
32
36
37
37
38
41
42
43
49
50
56
59
59
60
Exemplo de SGLDM em Imagem 2D.
Algoritmo do SGLDM (ou GLDM).
Exemplo de GLDM em Imagem 2D.
Exemplo de GLRLM em Imagem 2D.
Algoritmo do GLRLM.
Semivariograma e suas caracterı́sticas: patamar, alcance e efeito
pepita.
3.7 Definição do vetor distância.
3.8 Parâmetros utilizados para cálculo do semivariograma (2D).
3.9 (a) Aplicação do Marching Cubes. (b) Aplicação da técnica
Laplaciana.
3.10 Tipos de superfı́cie baseados na curvatura.
3.11 Exemplo da curva de Lorenz e coeficiente de Gini (A/(A + B)).
3.12 Codificação de voxels de uma fatia do NPS (2D).
67
68
70
72
72
4.1
4.2
96
4.3
4.4
4.5
4.6
4.7
Exemplos de NPS benignos ((a) e (b)) e malignos ((c) e (d)).
Exemplos de NPS benignos ((a), (b), (c) e (d)) e malignos ((e),
(f), (g)).
Histograma aplicado no exemplo da Figura 4.1.
SGLDM aplicado no exemplo da Figura 4.1.
GLDM aplicado no exemplo da Figura 4.1.
GLRLM aplicado no exemplo da Figura 4.1.
Semivariograma aplicado no exemplo da Figura 4.1.
74
75
76
78
81
83
85
97
98
98
99
100
101
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
4.19
4.20
4.21
4.22
4.23
4.24
4.25
4.26
4.27
4.28
4.29
4.30
A.1
A.2
A.3
A.4
A.5
A.6
A.7
A.8
A.9
A.10
Semivariograma aplicado ao nódulo representado pela
Figura 4.1(a).
Semivariograma aplicado ao nódulo representado pela
Figura 4.1(d).
Medidas de Geometria aplicadas no exemplo da Figura 4.2.
Coeficiente de Gini aplicado ao nódulo representado pela
Figura 4.1(a).
Curva de Lorenz e coeficiente de Gini aplicados no exemplo da
Figura 4.1.
Aplicação do algoritmo de Zhou e Toga baseada nos nódulos da
Figura 4.2(a), (b), (c) e (d).
Distribuição dos nódulos do Grupo I usando ALDF.
Distribuição dos nódulos do Grupo I usando MLP.
Curva ROC do Grupo I utilizando a ALDF e MLP.
Distribuição dos nódulos do Grupo II usando ALDF.
Distribuição dos nódulos do Grupo II usando MLP.
Curva ROC do Grupo II utilizando a ALDF e MLP.
Distribuição dos nódulos do Grupo III usando ALDF.
Distribuição dos nódulos do Grupo III usando MLP.
Curva ROC do Grupo III utilizando a ALDF e MLP.
Distribuição dos nódulos do Grupo IV usando ALDF.
Distribuição dos nódulos do Grupo IV usando MLP.
Curva ROC do Grupo IV utilizando a ALDF e MLP.
Distribuição dos nódulos dos Grupos combinados usando ALDF.
Distribuição dos nódulos dos Grupos combinados usando MLP.
Curva ROC dos Grupos combinados utilizando a ALDF e MLP.
Comparação das áreas das curvas ROC de todos os grupos
analisados, utilizando a ALDF e MLP.
Nódulo com difı́cil diagnóstico.
Interface do SANP.
Galeria de fatias.
Janela/Nı́vel de contraste e exemplos.
Zoom de detalhe.
Barreira ao redor do nódulo.
Barreira aberta.
Processo de segmentação.
Janela de visualização 3D - Marching Cubes.
Tempo de dobra.
Nódulo com estruturas internas visualizadas e histograma das
estruturas do nódulo.
101
102
103
104
104
105
106
107
108
109
109
109
110
111
111
112
113
113
114
115
115
116
116
135
136
136
137
137
138
138
139
139
140
Lista de Tabelas
2.1 Cálculo da variância e do valor de F.
2.2 Termos similares entre MLP e ALDF.
2.3 Relação entre o resultado de um teste diagnóstico e o verdadeiro
diagnóstico
2.4 Cálculo da especificidade e sensibilidade para uma variável
dicotômica
2.5 Qualidade do diagnóstico em relação à área da curva ROC.
48
55
3.1
3.2
Grupos de medidas estudados e suas caracterı́sticas.
Resumo dos métodos e das medidas propostas.
64
89
4.1
4.2
4.3
4.4
4.5
%
%
%
%
%
56
58
60
de acertos usando a ALDF e MLP para o Grupo I.
106
de acertos usando a ALDF e MLP para o Grupo II.
108
de acertos usando a ALDF e MLP para o Grupo III.
110
de acertos usando a ALDF e MLP para o Grupo IV.
112
de acertos usando a ALDF e MLP para os Grupos combinados.114
Lista de Abreviaturas
ALDF
AUC
CS
CNT
CONd
CONg
CON
CORd
CORg
CPI
CPK
CSR
CSV
CUR
CV
DICOM
DVP
ENE
ENT
ENTd
ENTg
ESF
FV
GLD
GLDM
GLRLM
HOMOd
HOMOg
IAPI
IAPK
Análise discriminante linear de Fisher
Área sob a curva ROC
Comprimento dos segmentos, medida baseada no
esqueleto
Contraste, medida baseada no histograma
Contraste, medida baseado no GLDM
Contraste, medida baseado no SGLDM
Convexidade, medida baseada na geometria
Correlação, medida baseada no GLDM
Correlação, medida baseada no SGLDM
Média de curvedness do tipo pit, medida baseada
na geometria
Média de curvedness do tipo peak, medida
baseada na geometria
Média de curvedness do tipo saddle ridge,
medida baseada na geometria
Média de curvedness do tipo saddle valley,
medida baseada na geometria
Curtose, medida baseada no histograma
Coeficiente de variação, medida baseada no
esqueleto
Digital image and communications in medicine
Desvio padrão, medida baseada no histograma
Energia, medida baseada no histograma
Entropia, medida baseada no histograma
Entropia, medida baseada no GLDM
Entropia, medida baseada no SGLDM
Esfericidade, medida baseada na geometria
Fração do volume, medida baseada na geometria
Uniformidade do nı́vel de cinza, medida baseada
no GLRLM
Método de diferença de nı́vel de cinza
Método de comprimento de primitiva de nı́vel de
cinza
Homogeneidade baseada no GLDM
Homogeneidade baseada no SGLDM
Índice da área do tipo pit, medida baseada na
geometria
Índice da área do tipo peak, medida baseada na
geometria
IASR
IASV
ICE
ICI
LRE
MED
MLP
NCMAI
NPS
NR
NS
NSVFC
QPI
QPK
QSR
QSV
RLD
ROC
RP
SANP
SE
SGLDM
SIM
SMAd
SMAg
SPSS
SRE
TC
UH
VARd
VARg
VFC
Índice da área do tipo saddle ridge, medida
baseada na geometria
Índice da área do tipo saddle valley, medida
baseada na geometria
Índice de curvatura extrı́nseca, medida baseada
na geometria
Índice de curvatura intrı́nseca, medida baseada
na geometria
Ênfase de primitivas longas, medida baseada no
GLRLM
Média, medida baseada no histograma
Rede neural perceptron múltiplas camadas
Número de coeficientes de atenuação ≥ 200 UH,
medida baseada no histograma
Nódulo pulmonar solitário
Número de ramificações, medida baseada no
esqueleto
Número de segmentos, medida baseada no
esqueleto
Taxa entre o número de segmentos e o fecho
convexo, medida baseada no esqueleto
Quantidade de tipo pit, medida baseada na
geometria
Quantidade de tipo peak, medida baseada na
geometria
Quantidade de tipo saddle ridge, medida baseada
na geometria
Quantidade de tipo saddle valley, medida
baseada na geometria
Uniformidade do comprimento de primitivas,
medida baseada no GLRLM
Receiver operator characteristic curve
Percentagem de primitivas, medida baseada no
GLRLM
Sistema de análise de nódulo pulmonar
Erro padrão baseado na área da curva ROC
Método de dependência espacial de nı́vel de cinza
Simetria, medida baseada no histograma
Segundo momento angular, medida baseada no
GLDM
Segundo momento angular, edida baseada no
SGLDM
Statistical package for the social sciences
Ênfase de primitivas curtas, medida baseada no
GLRLM
Tomografia Computadorizada
Unidade de Hounsfield
Variância, medida baseada no GLDM
Variância, medida baseada no SGLDM
Volume do fecho convexo, medida baseada no
esqueleto
Ӄ melhor tentar e falhar, que preocupar-se a ver a vida
passar. É melhor tentar, ainda que em vão, que sentar-se fazendo
nada até o final. Eu prefiro na chuva caminhar, que em dias
tristes em casa me esconder. Prefiro ser feliz, embora louco, que
em conformidade viver.”
Martin Luther King Jr., .
1
Introdução
Desde a descoberta dos raios X em 1895, utiliza-se imagens
como forma de aquisição de informações sobre o estado de saúde
de pacientes. Em 1917, J. Radón elaborou teorias matemáticas que
permitiriam a reconstrução tomográfica de imagens [79]. O uso de imagens
intensificou-se a partir de 1967, com a criação da primeira máquina de
tomografia por G. N. Hounsfield [80]. Nos dias atuais, utiliza-se diversas
modalidades de imageamento na área médica. Entre elas, estão a tomografia
computadorizada, ultrassonografia e a ressonância magnética.
Essas formas de imageamento possuem a grande vantagem de serem
não invasivas, ou seja, não há a penetração de instrumentos no corpo do
paciente. Além disso, é indubitável a qualidade das imagens geradas por
tais equipamentos, beneficiando atividades médicas tais como diagnóstico,
planejamento cirúrgico e terapia.
Tais imagens possuem um alto grau de conteúdo médico, pois contêm
informações relevantes para o exercı́cio de diversas especialidades: oncologia,
ginecologia, radiologia, pneumologia e cardiologia, para citar algumas.
Entretanto, para o aproveitamento máximo do conteúdo nessas imagens,
faz-se necessário o uso do computador pelos profissionais dessa área.
O uso da Computação Gráfica na área médica aumentou
exponencialmente na década passada. Pode-se apontar duas razões para
esse aumento: inicialmente, o avanço na área de aquisição de dados criou
uma forte demanda para o desenvolvimento de técnicas de processamento
de informações, o que veio ao encontro do aumento da capacidade de
processamento dos computadores; em um segundo plano, podemos afirmar
que as técnicas de Computação Gráfica trouxeram um grande acréscimo
de qualidade nas áreas de diagnóstico, planejamento/simulação cirúrgica e
telemedicina [88].
O grau de desenvolvimento atual alcançado pelas técnicas de
modelagem computacional, em conjunto com o rápido crescimento do
desempenho de cálculo dos computadores, tem permitido o estudo,
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
17
desenvolvimento e solução de modelos altamente sofisticados, capazes de
auxiliar, com aceitável grau de precisão, os resultados de importantes
procedimentos médicos, como por exemplo, o diagnóstico de câncer.
Câncer é o nome dado a todas as formas de tumores malignos. A
palavra vem do latim cancer, que significa caranguejo. Esse nome deve-se à
semelhança entre as pernas do crustáceo e os tentáculos do tumor, que se
infiltram nos tecidos sadios do corpo.
A história do câncer de pulmão no mundo é um fato assustador. O
câncer de pulmão, entre os homens, é a primeira causa de morte por câncer
em 38 dos 45 paı́ses para os quais a Organização Mundial de Saúde coleta e
publica dados estatı́sticos. Nos paı́ses restantes, a taxa de mortalidade por
câncer de pulmão é alta, sendo a segunda causa de morte por câncer nos
homens [96]. Entre as mulheres do mundo, a primeira causa de morte por
câncer em 34 paı́ses é o câncer de mama, seguida por câncer de estômago
(6 paı́ses) e finalmente, o câncer de pulmão (5 paı́ses) [96].
No Brasil, o câncer de pulmão foi responsável por 14.069 óbitos
em 1999, sendo este o tipo de câncer que fez mais vı́timas. Segundo o
Instituto Nacional de Câncer – INCA [97], o câncer de pulmão atingiu
aproximadamente 22.085 pessoas (15.165 homens e 4.915 mulheres) e causou
16.230 mortes em 2003. Neste mesmo ano, o câncer de pulmão foi a primeira
causa de morte por câncer no sexo masculino, e a segunda causa no sexo
feminino. A doença está associada ao consumo de tabaco em 90% dos
casos diagnosticados e tem uma taxa de crescimento anual de 2% em
sua incidência no mundo todo. Outros fatores relacionados são: agentes
quı́micos, doença pulmonar obstrutiva crônica, fatores genéticos e história
familiar de câncer de pulmão.
O câncer de pulmão é uma das neoplasias de menor sobrevida a partir
de seu diagnóstico, e o número de mortes aumenta a cada ano. Possui uma
evolução lenta, de forma que o tumor pode permanecer desapercebido por
muitos anos. Em sua fase sintomática, o tumor já percorreu 2/3 de sua
existência e possui uma grande população de células malignas, restando
apenas 1/3 da sua existência para o diagnóstico e o tratamento. Por esta
razão, quanto mais cedo for diagnosticado, maior será a chance de cura
do paciente, e quanto mais informações e recursos o médico dispuser, mais
preciso será o diagnóstico.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
18
1.1
Motivação
Existe uma grande dificuldade na definição qualificada das
caracterı́sticas benignas ou malignas do Nódulo Pulmonar Solitário, bem
como no acompanhamento do crescimento eventual deste tipo de nódulo
de uma forma mais fidedigna. Muitas vezes, a avaliação do crescimento
nodular é feita pela medição do nódulo no filme impresso da tomografia
computadorizada, usando uma régua sobre a imagem, resultando em
medidas pouco precisas. Embora medidas mais precisas possam ser feitas
diretamente com o dado digital, muitas vezes elas não estão disponı́veis ao
médicos, que freqüentemente têm acesso somente ao filme impresso.
A extração cirúrgica do nódulo é a conduta tomada na maioria dos
pacientes com nódulo pulmonar indeterminado. Contudo, muitas dessas
intervenções poderiam ser evitadas, visto que na maioria das vezes tratase de nódulos benignos, principalmente no Brasil e em outros paı́ses em
desenvolvimento, onde a incidência de tuberculose é extremamente alta.
Assim, é fundamental o uso de técnicas mais precisas para melhor avaliar o
crescimento nodular e suas caracterı́sticas, podendo dessa forma determinar
com mais credibilidade a benignidade ou a malignidade do nódulo.
Apesar de o pulmão ter em sua própria composição um contraste
natural, existem dificuldades para a identificação e o diagnóstico de nódulos
decorrentes de alguns fatores:
1. O órgão contém estruturas com caracterı́sticas (formas, densidades,
etc.) semelhantes, que às vezes se confundem;
2. O nódulo na fase inicial, quando tem dimensões pequenas e forma mal
definida, é de difı́cil diagnóstico;
3. As medidas efetuadas pelos médicos para a análise da evolução do
nódulo, como, por exemplo, o seu diâmetro, são realizadas de forma
artesanal, geralmente utilizando uma régua sobre a imagem;
4. O cansaço visual, o fator emocional e a experiência do médico podem
influenciar no diagnóstico;
5. E por fim, a imagem tem qualidade insuficiente, em muitos casos.
Para exemplificar as dificuldades no diagnóstico do nódulo pulmonar,
são mostrados na Figura 1.1 dois nódulos pulmonares. Com base nestes
nódulos, é possı́vel saber: 1) se os dois são malignos? 2) se os dois são
benignos? 3) um é maligno e o outro é benigno?
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
19
1.1(a): Nódulo 1
1.1(b): Nódulo 2
Figura 1.1: Nódulos Pulmonares Solitários.
Técnicas de processamento de imagens e visão computacional podem
ser desenvolvidas para facilitar a identificação e o diagnóstico, através
do paradigma conhecido como “Diagnóstico Assistido por Computador Computer-Aided Diagnosis (CAD)”.
1.2
Objetivos
Para contribuir para a minimização dos problemas citados
anteriormente, este trabalho visa desenvolver uma ferramenta
computacional para sugerir a malignidade ou benignidade de Nódulos
Pulmonares Solitários através da análise de medidas de textura e geometria.
As informações decorrentes destas medidas podem ser utilizadas para
fornecer uma “segunda opinião” para os médicos na rotina clı́nica básica,
ou seja, eles poderão utilizar os resultados obtidos pelo computador na
conduta diagnóstica de pacientes que apresentem nódulos indeterminados,
isto é, aqueles que não possuem sinais radiológicos claros de malignidade
ou benignidade.
O presente trabalho envolve a análise e o diagnóstico de Nódulos
Pulmonares Solitários utilizando-se caracterı́sticas calculadas a partir de
medidas baseadas na textura e na geometria. Com a finalidade de separar
mais eficientemente os nódulos benignos dos malignos, são aplicadas duas
técnicas de classificação: Análise Discriminante Linear de Fisher e a Rede
Neural Perceptron de Múltiplas Camadas. A Figura 1.2 resume os objetivos
a serem alcançados neste trabalho.
As medidas baseadas na textura têm por objetivo extrair
caracterı́sticas do tecido do Nódulo Pulmonar Solitário que indiquem
benignidade (calcificação, por exemplo) ou malignidade (necrose, por
exemplo). Já as medidas baseadas na geometria visam extrair caracterı́sticas
da forma 3D do Nódulo Pulmonar Solitário que indiquem benignidade (liso
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
20
Figura 1.2: Esquema dos objetivos deste trabalho.
e com fronteira bem definida, por exemplo) ou malignidade (espiculado e
com fronteira mal definida, por exemplo).
A Análise Discriminante Linear de Fisher e a Rede Neural Perceptron
de Múltiplas Camadas têm como objetivo o estudo das diferenças entre
grupos bem definidos, com base em um conjunto relevante de caracterı́sticas
dos seus elementos. Tratam-se de técnicas que procuram identificar e
interpretar as diferenças existentes entre os grupos e permitem classificar
indivı́duos de origem desconhecida em um dos grupos existentes.
1.3
Contribuição
Como contribuições deste trabalho, podemos citar:
– Adaptação de métodos clássicos de textura em processamento de
imagens, como o Método de Dependência Espacial de Nı́veis de Cinza
– SGLDM, o Método de Diferença de Nı́veis de Cinza - GLDM, e o
Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM,
para caracterizar o nódulo em 3D.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
21
– Utilização de funções geoestatı́sticas como semivariograma,
semimadograma, covariograma e correlograma para análise de
textura, e discriminação entre malignidade e benignidade do nódulo.
– Utilização de um ı́ndice de concentração chamado coeficiente de
Gini, geralmente utilizado em economia e geografia, para análise da
geometria e textura do nódulo.
– Utilização do esqueleto do nódulo para análise da geometria e textura
do nódulo.
– Comparação entre duas técnicas de classificação muito utilizadas na
área de reconhecimento de padrões, a Análise Discriminante Linear
de Fisher e a Rede Neural Perceptron de Múltiplas Camadas, com
os objetivos de discriminar e classificar nódulos como benignos ou
malignos.
– Criação de uma ferramenta auxiliar no diagnóstico de Nódulos
Pulmonares Solitários.
1.4
Trabalhos Relacionados
Como mencionado anteriormente, a identificação e o diagnóstico
precoce de Nódulos Pulmonares Solitários possibilita uma maior sobrevida
ao paciente. Porém, algumas vezes, devido aos fatores já vistos, o diagnóstico
pode ser muito difı́cil, o que pode levar a procedimentos desnecessários,
causando até a morte do paciente. Para amenizar estes casos, algumas
pesquisas, utilizando o computador como recurso, têm sido realizadas nas
últimas décadas [79].
Nesta seção, estão relacionados alguns trabalhos que têm como
objetivo o diagnóstico de Nódulos Pulmonares Solitários e que serviram
de apoio para o desenvolvimento deste trabalho:
– Automated Computerized Scheme for Distinction between
Benign and Malignant Solitary Pulmonary Nodules on Chest
Images [89]
Neste trabalho os autores desenvolveram um método de extração
e diagnóstico de Nódulos Pulmonares Solitários em radiografia
convencional. O método consiste de duas fases: 1) extraindo o nódulo
de forma semi-automática, o médico indica a localização do nódulo,
e em seguida, as bordas são delineadas através da representação das
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
22
coordenadas polares; 2) após a extração do nódulo, são determinadas
as caracterı́sticas (sexo, idade, diâmetro, circularidade, grau de
irregularidade, histograma, gradiente) que servirão como entrada para
o método estatı́stico de Análise Discriminante Linear e Rede Neural
Perceptron de Múltiplas Camadas.
Os autores concluı́ram, que utilizando a curva ROC, o resultado com
Análise Discriminante Linear (área = 0.886) foi ligeiramente mais
eficiente na classificação entre nódulos benignos e malignos do que
a Rede Neural Perceptron de Múltiplas Camadas (área = 0.872).
A idéia desse trabalho é muito semelhante ao que esta tese se propõe.
Entretanto, esse trabalho foi realizado em radiografias convencionais,
e portanto, levou em consideração apenas as caracterı́sticas 2D do
nódulo, enquanto que a proposta desta tese é usar a tomografia
computadorizada e medidas que analisem as caracterı́sticas 3D do
nódulo, tanto em textura quanto em geometria.
– Improvement in Detection of Pulmonary Nodules: Digital
Image Processing and Computerized Diagnosis [69]
Este trabalho sugere um método de visualização e detecção de
nódulos pulmonares em radiografia convencional para minimizar os
altos ı́ndices de falso negativos e falso positivos e, ao mesmo tempo,
evitar a necessidade de se fazer outro exame utilizando tomografia
computadorizada. Na primeira fase do método, duas radiografias do
mesmo paciente são tiradas quase que simultaneamente no mesmo
tomógrafo, ou então são tiradas duas radiografias em tomógrafos
diferentes. A segunda fase consiste de quatro passos: 1) é aplicado
um filtro em cada imagem para realçar a opacidade do nódulo; 2)
é extraı́da a diferença entre as imagens resultantes; 3) vários nı́veis
de limiares são determinados para a segmentação do nódulo a partir
do histograma da imagem de diferença; e 4) os nódulos candidatos
são classificados e escolhidos aplicando o algoritmo de crescimento de
regiões.
Os testes foram realizados com grupos de médicos radiologistas,
residentes e não radiologistas, e em todos os casos em que o algoritmo
proposto foi utilizado houve uma diminuição substancial de falsos
negativos e falsos positivos.
O foco desse trabalho é um pouco diferente desta tese. Nesse
trabalho os autores buscam identificar automaticamente e visualizar
nódulos, tanto malignos como benignos, em exames de tomografia
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
23
computadorizada, enquanto que nesta tese a tarefa principal é
diagnosticar o nódulo segmentado anteriormente. A fase de extração
(segmentação) dos nódulos da tese corresponde ao foco desse trabalho.
– Computerized Detection of Pulmonary Nodules on CT
Scans [57]
Os autores descrevem uma ferramenta computadorizada que segmenta
automaticamente o nódulo pulmonar de um exame de tomografia
computadorizada. O método consiste em: 1) extrair o parênquima
pulmonar; 2) reconstruir o parênquima, caso o nódulo esteja adjacente
à pleura; 3) segmentar todas as estruturas internas do pulmão; e 4)
diferenciar através de caracterı́sticas baseadas na textura (média e
desvio padrão) e geometria (volume, esfericidade, raio equivalente à
esfera, compacidade máxima e circularidade máxima) os nódulos das
outras estruturas pulmonares.
Depois que estas caracterı́sticas são extraı́das, é utilizada a análise
discriminante para separar entre o nódulo e não nódulos. A área da
curva ROC serve para determinar a eficácia do método. Os autores
concluı́ram que a área da curva foi de 0.93, o que significa uma
excelente discriminação.
Algumas medidas utilizadas nesse trabalho, como esfericidade e
compacticidade, são semelhantes às usadas nesta tese. Entretanto,
o objetivo desse trabalho é separar os nódulos de outras estruturas
internas do pulmão, e no caso desta tese o objetivo é obter informações
que possam caracterizar o nódulo como maligno ou benigno.
– The Effects of Co-occurrence Matrix Based Texture
Parameters on the Classification of Solitary Pulmonary
Nodules Imaged on Computed Tomography [58]
O propósito desse trabalho é investigar os efeitos de variar os
parâmetros da matriz de co-ocorrência em 2D (direção, distância e
quantização) na classificação de nódulos pulmonares.
As matrizes foram formadas usando diferentes combinações de: 1)
nı́veis de quantização (8, 16, 32, 64 ou (max-min)); 2) distância entre
os pixels; e 3) diferentes direções. Depois da criação de cada matriz,
foram calculadas 13 medidas, baseadas no trabalho de Haralick [1].
Com uma amostra de 32 pacientes, cada caracterı́stica da textura
foi extraı́da de cada combinação da matriz de co-ocorrência. Para
a avaliação da performance das caracterı́sticas de textura na tarefa
de classificação, foi utilizado o procedimento de seleção de variáveis
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
24
passo a passo para selecionar o menor número de medidas que separe
nódulos malignos de benignos. A análise discriminante foi utilizada
para determinar a função de discriminação e fazer a classificação.
O melhor resultado foi obtido quando foi utilizado o esquema
de quantização relativa. Foram classificados corretamente 93.8%
utilizando a técnica de resubstituição e 90.6% utilizando a técnica
de Jackknife.
Os autores concluı́ram que as medidas de texturas, quando
analisadas combinadas e com parâmetros variados (direção, distância
e quantização), são muito precisas na classificação de nódulos
pulmonares.
O objetivo desse trabalho é classificar nódulos pulmonares como
benignos ou malignos, o que corresponde ao objetivo desta tese.
Entretanto, os autores utilizaram imagens em 2D e apenas a matriz
de co-ocorrência (análise baseada em textura) com vários parâmetros
na análise do nódulo, enquanto esta tese analisa o nódulo em 3D e
utiliza na análise, além da matriz de co-ocorrência, outros métodos
baseados na textura e geometria.
– A Pattern Classification Approach to Characterizing Solitary
Pulmonary Nodules Imaged on High Resolution CT:
Preliminary Results [59]
O propósito desse trabalho é caracterizar Nódulos Pulmonares
Solitários como benignos ou malignos com base em medidas
quantitativas de uma fatia (2D) de uma Tomografia Computadorizada
de alta resolução (HRCT). A amostra é de 31 pacientes com
diagnóstico confirmado por médicos, sendo 14 benignos e 17 malignos.
Após a segmentação dos nódulos, várias medidas foram extraı́das
relacionadas ao tamanho do nódulo, forma, coeficiente de atenuação,
distribuição de atenuação e textura.
A técnica de análise discriminante com o procedimento de seleção de
variáveis passo a passo foi utilizada para determinar que combinações
de medidas são adequadas para discriminar os nódulos entre benignos
e malignos. A técnica de Jackknife foi utilizada para conferir mais
confiabilidade ao diagnóstico. De todas as medidas fornecidas à
analise discriminante, somente duas medidas de textura - correlação
e diferença de entropia - foram escolhidas para a determinação
da função. A função discriminante usando estas medidas classificou
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
25
corretamente 90.3% dos nódulos e utilizando a técnica de Jackknife,
também classificou 90.3% corretamente.
O foco desse trabalho é muito semelhante ao proposto nesta tese, isto
é, os autores analisam o nódulo com medidas baseadas em textura
e geometria, mas eles utilizaram apenas uma determinada fatia do
exame. No presente trabalho, são utilizadas todas as fatias do exame
em que o nódulo se encontra.
– Internal Structure Analysis of Pulmonary Nodules in
Topological and Histogram Feature Spaces [70]
Este trabalho apresenta um método para caracterizar estruturas
internas do nódulo 3D, que são importantes indı́cios para diferenciar
sua benignidade ou malignidade. Neste método cada voxel foi descrito
em termos do ı́ndice de forma (shape index ) [20] derivado das
curvaturas (gaussiana e média) do voxel. Os voxels dentro do nódulo
são agregados dentro do histograma de forma a quantificar quantas
categorias de formas foram encontradas no nódulo. As caracterı́sticas
topológicas (número de Euler, número de componentes conectados,
cavidades e buracos) também são utilizadas na análise.
Na classificação foi utilizada uma estrutura hı́brida (não
supervisionada e supervisionada), k-means clustering, e análise
discriminante. O método de k-means clustering analisa a similaridade
dos dados e os classifica em subclasses. Este método melhora a
performance da análise discriminante, pois as subclasses ficam com
uma distribuição normal.
Os testes foram realizados em uma amostra de 210 nódulos, sendo
141 malignos e 69 benignos. Os resultados mostraram que o método
hı́brido teve melhor desempenho do que utilizando somente a análise
discriminante.
Esse e os próximos três trabalhos foram fundamentais no
embasamento teórico sobre o assunto e, particularmente, como ponto
de partida no desenvolvimento das medidas propostas nesta tese. As
medidas desenvolvidas por eles, analisam basicamente a curvatura e
suas derivações no nódulo pulmonar. Essas medidas foram utilizadas
nesta tese, mas a diferença básica consiste no cálculo da curvatura, que
os autores calcularam em relação aos voxels e nesta tese foi calculada
com base na superfı́cie reconstruı́da do nódulo. Além disso, uma outra
grande diferença entre o trabalho analisado e esta tese é que na
tese foram desenvolvidas muitas outras medidas, abordando outros
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
26
aspectos além da geometria, o que propiciou uma melhor qualidade e
eficiência no diagnóstico do nódulo.
– Computer Aided Differential Diagnosis of Pulmonary
Nodules Using Curvature Based Analysis [60]
Este artigo apresenta outro método para caracterizar estruturas
internas do nódulo 3D que faz uso do ı́ndice de forma (shape index )
e da densidade da tomografia computadorizada para representar
localmente cada voxel. É criado um histograma de caracterı́sticas,
baseado no ı́ndice de forma, chamado “medida de espectro de
forma” (shape spectrum measures), que armazena o voxel com
um determinado ı́ndice para caracterizar o nódulo. Além desse
histograma, foram criadas matrizes semelhantes ao método de análise
de textura, matrizes de co-ocorrência, para ı́ndice de forma e
densidade.
A técnica estatı́stica de análise discriminante foi utilizada para
classificar nódulos benignos e malignos. Para a seleção das medidas
mais significativas foi utilizado o procedimento de seleção de variáveis
passo para frente. Na validação dos resultados foi utilizada a técnica
de Jackknife. Os resultados foram analisados através da curva de ROC
e demonstraram ser bastante encorajadores.
– Curvature Based Analysis of Internal Structure of
Pulmonary Nodules Using Thin-section CT Images [45]
A representação da curvatura é utilizada para a caracterização de
nódulos benignos e malignos. A descrição local da curvatura é obtida
usando o ı́ndice de forma (shape index ) e a densidade da tomografia
computadorizada. Baseado na descrição local, o método de espectro
de forma (shape spectrum measures) é derivado para representar
globalmente o nódulo. É criado um histograma para curvedness e
outro para densidade.
A eficácia da classificação do espectro de forma é avaliada para quatro
regiões diferentes: 1) nódulo completo; 2) região interna do nódulo; 3)
complemento da região interna do nódulo; 4) região da vizinhança ao
redor do nódulo.
A técnica estatı́stica de análise discriminante foi utilizada para
classificar nódulos benignos e malignos. Os resultados indicam que
as medidas baseadas no espectro de forma são uma boa alternativa
para diagnosticar nódulos pulmonares.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
27
– Quantitative Surface Characterization of Pulmonary
Nodules Based on Thin-Section CT Images [46]
Este trabalho mostra um método para quantificar as caracterı́sticas
de pequenos nódulos pulmonares com superfı́cie bem definida,
baseado na tomografia computadorizada. O aspecto significativo
deste trabalho é a extração de caracterı́sticas de curvatura (taxa
de cada tipo de superfı́cie - peak, pit, saddle pit, saddle valley e a
média de curvedness) como indı́cios para sugerir a malignidade ou
benignidade do nódulo.
Os resultados dos testes efetuados demonstram que medidas baseadas
na curvatura discriminam nódulos benignos de malignos com muita
eficiência.
1.5
Estrutura da Tese
Esta Tese está estruturada da seguinte forma:
O Capı́tulo 2 fornece uma introdução aos principais conceitos
necessários para o entendimento deste trabalho. O capı́tulo inicia-se com
uma visão geral de Computação Gráfica na Medicina, e com relação às
formas de aquisição de imagens, mostra a importância da tomografia
computadorizada na identificação e diagnóstico dos nódulos. Depois, o
Nódulo Pulmonar Solitário é mostrado de forma básica. Em seguida
será descrita a técnica que visa selecionar as medidas (entradas) mais
significativas para fazerem parte do treinamento da Análise Discriminante
Linear de Fisher e da Rede Neural Perceptron de Múltiplas Camadas.
Depois, na Seção 2.3 serão estudadas duas técnicas de classificação que
determinarão a benignidade ou malignidade do Nódulo Pulmonar Solitário.
A primeira técnica é baseada nos métodos clássicos de estatı́stica, chamada
Análise Discriminante Linear de Fisher – ALDF. Para esta técnica será
apresentada a teoria básica para análise, aprendizagem e classificação
entre dois grupos. A segunda técnica realiza discriminações não lineares
e é chamada de Rede Neural Perceptron de Múltiplas Camadas – MLP.
Para a MLP é apresentado o algoritmo de treinamento mais utilizado,
retropropagação, além da utilização da rede após o treinamento e suas
limitações. Para finalizar é feita uma breve comparação entre MLP e
ADLF, mostrando aspectos similares entre ambas. Será descrita também
uma técnica de validação cruzada do modelo, chamada deixa um de fora
(leave-one-out) , que avalia mais realistamente os modelos encontrados. Por
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
28
último, será abordada a Curva ROC (Receiver Operating Characteristic),
que é uma técnica freqüentemente utilizada por médicos para a avaliação
de diagnósticos e algoritmos.
O Capı́tulo 3 descreve todos os métodos utilizados para diagnosticar os
nódulos pulmonares solitários, baseados nas suas caracterı́sticas de textura
e geometria. Os métodos foram agrupados de acordo com sua função na
análise. O Grupo I trata dos métodos comuns na literatura de processamento
de imagens, como histograma, Método de Dependência Espacial de Nı́veis
de Cinza – SGLDM, Método de Diferença de Nı́veis de Cinza - GLDM e
Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM. Todos
os métodos deste grupo foram adaptados para obter a caracterı́stica 3D do
Nódulo Pulmonar Solitário. O Grupo II ainda trata da textura dos nódulos,
mas utiliza quatro funções geoestatı́sticas para seu diagnóstico. As funções
foram: semivariograma, semimadograma, covariograma e correlograma. O
Grupo III descreve apenas medidas baseadas na geometria do nódulo. Foram
analisadas medidas de convexidade, esfericidade, e medidas baseadas na
curvatura. Por fim, no Grupo IV, são analisados métodos que levam em
consideração tanto a geometria quanto a textura do nódulo: o coeficiente
de Gini e o esqueleto do nódulo. O coeficiente de Gini é calculado para seis
regiões distintas, determinadas pela codificação dos voxels. Com base no
esqueleto são extraı́das mais oito medidas: número de segmentos, número
de ramificações, fração do volume, comprimento dos segmentos, volume do
fecho convexo, taxa entre o número de segmentos e o volume do fecho
convexo, coeficiente de variação e momentos do histograma.
Os testes e resultados serão apresentados no Capı́tulo 4. Este
capı́tulo analisa cada método proposto e suas combinações em grupos para
diagnosticar os NPS. Primeiro, serão detalhados todos os procedimentos
iniciais básicos para a aquisição e segmentação dos nódulos, os software
e hardware utilizados no desenvolvimento deste trabalho e os parâmetros
necessários para a utilização dos métodos propostos e dos software
utilizados. Além disso, serão feitas análises de todos dos métodos propostos
e como conseqüência, será determinado qual dos métodos melhor discrimina
e classifica os nódulos malignos e benignos.
Por último, no Capı́tulo 5, há um resumo e são apresentadas as
conclusões tiradas deste trabalho, além de serem feitas sugestões de
trabalhos futuros.
2
Conceitos Básicos
Neste capı́tulo será dada uma visão geral de alguns conceitos que
serão de fundamental importância na compreensão dos capı́tulos seguintes,
como Imagem Médica, Nódulo Pulmonar Solitário, os dois algoritmos de
classificação utilizados: Análise Discriminante Linear de Fisher e Rede
Neural Perceptron de Múltiplas Camadas, o procedimento de seleção de
variáveis (medidas) passo a passo, a técnica para validação do modelo deixa
um de fora e, por último, a técnica de avaliação de diagnóstico Curva ROC.
2.1
Imagem Médica
Esta seção dá uma visão geral de alguns conceitos importantes
sobre imagem médica, como aquisição da imagem, formas de tratamento
de imagens em Computação Gráfica, o padrão DICOM e a técnica de
interpolação linear.
2.1.1
Aquisição da Imagem
As técnicas de aquisição de imagens médicas podem ser divididas em
invasivas e não invasivas, de acordo com a forma como são obtidas. Os
métodos invasivos caracterizam-se pela introdução de um instrumento no
interior do corpo humano, de forma a obter as imagens pretendidas. Nesta
categoria incluem-se as angiografias e as imagens de medicina nuclear. Nos
métodos não invasivos incluem-se os raios X, ultra-sonografia, tomografia
computadorizada e ressonância magnética.
Os dados volumétricos extraı́dos desses métodos são geralmente
adquiridos na forma de imagens de fatias paralelas uniformemente
espaçadas, representando cortes transversais ao eixo longitudinal do
paciente. Comumente nas regiões de maior interesse são feitos cortes mais
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
30
próximos, permitindo uma maior visualização dos dados. Cada imagem
gerada está associada a uma localização k, k = 1, 2, ..., l, no eixo z e uma
espessura ∆z = e em torno desta localização, formando um cubóide. O
cubóide é subdividido em outros cubóides pequenos chamados voxels. O
voxel é equivalente a pixel em 3D e representa uma abreviação para volume
element. Cada pixel da imagem está associado a um voxel. O valor associado
a cada pixel representa a média das atenuações do raio X no volume
interno do corpo correspondente ao voxel. Os valores destas atenuações são
expressos em Unidades de Hounsfield (UH) [38]. Tais valores são obtidos
pela exposição do corpo ao bombardeamento de raios X em várias direções.
O valor associado a cada voxel é um número inteiro, proporcional ao
tom de cinza do pixel na imagem correspondente, e representa a integração
de alguma propriedade fı́sica que está sendo mensurada no interior do
volume associado ao voxel. No caso da tomografia computadorizada, por
exemplo, a grandeza fı́sica medida é a densidade do tecido. Quanto maior
for a densidade do tecido, maior serão as atenuações e, portanto, maior serão
os valores dos pixels nas imagens dos cortes referentes a este tecido.
Nas próximas seções serão abordadas as caracterı́sticas gerais de
quatro métodos não invasivos de aquisição de imagens médicas.
Raio X
Em 1895, o fı́sico alemão Wilhelm Rontgen descobriu os raios X,
descoberta que viria a revolucionar o meio cientı́fico, e em especial a
Medicina [79].
Na formação de uma imagem de raio X é emitida uma determinada
fonte de radiação, que atravessa o corpo humano e é projetada num filme
sensı́vel. Os diferentes tecidos do corpo humano absorvem a radiação emitida
em quantidades distintas, de forma que os raios atingem o filme com
diferentes intensidades, dependendo da radiação absorvida.
Ressonância Magnética
A ressonância magnética é principalmente aplicada a “tecidos moles”.
No interior do corpo humano, todos os núcleos atômicos possuem um
determinado campo magnético, o que significa que eles se comportam como
pequenos ı́mãs. Quando o paciente é colocado no interior de um tubo capaz
de gerar um elevado campo magnético, os núcleos alinham-se na direção
deste campo, vibrando em torno do seu eixo com uma freqüência que
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
31
depende fundamentalmente do tipo de núcleo, o que permite distinguir os
diversos tipos de tecidos.
Ultra-sonografia
Nas imagens produzidas por ultra-som são usados impulsos sonoros
de alta freqüência, em vez de energia de radiação.
Um emissor é manipulado por um operador sobre o corpo do paciente,
permitindo obter imagens em tempo real. Assim que uma onda sonora
encontra um tecido, uma parte dela é refletida, sendo o tempo que leva a
regressar ao ponto de origem (eco) proporcional à distância a que se encontra
o tecido. A amplitude do sinal de eco depende das propriedades acústicas
dos tecidos e manifesta-se na imagem gerada sob a forma de diferentes
intensidades no brilho produzido.
Tomografia Computadorizada
A Tomografia, derivada da palavra grega “Tomos”, que significa corte
ou fatia, e “Grafos”, que significa desenhar uma imagem ou gráfico, emprega
os mesmos princı́pios da radiografia convencional com o objetivo de criar
uma representação anatômica baseada na quantidade de atenuação sofrida
pela radiação incidente. O nome Tomografia Computadorizada (TC) devese ao fato dessa técnica ser altamente dependente de computadores para
realizar os cálculos matemáticos relativamente complexos referentes às
informações coletadas durante a emissão e rotação dos raios X.
Na TC, o feixe de raios X que atravessa o corpo é muito colimado e fino,
reduzindo sobremaneira a produção de raios secundários que degradariam
a imagem. Diferentemente do estudo radiológico convencional, os raios X
não impressionam filmes após atravessarem o corpo, mas são captados por
detectores de fótons e as medidas de atenuação tissular são calculadas e
armazenadas no computador. Tais mensurações são feitas em Unidades de
Hounsfield (UH). A Figura 2.1 ilustra o funcionamento de uma TC.
Quanto mais densas as regiões do corpo, maiores serão seus valores
de atenuação em UH. Assim, o ar contido nas vias respiratórias e no tubo
digestivo tem valores mais negativos, como -800 UH ou -1000 UH, e os
ossos, os mais positivos, tais como 400 UH ou 500 UH. A água é usada para
a calibração do equipamento e seus valores de atenuação estão entre 0 e ±10
UH [14], [80].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
32
Figura
2.1:
Funcionamento
de
http://www.geocities.com/siumingrd/CT).
uma
TC
(Fonte:
Na realidade, a imagem obtida com equipamentos de TC é o resultado
da disposição na tela do monitor de uma enorme quantidade de números
lado a lado e em linhas, que representam coeficientes de atenuação tissular,
produtos de cálculos efetuados pelo computador enquanto o feixe de raios
X atravessa a área estudada. Cada valor numérico corresponde a uma
tonalidade em escala de cinza, que vai do preto ao branco. As áreas mais
escuras indicam menor densidade e as mais claras indicam maior densidade.
A Figura 2.2 exemplifica uma TC do tórax e mostra algumas estruturas
encontradas no exame.
Figura 2.2: Tomografia computadorizada do tórax.
A TC é de fundamental importância no diagnóstico precoce do
Nódulo Pulmonar Solitário, pois é muito sensı́vel a diferenças em
densidades, podendo identificar lesões menores que 1 mm3 . Devido a essas
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
33
caracterı́sticas, a TC identifica calcificações com mais precisão do que outros
métodos radiográficos, e possibilita um diagnóstico mais confiável, trazendo
como conseqüência maior sobrevida para o paciente.
2.1.2
Computação Gráfica e Medicina
Podem-se identificar quatro técnicas básicas de Computação Gráfica
que são amplamente utilizadas na área médica: representação de dados,
processamento de imagens, reconstrução e visualização [61].
Representação de dados
A representação da imagem trata da caracterização da quantidade de
pixels que representa a imagem e como ela é representada de forma compacta
para armazenamento e transmissão. O modo de representar e armazenar
uma imagem em computador influi decisivamente no desempenho dos
algoritmos que implementam as operações de manipulação e análise.
Determina, também, o espaço de memória (estática ou dinâmica), o que,
em algumas aplicações, é importante devido ao grande volume de dados
que constituem a imagem.
Processamento e Análise de Imagens
Uma vez equacionado o problema de aquisição e representação de
dados, a fase seguinte consiste em efetuar o processamento dos dados de
forma a obter os resultados desejados. Dentre os métodos de processamento,
podemos destacar a segmentação e o registro.
O problema de segmentação consiste em classificar regiões de
uma imagem com diferentes atributos (cor, opacidade, profundidade,
textura, etc.). Isto é conseguido através de um particionamento do
domı́nio da imagem baseado em propriedades da função de atributos. Um
particionamento muito usado consiste em determinar regiões do domı́nio
da imagem nas quais alguns dos atributos têm valores diferenciados dos
demais.
O problema de registro de imagens consiste em alinhar objetos em duas
ou mais imagens. Essas imagens podem ter sido obtidas, por exemplo, em
instantes diferentes, por sensores diferentes ou de ângulos diferentes. Para
registrar duas imagens, faz-se necessário determinar uma transformação tal
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
34
que cada ponto na primeira imagem possa ser mapeado em um ponto na
segunda. Esse mapeamento deve alinhar as duas imagens da melhor maneira
possı́vel, sendo que o significado de “melhor maneira” depende dos objetos
a serem alinhados nas duas imagens.
Reconstrução
A reconstrução consiste em obter a geometria e a topologia de
um objeto gráfico a partir de suas amostras. Os equipamentos médicos
de aquisição de dados, por exemplo, capturam “amostras” dos diversos
órgãos, e é preciso desenvolver técnicas que possibilitem uma reconstrução
tridimensional do órgão a partir dessas amostras.
Portanto, o problema de reconstrução consiste em recuperar um objeto
representado por um conjunto de dados amostrados. Para reconstruir um
objeto, é necessário que a representação inclua ainda, um modelo de como
a geometria varia entre as amostras. Em geral, esta a variação é obtida com
o uso de algum método de interpolação aplicado aos dados amostrados.
Visualização
A visualização volumétrica consiste em obter informações visuais sobre
dados médicos de naturezas diversas. A visualização volumétrica de objetos
anatômicos elucida a sua estrutura tridimensional.
Dados volumétricos são valores estruturados geometricamente
em um volume e, em geral, são obtidos a partir de três tipos
de processos: a) scanners tridimensionais (ressonância magnética,
tomografia computadorizada, etc.), b) simulações baseadas em modelos
computacionais, e c) da conversão de um modelo geométrico.
Existem duas classes de técnicas de visualização de volumes, que
se traduzem nas que trabalham com a extração de uma isosuperfı́cie
representada através de primitivas gráficas e nas que trabalham gerando
a imagem diretamente a partir do volume.
Técnicas de visualização através de superfı́cies envolvem a extração e a
representação de uma isosuperfı́cie que é posteriormente visualizada através
da utilização de técnicas convencionais da Computação Gráfica. Entre os
algoritmos de visualização através de superfı́cies destacam-se o de conexão
de contornos [21] e o marching cubes [13]. Este último foi o algoritmo de
visualização adotado neste trabalho.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
35
A segunda classe, visualização direta de volume, consiste em
representar o volume através de voxels 3D que são projetados diretamente
em pixels 2D e armazenados como uma imagem, dispensando o uso
de primitivas geométricas. Os algoritmos que fazem parte deste grupo
são [90], [21]: ray casting, splatting, shear-warp, shell rendering, cellprojection e V-Buffer.
2.1.3
Padrão de Imagens DICOM
O padrão DICOM (Digital Imaging and Communications in Medicine)
é uma especificação detalhada que descreve um meio de formatar e trocar
imagens juntamente com informações associadas. É dirigido aos mecanismos
de operação da interface usados para transferir dados de e para um
determinado dispositivo de imagem.
Essa especificação relaciona ligações de redes normatizadas e
dispositivos de armazenamento (Media Storage Devices), responsáveis pela
comunicação e arquivo de imagens digitais, provenientes de tomografia
computorizada, ressonância magnética, medicina nuclear, ultra-sonografia,
raios X, etc.
A comissão ACR-NEMA (American College of Radiology - National
Electrical Manufacturers Association) foi criada em 1983 com a missão
de desenvolver uma interface entre os equipamentos de imagens médicas
(tais como tomografia computorizada, ressonância magnética, medicina
nuclear e ultra-sonografia) e qualquer outro dispositivo com que se quisesse
comunicar. Além das especificações para a ligação do hardware, o padrão
a desenvolver deveria incluir um dicionário de elementos de dados, que
possibilitasse a interpretação e a visualização correta da imagem [71].
A especificação do padrão DICOM 3.0 encontra-se dividida em
13 partes. Tal divisão permite que cada parte possa expandir-se
individualmente sem haver necessidade de reeditar todo o padrão. Dentro
das partes, as seções sujeitas a adições ou modificações encontram-se em
suplementos, reduzindo assim o esforço de edição necessário quando da sua
atualização [39].
A adoção do padrão DICOM pelas indústrias de imagem médica abre
novas oportunidades para organizações de cuidados à saúde para aumentar
a qualidade e a eficiência nos cuidados aos pacientes. O sistema DICOM
permite que informações sobre um paciente viajem entre lugares diferentes
do mundo via modem, o que é mais barato e mais rápido do que outros
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
36
meios de transporte. Além disso, as imagens não perdem a definição e,
conseqüentemente, a interpretação das imagens pelas entidades médicas é
mantida, já que a qualidade gráfica não se altera. A Figura 2.3 ilustra a
estrutura da imagem no formato DICOM. Este formato de imagem é o
utilizado neste trabalho.
Figura 2.3: Estrutura da imagem no formato DICOM.
2.1.4
Interpolação
A Figura 2.4 mostra um dado volumétrico. Pode-se notar nesta figura
que d define a qualidade da amostragem na direção z e que a dimensão p dos
pixels define a qualidade nas direções x e y. A relação entre d e p dita o grau
de anisotropia da amostragem. A interpolação tem por objetivo melhorar
a qualidade da amostragem, estimando valores amostrados em uma nova
escala e gerando uma amostragem isotrópica. Esta correção de escala é
importante neste trabalho para calcular as medidas propostas, em imagens
de TC com espaçamentos diferentes entre fatias. Desta forma, a interpolação
uniformiza o máximo possı́vel as imagens que contêm os nódulos.
A Figura 2.5 ilustra a transformação ocorrida no espaço do voxel
na operação de interpolação. O espaço tem resolução de 2 × 2 × 2 voxels
(m = n = l = 2) e as dimensões dos voxels são ∆x = ∆y = p e ∆z = 2p.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
37
Figura 2.4: Espaço amostral do voxel [56].
Para obter voxels cúbicos com dimensões ∆x = ∆y = ∆z = p/2, novas
amostras podem ser interpoladas nas fatias 1 e 2, aumentando a resolução
das fatias para 4 × 4 pixels, e novas fatias com resolução 4 × 4 pixels podem
ser interpoladas entre as fatias 1 e 2. A base para a interpolação são as
densidades dos 8 voxels do espaço original.
Figura 2.5: Exemplo de interpolação [56].
O exemplo da Figura 2.5 mostra que, para conseguir voxels cúbicos,
com dimensões ∆x = ∆y = ∆z = p, basta apenas interpolar amostras
na direção z. Esta é a forma mais comum de interpolação. Entretanto, a
interpolação nas direções x, y e z é a mais genérica.
Neste trabalho será usada apenas uma interpolação linear em relação
a z. A Figura 2.6 ilustra o processo de interpolar uma fatia m entre as fatias
n e n+1. A interpolação linear assume que a variação de densidade é linear
na direção z entre os voxels vn e vn + 1. A densidade di (vm ) é obtida por:
di (vm ) = do (vn ) +
(do (vn + 1) − do (vn )) li
ls + li
(2-1)
onde di é a densidade interpolada, do é a densidade original, ls + li
(espaçamento entre as fatias n e n+1 ). O procedimento é repetido para
os outros voxels da fatia m a serem interpolados.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
38
Figura 2.6: Interpolação linear [56].
2.2
Nódulo Pulmonar Solitário
A identificação de um Nódulo Pulmonar Solitário (NPS) é um
problema freqüente na prática radiológica. O radiologista tem um papel
determinante na avaliação adequada das caracterı́sticas morfológicas deste
tipo de lesão e na orientação da conduta mais apropriada para o seu
tratamento. É importante salientar que se o câncer de pulmão for
identificado e diagnosticado com tamanho inferior a 3 cm, há uma chance
de sobrevivência do paciente de 80% [81].
O NPS é caracterizado como uma imagem discreta (isolada),
aproximadamente esférica, com densidade maior que a do ar, com contornos
definidos e tamanho de até 3 cm. Se o nódulo tiver mais de 3 cm é
denominado “massa”. A massa tem as demais caracterı́sticas semelhantes
às do nódulo e deve parecer ter atingido essas dimensões por crescimento.
Várias enfermidades podem se manifestar nos NPS, mas as principais
causas são o carcinoma broncopulmonar 1 (44%), seguido de tuberculose
pulmonar (23%), tumores benignos (13%), a metástase (9%) e os abscessos 2
(5%) [81].
1
2
Um tipo de câncer de pulmão formado por células primárias do pulmão.
São como um furúnculo no pulmão.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
39
2.2.1
Natureza do Nódulo
Para se fazer uma hipótese diagnóstica, devem ser levados em
consideração três fatores principais: caracterı́sticas radiográficas, dados
clı́nicos e freqüência estatı́stica de determinados processos [38].
As caracterı́sticas radiológicas da lesão são de grande auxı́lio, até
mesmo podendo definir a natureza benigna ou maligna de um NPS.
Nessa avaliação utilizam-se os princı́pios gerais de descrição de qualquer
imagem médica, que englobam seis aspectos fundamentais: 1) forma, 2)
densidade (estrutura), 3) limite, 4) localização, 5) número, e 6) evolução
(mudança) [38], [62].
Os cinco primeiros aspectos descrevem as caracterı́sticas geoespaciais
do nódulo, enquanto o último se refere à sua condição evolutiva-temporal.
Com muita freqüência, os médicos especialistas não contam com as
caracterı́sticas listadas acima para classificar o nódulo como benigno. A lesão
será, então, considerada de natureza indeterminada, o que é insuficiente para
definir uma conduta a ser adotada. Geralmente, há a expectativa de que
seja avaliada a probabilidade de determinada lesão ser ou não de natureza
maligna. Essa avaliação deve ser compreendida como uma opção reservada,
repleta de limitações, que será importante basicamente naqueles casos em
que o risco cirúrgico for muito grande, quando comprovado a um eventual
erro de diagnóstico.
Os principais dados a serem considerados para inferir sobre a
probabilidade de benignidade e malignidade de uma lesão, sob a ótica do
diagnóstico por imagem, são [38]:
a) modificação temporal-evolutiva;
– o tempo de duplicação de uma lesão situa-se entre 30 e 450 dias,
e seu achado será sugestivo de malignidade. Para que um nódulo
atinja 1 cm de diâmetro, a partir de uma única célula neoplásica,
o tempo exigido é de dois anos e meio a 25 anos;
– uma lesão que se duplique em menos de sete dias sugere
fortemente que sua natureza seja benigna.
b) presença e tipos de calcificação(ões);
– a calcificação difusa, da subtotalidade da lesão, é um achado
muito sugestivo de benignidade;
– mais de 30% das lesões não calcificadas podem ser consideradas
de natureza benigna;
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
40
– a calcificação em nódulos malignos é um achado pouco freqüente,
mas não raro, e pode ocorrer por alteração distrófica, ossificação
do tumor ou inclusão de granuloma calcificado previamente
existente, que em geral é excêntrico e discreto.
c) tamanho absoluto da lesão;
– menos de 5% das lesões benignas têm mais de 3 cm;
– lesões menores de 1 cm, identificadas na tomografia
computadorizada do tórax, tanto podem ser de natureza
maligna como benigna.
d) interface nódulo-parênquima;
– configuração lobulada com limites espiculados são indı́cios fortes
de malignidade;
– contornos lisos e regulares (não lobulados), sem infiltração do
parênquima circunjacente, são sugestivos, porém não conclusivos,
de benignidade;
– configuração regular com limites precisos (circunscritos, sem
espı́culas) em uma lesão que sofre de modificação da forma com
a mudança de decúbito 3 , é muito sugestiva de lesão cı́stica de
conteúdo lı́quido, e em sua grande maioria, benigna.
e) variação de densidade após impregnação de contraste endovenoso.
Será considerado benigno do ponto de vista radiológico um nódulo em
que se identifique [62], [72], [40], [38]:
i) calcificação difusa, central ou em camadas;
ii) limites precisos (liso, circunscrito) em uma lesão que sofre modificação
em sua forma com a mudança de decúbito;
iii) tempo de duplicação de uma lesão menor que sete dias;
iv) ausência de crescimento por mais de dois anos.
Os dados clı́nicos e a freqüência estatı́stica de determinados processos
mórbidos são fatores essenciais para o diagnóstico do nódulo. Por exemplo,
a incidência de determinadas doenças em relação à faixa etária, sexo ou
ao habitat do paciente. Assim, seria pouco provável que um NPS em uma
3
Posição adotada pelo paciente no leito: ele pode estar deitado com a barriga para
cima (decúbito dorsal), de barriga para baixo (decúbito ventral), ou de lado (decúbito
lateral).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
41
criança correspondesse a carcinoma brônquico. Por outro lado, um nódulo
teria grande probabilidade de ser carcinoma brônquico se identificado em
paciente tabagista ativo ou passivo, com história familiar de neoplasia, com
mais de 40 anos, com emagrecimento ou ainda com pneumonias de repetição,
num mesmo local.
As Figuras 2.7 e 2.8 resumem a provável natureza do nódulo para
diagnóstico do NPS em relação ao coeficiente de atenuação e à forma,
respectivamente [38]. Observa-se que cada uma das caracterı́sticas pode
sugerir um ou mais tipos de lesão.
Figura 2.7: Provável diagnóstico do NPS em relação ao coeficiente de
atenuação.
Na maior parte das ocasiões os NPS são indeterminados, isto é,
não existem dados suficientes para que os médicos o diagnostiquem como
malignos ou benignos. Assim, é preciso utilizar um algoritmo que permita
combinar a precaução de não deixar de estudar processos malignos e evitar
técnicas desnecessárias em processos benignos. A Figura 2.9 resume este
algoritmo [82].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
42
Figura 2.8: Provável diagnóstico do NPS em relação à forma.
2.3
Técnicas para Analisar, Discriminar e Classificar
Em termos gerais, o reconhecimento de padrões é a ciência que
compreende a identificação ou classificação de medidas de informações
em categorias. Categorias têm por caracterı́stica representar entidades ou
padrões de informação que apresentam similaridades. O reconhecimento
de padrões é composto de um conjunto de técnicas e abordagens que são
usadas de forma integrada na solução de diversos problemas práticos, como
por exemplo a identificação de um nódulo pulmonar como maligno ou
benigno. Entre as abordagens que podem ser empregadas na classificação
de problemas pode-se destacar a Análise Discriminante Linear de Fisher e
Rede Neural Perceptron de Múltiplas Camadas (Multilayer Perceptrons).
Neste trabalho foram utilizadas duas técnicas para discriminar e
classificar os NPS. A Análise Discriminante Linear de Fisher foi escolhida
devido ao seu grande potencial em classificação, e é muito utilizada nos
trabalhos analisados (Seção 1.4). A Rede Neural Perceptron de Múltiplas
Camadas foi escolhida pelo fato de ser simples e nos últimos anos estar
sendo amplamente utilizada como ferramenta de diagnóstico. Com essas
duas técnicas, será realizada a comparação entre elas, com o objetivo de
verificar a eficiência na classificação dos NPS.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
43
Figura 2.9: Algoritmo para diagnóstico dos NPS.
A Análise Discriminante Linear de Fisher (ALDF) é uma técnica
estatı́stica que permite discriminar e classificar indivı́duos pertencentes a
dois ou mais grupos mutuamente exclusivos definidos a priori, com base
em um número de variáveis independentes observáveis. Essas variáveis
observáveis são chamadas de “variáveis discriminantes”. Para isso é
calculada uma “função discriminante”, que é uma função composta por
ı́ndices, onde cada ı́ndice tem um peso especı́fico. Esses pesos são calculados
por uma metodologia estatı́stica não subjetiva.
Redes Neurais Artificiais são técnicas computacionais que têm se
mostrado extremamente eficientes na solução de problemas para os quais
os métodos tradicionais da computação convencional não têm apresentado
soluções satisfatórias, sendo uma de suas áreas de maior potencial de
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
44
aplicação justamente problemas ligados ao reconhecimento de padrões. Uma
rede neural pode ser vista como um conjunto de elementos processadores
simples, baseados em neurônios, que são ligados uns aos outros através de
conexões análogas às sinapses. Estas conexões guardam o “conhecimento”
da rede e os diversos padrões de conectividade expressam os vários objetos
representados pela rede. O conhecimento da rede é adquirido por meio de
um processo de treinamento no qual as conexões entre as unidades são
variadas através das mudanças de pesos. Dentre os diversos algoritmos de
redes neurais, o algoritmo Perceptron de Múltiplas Camadas (MLP) é um
dos mais utilizados devido à sua simplicidade e eficiência.
2.3.1
Análise Discriminante Linear de Fisher
A técnica multivariada da análise discriminante trata dos problemas
relacionados com a separação de conjuntos distintos de objetos (ou
observações) e a alocação de novos objetos (observações) em conjuntos
previamente definidos. Essa técnica está inserida em um contexto mais
amplo, que é o do reconhecimento de padrões. Seu objetivo é construir
uma regra de reconhecimento de padrões e classificação.
A análise discriminante e a de classificação são técnicas multivariadas
interessadas, respectivamente, na separação de uma coleção de objetos
distintos e na alocação de novos objetos em grupos previamente
definidos [28]. Apesar de estarem claramente interligadas, não devem ser
confundidas. A análise discriminante se refere aos métodos de atribuição de
classes a determinados conjunto de dados. Por exemplo, pode-se considerar
NPS benignos e malignos; cada um seria um grupo, diferenciado pela função
discriminante. Já a classificação se refere à alocação de novos NPS nos seus
devidos grupos correspondentes.
As discriminações podem ser feitas através dos processos
supervisionados que são utilizados quando se conhece o padrão (dados
para treinamento) ou através dos processos não supervisionados, sendo
estes recomendados quando não se tem um padrão reconhecido. A análise
discriminante é um método supervisionado de concepção estatı́stica.
Ela deve ser empregada quando as seguintes condições puderem ser
atendidas [28], [2]:
a) os grupos sob investigação são mutuamente exclusivos;
b) cada grupo é obtido de uma população normal multivariada;
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
45
c) as matrizes de covariância relativas a cada grupo são iguais;
d) devem existir no mı́nimo dois grupos: g ≥ 2, onde g é número de grupos;
e) devem existir pelo menos dois indivı́duos por grupo: Ni ≥ 2, onde Ni é
o número de indivı́duos do grupo i;
f ) duas medidas não podem ser perfeitamente correlacionadas (rij 6= 1);
g) o número máximo de variáveis é igual ao número de observações menos
dois: 0 < n < (N − 2).
O objetivo da análise discriminante é determinar um conjunto de
coeficientes discriminantes para um conjunto de variáveis independentes
que forneçam uma ponderação linear capaz de extrair a maior quantidade
possı́vel de informação quanto à classificação dos indivı́duos nos grupos. Ela
visa maximizar a variância entre grupos (intergrupal) em relação à variância
dentro dos grupos (intragrupal), considerando-se amostras previamente
classificadas dos diversos grupos.
Como resultado, a análise discriminante é um sistema de escores.
O escore é determinado multiplicando-se o peso discriminante pelo valor
de cada variável independente do indivı́duo e somando-se os resultados.
Uma vez que esse escore é determinado, o indivı́duo é classificado como
pertencente a um dos grupos analisados.
A análise discriminante envolve derivar combinações lineares de
variáveis independentes que irão discriminar entre grupos definidos a priori
tal que as taxas de má classificação sejam minimizadas. É importante
salientar que a eficiência de uma técnica é proporcional à qualidade das
informações disponı́veis, enfatizando-se a importância da fase de coleta de
dados.
Análise Discriminante de Fisher para Discriminação entre Dois Grupos
Este trabalho tem por objetivo classificar os NPS como benignos ou
malignos. Estes grupos serão designados por π1 e π2 , respectivamente. Os
nódulos são separados e classificados com base em suas medidas, associadas
a p variáveis aleatórias X T = [X1 , X2 , . . . , Xp ].
O objetivo é achar a combinação linear de Y = bT X para a qual a
razão entre a variância da diferença entre as médias dos dois grupos π1 e
π2 e a variância total seja maximizada. Isto é, deseja-se obter um vetor de
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
46
pesos b que maximize [3]:
T
b (µ1 − µ2 )2
P
∆=
bT
b
(2-2)
P
onde µ1 e µ2 são as médias de π1 e π2 , respectivamente, e
é a matriz de
covariância de X1 , X2 , . . . , Xp .
Como geralmente os parâmetros da população não são conhecidos,
P
usa-se X em vez de µ, e S em vez de .
Pode-se mostrar que b é dado por [3]:
b = S −1 X 1 − X 2
(2-3)
onde b é o vetor de pesos, S −1 é inversa da matriz de covariância amostral da
população, X 1 é o vetor da média amostral de π1 , e X 2 é a média amostral
de π2 .
O cálculo de S pode ser obtido de duas formas [3]. A primeira forma
é através da equação:
S=
(n1 − 1)S1 + (n2 − 1)S2
n1 + n2 − 2
(2-4)
onde S é matriz de covariância conjunta, S1 e S2 são as matrizes de
covariância de π1 e π2 , respectivamente, e n1 e n2 são os números de
indivı́duos de π1 e π2 , respectivamente.
A segunda forma é através da equação:
S =W +B
(2-5)
onde W é matriz de covariância intragrupo e B é a matriz de covariância
intergrupo.
A matriz de covariância intragrupo (W ) é definida por:
W =
p
ni
X
X
Xij − X i
2
(2-6)
i=1 j=1
i = 1, . . . , p; j = 1, . . . , ni , e
Xi =
1
ni
X
ni
j=1
Xij
(2-7)
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
47
onde p é o número de amostras, ni é o tamanho da i-ésima amostra,
Xij observações (j-ésima observação da i-ésima amostra), e X i é a média
amostral para a i-ésima amostra.
A definição da matriz B de variância intergrupo das n variáveis
calculada sobre a nuvem dos centros de gravidade ponderados é dada por:
B=
p
ni
X
X
Xi − X
2
(2-8)
i=1 j=1
X
p
ni
X
1
Xij
X=
n i=1 j=1
n=
p
X
(2-9)
ni
(2-10)
i=1
onde n é o tamanho da amostra e X é a média amostral global.
Classificação
A regra de classificação, a partir da função discriminante (Y ), que
aloca cada indivı́duo das amostras em um dos grupos é [15], [2]:
– Aloca o indivı́duo (X0 ) no grupo π1 se
Ŷ0 = bT X0 ⇒ Ŷ0 = X̄1 − X̄2
T
S −1 X0 ≥ m̂
(2-11)
onde
m̂ =
1h
T
i
1
Ȳ1 + Ȳ2 =
X̄1 − X̄2 S −1 X̄1 + X̄2
2
2
– Caso contrário, aloca o indivı́duo (X0 ) no grupo π2 .
O método de Fisher pode ser estendido para mais de duas populações,
mas como isso não faz parte do escopo deste trabalho são sugeridos outros
trabalhos [28], [4], [15] e [3] para se obter um melhor aprofundamento do
assunto.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
48
Seleção de Medidas
No inı́cio de uma análise, dispõe-se de uma grande quantidade de
medidas preditoras. Dessa forma, é necessário fazer uma seleção para
identificar quais as principais medidas, e que, conseqüentemente, farão parte
da função discriminante e da rede neural MLP.
Embora se possa utilizar tantas medidas quanto quisermos, na prática
nem todas acrescentam informação no sistema estudado. Existem várias
técnicas para selecionar variáveis para o modelo [4], [28], [15], mas neste
trabalho será utilizado o procedimento de seleção de variáveis passo a passo
para a análise discriminante. No caso de dois grupos (que é o relevante para
este trabalho), este procedimento é equivalente ao de regressão linear passo
a passo [4].
A decisão sobre as variáveis que entram e saem do modelo é baseada
na denominada estatı́stica F, que é empregada para verificar a adequação
do modelo de discriminação. Ela tem este nome porque, sob a hipótese de
que as médias de todos os grupos sejam iguais, ela tem uma distribuição
F [47], [6]. A estatı́stica F avalia a relação existente entre a variância da
função de discriminação Y = bT X entre grupos (intergrupal) e a variância
dentro dos grupos (intragrupal). Quanto maior a diferença entre os grupos,
maior será o valor de F. A Tabela 2.1 mostra as equações utilizadas para
calcular o valor de F.
Fonte de
Variação
Intergrupo
Somatório dos
Quadrados
p
P
Graus de
Erro
Valor de F
Liberdade quadrático
Médio
2
p−1
M1 =
B
p−1
2
n−p
M2 =
W
n−p
S =B+W
p P
ni
2
P
S=
Yij − Ȳ
n−1
B=
ni Ȳi − Ȳ
j=1
Intragrupo W =
p P
ni
P
Yij − Ȳi
i=1 j=1
Total
M1
M2
i=1 j=1
onde p é o número de grupos, ni é o número
no i-ésimo
pde observações
P
grupo, n é o número total de observações
ni , Ȳi é média da função
i=1
!
ni
P
Yij
, e Ȳ é a média global
discriminante para o i-ésimo grupo
ni
j=1
!
p P
ni
P
Yij
.
n
i=1 j=1
Tabela 2.1: Cálculo da variância e do valor de F.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
49
O procedimento passo a passo utiliza, na verdade, a chamada
estatı́stica F-parcial. Suponhamos que o processo de discriminação seja
feito com base nas variáveis X1 , ..., Xr e que desejemos examinar se
vale a pena introduzir a nova variável Xr+1 . A estatı́stica F-parcial
−B1
, onde W é calculado como na Tabela 2.1,
é definida como B2W
n−p
enquanto B1 e B2 representam a variância intergrupo para as
funções discriminantes calculadas com base nas variáveis X1 , ..., Xr e
X1 , ..., Xr , Xr+1 , respectivamente. Deste modo, a diferença B2 −B1 descreve
a redução no erro de classificação ocasionada pela introdução de Xr+1 .
Quanto maior é esta redução, mais atraente é a introdução de Xr+1 no
modelo.
Em cada passo do método, é calculado um valor “F para entrar” para
cada variável ainda não incluı́da no modelo, que corresponde à estatı́stica
F-parcial descrita acima. Por outro lado, é calculado um valor “F para sair”
para cada variável já incluı́da no modelo e que corresponde à estatı́stica
F-parcial relativa a esta variável, considerando o modelo obtido com sua
exclusão. Novas variáveis cujo “F para entrar” seja superior a um valor α1
previamente especificado são incluı́das no modelo, enquanto variáveis cujo
“F para sair” seja inferior a um outro valor α2 são excluı́das. O processo
termina quando não há novas variáveis a incluir ou excluir.
A Figura 2.10 resume o procedimento de seleção de variáveis passo a
passo descrito anteriomente.
Figura 2.10: Procedimento de seleção de variáveis passo a passo.
As medidas selecionadas com o procedimento de seleção de variáveis
passo a passo para a análise discriminante, serão as mesmas utilizadas como
entrada para a Rede Neural Perceptron de Múltiplas Camadas [63].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
50
2.3.2
Redes Neurais Perceptrons de Múltiplas Camadas
Redes neurais artificiais têm sido aplicadas com sucesso nos mais
diversos problemas [73], [32], [64], [19]. Embora existam inúmeras
arquiteturas de redes neurais, a arquitetura Perceptron de Múltiplas
Camadas (Multilayer Perceptron) é, sem dúvida, a mais freqüentemente
encontrada na literatura. Entre as razões para sua popularidade podemos
destacar sua flexibilidade para formar soluções de qualidade para uma ampla
classe de problemas, a partir de um mesmo algoritmo de aprendizado.
As Redes Neurais Perceptrons de Múltiplas Camadas (MLP) são
arquiteturas nas quais os neurônios são organizados em duas ou mais
camadas de processamento, já que sempre vai existir uma camada de entrada
e uma de saı́da. As redes com apenas duas camadas, uma de entrada e outra
de saı́da, apresentam limitações importantes e podem ser aplicadas com
sucesso a uma classe restrita de problemas [33]. No entanto, com a utilização
da MLP com mais de duas camadas (pelo menos uma escondida), muitas
das limitações apresentadas pelo perceptrons foram solucionadas [83]. A
Figura 2.11 exemplifica uma rede neural com uma camada escondida.
Esta arquitetura é geralmente referida como 3-4-1, ou seja, 3 neurônios
de entrada, 4 neurônios escondidos e 1 neurônio de saı́da. Para generalizar,
podemos dizer que uma rede com p entradas, h1 neurônios na primeira
camada escondida, h2 na segunda camada escondida e q neurônios na
camada de saı́da é descrita por p-h1 -h2 -q.
Figura 2.11: Modelo de uma rede MLP (3-4-1).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
51
Algoritmo de Treinamento – Retropropagação (Backpropagation)
A mais importante propriedade de uma rede neural é sua capacidade
de aprendizado. Uma rede aprende através de um processo iterativo de
ajustes aplicados aos seus pesos sinápticos e limiares.
O processo de aprendizagem de uma rede neural implica na seguinte
seqüência de eventos [31]:
1. A rede é estimulada pelo ambiente de informação;
2. A estrutura da rede é alterada como resultado do estı́mulo;
3. Em virtude das alterações que ocorreram em sua estrutura interna, a
rede tem modificada sua resposta aos estı́mulos do ambiente.
Um tipo particular de aprendizagem que será utilizado neste trabalho
é o supervisionado. Esse tipo de aprendizado é caracterizado pela presença
de um “professor” externo. A função do “professor” durante o processo é
suprir a rede neural com uma resposta desejada a um determinado estı́mulo.
O algoritmo de aprendizagem por retropropagação (Backpropagation)
é baseado na regra de aprendizagem por correção de erros. O algoritmo
utiliza pares de entradas e saı́das desejadas e, por meio de um mecanismo
para correção dos erros, ajusta os pesos da rede. Para a minimização do erro
obtido pela rede e o ajuste dos pesos, o algoritmo utiliza a regra de delta
generalizada, com aplicação do gradiente [83], [63], [34].
Durante o treinamento com o algoritmo de retropropagação, a rede
opera em uma seqüência de dois passos. Primeiro, um padrão é apresentado
à camada de entrada da rede. A atividade resultante flui através da rede,
camada por camada (feed-forward ), até que a resposta seja produzida pela
camada de saı́da. No segundo passo, a saı́da obtida é comparada à saı́da
desejada para esse padrão particular. Se esta não estiver correta, o erro é
calculado. O erro é propagado a partir da camada de saı́da até a camada
de entrada, e os pesos das conexões das unidades das camadas internas vão
sendo modificados conforme o erro é retropropagado (feed-backward ).
Os passos abaixo resumem o algoritmo de aprendizagem por
retropropagação:
1. Ajustar os pesos dos elementos de processamento com pequenos
valores aleatórios.
2. Apresentar as entradas, um vetor x0 , x1 , . . . , xN de medidas, e
especificar um vetor d1 , d2 , . . . , dN de saı́da desejado.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
52
3. Calcular" as saı́das reais da rede,
# y1 , y2 , . . . , yN , definida pela equação:
m
P
yk = f
xjk (p)wjk (p) − θk , onde f é a função de ativação, x é o
j=1
vetor de entrada, w é o vetor peso e θ é o bias.
4. Reajustar os pesos. Usar um algoritmo recursivo começando pelos
elementos de processamento de saı́da, trabalhando para trás no sentido
da primeira camada. Os pesos são ajustados através da equação
0
wij (t + 1) = wij (t) + ηδj xi , onde wij é o peso do elemento de
0
processamento oculto j no tempo t; xi pode ser tanto um elemento de
processamento de saı́da quanto um de entrada; η denota um termo
de ganho (velocidade da aprendizagem); e δj é um termo de erro
para o elemento de processamento j. Se j for um elemento de saı́da,
então δj = yj (1 − yj )(dj − yj ), onde dj denota a saı́da desejada e
yj é a saı́da real da rede; se o elemento j for um elemento oculto,
0
0 P
então δj = xj (1 − xj ) δk wjk , onde k denota todos os elementos
k
acima dos elementos j. Os limiares delta dos elementos internos
são ajustados de forma semelhante. A convergência algumas vezes
pode ser mais rápida se um termo de momento for adicionado e
os pesos alterados de forma mais suave, pela equação: wij (t + 1) =
0
wij (t) + ηδj xi + α(wij (t) − wij (t − 1)), onde 0 < α < 1.
5. Repetir retornando para o passo 2.
Uma demonstração mais detalhada do algoritmo de retropropagação
pode ser vista em [83], [63], [34].
A regra delta generalizada funciona quando são utilizadas na rede
unidades com uma função de ativação semilinear, que é uma função
diferenciável e não decrescente. Uma função de ativação amplamente
utilizada, nestes casos, é a função sigmóide. Duas funcões sigmóide muito
utilizadas são a função logı́stica, definida por y = 1+e1−x , e a tangente
1−e−x
hiperbólica, definida por y = 1+e−x [63].
A taxa de aprendizagem essencialmente, influencia a magnitude das
mudanças dos pesos, desempenhando papel fundamental no desempenho
do aprendizado. Uma taxa de aprendizado pequena implica em pequenas
variações, tornando o treinamento lento e aumentando as chances de paradas
em mı́nimo locais; altas taxas de aprendizado, no entanto, podem levar a
MLP a saturação ou mesmo à oscilação, comprometendo todo o processo
de aprendizado. Esta taxa de aprendizagem é introduzida na rede com
o objetivo de permitir maior rapidez na convergência ao erro desejado,
enquanto o erro estiver diminuindo, e ao mesmo tempo evita que a rede
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
53
venha a oscilar, diminuindo a taxa de aprendizagem quando o erro tende a
aumentar.
O treinamento das redes MLP com retropropagação pode demandar
muitos passos no conjunto de treinamento, resultando num tempo de
treinamento consideravelmente longo. Se for encontrado um mı́nimo local,
o erro para o conjunto de treinamento pára de diminuir e estaciona em
um valor maior que o aceitável. Uma maneira de aumentar a taxa de
aprendizado sem levar à oscilação é modificar a regra delta generalizada
para incluir o termo momento, uma constante que determina o efeito das
mudanças passadas dos pesos na direção atual do movimento no espaço de
pesos [83], [35].
Desta forma, o termo momento leva em consideração o efeito de
mudanças anteriores de pesos na direção do movimento atual no espaço de
pesos. O termo momento torna-se útil em espaços de erro que contenham
longas gargantas, com curvas acentuadas ou vales com descidas suaves [83].
Utilização da rede MLP
Depois que a rede estiver treinada e o erro estiver em um nı́vel
satisfatório, a rede poderá ser utilizada como uma ferramenta para
classificação de novos dados. Para isto, a rede deverá ser utilizada
apenas no modo progressivo (feed-forward ). Nesta fase, novas entradas
são apresentadas à camada de entrada e são processadas nas camadas
intermediárias, e os resultados são apresentados na camada de saı́da, como
no treinamento, mas sem a retropropagação do erro. A saı́da apresentada
é o modelo dos dados na interpretação da rede. A Figura 2.11 ilustra este
processo.
Limitações da rede MLP
As redes neurais que utilizam retropropagação, assim como muitos
outros tipos de redes neurais artificiais, podem ser vistas como “caixas
pretas”, nas quais quase não se sabe porque a rede chega a um determinado
resultado, uma vez que os modelos não apresentam justificativas para suas
respostas. Neste sentido, muitas pesquisas vêm sendo realizadas visando a
obtenção de conhecimentos sobre as redes neurais artificiais e a criação de
procedimentos explicativos, nos quais se tenta justificar o comportamento
das redes em determinadas situações [83], [63], [34].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
54
Outra limitação refere-se ao tempo de treinamento de redes neurais
utilizando retropropagação, que tende a ser muito longo. Algumas vezes
são necessários milhares de ciclos (épocas) para se chegar a nı́veis de erros
aceitáveis, o que pode demandar um longo perı́odo de tempo [31].
Uma terceira limitação é a dificuldade de definir a arquitetura ideal
da rede de forma que ela seja tão grande quanto o necessário para conseguir
obter as representações internas necessárias e, ao mesmo tempo, pequena
o suficiente para apresentar um treinamento rápido. Não existem regras
claras para a definição de quantas unidades devem existir nas camadas
intermediárias, quantas camadas, ou como devem ser as conexões entre essas
unidades [83], [31], [35].
2.3.3
Comparação entre ALDF e MLP
Existem muitas similaridades conceituais entre ALDF e MLP [29]:
– O treinamento de uma MLP é semelhante, no método estatı́stico, a
aprender no modelo da ALDF. Os dois modelos buscam um ajuste
dos pesos (parâmetros) baseados no conjunto de dados que são
apresentados a eles.
– Em uma rede neural, cada nodo de entrada da rede pode ser visto,
na estatı́stica, como uma variável independente, explanatória ou
preditiva.
– Existem similaridades entre os pesos da MLP, utilizados nas camadas
adjacentes, para o cálculo da saı́da com os chamados coeficientes de
regressão em estatı́stica.
– O bias, que nas MLP tem o efeito de aumentar ou diminuir a entrada
lı́quida da função de ativação, dependendo de se ele é positivo ou
negativo, em estatı́stica é conhecido como “intercepto”.
– O erro em uma MLP é calculado através da diferença entre a saı́da
real e a saı́da desejada da rede. Essa diferença (erro) é semelhante ao
conceito de minimização de resı́duos na regressão estatı́stica.
– No modelo de ALDF, o processo converge quando a função de
probabilidade é maximizada, enquanto em MLP a função de erro dos
mı́nimos quadrados é minimizada.
A Tabela 2.2 resume os principais termos semelhantes nos dois modelos
estudados.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
55
MLP
Treinamento, aprendizagem
Unidades de entrada
Camada de saı́da
Pesos nas conexões
Bias
Erro
Casos de treinamento, padrões
Caracterı́sticas
ALDF
Estimação de parâmetros
Variáveis independentes, explanatórias,
preditivas
Variável dependente, valores previstos
Coeficientes de regressão
Intercepto
Resı́duo
Observação
Variáveis
Tabela 2.2: Termos similares entre MLP e ALDF.
2.4
Validação do Modelo
A validação do modelo com o próprio conjunto de dados que serviu
para fazer o treinamento do modelo classificador induz uma estimativa de
qualidade pouco realista. Para evitar esta validação tendenciosa, é necessário
dividir (reamostrar) o conjunto de dados original em um para treinamento
e outro para teste.
Deixa um de fora é um caso especial de reamostragem que é uma
técnica elegante para estimar taxas de erros de classificador [10]. Como é
computacionalmente cara, é freqüentemente reservada para problemas em
que o tamanho da amostra é relativamente pequeno. Para uma amostra de
tamanho n, um classificador é projetado usando (n − 1) casos e testado
no único caso restante. Isto é repetido n vezes, cada vez gerando um
classificador e deixando um de fora. Assim, cada caso na amostra é usado
como um caso de teste, e os demais são usados para projetar o classificador.
A taxa de erro é o número de erros dividido por N. A Figura 2.12 ilustra
esta técnica.
2.5
Curva ROC (Receiver Operating Characteristic)
A avaliação dos métodos propostos neste trabalho pode ser feita
por comparação com técnicas de referência que se saibam serem válidas.
Tal avaliação envolve, portanto, a comparação de medidas obtidas
simultaneamente, utilizando o teste em estudo e um teste de referência. Os
estudos de avaliação implicam que esse teste de referência seja o apropriado.
Um dos grandes problemas inerentes a este tipo de estudo é o fato de, por
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
56
Figura 2.12: Exemplo da técnica deixa um de fora.
vezes, não existir uma referência, usando-se, então, o melhor procedimento
disponı́vel como procedimento de referência. Mais uma vez, é importante
frisar que uma medida é válida se provém de um procedimento válido.
Os estudos de avaliação são freqüentemente descritos como testes de
validade dos diagnósticos e são um dos mais importantes atos em Medicina.
Para elaborar um diagnóstico, temos que utilizar métodos que permitam
distinguir entre populações de doentes e de não doentes, ou seja, teste de
diagnóstico.
Nos testes de diagnóstico o resultado é sempre dicotômico. Quando
se avaliam esses testes, utilizamos um teste de referência cuja escala é
também dicotômica. A validade de medidas dicotômicas pode ser avaliada
construindo uma tabela de 2 × 2 (Tabela 2.3) [48].
Doença
Presente
Ausente
Positivo Verdadeiro Positivo
Falso Positivo
Teste
Negativo
Falso Negativo
Verdadeiro Negativo
Tabela 2.3: Relação entre o resultado de um teste diagnóstico e o verdadeiro
diagnóstico
A Tabela 2.3 evidencia que há dois tipos de conclusão errônea em um
teste: Falso Positivo (indivı́duo não doente é considerado como doente) e
Falso Negativo (indivı́duo doente é considerado normal).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
57
2.5.1
Sensibilidade e Especificidade
O valor clı́nico de um teste está relacionado com a sua especificidade
e sensibilidade. Ele deve fornecer uma boa indicação preliminar de quais
indivı́duos têm a doença e quais não têm, e isto só se consegue se os métodos
utilizados forem válidos.
A sensibilidade é a proporção de indivı́duos doentes que possuem um
teste positivo, isto é, a probabilidade de, estando doente, um indivı́duo ter
um teste positivo (percentagem de vezes que o teste acerta). A especificidade
é a proporção de indivı́duos não doentes que possuem um teste negativo
ou a probabilidade de, não estando doente, ter um teste negativo. A
sensibilidade define-se, então, como sendo a capacidade de um teste para
identificar corretamente aqueles indivı́duos que possuem uma determinada
doença, enquanto que a especificidade é definida como a capacidade do
teste para identificar corretamente aqueles que não a possuem. Ambas são
determinadas pela comparação dos resultados obtidos num determinado
teste com os resultados de métodos de diagnóstico mais seguros (de
referência). A extensão em que os resultados de um teste coincidem com
o de referência dá uma medida da sensibilidade e especificidade desse
teste [26], [8].
Quando indivı́duos doentes são considerados negativos ou normais,
os respectivos resultados deste teste são chamados “falsos negativos”. Por
outro lado, quando indivı́duos não doentes são considerados como doentes,
os resultados deste teste são denominados “falsos positivos”. Note-se que
a percentagem de falsos negativos é o complemento da sensibilidade e a
percentagem de falsos positivos é o complemento da especificidade. Quando
a sensibilidade é de 100%, temos a certeza que o teste nunca se engana nos
falsos negativos.
A especificidade e a sensibilidade não provêem informação sobre os
falsos positivos e os falsos negativos. São independentes da prevalência da
doença (proporção de indivı́duos doentes ou probabilidade de estar doente,
independentemente do resultado do teste - probabilidade pré-teste) e esta é
considerada a sua maior vantagem [48].
A Tabela 2.4 mostra a relação da especificidade e sensibilidade e como
determinar seus valores [8].
a
= verdadeiros positivos / todos os doentes
Sensibilidade = a+b
d
Especificidade = c+d = verdadeiros negativos / todos os não doentes
a+d
Precisão = a+b+c+d
= corretamente classificados / todos
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
58
Doença
Presente Ausente
Positivo
a
c
Negativo
b
d
Teste
Total
a+b
c+d
Total
a+c
b+d
N
Tabela 2.4: Cálculo da especificidade e sensibilidade para uma variável
dicotômica
2.5.2
Cálculo da Curva ROC
Geralmente, a sensibilidade e a especificidade são caracterı́sticas
difı́ceis de conciliar, isto é, é complicado aumentar a sensibilidade e a
especificidade de um teste ao mesmo tempo. As curvas ROC (Receiver
Operating Characteristic) são uma forma de representar a relação,
normalmente antagônica, entre a sensibilidade e a especificidade de um
teste diagnóstico quantitativo ao longo de valores contı́nuos de ponto de
corte [84].
Para construir uma curva ROC traça-se um diagrama que represente a
sensibilidade em função da proporção de falsos positivos (1- especificidade)
para um conjunto de valores de ponto de corte.
Quando se tem uma variável contı́nua, resultado da aplicação de um
teste diagnóstico quantitativo, e se pretende transformá-la numa variável
dicotômica, do tipo doente/não doente, temos que utilizar um determinado
valor na escala contı́nua que discrimine entre essas duas classes. A esse valor
dá-se o nome de “ponto de corte” (cut off point).
O valor escolhido como ponto de corte vai influenciar as caracterı́sticas
do teste, como exemplificado na Figura 2.13. Neste exemplo, quanto maior
o ponto de corte, maior a especificidade do teste, mas a sensibilidade será
menor; e quanto menor o ponto de corte, maior a sensibilidade, mas a
especificidade será menor [48]. A Figura 2.14 representa graficamente a
relação entre a sensibilidade e a especificidade para todos os possı́veis pontos
de corte da curva C1 , C2 e C3 . Quanto maior for a sobreposição das curvas
normais, menor será a área sob a curva ROC.
As curvas ROC descrevem a capacidade discriminativa de um teste
diagnóstico para um determinado número de valores de ponto de corte. Isso
permite colocar em evidência os valores para os quais existe uma maior
otimização da sensibilidade em função da especificidade. O ponto numa
curva ROC em que isso acontece é aquele que se encontra mais próximo do
canto superior esquerdo do diagrama.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
59
Figura 2.13: Ponto de corte.
Figura 2.14: Relação entre a curva ROC e pontos de corte.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
60
Por outro lado, as curvas ROC permitem quantificar a exatidão de
um teste diagnóstico, já que esta é proporcional à área sob a curva ROC
(AUC ), isto é, ela será tanto maior quanto mais a curva se aproximar do
canto superior esquerdo do diagrama. Em virtude disso, a curva será útil
também na comparação de testes diagnósticos, que terá uma exatidão tanto
maior quanto maior for a área sob a curva ROC. O valor da área igual a
1 representa um teste perfeito; a área igual a 0.5 representa um valor sem
importância. A Figura 2.15 exemplifica várias curvas ROC e a Tabela 2.5
associa a qualidade do diagnóstico à área da curva ROC [74], [48], [10].
Figura 2.15: Curva ROC e a qualidade no diagnóstico.
Área (AUC ) Qualidade do diagnóstico
0.9 a 1.0
Excelente
0.8 a 0.9
Bom
0.7 a 0.8
Regular
0.6 a 0.7
Ruim
0.5 a 0.6
Insignificante
Tabela 2.5: Qualidade do diagnóstico em relação à área da curva ROC.
A área do curva ROC é comumente calculada através de dois
métodos [84], [48], [26]:
1. Não paramétrico: se caracteriza por não fazer nenhuma suposição
sobre as distribuições dos resultados do teste. Duas técnicas
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
61
geralmente utilizadas para o cálculo da área da curva são a regra do
trapézio e a aproximação à estatı́stica U de Wilcoxon-Mann-Whitney.
2. Paramétrico: se baseia em supor uma determinada distribuição para
os resultados do teste. O modelo mais freqüentemente utilizado é o
binormal, que supõe a normalidade das variáveis com probabilidade
positiva e negativa. Utiliza o estimador de máxima verosimilhança
para ajustar uma curva suave aos pontos.
Hanley e McNeil [10] descreveram um método não paramétrico para o
cálculo da área da curva ROC (AUC ), utilizando a aproximação à estatı́stica
U de Wilcoxon-Mann-Whitney. Com o resultado da área curva calculada por
esse método, o erro padrão (SE) também pode ser estimado.
A estatı́stica U de Wilcoxon-Mann-Whitney mede se as seqüências de
casos normais e anormais podem ter vindo da mesma população ou não. Em
relação à curva ROC, esse método testa se as distribuições são as mesmas
ou diferentes.
Considere-se uma amostra de dimensão nA para os indivı́duos
classificados como anormais, A, e outra de dimensão nN para os indivı́duos
classificados como normais, N ; o procedimento de teste consiste em fazer
todas as nA nN comparações possı́veis entre os valores xA da amostra nA e
os valores xN da amostra nN , graduando cada comparação de acordo com
a regra,

 1 se xA > xN

S(xA , xN ) =
1/2 se xA = xN


0 se xA < xN
e fazendo a média dos S 0 s para todas as nA nN comparações, vem:
nA X
nN
1 X
S(xA , xN )
AU C = W =
nA nN 1 1
(2-12)
que é uma estatı́stica que não depende dos valores de x, mas apenas das
graduações, designada como estatı́stica de Wilcoxon-Mann-Whitney [10].
Como cada comparação é classificada por 1, 1/2 ou 0, o valor médio
de W estará entre 0 e 1, e reflete, como não poderia deixar de ser, qual a
proporção de x0A s que são maiores que xN .
Como nem todas as nA nN comparações são independentes, incluir
todas é mera conveniência, e o erro padrão de W tem em conta esta possı́vel
intercorrelação [10]. Assim, a probabilidade de atribuir uma classificação
correta é igual à média ponderada de todas as combinações de pares de
classificações possı́veis.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
62
As áreas das curvas ROC de dois ou mais procedimentos (métodos) são
freqüentemente utilizadas para comparação e determinação de qual deles é
mais preciso no diagnóstico. Essa comparação tem como objetivo verificar se
existe diferença significativa entre as curvas, ou seja, entre os procedimentos.
O método proposto por Hanley e McNeil [11] para determinar a
diferença (comparação) entre as curvas utiliza o valor crı́tico de z:
A 1 − A2
z=p
SE12
+ SE22 − 2rSE1 SE2
(2-13)
onde A1 e SE1 referem-se a área observada e o erro padrão estimado da
curva ROC do procedimento 1; A2 e SE2 referem-se a área observada e
o erro padrão estimado da curva ROC do procedimento 2; e r representa
correlação estimada entre A1 e A2 .
O valor de z é então verificado na tabela da distribuição normal, e o
valor de z acima de algum limiar, por exemplo z ≥ 1.96, é uma evidência que
as áreas das curvas ROC são diferentes (p < 0.05). Desta forma, a hipótese
nula de que não há diferença entre as áreas das curvas não é satisfeita.
2.6
Resumo
A Seção 2.1 deu uma visão geral de alguns conceitos importantes para
a análise de uma imagem médica, como a aquisição da imagem, formas
de tratamento de imagens em Computação Gráfica, o padrão DICOM e a
técnica de interpolação linear.
Na Seção 2.2 foi dada uma visão geral do Nódulo Pulmonar Solitário
(NPS) e foi mostrada a importância de se identificar e diagnosticar esses
nódulos precocemente, para aumentar a chance de cura do paciente.
Também foram abordados aspectos de textura e forma dos NPS que ajudam
os médicos a diagnosticá-los como benignos ou malignos.
Na Seção 2.3, foram estudadas duas técnicas de classificação que
determinarão a benignidade ou malignidade do NPS. A primeira técnica
é chamada Análise Discriminante Linear de Fisher – ALDF. Para esta
técnica foi apresentada a teoria básica para análise, aprendizagem e
classificação entre dois grupos, como considerações iniciais para utilizar
a ADLF, testes estatı́sticos necessários para as considerações a serem
atendidas e a função discriminante de Fisher. A segunda técnica chamase Rede Neural Perceptron de Múltiplas Camadas – MLP. Para a MLP foi
apresentado o algoritmo de treinamento mais utilizado, retropropagação,
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
63
além da utilização da rede após o treinamento e suas limitações. Em seguida,
foi feita uma breve comparação entre MLP e ADLF, mostrando aspectos
similares entre ambas. Para finalizar, foi descrito um procedimento passo a
passo que visa selecionar as medidas mais significativas para fazerem parte
da Análise Discriminante Linear de Fisher e da Rede Neural Perceptron de
Múltiplas Camadas.
Depois, na Seção 2.4, foi descrita uma técnica de validação do modelo,
chamada deixa um de fora, que avalia mais realisticamente os modelos
encontrados.
Por último, na Seção 2.5, foi abordada a Curva ROC (Receiver
Operating Characteristic), que é uma técnica freqüentemente utilizada por
médicos para avaliação de diagnósticos e algoritmos. Foi mostrado como se
determina esta curva, assim como a importância da sua área (AUC ) para
a comparação entre diversos diagnósticos.
3
Métodos Computacionais para Análise do NPS
Os métodos apresentados neste capı́tulo analisam os NPS em 3D com
uma geometria bem ou mal definida, com calcificação ou sem calcificação,
em estado inicial ou avançado de evolução. Desta forma, os métodos
propostos poderão obter mais informações sobre o nódulo, talvez não
observadas pelos médicos, que resultará em uma segunda opinião para o
diagnóstico dos NPS.
Os métodos propostos são divididos em grupos conforme suas funções.
Os Grupos I e II analisam o nódulo somente em relação à textura, sendo
que o Grupo I corresponde a métodos bastante conhecidos na literatura
que foram adaptados para 3D e o Grupo II fornece todo o potencial das
funções geoestatı́sticas na análise de textura para o diagnóstico do nódulo.
O Grupo III trata somente de métodos que analisam a geometria do nódulo,
isto é, verificam se a forma do nódulo é espiculada ou bem comportada. E o
Grupo IV aborda medidas que analisam o nódulo pelos aspectos de textura e
geometria. Neste grupo encontram-se os métodos combinados baseados nas
duas caracterı́sticas a fim de se obter mais informações. A Tabela 3.1 resume
os grupos de medidas a serem abordados e suas respectivas caracterı́sticas.
Grupo
I
II
III
IV
Caracterı́sticas
Textura - Clássica
Textura - Geoestatı́stica
Geometria
Textura e Geometria
Tabela 3.1: Grupos de medidas estudados e suas caracterı́sticas.
Como podem haver dados volumétricos em vários protocolos de
aquisição, com diferentes distribuições das fatias, foi aplicado uma
reamostragem (Seção 2.1.4) nos volumes, na direção z, de modo a tornar
os voxels cúbicos (mesma dimensão x, y e z). Esta reamostragem é
importante para que os volumes sejam percorridos isotropicamente, em
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
65
todas as direções, durante a obtenção das caracterı́sticas discriminantes dos
NPS.
3.1
Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos)
– Grupo I
O NPS possui uma estrutura de tecido muito complexa. Podem existir
nódulos com alterações de densidade quase imperceptı́veis pelo olho humano
e outras visı́veis com grande nitidez. A variação do tecido do nódulo
e, conseqüentemente, a observação do médico pela TC auxiliam no seu
diagnóstico. Por exemplo, se na TC forem identificadas áreas com coeficiente
de atenuação alto (> 200 UH), isso pode ser uma indicação de benignidade.
Já áreas de necrose (células mortas), com coeficiente de atenuação baixo,
podem sugerir malignidade. Entretanto, por causa da qualidade da imagem,
ou até mesmo pela constituição do tecido do nódulo, alguns detalhes
passam despercebidos pelos médicos, o que pode levar a procedimentos
desnecessários. Assim sendo, nesta seção e na próxima (Seção 3.2) serão
analisadas caracterı́sticas de textura 3D, em forma de medidas, para a
classificação dos NPS como benignos ou malignos.
O Grupo I relaciona alguns métodos comumente utilizados na
literatura de processamento de imagens, geralmente em 2D, e que neste
trabalho foram adaptados para obter as informações do nódulo em 3D.
3.1.1
Histograma
O histograma é freqüentemente utilizado para melhoramento,
segmentação e identificação de objetos em imagens 2D e 3D, como descrito
nos trabalhos de [41], [16], [22], [36], [23], [85], [86] e [42]. Neste trabalho
foi calculado o histograma do NPS, em sua estrutura 3D, e foram extraı́das
diversas medidas que podem determinar mudanças na variação do tecido.
A análise da textura através do histograma é comumente chamada de
Estatı́stica de nı́veis de cinza de primeira ordem (First-order gray level
statistics), pois trabalha com um único voxel de cada vez.
O histograma do número de nı́veis de cinza fornece a freqüência hi
de cada nı́vel. Se N é o número total de voxels e G é o número de nı́veis
G−1
P
de cinza então
hi = N . O histograma normalizado Hi com Hi = hNi é a
i=0
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
66
função de densidade de probabilidade. As medidas extraı́das do histograma
para análise de malignidade e benignidade do nódulo foram:
1. Média (MED) – Mede a média de coeficiente de atenuação no NPS.
G−1
P
É definida por:
iHi .
i=0
2. Desvio Padrãos(DVP) – Mede a função de dispersão sobre a média. É
G−1
P
(i − M ED)2 Hi .
definido por:
i=0
3. Simetria (SIM) – Mede se a distribuição nos voxels está
concentrada à esquerda ou à direita da média. É definida por:
G−1
2
P
1
(i − M ED)3 Hi , onde S é a variância.
S3
i=0
4. Curtose (CUR) – Mede o grau de achatamento das
distribuições em relação à distribuição normal. É definida por:
G−1
P
1
(i − M ED)4 Hi − 3, onde S é a variância.
S4
i=0
5. Energia (ENE) – Mede a não uniformidade do NPS. Quanto mais não
G−1
P 2
uniforme for o NPS, maior será a energia. É definida por:
Hi .
i=0
6. Entropia (ENT) – Mede a não uniformidade do NPS. Quanto
mais uniforme for o NPS, menor será a entropia. É definida por:
G−1
P
−
Hi log(Hi ).
i=0
7. Contraste (CNT) – Mede a quantidade de variação local no NPS. É
alta quando a região local tem um alto contraste na escala espacial.
G−1
P 2
É definido por:
i Hi .
i=0
8. Números de coeficientes de atenuação ≥ 200 UH (NCMAI): Se
existirem áreas extensas no nódulo com coeficientes de atenuação
acima 200 UH, isso significa que o NPS tem grande probabilidade
de ser benigno. Caso contrário, o diagnóstico é incerto e é necessário
utilizar outro método para diagnosticar [72] e [75].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
67
3.1.2
Método de Dependência Espacial de Nı́veis de Cinza – SGLDM
O Método de Dependência Espacial de Nı́veis de Cinza – SGLDM
(Spatial Gray Level Dependence Method )1 é uma técnica de análise de
textura que tem sido freqüentemente utilizada para a segmentação e
identificação de imagens 2D [41], [16], [22], [36],[37], [58] e [1]. É também
muito aplicado na área médica, como por exemplo no trabalho de
Freeborough e Fox [49], que detectaram doenças de Alzheimer, e McnittGray et al [59] e [58], que utilizaram o SGLDM para diagnosticar NPS.
Em geral, as aplicações envolvem a extração automática de caracterı́sticas
da imagem, que são usadas para uma variedade de tarefas de classificação,
como distinguir um tecido normal de um anormal.
O SGLDM é a tabulação da freqüência na qual diferentes combinações
de valores de pixel ocorrem na imagem. A matriz resultante do SGLDM
contém informações sobre a posição dos pixels com valores similares de nı́veis
de cinza [1]. As medidas baseadas no SGLDM são comumente chamadas de
Estatı́stica de nı́veis de cinza de segunda ordem (Second-order gray level
statistics), pois trabalham com dois voxels de cada vez.
Na matriz do SGLDM, o número de linhas e colunas é igual ao
número de nı́veis de cinza na imagem. O elemento da matriz M (i, j|d, θ)
é a freqüência relativa com que dois pixels, separados por uma distância
d(∆x, ∆y) e um ângulo θ ocorrem na sua vizinhança, com intensidades i e
j. A Figura 3.1 exemplifica a aplicação do SGLDM em uma imagem 2D.
A Figura 3.1(a) é uma imagem 2D e a Figura 3.1(b) é matriz de SGLDM
para d = 1 e θ = 0◦ . O par de pixels 1-2 na imagem 2D aparece duas vezes
na interseção da coluna 2 e da linha 1 da matriz de SGLDM, indicando a
quantidade de vezes que este par de pixels aparece na imagem 2D.
3.1(a): Pixels
Imagem em 2D
da 3.1(b): SGLDM para
d = 1 e θ = 0◦
Figura 3.1: Exemplo de SGLDM em Imagem 2D.
1
Esse método é também chamado de matriz de co-ocorrência.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
68
Como a imagem tratada é em 3D, é necessário verificar todas as
vizinhanças de um determinado voxel em todas as dimensões. Silva et al [98]
mostraram que o algoritmo abaixo dá bons resultados para diagnosticar
NPS. A Figura 3.2 ilustra este algoritmo para d = 1, descrito por:
1. Os 26 vizinhos de um voxel especı́fico são percorridos a uma distância
d e o número de ocorrências dos pares de nı́veis de cinza é acumulado
em uma única matriz do SGLDM (ou histograma do GLDM).
2. A matriz (ou histograma) é normalizada dividindo-a pelo número total
de pares encontrados.
Figura 3.2: Algoritmo do SGLDM (ou GLDM).
Como as dimensões do SGLDM (ou GLRLM ou GLDM) são
dependentes dos valores dos nı́veis de cinza da imagem, a matriz pode
se tornar muito grande. Com isso, a matriz de SGLDM (ou GLRLM ou
GLDM) ocupa muito espaço em memória, fica muito sensı́vel a ruı́dos e
pode ficar muito esparsa. Desta forma, é necessário fazer uma quantização,
reduzindo assim os nı́veis de cinza da imagem. Neste trabalho foi utilizada
a Equação 3-1 para quantizar o volume.
Oi,j,k = L
Ii,j,k − min
max − min
(3-1)
onde Oi,j,k representa o novo voxel na localização i, j, k no volume
quantizado, Ii,j,k representa o voxel no volume original da TC de 12 bits
na mesma localização, e L é o nı́vel de cinza que se deseja quantizar. As
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
69
variáveis min e max são o voxel de menor e maior valor detectado no volume
original, respectivamente.
Com base na matriz de SGLDM, Haralick et al. [1] determinaram
13 medidas. Entretanto, Ohanian e Dubes [24] mostraram que apenas um
pequeno grupo de medidas é suficiente para caracterizar a textura:
1. Contraste (CONg) – Texturas com baixo contraste tendem a ter
valores menores que as de alto contraste, para as quais a variação
do nı́vel de cinza é maior e mais provável. É definido por:
G−1
P G−1
P
Mi,j (i − j)2
i=0 j=0
onde M é matriz de SGLDM, e i e j são a linha e a coluna dessa
matriz, respectivamente.
2. Homogeneidade (HOMg) – Mede o quanto a imagem está homogênea.
O valor da homogeneidade cresce quanto menor for o contraste do
G−1
P G−1
P Mi,j
NPS. É definida por:
1+(i−j)2
i=0 j=0
3. Segundo Momento Angular (SMAg) – É indicador da uniformidade ou
suavidade. Texturas homogêneas terão um alto valor de energia em
comparação com texturas não homogêneas, em função das texturas
suaves possuı́rem densidades mais concentradas que as texturas
rugosas. Texturas rugosas têm densidades com alta variância. É
G−1
P G−1
P 2
definido por:
Mi,j .
i=0 j=0
4. Entropia (ENTg) – É um indicador da quantidade de desorganização
G−1
P G−1
P
entre os voxels da imagem. É definida por: −
Mi,j log(Mi,j ).
i=0 j=0
5. Variância (VARg) – É um indicador da variação da tonalidade de
2
G−1
P G−1
P
fundo da imagem. É definida por:
(i − µ) Mi,j , onde µ é a
i=0 j=0
média.
6. Correlação (CORg) – A correlação mede a dependência linear de
um nı́vel de cinza em relação aos seus vizinhos, e é expressa
por uma equação de regressão. Uma correlação alta significa alta
possibilidade de proximidade
entre os voxels. É definida por:
G−1
P G−1
P
(i−µ )(j−µ )
−
Mi,j q i2 2 j , onde µ é a média e σ é o desvio padrão.
(σi )(σj )
i=0 j=0
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
70
3.1.3
Método de Diferença de Nı́veis de Cinza - GLDM
O Método de Diferença de Nı́veis de Cinza - GLDM (Gray Level
Difference Method ) é uma técnica de análise de textura baseada na diferença
entre pares de pixels da imagem. O histograma resultante (H(θ, d)),
de tamanho igual ao número de nı́veis de cinza da imagem, indica a
probabilidade p(k), baseando-se em dois pontos a uma distância d e uma
direção θ. A diferença k é a posição no nı́vel de cinza do histograma [12].
As medidas baseadas no GLDM também são comumente chamadas
de Estatı́stica de nı́veis de cinza de segunda ordem (Second-order gray level
statistics), pois trabalham com dois voxels de cada vez.
A Figura 3.3 exemplifica a GLDM em uma imagem 2D. A
Figura 3.3(a) é uma imagem 2D e a Figura 3.3(b) mostra o histograma
de GLDM para d = 1 e θ = 0◦ . Por exemplo, a coluna 1 do histograma do
GLDM corresponde a todos os pares de pixels na imagem em 2D que têm
diferença igual a 1 e aparece quatro vezes, pois somente os valores dos pares
de pixels 1-2 e 3-4 na imagem 2D têm essa diferença.
3.3(a): Pixels
Imagem em 2D
da 3.3(b): GLDM para
d = 1 e θ = 0◦
Figura 3.3: Exemplo de GLDM em Imagem 2D.
O algoritmo em 3D deste método é semelhante ao SGLDM, mas
utilizando-se o histograma (1D) ao invés da matriz (2D).
As medidas estatı́sticas extraı́das também são as mesmas utilizadas
no SGLDM, mas são baseadas no histograma e não em uma matriz:
1. Contraste (CONd):
G−1
P
Hk k 2
k=0
2. Homogeneidade (HOMd):
G−1
P
k=0
1
H
1+k2 k
3. Segundo Momento Angular (SMAd):
G−1
P
k=0
4. Entropia (ENTd): −
G−1
P
k=0
Hk log Hk
Hk2
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
71
5. Variância (VARd):
G−1
P
(i − µ)2 Hk
i=0
G−1
P
6. Correlação (CORd):
kHk −µ
k=0
σ
3.1.4
Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM
O método de extração de caracterı́sticas por run length é similar ao
esquema do SGLDM. O objetivo é também extrair caracterı́sticas descritivas
de texturas a partir de matrizes auxiliares, computadas a partir da imagem
digital original (em nı́veis de cinza). Tais matrizes são denominadas de
Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM (Gray
Level Run Length Matrices) [5], [17] e [50]. Uma primitiva run length é um
conjunto colinear maximal de pixels conectados contendo todos o mesmo
nı́vel de cinza. Tais primitivas podem ser caracterizados basicamente pelo
seu comprimento, sua inclinação e o seu nı́vel de cinza.
As medidas baseadas no GLRLM são comumente chamadas de
Estatı́stica de nı́veis de cinza de alta ordem (High-order gray level statistics),
pois trabalham com vários voxels de cada vez.
As matrizes são do tipo Mθ (a, r), onde θ é o ângulo de inclinação
das primitivas e cada elemento (a, r) indica o número de vezes que uma
primitiva de nı́vel de cinza a e comprimento r ocorre dentro da imagem.
Geralmente várias matrizes são computadas para diversos ângulos, sendo
que os mais utilizados são : θ = 0◦ , 45◦ , 90◦ , 135◦ e simétricos. A dimensão
das matrizes é dada por L x Nr onde L é o número de nı́veis de cinza da
imagem e Nr é o número de comprimentos distintos de primitivas.
A Figura 3.4 exemplifica a GLRLM em uma imagem 2D. A
Figura 3.4(a) é uma imagem 2D, a Figura 3.4(b) é matriz de GLRLM para
θ = 0◦ e a Figura 3.4(c) é matriz de GLRLM para θ = 90◦ . Por exemplo,
a seqüência (primitiva) de três pixels com valor 2 na imagem 2D aparece
duas vezes na interseção da coluna 3 e da linha 2 na matriz de GLRLM,
indicando a quantidade de vezes que esta primitiva aparece na imagem 2D.
A Figura 3.5 ilustra o algoritmo para construir a matriz, com d = 1,
que é definido por:
1. Para cada fatia é criada uma matriz do GLRLM. Esta matriz possui
o número de repetições (primitivas) dos nı́veis de cinza na direção θ e
a uma distância d.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
72
3.4(a): Pixels
Imagem em 2D
da 3.4(b): GLRLM para 3.4(c): GLRLM para
θ = 0◦
θ = 90◦
Figura 3.4: Exemplo de GLRLM em Imagem 2D.
2. A matriz do GLRLM para o volume é a soma de todas as matrizes
dos GLRLMs de cada fatia.
3. Finalmente, a matriz é normalizada dividindo-a pelo número de
repetições encontradas.
Figura 3.5: Algoritmo do GLRLM.
As medidas estatı́sticas extraı́das são baseadas em uma matriz (2D):
1. Ênfase em primitivas longas (Long-run emphasis - (LRE)) – Enfatiza
as primitivas longas. Um valor alto significa grandes quantidades de
primitivas longas com o mesmo coeficiente de atenuação. É definida
L P
Nr
P
por: K1
M (a, r)r2 , onde M é a matriz, a é o nı́vel de cinza, r é
a=1 r=1
a primitiva, e K é o número total de primitivas na matriz.
2. Ênfase em primitivas curtas (Short-run emphasis - (SRE)) – Enfatiza
as primitivas curtas do NPS. Um valor alto significa grandes
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
73
quantidades de primitivas curtas com o mesmo coeficiente de
L P
Nr
P
M (a,r)
atenuação. É definida por: K1
r2
a=1 r=1
3. Uniformidade do nı́vel de cinza (Gray level distribuition - (GLD))
– Mede a não uniformidade do coeficiente de atenuação do NPS.
A função obtém seus valores mais baixos quando as primitivas
estão igualmente distribuı́das ao longo dos coeficientes de atenuação.
Primitivas longas contribuem mais para a função. É definida por:
N
2
L
P
Pr
1
2
M (a, r)r
K
a=1
r=1
4. Uniformidade do comprimento da primitiva (Run lenght distribuition
- (RLD)) – Mede a não uniformidade das primitivas. Se as primitivas
são igualmente distribuı́das ao longo do seu comprimento, a função
terá valores baixos. Primitivas longas contribuem mais para a função.
L
2
Nr
P
P
1
2
M (a, r)r
É definida por: K
a=1
r=1
5. Percentagem de primitiva (Run percentage - (RP)) – É a razão do
número total de primitivas pelo número total de primitivas possı́veis.
Deve ter valores baixos para NPS com estrutura muito linear. É
L P
Nr
P
K
M (a, r)
definida por: mn
, onde K =
a=1 r=1
3.2
Análise do Nódulo Pulmonar
Geoestatı́sticas) – Grupo II
Baseada
em
Textura
(Funções
Esta seção trata de quatro funções geoestatı́sticas - semivariograma,
semimadograma, covariograma e correlograma - aplicadas nos NPS para
determinar uma “assinatura” para sugerir seus diagnósticos. A grande
vantagem destas funções é que as caracterı́sticas de variabilidade e
correlação espacial são analisadas em conjunto. Estas funções sumarizam
a associação entre a função de distância e uma possı́vel direção.
Maiores detalhes sobre estas funções podem ser encontrados
em [9], [27], [7].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
74
3.2.1
Semivariograma
A semivariância mede o grau de dependência espacial entre as
amostras (voxels do NPS). A magnitude da semivariância entre os pontos
depende da distância entre eles. Uma distância pequena produz uma
variância pequena, e uma distância grande, produz uma variância grande.
O gráfico da semivariância, como uma função de distância de um ponto, é
chamado semivariograma.
O semivariograma (e também as outras funções geoestatı́sticas
estudadas a seguir) tem três principais caracterı́sticas: patamar (sill ),
alcance (range) e efeito pepita (nugget). A Figura 3.6 ilustra essas
caracterı́sticas.
Figura 3.6: Semivariograma e suas caracterı́sticas: patamar, alcance e efeito
pepita.
Num semivariograma todos os possı́veis pares de observações (voxels)
são examinados. Quando a distância entre os pares é zero, o valor de cada
ponto é comparado com ele próprio, logo as diferenças são zero e o valor da
semivariância também é zero. Se a distância é pequena, os pontos a serem
comparados são muitos semelhantes e estão relacionados entre si, pelo que o
valor é reduzido (efeito pepita). À medida que aumenta a distância entre os
pontos a serem comparados, maior será a semivariância, até que, a partir de
uma determinada distância (alcance), a semivariância se estabiliza em um
valor (patamar) que é igual à variância dos dados da amostra considerada,
significando que não existe qualquer relação entre os pares de observações
considerados e esta distância.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
75
O semivariograma é definido por:
N (h)
1 X
γ(h) =
(xi − yi )2
2N (h) i=1
(3-2)
onde h é o vetor distância (lag distance) entre os valores de origens, yi , e os
valores das extremidades, xi , e N(h) é o número de pares na distância h. O
vetor distância é exemplificado na Figura 3.7.
Figura 3.7: Definição do vetor distância.
Para calcular o semivariograma experimental (sem ajuste dos valores
através de modelos matemáticos) direcional em 3D, dois ângulos são usados
para definir a direção do vetor: o azimute (azimuth) e o ângulo de inclinação
com o plano da superfı́cie da Terra (dip). Para definir a rotação de um
vetor, será assumido que um vetor não rotacionado inicia na direção +y.
O ângulo do azimute é o primeiro ângulo de rotação e representa uma
rotação no sentido horário no plano horizontal do eixo +y. O ângulo do
dip é o segundo ângulo de rotação e representa uma rotação para baixo do
vetor de um plano horizontal. Os outros parâmetros usados para calcular
o semivariograma, como incremento do lag (lag spacing), tolerância do lag
(lag tolerance), direção (direction), tolerância angular (angular tolerance),
e largura máxima de banda (maximum bandwidth) são ilustrados em 2D
na Figura 3.8. A largura de banda se refere a um valor de ajuste a partir
do qual se restringe o número de pares de observações para o cálculo do
semivariograma.
3.2.2
Semimadograma
O semimadograma é a média da diferença absoluta medida nos pares
da amostra, como uma função de distância e direção. A função é definida
por:
N (h)
1 X
|xi − yi |
(3-3)
m(h) =
2N (h) i=1
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
76
Figura 3.8: Parâmetros utilizados para cálculo do semivariograma (2D).
onde h é o vetor distância (lag distance) entre os valores das origens, yi , e
os valores das extremidades, xi , e N(h) é o número de pares na distância h.
3.2.3
Covariograma
A função de covariância (covariograma) é uma medida estatı́stica de
correlação entre duas variáveis. Em Geoestatı́stica, a covariância é calculada
como a variância da amostra menos o valor do variograma. A função de
covariância tende a ser alta quando h=0 (isto é, a função de correlação é
1), e tende para zero para pontos que são separados por distâncias grandes
ou iguais ao limite (isto é, não correlacionado). O covariograma é definido
por:
N (h)
1 X
C(h) =
xi yi − m−h m+h
(3-4)
N (h) i=1
onde m−h é a média dos valores das origens dos vetores,
m−h
N (h)
1 X
=
xi
N (h) i=1
(3-5)
e m+h é a média dos valores das extremidades dos vetores,
m+h
N (h)
1 X
yi
=
N (h) i=1
(3-6)
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
77
3.2.4
Correlograma
A função de correlação (correlograma) é a versão normalizada da
função de covariância e os coeficientes de correlação estão na faixa de -1
a 1. Espera-se que a correlação seja alta para unidades que estão próximas
umas das outra (correlação = 1 para distância zero) e que tenda a zero
quando a distância entre as unidades aumenta. A correlação é definida por:
ρ(h) =
C(h)
σ−h σ+h
(3-7)
onde σ−h é o desvio padrão dos valores das origens dos vetores,

σ−h = 
1
N (h)
N (h)
X
 12
x2i − m2−h 
(3-8)
i=1
e σ+h é o desvio padrão dos valores das extremidades dos vetores,

σ+h = 
N (h)
 12
1 X 2
xi − m2+h 
N (h) i=1
(3-9)
3.3
Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III
Como descrito na Seção 2.2, a forma do NPS é um forte indı́cio de
sua malignidade ou benignidade. Assim, esta seção trata das caracterı́sticas
geométricas 3D para a classificação do NPS. Com estas caracterı́sticas
é possı́vel extrair medidas e analisar mais detalhadamente informações
identificadas ou não identificadas pelos médicos. As medidas devem ser
idealmente invariantes para mudanças de parâmetros de volume, tamanho
do voxel, orientação e espessura da fatia.
As medidas foram baseadas em uma superfı́cie reconstruı́da em 3D
pelo algoritmo de Marching Cubes [13] e suavizada pelo algoritmo do
operador Laplaciano [87] e [91]. As Figuras 3.9(a) e (b) mostram a aplicação
do algoritmo de Marching Cubes, e da técnica Laplaciana, respectivamente.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
78
Figura 3.9: (a) Aplicação do Marching Cubes. (b) Aplicação da técnica
Laplaciana.
3.3.1
Convexidade
A convexidade (CON ) é uma medida comumente utilizada como
forma de “assinatura” de objetos em 2D [41], [16], [22] e [36], e em 3D [65].
A convexidade para o NPS serve para medir o quanto este é espiculado e se
possui forma bem ou mal definida. Quanto mais convexo for o NPS, mais
próximo de 1 será o seu valor. A convexidade é definida por:
CON =
A(B)
A(HB )
(3-10)
onde A(B) é a área da superfı́cie do nódulo e A(HB ) é área da superfı́cie do
seu fecho convexo.
3.3.2
Esfericidade
A forma de um NPS “perfeito” seria uma esfera “perfeita”. Assim, a
esfericidade (ESF ) tem por finalidade medir o comportamento do NPS em
relação à esfera. Quanto mais esférico for o nódulo, mais próximo de 1 será
o seu valor. A esfericidade é definida por:
√
6 πV
ESF =
A3/2
(3-11)
onde V e A são o volume e a área da superfı́cie do nódulo, respectivamente.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
79
3.3.3
Medidas baseadas na Curvatura
A curvatura é uma “assinatura” de geometria muito utilizada em
processamento de imagem e visão computacional [22], [51], [41], [86] e [16].
Nesta seção serão extraı́das várias medidas baseadas na curvatura para
caracterizar o NPS .
Os ı́ndices de curvatura Intrı́nseca (Gaussiana) e Extrı́nseca (Média),
explicados a seguir, foram utilizados por [43] e [65] para medir a geometria
da superfı́cie cortical. Nesta tese esses ı́ndices são utilizados para analisar
e associar a presença de curvatura intrı́nseca e extrı́nseca aos NPS.
Maiores detalhes sobre curvaturas intrı́nseca e extrı́nseca, e outras medidas
estudadas aqui, como a curvedness e tipos de curvatura podem ser
encontrados em [18], [20], [52] e [53].
Índice de Curvatura Intrı́nseca
O Índice de Curvatura Intrı́nseca (ICI) é calculado integrando todas
as regiões de curvatura intrı́nseca positiva e dividindo por 4π (integral da
curvatura intrı́nseca para uma esfera perfeita de qualquer tamanho). O ICI
é calculado no modo contı́nuo por [43]:
1
ICI =
4π
Z Z
|kmax kmin | dA
(3-12)
se (kmin kmax > 0) ou |kmin kmax | = 0, onde kmin e kmax são as curvaturas
mı́nima e máxima, respectivamente.
Para o modo discreto, o ICI é calculado por [65]:
P
ICI =
K + Af
f aces
4π
(3-13)
onde K + = KV , se KV > 0 ou se K + = 0, e Af é a área da face de cada
triângulo. KV é a medida de curvatura intrı́nsica em um vértice V , definida
P
por KV = 2π−NV αi , onde αi são os ângulos dos triângulos para um vértice,
e NV é o número de triângulos se encontrando em um vértice.
O ICI captura quanto de curvatura intrı́nsica o nódulo possue.
Qualquer depressão ou saliência na superfı́cie com a forma de metade de
uma esfera incrementa o ICI, independentemente do seu tamanho. Em
resumo, o ICI conta o número de regiões que têm forma semelhante à
depressão ou saliência na superfı́cie que está sendo considerada.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
80
Índice de Curvatura Extrı́nseca
O Índice de Curvatura Extrı́nseca (ICE) é calculado integrando o
produto da curvatura máxima e a diferença entre a curvatura máxima
e mı́nima, e dividindo por 4π (integral para um cilindro, em que o
comprimento é igual ao seu diâmetro). O ICE é calculado por [43]:
1
ICE =
4π
Z Z
|kmax | (|kmax | − |kmin |)dA
(3-14)
No modo discreto, o ICE pode ser definido por [65]:
ICE =
1 X
|kmax | |kmax − kmin |Af
4π f aces
(3-15)
onde kmin e kmax são as curvaturas mı́nima e máxima, respectivamente, e
Af é a área da face do triângulo.
O ICE captura quanto de curvatura extrı́nsica o nódulo possue.
Qualquer elevação ou sulco tendo a forma de metade de um cilindro
incrementa o ICE na proporção do seu comprimento. Em resumo, o ICE
conta o número e o comprimento (relativo ao seu diâmetro) de cume ou
sulco semicilı́ndricos na superfı́cie.
Tipos de superfı́cies
As curvaturas intrı́nseca ou gaussiana (K) e extrı́nseca ou média (H),
ou as curvaturas máxima e mı́nima são utilizadas para classificar uma
superfı́cie em 8 tipos básicos: peak (K > 0 e H < 0), pit (K > 0 e
H > 0), ridge (K = 0 e H < 0), flat (K = 0 e H = 0), valley (K = 0
e H > 0), saddle valley (K < 0 e H > 0), minimal (K < 0 e H = 0),
saddle ridge (K < 0 e H < 0). A Figura 3.10 ilustra essa classificação.
Com base nesta classificação, procuramos determinar medidas que possam
ser assinaturas dos NPS. Algumas destas medidas já foram utilizadas por
Kawata et al. [44] e [46] para a classificação de NPS e os resultados foram
promissores. No trabalho deles as medidas foram extraı́das diretamente dos
valores de intensidade dos voxels, e nesta tese será utilizada a superfı́cie
extraı́da.
Na prática, é difı́cil determinar valores que sejam exatamente iguais
a zero, devido à precisão numérica [44]. Portanto, as medidas selecionadas
foram peak, pit, saddle ridge e saddle valley.
As medidas determinadas foram:
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
81
Figura 3.10: Tipos de superfı́cie baseados na curvatura.
1. Freqüência de cada tipo de superfı́cie: A medida indica a freqüência
relativa de cada tipo de superfı́cie no nódulo, onde QPK é a freqüência
de peak, QPI é a freqüência de pit, QSR é a freqüência de saddle ridge,
e QSV é a freqüência de saddle valley.
2. Índice da área de cada tipo de superfı́cie: Para cada tipo de superfı́cie,
a área é calculada e dividida pela área total do NPS. Assim, IAPK
é o ı́ndice da área de peak, IAPI é o ı́ndice da área de pit, IASR é o
ı́ndice da área de saddle ridge, e IASV é o ı́ndice da área de saddle
valley.
3. Média de curvedness em cada tipo de superfı́cie: A curvedness é um
número positivo que mede a quantidade ou a intensidade
de curvatura
q
na superfı́cie [18] e [20], e é definida por c =
2 +k 2
kmin
max
.
2
A medida é baseada na curvedness e nos tipos de superfı́cies. Para
cada tipo de superfı́cie, a média de curvedness é determinada usando
a curvedness de cada tipo de superfı́cie dividida pelo número de
curvedness de cada tipo. CPK é a média de curvedness para peak,
CPI é a média de curvedness para pit, CSR é a média de curvedness
para saddle ridge), e CSV é a média de curvedness para saddle valley.
3.4
Análise do Nódulo Pulmonar Baseada em Textura e na Geometria –
Grupo IV
Como foi citado na Seção 2.2, os médicos analisam o NPS através
da textura e da geometria, e será mostrado no Capı́tulo 4 que essas
caracterı́sticas são complementares no diagnóstico do nódulo. Nesta seção
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
82
serão abordados dois métodos, coeficiente de Gini e esqueleto do nódulo,
nos quais de alguma forma já estão embutidas estas duas caracterı́sticas.
3.4.1
Coeficiente de Gini
O estudo da desigualdade/concentração de um determinado atributo
na população tem sido uma preocupação constante nos últimos anos. Os
trabalhos pioneiros, no domı́nio da economia, se referem à desigualdade
da distribuição de renda, mas muitas das metodologias desenvolvidas
para analisar esta importante questão foram generalizadas para múltiplos
fenômenos, no domı́nio da economia ou fora dele [30]. Exemplos clássicos
deste tipo de generalização são os estudos da distribuição de riqueza [76],
produção [54], saúde [99], educação [92], da menor ou maior concentração
de clientes em uma empresa [55], etc.
Com base nestas preocupações, muitas medidas de concentração
foram propostas, como o ı́ndice de Herfindahl-Hirschiman, o coeficiente de
entropia de Theil e o coeficiente de Gini [47]. Entretanto, esta tese trata
apenas da curva de Lorenz e do coeficiente de Gini aplicados aos NPS.
Estes métodos serão utilizados para verificar o grau de concentração das
densidades altas dos voxels (calcificação) nos NPS. Desta forma, quando
um nódulo tiver calcificações (provavelmente em casos benignos), terá uma
maior concentração e, se o nódulo não tiver calcificações (provavelmente em
casos malignos), existirá pouca ou nenhuma concentração.
Curva de Lorenz
A curva de Lorenz é uma representação gráfica da proporcionalidade
de uma distribuição (a percentagem acumulada dos valores). Para construir
a curva de Lorenz, todos os elementos da distribuição devem ser ordenados
do mais importante para o menos importante. Assim, cada elemento é
“plotado” de acordo com sua percentagem acumulada de p e q, sendo q
a percentagem acumulada dos elementos. O cálculo de p e q é definido por:
pi =
i
n
i
P
qi =
j=1
n
P
j=1
(3-16)
Xj
(3-17)
Xj
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
83
onde i = 1, 2, 3, ..., n, n é o número de voxels e X é a densidade de cada
voxel de ordem j.
A curva de Lorenz é comparada com a linha de perfeita igualdade, que
corresponde ao caso em que cada elemento (voxel ) tem o mesmo valor na
população (nódulo). Neste caso, qi = pi = ni . Como conseqüência, a linha de
perfeita igualdade forma um ângulo de 45◦ com o eixo horizontal. O outro
extremo é representado pela linha de perfeita desigualdade, que representa
a distribuição na qual um elemento tem a percentagem total acumulada dos
atributos enquanto outro não tem nada. A Figura 3.11 exemplifica a curva
de Lorenz.
Figura 3.11: Exemplo da curva de Lorenz e coeficiente de Gini (A/(A + B)).
O coeficiente de Gini é graficamente definido como uma taxa de duas
superfı́cies, envolvendo a soma das áreas entre a curva de Lorenz e a linha
de perfeita igualdade (A), dividido pela diferença entre as linhas de perfeita
igualdade e desigualdade (A+B).
Coeficiente de Gini
O coeficiente de Gini foi desenvolvido para medir o grau de
variabilidade de concentração (desigualdade) na distribuição dos elementos
(voxels). Ele compara a curva de Lorenz de uma distribuição empı́rica
ordenada com a linha de perfeita igualdade. A faixa dos valores do
coeficiente de Gini está entre 0, significando sem concentração (perfeita
igualdade), e 1, significando que existe total concentração (perfeita
desigualdade). A Equação 3-18 define o coeficiente de Gini:
n−1
P
G=
n−1
P
(pi − qi )
i=1
n−1
P
i=1
=1−
pi
i=1
n−1
P
i=1
qi
(3-18)
pi
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
84
Divisão do NPS em Regiões
Com o propósito de fazer uma análise mais pontual e precisa da
concentração dos voxels no NPS, os nódulos foram divididos em regiões.
Assim, o coeficiente de Gini é calculado para cada região.
As regiões foram determinadas por meio de uma codificação dos voxels
do nódulo. A codificação se dá por um processo de propagação, semelhante à
evolução de uma frente em chamas que avança sobre uma região coberta de
grama. A operação de propagação de voxels usando a métrica “nf −na −nv ”
pode ser descrita da seguinte forma: primeiro todos os voxels do nódulo são
codificados com um valor infinito, em seguida todos os voxels do conjunto
V0 são codificados com o valor zero (borda ou inı́cio da propagação). A
todos os vizinhos dos voxels V0 por faces é associado o valor nf , a todos os
vizinhos por arestas é associado o valor na e a todos os vizinhos por vértices
é associado o valor nv . Durante a propagação, todos os voxels com um
determinado código n são processados ao mesmo tempo. Assim, se voxels
com valor n são processados aos seus vizinhos por face, por aresta e por
vértice são associados os valores n+nf , n+na e n+nv , respectivamente, caso
estes valores sejam menores do que os valores correntes dos voxels vizinhos.
Este processo de codificação continua até que sejam atingidas as condições
de parada. Maiores detalhes sobre o processo de propagação podem ser
encontrados em [77] e [78].
Neste trabalho, foi utilizada a métrica “1-2-3” para a codificação de
voxels. Foram utilizadas seis regiões para o cálculo do coeficiente de Gini:
duas mais externas, duas mais centrais e duas mais internas. Este critério
foi adotado devido à grande quantidade de regiões em cada nódulo para
analisar, devido à necessidade de padronização dos nódulos com tamanhos
variados, e porque a localização das concentrações (calcificações) é de grande
importância no diagnóstico. A Figura 3.12 exemplifica a codificação gerada
para uma fatia de um nódulo (2D) e as seis regiões definidas (linhas
contı́nuas).
3.4.2
Medidas baseadas no esqueleto do NPS
A esqueletização é uma ferramenta conveniente para obter uma
representação simplificada de uma forma que preserva muitas informações
topológicas [22]. Um esqueleto captura o eixo de simetria local e é, portanto,
centrado na imagem. Em análise de imagens, as caracterı́sticas extraı́das
do esqueleto são comumente usadas em algoritmos de reconhecimento de
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
85
Figura 3.12: Codificação de voxels de uma fatia do NPS (2D).
padrões [66]. Os esqueletos contêm informações sobre as caracterı́sticas da
forma, que são muito importantes no contexto deste trabalho.
No processo de esqueletização em 3D foi utilizado o algoritmo de Zhou
e Toga [67]. Eles propuseram um algoritmo de codificação de voxels muito
eficiente para fazer esqueletos de objetos volumétricos. O algoritmo calcula
o esqueleto através de dois códigos. Um é o código Boundary Seeded (BS),
que coincide com a transformada da distância tradicional para indicar a
distância mı́nima à borda do objeto. O segundo código é chamado de Single
Seeded (SS), e indica a distância para um ponto de referência especı́fico.
Estes caminhos são representados pelo conjunto seqüencial de voxels que
comporão o esqueleto inicial. A idéia chave da codificação dos voxels é
usar o código SS para gerar linhas (esqueleto) conectadas e o código BS
para assegurar a centralização do esqueleto final. Os esqueletos gerados são
formados por seqüências de voxels que representam curvas e não superfı́cies
do nódulo. Outras informações podem ser obtidas em [77].
Os dois elementos básicos do esqueleto utilizados neste trabalho são o
segmento e a ramificação (nó). O segmento é um subconjunto do esqueleto
formado por um conjunto de voxels conectados. A interseção de dois
segmentos ou é vazia ou é formada por um único voxel, o que define uma
ramificação.
Medidas Extraı́das
Foram extraı́das oito medidas baseadas no esqueleto para analisar os
NPS:
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
86
1. Número de Segmentos (NS)
2. Número de Ramificações (NR)
3. Fração do Volume (FV): A FV é definida por:
FV =
v
V
(3-19)
onde v é o volume do esqueleto e V é o volume do nódulo.
4. Comprimento dos Segmentos (CS):
L
CS = √
3
V
(3-20)
onde L é a soma dos comprimentos de todos os segmentos e V é o
volume do nódulo.
5. Volume do Fecho Convexo (VFC) do esqueleto.
6. Razão de Segmentos por volume (NSVFC): Razão entre o número de
segmentos e o volume do fecho convexo [66]
N SV F C =
NS
V FC
(3-21)
7. Coeficiente de Variação (CV): O CV é uma medida de dispersão
relativa e é dado por
σ
(3-22)
CV =
µ
onde σ é o desvio padrão e µ é a média dos N segmentos mais longos
do esqueleto. O valor de N é baseado no esqueleto que tem o menor
número de segmentos na amostra estudada. O coeficiente de variação
não é dimensionável e é independente de escala. Um valor alto de CV
indica alta variabilidade nos segmentos do esqueleto.
8. Momentos do histograma (variância (M2 ), simetria (M3 ) e curtose
(M4 )) dos N segmentos mais longos no esqueleto. O valor de N é
baseado no esqueleto que tem o menor número de segmentos na
amostra estudada. Os três momentos do histograma são extraı́dos de
cada segmento do esqueleto e são definidos por:
P
Mn =
(xi − µ)n fi
N
(3-23)
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
87
onde n = 2, 3, 4 , µ é média, N é um número de voxels no segmento,
e fi é o histograma.
Informações mais detalhadas sobre a teoria de momento podem ser
encontradas em [51].
3.5
Resumo
Os métodos propostos neste trabalho, para caracterizar os NPS foram
baseados nas suas caracterı́sticas de textura e geometria. Desta forma, foram
adaptados e criados métodos que pudessem extrair da melhor forma possı́vel
estas caracterı́sticas, para que a discriminação entre nódulos benignos e
malignos fosse mais eficiente.
Com esse objetivo, os métodos foram divididos em grupos conforme
suas caracterı́sticas para facilitar a análise do NPS:
Grupo I (Seção 3.1) - tratou dos métodos comuns na literatura de
processamento de imagens, como Histograma, Método de Dependência
Espacial de Nı́veis de Cinza (SGLDM), Método de Diferença de Nı́veis
de Cinza (GLDM), e Método de Comprimento de Primitivas de Nı́veis
de Cinza (GLRLM). Todos os métodos deste grupo foram adaptados
para atender à caracterı́stica 3D do NPS.
Grupo II (Seção 3.2) - ainda tratou apenas da textura do NPS,
utilizando quatro funções geoestatı́sticas para a sua caracterização.
As funções foram: semivariograma, semimadograma, covariograma e
correlograma. Em Geoestatı́stica, essas funções são utilizadas para
analisar terrenos em 2D e 3D, portanto a análise do nódulo em 3D é
uma aplicação natural.
Grupo III (Seção 3.3) - descreveu apenas medidas baseadas na
geometria do nódulo. Foram analisadas medidas que obtêm
caracterı́sticas globais e medidas baseadas na curvatura. Essas
medidas extraem informações essenciais para caracterizar o nódulo
em 3D.
Grupo IV (Seção 3.4) - foram analisados dois métodos que levam em
consideração tanto a geometria quanto a textura do nódulo: o
coeficiente de Gini e esqueleto do nódulo. O coeficiente de Gini foi
calculado para seis regiões distintas, determinadas pela codificação de
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
88
voxels. Com base no esqueleto foram extraı́das mais oito medidas de
geometria e textura.
A Tabela 3.2 resume todas as medidas dos quatro grupos de métodos
estudados.
Grupo Objetivo
Método
Medidas
Histograma
Média (MED), Desvio Padrão
(DVP), Simetria (SIM), Curtose
(CUR), Energia (ENE), Entropia
(ENT), Contraste (CNT), Números
de coeficientes de atenuação > 200
UH (NCMAI) e números de
coeficientes de atenuação < 200
UH (NCMEN).
Contraste (CONg), Homogeneidade
(HOMg), Segundo Momento Angular
(SMAg), Entropia (ENTg), Variância
(VARg) e Correlação (CORg).
Contraste (CONd), Homogeneidade
(HOMd),
Segundo
Momento
Angular (SMAd), Entropia (ENTd),
Variância (VARd) e Correlação
(CORd).
Ênfase em primitivas longas (LRE),
Ênfase
em
primitivas
curtas
(SRE), Uniformidade do nı́vel
de cinza (GLD), Uniformidade do
comprimento da primitiva (RLD),
Percentagem de primitiva (RP).
SGLDM
I
Textura
GLDM
GLRLM
II
Textura
Semivariograma
Semimadograma
Covariograma
Correlograma
4
4
4
4
medidas
medidas
medidas
medidas
para
para
para
para
cada
cada
cada
cada
direção.
direção.
direção.
direção.
continua na próxima página
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
89
Tabela 3.2: (continuação)
Grupo Objetivo
III
IV
Método
Medidas
Geometria —
Textura e
Geometria
Coeficiente
Gini
Esqueleto
Convexidade (CON), Esfericidade
(ESF),
Índice
de
Curvatura
Intrı́nseca (ICI), Índice de Curvatura
Extrı́nseca (ICE), Freqüência de peak
(QPK), Freqüência de pit (QPI),
Freqüência de saddle ridge (QSR),
Freqüência de saddle valley (QSV),
Índice da área de peak (IAPK),
Índice da área de pit (IAPI), Índice
da área de saddle ridge (IASR),
Índice da área de saddle valley
(IASV), Média curvedness para peak
(CPK), Média de curvedness para
pit (CPI), Média de curvedness para
saddle ridge (CSR), e Média de
curvedness para saddle valley (CSV).
de
6 coeficientes para cada região
especı́fica.
Número de Segmentos (NS), Número
de Ramificações (NR), Fração do
Volume (FV), Comprimento dos
Segmentos (CS), Volume do Fecho
Convexo (VFC) do esqueleto, Razão
de Segmentos por volume (NSVFC),
Coeficiente de Variação (CV),
Momentos do histograma (variância,
simetria, e curtose).
Tabela 3.2: Resumo dos métodos e das medidas
propostas.
As contribuições deste trabalho em relação às medidas propostas
foram:
Grupo I - a adaptação de métodos SGLDM, GLDM e GLRLM,
geralmente usados em 2D, para caracterizar o nódulo em 3D.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
90
Grupo II - as funções semivariograma, semimadograma, covariograma e
correlograma que são amplamente utilizadas em Geoestatı́stica, aqui
serviram para analisar o NPS.
Grupo III - a utilização de medidas desenvolvidas para outras aplicações
para caracterizar o nódulo.
Grupo IV - a utilização do coeficiente de Gini, um ı́ndice de concentração
geralmente utilizado em Economia e Geografia, para a análise da
geometria e textura do nódulo. O esqueleto do nódulo serviu de base
para extrair medidas de geometria e textura, como coeficiente de
variação, variância, simetria e curtose.
4
Testes e Resultados
Este capı́tulo analisa cada método proposto e suas combinações em
grupos para diagnosticar os NPS. Primeiro, serão detalhados todos os
procedimentos iniciais básicos para aquisição e segmentação dos nódulos, e
serão descritos os software e hardware utilizados no desenvolvimento deste
trabalho. Além disso, serão feitas análises de todos os métodos propostos
e, como conseqüência, serão determinados quais os métodos que melhor
discriminam os nódulos malignos dos benignos.
4.1
Metodologia
Esta seção descreve os procedimentos utilizados durante os testes dos
métodos propostos. Serão descritos o protocolo de aquisição dos nódulos,
as caracterı́sticas da amostra estudada, os software e hardware utilizados
durante a aquisição das medidas e na classificação, e os parâmetros para a
utilização dos métodos.
4.1.1
Protocolo de Aquisição dos NPS
Os pacientes foram examinados pela equipe do Dr. Rodolfo
Acatauassú Nunes, no setor de Cirurgia Torácica da Faculdade de Ciências
Médicas da Universidade do Estado do Rio de Janeiro. Depois que os
procedimentos médicos foram realizados, os pacientes foram encaminhados
para fazer o exame no Instituto Fernandes Figueira - Fundação Oswaldo
Cruz (FIOCRUZ), aos cuidados da Dra. Márcia Boechat. Todos os pacientes
deram autorização para que seus exames fizessem parte da pesquisa.
As imagens foram adquiridas em uma TC Helicoidal GE pro Speed,
sob as seguintes condições: voltagem do tubo de 120 kVp, corrente do
tubo de 100 mA, tamanho da imagem de 512×512 pixels, e voxel com
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
92
tamanho de 0.67×0.67×1.0 mm. As imagens foram quantizadas em 12 bits
e armazenadas no padrão DICOM.
4.1.2
Amostra dos NPS
Os testes descritos neste trabalho foram efetuados em uma amostra
com 36 NPS, sendo 29 benignos e 7 malignos. É importante salientar
que todos os NPS foram diagnosticados por médicos especialistas. Os
procedimentos adotados por eles para a confirmação do diagnóstico foram:
– Através da imagem. Alguns NPS examinados puderam ser
diagnosticados através da imagem, pois suas caracterı́sticas eram
visı́veis e bem descritas na literatura médica.
– Através da intervenção cirúrgica e exame patológico. Alguns NPS
também tinham caracterı́sticas visı́veis na imagem, mas o possı́vel
diagnóstico sugeria malignidade. Portanto, foi realizada a extração
cirúrgica e posteriormente o exame patológico para a confirmação do
diagnóstico.
– Através da evolução. Nessa amostra existem alguns NPS nos quais não
foi possı́vel identificar malignidade ou benignidade através dos exames
iniciais. O procedimento adotado foi observar seu comportamento
(evolução) num perı́odo mı́nimo de 2 anos. Desta forma, os NPS que
não aumentaram (ou até reduziram de tamanho) foram considerados
como benignos. Os NPS para os quais mesmo depois deste perı́odo de
observação não houve confirmação do diagnóstico não fazem parte da
amostra.
Em resumo, a amostra possui NPS com diagnósticos confirmados
utilizando os três procedimentos citados.
O pequeno tamanho da amostra e a sua desproporção (mais nódulos
benignos do que malignos) podem ser explicados, respectivamente, pelo
tempo de espera da evolução do nódulo e pelo fato de que no Brasil existem
mais pessoas portadoras de nódulo benignos, principalmente tuberculoma,
do que malignos.
Não houve nenhum critério especı́fico para a escolha dos nódulos
da amostra. A amostra tem NPS com tamanhos e formas variadas, com
caracterı́sticas homogênea e heterogênea, e em estágio inicial e avançado.
Todos os exames foram de pacientes diferentes.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
93
4.1.3
Segmentação do NPS
Na maioria dos casos, o nódulo pulmonar é de fácil detecção visual
pelos médicos, já que possui forma e localização que se destacam das outras
estruturas pulmonares. Entretanto, a densidade do voxel se assemelha à
de outras estruturas, como vasos sanguı́neos, o que dificulta uma detecção
automática através do computador. Isto ocorre principalmente quando o
nódulo está situado adjacente à pleura. Por estas razões, é utilizado o
algoritmo de região de crescimento 3D por agregação de voxel [86], que
permite que os médicos tenham maior interatividade e controle sobre a
segmentação e determinação dos parâmetros (limiares inicial e final, fatia e
semente) necessários.
Dois outros recursos auxiliares possibilitam um maior controle sobre a
segmentação são a barreira e a borracha. A barreira é um cilindro colocado
em volta do nódulo pelo médico, que tem por objetivo limitar a região
de interesse e impedir que a segmentação por agregação de voxel invada
outras estruturas do pulmão. A Figura A.5 exemplifica o recurso da barreira.
A borracha, por sua vez, é um recurso que possibilita ao médico apagar
estruturas indesejadas antes ou depois da segmentação, visando evitar e
corrigir erros durante a segmentação [93].
4.1.4
Software e Hardware Utilizados
Para que os médicos tivessem condições de analisar, visualizar em 2D
e 3D, segmentar e filtrar os NPS, foi desenvolvido um software denominado
“Sistema de Análise de Nódulo Pulmonar – SANP” [93]. O SANP foi
implementado em C++, utilizando as bibliotecas IUP [100] para interface,
IM [101] para manipulação de imagens em 2D, e CD [102] para desenho,
desenvolvidas pelo Laboratório Tecgraf/PUC-Rio, e compilado com o Visual
C++ da Microsoft. Maiores detalhes sobre os recursos disponı́veis no SANP
podem ser encontrados no Apêndice A.
O freeware eFilm [103] foi utilizado para obter as imagens da estação
da TC para o computador de trabalho. O freeware GSLIB [25] foi utilizado
para calcular as funções geoestatı́sticas. O software comercial estatı́stico
SPSS (Statistical Package for the Social Sciences) [104] foi utilizado para
selecionar as medidas, determinar a ALDF e classificar os NPS. O software
comercial NeuralPower [105] foi utilizado para determinar e treinar a Rede
Neural MLP e classificar os NPS. O freeware ROCKIT [106] foi utilizado
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
94
para calcular e comparar as áreas das curvas ROC. O computador utilizado
para os testes foi um Pentium 800 MHz, com 128 Mb de RAM e HD com
20 Gb.
4.1.5
Parâmetros dos Métodos Estudados para os Testes
Nesta seção serão definidos os parâmetros e as especificações
necessários para realizar os testes dos métodos estudados.
Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos)
– Grupo I
Um grande problema com os métodos SGLDM, GLDM e GLRLM é
que a escolha da direção e distância dos vizinhos do voxel, bem como do nı́vel
de quantização, é arbitrária [58]. Neste trabalho, para os métodos SGLDM
e GLDM, foram adotados os 26 vizinhos do voxel, a uma distância de 1, 2 e
3 voxels. Para o método GLRLM foram utilizados os oito vizinhos (0◦ , 45◦ ,
90◦ , 135◦ e simétricos) do voxel, a uma distância de 1 voxel. Os três métodos
usaram uma quantização de 8, 16, 32, 64 e 256 nı́veis de cinza. Desta forma,
para o método SGLDM foram analisadas 6 medidas × 3 distâncias × 5
nı́veis de cinza, totalizando 90 medidas. O mesmo número de medidas foi
analisada para o método GLDM. Para o método GLRLM foram analisadas
5 medidas × 1 distância × 5 nı́veis de cinza, totalizando 25 medidas. Em
resumo, para o Grupo I foram analisadas 215 medidas no total, incluindo
as 10 do histograma.
A identificação das medidas para o Grupo I, exceto as do histograma,
tem o seguinte significado: 1) os três primeiros caracteres significam a sigla
da medida; 2) o caractere seguinte significa o método utilizado, sendo g para
SGLDM e d para GLDM (o método GLRLM não possui esse caractere);
3) os três próximos dı́gitos significam o nı́vel de quantização; e 4) o último
dı́gito significa a distância (o método GLRLM não possui esse dı́gito). Para
exemplificar essa notação, os dı́gitos da medida CORg0163 significam:
COR = correlograma, g = SGLDM, 016 = 16 nı́veis de cinza, e 3 =
distância entre os voxels.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
95
Análise do Nódulo Pulmonar
Geoestatı́sticas) – Grupo II
Baseada
em
Textura
(Funções
No teste com as funções geoestatı́sticas, o modelo analı́tico [7] não
foi necessário, pois foram utilizados somente os valores experimentais.
As medidas extraı́das, consideradas como as assinaturas de texturas,
foram obtidas computando as funções de semivariograma, semimadograma,
covariograma e correlograma com os seguintes parâmetros: dip (Z): 0◦ ,−45◦
e −90◦ , e para cada dip os azimutes (X e Y) considerados foram 0◦ , 45◦ , 90◦ e
135◦ . A distância de separação entre os lags, a tolerância angular (azimute e
dip) e a tolerância do lag foram 1 mm, ±22.5◦ e ±0.5 mm, respectivamente.
O número máximo de lags depende da dimensão de cada volume (nódulo).
Foram selecionados apenas os três primeiros e o último valor de γ(h),
m(h), C(h) e ρ(h) em uma direção especı́fica para cada função. Este valores
foram selecionados porque existe um grande interesse em verificar pequenas
variações do tecido do nódulo em pequenas distâncias, mas sem rejeitar as
informações de distâncias maiores. Desta forma, foram extraı́das 48 medidas
(3 dips × 4 azimutes × 4 valores para cada função estudada (γ(h), m(h),
C(h) e ρ(h))), totalizando 192 medidas.
A identificação das medidas para o Grupo II tem o seguinte significado:
1) a letra inicial corresponde à função geoestatı́stica (v = semivariograma, m
= semimadograma, r = correlograma, c = covariograma); 2) os três dı́gitos
seguintes significam o azimute; 3) os dois próximos significam o dip; e 4) os
dois últimos significam os quatro valores de γ(h), m(h), C(h) ou ρ(h). Para
exemplificar essa notação, os dı́gitos da medida v0450003 significam: v =
variograma, 045 = 45◦ de azimute, 00 = 0◦ de dip, e 03 = valor de γ(h).
Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III
Foram analisadas um total 16 medidas para o Grupo III.
Análise do Nódulo Pulmonar Baseada em Textura e na Geometria –
Grupo IV
Coeficiente de Gini
Como citado anteriormente, o coeficiente de Gini é calculado para apenas
seis regiões do nódulo, sendo duas mais externas, duas mais centrais e
duas mais internas. Desta forma, foram calculados seis coeficientes de Gini
(medidas) para cada nódulo. As medidas são denominadas por GINI 1 e
GINI 2 para as regiões mais externas, GINI 3 e GINI 4 para as regiões
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
96
mais centrais, e GINI 5 e GINI 6 para as regiões mais internas do nódulo.
Medidas do Esqueleto
Duas medidas extraı́das do esqueleto, coeficiente de variação e momentos
do histograma, dependem do nódulo que têm o esqueleto com o menor
número de segmentos na amostra estudada. Na amostra estudada o menor
esqueleto tem dois segmentos. Desta forma, foram extraı́das duas medidas
para o coeficiente de variação e seis (2 segmentos × 3 medidas) para os
momentos do histograma. Assim, o total de medidas extraı́das foi de 14.
A denominação para as medidas do coeficiente de variação são CV1
e CV2, para o primeiro maior segmento do nódulo e para o segundo
maior segmento do nódulo, respectivamente. As medidas para os momentos
do histograma denominam-se MOM21, MOM31 e MOM41 para o três
momentos do primeiro maior segmento do nódulo, e MOM22, MOM32 e
MOM42 para os três momentos do segundo maior segmento do nódulo.
Em resumo, para o Grupo IV foram analisadas 20 medidas (6 do
coeficiente Gini e 14 do esqueleto).
4.2
Exemplo da Aplicação dos Métodos Estudados
Esta seção exemplifica as aplicações dos métodos propostos com
objetivo de diagnosticar os NPS, para que se possa observar o potencial
de cada método na discriminação dos nódulos entre benignos e malignos.
As Figuras 4.1 e 4.2 servirão de base para exemplificar didaticamente
a aplicação dos métodos baseados em textura e geometria, respectivamente.
Figura 4.1: Exemplos de NPS benignos ((a) e (b)) e malignos ((c) e (d)).
4.2.1
Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos)
– Grupo I
As Figuras 4.3(a), (b), (c) e (d) exemplificam a aplicação do
histograma nos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
97
Figura 4.2: Exemplos de NPS benignos ((a), (b), (c) e (d)) e malignos ((e),
(f), (g)).
Como se pode observar, o histograma da Figura 4.3(a), que corresponde
ao nódulo benigno com grande área calcificada, possui densidades acima
de 200 UH (caracterı́stica de benignidade). O histograma da Figura 4.3(b)
também é de um nódulo benigno, mas com menor área calcificada, possuindo
algumas densidades acima de 0 UH. Porém, os dois histogramas das
Figuras 4.3(c) e (d), que correspondem aos nódulos malignos, só possuem
densidades negativas. Isto ocorre pelo fato de que os nódulos malignos
geralmente não são calcificados. Os histogramas dos nódulos benignos
possuem uma variação de ocorrências relativamente alta em relação aos
histogramas dos nódulos malignos. Nestes, existe um grande número de
voxels com densidades altas, enquanto nos demais voxels as densidades estão
distribuı́das mais uniformemente.
Para exemplificar os métodos SGLDM, GLDM e GLRLM, os nódulos
foram quantizados em 64 nı́veis de cinza, e as matrizes e o histograma foram
gerados a uma distância igual a 1. Estes parâmetros foram escolhidos pelo
fato de que, em todos os métodos, pelo menos uma variável selecionada
(Seção 4.3.1) possui essas caracterı́sticas.
As Figuras 4.4(a), (b), (c) e (d) correspondem às matrizes de SGLDM
aplicadas aos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente.
Analisando os gráficos das matrizes, observa-se que nos nódulos malignos
as ocorrências das transições entre as densidades estão mais concentradas
próximas à origem, enquanto que nos nódulos benignos há mais ocorrências
que se afastam da origem. Isto reforça a conclusão dos histogramas da
Figura 4.3 de que a variação de densidades nos nódulos benignos é maior
do que nos nódulos malignos, ou seja, estes possuem uma menor variação
das densidades, uma vez que nas matrizes dos nódulos benignos os valores
estão mais espalhados, enquanto nas matrizes dos nódulos malignos estão
mais próximos.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
98
Figura 4.3: Histograma aplicado no exemplo da Figura 4.1.
Figura 4.4: SGLDM aplicado no exemplo da Figura 4.1.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
99
As Figuras 4.5(a), (b), (c) e (d) correspondem aos histogramas
de GLDM aplicados aos nódulos das Figuras 4.1(a), (b), (c) e (d),
respectivamente. Analisando os gráficos dos histogramas, também é possı́vel
observar que existe menor variação das densidades nos nódulos malignos
do que nos nódulos benignos. É possı́vel verificar essa caracterı́stica nos
histogramas, analisando como as diferenças entre os pares de voxels estão
distribuı́das. Nesse exemplo, nos histogramas dos nódulos benignos, ocorrem
variações acima do valor 5, enquanto nos histogramas dos nódulos malignos
todas as variações ocorrem praticamente entre 0 e 5.
Figura 4.5: GLDM aplicado no exemplo da Figura 4.1.
As Figuras 4.6(a), (b), (c) e (d) correspondem às matrizes de GLRLM
aplicadas aos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente.
Analisando os gráficos das matrizes, observa-se que nos nódulos benignos
há mais blocos de voxels com determinada primitiva, concentrando uma
determinada densidade, enquanto nos nódulos malignos há uma menor
quantidade de primitivas. Isto reforça a idéia de que existe menor variação
das densidades nos nódulos malignos que nos nódulos benignos.
Maiores detalhes sobre o potencial para diagnosticar os NPS de cada
um desses métodos individualmente podem ser encontrados em [98].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
100
Figura 4.6: GLRLM aplicado no exemplo da Figura 4.1.
4.2.2
Análise do Nódulo Pulmonar
Geoestatı́sticas) – Grupo II
Baseada
em
Textura
(Funções
A Figura 4.7 mostra a aplicação do semivariograma experimental para
os nódulos representados pelas Figuras 4.1(a),(b),(c) e (d). Com base neste
gráfico, foi observado que os nódulos benignos têm um patamar maior que o
dos nódulos malignos, e que a inclinação da curva dos benignos é muito mais
acentuada. O gráfico mostra também a presença de uma maior dispersão
nos nódulos benignos do que nos malignos.
As Figuras 4.8 e 4.9 exemplificam, respectivamente, a aplicação da
função de semivariograma para o nódulo benigno (Figura 4.1(a)) e o nódulo
maligno (Figura 4.1(d)). As curvas dos gráficos significam a variância
calculada nas 12 direções definidas na Seção 4.1.5, relacionadas às várias
distâncias. A Figura 4.8 mostra que a distribuição espacial do nódulo
benigno é isotrópica, ou seja, as curvas do semivariograma são muito
similares. Neste caso, é necessário somente um modelo (uma curva) para
representar a distribuição espacial para o nódulos benignos. O mesmo fato
ocorre na Figura 4.9 que exemplifica o nódulo maligno.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
101
Figura 4.7: Semivariograma aplicado no exemplo da Figura 4.1.
Figura 4.8: Semivariograma aplicado ao nódulo representado pela
Figura 4.1(a).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
102
Figura 4.9: Semivariograma aplicado ao nódulo representado pela
Figura 4.1(d).
Uma análise individual dessas funções na classificação de NPS foi
realizada em [107]. Outros estudos dessas funções, mas combinadas com
outros métodos, como o esqueleto e a geometria, para classificar os NPS
foram realizados em [108] e [110].
4.2.3
Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III
A Figura 4.10 mostra a aplicação de apenas 4 das 16 medidas
geométricas apresentadas na Seção 3.3 relacionadas à curvatura, para os
nódulos representados pelas Figuras 4.2(a), (d), (f) e (g). A análise foi
realizada em relação à freqüência de cada tipo de superfı́cie, denominada
QPK para peak, QPI para pit, QSR para saddle ridge, e QSV para
saddle valley. No gráfico, b1 e b2 são os nódulos benignos relacionados
às Figuras 4.2(a) e (d), e m1 e m2 são os nódulos malignos relacionados às
Figuras 4.2(f) e (g).
Como se pode observar no gráfico, o maior número de ocorrências
corresponde ao nódulo maligno m1, seguido pelo nódulo maligno m2, depois
pelo nódulo benigno b2, e por último pelo nódulo benigno b1. Este fato é
explicado pela maior quantidade de ramificações (curvaturas) apresentadas
nos nódulos malignos. Neste exemplo, as medidas analisadas separaram
corretamente os nódulos malignos dos benignos.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
103
Figura 4.10: Medidas de Geometria aplicadas no exemplo da Figura 4.2.
Maiores detalhes sobre a eficiência das medidas geométricas propostas
no diagnóstico de NPS podem ser encontrados em [94] e [109].
4.2.4
Análise do Nódulo Pulmonar Baseada em Textura e na Geometria –
Grupo IV
Coeficiente de Gini
A Figura 4.11 mostra a curva de Lorenz e o coeficiente de Gini para os
nódulos representados pelas Figuras 4.1(a), (b), (c) e (d). Neste exemplo, o
coeficiente de Gini foi calculado somente para região mais externa de cada
nódulo. É observado que os nódulos benignos com calcificações possuem
uma área maior no gráfico do que os nódulos malignos, já que os nódulos
benignos possuem maiores áreas de concentração (calcificação). O nódulo
benigno (Figura 4.1(a)), que possui uma área maior com calcificação, tem
um coeficiente de Gini com o maior valor, e o outro nódulo benigno
(Figura 4.1(b)), que também tem calcificação mas numa área menor,
tem um coeficiente Gini com um valor bem menor. Os nódulos malignos
(Figura 4.1(c) e (d)) possuem os valores do coeficiente de Gini muito baixos,
pois suas densidades são melhor distribuı́das.
É importante salientar que existem nódulos benignos que também
não possuem calcificação, ou nódulos malignos que têm calcificação, logo
este método tem alguma probabilidade de não caracterizar corretamente os
nódulos.
A Figura 4.12 exemplifica a aplicação da curva de Lorenz e do
coeficiente de Gini para um nódulo com calcificação central (Figure 4.1(a)).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
104
Figura 4.11: Coeficiente de Gini aplicado ao nódulo representado pela
Figura 4.1(a).
Nesse caso em particular, a região central do nódulo apresenta uma
concentração maior do que as outras regiões.
Figura 4.12: Curva de Lorenz e coeficiente de Gini aplicados no exemplo da
Figura 4.1.
Medidas do Esqueleto
A Figura 4.13 mostra a aplicação do algoritmo de esqueleto nos nódulos das
Figuras 4.2(a), (d), (f) e (g), respectivamente. É fácil observar que os nódulos
malignos possuem um número maior de segmentos do que os benignos.
Maiores detalhes sobre o coeficiente de Gini e esqueleto no diagnóstico
de NPS podem ser encontrados em [111] e [110].
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
105
Figura 4.13: Aplicação do algoritmo de Zhou e Toga baseada nos nódulos
da Figura 4.2(a), (b), (c) e (d).
4.3
Classificação
Esta seção tem por objetivo analisar os grupos de métodos propostos
e sua combinação, através dos classificadores ALDF e MLP, para verificar
a eficiência dos grupos de métodos e dos classificadores no diagnóstico dos
NPS. A técnica deixa um de fora é utilizada para a validação do modelo
determinado pelos classificadores, e a área da curva ROC é utilizada para
avaliar os resultados encontrados.
4.3.1
Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos)
– Grupo I
Com a utilização do procedimento de seleção de variáveis passo a
passo foram selecionadas 10 medidas do Grupo I para serem analisadas
pelo ALDF e MLP. As medidas selecionadas foram: CORg0082, CORg0163,
SMAg0641, VARg0641, ENTd0322, SMAd0641, SMAd2562, RLD016,
RP016 e GLD064. Os valores de α1 e α2 para a medida entrar e sair no
modelo foram, respectivamente, 1.0 e 0.5.
Analisando as medidas selecionadas, algumas considerações podem
ser feitas: 1) nenhuma medida do método do histograma foi selecionada,
isto demonstra que a análise que leva em conta a relação entre voxels é
mais significativa estatisticamente; 2) somente uma medida extraı́da dos
nódulos quantizada com 8 nı́veis de cinza foi selecionada isto se deve a que,
quanto menor o nı́vel de quantização, mais informações serão perdidas; e
3) somente uma medida extraı́da quantizada com 256 nı́veis de cinza foi
selecionada, isto pode ser explicado com uma análise mais detalhada do
método SGLDM demonstrada em [58]. Nesse trabalho, à medida que as
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
106
imagens foram quantizadas com mais nı́veis de cinza, mais esparsa ficava a
matriz gerada e, conseqüentemente, muitas informações significativas eram
perdidas.
A estrutura da MLP para este grupo é 10-7-1. O número de nós
da camada escondida foi determinado pelo software NeuralPower. Este
software utiliza a Equação 4-1 para determinar o número de nós na camada
escondida.
2
(4-1)
n = (nE + nS)
3
onde nE é número de entradas e nS é o número de saı́das. Os outros
parâmetros da rede neural MLP são: taxa de aprendizagem igual a 0.15,
momento igual a 0.75, o número de iterações (épocas) igual a 7000 e a
função de ativação é a tangente hiperbólica.
A Tabela 4.1 mostra os resultados dos diagnósticos do Grupo I
obtidos com ALDF e MLP. As Figuras 4.14 e 4.15 mostram como foi o
comportamento dos nódulos quando diagnosticados com ALDF e MLP.
Classificador
ALDF
MLP
% Acertos
AU C ± SE
Benigno
Maligno Precisão
89.7 (26/29) 71.4 (5/7)
86.1
0.842 ± 0.098
93.1 (27/29) 71.4 (5/7)
88.8
0.830 ± 0.101
Tabela 4.1: % de acertos usando a ALDF e MLP para o Grupo I.
Figura 4.14: Distribuição dos nódulos do Grupo I usando ALDF.
A Figura 4.16 visualiza as curvas ROC resultantes desses diagnósticos.
As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão
considerado bom (0.800 < AU C ≤ 0.900). Fazendo o teste de hipótese
para verificar se a diferença entre as áreas das curvas é significativa
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
107
Figura 4.15: Distribuição dos nódulos do Grupo I usando MLP.
estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que
p = 0.917.
Apesar dos trabalhos [59] e [58] utilizarem o método SGLDM no
diagnóstico do NPS, a comparação dos seus resultados com os encontrados
nesta tese é muito difı́cil. As amostras utilizadas nesta tese e nos dois
trabalhos são diferentes, e eles usaram apenas uma fatia na análise, enquanto
aqui foram utilizadas todas as fatias do nódulo.
4.3.2
Análise do Nódulo Pulmonar
Geoestatı́sticas) – Grupo II
Baseada
em
Textura
(Funções
O procedimento de seleção de variáveis passo a passo selecionou 7
medidas do Grupo II para serem analisadas pelo ALDF e MLP. As medidas
selecionadas foram: v0450004, v0904503, v0009002, r0000004, r0004504,
r0454504 e r1354501. Os valores de α1 e α2 para a medida entrar e sair
no modelo foram, respectivamente, 1.5 e 1.0.
Analisando as medidas selecionadas, algumas considerações podem ser
feitas: 1) nenhuma medida dos métodos de covariograma e semimadograma
foi selecionada - esses dois métodos são fracos estatisticamente, fato esse
demonstrado em [107]; 2) somente uma medida selecionada é relacionada
ao primeiro lag - isto contradiz um pouco a idéia de colocar mais lags
com distâncias menores para se obter mais detalhes; e 3) cinco medidas
selecionadas têm dip diferente de 0◦ , logo isso mostra que as caracterı́sticas
3D do nódulo são fundamentais para sua discriminação e classificação.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
108
Figura 4.16: Curva ROC do Grupo I utilizando a ALDF e MLP.
A estrutura da MLP para este grupo é 7-5-1. Os outros parâmetros da
rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a
0.75, o número de iterações igual a 5000 e a função de ativação é a tangente
hiperbólica.
A Tabela 4.2 mostra os resultados dos diagnósticos do Grupo II
obtidos com ALDF e MLP. As Figuras 4.17 e 4.18 mostram como foi o
comportamento dos nódulos quando diagnosticados com ALDF e MLP.
Classificador
ALDF
MLP
% Acertos
Benigno
Maligno
93.1 (27/29) 100.0 (7/7)
96.5 (28/29) 100.0 (7/7)
AU C ± SE
Precisão
94.4
1.000 ± 0.000
97.2
1.000 ± 0.000
Tabela 4.2: % de acertos usando a ALDF e MLP para o Grupo II.
A Figura 4.19 visualiza as curvas ROC resultantes desses diagnósticos.
As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão
considerado excelente (0.900 < AU C ≤ 1.000). Fazendo o teste de hipótese
para verificar se a diferença entre as áreas das curvas é significativa
estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que
p = 1.000.
4.3.3
Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III
O procedimento de seleção de variáveis passo a passo selecionou 5
medidas do Grupo III para serem analisadas pelo ALDF e MLP. As medidas
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
109
Figura 4.17: Distribuição dos nódulos do Grupo II usando ALDF.
Figura 4.18: Distribuição dos nódulos do Grupo II usando MLP.
Figura 4.19: Curva ROC do Grupo II utilizando a ALDF e MLP.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
110
selecionadas foram: ICE, QPK, QSR, QSV e CPI. Os valores de α1 e α2 para
a medida entrar e sair no modelo foram, respectivamente, 1.5 e 1.0.
Analisando as medidas selecionadas, observa-se que todas elas são
baseadas na curvatura, o que mostra um grande potencial da curvatura
para diferenciar nódulos malignos de benignos.
A estrutura da MLP para este grupo é 5-4-1. Os outros parâmetros da
rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a
0.75, o número de iterações igual a 5000 e a função de ativação é a tangente
hiperbólica.
A Tabela 4.3 mostra os resultados dos diagnósticos do Grupo III
obtidos com ALDF e MLP. As Figuras 4.20 e 4.21 mostram como foi o
comportamento dos nódulos quando diagnosticados com ALDF e MLP.
Classificador
ALDF
MLP
% Acertos
AU C ± SE
Benigno
Maligno Precisão
89.7 (26/29) 71.4 (5/7)
86.1
0.946 ± 0.061
89.7 (26/29) 85.7 (6/7)
88.8
0.906 ± 0.079
Tabela 4.3: % de acertos usando a ALDF e MLP para o Grupo III.
Figura 4.20: Distribuição dos nódulos do Grupo III usando ALDF.
A Figura 4.22 visualiza as curvas ROC resultantes desses diagnósticos.
As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão
considerado excelente (0.900 < AU C ≤ 1.000). Fazendo o teste de hipótese
para verificar se a diferença entre as áreas das curvas é significativa
estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que
p = 0.641.
Nesta seção são utilizadas algumas medidas baseadas nas curvaturas,
também utilizadas por [60], [45] e [46], mas novamente a comparação entre
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
111
Figura 4.21: Distribuição dos nódulos do Grupo III usando MLP.
Figura 4.22: Curva ROC do Grupo III utilizando a ALDF e MLP.
os trabalhos é muito difı́cil. Nesses trabalhos o cálculo da curvatura foi feito
utilizando o voxel, enquanto aqui foi utilizada a superfı́cie. Além disso, nesta
tese foram analisadas mais medidas que nos trabalhos citados e, por fim, as
amostras são diferentes.
4.3.4
Análise do Nódulo Pulmonar Baseada em Textura e na Geometria –
Grupo IV
O procedimento de seleção de variáveis passo a passo selecionou 4
medidas do Grupo IV para serem analisadas pelo ALDF e MLP. As medidas
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
112
selecionadas foram: NS, NR, CS e GINI 1. Os valores de α1 e α2 para a
medida entrar e sair no modelo foram, respectivamente, 1.5 e 1.0.
Analisando as medidas selecionadas, foi percebido que nenhuma das
medidas baseadas no esqueleto, que possuem a combinação de geometria e
textura, foi selecionada.
A estrutura da MLP para este grupo é 4-3-1. Os outros parâmetros da
rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a
0.75, o número de iterações igual a 4500 e a função de ativação é a tangente
hiperbólica.
A Tabela 4.4 mostra os resultados dos diagnósticos do Grupo IV
obtidos com ALDF e MLP. As Figuras 4.23 e 4.24 mostram como foi o
comportamento dos nódulos quando diagnosticados com ALDF e MLP.
Classificador
ALDF
MLP
% Acertos
AU C ± SE
Benigno
Maligno Precisão
93.1 (27/29) 57.1 (4/7)
86.1
0.746 ± 0.115
89.7 (26/29) 71.4 (5/7)
96.1
0.764 ± 0.113
Tabela 4.4: % de acertos usando a ALDF e MLP para o Grupo IV.
Figura 4.23: Distribuição dos nódulos do Grupo IV usando ALDF.
A Figura 4.25 visualiza as curvas ROC resultantes desses diagnósticos.
As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão
considerado regular (0.700 < AU C ≤ 8.000). Fazendo o teste de hipótese
para verificar se a diferença entre as áreas das curvas é significativa
estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que
p = 0.876.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
113
Figura 4.24: Distribuição dos nódulos do Grupo IV usando MLP.
Figura 4.25: Curva ROC do Grupo IV utilizando a ALDF e MLP.
4.3.5
Métodos combinados (Grupos I, II, III e IV)
A análise individual de todos os grupos de métodos, mostrou que todos
são eficientes na classificação dos NPS. Nesta seção todos esses métodos
serão combinados e analisados.
O número de medidas de todos os grupos combinados é igual a 442.
Utilizando o procedimento de seleção de variáveis passo a passo foram
selecionadas 6 medidas para serem analisadas pelo ALDF e MLP. As
medidas selecionadas foram: NR, v0450004, CS, RLD032, QSV e GINI 5.
Os valores de α1 e α2 para a medida entrar e sair no modelo foram,
respectivamente, 1.5 e 1.0.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
114
Analisando as medidas selecionadas, duas considerações podem ser
feitas: 1) foram selecionadas medidas de todos os grupos; e 2) somente uma
medida selecionada, GINI 5, não foi selecionada na análise individual dos
respectivos grupos.
A estrutura da MLP para este grupo é 6-5-1. Os outros parâmetros da
rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a
0.75, o número de iterações igual a 5000 e a função de ativação é a tangente
hiperbólica.
A Tabela 4.5 mostra os resultados dos diagnósticos dos Grupos
combinados obtidos com ALDF e MLP. As Figuras 4.26 e 4.27 mostram
como foi o comportamento dos nódulos quando diagnosticados com ALDF
e MLP.
Classificador
ALDF
MLP
% Acertos
Benigno
Maligno
100.0 (29/29) 85.7 (6/7)
100.0 (29/29) 100.0 (7/7)
AU C ± SE
Precisão
97.2
0.990 ± 0.027
100.0
1.000 ± 0.000
Tabela 4.5: % de acertos usando a ALDF e MLP para os Grupos
combinados.
Figura 4.26: Distribuição dos nódulos dos Grupos combinados usando
ALDF.
A Figura 4.28 visualiza as curvas ROC resultantes desses diagnósticos.
As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão
considerado excelente (0.900 < AU C ≤ 1.000). Fazendo o teste de hipótese
para verificar se a diferença entre as áreas das curvas é significativa
estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que
p = 0.714.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
115
Figura 4.27: Distribuição dos nódulos dos Grupos combinados usando MLP.
Figura 4.28: Curva ROC dos Grupos combinados utilizando a ALDF e MLP.
4.4
Conclusão
As Tabelas 4.1, 4.2, 4.3, 4.4 e 4.5 mostram que todos os grupos de
métodos tiveram mais de 80% de precisão nos diagnósticos dos NPS.
A Figura 4.29 compara as áreas de todas as curvas ROC dos grupos,
utilizando a ALDF e MLP. Analisando o gráfico, constatam-se os seguintes
fatos: 1) não houve grande predominância na classificação dos NPS de algum
classificador, isto é, a ALDF e MLP tiveram precisão no diagnóstico bem
semelhantes; 2) os Grupos II e III, e todos os Grupos combinados tiveram
precisão nos diagnósticos considerada excelente; 3) somente o Grupo IV teve
precisão considerada regular; e 4) o Grupo II, tanto com ALDF quanto com
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
116
MLP, e os grupos combinados, somente com MLP, tiveram a área da curva
ROC considerada perfeita (AU C = 1.000).
Figura 4.29: Comparação das áreas das curvas ROC de todos os grupos
analisados, utilizando a ALDF e MLP.
Observando-se os resultados das classificações, constata-se que o
nódulo 7 (maligno), mostrado na Figura 4.30, foi de difı́cil diagnóstico.
Ele foi diagnosticado erradamente no Grupo I, com MLP (Figura 4.15),
e no Grupo IV, com ALDF e MLP (Figuras 4.23 e 4.24). No entanto,
ambos os métodos de classificação aplicados a todos os Grupos combinados
(Figuras 4.26 e 4.27) o diagnosticaram corretamente.
4.30(a):
Imagem
em
2D do nódulo.
4.30(b):
Imagem
em
3D do nódulo.
Figura 4.30: Nódulo com difı́cil diagnóstico.
Um fator importante a salientar é que o tamanho e a desproporção
(mais nódulos benignos do que malignos) da amostra impede a obtenção de
estatı́sticas mais conclusivas e confiáveis sobre os resultados.
Outro fator importante a ser considerado é a seleção das medidas.
Existe a necessidade de se estudar outros procedimentos de seleção para
que se possa confirmar ou determinar medidas com melhor poder de
discriminação dos nódulos.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
117
4.5
Resumo
Este capı́tulo analisou cada método proposto e suas combinações em
grupos para diagnosticar os NPS. Primeiro, foram mostrados todos os
procedimentos iniciais básicos para aquisição e segmentação dos nódulos,
os software e hardware utilizados no desenvolvimento deste trabalho, e
os parâmetros necessários para a utilização dos métodos propostos e dos
programas utilizados. Foram feitas análises dos métodos propostos para
verificar a capacidade de cada um na discriminação dos nódulos. Por último,
cada grupo de métodos e sua combinação foram utilizados para analisar,
discriminar e classificar os nódulos da amostra, através da ALDF e MLP.
5
Conclusão
Neste trabalho foram propostos quatro grupos de métodos com o
objetivo de sugerir o diagnóstico para Nódulos Pulmonares Solitários. Os
grupos de métodos foram divididos de acordo com caracterı́sticas comuns.
O Grupo I tratou dos métodos comuns na literatura de processamento de
imagens, como Histograma, Método de Dependência Espacial de Nı́veis
de Cinza – SGLDM, Método de Diferença de Nı́veis de Cinza - GLDM,
e Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM.
Esses métodos foram adaptados para se obter as caracterı́sticas 3D do
nódulo. O Grupo II também tratou da textura dos nódulos, mas utiliza
quatro funções geoestatı́sticas para seu diagnóstico. As funções foram:
semivariograma, semimadograma, covariograma e correlograma. O Grupo
III descreveu apenas medidas baseadas na geometria do nódulo. Foram
analisadas medidas de convexidade, esfericidade, e medidas baseadas na
curvatura. Por fim, no Grupo IV, analisaram-se métodos que levam em
consideração tanto a geometria quanto a textura do nódulo: o coeficiente
de Gini e o esqueleto do nódulo. O coeficiente de Gini foi calculado para
seis regiões distintas determinadas pela codificação de voxels. Com base
no esqueleto, foram extraı́das mais oito medidas: número de segmentos,
número de ramificações, fração do volume, comprimento dos segmentos,
volume do fecho convexo, taxa entre o número de segmentos e o volume do
fecho convexo, coeficiente de variação e momentos do histograma.
Para sugerir o diagnóstico dos nódulos, foram estudadas duas técnicas
de classificação que determinaram a sua benignidade ou malignidade. A
primeira técnica é baseada nos métodos clássicos de estatı́stica, chamada
de Análise Discriminante Linear de Fisher. A segunda técnica realiza
discriminações não lineares e é chamada de Rede Neural Perceptron de
Múltiplas Camadas.
A avaliação dos grupos de métodos propostos e a combinação deles
mostraram que: 1) todos os grupos de métodos tiveram mais de 80% de
precisão nos diagnósticos dos NPS; 2) não houve grande predominância na
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
119
classificação dos NPS de algum classificador, isto é, a ALDF e MLP tiveram
precisão bem semelhante nos diagnósticos; 3) os Grupos II e III, e todos os
Grupos combinados tiveram precisão no diagnósticos considerada excelente;
4) somente o Grupo IV teve precisão considerada regular; 5) o Grupo II,
tanto com ALDF quanto com MLP, e os Grupos combinados, somente com
MLP, tiveram a área da curva ROC considerada perfeita (AU C = 1.000);
e 6) os Grupos combinados foi comprovadamente eficiente no diagnóstico
de NPS, portanto concluı́mos que este resultado está de acordo com a idéia
fundamental da tese, que é combinar medidas de textura e geometria como
forma de obter caracterı́sticas complementares para diagnosticar NPS.
A adaptação de métodos clássicos de textura em processamento de
imagens, como o Método de Dependência Espacial de Nı́veis de Cinza
– SGLDM, o Método de Diferença de Nı́veis de Cinza - GLDM, e o
Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM, para
caracterizar o nódulo em 3D, são comprovadamente eficientes em várias
aplicações de reconhecimento de padrões, e também demonstraram eficiência
na discriminação e classificação dos nódulos (0.800 < AU C ≤ 0.900).
As funções geoestatı́sticas estudadas, mais precisamente o
semivariograma e correlograma, forneceram excelentes caracterı́sticas
para discrimar NPS entre malignos e benignos, já que a área da curva
ROC foi igual a 1.000. Mesmo assim a técnica passo a passo não selecionou
nenhuma medida dos métodos covariograma e semimadograma. Além disso,
também não foi selecionada nenhuma medida com distância igual a 1, e
ainda 4 das 7 medidas selecionadas foram do último lag (maior distância).
Esta seleção contradiz a idéia inicial de que lags com distância menores
seriam mais importantes na análise dos nódulos, pois detectariam pequenas
mudanças de densidades.
A combinação do coeficiente de Gini e do esqueleto do nódulo para se
obter caracterı́sticas de textura e geometria para diagnósticos dos nódulos
não foi tão eficiente quanto o esperado, já que obteve conceito considerado
regular (0.700 < AU C ≤ 8.000). A utilização do coeficiente de Gini
como medida de caracterização do nódulo não teve muita importância para
modelo, tendo somente uma medida selecionada. A aplicação do esqueleto
do nódulo em relação à geometria foi importante para a discriminação dos
nódulos, mas as medidas que procuravam combinar as caracterı́sticas de
textura e geometria, não foram selecionadas para o modelo. A idéia de
verificar a variação da textura nos segmentos do esqueleto é válida, mas as
medidas escolhidas para fazer esta tarefa talvez não sejam as ideais.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
120
O tamanho da amostra (29 nódulos benignos e 7 malignos) e a
sua desproporção (mais nódulos benignos do que malignos) prejudicaram
sensivelmente uma análise mais precisa dos métodos propostos. Desta
forma, se faz necessária outra análise com uma amostra maior e mais
equilibrada. Também é importante utilizar outra amostra com protocolo
de aquisição diferente da estudada, para se obter uma conclusão mais
definitiva. Com a criação, prevista para o fim de 2004, de uma base
de dados de imagens tomográficas de pulmões será possı́vel fazer uma
análise mais detalhada dos métodos e fazer comparações com métodos
de outros pesquisadores. Maiores informações sobre essa base de dados
podem ser encontradas em http://www3.cancer.gov/bip/steer miss.htm e
http://www3.cancer.gov/bip/steercom.htm.
Uma limitação do “Sistema de Análise de Nódulo Pulmonar – SANP”
é a segmentação. Foi percebido pelos médicos durante sua utilização que
a segmentação semi-automática faz com que a extração do nódulo seja
demorada, e é necessária uma boa precisão motora e visual na eliminação
de estruturas próximas ao nódulo. Estes fatores podem trazer algum tipo de
informação errada para os métodos propostos, pois, se médico não conseguir
distinguir e delimitar corretamente o nódulo, a conseqüência poderá ser um
diagnóstico também errado [68], [57].
A expectativa com este trabalho é oferecer uma ferramenta que
contribua com mais informações na análise dos NPS, permitindo aos médicos
realizarem diagnósticos mais precisos.
5.1
Trabalhos Futuros
Com a experiência adquirida neste trabalho, são sugeridas as seguintes
extensões para esta tese:
– Incluir parâmetros clı́nicos do paciente, como por exemplo idade, sexo
e se é fumante, como entrada para os classificadores, ou ainda construir
um sistema especialista que complemente os resultados vindos dos
classificadores.
– Aplicar outras técnicas para selecionar variáveis, como algoritmos
genéticos, análise de componentes principais (PCA), etc.
– Comparar os resultados encontrados com ALDF e MLP com outros
tipos de classificadores, como por exemplo Support Vector Machine
(SVM) ou um classificador Fuzzy.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
121
– Este trabalho se restringiu apenas a classificar os nódulos como
malignos ou benignos. Com uma amostra bem maior, pode-se fazer
um estudo mais detalhado dos nódulos e classificá-los por tipos de
lesões, como tuberculoma, granuloma, hamatormas, carcinoma, etc.
– Extrair/Segmentar o NPS de uma forma mais automática é um
importante trabalho a ser realizado, pois diminuiria o tempo gasto
pelos médicos na sua segmentação e evitaria erros de precisão motora.
– O SANP já verifica a evolução do nódulo através do tempo de dobra,
utilizando a medida de volume ou diâmetro. Porém, outras maneiras
podem ser estudadas, como a de analisar a alteração das densidades
ou da geometria.
– O NPS maligno possui grandes quantidades de vasos, por isso quando
o contraste iodado é injetado no paciente, este nódulo tende a absorver
mais o iodo e conseqüentemente a realçar os tecidos. Nódulos com
realce menor de 15 UH possuem 99% de probabilidades de serem
benignos, e nódulos com realce maior que esse valor podem indicar
malignidade. Um trabalho a ser realizado seria fazer um mapeamento
das regiões que sofreram alterações com o contraste e visualizá-las.
– Os dois tratamentos padrões para nódulos malignos são radioterapia
e a quimioterapia. Com esses tratamentos as células cancerı́genas
tendem a desaparecer, e para a imagem isto significa alterar a
densidade do voxel e a geometria do nódulo. Um estudo muito
interessante seria fazer o acompanhamento desses nódulos durante o
tratamento.
– Os métodos propostos podem ser facilmente adaptados para trabalhar
com outros tipos de lesões pulmonares, ou outros tipos de anomalias de
outros órgãos (tumor no cérebro, por exemplo) ou ainda para qualquer
outro trabalho que envolva a obtenção de caracterı́sticas 2D ou 3D de
um objeto para o reconhecimento de padrões. Um trabalho futuro
seria utilizar estes métodos em outros estudos.
– Um passo fundamental para se verificar a evolução do NPS é fazer
o registro de dois deles adquiridos de tempos diferentes. Uma das
maiores dificuldades em se fazer o registro de imagens médicas é
determinar os pontos comuns entre elas. O esqueleto do nódulo,
descrito neste trabalho, pode ser uma boa solução para esse problema.
Um trabalho futuro seria verificar a eficiência do esqueleto no registro
dos nódulos.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
122
– O NPS contém várias estruturas internas em sua composição, como
vasos, calcificações, áreas de necrose, etc. Um dos trabalhos realizados
em paralelo a esta tese foi a detecção, visualização e quantificação
dessas estruturas [95]. Entretanto, é necessário validar este método
comparando os resultados obtidos com imagens vindas do exame
histopatológico.
– Examinar a possibilidade de utilizar métodos que não exijam a
prévia segmentação do nódulo (por exemplo, operem sobre toda a
tomografia).
Referências Bibliográficas
[1] HARALICK, R.; SHANMUGAM, K. ; DINSTEIN, I.. Textural features
for image classification. SMC, 3(6):610–621, November 1973.
[2] DUDA, R. O.; HART, P. E.. Pattern Classification and Scene
Analysis. Wiley-Interscience Publication, New York, 1973.
[3] LACHENBRUCH, P. A.. Discriminant Analysis. Hafner Press, New
York, 1975.
[4] KENDALL, M.. Multivariate Analysis. Charles Griffin & Company,
London, 1975.
[5] GALLOWAY, M. M.. Texture analysis using gray level run
lenghts. Computer Graphics and Image Processing, 4:172–179, 1975.
[6] DE SOUZA, J.. Estatı́stica Econômica e Social. Editora Campus,
Rio de Janeiro - Brazil, 1977.
[7] JOURNEL, A. G.; HUIJBREGTS, C. J..
Academic Press, London, 1978.
Mining Geostatistics.
[8] SWETS, J. A.. ROC analysis applied to the evaluation of
medical imaging techniques. Invest Radiol, 4:109–121, 1979.
[9] CLARK, I.. Practical Geostatistics.
London, 1979.
Applied Sience Publishers,
[10] HANLEY, J. A.; MCNEIL, B. J.. The meaning and use of the
area under a receiver operating characteristic (roc) curve.
Radiology, 143(1):29–36, April 1982.
[11] HANLEY, J. A.; MCNEIL, B. J.. A method of comparing the
areas under receiver operating characteristic curve derived
from the same cases. Radiology, 148:839–843, September 1983.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
124
[12] UNSER, M.. Sum and difference histograms for texture
classification. IEEE Transactions on Pattern Analysis and Machine
Intelligence, PAMI-8(1):118–125, 1986.
[13] LORENSEN, W. E.; CLINE, H. E.. Marching cubes: A high
resolution 3D surface construction algorithm. Computer
Graphics, 21:163–169, 1987.
[14] MIRALDI, F.; WIESEN, E. J.. Imaging Principles in Computer
Tomography, volumen 1, chapter Imaging Principles in Computed
Tomography, p. 1–24. The C. V. Mosby Company, Washington, 2 edition,
1988.
[15] FLURY, B.; RIEDWYL, H.. Multivariete Statistics : A Practical
Approach. Chapman and Hall, New York, 1988.
[16] JAIN, A. K.. Fundamentals of Digital Image Processing. Prentice
Hall, Englewood Cliffs, NJ, USA, 1989.
[17] CHU, A.; SEHGAL, C. M. ; GREENLEAF, J. F.. Use of gray value
distribuition of run lengths for texture analysis. Pattern
Recognition Letters, 11:415–420, 1990.
[18] KOENDERINK, J. J.. Solid Shape. MIT Press, Cambridge, MA, USA,
1990.
[19] MELO, M. P.. Redes neurais artificiais : uma aplicação a
previsão de preços de derivados de petróleo. Master’s thesis,
Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 1991.
[20] KOENDERINK, J. J.; DOORN, A. J. V.. Surface shape and
curvature scales. Image and Vision Computing, 10(8):557–565,
October 1992.
[21] ELVINS, T.. A survey of algorithms for volume visualization.
ACM Computer Graphics, 26(3):194–201, 1992.
[22] GONZALEZ, R. C.; WOODS, R. E.. Digital Image Processing.
Addison-Wesley, Reading, MA, USA, 3 edition, 1992.
[23] WOOD, S. L.; JAMALI, H.. Segmentation of gray scale sampled
images with bimodal source models. In: CONFERENCE RECORD
OF THE TWENTY-SIXTH ASILOMAR, p. 456–460. Signals, Systems
and Computers, 1992.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
125
[24] OHANIAN, P. P.; DUBES, R. C.. Performance evaluation for four
classes of textural features. Pattern Recognition, 25(8):819–833,
1992.
[25] DEUTSCH, C. V.; JOURNEL, A. G.. GSLIB. Geostatistical
Software Library and User’s Guide. Oxford University Press, New
York, 1992.
[26] ZWEIG, M. H.; CAMPBELL, G.. Receiver-operating characteristic
(roc) plots: A fundamental evaluation tool in clinical
medicine. Clinical Chemistry, 39(4):561–577, 1993.
[27] CRESSIE, N. A. C.. Statistical for Spatial Data. John Wiley &
Sons, New York, 1993.
[28] HUBERTY, C. J..
Interscience, 1994.
Applied Discriminant Analysis.
Wiley-
[29] SARLE, W. S..
Neural networks and statistical
models.
In: 19TH ANNUAL SAS USERS GROUP
INTERNATIONAL CONFERENCE, p. 1538–1550, 1994. Avaliado
em http://citeseer.ist.psu.edu/sarle94neural.html.
[30] HOULDING, S. W.. 3D Geoscience Modeling : Computer
Techniques for Geological Characterization. Springer-Verlag,
Berlin, 1994.
[31] HASSOUN, M. H.. Fundamentals of Artificial Neural Networks.
MIT Press, Cambridge, MA, USA, 1995.
[32] FREIXINHO, M. A. P.. Reconhecimento de dı́gitos manuscritos
por redes neurais. Master’s thesis, Pontifı́cia Universidade Católica
do Rio de Janeiro, Rio de Janeiro, 1996.
[33] SWINGLER, K.. Applying Neural Networks : a Practical Guide.
Academic Press, London, 1996.
[34] RIPLEY, B. D.. Pattern Recognition and Neural Networks.
Cambridge University Press, United Kigndom, 1996.
[35] TAFNER, M. A.; XEREZ, M. ; FILHO, E. R.. Redes Neuais
Artificiais : Introdução e Princı́pios de Neurocomputação.
Editora FURB, Blumenau, 1996.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
126
[36] CASTLEMAN, K. R.. Digital Image Processing. Prentice Hall,
Englewood Cliffs, NJ, USA, 1996.
[37] MUZZOLINI, R. E.. A Volumetric Approach to Segmentation
and Texture Characterisation of Ultrasound Images. PhD
thesis, College and Graduate Studies and Research, 1996.
[38] TARANTINO, A. B.. Nódulo Solitário Do Pulmão, chapter 38, p.
733–753. Guanabara Koogan, Rio de Janeiro, 4 edition, 1997.
[39] NEDERLAND, P. M. S..
DICOM cook book for
implementations
in
modalities:
Chapters
1
and.
Document
Number
XPR080-970004.00.
Avaliado
em:
ftp://ftp.philips.com/pub/ms/dicom/DICOM Information, 1997.
[40] LILLINGTON, G. A..
Management of solitary pulmonary
nodules. Postgraduate Medicine, 101(3), 1997.
[41] PARKER, J. R..
Algorithms for Image Processing and
Computer Vision. John Wiley & Sons, Inc, USA, 1997.
[42] ANGUH, M. M.; SILVA, A. C..
Multiscale segmentation
and enhancement in mammograms.
In: Press, I. C. S.,
editor, SIMPÓSIO BRASILEIRO DE COMPUTACÃO GRÁFICA E
PROCESSAMENTO DE IMAGENS, p. 136–139, Campos do Jordão,
Outubro 1997. Avaliado em http://mirror.impa.br/sibgrapi97/anais/.
[43] ESSEN, D. C. V.; DRURY, H. A.. Structural and functional
analyses of human cerebral cortex using a surface-based
atlas. The Journal of Neuroscience, 17(18):7079–7102, 1997.
[44] KAWATA, Y.; NIKI, N.; ; OHMATSU, H.; KAKINUMA, R.; EGUCHI,
K.; KANEKO, M. ; MORIYAMA, N.. Classification of pulmonary
nodules in thin-section CT images based on shape
characterization. In: INTERNATIONAL CONFERENCE ON IMAGE
PROCESSING, volumen 3, p. 528–530. IEEE Computer Society Press,
1997.
[45] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KAKINUMA, R.; MORI, K.;
EGUCHI, K.; KANEKO, M. ; MORIYAMA, N.. Curvature based
analysis of internal structure of pulmonary nodules using
thin-section ct images. In: Press, I. C. S., editor, INTERNATIONAL
CONFERENCE ON IMAGE PROCESSING, volumen 3, p. 851 –855,
October 1998.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
127
[46] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KAKINUMA, R.; EGUCHI,
K.; KANEKO, M. ; MORIYAMA, N..
Quantitative surface
characterization of pulmonary nodules based on thin-section
CT images. IEEE Transactions on Nuclear Science, 45(4):2132–2138,
August 1998.
[47] HOFFMAN, R.. Estatı́stica para Economistas. Editora Pioneira,
São Paulo - Brasil, 3 edition, 1998.
[48] ERKEL, A. R. V.; PATTYNAMA, P. M. T..
Receiver
operating characteristic (ROC) analysis: Basic principles and
applicattions in radiology. European Journal of Radiology, 27:88–
94, 1998.
[49] FREEBOROUGH, P. A.; FOX, N. C.. MR texture analysis to the
diagnosis and tracking of alzheimer’s disease. IEEE Transactions
on Medical Imaging, 17(3):475–479, 1998.
[50] TANG, X.. Texture information in run-length matrices. IEEE
Transactions on Image Processing, 7(11):1602–1609, 1998.
[51] SONKA, M.; HLAVAC, V. ; BOYLE, R.. Image Processing, Analysis
and Machine Vision. International Thomson Publishing, 2 edition,
1998.
[52] HENDERSON, D. W.. Differental Geometry: A Geometric
Introduction. Prentice-Hall, Upper Saddle River, New Jersey, 1998.
[53] ARAUJO, P. V.. Geometria Diferencial. Instituto de Matematica
Pura e Aplicada, Rio de Janeiro, RJ, 1998.
[54] DAHMANI, A.. Changes to the oil export structure of opec
member countries – an analysis with the gini coefficient.
OPEC Review, 22(4):277–290, 1998.
[55] LEE, C.-K.; KANG, S.. Measuring earnings inequality and
median earnings in the tourism industry. Tourism Management,
19(4):341–348, August 1998.
[56] FALCÃO, A. X.. Visualização de volumes aplicada à área
médica. Master’s thesis, Universidade Estadual de Campinas, 1999.
[57] III, S. G. A.; GIGER, M. L.; MORAN, C. J.; BLACKBURN, J. T.; DOI,
K. ; MACMAHON, H.. Computerized detection of pulmonary
nodules on ct scans. Radiographics, 19(5):1303–1311, 1999.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
128
[58] MCNITT-GRAY, M. F.; HART, E. M.; WYCKOFF, N.; SAYRE,
J. W.; GOLDIN, J. G. ; ABERLE, D. R..
The effects of
co-occurrence matrix based texture parameters on the
classification of solitary pulmonary nodules imaged on
computed tomography.
Computerized Medical Imaging and
Graphics, 23:339–348, 1999.
[59] MCNITT-GRAY, M. F.; HART, E. M.; WYCKOFF, N.; SAYRE, J. W.;
GOLDIN, J. G. ; ABERLE, D. R.. A pattern classification approach
to characterizing solitary pulmonary nodules imaged on high
resolution CT: Preliminary results. Medical Physics, 26(6):880–
888, 1999.
[60] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KUSUMOTO, M.; KAKINUMA,
R.; MORI, K.; NISHIYAMA, H.; EGUCHI, K.; KANEKO, M. ;
MORIYAMA, N..
Computer aided differential diagnosis
of pulmonary nodules using curvature based analysis.
In: INTERNATIONAL CONFERENCE ON IMAGE ANALYSIS AND
PROCESSING, volumen 2, p. 470–475. IEEE Computer Society Press,
1999.
[61] NEDEL, L. P.; MANSSOUR, I. H. ; FREITAS, C. M. D. S..
Computer graphics & medicine, 1999.
Avaliado em:
http://www.inf.ufrgs.br/cg/publications/nedel/tutorial-cg &m.pdf.
[62] JAIN, D.. Understanding the solitary pulmonary nodule.
Journal of Indian Academy of Clinical Medicine, 4(2):118–126, 1999.
[63] BISHOP, C. M.. Neural Networks for Pattern Recognition.
Oxford University Press, New York, 1999.
[64] PICCOLI, L..
Segmentação e classificação de imagens
ecocardiográficas utilizando redes neurais. Master’s thesis,
Universidade Federal do Rio Grande do Sul, Rio Grande do Sul, 1999.
[65] SMITH, A. C.. The Folding of the Human Brain, from Shape
to Function. PhD thesis, University of London, 1999. Avaliado em
http://carmen.umds.ac.uk/a.d.smith/phd.html.
[66] DA F. COSTA, L.; VELTE, T. J.. Automatic characterization and
classification of glangion cells from the salamander retina.
The Journal of Comparative Neurology, 404:33–51, 1999.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
129
[67] ZHOU, Y.; TOGA, A. W.. Efficient skeletonization of volumetric
objects. IEEE Transactions on Visualization and Computer Graphics,
5(3):196–208, July-September 1999.
[68] ZHAO, B.; YANKELEVITZ, D.. Two-dimensional multi-criterion
segmentation of pulmonary nodules on helical CT images.
Medical Physics, 26(6):889–895, 1999.
[69] MACMAHON, H.. Improvement in detection of pulmonary
nodules: Digital image processing and computerized
diagnosis. RadioGraphics, 20(4):1169–1177, 2000.
[70] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KUSUMOTO, M.; KAKINUMA,
R.; MORI, K.; NISHIYAMA, H.; EGUCHI, K.; KANEKO, M. ;
MORIYAMA, N.. Internal structure analysis of pulmonary
nodules in topological and histogram feature spaces.
In: INTERNATIONAL CONFERENCE ON IMAGE PROCESSING,
volumen 1, p. 168–171. IEEE Computer Society Press, 2000.
[71] CLUNIE, D. A.. DICOM Structered Reporting.
Publishing, Pennsylvania, 2000.
PixelMed
[72] YANKELEVITZ, D. F.; HENSCHKE, C. I.. Small solitary pulmonary
nodules. Radiologic Clinics of North America, 38(3):1–7, Maio 2000.
[73] DYMINSKI, A. S.. Análise de Problemas Geotécnicos através
de Redes Neurais. PhD thesis, Pontifı́cia Universidade Católica do
Rio de Janeiro, Rio de Janeiro, 2000.
[74] GREINERA, M.; PFEIFFERB, D. ; SMITHC, R.. Principles and
practical application of the receiver-operating characteristic
analysis for diagnostic tests. Preventive Veterinary Medicine, 45:23–
41, 2000.
[75] REEVES, A. P.; KOSTIS, W. J.. Computer-aided diagnosis for
lung cancer. Radiologic Clinics of North America, 38(3):497–509, Maio
2000.
[76] FERREIRA, F. H.; DE BARROS, R. P.. Education and income
distribution in urban brazil, 1976–1996. CEPAL Review, 71:43–
64, 2000.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
130
[77] PEIXOTO, A.; CARVALHO, P. C. P.. Esqueletos de objetos
volumétricos. Technical Report 34/00, Pontifı́cia Universidade Católica
do Rio de Janeiro, Rio de Janeiro - Brasil, 2000.
[78] PEIXOTO, A.; VELHO, L.. Transformada de distância. Technical
Report 35/00, Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de
Janeiro - Brasil, Setembro 2000.
[79] VAN GINNEKEN, B.; TER HAAR ROMENY, B. M. ; VIERGEVER,
M. A.. Computer-aided diagnosis in chest radiography: A
survey. IEEE Transactions on Medical Imaging, 20(12):1228–1241,
December 2001.
[80] KAK, A. C.; SLANEY, M..
Principles of Computarerized
Tomographic Imaging. IEEE Press, New York, 2001.
[81] SERRANO, B. L.; GARCÍA, F. Z.. Estudio del nódulo pulmonar
solitario. JANO EMC, 61(1398):51–52, September 2001.
[82] MUÑOZ, J. C. E.; RODRÍGUEZ, E. P.; PEREZ, S.; JUSTEL, P.; SALVAT,
H.; VILLAR, S. D. ; FREIRE, C.. Guı́a de actuación ante un nódulo
pulmonar solitario. Guı́as Clı́nicas, 1(51):1–3, 2001.
[83] HAYKIN, S.. Redes Neurais: Princı́pios e Prática. Bookman,
Porto Alegre, 2 edition, 2001.
[84] WAGNER, R. F.; BEIDEN, S. V. ; METZ, C. E.. Continuos
versus categorical data for ROC analysis: Some quantitative
considerations. Academic Radiology, 8(4):328–334, April 2001.
[85] HETZEL, G.; LEIBE, B.; LEVI, P. ; SCHIELE, B.. 3d object
recognition from range images using local feature histograms.
IEEE on Computer Society Conference, 2:394–399, 2001.
[86] NIKOLAIDIS, N.; PITAS, I.. 3-D Image Processing Algorithms.
John Wiley, New York, 2001.
[87] OHTAKE, Y.; BELYAEV, A. ; PASKO, A.. Dynamic meshes
for accurate polygonization of implicit surfaces with shape
features. In: Press, I. C. S., editor, SMI 2001 INTERNATIONAL
CONFERENCE ON SHAPE MODELING AND APPLICATIONS, p. 74–
81, 2001.
[88] PAIK, D. S.. Computer Aided Interpretation of Medical
Images. PhD thesis, Stanford University, 2002.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
131
[89] AOYAMA, M.; L, Q.; KATSURAGAWA, S.; MACMAHON, H. ; DOIB,
K.. Automated computerized scheme for distinction between
benign and malignant solitary pulmonary nodules on chest
images. Medical Physics, 29(5):701–708, May 2002.
[90] MANSSOUR, I. H.; FREITAS, C. M. D. S..
Visualização
volumétrica. Revista de Informática Teórica e Aplicada, IX(2):97–126,
2002.
[91] PEIXOTO, A.. Extração de Malhas Adaptativas Em MultiResolução a Partir de Volumes, Usando Simplificação e
Refinamento. PhD thesis, Pontifı́cia Universidade Católica do Rio de
Janeiro - PUC-Rio, 2002.
[92] ZHANG, J.; LI, T.. International inequality and convergence
in educational attainment, 1960–1990. Review of Development
Economics, 6(3):383–392, October 2002.
[93] SILVA, A. C.; CARVALHO, P. C. P.. Sistema de análise de nódulo
pulmonar. In: II WORKSHOP DE INFORMÁTICA APLICADA A
SAÚDE, Itajai, Agosto 2002. Universidade de Itajai. Avaliado em
http://www.cbcomp.univali.br/pdf/2002/wsp035.pdf.
[94] SILVA, A. C.; CARVALHO, P. C. P..
Medidas globais
em 3d para diagnóstico de nódulo pulmonar.
In:
II
WORKSHOP
DE
INFORMÁTICA
MÉDICA,
Gramado,
Rio Grande do Sul, Outubro 2002.
Avaliado em
http://www.visgraf.impa.br/Projects/vismed/lung/doc1/MedidasNodulo.pdf.
[95] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Visualization of
density variation in lung nodules. Technical Report Inf.MCC09/02,
Pontı́ficia Universidade Católica do Rio de Janeiro - PUC-Rio, Junho
2002.
[96] (WHO), W. H. O.. Avaliado em http://www.who.int/en/, 2003.
[97] (INCA), I. N. D. C..
Estimativas da incidência e
mortalidade por câncer no brasil.
Avaliado em
http://www.inca.gov.br/estimativas/2003/versaofinal.pdf, 2003.
[98] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Investigação
de métodos estatı́sticos baseados em textura 3D para
diagnóstico de nódulo pulmonar em imagens de tomografia
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
132
computadorizada. In: III WORKSHOP DE INFORMÁTICA MÉDICA,
Fortaleza, Brasil, Setembro 2003.
[99] BERNDT, D. J.; FISHER, J. W. ; RAJENDRABABU, R. V.. Measuring
healthcare inequalities using the gini index. In: Press, I. C. S.,
editor, 36TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM
SCIENCES (HICSS’03), p. 159 –168, 2003.
[100] TECGRAF, G. T. G.. Iup: Portable user interface - v 2.0.1.
Avaliado em http://www.tecgraf.puc-rio.br/iup/, 2003.
[101] TECGRAF, G. T. G.. Im: Access library to bitmap image files v 2.6. Avaliado em http://www.tecgraf.puc-rio.br/im/, 2003.
[102] TECGRAF, G. T. G.. Canvas draw - a 2d graphic library v 4.3.
Avaliado em http://www.tecgraf.puc-rio.br/cd/, 2003.
[103] COUCH, G. G.; YOUNG, N.; CHAU, C. ; CHAPMAN, P.. eFilm medical imaging system, 2003. Avaliado em http://www.eFilm.net.
[104] TECHNOLOGIES, L.. SPSS 11.0 for windows.
http://www.spss.com, 2003.
Avaliado em
[105] SOFTWARE, C.-X.. Neuralpower professional v. 1.0. Avaliado em
http://www.geocities.com/neuralpower/, 2003.
[106] METZ, C. E.. ROCKIT software. Avaliado em http://wwwradiology.uchicago.edu/krl/toppage11.htm, 2003.
[107] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Analysis of
spatial variability using geostatistical functions for diagnosis
of lung nodule in computerized tomography images. Submetido
para Pattern Analysis and Applications, 2003.
[108] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Diagnosis of
lung nodule using semivariogram and geometric measures
in computerized tomography images. Submetido para Computer
Methods and Programs in Biomedicine, 2003.
[109] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Analysis
and diagnosis of lung nodule based on geometric measures.
Submetido para International Journal of Medical Physics, 2003.
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
133
[110] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Diagnosis of
solitary lung nodule using semivariogram and skeletonization
in computerized tomography images. Aceito para 21st Meeting of
the Society for Computer Applications in Radiology (SCAR 2004), May
2004.
[111] SILVA, A. C.; CARVALHO, P. C. P.; PEIXOTO, A. ; GATTASS,
M.. Diagnosis of lung nodule using gini coefficient and
skeletonization in computerized tomography images. Aceito
para 19th ACM Symposium on Applied Computing (SAC 2004), March
2004.
A
Sistema de Análise de Nódulo Pulmonar – SANP
Esta seção apresenta o protótipo do Sistema de Análise de Nódulo
Pulmonar – SANP, desenvolvido durante o perı́odo de elaboração da tese
para dar suporte às pesquisas das medidas para o diagnóstico do NPS e,
ao mesmo tempo, fornecer aos médicos diversos recursos para a análise do
nódulo. Alguns desses recursos são: visualização em 2D e 3D das fatias, filtro
de visualização, visualização de detalhes, segmentação dos nódulos, métricas de
evolução (circularidade, diâmetro, volume, etc.), e visualização das estruturas
internas do nódulo.
O SANP foi desenvolvido para médicos e especialistas em TC de pulmão.
Assim sendo, houve uma grande preocupação para que a interface com o usuário
fosse amigável, pois os médicos nem sempre são familiarizados com ferramentas
computacionais. Além disso, quanto mais fácil for a desenvoltura do médico ao
manusear o sistema, mais rápido será o aprendizado e, conseqüentemente, mais
eficaz será sua análise. Durante o desenvolvimento, a equipe médica pôde usar
o software e interagir com a equipe desenvolvedora. Desta forma foi possı́vel
assegurar o cumprimento deste pré-requisito e o surgimento de novas idéias de
ferramentas a serem oferecidas pelo software de acordo com as necessidades
reais dos médicos. A Figura A.1 mostra a interface principal do sistema, com
seus menus e ferramentas.
Uma caracterı́stica importante da implementação do SANP é sua
modularização. Este software, apesar de ter seu uso inicial especı́fico para a
aplicação de nódulos pulmonares, pode ser utilizado para visualizar qualquer
imagem tomográfica por usar o padrão DICOM e pode facilmente ser adaptado
à realidade dos problemas de outras áreas de estudo de imagens tomográficas.
Uma equipe de tecnologia e outra de saúde participaram do
desenvolvimento do SANP. A equipe de tecnologia foi formada por Paulo Cezar
Pinto Carvalho, Ana Elisa Ferreira Schmidt, Aristófanes Corrêa Silva, Beatriz
Silva Villa Alvarez, Cristina Nader Vasconcelos e André do Nascimento Moreno
Fernandes. A equipe de saúde foi composta por Rodolfo Acatauassú Nunes,
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
135
Figura A.1: Interface do SANP.
Marcia Boechat, Gustavo Adolpho Moreira Faulhaber, Fabrı́zia Renno Sodero,
Patrı́cia Damasco e Patrı́cia Guerra.
A.1
Visualização das fatias
Para a visualização de fatias, além da visualização mostrada na Figura A.1
foram implementados outros recursos, no intuito de oferecer facilidade de
manuseio e análise das regiões de interesse na imagem, conforme descritos a
seguir:
1. Galeria de fatias: exibe uma grade com thumbnails das fatias que pode
ser configurável através do botão de layout de fatias (Figura A.2). A fatia
selecionada é visualizada no canvas principal.
2. Janela/Nı́vel: disponibiliza um filtro de visualização para exibir estruturas
de interesse e esconder as demais. Os parâmetros necessários para sua
utilização são a janela (área de atuação) e o nı́vel (densidade a ser realçada
ou escondida). Além de o usuário poder alterar esses valores, o programa
disponibiliza escolhas padronizadas de janelas (Figura A.3).
3. Detalhe: mostra um detalhe da imagem num canvas auxiliar denominado
“janela de detalhes”. Na opção janela de detalhe (Figura A.4), o retângulo
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
136
Figura A.2: Galeria de fatias.
Figura A.3: Janela/Nı́vel de contraste e exemplos.
que fica sobre a imagem do canvas principal de visualização pode ser
movido, aumentado ou diminuı́do pelo usuário para analisar diferentes
detalhes na imagem.
A.2
Segmentação
O usuário pode colocar uma barreira em volta do nódulo, com o objetivo
de limitar a região de interesse e impedir que a segmentação por agregação de
voxel invada outras estruturas do pulmão. A barreira é um cilindro (Figura A.5)
cuja manipulação permite aumentá-lo ou diminuı́-lo.
Outra forma de barreira, denominada aberta, é quando o usuário indica
os pontos extremos de cada segmento que em conjunto formam a barreira ou
limite aberto (Figura A.6), com o objetivo de limitar a região de interesse e
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
137
Figura A.4: Zoom de detalhe.
Figura A.5: Barreira ao redor do nódulo.
impedir que a segmentação por agregação de voxel invada outras estruturas do
pulmão.
No processo de segmentação, o usuário indica uma semente para iniciar
a segmentação, clicando no canvas principal dentro da região de interesse
ou digitando a posição (x,y) da semente, então determina um limiar de
restrição de densidade e escolhe uma seqüência de fatias onde o nódulo está
presente(Figura A.7).
A.3
Visualização 3D
A visualização tridimensional, através do método Marching Cubes, do
nódulo ou qualquer outra estrutura do pulmão previamente segmentadas é
mostrada em uma janela auxiliar. Esta também possui uma barra de menu com
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
138
Figura A.6: Barreira aberta.
Figura A.7: Processo de segmentação.
recursos dos quais os mais úteis são: salvar a superfı́cie do nódulo, visualizá-lo
em wireframe, visualizar o seu fecho convexo e sua bounding Box, suavizar sua
superfı́cie através do filtro Laplaciano e as medidas estatı́sticas baseadas na sua
geometria (Figura A.8).
A.4
Tempo de Dobra
As informações referentes ao volume e diâmetro do nódulo são
armazenadas para comparação com um nódulo de um exame anterior. Nessa
comparação o tempo de dobra do nódulo é calculado e exibe um gráfico que
mede a sua evolução (Figura A.10).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
139
Figura A.8: Janela de visualização 3D - Marching Cubes.
Figura A.9: Tempo de dobra.
A.5
Estruturas do Nódulo
Este recurso serve para enfatizar e visualizar as estruturas internas do
nódulo (calcificação, fibrose, necrose, gordura, etc.) e as quantidades de voxels
determinadas para cada estrutura (Figura 10).
Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens
de Tomografia Computadorizada
140
Figura A.10: Nódulo com estruturas internas visualizadas e histograma das
estruturas do nódulo.

Documentos relacionados