Aristófanes Corrêa Silva Algoritmos para Diagnóstico
Transcrição
Aristófanes Corrêa Silva Algoritmos para Diagnóstico
Aristófanes Corrêa Silva Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada TESE DE DOUTORADO DEPARTAMENTO DE INFORMÁTICA Programa de Pós–graduação em Informática Rio de Janeiro Fevereiro de 2004 Aristófanes Corrêa Silva Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada Tese de Doutorado Tese apresentada ao Programa de Pós–graduação em Informática do Departamento de Informática da PUC–Rio como parte dos requisitos parciais para obtenção do tı́tulo de Doutor em Informática. Orientador: Prof. Marcelo Gattass Co–Orientador: Prof. Paulo Cezar Pinto Carvalho Rio de Janeiro Fevereiro de 2004 Aristófanes Corrêa Silva Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada Tese apresentada ao Programa de Pós–graduação em Informática do Departamento de Informática do Centro Técnico Cientı́fico da PUC–Rio como parte dos requisitos parciais para obtenção do tı́tulo de Doutor em Informática. Aprovada pela Comissão Examinadora abaixo assinada. Prof. Marcelo Gattass Orientador Departamento de Informática — PUC–Rio Prof. Paulo Cezar Pinto Carvalho Co–Orientador Departamento de Informática — PUC–Rio Prof. Sidnei Paciornik PUC–Rio Prof. Marcelo Dreux PUC–Rio Prof. Rodolfo Acatauassú Nunes UERJ Prof. Aura Conci UFF Prof. Luiz Henrique de Figueiredo IMPA Prof. Waldemar Celles PUC–Rio Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Cientı́fico — PUC–Rio Rio de Janeiro, 9 de Fevereiro de 2004 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Aristófanes Corrêa Silva Graduou–se em Ciência da Computação na Universidade Federal do Maranhão – UFMA. Fez mestrado na Universidade Federal do Maranhão – UFMA em Computação Gráfica. Ficha Catalográfica Silva, Aristófanes C. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada/ Aristófanes Corrêa Silva; orientador: Marcelo Gattass; co–orientador: Paulo Cezar Pinto Carvalho. — Rio de Janeiro : PUC–Rio, Departamento de Informática, 2004. v., 140 f: il. ; 30 cm 1. Tese (doutorado) - Pontifı́cia Universidade Católica do Rio de Janeiro, Departamento de Informática. Inclui referências bibliográficas. 1. Informática – Teses. 2. Diagnóstico de Nódulo Pulmonar Solitário. 3. Textura. 4. Geometria. 5. Análise Discriminante Linear de Fisher. 6. Redes Neurais Perceptron de Múltiplas Camadas. I. Gattass, Marcelo. II. Carvalho, Paulo Cezar Pinto. III. Pontifı́cia Universidade Católica do Rio de Janeiro. Departamento de Informática. IV. Tı́tulo. CDD: 004 Aos meus pais, Acyr e Maria Nilde. Agradecimentos Neste longo caminho, vários são os agradecimentos acumulados. Espero contemplar a todos e, se porventura, esquecer de alguém, com certeza se deve a um lapso temporário de memória. À DEUS, por tudo. À minha esposa Tânia Castro pelo incentivo, sacrifı́cio, paciência, compreensão e carinho ao longo deste perı́odo. À minha famı́lia, que sempre esteve comigo me apoiando em todas as horas, obrigado pelo incentivo e carinho. Aos meus dois orientadores: Marcelo Gattass e Paulo Cezar Pinto Carvalho. O primeiro, confiou e acreditou em mim no inı́cio e nos momentos mais difı́ceis do doutorado. O segundo, pelas curtas, mas proveitosas discussões, pelos incentivos, pelos ensinamentos, pelas crı́ticas, e principalmente, pela segurança na orientação. Muito obrigado aos dois. À instituição a que pertenço: a Universidade Federal do Maranhão – UFMA; a instituição que me acolheu: a Pontı́ficia Universidade Católica do Rio de Janeiro – PUC-RJ; e a instituição que me adotou e me deu suporte: o Instituto de Matemática Pura e Aplicada – IMPA. Ao Dr. Rodolfo Acatauassú Nunes pelos ensinamentos, apoio, confiança e incentivo que me foram extremamente importantes durante toda a tese. Ao Dr. Rodolfo Acatauassú Nunes e sua equipe, pelo suporte médico, e ao pessoal do Instituto Fernandes Figueira, em particular à Dra. Márcia Cristina Bastos Boechat, pelas imagens fornecidas. Ao Prof. Luiz Velho pelas boas idéias e por me abrir as portas do Visgraf. À Carolina Alfaro, pelas traduções, correções e dicas em meus artigos e neste trabalho. Ao Prof. Sidnei Paciornik pelas boas idéias durante a defesa de proposta de tese. Aos funcionários do IMPA e do Tecgraf pelo apoio logı́stico. Ao Tecgraf pela ajuda financeira que me possibilitou ir em alguns congressos. À CAPES que me propiciou a bolsa PICDT, fundamental para a realização desse trabalho. Aos professores da UFMA, em especial ao Anselmo Paiva e a Maria da Guia. Aos meus amigos da minha “Ilhinha do Amor” - São Luı́s (MA): Mário Borges, Gutemberg Santiago, Marcos Santos, Adriana Sousa, Salete Farias, Eveline Sá, Jeane Diniz, Evaldinólia Gilbertoni e ..., que durante este perı́odo sempre me deram apoio e incentivo. Aos meus amigos Visgrafianos (Laboratório Visgraf - IMPA): Adelailson Peixoto, Antônia Lucinelma, Beatriz Alvarez, Fábio Marcos, Gustavo Pierre, José Luiz, Lourena Karen, Nair Duarte, Paula Lucena, Perfilino Eugênio e Sérgio Estevão, pela amizade, convivência, aprendizagem, companheirismo, enfim pelos bons momentos. Muito obrigado a todos. Resumo Silva, Aristófanes C.; Gattass, Marcelo; Carvalho, Paulo Cezar Pinto. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada. Rio de Janeiro, 2004. 140p. Tese de Doutorado — Departamento de Informática, Pontifı́cia Universidade Católica do Rio de Janeiro. O presente trabalho visa desenvolver uma ferramenta computacional para sugerir sobre a malignidade ou benignidade de Nódulos Pulmonares Solitários, através da análise de medidas de textura e geometria obtidas a partir das imagens de tomografia computadorizada. São propostos quatro grupos de métodos com o objetivo de sugerir o diagnóstico para o nódulo. Os grupos de métodos são divididos de acordo com suas caracterı́sticas comuns. O Grupo I trata dos métodos baseados em textura adaptados para 3D, como o histograma, o Método de Dependência Espacial de Nı́veis de Cinza, o Método de Diferença de Nı́veis de Cinza e o Método de Comprimento de Primitivas de Nı́veis de Cinza. O Grupo II também trata da textura dos nódulos, mas utiliza quatro funções geoestatı́sticas denominadas semivariograma, semimadograma, covariograma e correlograma. O Grupo III descreve apenas medidas baseadas na geometria do nódulo, como a convexidade, a esfericidade e medidas baseadas na curvatura. Por fim, o Grupo IV analisa os métodos do coeficiente de Gini e do esqueleto dos nódulos, que levam em consideração tanto a geometria quanto a textura do nódulo. Foi analisada uma amostra com 36 nódulos, sendo 29 benignos e 7 malignos, e os resultados preliminares são promissores na caracterização dos nódulos pulmonares. A maioria dos grupos de métodos propostos tem o valor da área sobre a curva ROC acima de 0.800, utilizando a Análise Discriminante Linear de Fisher e a Rede Neural Perceptron de Múltiplas Camadas. Isto significa que os métodos propostos possuem grande potencial na discriminação e classificação dos Nódulos Pulmonares Solitários. Palavras–chave Diagnóstico de Nódulo Pulmonar Solitário; Textura; Geometria; Análise Discriminante Linear de Fisher; Redes Neurais Perceptron de Múltiplas Camadas. Abstract Silva, Aristófanes C.; Gattass, Marcelo; Carvalho, Paulo Cezar Pinto. Algorithms for Assisted Diagnosis of Solitary Lung Nodules in Computerized Tomography Images. Rio de Janeiro, 2004. 140p. PhD. Thesis — Departamento de Informática, Pontifı́cia Universidade Católica do Rio de Janeiro. The present work seeks to develop a computational tool to suggest about the malignancy or benignity of Solitary Lung Nodules by the analysis of texture and geometry measures obtained from computadorized tomography images. Four groups of methods are proposed with the purpose of suggesting the diagnosis for such nodule. The groups of methods are divided according to their common characteristics. Group I includes methods based on texture adapted for 3D, such as the histogram, the Spatial Gray Level Dependence Method, the Gray Level Difference Method and Gray Level Run Length Matrices. Group II also deals with the texture of nodules, but uses four statistical functions denominated semivariogram, semimadogram, covariogram and correlogram. Group III describes measures based only on the geometry of the nodule, such as convexity, sphericity, and measures based on the curvature. Finally, Group IV analyzes the Gini coefficient and nodule skeleton methods, which take into account both the nodule’s geometry and its texture. A sample with 36 nodules, 29 benign and 7 malignant, was analyzed and the preliminary results of this approach are very promising in characterizing lung nodules. Most groups of proposed methods have the area under the ROC curve value above 0.800, using Fisher’s Linear Discriminant Analysis and Multilayer Perceptron Neural Networks. This means that the proposed methods have great potential in the discrimination and classification of Solitary Lung Nodules. Keywords Diagnosis of Solitary Lung Nodule; Texture; Geometry; Fisher’s Linear Discriminant Analysis; Multilayer Perceptron Neural Networks. Sumário 1 Introdução 1.1 Motivação 1.2 Objetivos 1.3 Contribuição 1.4 Trabalhos Relacionados 1.5 Estrutura da Tese 16 18 19 20 21 27 2 Conceitos Básicos 2.1 Imagem Médica 2.2 Nódulo Pulmonar Solitário 2.3 Técnicas para Analisar, Discriminar e Classificar 2.4 Validação do Modelo 2.5 Curva ROC (Receiver Operating Characteristic) 2.6 Resumo 29 29 38 42 55 55 62 3 Métodos Computacionais para Análise do NPS 3.1 Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos) – Grupo I 3.2 Análise do Nódulo Pulmonar Baseada em Textura (Funções Geoestatı́sticas) – Grupo II 3.3 Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III 3.4 Análise do Nódulo Pulmonar Baseada em Textura e na Geometria – Grupo IV 3.5 Resumo 64 65 73 77 81 87 4 Testes e Resultados 4.1 Metodologia 4.2 Exemplo da Aplicação dos Métodos Estudados 4.3 Classificação 4.4 Conclusão 4.5 Resumo 91 91 96 105 115 117 5 Conclusão 5.1 Trabalhos Futuros 118 120 A Sistema de Análise de Nódulo Pulmonar – SANP A.1 Visualização das fatias A.2 Segmentação A.3 Visualização 3D A.4 Tempo de Dobra A.5 Estruturas do Nódulo 134 135 136 137 138 139 Lista de Figuras 1.1 Nódulos Pulmonares Solitários. 1.2 Esquema dos objetivos deste trabalho. 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 Funcionamento de uma TC (Fonte: http://www.geocities.com/siumingrd/CT). Tomografia computadorizada do tórax. Estrutura da imagem no formato DICOM. Espaço amostral do voxel [56]. Exemplo de interpolação [56]. Interpolação linear [56]. Provável diagnóstico do NPS em relação ao coeficiente de atenuação. Provável diagnóstico do NPS em relação à forma. Algoritmo para diagnóstico dos NPS. Procedimento de seleção de variáveis passo a passo. Modelo de uma rede MLP (3-4-1). Exemplo da técnica deixa um de fora. Ponto de corte. Relação entre a curva ROC e pontos de corte. Curva ROC e a qualidade no diagnóstico. 3.1 3.2 3.3 3.4 3.5 3.6 19 20 32 32 36 37 37 38 41 42 43 49 50 56 59 59 60 Exemplo de SGLDM em Imagem 2D. Algoritmo do SGLDM (ou GLDM). Exemplo de GLDM em Imagem 2D. Exemplo de GLRLM em Imagem 2D. Algoritmo do GLRLM. Semivariograma e suas caracterı́sticas: patamar, alcance e efeito pepita. 3.7 Definição do vetor distância. 3.8 Parâmetros utilizados para cálculo do semivariograma (2D). 3.9 (a) Aplicação do Marching Cubes. (b) Aplicação da técnica Laplaciana. 3.10 Tipos de superfı́cie baseados na curvatura. 3.11 Exemplo da curva de Lorenz e coeficiente de Gini (A/(A + B)). 3.12 Codificação de voxels de uma fatia do NPS (2D). 67 68 70 72 72 4.1 4.2 96 4.3 4.4 4.5 4.6 4.7 Exemplos de NPS benignos ((a) e (b)) e malignos ((c) e (d)). Exemplos de NPS benignos ((a), (b), (c) e (d)) e malignos ((e), (f), (g)). Histograma aplicado no exemplo da Figura 4.1. SGLDM aplicado no exemplo da Figura 4.1. GLDM aplicado no exemplo da Figura 4.1. GLRLM aplicado no exemplo da Figura 4.1. Semivariograma aplicado no exemplo da Figura 4.1. 74 75 76 78 81 83 85 97 98 98 99 100 101 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 4.20 4.21 4.22 4.23 4.24 4.25 4.26 4.27 4.28 4.29 4.30 A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10 Semivariograma aplicado ao nódulo representado pela Figura 4.1(a). Semivariograma aplicado ao nódulo representado pela Figura 4.1(d). Medidas de Geometria aplicadas no exemplo da Figura 4.2. Coeficiente de Gini aplicado ao nódulo representado pela Figura 4.1(a). Curva de Lorenz e coeficiente de Gini aplicados no exemplo da Figura 4.1. Aplicação do algoritmo de Zhou e Toga baseada nos nódulos da Figura 4.2(a), (b), (c) e (d). Distribuição dos nódulos do Grupo I usando ALDF. Distribuição dos nódulos do Grupo I usando MLP. Curva ROC do Grupo I utilizando a ALDF e MLP. Distribuição dos nódulos do Grupo II usando ALDF. Distribuição dos nódulos do Grupo II usando MLP. Curva ROC do Grupo II utilizando a ALDF e MLP. Distribuição dos nódulos do Grupo III usando ALDF. Distribuição dos nódulos do Grupo III usando MLP. Curva ROC do Grupo III utilizando a ALDF e MLP. Distribuição dos nódulos do Grupo IV usando ALDF. Distribuição dos nódulos do Grupo IV usando MLP. Curva ROC do Grupo IV utilizando a ALDF e MLP. Distribuição dos nódulos dos Grupos combinados usando ALDF. Distribuição dos nódulos dos Grupos combinados usando MLP. Curva ROC dos Grupos combinados utilizando a ALDF e MLP. Comparação das áreas das curvas ROC de todos os grupos analisados, utilizando a ALDF e MLP. Nódulo com difı́cil diagnóstico. Interface do SANP. Galeria de fatias. Janela/Nı́vel de contraste e exemplos. Zoom de detalhe. Barreira ao redor do nódulo. Barreira aberta. Processo de segmentação. Janela de visualização 3D - Marching Cubes. Tempo de dobra. Nódulo com estruturas internas visualizadas e histograma das estruturas do nódulo. 101 102 103 104 104 105 106 107 108 109 109 109 110 111 111 112 113 113 114 115 115 116 116 135 136 136 137 137 138 138 139 139 140 Lista de Tabelas 2.1 Cálculo da variância e do valor de F. 2.2 Termos similares entre MLP e ALDF. 2.3 Relação entre o resultado de um teste diagnóstico e o verdadeiro diagnóstico 2.4 Cálculo da especificidade e sensibilidade para uma variável dicotômica 2.5 Qualidade do diagnóstico em relação à área da curva ROC. 48 55 3.1 3.2 Grupos de medidas estudados e suas caracterı́sticas. Resumo dos métodos e das medidas propostas. 64 89 4.1 4.2 4.3 4.4 4.5 % % % % % 56 58 60 de acertos usando a ALDF e MLP para o Grupo I. 106 de acertos usando a ALDF e MLP para o Grupo II. 108 de acertos usando a ALDF e MLP para o Grupo III. 110 de acertos usando a ALDF e MLP para o Grupo IV. 112 de acertos usando a ALDF e MLP para os Grupos combinados.114 Lista de Abreviaturas ALDF AUC CS CNT CONd CONg CON CORd CORg CPI CPK CSR CSV CUR CV DICOM DVP ENE ENT ENTd ENTg ESF FV GLD GLDM GLRLM HOMOd HOMOg IAPI IAPK Análise discriminante linear de Fisher Área sob a curva ROC Comprimento dos segmentos, medida baseada no esqueleto Contraste, medida baseada no histograma Contraste, medida baseado no GLDM Contraste, medida baseado no SGLDM Convexidade, medida baseada na geometria Correlação, medida baseada no GLDM Correlação, medida baseada no SGLDM Média de curvedness do tipo pit, medida baseada na geometria Média de curvedness do tipo peak, medida baseada na geometria Média de curvedness do tipo saddle ridge, medida baseada na geometria Média de curvedness do tipo saddle valley, medida baseada na geometria Curtose, medida baseada no histograma Coeficiente de variação, medida baseada no esqueleto Digital image and communications in medicine Desvio padrão, medida baseada no histograma Energia, medida baseada no histograma Entropia, medida baseada no histograma Entropia, medida baseada no GLDM Entropia, medida baseada no SGLDM Esfericidade, medida baseada na geometria Fração do volume, medida baseada na geometria Uniformidade do nı́vel de cinza, medida baseada no GLRLM Método de diferença de nı́vel de cinza Método de comprimento de primitiva de nı́vel de cinza Homogeneidade baseada no GLDM Homogeneidade baseada no SGLDM Índice da área do tipo pit, medida baseada na geometria Índice da área do tipo peak, medida baseada na geometria IASR IASV ICE ICI LRE MED MLP NCMAI NPS NR NS NSVFC QPI QPK QSR QSV RLD ROC RP SANP SE SGLDM SIM SMAd SMAg SPSS SRE TC UH VARd VARg VFC Índice da área do tipo saddle ridge, medida baseada na geometria Índice da área do tipo saddle valley, medida baseada na geometria Índice de curvatura extrı́nseca, medida baseada na geometria Índice de curvatura intrı́nseca, medida baseada na geometria Ênfase de primitivas longas, medida baseada no GLRLM Média, medida baseada no histograma Rede neural perceptron múltiplas camadas Número de coeficientes de atenuação ≥ 200 UH, medida baseada no histograma Nódulo pulmonar solitário Número de ramificações, medida baseada no esqueleto Número de segmentos, medida baseada no esqueleto Taxa entre o número de segmentos e o fecho convexo, medida baseada no esqueleto Quantidade de tipo pit, medida baseada na geometria Quantidade de tipo peak, medida baseada na geometria Quantidade de tipo saddle ridge, medida baseada na geometria Quantidade de tipo saddle valley, medida baseada na geometria Uniformidade do comprimento de primitivas, medida baseada no GLRLM Receiver operator characteristic curve Percentagem de primitivas, medida baseada no GLRLM Sistema de análise de nódulo pulmonar Erro padrão baseado na área da curva ROC Método de dependência espacial de nı́vel de cinza Simetria, medida baseada no histograma Segundo momento angular, medida baseada no GLDM Segundo momento angular, edida baseada no SGLDM Statistical package for the social sciences Ênfase de primitivas curtas, medida baseada no GLRLM Tomografia Computadorizada Unidade de Hounsfield Variância, medida baseada no GLDM Variância, medida baseada no SGLDM Volume do fecho convexo, medida baseada no esqueleto ”É melhor tentar e falhar, que preocupar-se a ver a vida passar. É melhor tentar, ainda que em vão, que sentar-se fazendo nada até o final. Eu prefiro na chuva caminhar, que em dias tristes em casa me esconder. Prefiro ser feliz, embora louco, que em conformidade viver.” Martin Luther King Jr., . 1 Introdução Desde a descoberta dos raios X em 1895, utiliza-se imagens como forma de aquisição de informações sobre o estado de saúde de pacientes. Em 1917, J. Radón elaborou teorias matemáticas que permitiriam a reconstrução tomográfica de imagens [79]. O uso de imagens intensificou-se a partir de 1967, com a criação da primeira máquina de tomografia por G. N. Hounsfield [80]. Nos dias atuais, utiliza-se diversas modalidades de imageamento na área médica. Entre elas, estão a tomografia computadorizada, ultrassonografia e a ressonância magnética. Essas formas de imageamento possuem a grande vantagem de serem não invasivas, ou seja, não há a penetração de instrumentos no corpo do paciente. Além disso, é indubitável a qualidade das imagens geradas por tais equipamentos, beneficiando atividades médicas tais como diagnóstico, planejamento cirúrgico e terapia. Tais imagens possuem um alto grau de conteúdo médico, pois contêm informações relevantes para o exercı́cio de diversas especialidades: oncologia, ginecologia, radiologia, pneumologia e cardiologia, para citar algumas. Entretanto, para o aproveitamento máximo do conteúdo nessas imagens, faz-se necessário o uso do computador pelos profissionais dessa área. O uso da Computação Gráfica na área médica aumentou exponencialmente na década passada. Pode-se apontar duas razões para esse aumento: inicialmente, o avanço na área de aquisição de dados criou uma forte demanda para o desenvolvimento de técnicas de processamento de informações, o que veio ao encontro do aumento da capacidade de processamento dos computadores; em um segundo plano, podemos afirmar que as técnicas de Computação Gráfica trouxeram um grande acréscimo de qualidade nas áreas de diagnóstico, planejamento/simulação cirúrgica e telemedicina [88]. O grau de desenvolvimento atual alcançado pelas técnicas de modelagem computacional, em conjunto com o rápido crescimento do desempenho de cálculo dos computadores, tem permitido o estudo, Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 17 desenvolvimento e solução de modelos altamente sofisticados, capazes de auxiliar, com aceitável grau de precisão, os resultados de importantes procedimentos médicos, como por exemplo, o diagnóstico de câncer. Câncer é o nome dado a todas as formas de tumores malignos. A palavra vem do latim cancer, que significa caranguejo. Esse nome deve-se à semelhança entre as pernas do crustáceo e os tentáculos do tumor, que se infiltram nos tecidos sadios do corpo. A história do câncer de pulmão no mundo é um fato assustador. O câncer de pulmão, entre os homens, é a primeira causa de morte por câncer em 38 dos 45 paı́ses para os quais a Organização Mundial de Saúde coleta e publica dados estatı́sticos. Nos paı́ses restantes, a taxa de mortalidade por câncer de pulmão é alta, sendo a segunda causa de morte por câncer nos homens [96]. Entre as mulheres do mundo, a primeira causa de morte por câncer em 34 paı́ses é o câncer de mama, seguida por câncer de estômago (6 paı́ses) e finalmente, o câncer de pulmão (5 paı́ses) [96]. No Brasil, o câncer de pulmão foi responsável por 14.069 óbitos em 1999, sendo este o tipo de câncer que fez mais vı́timas. Segundo o Instituto Nacional de Câncer – INCA [97], o câncer de pulmão atingiu aproximadamente 22.085 pessoas (15.165 homens e 4.915 mulheres) e causou 16.230 mortes em 2003. Neste mesmo ano, o câncer de pulmão foi a primeira causa de morte por câncer no sexo masculino, e a segunda causa no sexo feminino. A doença está associada ao consumo de tabaco em 90% dos casos diagnosticados e tem uma taxa de crescimento anual de 2% em sua incidência no mundo todo. Outros fatores relacionados são: agentes quı́micos, doença pulmonar obstrutiva crônica, fatores genéticos e história familiar de câncer de pulmão. O câncer de pulmão é uma das neoplasias de menor sobrevida a partir de seu diagnóstico, e o número de mortes aumenta a cada ano. Possui uma evolução lenta, de forma que o tumor pode permanecer desapercebido por muitos anos. Em sua fase sintomática, o tumor já percorreu 2/3 de sua existência e possui uma grande população de células malignas, restando apenas 1/3 da sua existência para o diagnóstico e o tratamento. Por esta razão, quanto mais cedo for diagnosticado, maior será a chance de cura do paciente, e quanto mais informações e recursos o médico dispuser, mais preciso será o diagnóstico. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 18 1.1 Motivação Existe uma grande dificuldade na definição qualificada das caracterı́sticas benignas ou malignas do Nódulo Pulmonar Solitário, bem como no acompanhamento do crescimento eventual deste tipo de nódulo de uma forma mais fidedigna. Muitas vezes, a avaliação do crescimento nodular é feita pela medição do nódulo no filme impresso da tomografia computadorizada, usando uma régua sobre a imagem, resultando em medidas pouco precisas. Embora medidas mais precisas possam ser feitas diretamente com o dado digital, muitas vezes elas não estão disponı́veis ao médicos, que freqüentemente têm acesso somente ao filme impresso. A extração cirúrgica do nódulo é a conduta tomada na maioria dos pacientes com nódulo pulmonar indeterminado. Contudo, muitas dessas intervenções poderiam ser evitadas, visto que na maioria das vezes tratase de nódulos benignos, principalmente no Brasil e em outros paı́ses em desenvolvimento, onde a incidência de tuberculose é extremamente alta. Assim, é fundamental o uso de técnicas mais precisas para melhor avaliar o crescimento nodular e suas caracterı́sticas, podendo dessa forma determinar com mais credibilidade a benignidade ou a malignidade do nódulo. Apesar de o pulmão ter em sua própria composição um contraste natural, existem dificuldades para a identificação e o diagnóstico de nódulos decorrentes de alguns fatores: 1. O órgão contém estruturas com caracterı́sticas (formas, densidades, etc.) semelhantes, que às vezes se confundem; 2. O nódulo na fase inicial, quando tem dimensões pequenas e forma mal definida, é de difı́cil diagnóstico; 3. As medidas efetuadas pelos médicos para a análise da evolução do nódulo, como, por exemplo, o seu diâmetro, são realizadas de forma artesanal, geralmente utilizando uma régua sobre a imagem; 4. O cansaço visual, o fator emocional e a experiência do médico podem influenciar no diagnóstico; 5. E por fim, a imagem tem qualidade insuficiente, em muitos casos. Para exemplificar as dificuldades no diagnóstico do nódulo pulmonar, são mostrados na Figura 1.1 dois nódulos pulmonares. Com base nestes nódulos, é possı́vel saber: 1) se os dois são malignos? 2) se os dois são benignos? 3) um é maligno e o outro é benigno? Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 19 1.1(a): Nódulo 1 1.1(b): Nódulo 2 Figura 1.1: Nódulos Pulmonares Solitários. Técnicas de processamento de imagens e visão computacional podem ser desenvolvidas para facilitar a identificação e o diagnóstico, através do paradigma conhecido como “Diagnóstico Assistido por Computador Computer-Aided Diagnosis (CAD)”. 1.2 Objetivos Para contribuir para a minimização dos problemas citados anteriormente, este trabalho visa desenvolver uma ferramenta computacional para sugerir a malignidade ou benignidade de Nódulos Pulmonares Solitários através da análise de medidas de textura e geometria. As informações decorrentes destas medidas podem ser utilizadas para fornecer uma “segunda opinião” para os médicos na rotina clı́nica básica, ou seja, eles poderão utilizar os resultados obtidos pelo computador na conduta diagnóstica de pacientes que apresentem nódulos indeterminados, isto é, aqueles que não possuem sinais radiológicos claros de malignidade ou benignidade. O presente trabalho envolve a análise e o diagnóstico de Nódulos Pulmonares Solitários utilizando-se caracterı́sticas calculadas a partir de medidas baseadas na textura e na geometria. Com a finalidade de separar mais eficientemente os nódulos benignos dos malignos, são aplicadas duas técnicas de classificação: Análise Discriminante Linear de Fisher e a Rede Neural Perceptron de Múltiplas Camadas. A Figura 1.2 resume os objetivos a serem alcançados neste trabalho. As medidas baseadas na textura têm por objetivo extrair caracterı́sticas do tecido do Nódulo Pulmonar Solitário que indiquem benignidade (calcificação, por exemplo) ou malignidade (necrose, por exemplo). Já as medidas baseadas na geometria visam extrair caracterı́sticas da forma 3D do Nódulo Pulmonar Solitário que indiquem benignidade (liso Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 20 Figura 1.2: Esquema dos objetivos deste trabalho. e com fronteira bem definida, por exemplo) ou malignidade (espiculado e com fronteira mal definida, por exemplo). A Análise Discriminante Linear de Fisher e a Rede Neural Perceptron de Múltiplas Camadas têm como objetivo o estudo das diferenças entre grupos bem definidos, com base em um conjunto relevante de caracterı́sticas dos seus elementos. Tratam-se de técnicas que procuram identificar e interpretar as diferenças existentes entre os grupos e permitem classificar indivı́duos de origem desconhecida em um dos grupos existentes. 1.3 Contribuição Como contribuições deste trabalho, podemos citar: – Adaptação de métodos clássicos de textura em processamento de imagens, como o Método de Dependência Espacial de Nı́veis de Cinza – SGLDM, o Método de Diferença de Nı́veis de Cinza - GLDM, e o Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM, para caracterizar o nódulo em 3D. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 21 – Utilização de funções geoestatı́sticas como semivariograma, semimadograma, covariograma e correlograma para análise de textura, e discriminação entre malignidade e benignidade do nódulo. – Utilização de um ı́ndice de concentração chamado coeficiente de Gini, geralmente utilizado em economia e geografia, para análise da geometria e textura do nódulo. – Utilização do esqueleto do nódulo para análise da geometria e textura do nódulo. – Comparação entre duas técnicas de classificação muito utilizadas na área de reconhecimento de padrões, a Análise Discriminante Linear de Fisher e a Rede Neural Perceptron de Múltiplas Camadas, com os objetivos de discriminar e classificar nódulos como benignos ou malignos. – Criação de uma ferramenta auxiliar no diagnóstico de Nódulos Pulmonares Solitários. 1.4 Trabalhos Relacionados Como mencionado anteriormente, a identificação e o diagnóstico precoce de Nódulos Pulmonares Solitários possibilita uma maior sobrevida ao paciente. Porém, algumas vezes, devido aos fatores já vistos, o diagnóstico pode ser muito difı́cil, o que pode levar a procedimentos desnecessários, causando até a morte do paciente. Para amenizar estes casos, algumas pesquisas, utilizando o computador como recurso, têm sido realizadas nas últimas décadas [79]. Nesta seção, estão relacionados alguns trabalhos que têm como objetivo o diagnóstico de Nódulos Pulmonares Solitários e que serviram de apoio para o desenvolvimento deste trabalho: – Automated Computerized Scheme for Distinction between Benign and Malignant Solitary Pulmonary Nodules on Chest Images [89] Neste trabalho os autores desenvolveram um método de extração e diagnóstico de Nódulos Pulmonares Solitários em radiografia convencional. O método consiste de duas fases: 1) extraindo o nódulo de forma semi-automática, o médico indica a localização do nódulo, e em seguida, as bordas são delineadas através da representação das Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 22 coordenadas polares; 2) após a extração do nódulo, são determinadas as caracterı́sticas (sexo, idade, diâmetro, circularidade, grau de irregularidade, histograma, gradiente) que servirão como entrada para o método estatı́stico de Análise Discriminante Linear e Rede Neural Perceptron de Múltiplas Camadas. Os autores concluı́ram, que utilizando a curva ROC, o resultado com Análise Discriminante Linear (área = 0.886) foi ligeiramente mais eficiente na classificação entre nódulos benignos e malignos do que a Rede Neural Perceptron de Múltiplas Camadas (área = 0.872). A idéia desse trabalho é muito semelhante ao que esta tese se propõe. Entretanto, esse trabalho foi realizado em radiografias convencionais, e portanto, levou em consideração apenas as caracterı́sticas 2D do nódulo, enquanto que a proposta desta tese é usar a tomografia computadorizada e medidas que analisem as caracterı́sticas 3D do nódulo, tanto em textura quanto em geometria. – Improvement in Detection of Pulmonary Nodules: Digital Image Processing and Computerized Diagnosis [69] Este trabalho sugere um método de visualização e detecção de nódulos pulmonares em radiografia convencional para minimizar os altos ı́ndices de falso negativos e falso positivos e, ao mesmo tempo, evitar a necessidade de se fazer outro exame utilizando tomografia computadorizada. Na primeira fase do método, duas radiografias do mesmo paciente são tiradas quase que simultaneamente no mesmo tomógrafo, ou então são tiradas duas radiografias em tomógrafos diferentes. A segunda fase consiste de quatro passos: 1) é aplicado um filtro em cada imagem para realçar a opacidade do nódulo; 2) é extraı́da a diferença entre as imagens resultantes; 3) vários nı́veis de limiares são determinados para a segmentação do nódulo a partir do histograma da imagem de diferença; e 4) os nódulos candidatos são classificados e escolhidos aplicando o algoritmo de crescimento de regiões. Os testes foram realizados com grupos de médicos radiologistas, residentes e não radiologistas, e em todos os casos em que o algoritmo proposto foi utilizado houve uma diminuição substancial de falsos negativos e falsos positivos. O foco desse trabalho é um pouco diferente desta tese. Nesse trabalho os autores buscam identificar automaticamente e visualizar nódulos, tanto malignos como benignos, em exames de tomografia Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 23 computadorizada, enquanto que nesta tese a tarefa principal é diagnosticar o nódulo segmentado anteriormente. A fase de extração (segmentação) dos nódulos da tese corresponde ao foco desse trabalho. – Computerized Detection of Pulmonary Nodules on CT Scans [57] Os autores descrevem uma ferramenta computadorizada que segmenta automaticamente o nódulo pulmonar de um exame de tomografia computadorizada. O método consiste em: 1) extrair o parênquima pulmonar; 2) reconstruir o parênquima, caso o nódulo esteja adjacente à pleura; 3) segmentar todas as estruturas internas do pulmão; e 4) diferenciar através de caracterı́sticas baseadas na textura (média e desvio padrão) e geometria (volume, esfericidade, raio equivalente à esfera, compacidade máxima e circularidade máxima) os nódulos das outras estruturas pulmonares. Depois que estas caracterı́sticas são extraı́das, é utilizada a análise discriminante para separar entre o nódulo e não nódulos. A área da curva ROC serve para determinar a eficácia do método. Os autores concluı́ram que a área da curva foi de 0.93, o que significa uma excelente discriminação. Algumas medidas utilizadas nesse trabalho, como esfericidade e compacticidade, são semelhantes às usadas nesta tese. Entretanto, o objetivo desse trabalho é separar os nódulos de outras estruturas internas do pulmão, e no caso desta tese o objetivo é obter informações que possam caracterizar o nódulo como maligno ou benigno. – The Effects of Co-occurrence Matrix Based Texture Parameters on the Classification of Solitary Pulmonary Nodules Imaged on Computed Tomography [58] O propósito desse trabalho é investigar os efeitos de variar os parâmetros da matriz de co-ocorrência em 2D (direção, distância e quantização) na classificação de nódulos pulmonares. As matrizes foram formadas usando diferentes combinações de: 1) nı́veis de quantização (8, 16, 32, 64 ou (max-min)); 2) distância entre os pixels; e 3) diferentes direções. Depois da criação de cada matriz, foram calculadas 13 medidas, baseadas no trabalho de Haralick [1]. Com uma amostra de 32 pacientes, cada caracterı́stica da textura foi extraı́da de cada combinação da matriz de co-ocorrência. Para a avaliação da performance das caracterı́sticas de textura na tarefa de classificação, foi utilizado o procedimento de seleção de variáveis Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 24 passo a passo para selecionar o menor número de medidas que separe nódulos malignos de benignos. A análise discriminante foi utilizada para determinar a função de discriminação e fazer a classificação. O melhor resultado foi obtido quando foi utilizado o esquema de quantização relativa. Foram classificados corretamente 93.8% utilizando a técnica de resubstituição e 90.6% utilizando a técnica de Jackknife. Os autores concluı́ram que as medidas de texturas, quando analisadas combinadas e com parâmetros variados (direção, distância e quantização), são muito precisas na classificação de nódulos pulmonares. O objetivo desse trabalho é classificar nódulos pulmonares como benignos ou malignos, o que corresponde ao objetivo desta tese. Entretanto, os autores utilizaram imagens em 2D e apenas a matriz de co-ocorrência (análise baseada em textura) com vários parâmetros na análise do nódulo, enquanto esta tese analisa o nódulo em 3D e utiliza na análise, além da matriz de co-ocorrência, outros métodos baseados na textura e geometria. – A Pattern Classification Approach to Characterizing Solitary Pulmonary Nodules Imaged on High Resolution CT: Preliminary Results [59] O propósito desse trabalho é caracterizar Nódulos Pulmonares Solitários como benignos ou malignos com base em medidas quantitativas de uma fatia (2D) de uma Tomografia Computadorizada de alta resolução (HRCT). A amostra é de 31 pacientes com diagnóstico confirmado por médicos, sendo 14 benignos e 17 malignos. Após a segmentação dos nódulos, várias medidas foram extraı́das relacionadas ao tamanho do nódulo, forma, coeficiente de atenuação, distribuição de atenuação e textura. A técnica de análise discriminante com o procedimento de seleção de variáveis passo a passo foi utilizada para determinar que combinações de medidas são adequadas para discriminar os nódulos entre benignos e malignos. A técnica de Jackknife foi utilizada para conferir mais confiabilidade ao diagnóstico. De todas as medidas fornecidas à analise discriminante, somente duas medidas de textura - correlação e diferença de entropia - foram escolhidas para a determinação da função. A função discriminante usando estas medidas classificou Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 25 corretamente 90.3% dos nódulos e utilizando a técnica de Jackknife, também classificou 90.3% corretamente. O foco desse trabalho é muito semelhante ao proposto nesta tese, isto é, os autores analisam o nódulo com medidas baseadas em textura e geometria, mas eles utilizaram apenas uma determinada fatia do exame. No presente trabalho, são utilizadas todas as fatias do exame em que o nódulo se encontra. – Internal Structure Analysis of Pulmonary Nodules in Topological and Histogram Feature Spaces [70] Este trabalho apresenta um método para caracterizar estruturas internas do nódulo 3D, que são importantes indı́cios para diferenciar sua benignidade ou malignidade. Neste método cada voxel foi descrito em termos do ı́ndice de forma (shape index ) [20] derivado das curvaturas (gaussiana e média) do voxel. Os voxels dentro do nódulo são agregados dentro do histograma de forma a quantificar quantas categorias de formas foram encontradas no nódulo. As caracterı́sticas topológicas (número de Euler, número de componentes conectados, cavidades e buracos) também são utilizadas na análise. Na classificação foi utilizada uma estrutura hı́brida (não supervisionada e supervisionada), k-means clustering, e análise discriminante. O método de k-means clustering analisa a similaridade dos dados e os classifica em subclasses. Este método melhora a performance da análise discriminante, pois as subclasses ficam com uma distribuição normal. Os testes foram realizados em uma amostra de 210 nódulos, sendo 141 malignos e 69 benignos. Os resultados mostraram que o método hı́brido teve melhor desempenho do que utilizando somente a análise discriminante. Esse e os próximos três trabalhos foram fundamentais no embasamento teórico sobre o assunto e, particularmente, como ponto de partida no desenvolvimento das medidas propostas nesta tese. As medidas desenvolvidas por eles, analisam basicamente a curvatura e suas derivações no nódulo pulmonar. Essas medidas foram utilizadas nesta tese, mas a diferença básica consiste no cálculo da curvatura, que os autores calcularam em relação aos voxels e nesta tese foi calculada com base na superfı́cie reconstruı́da do nódulo. Além disso, uma outra grande diferença entre o trabalho analisado e esta tese é que na tese foram desenvolvidas muitas outras medidas, abordando outros Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 26 aspectos além da geometria, o que propiciou uma melhor qualidade e eficiência no diagnóstico do nódulo. – Computer Aided Differential Diagnosis of Pulmonary Nodules Using Curvature Based Analysis [60] Este artigo apresenta outro método para caracterizar estruturas internas do nódulo 3D que faz uso do ı́ndice de forma (shape index ) e da densidade da tomografia computadorizada para representar localmente cada voxel. É criado um histograma de caracterı́sticas, baseado no ı́ndice de forma, chamado “medida de espectro de forma” (shape spectrum measures), que armazena o voxel com um determinado ı́ndice para caracterizar o nódulo. Além desse histograma, foram criadas matrizes semelhantes ao método de análise de textura, matrizes de co-ocorrência, para ı́ndice de forma e densidade. A técnica estatı́stica de análise discriminante foi utilizada para classificar nódulos benignos e malignos. Para a seleção das medidas mais significativas foi utilizado o procedimento de seleção de variáveis passo para frente. Na validação dos resultados foi utilizada a técnica de Jackknife. Os resultados foram analisados através da curva de ROC e demonstraram ser bastante encorajadores. – Curvature Based Analysis of Internal Structure of Pulmonary Nodules Using Thin-section CT Images [45] A representação da curvatura é utilizada para a caracterização de nódulos benignos e malignos. A descrição local da curvatura é obtida usando o ı́ndice de forma (shape index ) e a densidade da tomografia computadorizada. Baseado na descrição local, o método de espectro de forma (shape spectrum measures) é derivado para representar globalmente o nódulo. É criado um histograma para curvedness e outro para densidade. A eficácia da classificação do espectro de forma é avaliada para quatro regiões diferentes: 1) nódulo completo; 2) região interna do nódulo; 3) complemento da região interna do nódulo; 4) região da vizinhança ao redor do nódulo. A técnica estatı́stica de análise discriminante foi utilizada para classificar nódulos benignos e malignos. Os resultados indicam que as medidas baseadas no espectro de forma são uma boa alternativa para diagnosticar nódulos pulmonares. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 27 – Quantitative Surface Characterization of Pulmonary Nodules Based on Thin-Section CT Images [46] Este trabalho mostra um método para quantificar as caracterı́sticas de pequenos nódulos pulmonares com superfı́cie bem definida, baseado na tomografia computadorizada. O aspecto significativo deste trabalho é a extração de caracterı́sticas de curvatura (taxa de cada tipo de superfı́cie - peak, pit, saddle pit, saddle valley e a média de curvedness) como indı́cios para sugerir a malignidade ou benignidade do nódulo. Os resultados dos testes efetuados demonstram que medidas baseadas na curvatura discriminam nódulos benignos de malignos com muita eficiência. 1.5 Estrutura da Tese Esta Tese está estruturada da seguinte forma: O Capı́tulo 2 fornece uma introdução aos principais conceitos necessários para o entendimento deste trabalho. O capı́tulo inicia-se com uma visão geral de Computação Gráfica na Medicina, e com relação às formas de aquisição de imagens, mostra a importância da tomografia computadorizada na identificação e diagnóstico dos nódulos. Depois, o Nódulo Pulmonar Solitário é mostrado de forma básica. Em seguida será descrita a técnica que visa selecionar as medidas (entradas) mais significativas para fazerem parte do treinamento da Análise Discriminante Linear de Fisher e da Rede Neural Perceptron de Múltiplas Camadas. Depois, na Seção 2.3 serão estudadas duas técnicas de classificação que determinarão a benignidade ou malignidade do Nódulo Pulmonar Solitário. A primeira técnica é baseada nos métodos clássicos de estatı́stica, chamada Análise Discriminante Linear de Fisher – ALDF. Para esta técnica será apresentada a teoria básica para análise, aprendizagem e classificação entre dois grupos. A segunda técnica realiza discriminações não lineares e é chamada de Rede Neural Perceptron de Múltiplas Camadas – MLP. Para a MLP é apresentado o algoritmo de treinamento mais utilizado, retropropagação, além da utilização da rede após o treinamento e suas limitações. Para finalizar é feita uma breve comparação entre MLP e ADLF, mostrando aspectos similares entre ambas. Será descrita também uma técnica de validação cruzada do modelo, chamada deixa um de fora (leave-one-out) , que avalia mais realistamente os modelos encontrados. Por Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 28 último, será abordada a Curva ROC (Receiver Operating Characteristic), que é uma técnica freqüentemente utilizada por médicos para a avaliação de diagnósticos e algoritmos. O Capı́tulo 3 descreve todos os métodos utilizados para diagnosticar os nódulos pulmonares solitários, baseados nas suas caracterı́sticas de textura e geometria. Os métodos foram agrupados de acordo com sua função na análise. O Grupo I trata dos métodos comuns na literatura de processamento de imagens, como histograma, Método de Dependência Espacial de Nı́veis de Cinza – SGLDM, Método de Diferença de Nı́veis de Cinza - GLDM e Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM. Todos os métodos deste grupo foram adaptados para obter a caracterı́stica 3D do Nódulo Pulmonar Solitário. O Grupo II ainda trata da textura dos nódulos, mas utiliza quatro funções geoestatı́sticas para seu diagnóstico. As funções foram: semivariograma, semimadograma, covariograma e correlograma. O Grupo III descreve apenas medidas baseadas na geometria do nódulo. Foram analisadas medidas de convexidade, esfericidade, e medidas baseadas na curvatura. Por fim, no Grupo IV, são analisados métodos que levam em consideração tanto a geometria quanto a textura do nódulo: o coeficiente de Gini e o esqueleto do nódulo. O coeficiente de Gini é calculado para seis regiões distintas, determinadas pela codificação dos voxels. Com base no esqueleto são extraı́das mais oito medidas: número de segmentos, número de ramificações, fração do volume, comprimento dos segmentos, volume do fecho convexo, taxa entre o número de segmentos e o volume do fecho convexo, coeficiente de variação e momentos do histograma. Os testes e resultados serão apresentados no Capı́tulo 4. Este capı́tulo analisa cada método proposto e suas combinações em grupos para diagnosticar os NPS. Primeiro, serão detalhados todos os procedimentos iniciais básicos para a aquisição e segmentação dos nódulos, os software e hardware utilizados no desenvolvimento deste trabalho e os parâmetros necessários para a utilização dos métodos propostos e dos software utilizados. Além disso, serão feitas análises de todos dos métodos propostos e como conseqüência, será determinado qual dos métodos melhor discrimina e classifica os nódulos malignos e benignos. Por último, no Capı́tulo 5, há um resumo e são apresentadas as conclusões tiradas deste trabalho, além de serem feitas sugestões de trabalhos futuros. 2 Conceitos Básicos Neste capı́tulo será dada uma visão geral de alguns conceitos que serão de fundamental importância na compreensão dos capı́tulos seguintes, como Imagem Médica, Nódulo Pulmonar Solitário, os dois algoritmos de classificação utilizados: Análise Discriminante Linear de Fisher e Rede Neural Perceptron de Múltiplas Camadas, o procedimento de seleção de variáveis (medidas) passo a passo, a técnica para validação do modelo deixa um de fora e, por último, a técnica de avaliação de diagnóstico Curva ROC. 2.1 Imagem Médica Esta seção dá uma visão geral de alguns conceitos importantes sobre imagem médica, como aquisição da imagem, formas de tratamento de imagens em Computação Gráfica, o padrão DICOM e a técnica de interpolação linear. 2.1.1 Aquisição da Imagem As técnicas de aquisição de imagens médicas podem ser divididas em invasivas e não invasivas, de acordo com a forma como são obtidas. Os métodos invasivos caracterizam-se pela introdução de um instrumento no interior do corpo humano, de forma a obter as imagens pretendidas. Nesta categoria incluem-se as angiografias e as imagens de medicina nuclear. Nos métodos não invasivos incluem-se os raios X, ultra-sonografia, tomografia computadorizada e ressonância magnética. Os dados volumétricos extraı́dos desses métodos são geralmente adquiridos na forma de imagens de fatias paralelas uniformemente espaçadas, representando cortes transversais ao eixo longitudinal do paciente. Comumente nas regiões de maior interesse são feitos cortes mais Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 30 próximos, permitindo uma maior visualização dos dados. Cada imagem gerada está associada a uma localização k, k = 1, 2, ..., l, no eixo z e uma espessura ∆z = e em torno desta localização, formando um cubóide. O cubóide é subdividido em outros cubóides pequenos chamados voxels. O voxel é equivalente a pixel em 3D e representa uma abreviação para volume element. Cada pixel da imagem está associado a um voxel. O valor associado a cada pixel representa a média das atenuações do raio X no volume interno do corpo correspondente ao voxel. Os valores destas atenuações são expressos em Unidades de Hounsfield (UH) [38]. Tais valores são obtidos pela exposição do corpo ao bombardeamento de raios X em várias direções. O valor associado a cada voxel é um número inteiro, proporcional ao tom de cinza do pixel na imagem correspondente, e representa a integração de alguma propriedade fı́sica que está sendo mensurada no interior do volume associado ao voxel. No caso da tomografia computadorizada, por exemplo, a grandeza fı́sica medida é a densidade do tecido. Quanto maior for a densidade do tecido, maior serão as atenuações e, portanto, maior serão os valores dos pixels nas imagens dos cortes referentes a este tecido. Nas próximas seções serão abordadas as caracterı́sticas gerais de quatro métodos não invasivos de aquisição de imagens médicas. Raio X Em 1895, o fı́sico alemão Wilhelm Rontgen descobriu os raios X, descoberta que viria a revolucionar o meio cientı́fico, e em especial a Medicina [79]. Na formação de uma imagem de raio X é emitida uma determinada fonte de radiação, que atravessa o corpo humano e é projetada num filme sensı́vel. Os diferentes tecidos do corpo humano absorvem a radiação emitida em quantidades distintas, de forma que os raios atingem o filme com diferentes intensidades, dependendo da radiação absorvida. Ressonância Magnética A ressonância magnética é principalmente aplicada a “tecidos moles”. No interior do corpo humano, todos os núcleos atômicos possuem um determinado campo magnético, o que significa que eles se comportam como pequenos ı́mãs. Quando o paciente é colocado no interior de um tubo capaz de gerar um elevado campo magnético, os núcleos alinham-se na direção deste campo, vibrando em torno do seu eixo com uma freqüência que Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 31 depende fundamentalmente do tipo de núcleo, o que permite distinguir os diversos tipos de tecidos. Ultra-sonografia Nas imagens produzidas por ultra-som são usados impulsos sonoros de alta freqüência, em vez de energia de radiação. Um emissor é manipulado por um operador sobre o corpo do paciente, permitindo obter imagens em tempo real. Assim que uma onda sonora encontra um tecido, uma parte dela é refletida, sendo o tempo que leva a regressar ao ponto de origem (eco) proporcional à distância a que se encontra o tecido. A amplitude do sinal de eco depende das propriedades acústicas dos tecidos e manifesta-se na imagem gerada sob a forma de diferentes intensidades no brilho produzido. Tomografia Computadorizada A Tomografia, derivada da palavra grega “Tomos”, que significa corte ou fatia, e “Grafos”, que significa desenhar uma imagem ou gráfico, emprega os mesmos princı́pios da radiografia convencional com o objetivo de criar uma representação anatômica baseada na quantidade de atenuação sofrida pela radiação incidente. O nome Tomografia Computadorizada (TC) devese ao fato dessa técnica ser altamente dependente de computadores para realizar os cálculos matemáticos relativamente complexos referentes às informações coletadas durante a emissão e rotação dos raios X. Na TC, o feixe de raios X que atravessa o corpo é muito colimado e fino, reduzindo sobremaneira a produção de raios secundários que degradariam a imagem. Diferentemente do estudo radiológico convencional, os raios X não impressionam filmes após atravessarem o corpo, mas são captados por detectores de fótons e as medidas de atenuação tissular são calculadas e armazenadas no computador. Tais mensurações são feitas em Unidades de Hounsfield (UH). A Figura 2.1 ilustra o funcionamento de uma TC. Quanto mais densas as regiões do corpo, maiores serão seus valores de atenuação em UH. Assim, o ar contido nas vias respiratórias e no tubo digestivo tem valores mais negativos, como -800 UH ou -1000 UH, e os ossos, os mais positivos, tais como 400 UH ou 500 UH. A água é usada para a calibração do equipamento e seus valores de atenuação estão entre 0 e ±10 UH [14], [80]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 32 Figura 2.1: Funcionamento de http://www.geocities.com/siumingrd/CT). uma TC (Fonte: Na realidade, a imagem obtida com equipamentos de TC é o resultado da disposição na tela do monitor de uma enorme quantidade de números lado a lado e em linhas, que representam coeficientes de atenuação tissular, produtos de cálculos efetuados pelo computador enquanto o feixe de raios X atravessa a área estudada. Cada valor numérico corresponde a uma tonalidade em escala de cinza, que vai do preto ao branco. As áreas mais escuras indicam menor densidade e as mais claras indicam maior densidade. A Figura 2.2 exemplifica uma TC do tórax e mostra algumas estruturas encontradas no exame. Figura 2.2: Tomografia computadorizada do tórax. A TC é de fundamental importância no diagnóstico precoce do Nódulo Pulmonar Solitário, pois é muito sensı́vel a diferenças em densidades, podendo identificar lesões menores que 1 mm3 . Devido a essas Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 33 caracterı́sticas, a TC identifica calcificações com mais precisão do que outros métodos radiográficos, e possibilita um diagnóstico mais confiável, trazendo como conseqüência maior sobrevida para o paciente. 2.1.2 Computação Gráfica e Medicina Podem-se identificar quatro técnicas básicas de Computação Gráfica que são amplamente utilizadas na área médica: representação de dados, processamento de imagens, reconstrução e visualização [61]. Representação de dados A representação da imagem trata da caracterização da quantidade de pixels que representa a imagem e como ela é representada de forma compacta para armazenamento e transmissão. O modo de representar e armazenar uma imagem em computador influi decisivamente no desempenho dos algoritmos que implementam as operações de manipulação e análise. Determina, também, o espaço de memória (estática ou dinâmica), o que, em algumas aplicações, é importante devido ao grande volume de dados que constituem a imagem. Processamento e Análise de Imagens Uma vez equacionado o problema de aquisição e representação de dados, a fase seguinte consiste em efetuar o processamento dos dados de forma a obter os resultados desejados. Dentre os métodos de processamento, podemos destacar a segmentação e o registro. O problema de segmentação consiste em classificar regiões de uma imagem com diferentes atributos (cor, opacidade, profundidade, textura, etc.). Isto é conseguido através de um particionamento do domı́nio da imagem baseado em propriedades da função de atributos. Um particionamento muito usado consiste em determinar regiões do domı́nio da imagem nas quais alguns dos atributos têm valores diferenciados dos demais. O problema de registro de imagens consiste em alinhar objetos em duas ou mais imagens. Essas imagens podem ter sido obtidas, por exemplo, em instantes diferentes, por sensores diferentes ou de ângulos diferentes. Para registrar duas imagens, faz-se necessário determinar uma transformação tal Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 34 que cada ponto na primeira imagem possa ser mapeado em um ponto na segunda. Esse mapeamento deve alinhar as duas imagens da melhor maneira possı́vel, sendo que o significado de “melhor maneira” depende dos objetos a serem alinhados nas duas imagens. Reconstrução A reconstrução consiste em obter a geometria e a topologia de um objeto gráfico a partir de suas amostras. Os equipamentos médicos de aquisição de dados, por exemplo, capturam “amostras” dos diversos órgãos, e é preciso desenvolver técnicas que possibilitem uma reconstrução tridimensional do órgão a partir dessas amostras. Portanto, o problema de reconstrução consiste em recuperar um objeto representado por um conjunto de dados amostrados. Para reconstruir um objeto, é necessário que a representação inclua ainda, um modelo de como a geometria varia entre as amostras. Em geral, esta a variação é obtida com o uso de algum método de interpolação aplicado aos dados amostrados. Visualização A visualização volumétrica consiste em obter informações visuais sobre dados médicos de naturezas diversas. A visualização volumétrica de objetos anatômicos elucida a sua estrutura tridimensional. Dados volumétricos são valores estruturados geometricamente em um volume e, em geral, são obtidos a partir de três tipos de processos: a) scanners tridimensionais (ressonância magnética, tomografia computadorizada, etc.), b) simulações baseadas em modelos computacionais, e c) da conversão de um modelo geométrico. Existem duas classes de técnicas de visualização de volumes, que se traduzem nas que trabalham com a extração de uma isosuperfı́cie representada através de primitivas gráficas e nas que trabalham gerando a imagem diretamente a partir do volume. Técnicas de visualização através de superfı́cies envolvem a extração e a representação de uma isosuperfı́cie que é posteriormente visualizada através da utilização de técnicas convencionais da Computação Gráfica. Entre os algoritmos de visualização através de superfı́cies destacam-se o de conexão de contornos [21] e o marching cubes [13]. Este último foi o algoritmo de visualização adotado neste trabalho. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 35 A segunda classe, visualização direta de volume, consiste em representar o volume através de voxels 3D que são projetados diretamente em pixels 2D e armazenados como uma imagem, dispensando o uso de primitivas geométricas. Os algoritmos que fazem parte deste grupo são [90], [21]: ray casting, splatting, shear-warp, shell rendering, cellprojection e V-Buffer. 2.1.3 Padrão de Imagens DICOM O padrão DICOM (Digital Imaging and Communications in Medicine) é uma especificação detalhada que descreve um meio de formatar e trocar imagens juntamente com informações associadas. É dirigido aos mecanismos de operação da interface usados para transferir dados de e para um determinado dispositivo de imagem. Essa especificação relaciona ligações de redes normatizadas e dispositivos de armazenamento (Media Storage Devices), responsáveis pela comunicação e arquivo de imagens digitais, provenientes de tomografia computorizada, ressonância magnética, medicina nuclear, ultra-sonografia, raios X, etc. A comissão ACR-NEMA (American College of Radiology - National Electrical Manufacturers Association) foi criada em 1983 com a missão de desenvolver uma interface entre os equipamentos de imagens médicas (tais como tomografia computorizada, ressonância magnética, medicina nuclear e ultra-sonografia) e qualquer outro dispositivo com que se quisesse comunicar. Além das especificações para a ligação do hardware, o padrão a desenvolver deveria incluir um dicionário de elementos de dados, que possibilitasse a interpretação e a visualização correta da imagem [71]. A especificação do padrão DICOM 3.0 encontra-se dividida em 13 partes. Tal divisão permite que cada parte possa expandir-se individualmente sem haver necessidade de reeditar todo o padrão. Dentro das partes, as seções sujeitas a adições ou modificações encontram-se em suplementos, reduzindo assim o esforço de edição necessário quando da sua atualização [39]. A adoção do padrão DICOM pelas indústrias de imagem médica abre novas oportunidades para organizações de cuidados à saúde para aumentar a qualidade e a eficiência nos cuidados aos pacientes. O sistema DICOM permite que informações sobre um paciente viajem entre lugares diferentes do mundo via modem, o que é mais barato e mais rápido do que outros Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 36 meios de transporte. Além disso, as imagens não perdem a definição e, conseqüentemente, a interpretação das imagens pelas entidades médicas é mantida, já que a qualidade gráfica não se altera. A Figura 2.3 ilustra a estrutura da imagem no formato DICOM. Este formato de imagem é o utilizado neste trabalho. Figura 2.3: Estrutura da imagem no formato DICOM. 2.1.4 Interpolação A Figura 2.4 mostra um dado volumétrico. Pode-se notar nesta figura que d define a qualidade da amostragem na direção z e que a dimensão p dos pixels define a qualidade nas direções x e y. A relação entre d e p dita o grau de anisotropia da amostragem. A interpolação tem por objetivo melhorar a qualidade da amostragem, estimando valores amostrados em uma nova escala e gerando uma amostragem isotrópica. Esta correção de escala é importante neste trabalho para calcular as medidas propostas, em imagens de TC com espaçamentos diferentes entre fatias. Desta forma, a interpolação uniformiza o máximo possı́vel as imagens que contêm os nódulos. A Figura 2.5 ilustra a transformação ocorrida no espaço do voxel na operação de interpolação. O espaço tem resolução de 2 × 2 × 2 voxels (m = n = l = 2) e as dimensões dos voxels são ∆x = ∆y = p e ∆z = 2p. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 37 Figura 2.4: Espaço amostral do voxel [56]. Para obter voxels cúbicos com dimensões ∆x = ∆y = ∆z = p/2, novas amostras podem ser interpoladas nas fatias 1 e 2, aumentando a resolução das fatias para 4 × 4 pixels, e novas fatias com resolução 4 × 4 pixels podem ser interpoladas entre as fatias 1 e 2. A base para a interpolação são as densidades dos 8 voxels do espaço original. Figura 2.5: Exemplo de interpolação [56]. O exemplo da Figura 2.5 mostra que, para conseguir voxels cúbicos, com dimensões ∆x = ∆y = ∆z = p, basta apenas interpolar amostras na direção z. Esta é a forma mais comum de interpolação. Entretanto, a interpolação nas direções x, y e z é a mais genérica. Neste trabalho será usada apenas uma interpolação linear em relação a z. A Figura 2.6 ilustra o processo de interpolar uma fatia m entre as fatias n e n+1. A interpolação linear assume que a variação de densidade é linear na direção z entre os voxels vn e vn + 1. A densidade di (vm ) é obtida por: di (vm ) = do (vn ) + (do (vn + 1) − do (vn )) li ls + li (2-1) onde di é a densidade interpolada, do é a densidade original, ls + li (espaçamento entre as fatias n e n+1 ). O procedimento é repetido para os outros voxels da fatia m a serem interpolados. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 38 Figura 2.6: Interpolação linear [56]. 2.2 Nódulo Pulmonar Solitário A identificação de um Nódulo Pulmonar Solitário (NPS) é um problema freqüente na prática radiológica. O radiologista tem um papel determinante na avaliação adequada das caracterı́sticas morfológicas deste tipo de lesão e na orientação da conduta mais apropriada para o seu tratamento. É importante salientar que se o câncer de pulmão for identificado e diagnosticado com tamanho inferior a 3 cm, há uma chance de sobrevivência do paciente de 80% [81]. O NPS é caracterizado como uma imagem discreta (isolada), aproximadamente esférica, com densidade maior que a do ar, com contornos definidos e tamanho de até 3 cm. Se o nódulo tiver mais de 3 cm é denominado “massa”. A massa tem as demais caracterı́sticas semelhantes às do nódulo e deve parecer ter atingido essas dimensões por crescimento. Várias enfermidades podem se manifestar nos NPS, mas as principais causas são o carcinoma broncopulmonar 1 (44%), seguido de tuberculose pulmonar (23%), tumores benignos (13%), a metástase (9%) e os abscessos 2 (5%) [81]. 1 2 Um tipo de câncer de pulmão formado por células primárias do pulmão. São como um furúnculo no pulmão. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 39 2.2.1 Natureza do Nódulo Para se fazer uma hipótese diagnóstica, devem ser levados em consideração três fatores principais: caracterı́sticas radiográficas, dados clı́nicos e freqüência estatı́stica de determinados processos [38]. As caracterı́sticas radiológicas da lesão são de grande auxı́lio, até mesmo podendo definir a natureza benigna ou maligna de um NPS. Nessa avaliação utilizam-se os princı́pios gerais de descrição de qualquer imagem médica, que englobam seis aspectos fundamentais: 1) forma, 2) densidade (estrutura), 3) limite, 4) localização, 5) número, e 6) evolução (mudança) [38], [62]. Os cinco primeiros aspectos descrevem as caracterı́sticas geoespaciais do nódulo, enquanto o último se refere à sua condição evolutiva-temporal. Com muita freqüência, os médicos especialistas não contam com as caracterı́sticas listadas acima para classificar o nódulo como benigno. A lesão será, então, considerada de natureza indeterminada, o que é insuficiente para definir uma conduta a ser adotada. Geralmente, há a expectativa de que seja avaliada a probabilidade de determinada lesão ser ou não de natureza maligna. Essa avaliação deve ser compreendida como uma opção reservada, repleta de limitações, que será importante basicamente naqueles casos em que o risco cirúrgico for muito grande, quando comprovado a um eventual erro de diagnóstico. Os principais dados a serem considerados para inferir sobre a probabilidade de benignidade e malignidade de uma lesão, sob a ótica do diagnóstico por imagem, são [38]: a) modificação temporal-evolutiva; – o tempo de duplicação de uma lesão situa-se entre 30 e 450 dias, e seu achado será sugestivo de malignidade. Para que um nódulo atinja 1 cm de diâmetro, a partir de uma única célula neoplásica, o tempo exigido é de dois anos e meio a 25 anos; – uma lesão que se duplique em menos de sete dias sugere fortemente que sua natureza seja benigna. b) presença e tipos de calcificação(ões); – a calcificação difusa, da subtotalidade da lesão, é um achado muito sugestivo de benignidade; – mais de 30% das lesões não calcificadas podem ser consideradas de natureza benigna; Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 40 – a calcificação em nódulos malignos é um achado pouco freqüente, mas não raro, e pode ocorrer por alteração distrófica, ossificação do tumor ou inclusão de granuloma calcificado previamente existente, que em geral é excêntrico e discreto. c) tamanho absoluto da lesão; – menos de 5% das lesões benignas têm mais de 3 cm; – lesões menores de 1 cm, identificadas na tomografia computadorizada do tórax, tanto podem ser de natureza maligna como benigna. d) interface nódulo-parênquima; – configuração lobulada com limites espiculados são indı́cios fortes de malignidade; – contornos lisos e regulares (não lobulados), sem infiltração do parênquima circunjacente, são sugestivos, porém não conclusivos, de benignidade; – configuração regular com limites precisos (circunscritos, sem espı́culas) em uma lesão que sofre de modificação da forma com a mudança de decúbito 3 , é muito sugestiva de lesão cı́stica de conteúdo lı́quido, e em sua grande maioria, benigna. e) variação de densidade após impregnação de contraste endovenoso. Será considerado benigno do ponto de vista radiológico um nódulo em que se identifique [62], [72], [40], [38]: i) calcificação difusa, central ou em camadas; ii) limites precisos (liso, circunscrito) em uma lesão que sofre modificação em sua forma com a mudança de decúbito; iii) tempo de duplicação de uma lesão menor que sete dias; iv) ausência de crescimento por mais de dois anos. Os dados clı́nicos e a freqüência estatı́stica de determinados processos mórbidos são fatores essenciais para o diagnóstico do nódulo. Por exemplo, a incidência de determinadas doenças em relação à faixa etária, sexo ou ao habitat do paciente. Assim, seria pouco provável que um NPS em uma 3 Posição adotada pelo paciente no leito: ele pode estar deitado com a barriga para cima (decúbito dorsal), de barriga para baixo (decúbito ventral), ou de lado (decúbito lateral). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 41 criança correspondesse a carcinoma brônquico. Por outro lado, um nódulo teria grande probabilidade de ser carcinoma brônquico se identificado em paciente tabagista ativo ou passivo, com história familiar de neoplasia, com mais de 40 anos, com emagrecimento ou ainda com pneumonias de repetição, num mesmo local. As Figuras 2.7 e 2.8 resumem a provável natureza do nódulo para diagnóstico do NPS em relação ao coeficiente de atenuação e à forma, respectivamente [38]. Observa-se que cada uma das caracterı́sticas pode sugerir um ou mais tipos de lesão. Figura 2.7: Provável diagnóstico do NPS em relação ao coeficiente de atenuação. Na maior parte das ocasiões os NPS são indeterminados, isto é, não existem dados suficientes para que os médicos o diagnostiquem como malignos ou benignos. Assim, é preciso utilizar um algoritmo que permita combinar a precaução de não deixar de estudar processos malignos e evitar técnicas desnecessárias em processos benignos. A Figura 2.9 resume este algoritmo [82]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 42 Figura 2.8: Provável diagnóstico do NPS em relação à forma. 2.3 Técnicas para Analisar, Discriminar e Classificar Em termos gerais, o reconhecimento de padrões é a ciência que compreende a identificação ou classificação de medidas de informações em categorias. Categorias têm por caracterı́stica representar entidades ou padrões de informação que apresentam similaridades. O reconhecimento de padrões é composto de um conjunto de técnicas e abordagens que são usadas de forma integrada na solução de diversos problemas práticos, como por exemplo a identificação de um nódulo pulmonar como maligno ou benigno. Entre as abordagens que podem ser empregadas na classificação de problemas pode-se destacar a Análise Discriminante Linear de Fisher e Rede Neural Perceptron de Múltiplas Camadas (Multilayer Perceptrons). Neste trabalho foram utilizadas duas técnicas para discriminar e classificar os NPS. A Análise Discriminante Linear de Fisher foi escolhida devido ao seu grande potencial em classificação, e é muito utilizada nos trabalhos analisados (Seção 1.4). A Rede Neural Perceptron de Múltiplas Camadas foi escolhida pelo fato de ser simples e nos últimos anos estar sendo amplamente utilizada como ferramenta de diagnóstico. Com essas duas técnicas, será realizada a comparação entre elas, com o objetivo de verificar a eficiência na classificação dos NPS. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 43 Figura 2.9: Algoritmo para diagnóstico dos NPS. A Análise Discriminante Linear de Fisher (ALDF) é uma técnica estatı́stica que permite discriminar e classificar indivı́duos pertencentes a dois ou mais grupos mutuamente exclusivos definidos a priori, com base em um número de variáveis independentes observáveis. Essas variáveis observáveis são chamadas de “variáveis discriminantes”. Para isso é calculada uma “função discriminante”, que é uma função composta por ı́ndices, onde cada ı́ndice tem um peso especı́fico. Esses pesos são calculados por uma metodologia estatı́stica não subjetiva. Redes Neurais Artificiais são técnicas computacionais que têm se mostrado extremamente eficientes na solução de problemas para os quais os métodos tradicionais da computação convencional não têm apresentado soluções satisfatórias, sendo uma de suas áreas de maior potencial de Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 44 aplicação justamente problemas ligados ao reconhecimento de padrões. Uma rede neural pode ser vista como um conjunto de elementos processadores simples, baseados em neurônios, que são ligados uns aos outros através de conexões análogas às sinapses. Estas conexões guardam o “conhecimento” da rede e os diversos padrões de conectividade expressam os vários objetos representados pela rede. O conhecimento da rede é adquirido por meio de um processo de treinamento no qual as conexões entre as unidades são variadas através das mudanças de pesos. Dentre os diversos algoritmos de redes neurais, o algoritmo Perceptron de Múltiplas Camadas (MLP) é um dos mais utilizados devido à sua simplicidade e eficiência. 2.3.1 Análise Discriminante Linear de Fisher A técnica multivariada da análise discriminante trata dos problemas relacionados com a separação de conjuntos distintos de objetos (ou observações) e a alocação de novos objetos (observações) em conjuntos previamente definidos. Essa técnica está inserida em um contexto mais amplo, que é o do reconhecimento de padrões. Seu objetivo é construir uma regra de reconhecimento de padrões e classificação. A análise discriminante e a de classificação são técnicas multivariadas interessadas, respectivamente, na separação de uma coleção de objetos distintos e na alocação de novos objetos em grupos previamente definidos [28]. Apesar de estarem claramente interligadas, não devem ser confundidas. A análise discriminante se refere aos métodos de atribuição de classes a determinados conjunto de dados. Por exemplo, pode-se considerar NPS benignos e malignos; cada um seria um grupo, diferenciado pela função discriminante. Já a classificação se refere à alocação de novos NPS nos seus devidos grupos correspondentes. As discriminações podem ser feitas através dos processos supervisionados que são utilizados quando se conhece o padrão (dados para treinamento) ou através dos processos não supervisionados, sendo estes recomendados quando não se tem um padrão reconhecido. A análise discriminante é um método supervisionado de concepção estatı́stica. Ela deve ser empregada quando as seguintes condições puderem ser atendidas [28], [2]: a) os grupos sob investigação são mutuamente exclusivos; b) cada grupo é obtido de uma população normal multivariada; Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 45 c) as matrizes de covariância relativas a cada grupo são iguais; d) devem existir no mı́nimo dois grupos: g ≥ 2, onde g é número de grupos; e) devem existir pelo menos dois indivı́duos por grupo: Ni ≥ 2, onde Ni é o número de indivı́duos do grupo i; f ) duas medidas não podem ser perfeitamente correlacionadas (rij 6= 1); g) o número máximo de variáveis é igual ao número de observações menos dois: 0 < n < (N − 2). O objetivo da análise discriminante é determinar um conjunto de coeficientes discriminantes para um conjunto de variáveis independentes que forneçam uma ponderação linear capaz de extrair a maior quantidade possı́vel de informação quanto à classificação dos indivı́duos nos grupos. Ela visa maximizar a variância entre grupos (intergrupal) em relação à variância dentro dos grupos (intragrupal), considerando-se amostras previamente classificadas dos diversos grupos. Como resultado, a análise discriminante é um sistema de escores. O escore é determinado multiplicando-se o peso discriminante pelo valor de cada variável independente do indivı́duo e somando-se os resultados. Uma vez que esse escore é determinado, o indivı́duo é classificado como pertencente a um dos grupos analisados. A análise discriminante envolve derivar combinações lineares de variáveis independentes que irão discriminar entre grupos definidos a priori tal que as taxas de má classificação sejam minimizadas. É importante salientar que a eficiência de uma técnica é proporcional à qualidade das informações disponı́veis, enfatizando-se a importância da fase de coleta de dados. Análise Discriminante de Fisher para Discriminação entre Dois Grupos Este trabalho tem por objetivo classificar os NPS como benignos ou malignos. Estes grupos serão designados por π1 e π2 , respectivamente. Os nódulos são separados e classificados com base em suas medidas, associadas a p variáveis aleatórias X T = [X1 , X2 , . . . , Xp ]. O objetivo é achar a combinação linear de Y = bT X para a qual a razão entre a variância da diferença entre as médias dos dois grupos π1 e π2 e a variância total seja maximizada. Isto é, deseja-se obter um vetor de Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 46 pesos b que maximize [3]: T b (µ1 − µ2 )2 P ∆= bT b (2-2) P onde µ1 e µ2 são as médias de π1 e π2 , respectivamente, e é a matriz de covariância de X1 , X2 , . . . , Xp . Como geralmente os parâmetros da população não são conhecidos, P usa-se X em vez de µ, e S em vez de . Pode-se mostrar que b é dado por [3]: b = S −1 X 1 − X 2 (2-3) onde b é o vetor de pesos, S −1 é inversa da matriz de covariância amostral da população, X 1 é o vetor da média amostral de π1 , e X 2 é a média amostral de π2 . O cálculo de S pode ser obtido de duas formas [3]. A primeira forma é através da equação: S= (n1 − 1)S1 + (n2 − 1)S2 n1 + n2 − 2 (2-4) onde S é matriz de covariância conjunta, S1 e S2 são as matrizes de covariância de π1 e π2 , respectivamente, e n1 e n2 são os números de indivı́duos de π1 e π2 , respectivamente. A segunda forma é através da equação: S =W +B (2-5) onde W é matriz de covariância intragrupo e B é a matriz de covariância intergrupo. A matriz de covariância intragrupo (W ) é definida por: W = p ni X X Xij − X i 2 (2-6) i=1 j=1 i = 1, . . . , p; j = 1, . . . , ni , e Xi = 1 ni X ni j=1 Xij (2-7) Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 47 onde p é o número de amostras, ni é o tamanho da i-ésima amostra, Xij observações (j-ésima observação da i-ésima amostra), e X i é a média amostral para a i-ésima amostra. A definição da matriz B de variância intergrupo das n variáveis calculada sobre a nuvem dos centros de gravidade ponderados é dada por: B= p ni X X Xi − X 2 (2-8) i=1 j=1 X p ni X 1 Xij X= n i=1 j=1 n= p X (2-9) ni (2-10) i=1 onde n é o tamanho da amostra e X é a média amostral global. Classificação A regra de classificação, a partir da função discriminante (Y ), que aloca cada indivı́duo das amostras em um dos grupos é [15], [2]: – Aloca o indivı́duo (X0 ) no grupo π1 se Ŷ0 = bT X0 ⇒ Ŷ0 = X̄1 − X̄2 T S −1 X0 ≥ m̂ (2-11) onde m̂ = 1h T i 1 Ȳ1 + Ȳ2 = X̄1 − X̄2 S −1 X̄1 + X̄2 2 2 – Caso contrário, aloca o indivı́duo (X0 ) no grupo π2 . O método de Fisher pode ser estendido para mais de duas populações, mas como isso não faz parte do escopo deste trabalho são sugeridos outros trabalhos [28], [4], [15] e [3] para se obter um melhor aprofundamento do assunto. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 48 Seleção de Medidas No inı́cio de uma análise, dispõe-se de uma grande quantidade de medidas preditoras. Dessa forma, é necessário fazer uma seleção para identificar quais as principais medidas, e que, conseqüentemente, farão parte da função discriminante e da rede neural MLP. Embora se possa utilizar tantas medidas quanto quisermos, na prática nem todas acrescentam informação no sistema estudado. Existem várias técnicas para selecionar variáveis para o modelo [4], [28], [15], mas neste trabalho será utilizado o procedimento de seleção de variáveis passo a passo para a análise discriminante. No caso de dois grupos (que é o relevante para este trabalho), este procedimento é equivalente ao de regressão linear passo a passo [4]. A decisão sobre as variáveis que entram e saem do modelo é baseada na denominada estatı́stica F, que é empregada para verificar a adequação do modelo de discriminação. Ela tem este nome porque, sob a hipótese de que as médias de todos os grupos sejam iguais, ela tem uma distribuição F [47], [6]. A estatı́stica F avalia a relação existente entre a variância da função de discriminação Y = bT X entre grupos (intergrupal) e a variância dentro dos grupos (intragrupal). Quanto maior a diferença entre os grupos, maior será o valor de F. A Tabela 2.1 mostra as equações utilizadas para calcular o valor de F. Fonte de Variação Intergrupo Somatório dos Quadrados p P Graus de Erro Valor de F Liberdade quadrático Médio 2 p−1 M1 = B p−1 2 n−p M2 = W n−p S =B+W p P ni 2 P S= Yij − Ȳ n−1 B= ni Ȳi − Ȳ j=1 Intragrupo W = p P ni P Yij − Ȳi i=1 j=1 Total M1 M2 i=1 j=1 onde p é o número de grupos, ni é o número no i-ésimo pde observações P grupo, n é o número total de observações ni , Ȳi é média da função i=1 ! ni P Yij , e Ȳ é a média global discriminante para o i-ésimo grupo ni j=1 ! p P ni P Yij . n i=1 j=1 Tabela 2.1: Cálculo da variância e do valor de F. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 49 O procedimento passo a passo utiliza, na verdade, a chamada estatı́stica F-parcial. Suponhamos que o processo de discriminação seja feito com base nas variáveis X1 , ..., Xr e que desejemos examinar se vale a pena introduzir a nova variável Xr+1 . A estatı́stica F-parcial −B1 , onde W é calculado como na Tabela 2.1, é definida como B2W n−p enquanto B1 e B2 representam a variância intergrupo para as funções discriminantes calculadas com base nas variáveis X1 , ..., Xr e X1 , ..., Xr , Xr+1 , respectivamente. Deste modo, a diferença B2 −B1 descreve a redução no erro de classificação ocasionada pela introdução de Xr+1 . Quanto maior é esta redução, mais atraente é a introdução de Xr+1 no modelo. Em cada passo do método, é calculado um valor “F para entrar” para cada variável ainda não incluı́da no modelo, que corresponde à estatı́stica F-parcial descrita acima. Por outro lado, é calculado um valor “F para sair” para cada variável já incluı́da no modelo e que corresponde à estatı́stica F-parcial relativa a esta variável, considerando o modelo obtido com sua exclusão. Novas variáveis cujo “F para entrar” seja superior a um valor α1 previamente especificado são incluı́das no modelo, enquanto variáveis cujo “F para sair” seja inferior a um outro valor α2 são excluı́das. O processo termina quando não há novas variáveis a incluir ou excluir. A Figura 2.10 resume o procedimento de seleção de variáveis passo a passo descrito anteriomente. Figura 2.10: Procedimento de seleção de variáveis passo a passo. As medidas selecionadas com o procedimento de seleção de variáveis passo a passo para a análise discriminante, serão as mesmas utilizadas como entrada para a Rede Neural Perceptron de Múltiplas Camadas [63]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 50 2.3.2 Redes Neurais Perceptrons de Múltiplas Camadas Redes neurais artificiais têm sido aplicadas com sucesso nos mais diversos problemas [73], [32], [64], [19]. Embora existam inúmeras arquiteturas de redes neurais, a arquitetura Perceptron de Múltiplas Camadas (Multilayer Perceptron) é, sem dúvida, a mais freqüentemente encontrada na literatura. Entre as razões para sua popularidade podemos destacar sua flexibilidade para formar soluções de qualidade para uma ampla classe de problemas, a partir de um mesmo algoritmo de aprendizado. As Redes Neurais Perceptrons de Múltiplas Camadas (MLP) são arquiteturas nas quais os neurônios são organizados em duas ou mais camadas de processamento, já que sempre vai existir uma camada de entrada e uma de saı́da. As redes com apenas duas camadas, uma de entrada e outra de saı́da, apresentam limitações importantes e podem ser aplicadas com sucesso a uma classe restrita de problemas [33]. No entanto, com a utilização da MLP com mais de duas camadas (pelo menos uma escondida), muitas das limitações apresentadas pelo perceptrons foram solucionadas [83]. A Figura 2.11 exemplifica uma rede neural com uma camada escondida. Esta arquitetura é geralmente referida como 3-4-1, ou seja, 3 neurônios de entrada, 4 neurônios escondidos e 1 neurônio de saı́da. Para generalizar, podemos dizer que uma rede com p entradas, h1 neurônios na primeira camada escondida, h2 na segunda camada escondida e q neurônios na camada de saı́da é descrita por p-h1 -h2 -q. Figura 2.11: Modelo de uma rede MLP (3-4-1). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 51 Algoritmo de Treinamento – Retropropagação (Backpropagation) A mais importante propriedade de uma rede neural é sua capacidade de aprendizado. Uma rede aprende através de um processo iterativo de ajustes aplicados aos seus pesos sinápticos e limiares. O processo de aprendizagem de uma rede neural implica na seguinte seqüência de eventos [31]: 1. A rede é estimulada pelo ambiente de informação; 2. A estrutura da rede é alterada como resultado do estı́mulo; 3. Em virtude das alterações que ocorreram em sua estrutura interna, a rede tem modificada sua resposta aos estı́mulos do ambiente. Um tipo particular de aprendizagem que será utilizado neste trabalho é o supervisionado. Esse tipo de aprendizado é caracterizado pela presença de um “professor” externo. A função do “professor” durante o processo é suprir a rede neural com uma resposta desejada a um determinado estı́mulo. O algoritmo de aprendizagem por retropropagação (Backpropagation) é baseado na regra de aprendizagem por correção de erros. O algoritmo utiliza pares de entradas e saı́das desejadas e, por meio de um mecanismo para correção dos erros, ajusta os pesos da rede. Para a minimização do erro obtido pela rede e o ajuste dos pesos, o algoritmo utiliza a regra de delta generalizada, com aplicação do gradiente [83], [63], [34]. Durante o treinamento com o algoritmo de retropropagação, a rede opera em uma seqüência de dois passos. Primeiro, um padrão é apresentado à camada de entrada da rede. A atividade resultante flui através da rede, camada por camada (feed-forward ), até que a resposta seja produzida pela camada de saı́da. No segundo passo, a saı́da obtida é comparada à saı́da desejada para esse padrão particular. Se esta não estiver correta, o erro é calculado. O erro é propagado a partir da camada de saı́da até a camada de entrada, e os pesos das conexões das unidades das camadas internas vão sendo modificados conforme o erro é retropropagado (feed-backward ). Os passos abaixo resumem o algoritmo de aprendizagem por retropropagação: 1. Ajustar os pesos dos elementos de processamento com pequenos valores aleatórios. 2. Apresentar as entradas, um vetor x0 , x1 , . . . , xN de medidas, e especificar um vetor d1 , d2 , . . . , dN de saı́da desejado. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 52 3. Calcular" as saı́das reais da rede, # y1 , y2 , . . . , yN , definida pela equação: m P yk = f xjk (p)wjk (p) − θk , onde f é a função de ativação, x é o j=1 vetor de entrada, w é o vetor peso e θ é o bias. 4. Reajustar os pesos. Usar um algoritmo recursivo começando pelos elementos de processamento de saı́da, trabalhando para trás no sentido da primeira camada. Os pesos são ajustados através da equação 0 wij (t + 1) = wij (t) + ηδj xi , onde wij é o peso do elemento de 0 processamento oculto j no tempo t; xi pode ser tanto um elemento de processamento de saı́da quanto um de entrada; η denota um termo de ganho (velocidade da aprendizagem); e δj é um termo de erro para o elemento de processamento j. Se j for um elemento de saı́da, então δj = yj (1 − yj )(dj − yj ), onde dj denota a saı́da desejada e yj é a saı́da real da rede; se o elemento j for um elemento oculto, 0 0 P então δj = xj (1 − xj ) δk wjk , onde k denota todos os elementos k acima dos elementos j. Os limiares delta dos elementos internos são ajustados de forma semelhante. A convergência algumas vezes pode ser mais rápida se um termo de momento for adicionado e os pesos alterados de forma mais suave, pela equação: wij (t + 1) = 0 wij (t) + ηδj xi + α(wij (t) − wij (t − 1)), onde 0 < α < 1. 5. Repetir retornando para o passo 2. Uma demonstração mais detalhada do algoritmo de retropropagação pode ser vista em [83], [63], [34]. A regra delta generalizada funciona quando são utilizadas na rede unidades com uma função de ativação semilinear, que é uma função diferenciável e não decrescente. Uma função de ativação amplamente utilizada, nestes casos, é a função sigmóide. Duas funcões sigmóide muito utilizadas são a função logı́stica, definida por y = 1+e1−x , e a tangente 1−e−x hiperbólica, definida por y = 1+e−x [63]. A taxa de aprendizagem essencialmente, influencia a magnitude das mudanças dos pesos, desempenhando papel fundamental no desempenho do aprendizado. Uma taxa de aprendizado pequena implica em pequenas variações, tornando o treinamento lento e aumentando as chances de paradas em mı́nimo locais; altas taxas de aprendizado, no entanto, podem levar a MLP a saturação ou mesmo à oscilação, comprometendo todo o processo de aprendizado. Esta taxa de aprendizagem é introduzida na rede com o objetivo de permitir maior rapidez na convergência ao erro desejado, enquanto o erro estiver diminuindo, e ao mesmo tempo evita que a rede Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 53 venha a oscilar, diminuindo a taxa de aprendizagem quando o erro tende a aumentar. O treinamento das redes MLP com retropropagação pode demandar muitos passos no conjunto de treinamento, resultando num tempo de treinamento consideravelmente longo. Se for encontrado um mı́nimo local, o erro para o conjunto de treinamento pára de diminuir e estaciona em um valor maior que o aceitável. Uma maneira de aumentar a taxa de aprendizado sem levar à oscilação é modificar a regra delta generalizada para incluir o termo momento, uma constante que determina o efeito das mudanças passadas dos pesos na direção atual do movimento no espaço de pesos [83], [35]. Desta forma, o termo momento leva em consideração o efeito de mudanças anteriores de pesos na direção do movimento atual no espaço de pesos. O termo momento torna-se útil em espaços de erro que contenham longas gargantas, com curvas acentuadas ou vales com descidas suaves [83]. Utilização da rede MLP Depois que a rede estiver treinada e o erro estiver em um nı́vel satisfatório, a rede poderá ser utilizada como uma ferramenta para classificação de novos dados. Para isto, a rede deverá ser utilizada apenas no modo progressivo (feed-forward ). Nesta fase, novas entradas são apresentadas à camada de entrada e são processadas nas camadas intermediárias, e os resultados são apresentados na camada de saı́da, como no treinamento, mas sem a retropropagação do erro. A saı́da apresentada é o modelo dos dados na interpretação da rede. A Figura 2.11 ilustra este processo. Limitações da rede MLP As redes neurais que utilizam retropropagação, assim como muitos outros tipos de redes neurais artificiais, podem ser vistas como “caixas pretas”, nas quais quase não se sabe porque a rede chega a um determinado resultado, uma vez que os modelos não apresentam justificativas para suas respostas. Neste sentido, muitas pesquisas vêm sendo realizadas visando a obtenção de conhecimentos sobre as redes neurais artificiais e a criação de procedimentos explicativos, nos quais se tenta justificar o comportamento das redes em determinadas situações [83], [63], [34]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 54 Outra limitação refere-se ao tempo de treinamento de redes neurais utilizando retropropagação, que tende a ser muito longo. Algumas vezes são necessários milhares de ciclos (épocas) para se chegar a nı́veis de erros aceitáveis, o que pode demandar um longo perı́odo de tempo [31]. Uma terceira limitação é a dificuldade de definir a arquitetura ideal da rede de forma que ela seja tão grande quanto o necessário para conseguir obter as representações internas necessárias e, ao mesmo tempo, pequena o suficiente para apresentar um treinamento rápido. Não existem regras claras para a definição de quantas unidades devem existir nas camadas intermediárias, quantas camadas, ou como devem ser as conexões entre essas unidades [83], [31], [35]. 2.3.3 Comparação entre ALDF e MLP Existem muitas similaridades conceituais entre ALDF e MLP [29]: – O treinamento de uma MLP é semelhante, no método estatı́stico, a aprender no modelo da ALDF. Os dois modelos buscam um ajuste dos pesos (parâmetros) baseados no conjunto de dados que são apresentados a eles. – Em uma rede neural, cada nodo de entrada da rede pode ser visto, na estatı́stica, como uma variável independente, explanatória ou preditiva. – Existem similaridades entre os pesos da MLP, utilizados nas camadas adjacentes, para o cálculo da saı́da com os chamados coeficientes de regressão em estatı́stica. – O bias, que nas MLP tem o efeito de aumentar ou diminuir a entrada lı́quida da função de ativação, dependendo de se ele é positivo ou negativo, em estatı́stica é conhecido como “intercepto”. – O erro em uma MLP é calculado através da diferença entre a saı́da real e a saı́da desejada da rede. Essa diferença (erro) é semelhante ao conceito de minimização de resı́duos na regressão estatı́stica. – No modelo de ALDF, o processo converge quando a função de probabilidade é maximizada, enquanto em MLP a função de erro dos mı́nimos quadrados é minimizada. A Tabela 2.2 resume os principais termos semelhantes nos dois modelos estudados. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 55 MLP Treinamento, aprendizagem Unidades de entrada Camada de saı́da Pesos nas conexões Bias Erro Casos de treinamento, padrões Caracterı́sticas ALDF Estimação de parâmetros Variáveis independentes, explanatórias, preditivas Variável dependente, valores previstos Coeficientes de regressão Intercepto Resı́duo Observação Variáveis Tabela 2.2: Termos similares entre MLP e ALDF. 2.4 Validação do Modelo A validação do modelo com o próprio conjunto de dados que serviu para fazer o treinamento do modelo classificador induz uma estimativa de qualidade pouco realista. Para evitar esta validação tendenciosa, é necessário dividir (reamostrar) o conjunto de dados original em um para treinamento e outro para teste. Deixa um de fora é um caso especial de reamostragem que é uma técnica elegante para estimar taxas de erros de classificador [10]. Como é computacionalmente cara, é freqüentemente reservada para problemas em que o tamanho da amostra é relativamente pequeno. Para uma amostra de tamanho n, um classificador é projetado usando (n − 1) casos e testado no único caso restante. Isto é repetido n vezes, cada vez gerando um classificador e deixando um de fora. Assim, cada caso na amostra é usado como um caso de teste, e os demais são usados para projetar o classificador. A taxa de erro é o número de erros dividido por N. A Figura 2.12 ilustra esta técnica. 2.5 Curva ROC (Receiver Operating Characteristic) A avaliação dos métodos propostos neste trabalho pode ser feita por comparação com técnicas de referência que se saibam serem válidas. Tal avaliação envolve, portanto, a comparação de medidas obtidas simultaneamente, utilizando o teste em estudo e um teste de referência. Os estudos de avaliação implicam que esse teste de referência seja o apropriado. Um dos grandes problemas inerentes a este tipo de estudo é o fato de, por Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 56 Figura 2.12: Exemplo da técnica deixa um de fora. vezes, não existir uma referência, usando-se, então, o melhor procedimento disponı́vel como procedimento de referência. Mais uma vez, é importante frisar que uma medida é válida se provém de um procedimento válido. Os estudos de avaliação são freqüentemente descritos como testes de validade dos diagnósticos e são um dos mais importantes atos em Medicina. Para elaborar um diagnóstico, temos que utilizar métodos que permitam distinguir entre populações de doentes e de não doentes, ou seja, teste de diagnóstico. Nos testes de diagnóstico o resultado é sempre dicotômico. Quando se avaliam esses testes, utilizamos um teste de referência cuja escala é também dicotômica. A validade de medidas dicotômicas pode ser avaliada construindo uma tabela de 2 × 2 (Tabela 2.3) [48]. Doença Presente Ausente Positivo Verdadeiro Positivo Falso Positivo Teste Negativo Falso Negativo Verdadeiro Negativo Tabela 2.3: Relação entre o resultado de um teste diagnóstico e o verdadeiro diagnóstico A Tabela 2.3 evidencia que há dois tipos de conclusão errônea em um teste: Falso Positivo (indivı́duo não doente é considerado como doente) e Falso Negativo (indivı́duo doente é considerado normal). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 57 2.5.1 Sensibilidade e Especificidade O valor clı́nico de um teste está relacionado com a sua especificidade e sensibilidade. Ele deve fornecer uma boa indicação preliminar de quais indivı́duos têm a doença e quais não têm, e isto só se consegue se os métodos utilizados forem válidos. A sensibilidade é a proporção de indivı́duos doentes que possuem um teste positivo, isto é, a probabilidade de, estando doente, um indivı́duo ter um teste positivo (percentagem de vezes que o teste acerta). A especificidade é a proporção de indivı́duos não doentes que possuem um teste negativo ou a probabilidade de, não estando doente, ter um teste negativo. A sensibilidade define-se, então, como sendo a capacidade de um teste para identificar corretamente aqueles indivı́duos que possuem uma determinada doença, enquanto que a especificidade é definida como a capacidade do teste para identificar corretamente aqueles que não a possuem. Ambas são determinadas pela comparação dos resultados obtidos num determinado teste com os resultados de métodos de diagnóstico mais seguros (de referência). A extensão em que os resultados de um teste coincidem com o de referência dá uma medida da sensibilidade e especificidade desse teste [26], [8]. Quando indivı́duos doentes são considerados negativos ou normais, os respectivos resultados deste teste são chamados “falsos negativos”. Por outro lado, quando indivı́duos não doentes são considerados como doentes, os resultados deste teste são denominados “falsos positivos”. Note-se que a percentagem de falsos negativos é o complemento da sensibilidade e a percentagem de falsos positivos é o complemento da especificidade. Quando a sensibilidade é de 100%, temos a certeza que o teste nunca se engana nos falsos negativos. A especificidade e a sensibilidade não provêem informação sobre os falsos positivos e os falsos negativos. São independentes da prevalência da doença (proporção de indivı́duos doentes ou probabilidade de estar doente, independentemente do resultado do teste - probabilidade pré-teste) e esta é considerada a sua maior vantagem [48]. A Tabela 2.4 mostra a relação da especificidade e sensibilidade e como determinar seus valores [8]. a = verdadeiros positivos / todos os doentes Sensibilidade = a+b d Especificidade = c+d = verdadeiros negativos / todos os não doentes a+d Precisão = a+b+c+d = corretamente classificados / todos Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 58 Doença Presente Ausente Positivo a c Negativo b d Teste Total a+b c+d Total a+c b+d N Tabela 2.4: Cálculo da especificidade e sensibilidade para uma variável dicotômica 2.5.2 Cálculo da Curva ROC Geralmente, a sensibilidade e a especificidade são caracterı́sticas difı́ceis de conciliar, isto é, é complicado aumentar a sensibilidade e a especificidade de um teste ao mesmo tempo. As curvas ROC (Receiver Operating Characteristic) são uma forma de representar a relação, normalmente antagônica, entre a sensibilidade e a especificidade de um teste diagnóstico quantitativo ao longo de valores contı́nuos de ponto de corte [84]. Para construir uma curva ROC traça-se um diagrama que represente a sensibilidade em função da proporção de falsos positivos (1- especificidade) para um conjunto de valores de ponto de corte. Quando se tem uma variável contı́nua, resultado da aplicação de um teste diagnóstico quantitativo, e se pretende transformá-la numa variável dicotômica, do tipo doente/não doente, temos que utilizar um determinado valor na escala contı́nua que discrimine entre essas duas classes. A esse valor dá-se o nome de “ponto de corte” (cut off point). O valor escolhido como ponto de corte vai influenciar as caracterı́sticas do teste, como exemplificado na Figura 2.13. Neste exemplo, quanto maior o ponto de corte, maior a especificidade do teste, mas a sensibilidade será menor; e quanto menor o ponto de corte, maior a sensibilidade, mas a especificidade será menor [48]. A Figura 2.14 representa graficamente a relação entre a sensibilidade e a especificidade para todos os possı́veis pontos de corte da curva C1 , C2 e C3 . Quanto maior for a sobreposição das curvas normais, menor será a área sob a curva ROC. As curvas ROC descrevem a capacidade discriminativa de um teste diagnóstico para um determinado número de valores de ponto de corte. Isso permite colocar em evidência os valores para os quais existe uma maior otimização da sensibilidade em função da especificidade. O ponto numa curva ROC em que isso acontece é aquele que se encontra mais próximo do canto superior esquerdo do diagrama. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 59 Figura 2.13: Ponto de corte. Figura 2.14: Relação entre a curva ROC e pontos de corte. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 60 Por outro lado, as curvas ROC permitem quantificar a exatidão de um teste diagnóstico, já que esta é proporcional à área sob a curva ROC (AUC ), isto é, ela será tanto maior quanto mais a curva se aproximar do canto superior esquerdo do diagrama. Em virtude disso, a curva será útil também na comparação de testes diagnósticos, que terá uma exatidão tanto maior quanto maior for a área sob a curva ROC. O valor da área igual a 1 representa um teste perfeito; a área igual a 0.5 representa um valor sem importância. A Figura 2.15 exemplifica várias curvas ROC e a Tabela 2.5 associa a qualidade do diagnóstico à área da curva ROC [74], [48], [10]. Figura 2.15: Curva ROC e a qualidade no diagnóstico. Área (AUC ) Qualidade do diagnóstico 0.9 a 1.0 Excelente 0.8 a 0.9 Bom 0.7 a 0.8 Regular 0.6 a 0.7 Ruim 0.5 a 0.6 Insignificante Tabela 2.5: Qualidade do diagnóstico em relação à área da curva ROC. A área do curva ROC é comumente calculada através de dois métodos [84], [48], [26]: 1. Não paramétrico: se caracteriza por não fazer nenhuma suposição sobre as distribuições dos resultados do teste. Duas técnicas Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 61 geralmente utilizadas para o cálculo da área da curva são a regra do trapézio e a aproximação à estatı́stica U de Wilcoxon-Mann-Whitney. 2. Paramétrico: se baseia em supor uma determinada distribuição para os resultados do teste. O modelo mais freqüentemente utilizado é o binormal, que supõe a normalidade das variáveis com probabilidade positiva e negativa. Utiliza o estimador de máxima verosimilhança para ajustar uma curva suave aos pontos. Hanley e McNeil [10] descreveram um método não paramétrico para o cálculo da área da curva ROC (AUC ), utilizando a aproximação à estatı́stica U de Wilcoxon-Mann-Whitney. Com o resultado da área curva calculada por esse método, o erro padrão (SE) também pode ser estimado. A estatı́stica U de Wilcoxon-Mann-Whitney mede se as seqüências de casos normais e anormais podem ter vindo da mesma população ou não. Em relação à curva ROC, esse método testa se as distribuições são as mesmas ou diferentes. Considere-se uma amostra de dimensão nA para os indivı́duos classificados como anormais, A, e outra de dimensão nN para os indivı́duos classificados como normais, N ; o procedimento de teste consiste em fazer todas as nA nN comparações possı́veis entre os valores xA da amostra nA e os valores xN da amostra nN , graduando cada comparação de acordo com a regra, 1 se xA > xN S(xA , xN ) = 1/2 se xA = xN 0 se xA < xN e fazendo a média dos S 0 s para todas as nA nN comparações, vem: nA X nN 1 X S(xA , xN ) AU C = W = nA nN 1 1 (2-12) que é uma estatı́stica que não depende dos valores de x, mas apenas das graduações, designada como estatı́stica de Wilcoxon-Mann-Whitney [10]. Como cada comparação é classificada por 1, 1/2 ou 0, o valor médio de W estará entre 0 e 1, e reflete, como não poderia deixar de ser, qual a proporção de x0A s que são maiores que xN . Como nem todas as nA nN comparações são independentes, incluir todas é mera conveniência, e o erro padrão de W tem em conta esta possı́vel intercorrelação [10]. Assim, a probabilidade de atribuir uma classificação correta é igual à média ponderada de todas as combinações de pares de classificações possı́veis. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 62 As áreas das curvas ROC de dois ou mais procedimentos (métodos) são freqüentemente utilizadas para comparação e determinação de qual deles é mais preciso no diagnóstico. Essa comparação tem como objetivo verificar se existe diferença significativa entre as curvas, ou seja, entre os procedimentos. O método proposto por Hanley e McNeil [11] para determinar a diferença (comparação) entre as curvas utiliza o valor crı́tico de z: A 1 − A2 z=p SE12 + SE22 − 2rSE1 SE2 (2-13) onde A1 e SE1 referem-se a área observada e o erro padrão estimado da curva ROC do procedimento 1; A2 e SE2 referem-se a área observada e o erro padrão estimado da curva ROC do procedimento 2; e r representa correlação estimada entre A1 e A2 . O valor de z é então verificado na tabela da distribuição normal, e o valor de z acima de algum limiar, por exemplo z ≥ 1.96, é uma evidência que as áreas das curvas ROC são diferentes (p < 0.05). Desta forma, a hipótese nula de que não há diferença entre as áreas das curvas não é satisfeita. 2.6 Resumo A Seção 2.1 deu uma visão geral de alguns conceitos importantes para a análise de uma imagem médica, como a aquisição da imagem, formas de tratamento de imagens em Computação Gráfica, o padrão DICOM e a técnica de interpolação linear. Na Seção 2.2 foi dada uma visão geral do Nódulo Pulmonar Solitário (NPS) e foi mostrada a importância de se identificar e diagnosticar esses nódulos precocemente, para aumentar a chance de cura do paciente. Também foram abordados aspectos de textura e forma dos NPS que ajudam os médicos a diagnosticá-los como benignos ou malignos. Na Seção 2.3, foram estudadas duas técnicas de classificação que determinarão a benignidade ou malignidade do NPS. A primeira técnica é chamada Análise Discriminante Linear de Fisher – ALDF. Para esta técnica foi apresentada a teoria básica para análise, aprendizagem e classificação entre dois grupos, como considerações iniciais para utilizar a ADLF, testes estatı́sticos necessários para as considerações a serem atendidas e a função discriminante de Fisher. A segunda técnica chamase Rede Neural Perceptron de Múltiplas Camadas – MLP. Para a MLP foi apresentado o algoritmo de treinamento mais utilizado, retropropagação, Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 63 além da utilização da rede após o treinamento e suas limitações. Em seguida, foi feita uma breve comparação entre MLP e ADLF, mostrando aspectos similares entre ambas. Para finalizar, foi descrito um procedimento passo a passo que visa selecionar as medidas mais significativas para fazerem parte da Análise Discriminante Linear de Fisher e da Rede Neural Perceptron de Múltiplas Camadas. Depois, na Seção 2.4, foi descrita uma técnica de validação do modelo, chamada deixa um de fora, que avalia mais realisticamente os modelos encontrados. Por último, na Seção 2.5, foi abordada a Curva ROC (Receiver Operating Characteristic), que é uma técnica freqüentemente utilizada por médicos para avaliação de diagnósticos e algoritmos. Foi mostrado como se determina esta curva, assim como a importância da sua área (AUC ) para a comparação entre diversos diagnósticos. 3 Métodos Computacionais para Análise do NPS Os métodos apresentados neste capı́tulo analisam os NPS em 3D com uma geometria bem ou mal definida, com calcificação ou sem calcificação, em estado inicial ou avançado de evolução. Desta forma, os métodos propostos poderão obter mais informações sobre o nódulo, talvez não observadas pelos médicos, que resultará em uma segunda opinião para o diagnóstico dos NPS. Os métodos propostos são divididos em grupos conforme suas funções. Os Grupos I e II analisam o nódulo somente em relação à textura, sendo que o Grupo I corresponde a métodos bastante conhecidos na literatura que foram adaptados para 3D e o Grupo II fornece todo o potencial das funções geoestatı́sticas na análise de textura para o diagnóstico do nódulo. O Grupo III trata somente de métodos que analisam a geometria do nódulo, isto é, verificam se a forma do nódulo é espiculada ou bem comportada. E o Grupo IV aborda medidas que analisam o nódulo pelos aspectos de textura e geometria. Neste grupo encontram-se os métodos combinados baseados nas duas caracterı́sticas a fim de se obter mais informações. A Tabela 3.1 resume os grupos de medidas a serem abordados e suas respectivas caracterı́sticas. Grupo I II III IV Caracterı́sticas Textura - Clássica Textura - Geoestatı́stica Geometria Textura e Geometria Tabela 3.1: Grupos de medidas estudados e suas caracterı́sticas. Como podem haver dados volumétricos em vários protocolos de aquisição, com diferentes distribuições das fatias, foi aplicado uma reamostragem (Seção 2.1.4) nos volumes, na direção z, de modo a tornar os voxels cúbicos (mesma dimensão x, y e z). Esta reamostragem é importante para que os volumes sejam percorridos isotropicamente, em Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 65 todas as direções, durante a obtenção das caracterı́sticas discriminantes dos NPS. 3.1 Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos) – Grupo I O NPS possui uma estrutura de tecido muito complexa. Podem existir nódulos com alterações de densidade quase imperceptı́veis pelo olho humano e outras visı́veis com grande nitidez. A variação do tecido do nódulo e, conseqüentemente, a observação do médico pela TC auxiliam no seu diagnóstico. Por exemplo, se na TC forem identificadas áreas com coeficiente de atenuação alto (> 200 UH), isso pode ser uma indicação de benignidade. Já áreas de necrose (células mortas), com coeficiente de atenuação baixo, podem sugerir malignidade. Entretanto, por causa da qualidade da imagem, ou até mesmo pela constituição do tecido do nódulo, alguns detalhes passam despercebidos pelos médicos, o que pode levar a procedimentos desnecessários. Assim sendo, nesta seção e na próxima (Seção 3.2) serão analisadas caracterı́sticas de textura 3D, em forma de medidas, para a classificação dos NPS como benignos ou malignos. O Grupo I relaciona alguns métodos comumente utilizados na literatura de processamento de imagens, geralmente em 2D, e que neste trabalho foram adaptados para obter as informações do nódulo em 3D. 3.1.1 Histograma O histograma é freqüentemente utilizado para melhoramento, segmentação e identificação de objetos em imagens 2D e 3D, como descrito nos trabalhos de [41], [16], [22], [36], [23], [85], [86] e [42]. Neste trabalho foi calculado o histograma do NPS, em sua estrutura 3D, e foram extraı́das diversas medidas que podem determinar mudanças na variação do tecido. A análise da textura através do histograma é comumente chamada de Estatı́stica de nı́veis de cinza de primeira ordem (First-order gray level statistics), pois trabalha com um único voxel de cada vez. O histograma do número de nı́veis de cinza fornece a freqüência hi de cada nı́vel. Se N é o número total de voxels e G é o número de nı́veis G−1 P de cinza então hi = N . O histograma normalizado Hi com Hi = hNi é a i=0 Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 66 função de densidade de probabilidade. As medidas extraı́das do histograma para análise de malignidade e benignidade do nódulo foram: 1. Média (MED) – Mede a média de coeficiente de atenuação no NPS. G−1 P É definida por: iHi . i=0 2. Desvio Padrãos(DVP) – Mede a função de dispersão sobre a média. É G−1 P (i − M ED)2 Hi . definido por: i=0 3. Simetria (SIM) – Mede se a distribuição nos voxels está concentrada à esquerda ou à direita da média. É definida por: G−1 2 P 1 (i − M ED)3 Hi , onde S é a variância. S3 i=0 4. Curtose (CUR) – Mede o grau de achatamento das distribuições em relação à distribuição normal. É definida por: G−1 P 1 (i − M ED)4 Hi − 3, onde S é a variância. S4 i=0 5. Energia (ENE) – Mede a não uniformidade do NPS. Quanto mais não G−1 P 2 uniforme for o NPS, maior será a energia. É definida por: Hi . i=0 6. Entropia (ENT) – Mede a não uniformidade do NPS. Quanto mais uniforme for o NPS, menor será a entropia. É definida por: G−1 P − Hi log(Hi ). i=0 7. Contraste (CNT) – Mede a quantidade de variação local no NPS. É alta quando a região local tem um alto contraste na escala espacial. G−1 P 2 É definido por: i Hi . i=0 8. Números de coeficientes de atenuação ≥ 200 UH (NCMAI): Se existirem áreas extensas no nódulo com coeficientes de atenuação acima 200 UH, isso significa que o NPS tem grande probabilidade de ser benigno. Caso contrário, o diagnóstico é incerto e é necessário utilizar outro método para diagnosticar [72] e [75]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 67 3.1.2 Método de Dependência Espacial de Nı́veis de Cinza – SGLDM O Método de Dependência Espacial de Nı́veis de Cinza – SGLDM (Spatial Gray Level Dependence Method )1 é uma técnica de análise de textura que tem sido freqüentemente utilizada para a segmentação e identificação de imagens 2D [41], [16], [22], [36],[37], [58] e [1]. É também muito aplicado na área médica, como por exemplo no trabalho de Freeborough e Fox [49], que detectaram doenças de Alzheimer, e McnittGray et al [59] e [58], que utilizaram o SGLDM para diagnosticar NPS. Em geral, as aplicações envolvem a extração automática de caracterı́sticas da imagem, que são usadas para uma variedade de tarefas de classificação, como distinguir um tecido normal de um anormal. O SGLDM é a tabulação da freqüência na qual diferentes combinações de valores de pixel ocorrem na imagem. A matriz resultante do SGLDM contém informações sobre a posição dos pixels com valores similares de nı́veis de cinza [1]. As medidas baseadas no SGLDM são comumente chamadas de Estatı́stica de nı́veis de cinza de segunda ordem (Second-order gray level statistics), pois trabalham com dois voxels de cada vez. Na matriz do SGLDM, o número de linhas e colunas é igual ao número de nı́veis de cinza na imagem. O elemento da matriz M (i, j|d, θ) é a freqüência relativa com que dois pixels, separados por uma distância d(∆x, ∆y) e um ângulo θ ocorrem na sua vizinhança, com intensidades i e j. A Figura 3.1 exemplifica a aplicação do SGLDM em uma imagem 2D. A Figura 3.1(a) é uma imagem 2D e a Figura 3.1(b) é matriz de SGLDM para d = 1 e θ = 0◦ . O par de pixels 1-2 na imagem 2D aparece duas vezes na interseção da coluna 2 e da linha 1 da matriz de SGLDM, indicando a quantidade de vezes que este par de pixels aparece na imagem 2D. 3.1(a): Pixels Imagem em 2D da 3.1(b): SGLDM para d = 1 e θ = 0◦ Figura 3.1: Exemplo de SGLDM em Imagem 2D. 1 Esse método é também chamado de matriz de co-ocorrência. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 68 Como a imagem tratada é em 3D, é necessário verificar todas as vizinhanças de um determinado voxel em todas as dimensões. Silva et al [98] mostraram que o algoritmo abaixo dá bons resultados para diagnosticar NPS. A Figura 3.2 ilustra este algoritmo para d = 1, descrito por: 1. Os 26 vizinhos de um voxel especı́fico são percorridos a uma distância d e o número de ocorrências dos pares de nı́veis de cinza é acumulado em uma única matriz do SGLDM (ou histograma do GLDM). 2. A matriz (ou histograma) é normalizada dividindo-a pelo número total de pares encontrados. Figura 3.2: Algoritmo do SGLDM (ou GLDM). Como as dimensões do SGLDM (ou GLRLM ou GLDM) são dependentes dos valores dos nı́veis de cinza da imagem, a matriz pode se tornar muito grande. Com isso, a matriz de SGLDM (ou GLRLM ou GLDM) ocupa muito espaço em memória, fica muito sensı́vel a ruı́dos e pode ficar muito esparsa. Desta forma, é necessário fazer uma quantização, reduzindo assim os nı́veis de cinza da imagem. Neste trabalho foi utilizada a Equação 3-1 para quantizar o volume. Oi,j,k = L Ii,j,k − min max − min (3-1) onde Oi,j,k representa o novo voxel na localização i, j, k no volume quantizado, Ii,j,k representa o voxel no volume original da TC de 12 bits na mesma localização, e L é o nı́vel de cinza que se deseja quantizar. As Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 69 variáveis min e max são o voxel de menor e maior valor detectado no volume original, respectivamente. Com base na matriz de SGLDM, Haralick et al. [1] determinaram 13 medidas. Entretanto, Ohanian e Dubes [24] mostraram que apenas um pequeno grupo de medidas é suficiente para caracterizar a textura: 1. Contraste (CONg) – Texturas com baixo contraste tendem a ter valores menores que as de alto contraste, para as quais a variação do nı́vel de cinza é maior e mais provável. É definido por: G−1 P G−1 P Mi,j (i − j)2 i=0 j=0 onde M é matriz de SGLDM, e i e j são a linha e a coluna dessa matriz, respectivamente. 2. Homogeneidade (HOMg) – Mede o quanto a imagem está homogênea. O valor da homogeneidade cresce quanto menor for o contraste do G−1 P G−1 P Mi,j NPS. É definida por: 1+(i−j)2 i=0 j=0 3. Segundo Momento Angular (SMAg) – É indicador da uniformidade ou suavidade. Texturas homogêneas terão um alto valor de energia em comparação com texturas não homogêneas, em função das texturas suaves possuı́rem densidades mais concentradas que as texturas rugosas. Texturas rugosas têm densidades com alta variância. É G−1 P G−1 P 2 definido por: Mi,j . i=0 j=0 4. Entropia (ENTg) – É um indicador da quantidade de desorganização G−1 P G−1 P entre os voxels da imagem. É definida por: − Mi,j log(Mi,j ). i=0 j=0 5. Variância (VARg) – É um indicador da variação da tonalidade de 2 G−1 P G−1 P fundo da imagem. É definida por: (i − µ) Mi,j , onde µ é a i=0 j=0 média. 6. Correlação (CORg) – A correlação mede a dependência linear de um nı́vel de cinza em relação aos seus vizinhos, e é expressa por uma equação de regressão. Uma correlação alta significa alta possibilidade de proximidade entre os voxels. É definida por: G−1 P G−1 P (i−µ )(j−µ ) − Mi,j q i2 2 j , onde µ é a média e σ é o desvio padrão. (σi )(σj ) i=0 j=0 Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 70 3.1.3 Método de Diferença de Nı́veis de Cinza - GLDM O Método de Diferença de Nı́veis de Cinza - GLDM (Gray Level Difference Method ) é uma técnica de análise de textura baseada na diferença entre pares de pixels da imagem. O histograma resultante (H(θ, d)), de tamanho igual ao número de nı́veis de cinza da imagem, indica a probabilidade p(k), baseando-se em dois pontos a uma distância d e uma direção θ. A diferença k é a posição no nı́vel de cinza do histograma [12]. As medidas baseadas no GLDM também são comumente chamadas de Estatı́stica de nı́veis de cinza de segunda ordem (Second-order gray level statistics), pois trabalham com dois voxels de cada vez. A Figura 3.3 exemplifica a GLDM em uma imagem 2D. A Figura 3.3(a) é uma imagem 2D e a Figura 3.3(b) mostra o histograma de GLDM para d = 1 e θ = 0◦ . Por exemplo, a coluna 1 do histograma do GLDM corresponde a todos os pares de pixels na imagem em 2D que têm diferença igual a 1 e aparece quatro vezes, pois somente os valores dos pares de pixels 1-2 e 3-4 na imagem 2D têm essa diferença. 3.3(a): Pixels Imagem em 2D da 3.3(b): GLDM para d = 1 e θ = 0◦ Figura 3.3: Exemplo de GLDM em Imagem 2D. O algoritmo em 3D deste método é semelhante ao SGLDM, mas utilizando-se o histograma (1D) ao invés da matriz (2D). As medidas estatı́sticas extraı́das também são as mesmas utilizadas no SGLDM, mas são baseadas no histograma e não em uma matriz: 1. Contraste (CONd): G−1 P Hk k 2 k=0 2. Homogeneidade (HOMd): G−1 P k=0 1 H 1+k2 k 3. Segundo Momento Angular (SMAd): G−1 P k=0 4. Entropia (ENTd): − G−1 P k=0 Hk log Hk Hk2 Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 71 5. Variância (VARd): G−1 P (i − µ)2 Hk i=0 G−1 P 6. Correlação (CORd): kHk −µ k=0 σ 3.1.4 Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM O método de extração de caracterı́sticas por run length é similar ao esquema do SGLDM. O objetivo é também extrair caracterı́sticas descritivas de texturas a partir de matrizes auxiliares, computadas a partir da imagem digital original (em nı́veis de cinza). Tais matrizes são denominadas de Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM (Gray Level Run Length Matrices) [5], [17] e [50]. Uma primitiva run length é um conjunto colinear maximal de pixels conectados contendo todos o mesmo nı́vel de cinza. Tais primitivas podem ser caracterizados basicamente pelo seu comprimento, sua inclinação e o seu nı́vel de cinza. As medidas baseadas no GLRLM são comumente chamadas de Estatı́stica de nı́veis de cinza de alta ordem (High-order gray level statistics), pois trabalham com vários voxels de cada vez. As matrizes são do tipo Mθ (a, r), onde θ é o ângulo de inclinação das primitivas e cada elemento (a, r) indica o número de vezes que uma primitiva de nı́vel de cinza a e comprimento r ocorre dentro da imagem. Geralmente várias matrizes são computadas para diversos ângulos, sendo que os mais utilizados são : θ = 0◦ , 45◦ , 90◦ , 135◦ e simétricos. A dimensão das matrizes é dada por L x Nr onde L é o número de nı́veis de cinza da imagem e Nr é o número de comprimentos distintos de primitivas. A Figura 3.4 exemplifica a GLRLM em uma imagem 2D. A Figura 3.4(a) é uma imagem 2D, a Figura 3.4(b) é matriz de GLRLM para θ = 0◦ e a Figura 3.4(c) é matriz de GLRLM para θ = 90◦ . Por exemplo, a seqüência (primitiva) de três pixels com valor 2 na imagem 2D aparece duas vezes na interseção da coluna 3 e da linha 2 na matriz de GLRLM, indicando a quantidade de vezes que esta primitiva aparece na imagem 2D. A Figura 3.5 ilustra o algoritmo para construir a matriz, com d = 1, que é definido por: 1. Para cada fatia é criada uma matriz do GLRLM. Esta matriz possui o número de repetições (primitivas) dos nı́veis de cinza na direção θ e a uma distância d. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 72 3.4(a): Pixels Imagem em 2D da 3.4(b): GLRLM para 3.4(c): GLRLM para θ = 0◦ θ = 90◦ Figura 3.4: Exemplo de GLRLM em Imagem 2D. 2. A matriz do GLRLM para o volume é a soma de todas as matrizes dos GLRLMs de cada fatia. 3. Finalmente, a matriz é normalizada dividindo-a pelo número de repetições encontradas. Figura 3.5: Algoritmo do GLRLM. As medidas estatı́sticas extraı́das são baseadas em uma matriz (2D): 1. Ênfase em primitivas longas (Long-run emphasis - (LRE)) – Enfatiza as primitivas longas. Um valor alto significa grandes quantidades de primitivas longas com o mesmo coeficiente de atenuação. É definida L P Nr P por: K1 M (a, r)r2 , onde M é a matriz, a é o nı́vel de cinza, r é a=1 r=1 a primitiva, e K é o número total de primitivas na matriz. 2. Ênfase em primitivas curtas (Short-run emphasis - (SRE)) – Enfatiza as primitivas curtas do NPS. Um valor alto significa grandes Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 73 quantidades de primitivas curtas com o mesmo coeficiente de L P Nr P M (a,r) atenuação. É definida por: K1 r2 a=1 r=1 3. Uniformidade do nı́vel de cinza (Gray level distribuition - (GLD)) – Mede a não uniformidade do coeficiente de atenuação do NPS. A função obtém seus valores mais baixos quando as primitivas estão igualmente distribuı́das ao longo dos coeficientes de atenuação. Primitivas longas contribuem mais para a função. É definida por: N 2 L P Pr 1 2 M (a, r)r K a=1 r=1 4. Uniformidade do comprimento da primitiva (Run lenght distribuition - (RLD)) – Mede a não uniformidade das primitivas. Se as primitivas são igualmente distribuı́das ao longo do seu comprimento, a função terá valores baixos. Primitivas longas contribuem mais para a função. L 2 Nr P P 1 2 M (a, r)r É definida por: K a=1 r=1 5. Percentagem de primitiva (Run percentage - (RP)) – É a razão do número total de primitivas pelo número total de primitivas possı́veis. Deve ter valores baixos para NPS com estrutura muito linear. É L P Nr P K M (a, r) definida por: mn , onde K = a=1 r=1 3.2 Análise do Nódulo Pulmonar Geoestatı́sticas) – Grupo II Baseada em Textura (Funções Esta seção trata de quatro funções geoestatı́sticas - semivariograma, semimadograma, covariograma e correlograma - aplicadas nos NPS para determinar uma “assinatura” para sugerir seus diagnósticos. A grande vantagem destas funções é que as caracterı́sticas de variabilidade e correlação espacial são analisadas em conjunto. Estas funções sumarizam a associação entre a função de distância e uma possı́vel direção. Maiores detalhes sobre estas funções podem ser encontrados em [9], [27], [7]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 74 3.2.1 Semivariograma A semivariância mede o grau de dependência espacial entre as amostras (voxels do NPS). A magnitude da semivariância entre os pontos depende da distância entre eles. Uma distância pequena produz uma variância pequena, e uma distância grande, produz uma variância grande. O gráfico da semivariância, como uma função de distância de um ponto, é chamado semivariograma. O semivariograma (e também as outras funções geoestatı́sticas estudadas a seguir) tem três principais caracterı́sticas: patamar (sill ), alcance (range) e efeito pepita (nugget). A Figura 3.6 ilustra essas caracterı́sticas. Figura 3.6: Semivariograma e suas caracterı́sticas: patamar, alcance e efeito pepita. Num semivariograma todos os possı́veis pares de observações (voxels) são examinados. Quando a distância entre os pares é zero, o valor de cada ponto é comparado com ele próprio, logo as diferenças são zero e o valor da semivariância também é zero. Se a distância é pequena, os pontos a serem comparados são muitos semelhantes e estão relacionados entre si, pelo que o valor é reduzido (efeito pepita). À medida que aumenta a distância entre os pontos a serem comparados, maior será a semivariância, até que, a partir de uma determinada distância (alcance), a semivariância se estabiliza em um valor (patamar) que é igual à variância dos dados da amostra considerada, significando que não existe qualquer relação entre os pares de observações considerados e esta distância. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 75 O semivariograma é definido por: N (h) 1 X γ(h) = (xi − yi )2 2N (h) i=1 (3-2) onde h é o vetor distância (lag distance) entre os valores de origens, yi , e os valores das extremidades, xi , e N(h) é o número de pares na distância h. O vetor distância é exemplificado na Figura 3.7. Figura 3.7: Definição do vetor distância. Para calcular o semivariograma experimental (sem ajuste dos valores através de modelos matemáticos) direcional em 3D, dois ângulos são usados para definir a direção do vetor: o azimute (azimuth) e o ângulo de inclinação com o plano da superfı́cie da Terra (dip). Para definir a rotação de um vetor, será assumido que um vetor não rotacionado inicia na direção +y. O ângulo do azimute é o primeiro ângulo de rotação e representa uma rotação no sentido horário no plano horizontal do eixo +y. O ângulo do dip é o segundo ângulo de rotação e representa uma rotação para baixo do vetor de um plano horizontal. Os outros parâmetros usados para calcular o semivariograma, como incremento do lag (lag spacing), tolerância do lag (lag tolerance), direção (direction), tolerância angular (angular tolerance), e largura máxima de banda (maximum bandwidth) são ilustrados em 2D na Figura 3.8. A largura de banda se refere a um valor de ajuste a partir do qual se restringe o número de pares de observações para o cálculo do semivariograma. 3.2.2 Semimadograma O semimadograma é a média da diferença absoluta medida nos pares da amostra, como uma função de distância e direção. A função é definida por: N (h) 1 X |xi − yi | (3-3) m(h) = 2N (h) i=1 Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 76 Figura 3.8: Parâmetros utilizados para cálculo do semivariograma (2D). onde h é o vetor distância (lag distance) entre os valores das origens, yi , e os valores das extremidades, xi , e N(h) é o número de pares na distância h. 3.2.3 Covariograma A função de covariância (covariograma) é uma medida estatı́stica de correlação entre duas variáveis. Em Geoestatı́stica, a covariância é calculada como a variância da amostra menos o valor do variograma. A função de covariância tende a ser alta quando h=0 (isto é, a função de correlação é 1), e tende para zero para pontos que são separados por distâncias grandes ou iguais ao limite (isto é, não correlacionado). O covariograma é definido por: N (h) 1 X C(h) = xi yi − m−h m+h (3-4) N (h) i=1 onde m−h é a média dos valores das origens dos vetores, m−h N (h) 1 X = xi N (h) i=1 (3-5) e m+h é a média dos valores das extremidades dos vetores, m+h N (h) 1 X yi = N (h) i=1 (3-6) Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 77 3.2.4 Correlograma A função de correlação (correlograma) é a versão normalizada da função de covariância e os coeficientes de correlação estão na faixa de -1 a 1. Espera-se que a correlação seja alta para unidades que estão próximas umas das outra (correlação = 1 para distância zero) e que tenda a zero quando a distância entre as unidades aumenta. A correlação é definida por: ρ(h) = C(h) σ−h σ+h (3-7) onde σ−h é o desvio padrão dos valores das origens dos vetores, σ−h = 1 N (h) N (h) X 12 x2i − m2−h (3-8) i=1 e σ+h é o desvio padrão dos valores das extremidades dos vetores, σ+h = N (h) 12 1 X 2 xi − m2+h N (h) i=1 (3-9) 3.3 Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III Como descrito na Seção 2.2, a forma do NPS é um forte indı́cio de sua malignidade ou benignidade. Assim, esta seção trata das caracterı́sticas geométricas 3D para a classificação do NPS. Com estas caracterı́sticas é possı́vel extrair medidas e analisar mais detalhadamente informações identificadas ou não identificadas pelos médicos. As medidas devem ser idealmente invariantes para mudanças de parâmetros de volume, tamanho do voxel, orientação e espessura da fatia. As medidas foram baseadas em uma superfı́cie reconstruı́da em 3D pelo algoritmo de Marching Cubes [13] e suavizada pelo algoritmo do operador Laplaciano [87] e [91]. As Figuras 3.9(a) e (b) mostram a aplicação do algoritmo de Marching Cubes, e da técnica Laplaciana, respectivamente. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 78 Figura 3.9: (a) Aplicação do Marching Cubes. (b) Aplicação da técnica Laplaciana. 3.3.1 Convexidade A convexidade (CON ) é uma medida comumente utilizada como forma de “assinatura” de objetos em 2D [41], [16], [22] e [36], e em 3D [65]. A convexidade para o NPS serve para medir o quanto este é espiculado e se possui forma bem ou mal definida. Quanto mais convexo for o NPS, mais próximo de 1 será o seu valor. A convexidade é definida por: CON = A(B) A(HB ) (3-10) onde A(B) é a área da superfı́cie do nódulo e A(HB ) é área da superfı́cie do seu fecho convexo. 3.3.2 Esfericidade A forma de um NPS “perfeito” seria uma esfera “perfeita”. Assim, a esfericidade (ESF ) tem por finalidade medir o comportamento do NPS em relação à esfera. Quanto mais esférico for o nódulo, mais próximo de 1 será o seu valor. A esfericidade é definida por: √ 6 πV ESF = A3/2 (3-11) onde V e A são o volume e a área da superfı́cie do nódulo, respectivamente. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 79 3.3.3 Medidas baseadas na Curvatura A curvatura é uma “assinatura” de geometria muito utilizada em processamento de imagem e visão computacional [22], [51], [41], [86] e [16]. Nesta seção serão extraı́das várias medidas baseadas na curvatura para caracterizar o NPS . Os ı́ndices de curvatura Intrı́nseca (Gaussiana) e Extrı́nseca (Média), explicados a seguir, foram utilizados por [43] e [65] para medir a geometria da superfı́cie cortical. Nesta tese esses ı́ndices são utilizados para analisar e associar a presença de curvatura intrı́nseca e extrı́nseca aos NPS. Maiores detalhes sobre curvaturas intrı́nseca e extrı́nseca, e outras medidas estudadas aqui, como a curvedness e tipos de curvatura podem ser encontrados em [18], [20], [52] e [53]. Índice de Curvatura Intrı́nseca O Índice de Curvatura Intrı́nseca (ICI) é calculado integrando todas as regiões de curvatura intrı́nseca positiva e dividindo por 4π (integral da curvatura intrı́nseca para uma esfera perfeita de qualquer tamanho). O ICI é calculado no modo contı́nuo por [43]: 1 ICI = 4π Z Z |kmax kmin | dA (3-12) se (kmin kmax > 0) ou |kmin kmax | = 0, onde kmin e kmax são as curvaturas mı́nima e máxima, respectivamente. Para o modo discreto, o ICI é calculado por [65]: P ICI = K + Af f aces 4π (3-13) onde K + = KV , se KV > 0 ou se K + = 0, e Af é a área da face de cada triângulo. KV é a medida de curvatura intrı́nsica em um vértice V , definida P por KV = 2π−NV αi , onde αi são os ângulos dos triângulos para um vértice, e NV é o número de triângulos se encontrando em um vértice. O ICI captura quanto de curvatura intrı́nsica o nódulo possue. Qualquer depressão ou saliência na superfı́cie com a forma de metade de uma esfera incrementa o ICI, independentemente do seu tamanho. Em resumo, o ICI conta o número de regiões que têm forma semelhante à depressão ou saliência na superfı́cie que está sendo considerada. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 80 Índice de Curvatura Extrı́nseca O Índice de Curvatura Extrı́nseca (ICE) é calculado integrando o produto da curvatura máxima e a diferença entre a curvatura máxima e mı́nima, e dividindo por 4π (integral para um cilindro, em que o comprimento é igual ao seu diâmetro). O ICE é calculado por [43]: 1 ICE = 4π Z Z |kmax | (|kmax | − |kmin |)dA (3-14) No modo discreto, o ICE pode ser definido por [65]: ICE = 1 X |kmax | |kmax − kmin |Af 4π f aces (3-15) onde kmin e kmax são as curvaturas mı́nima e máxima, respectivamente, e Af é a área da face do triângulo. O ICE captura quanto de curvatura extrı́nsica o nódulo possue. Qualquer elevação ou sulco tendo a forma de metade de um cilindro incrementa o ICE na proporção do seu comprimento. Em resumo, o ICE conta o número e o comprimento (relativo ao seu diâmetro) de cume ou sulco semicilı́ndricos na superfı́cie. Tipos de superfı́cies As curvaturas intrı́nseca ou gaussiana (K) e extrı́nseca ou média (H), ou as curvaturas máxima e mı́nima são utilizadas para classificar uma superfı́cie em 8 tipos básicos: peak (K > 0 e H < 0), pit (K > 0 e H > 0), ridge (K = 0 e H < 0), flat (K = 0 e H = 0), valley (K = 0 e H > 0), saddle valley (K < 0 e H > 0), minimal (K < 0 e H = 0), saddle ridge (K < 0 e H < 0). A Figura 3.10 ilustra essa classificação. Com base nesta classificação, procuramos determinar medidas que possam ser assinaturas dos NPS. Algumas destas medidas já foram utilizadas por Kawata et al. [44] e [46] para a classificação de NPS e os resultados foram promissores. No trabalho deles as medidas foram extraı́das diretamente dos valores de intensidade dos voxels, e nesta tese será utilizada a superfı́cie extraı́da. Na prática, é difı́cil determinar valores que sejam exatamente iguais a zero, devido à precisão numérica [44]. Portanto, as medidas selecionadas foram peak, pit, saddle ridge e saddle valley. As medidas determinadas foram: Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 81 Figura 3.10: Tipos de superfı́cie baseados na curvatura. 1. Freqüência de cada tipo de superfı́cie: A medida indica a freqüência relativa de cada tipo de superfı́cie no nódulo, onde QPK é a freqüência de peak, QPI é a freqüência de pit, QSR é a freqüência de saddle ridge, e QSV é a freqüência de saddle valley. 2. Índice da área de cada tipo de superfı́cie: Para cada tipo de superfı́cie, a área é calculada e dividida pela área total do NPS. Assim, IAPK é o ı́ndice da área de peak, IAPI é o ı́ndice da área de pit, IASR é o ı́ndice da área de saddle ridge, e IASV é o ı́ndice da área de saddle valley. 3. Média de curvedness em cada tipo de superfı́cie: A curvedness é um número positivo que mede a quantidade ou a intensidade de curvatura q na superfı́cie [18] e [20], e é definida por c = 2 +k 2 kmin max . 2 A medida é baseada na curvedness e nos tipos de superfı́cies. Para cada tipo de superfı́cie, a média de curvedness é determinada usando a curvedness de cada tipo de superfı́cie dividida pelo número de curvedness de cada tipo. CPK é a média de curvedness para peak, CPI é a média de curvedness para pit, CSR é a média de curvedness para saddle ridge), e CSV é a média de curvedness para saddle valley. 3.4 Análise do Nódulo Pulmonar Baseada em Textura e na Geometria – Grupo IV Como foi citado na Seção 2.2, os médicos analisam o NPS através da textura e da geometria, e será mostrado no Capı́tulo 4 que essas caracterı́sticas são complementares no diagnóstico do nódulo. Nesta seção Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 82 serão abordados dois métodos, coeficiente de Gini e esqueleto do nódulo, nos quais de alguma forma já estão embutidas estas duas caracterı́sticas. 3.4.1 Coeficiente de Gini O estudo da desigualdade/concentração de um determinado atributo na população tem sido uma preocupação constante nos últimos anos. Os trabalhos pioneiros, no domı́nio da economia, se referem à desigualdade da distribuição de renda, mas muitas das metodologias desenvolvidas para analisar esta importante questão foram generalizadas para múltiplos fenômenos, no domı́nio da economia ou fora dele [30]. Exemplos clássicos deste tipo de generalização são os estudos da distribuição de riqueza [76], produção [54], saúde [99], educação [92], da menor ou maior concentração de clientes em uma empresa [55], etc. Com base nestas preocupações, muitas medidas de concentração foram propostas, como o ı́ndice de Herfindahl-Hirschiman, o coeficiente de entropia de Theil e o coeficiente de Gini [47]. Entretanto, esta tese trata apenas da curva de Lorenz e do coeficiente de Gini aplicados aos NPS. Estes métodos serão utilizados para verificar o grau de concentração das densidades altas dos voxels (calcificação) nos NPS. Desta forma, quando um nódulo tiver calcificações (provavelmente em casos benignos), terá uma maior concentração e, se o nódulo não tiver calcificações (provavelmente em casos malignos), existirá pouca ou nenhuma concentração. Curva de Lorenz A curva de Lorenz é uma representação gráfica da proporcionalidade de uma distribuição (a percentagem acumulada dos valores). Para construir a curva de Lorenz, todos os elementos da distribuição devem ser ordenados do mais importante para o menos importante. Assim, cada elemento é “plotado” de acordo com sua percentagem acumulada de p e q, sendo q a percentagem acumulada dos elementos. O cálculo de p e q é definido por: pi = i n i P qi = j=1 n P j=1 (3-16) Xj (3-17) Xj Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 83 onde i = 1, 2, 3, ..., n, n é o número de voxels e X é a densidade de cada voxel de ordem j. A curva de Lorenz é comparada com a linha de perfeita igualdade, que corresponde ao caso em que cada elemento (voxel ) tem o mesmo valor na população (nódulo). Neste caso, qi = pi = ni . Como conseqüência, a linha de perfeita igualdade forma um ângulo de 45◦ com o eixo horizontal. O outro extremo é representado pela linha de perfeita desigualdade, que representa a distribuição na qual um elemento tem a percentagem total acumulada dos atributos enquanto outro não tem nada. A Figura 3.11 exemplifica a curva de Lorenz. Figura 3.11: Exemplo da curva de Lorenz e coeficiente de Gini (A/(A + B)). O coeficiente de Gini é graficamente definido como uma taxa de duas superfı́cies, envolvendo a soma das áreas entre a curva de Lorenz e a linha de perfeita igualdade (A), dividido pela diferença entre as linhas de perfeita igualdade e desigualdade (A+B). Coeficiente de Gini O coeficiente de Gini foi desenvolvido para medir o grau de variabilidade de concentração (desigualdade) na distribuição dos elementos (voxels). Ele compara a curva de Lorenz de uma distribuição empı́rica ordenada com a linha de perfeita igualdade. A faixa dos valores do coeficiente de Gini está entre 0, significando sem concentração (perfeita igualdade), e 1, significando que existe total concentração (perfeita desigualdade). A Equação 3-18 define o coeficiente de Gini: n−1 P G= n−1 P (pi − qi ) i=1 n−1 P i=1 =1− pi i=1 n−1 P i=1 qi (3-18) pi Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 84 Divisão do NPS em Regiões Com o propósito de fazer uma análise mais pontual e precisa da concentração dos voxels no NPS, os nódulos foram divididos em regiões. Assim, o coeficiente de Gini é calculado para cada região. As regiões foram determinadas por meio de uma codificação dos voxels do nódulo. A codificação se dá por um processo de propagação, semelhante à evolução de uma frente em chamas que avança sobre uma região coberta de grama. A operação de propagação de voxels usando a métrica “nf −na −nv ” pode ser descrita da seguinte forma: primeiro todos os voxels do nódulo são codificados com um valor infinito, em seguida todos os voxels do conjunto V0 são codificados com o valor zero (borda ou inı́cio da propagação). A todos os vizinhos dos voxels V0 por faces é associado o valor nf , a todos os vizinhos por arestas é associado o valor na e a todos os vizinhos por vértices é associado o valor nv . Durante a propagação, todos os voxels com um determinado código n são processados ao mesmo tempo. Assim, se voxels com valor n são processados aos seus vizinhos por face, por aresta e por vértice são associados os valores n+nf , n+na e n+nv , respectivamente, caso estes valores sejam menores do que os valores correntes dos voxels vizinhos. Este processo de codificação continua até que sejam atingidas as condições de parada. Maiores detalhes sobre o processo de propagação podem ser encontrados em [77] e [78]. Neste trabalho, foi utilizada a métrica “1-2-3” para a codificação de voxels. Foram utilizadas seis regiões para o cálculo do coeficiente de Gini: duas mais externas, duas mais centrais e duas mais internas. Este critério foi adotado devido à grande quantidade de regiões em cada nódulo para analisar, devido à necessidade de padronização dos nódulos com tamanhos variados, e porque a localização das concentrações (calcificações) é de grande importância no diagnóstico. A Figura 3.12 exemplifica a codificação gerada para uma fatia de um nódulo (2D) e as seis regiões definidas (linhas contı́nuas). 3.4.2 Medidas baseadas no esqueleto do NPS A esqueletização é uma ferramenta conveniente para obter uma representação simplificada de uma forma que preserva muitas informações topológicas [22]. Um esqueleto captura o eixo de simetria local e é, portanto, centrado na imagem. Em análise de imagens, as caracterı́sticas extraı́das do esqueleto são comumente usadas em algoritmos de reconhecimento de Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 85 Figura 3.12: Codificação de voxels de uma fatia do NPS (2D). padrões [66]. Os esqueletos contêm informações sobre as caracterı́sticas da forma, que são muito importantes no contexto deste trabalho. No processo de esqueletização em 3D foi utilizado o algoritmo de Zhou e Toga [67]. Eles propuseram um algoritmo de codificação de voxels muito eficiente para fazer esqueletos de objetos volumétricos. O algoritmo calcula o esqueleto através de dois códigos. Um é o código Boundary Seeded (BS), que coincide com a transformada da distância tradicional para indicar a distância mı́nima à borda do objeto. O segundo código é chamado de Single Seeded (SS), e indica a distância para um ponto de referência especı́fico. Estes caminhos são representados pelo conjunto seqüencial de voxels que comporão o esqueleto inicial. A idéia chave da codificação dos voxels é usar o código SS para gerar linhas (esqueleto) conectadas e o código BS para assegurar a centralização do esqueleto final. Os esqueletos gerados são formados por seqüências de voxels que representam curvas e não superfı́cies do nódulo. Outras informações podem ser obtidas em [77]. Os dois elementos básicos do esqueleto utilizados neste trabalho são o segmento e a ramificação (nó). O segmento é um subconjunto do esqueleto formado por um conjunto de voxels conectados. A interseção de dois segmentos ou é vazia ou é formada por um único voxel, o que define uma ramificação. Medidas Extraı́das Foram extraı́das oito medidas baseadas no esqueleto para analisar os NPS: Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 86 1. Número de Segmentos (NS) 2. Número de Ramificações (NR) 3. Fração do Volume (FV): A FV é definida por: FV = v V (3-19) onde v é o volume do esqueleto e V é o volume do nódulo. 4. Comprimento dos Segmentos (CS): L CS = √ 3 V (3-20) onde L é a soma dos comprimentos de todos os segmentos e V é o volume do nódulo. 5. Volume do Fecho Convexo (VFC) do esqueleto. 6. Razão de Segmentos por volume (NSVFC): Razão entre o número de segmentos e o volume do fecho convexo [66] N SV F C = NS V FC (3-21) 7. Coeficiente de Variação (CV): O CV é uma medida de dispersão relativa e é dado por σ (3-22) CV = µ onde σ é o desvio padrão e µ é a média dos N segmentos mais longos do esqueleto. O valor de N é baseado no esqueleto que tem o menor número de segmentos na amostra estudada. O coeficiente de variação não é dimensionável e é independente de escala. Um valor alto de CV indica alta variabilidade nos segmentos do esqueleto. 8. Momentos do histograma (variância (M2 ), simetria (M3 ) e curtose (M4 )) dos N segmentos mais longos no esqueleto. O valor de N é baseado no esqueleto que tem o menor número de segmentos na amostra estudada. Os três momentos do histograma são extraı́dos de cada segmento do esqueleto e são definidos por: P Mn = (xi − µ)n fi N (3-23) Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 87 onde n = 2, 3, 4 , µ é média, N é um número de voxels no segmento, e fi é o histograma. Informações mais detalhadas sobre a teoria de momento podem ser encontradas em [51]. 3.5 Resumo Os métodos propostos neste trabalho, para caracterizar os NPS foram baseados nas suas caracterı́sticas de textura e geometria. Desta forma, foram adaptados e criados métodos que pudessem extrair da melhor forma possı́vel estas caracterı́sticas, para que a discriminação entre nódulos benignos e malignos fosse mais eficiente. Com esse objetivo, os métodos foram divididos em grupos conforme suas caracterı́sticas para facilitar a análise do NPS: Grupo I (Seção 3.1) - tratou dos métodos comuns na literatura de processamento de imagens, como Histograma, Método de Dependência Espacial de Nı́veis de Cinza (SGLDM), Método de Diferença de Nı́veis de Cinza (GLDM), e Método de Comprimento de Primitivas de Nı́veis de Cinza (GLRLM). Todos os métodos deste grupo foram adaptados para atender à caracterı́stica 3D do NPS. Grupo II (Seção 3.2) - ainda tratou apenas da textura do NPS, utilizando quatro funções geoestatı́sticas para a sua caracterização. As funções foram: semivariograma, semimadograma, covariograma e correlograma. Em Geoestatı́stica, essas funções são utilizadas para analisar terrenos em 2D e 3D, portanto a análise do nódulo em 3D é uma aplicação natural. Grupo III (Seção 3.3) - descreveu apenas medidas baseadas na geometria do nódulo. Foram analisadas medidas que obtêm caracterı́sticas globais e medidas baseadas na curvatura. Essas medidas extraem informações essenciais para caracterizar o nódulo em 3D. Grupo IV (Seção 3.4) - foram analisados dois métodos que levam em consideração tanto a geometria quanto a textura do nódulo: o coeficiente de Gini e esqueleto do nódulo. O coeficiente de Gini foi calculado para seis regiões distintas, determinadas pela codificação de Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 88 voxels. Com base no esqueleto foram extraı́das mais oito medidas de geometria e textura. A Tabela 3.2 resume todas as medidas dos quatro grupos de métodos estudados. Grupo Objetivo Método Medidas Histograma Média (MED), Desvio Padrão (DVP), Simetria (SIM), Curtose (CUR), Energia (ENE), Entropia (ENT), Contraste (CNT), Números de coeficientes de atenuação > 200 UH (NCMAI) e números de coeficientes de atenuação < 200 UH (NCMEN). Contraste (CONg), Homogeneidade (HOMg), Segundo Momento Angular (SMAg), Entropia (ENTg), Variância (VARg) e Correlação (CORg). Contraste (CONd), Homogeneidade (HOMd), Segundo Momento Angular (SMAd), Entropia (ENTd), Variância (VARd) e Correlação (CORd). Ênfase em primitivas longas (LRE), Ênfase em primitivas curtas (SRE), Uniformidade do nı́vel de cinza (GLD), Uniformidade do comprimento da primitiva (RLD), Percentagem de primitiva (RP). SGLDM I Textura GLDM GLRLM II Textura Semivariograma Semimadograma Covariograma Correlograma 4 4 4 4 medidas medidas medidas medidas para para para para cada cada cada cada direção. direção. direção. direção. continua na próxima página Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 89 Tabela 3.2: (continuação) Grupo Objetivo III IV Método Medidas Geometria — Textura e Geometria Coeficiente Gini Esqueleto Convexidade (CON), Esfericidade (ESF), Índice de Curvatura Intrı́nseca (ICI), Índice de Curvatura Extrı́nseca (ICE), Freqüência de peak (QPK), Freqüência de pit (QPI), Freqüência de saddle ridge (QSR), Freqüência de saddle valley (QSV), Índice da área de peak (IAPK), Índice da área de pit (IAPI), Índice da área de saddle ridge (IASR), Índice da área de saddle valley (IASV), Média curvedness para peak (CPK), Média de curvedness para pit (CPI), Média de curvedness para saddle ridge (CSR), e Média de curvedness para saddle valley (CSV). de 6 coeficientes para cada região especı́fica. Número de Segmentos (NS), Número de Ramificações (NR), Fração do Volume (FV), Comprimento dos Segmentos (CS), Volume do Fecho Convexo (VFC) do esqueleto, Razão de Segmentos por volume (NSVFC), Coeficiente de Variação (CV), Momentos do histograma (variância, simetria, e curtose). Tabela 3.2: Resumo dos métodos e das medidas propostas. As contribuições deste trabalho em relação às medidas propostas foram: Grupo I - a adaptação de métodos SGLDM, GLDM e GLRLM, geralmente usados em 2D, para caracterizar o nódulo em 3D. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 90 Grupo II - as funções semivariograma, semimadograma, covariograma e correlograma que são amplamente utilizadas em Geoestatı́stica, aqui serviram para analisar o NPS. Grupo III - a utilização de medidas desenvolvidas para outras aplicações para caracterizar o nódulo. Grupo IV - a utilização do coeficiente de Gini, um ı́ndice de concentração geralmente utilizado em Economia e Geografia, para a análise da geometria e textura do nódulo. O esqueleto do nódulo serviu de base para extrair medidas de geometria e textura, como coeficiente de variação, variância, simetria e curtose. 4 Testes e Resultados Este capı́tulo analisa cada método proposto e suas combinações em grupos para diagnosticar os NPS. Primeiro, serão detalhados todos os procedimentos iniciais básicos para aquisição e segmentação dos nódulos, e serão descritos os software e hardware utilizados no desenvolvimento deste trabalho. Além disso, serão feitas análises de todos os métodos propostos e, como conseqüência, serão determinados quais os métodos que melhor discriminam os nódulos malignos dos benignos. 4.1 Metodologia Esta seção descreve os procedimentos utilizados durante os testes dos métodos propostos. Serão descritos o protocolo de aquisição dos nódulos, as caracterı́sticas da amostra estudada, os software e hardware utilizados durante a aquisição das medidas e na classificação, e os parâmetros para a utilização dos métodos. 4.1.1 Protocolo de Aquisição dos NPS Os pacientes foram examinados pela equipe do Dr. Rodolfo Acatauassú Nunes, no setor de Cirurgia Torácica da Faculdade de Ciências Médicas da Universidade do Estado do Rio de Janeiro. Depois que os procedimentos médicos foram realizados, os pacientes foram encaminhados para fazer o exame no Instituto Fernandes Figueira - Fundação Oswaldo Cruz (FIOCRUZ), aos cuidados da Dra. Márcia Boechat. Todos os pacientes deram autorização para que seus exames fizessem parte da pesquisa. As imagens foram adquiridas em uma TC Helicoidal GE pro Speed, sob as seguintes condições: voltagem do tubo de 120 kVp, corrente do tubo de 100 mA, tamanho da imagem de 512×512 pixels, e voxel com Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 92 tamanho de 0.67×0.67×1.0 mm. As imagens foram quantizadas em 12 bits e armazenadas no padrão DICOM. 4.1.2 Amostra dos NPS Os testes descritos neste trabalho foram efetuados em uma amostra com 36 NPS, sendo 29 benignos e 7 malignos. É importante salientar que todos os NPS foram diagnosticados por médicos especialistas. Os procedimentos adotados por eles para a confirmação do diagnóstico foram: – Através da imagem. Alguns NPS examinados puderam ser diagnosticados através da imagem, pois suas caracterı́sticas eram visı́veis e bem descritas na literatura médica. – Através da intervenção cirúrgica e exame patológico. Alguns NPS também tinham caracterı́sticas visı́veis na imagem, mas o possı́vel diagnóstico sugeria malignidade. Portanto, foi realizada a extração cirúrgica e posteriormente o exame patológico para a confirmação do diagnóstico. – Através da evolução. Nessa amostra existem alguns NPS nos quais não foi possı́vel identificar malignidade ou benignidade através dos exames iniciais. O procedimento adotado foi observar seu comportamento (evolução) num perı́odo mı́nimo de 2 anos. Desta forma, os NPS que não aumentaram (ou até reduziram de tamanho) foram considerados como benignos. Os NPS para os quais mesmo depois deste perı́odo de observação não houve confirmação do diagnóstico não fazem parte da amostra. Em resumo, a amostra possui NPS com diagnósticos confirmados utilizando os três procedimentos citados. O pequeno tamanho da amostra e a sua desproporção (mais nódulos benignos do que malignos) podem ser explicados, respectivamente, pelo tempo de espera da evolução do nódulo e pelo fato de que no Brasil existem mais pessoas portadoras de nódulo benignos, principalmente tuberculoma, do que malignos. Não houve nenhum critério especı́fico para a escolha dos nódulos da amostra. A amostra tem NPS com tamanhos e formas variadas, com caracterı́sticas homogênea e heterogênea, e em estágio inicial e avançado. Todos os exames foram de pacientes diferentes. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 93 4.1.3 Segmentação do NPS Na maioria dos casos, o nódulo pulmonar é de fácil detecção visual pelos médicos, já que possui forma e localização que se destacam das outras estruturas pulmonares. Entretanto, a densidade do voxel se assemelha à de outras estruturas, como vasos sanguı́neos, o que dificulta uma detecção automática através do computador. Isto ocorre principalmente quando o nódulo está situado adjacente à pleura. Por estas razões, é utilizado o algoritmo de região de crescimento 3D por agregação de voxel [86], que permite que os médicos tenham maior interatividade e controle sobre a segmentação e determinação dos parâmetros (limiares inicial e final, fatia e semente) necessários. Dois outros recursos auxiliares possibilitam um maior controle sobre a segmentação são a barreira e a borracha. A barreira é um cilindro colocado em volta do nódulo pelo médico, que tem por objetivo limitar a região de interesse e impedir que a segmentação por agregação de voxel invada outras estruturas do pulmão. A Figura A.5 exemplifica o recurso da barreira. A borracha, por sua vez, é um recurso que possibilita ao médico apagar estruturas indesejadas antes ou depois da segmentação, visando evitar e corrigir erros durante a segmentação [93]. 4.1.4 Software e Hardware Utilizados Para que os médicos tivessem condições de analisar, visualizar em 2D e 3D, segmentar e filtrar os NPS, foi desenvolvido um software denominado “Sistema de Análise de Nódulo Pulmonar – SANP” [93]. O SANP foi implementado em C++, utilizando as bibliotecas IUP [100] para interface, IM [101] para manipulação de imagens em 2D, e CD [102] para desenho, desenvolvidas pelo Laboratório Tecgraf/PUC-Rio, e compilado com o Visual C++ da Microsoft. Maiores detalhes sobre os recursos disponı́veis no SANP podem ser encontrados no Apêndice A. O freeware eFilm [103] foi utilizado para obter as imagens da estação da TC para o computador de trabalho. O freeware GSLIB [25] foi utilizado para calcular as funções geoestatı́sticas. O software comercial estatı́stico SPSS (Statistical Package for the Social Sciences) [104] foi utilizado para selecionar as medidas, determinar a ALDF e classificar os NPS. O software comercial NeuralPower [105] foi utilizado para determinar e treinar a Rede Neural MLP e classificar os NPS. O freeware ROCKIT [106] foi utilizado Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 94 para calcular e comparar as áreas das curvas ROC. O computador utilizado para os testes foi um Pentium 800 MHz, com 128 Mb de RAM e HD com 20 Gb. 4.1.5 Parâmetros dos Métodos Estudados para os Testes Nesta seção serão definidos os parâmetros e as especificações necessários para realizar os testes dos métodos estudados. Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos) – Grupo I Um grande problema com os métodos SGLDM, GLDM e GLRLM é que a escolha da direção e distância dos vizinhos do voxel, bem como do nı́vel de quantização, é arbitrária [58]. Neste trabalho, para os métodos SGLDM e GLDM, foram adotados os 26 vizinhos do voxel, a uma distância de 1, 2 e 3 voxels. Para o método GLRLM foram utilizados os oito vizinhos (0◦ , 45◦ , 90◦ , 135◦ e simétricos) do voxel, a uma distância de 1 voxel. Os três métodos usaram uma quantização de 8, 16, 32, 64 e 256 nı́veis de cinza. Desta forma, para o método SGLDM foram analisadas 6 medidas × 3 distâncias × 5 nı́veis de cinza, totalizando 90 medidas. O mesmo número de medidas foi analisada para o método GLDM. Para o método GLRLM foram analisadas 5 medidas × 1 distância × 5 nı́veis de cinza, totalizando 25 medidas. Em resumo, para o Grupo I foram analisadas 215 medidas no total, incluindo as 10 do histograma. A identificação das medidas para o Grupo I, exceto as do histograma, tem o seguinte significado: 1) os três primeiros caracteres significam a sigla da medida; 2) o caractere seguinte significa o método utilizado, sendo g para SGLDM e d para GLDM (o método GLRLM não possui esse caractere); 3) os três próximos dı́gitos significam o nı́vel de quantização; e 4) o último dı́gito significa a distância (o método GLRLM não possui esse dı́gito). Para exemplificar essa notação, os dı́gitos da medida CORg0163 significam: COR = correlograma, g = SGLDM, 016 = 16 nı́veis de cinza, e 3 = distância entre os voxels. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 95 Análise do Nódulo Pulmonar Geoestatı́sticas) – Grupo II Baseada em Textura (Funções No teste com as funções geoestatı́sticas, o modelo analı́tico [7] não foi necessário, pois foram utilizados somente os valores experimentais. As medidas extraı́das, consideradas como as assinaturas de texturas, foram obtidas computando as funções de semivariograma, semimadograma, covariograma e correlograma com os seguintes parâmetros: dip (Z): 0◦ ,−45◦ e −90◦ , e para cada dip os azimutes (X e Y) considerados foram 0◦ , 45◦ , 90◦ e 135◦ . A distância de separação entre os lags, a tolerância angular (azimute e dip) e a tolerância do lag foram 1 mm, ±22.5◦ e ±0.5 mm, respectivamente. O número máximo de lags depende da dimensão de cada volume (nódulo). Foram selecionados apenas os três primeiros e o último valor de γ(h), m(h), C(h) e ρ(h) em uma direção especı́fica para cada função. Este valores foram selecionados porque existe um grande interesse em verificar pequenas variações do tecido do nódulo em pequenas distâncias, mas sem rejeitar as informações de distâncias maiores. Desta forma, foram extraı́das 48 medidas (3 dips × 4 azimutes × 4 valores para cada função estudada (γ(h), m(h), C(h) e ρ(h))), totalizando 192 medidas. A identificação das medidas para o Grupo II tem o seguinte significado: 1) a letra inicial corresponde à função geoestatı́stica (v = semivariograma, m = semimadograma, r = correlograma, c = covariograma); 2) os três dı́gitos seguintes significam o azimute; 3) os dois próximos significam o dip; e 4) os dois últimos significam os quatro valores de γ(h), m(h), C(h) ou ρ(h). Para exemplificar essa notação, os dı́gitos da medida v0450003 significam: v = variograma, 045 = 45◦ de azimute, 00 = 0◦ de dip, e 03 = valor de γ(h). Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III Foram analisadas um total 16 medidas para o Grupo III. Análise do Nódulo Pulmonar Baseada em Textura e na Geometria – Grupo IV Coeficiente de Gini Como citado anteriormente, o coeficiente de Gini é calculado para apenas seis regiões do nódulo, sendo duas mais externas, duas mais centrais e duas mais internas. Desta forma, foram calculados seis coeficientes de Gini (medidas) para cada nódulo. As medidas são denominadas por GINI 1 e GINI 2 para as regiões mais externas, GINI 3 e GINI 4 para as regiões Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 96 mais centrais, e GINI 5 e GINI 6 para as regiões mais internas do nódulo. Medidas do Esqueleto Duas medidas extraı́das do esqueleto, coeficiente de variação e momentos do histograma, dependem do nódulo que têm o esqueleto com o menor número de segmentos na amostra estudada. Na amostra estudada o menor esqueleto tem dois segmentos. Desta forma, foram extraı́das duas medidas para o coeficiente de variação e seis (2 segmentos × 3 medidas) para os momentos do histograma. Assim, o total de medidas extraı́das foi de 14. A denominação para as medidas do coeficiente de variação são CV1 e CV2, para o primeiro maior segmento do nódulo e para o segundo maior segmento do nódulo, respectivamente. As medidas para os momentos do histograma denominam-se MOM21, MOM31 e MOM41 para o três momentos do primeiro maior segmento do nódulo, e MOM22, MOM32 e MOM42 para os três momentos do segundo maior segmento do nódulo. Em resumo, para o Grupo IV foram analisadas 20 medidas (6 do coeficiente Gini e 14 do esqueleto). 4.2 Exemplo da Aplicação dos Métodos Estudados Esta seção exemplifica as aplicações dos métodos propostos com objetivo de diagnosticar os NPS, para que se possa observar o potencial de cada método na discriminação dos nódulos entre benignos e malignos. As Figuras 4.1 e 4.2 servirão de base para exemplificar didaticamente a aplicação dos métodos baseados em textura e geometria, respectivamente. Figura 4.1: Exemplos de NPS benignos ((a) e (b)) e malignos ((c) e (d)). 4.2.1 Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos) – Grupo I As Figuras 4.3(a), (b), (c) e (d) exemplificam a aplicação do histograma nos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 97 Figura 4.2: Exemplos de NPS benignos ((a), (b), (c) e (d)) e malignos ((e), (f), (g)). Como se pode observar, o histograma da Figura 4.3(a), que corresponde ao nódulo benigno com grande área calcificada, possui densidades acima de 200 UH (caracterı́stica de benignidade). O histograma da Figura 4.3(b) também é de um nódulo benigno, mas com menor área calcificada, possuindo algumas densidades acima de 0 UH. Porém, os dois histogramas das Figuras 4.3(c) e (d), que correspondem aos nódulos malignos, só possuem densidades negativas. Isto ocorre pelo fato de que os nódulos malignos geralmente não são calcificados. Os histogramas dos nódulos benignos possuem uma variação de ocorrências relativamente alta em relação aos histogramas dos nódulos malignos. Nestes, existe um grande número de voxels com densidades altas, enquanto nos demais voxels as densidades estão distribuı́das mais uniformemente. Para exemplificar os métodos SGLDM, GLDM e GLRLM, os nódulos foram quantizados em 64 nı́veis de cinza, e as matrizes e o histograma foram gerados a uma distância igual a 1. Estes parâmetros foram escolhidos pelo fato de que, em todos os métodos, pelo menos uma variável selecionada (Seção 4.3.1) possui essas caracterı́sticas. As Figuras 4.4(a), (b), (c) e (d) correspondem às matrizes de SGLDM aplicadas aos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente. Analisando os gráficos das matrizes, observa-se que nos nódulos malignos as ocorrências das transições entre as densidades estão mais concentradas próximas à origem, enquanto que nos nódulos benignos há mais ocorrências que se afastam da origem. Isto reforça a conclusão dos histogramas da Figura 4.3 de que a variação de densidades nos nódulos benignos é maior do que nos nódulos malignos, ou seja, estes possuem uma menor variação das densidades, uma vez que nas matrizes dos nódulos benignos os valores estão mais espalhados, enquanto nas matrizes dos nódulos malignos estão mais próximos. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 98 Figura 4.3: Histograma aplicado no exemplo da Figura 4.1. Figura 4.4: SGLDM aplicado no exemplo da Figura 4.1. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 99 As Figuras 4.5(a), (b), (c) e (d) correspondem aos histogramas de GLDM aplicados aos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente. Analisando os gráficos dos histogramas, também é possı́vel observar que existe menor variação das densidades nos nódulos malignos do que nos nódulos benignos. É possı́vel verificar essa caracterı́stica nos histogramas, analisando como as diferenças entre os pares de voxels estão distribuı́das. Nesse exemplo, nos histogramas dos nódulos benignos, ocorrem variações acima do valor 5, enquanto nos histogramas dos nódulos malignos todas as variações ocorrem praticamente entre 0 e 5. Figura 4.5: GLDM aplicado no exemplo da Figura 4.1. As Figuras 4.6(a), (b), (c) e (d) correspondem às matrizes de GLRLM aplicadas aos nódulos das Figuras 4.1(a), (b), (c) e (d), respectivamente. Analisando os gráficos das matrizes, observa-se que nos nódulos benignos há mais blocos de voxels com determinada primitiva, concentrando uma determinada densidade, enquanto nos nódulos malignos há uma menor quantidade de primitivas. Isto reforça a idéia de que existe menor variação das densidades nos nódulos malignos que nos nódulos benignos. Maiores detalhes sobre o potencial para diagnosticar os NPS de cada um desses métodos individualmente podem ser encontrados em [98]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 100 Figura 4.6: GLRLM aplicado no exemplo da Figura 4.1. 4.2.2 Análise do Nódulo Pulmonar Geoestatı́sticas) – Grupo II Baseada em Textura (Funções A Figura 4.7 mostra a aplicação do semivariograma experimental para os nódulos representados pelas Figuras 4.1(a),(b),(c) e (d). Com base neste gráfico, foi observado que os nódulos benignos têm um patamar maior que o dos nódulos malignos, e que a inclinação da curva dos benignos é muito mais acentuada. O gráfico mostra também a presença de uma maior dispersão nos nódulos benignos do que nos malignos. As Figuras 4.8 e 4.9 exemplificam, respectivamente, a aplicação da função de semivariograma para o nódulo benigno (Figura 4.1(a)) e o nódulo maligno (Figura 4.1(d)). As curvas dos gráficos significam a variância calculada nas 12 direções definidas na Seção 4.1.5, relacionadas às várias distâncias. A Figura 4.8 mostra que a distribuição espacial do nódulo benigno é isotrópica, ou seja, as curvas do semivariograma são muito similares. Neste caso, é necessário somente um modelo (uma curva) para representar a distribuição espacial para o nódulos benignos. O mesmo fato ocorre na Figura 4.9 que exemplifica o nódulo maligno. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 101 Figura 4.7: Semivariograma aplicado no exemplo da Figura 4.1. Figura 4.8: Semivariograma aplicado ao nódulo representado pela Figura 4.1(a). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 102 Figura 4.9: Semivariograma aplicado ao nódulo representado pela Figura 4.1(d). Uma análise individual dessas funções na classificação de NPS foi realizada em [107]. Outros estudos dessas funções, mas combinadas com outros métodos, como o esqueleto e a geometria, para classificar os NPS foram realizados em [108] e [110]. 4.2.3 Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III A Figura 4.10 mostra a aplicação de apenas 4 das 16 medidas geométricas apresentadas na Seção 3.3 relacionadas à curvatura, para os nódulos representados pelas Figuras 4.2(a), (d), (f) e (g). A análise foi realizada em relação à freqüência de cada tipo de superfı́cie, denominada QPK para peak, QPI para pit, QSR para saddle ridge, e QSV para saddle valley. No gráfico, b1 e b2 são os nódulos benignos relacionados às Figuras 4.2(a) e (d), e m1 e m2 são os nódulos malignos relacionados às Figuras 4.2(f) e (g). Como se pode observar no gráfico, o maior número de ocorrências corresponde ao nódulo maligno m1, seguido pelo nódulo maligno m2, depois pelo nódulo benigno b2, e por último pelo nódulo benigno b1. Este fato é explicado pela maior quantidade de ramificações (curvaturas) apresentadas nos nódulos malignos. Neste exemplo, as medidas analisadas separaram corretamente os nódulos malignos dos benignos. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 103 Figura 4.10: Medidas de Geometria aplicadas no exemplo da Figura 4.2. Maiores detalhes sobre a eficiência das medidas geométricas propostas no diagnóstico de NPS podem ser encontrados em [94] e [109]. 4.2.4 Análise do Nódulo Pulmonar Baseada em Textura e na Geometria – Grupo IV Coeficiente de Gini A Figura 4.11 mostra a curva de Lorenz e o coeficiente de Gini para os nódulos representados pelas Figuras 4.1(a), (b), (c) e (d). Neste exemplo, o coeficiente de Gini foi calculado somente para região mais externa de cada nódulo. É observado que os nódulos benignos com calcificações possuem uma área maior no gráfico do que os nódulos malignos, já que os nódulos benignos possuem maiores áreas de concentração (calcificação). O nódulo benigno (Figura 4.1(a)), que possui uma área maior com calcificação, tem um coeficiente de Gini com o maior valor, e o outro nódulo benigno (Figura 4.1(b)), que também tem calcificação mas numa área menor, tem um coeficiente Gini com um valor bem menor. Os nódulos malignos (Figura 4.1(c) e (d)) possuem os valores do coeficiente de Gini muito baixos, pois suas densidades são melhor distribuı́das. É importante salientar que existem nódulos benignos que também não possuem calcificação, ou nódulos malignos que têm calcificação, logo este método tem alguma probabilidade de não caracterizar corretamente os nódulos. A Figura 4.12 exemplifica a aplicação da curva de Lorenz e do coeficiente de Gini para um nódulo com calcificação central (Figure 4.1(a)). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 104 Figura 4.11: Coeficiente de Gini aplicado ao nódulo representado pela Figura 4.1(a). Nesse caso em particular, a região central do nódulo apresenta uma concentração maior do que as outras regiões. Figura 4.12: Curva de Lorenz e coeficiente de Gini aplicados no exemplo da Figura 4.1. Medidas do Esqueleto A Figura 4.13 mostra a aplicação do algoritmo de esqueleto nos nódulos das Figuras 4.2(a), (d), (f) e (g), respectivamente. É fácil observar que os nódulos malignos possuem um número maior de segmentos do que os benignos. Maiores detalhes sobre o coeficiente de Gini e esqueleto no diagnóstico de NPS podem ser encontrados em [111] e [110]. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 105 Figura 4.13: Aplicação do algoritmo de Zhou e Toga baseada nos nódulos da Figura 4.2(a), (b), (c) e (d). 4.3 Classificação Esta seção tem por objetivo analisar os grupos de métodos propostos e sua combinação, através dos classificadores ALDF e MLP, para verificar a eficiência dos grupos de métodos e dos classificadores no diagnóstico dos NPS. A técnica deixa um de fora é utilizada para a validação do modelo determinado pelos classificadores, e a área da curva ROC é utilizada para avaliar os resultados encontrados. 4.3.1 Análise do Nódulo Pulmonar Baseada em Textura (Métodos Clássicos) – Grupo I Com a utilização do procedimento de seleção de variáveis passo a passo foram selecionadas 10 medidas do Grupo I para serem analisadas pelo ALDF e MLP. As medidas selecionadas foram: CORg0082, CORg0163, SMAg0641, VARg0641, ENTd0322, SMAd0641, SMAd2562, RLD016, RP016 e GLD064. Os valores de α1 e α2 para a medida entrar e sair no modelo foram, respectivamente, 1.0 e 0.5. Analisando as medidas selecionadas, algumas considerações podem ser feitas: 1) nenhuma medida do método do histograma foi selecionada, isto demonstra que a análise que leva em conta a relação entre voxels é mais significativa estatisticamente; 2) somente uma medida extraı́da dos nódulos quantizada com 8 nı́veis de cinza foi selecionada isto se deve a que, quanto menor o nı́vel de quantização, mais informações serão perdidas; e 3) somente uma medida extraı́da quantizada com 256 nı́veis de cinza foi selecionada, isto pode ser explicado com uma análise mais detalhada do método SGLDM demonstrada em [58]. Nesse trabalho, à medida que as Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 106 imagens foram quantizadas com mais nı́veis de cinza, mais esparsa ficava a matriz gerada e, conseqüentemente, muitas informações significativas eram perdidas. A estrutura da MLP para este grupo é 10-7-1. O número de nós da camada escondida foi determinado pelo software NeuralPower. Este software utiliza a Equação 4-1 para determinar o número de nós na camada escondida. 2 (4-1) n = (nE + nS) 3 onde nE é número de entradas e nS é o número de saı́das. Os outros parâmetros da rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a 0.75, o número de iterações (épocas) igual a 7000 e a função de ativação é a tangente hiperbólica. A Tabela 4.1 mostra os resultados dos diagnósticos do Grupo I obtidos com ALDF e MLP. As Figuras 4.14 e 4.15 mostram como foi o comportamento dos nódulos quando diagnosticados com ALDF e MLP. Classificador ALDF MLP % Acertos AU C ± SE Benigno Maligno Precisão 89.7 (26/29) 71.4 (5/7) 86.1 0.842 ± 0.098 93.1 (27/29) 71.4 (5/7) 88.8 0.830 ± 0.101 Tabela 4.1: % de acertos usando a ALDF e MLP para o Grupo I. Figura 4.14: Distribuição dos nódulos do Grupo I usando ALDF. A Figura 4.16 visualiza as curvas ROC resultantes desses diagnósticos. As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão considerado bom (0.800 < AU C ≤ 0.900). Fazendo o teste de hipótese para verificar se a diferença entre as áreas das curvas é significativa Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 107 Figura 4.15: Distribuição dos nódulos do Grupo I usando MLP. estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que p = 0.917. Apesar dos trabalhos [59] e [58] utilizarem o método SGLDM no diagnóstico do NPS, a comparação dos seus resultados com os encontrados nesta tese é muito difı́cil. As amostras utilizadas nesta tese e nos dois trabalhos são diferentes, e eles usaram apenas uma fatia na análise, enquanto aqui foram utilizadas todas as fatias do nódulo. 4.3.2 Análise do Nódulo Pulmonar Geoestatı́sticas) – Grupo II Baseada em Textura (Funções O procedimento de seleção de variáveis passo a passo selecionou 7 medidas do Grupo II para serem analisadas pelo ALDF e MLP. As medidas selecionadas foram: v0450004, v0904503, v0009002, r0000004, r0004504, r0454504 e r1354501. Os valores de α1 e α2 para a medida entrar e sair no modelo foram, respectivamente, 1.5 e 1.0. Analisando as medidas selecionadas, algumas considerações podem ser feitas: 1) nenhuma medida dos métodos de covariograma e semimadograma foi selecionada - esses dois métodos são fracos estatisticamente, fato esse demonstrado em [107]; 2) somente uma medida selecionada é relacionada ao primeiro lag - isto contradiz um pouco a idéia de colocar mais lags com distâncias menores para se obter mais detalhes; e 3) cinco medidas selecionadas têm dip diferente de 0◦ , logo isso mostra que as caracterı́sticas 3D do nódulo são fundamentais para sua discriminação e classificação. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 108 Figura 4.16: Curva ROC do Grupo I utilizando a ALDF e MLP. A estrutura da MLP para este grupo é 7-5-1. Os outros parâmetros da rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a 0.75, o número de iterações igual a 5000 e a função de ativação é a tangente hiperbólica. A Tabela 4.2 mostra os resultados dos diagnósticos do Grupo II obtidos com ALDF e MLP. As Figuras 4.17 e 4.18 mostram como foi o comportamento dos nódulos quando diagnosticados com ALDF e MLP. Classificador ALDF MLP % Acertos Benigno Maligno 93.1 (27/29) 100.0 (7/7) 96.5 (28/29) 100.0 (7/7) AU C ± SE Precisão 94.4 1.000 ± 0.000 97.2 1.000 ± 0.000 Tabela 4.2: % de acertos usando a ALDF e MLP para o Grupo II. A Figura 4.19 visualiza as curvas ROC resultantes desses diagnósticos. As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão considerado excelente (0.900 < AU C ≤ 1.000). Fazendo o teste de hipótese para verificar se a diferença entre as áreas das curvas é significativa estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que p = 1.000. 4.3.3 Análise do Nódulo Pulmonar Baseada na Geometria – Grupo III O procedimento de seleção de variáveis passo a passo selecionou 5 medidas do Grupo III para serem analisadas pelo ALDF e MLP. As medidas Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 109 Figura 4.17: Distribuição dos nódulos do Grupo II usando ALDF. Figura 4.18: Distribuição dos nódulos do Grupo II usando MLP. Figura 4.19: Curva ROC do Grupo II utilizando a ALDF e MLP. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 110 selecionadas foram: ICE, QPK, QSR, QSV e CPI. Os valores de α1 e α2 para a medida entrar e sair no modelo foram, respectivamente, 1.5 e 1.0. Analisando as medidas selecionadas, observa-se que todas elas são baseadas na curvatura, o que mostra um grande potencial da curvatura para diferenciar nódulos malignos de benignos. A estrutura da MLP para este grupo é 5-4-1. Os outros parâmetros da rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a 0.75, o número de iterações igual a 5000 e a função de ativação é a tangente hiperbólica. A Tabela 4.3 mostra os resultados dos diagnósticos do Grupo III obtidos com ALDF e MLP. As Figuras 4.20 e 4.21 mostram como foi o comportamento dos nódulos quando diagnosticados com ALDF e MLP. Classificador ALDF MLP % Acertos AU C ± SE Benigno Maligno Precisão 89.7 (26/29) 71.4 (5/7) 86.1 0.946 ± 0.061 89.7 (26/29) 85.7 (6/7) 88.8 0.906 ± 0.079 Tabela 4.3: % de acertos usando a ALDF e MLP para o Grupo III. Figura 4.20: Distribuição dos nódulos do Grupo III usando ALDF. A Figura 4.22 visualiza as curvas ROC resultantes desses diagnósticos. As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão considerado excelente (0.900 < AU C ≤ 1.000). Fazendo o teste de hipótese para verificar se a diferença entre as áreas das curvas é significativa estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que p = 0.641. Nesta seção são utilizadas algumas medidas baseadas nas curvaturas, também utilizadas por [60], [45] e [46], mas novamente a comparação entre Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 111 Figura 4.21: Distribuição dos nódulos do Grupo III usando MLP. Figura 4.22: Curva ROC do Grupo III utilizando a ALDF e MLP. os trabalhos é muito difı́cil. Nesses trabalhos o cálculo da curvatura foi feito utilizando o voxel, enquanto aqui foi utilizada a superfı́cie. Além disso, nesta tese foram analisadas mais medidas que nos trabalhos citados e, por fim, as amostras são diferentes. 4.3.4 Análise do Nódulo Pulmonar Baseada em Textura e na Geometria – Grupo IV O procedimento de seleção de variáveis passo a passo selecionou 4 medidas do Grupo IV para serem analisadas pelo ALDF e MLP. As medidas Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 112 selecionadas foram: NS, NR, CS e GINI 1. Os valores de α1 e α2 para a medida entrar e sair no modelo foram, respectivamente, 1.5 e 1.0. Analisando as medidas selecionadas, foi percebido que nenhuma das medidas baseadas no esqueleto, que possuem a combinação de geometria e textura, foi selecionada. A estrutura da MLP para este grupo é 4-3-1. Os outros parâmetros da rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a 0.75, o número de iterações igual a 4500 e a função de ativação é a tangente hiperbólica. A Tabela 4.4 mostra os resultados dos diagnósticos do Grupo IV obtidos com ALDF e MLP. As Figuras 4.23 e 4.24 mostram como foi o comportamento dos nódulos quando diagnosticados com ALDF e MLP. Classificador ALDF MLP % Acertos AU C ± SE Benigno Maligno Precisão 93.1 (27/29) 57.1 (4/7) 86.1 0.746 ± 0.115 89.7 (26/29) 71.4 (5/7) 96.1 0.764 ± 0.113 Tabela 4.4: % de acertos usando a ALDF e MLP para o Grupo IV. Figura 4.23: Distribuição dos nódulos do Grupo IV usando ALDF. A Figura 4.25 visualiza as curvas ROC resultantes desses diagnósticos. As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão considerado regular (0.700 < AU C ≤ 8.000). Fazendo o teste de hipótese para verificar se a diferença entre as áreas das curvas é significativa estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que p = 0.876. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 113 Figura 4.24: Distribuição dos nódulos do Grupo IV usando MLP. Figura 4.25: Curva ROC do Grupo IV utilizando a ALDF e MLP. 4.3.5 Métodos combinados (Grupos I, II, III e IV) A análise individual de todos os grupos de métodos, mostrou que todos são eficientes na classificação dos NPS. Nesta seção todos esses métodos serão combinados e analisados. O número de medidas de todos os grupos combinados é igual a 442. Utilizando o procedimento de seleção de variáveis passo a passo foram selecionadas 6 medidas para serem analisadas pelo ALDF e MLP. As medidas selecionadas foram: NR, v0450004, CS, RLD032, QSV e GINI 5. Os valores de α1 e α2 para a medida entrar e sair no modelo foram, respectivamente, 1.5 e 1.0. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 114 Analisando as medidas selecionadas, duas considerações podem ser feitas: 1) foram selecionadas medidas de todos os grupos; e 2) somente uma medida selecionada, GINI 5, não foi selecionada na análise individual dos respectivos grupos. A estrutura da MLP para este grupo é 6-5-1. Os outros parâmetros da rede neural MLP são: taxa de aprendizagem igual a 0.15, momento igual a 0.75, o número de iterações igual a 5000 e a função de ativação é a tangente hiperbólica. A Tabela 4.5 mostra os resultados dos diagnósticos dos Grupos combinados obtidos com ALDF e MLP. As Figuras 4.26 e 4.27 mostram como foi o comportamento dos nódulos quando diagnosticados com ALDF e MLP. Classificador ALDF MLP % Acertos Benigno Maligno 100.0 (29/29) 85.7 (6/7) 100.0 (29/29) 100.0 (7/7) AU C ± SE Precisão 97.2 0.990 ± 0.027 100.0 1.000 ± 0.000 Tabela 4.5: % de acertos usando a ALDF e MLP para os Grupos combinados. Figura 4.26: Distribuição dos nódulos dos Grupos combinados usando ALDF. A Figura 4.28 visualiza as curvas ROC resultantes desses diagnósticos. As áreas das curvas (AUC ) dos dois classificadores tiveram nı́vel de precisão considerado excelente (0.900 < AU C ≤ 1.000). Fazendo o teste de hipótese para verificar se a diferença entre as áreas das curvas é significativa estatisticamente, conclui-se que não ao nı́vel de significância 0.05, já que p = 0.714. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 115 Figura 4.27: Distribuição dos nódulos dos Grupos combinados usando MLP. Figura 4.28: Curva ROC dos Grupos combinados utilizando a ALDF e MLP. 4.4 Conclusão As Tabelas 4.1, 4.2, 4.3, 4.4 e 4.5 mostram que todos os grupos de métodos tiveram mais de 80% de precisão nos diagnósticos dos NPS. A Figura 4.29 compara as áreas de todas as curvas ROC dos grupos, utilizando a ALDF e MLP. Analisando o gráfico, constatam-se os seguintes fatos: 1) não houve grande predominância na classificação dos NPS de algum classificador, isto é, a ALDF e MLP tiveram precisão no diagnóstico bem semelhantes; 2) os Grupos II e III, e todos os Grupos combinados tiveram precisão nos diagnósticos considerada excelente; 3) somente o Grupo IV teve precisão considerada regular; e 4) o Grupo II, tanto com ALDF quanto com Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 116 MLP, e os grupos combinados, somente com MLP, tiveram a área da curva ROC considerada perfeita (AU C = 1.000). Figura 4.29: Comparação das áreas das curvas ROC de todos os grupos analisados, utilizando a ALDF e MLP. Observando-se os resultados das classificações, constata-se que o nódulo 7 (maligno), mostrado na Figura 4.30, foi de difı́cil diagnóstico. Ele foi diagnosticado erradamente no Grupo I, com MLP (Figura 4.15), e no Grupo IV, com ALDF e MLP (Figuras 4.23 e 4.24). No entanto, ambos os métodos de classificação aplicados a todos os Grupos combinados (Figuras 4.26 e 4.27) o diagnosticaram corretamente. 4.30(a): Imagem em 2D do nódulo. 4.30(b): Imagem em 3D do nódulo. Figura 4.30: Nódulo com difı́cil diagnóstico. Um fator importante a salientar é que o tamanho e a desproporção (mais nódulos benignos do que malignos) da amostra impede a obtenção de estatı́sticas mais conclusivas e confiáveis sobre os resultados. Outro fator importante a ser considerado é a seleção das medidas. Existe a necessidade de se estudar outros procedimentos de seleção para que se possa confirmar ou determinar medidas com melhor poder de discriminação dos nódulos. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 117 4.5 Resumo Este capı́tulo analisou cada método proposto e suas combinações em grupos para diagnosticar os NPS. Primeiro, foram mostrados todos os procedimentos iniciais básicos para aquisição e segmentação dos nódulos, os software e hardware utilizados no desenvolvimento deste trabalho, e os parâmetros necessários para a utilização dos métodos propostos e dos programas utilizados. Foram feitas análises dos métodos propostos para verificar a capacidade de cada um na discriminação dos nódulos. Por último, cada grupo de métodos e sua combinação foram utilizados para analisar, discriminar e classificar os nódulos da amostra, através da ALDF e MLP. 5 Conclusão Neste trabalho foram propostos quatro grupos de métodos com o objetivo de sugerir o diagnóstico para Nódulos Pulmonares Solitários. Os grupos de métodos foram divididos de acordo com caracterı́sticas comuns. O Grupo I tratou dos métodos comuns na literatura de processamento de imagens, como Histograma, Método de Dependência Espacial de Nı́veis de Cinza – SGLDM, Método de Diferença de Nı́veis de Cinza - GLDM, e Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM. Esses métodos foram adaptados para se obter as caracterı́sticas 3D do nódulo. O Grupo II também tratou da textura dos nódulos, mas utiliza quatro funções geoestatı́sticas para seu diagnóstico. As funções foram: semivariograma, semimadograma, covariograma e correlograma. O Grupo III descreveu apenas medidas baseadas na geometria do nódulo. Foram analisadas medidas de convexidade, esfericidade, e medidas baseadas na curvatura. Por fim, no Grupo IV, analisaram-se métodos que levam em consideração tanto a geometria quanto a textura do nódulo: o coeficiente de Gini e o esqueleto do nódulo. O coeficiente de Gini foi calculado para seis regiões distintas determinadas pela codificação de voxels. Com base no esqueleto, foram extraı́das mais oito medidas: número de segmentos, número de ramificações, fração do volume, comprimento dos segmentos, volume do fecho convexo, taxa entre o número de segmentos e o volume do fecho convexo, coeficiente de variação e momentos do histograma. Para sugerir o diagnóstico dos nódulos, foram estudadas duas técnicas de classificação que determinaram a sua benignidade ou malignidade. A primeira técnica é baseada nos métodos clássicos de estatı́stica, chamada de Análise Discriminante Linear de Fisher. A segunda técnica realiza discriminações não lineares e é chamada de Rede Neural Perceptron de Múltiplas Camadas. A avaliação dos grupos de métodos propostos e a combinação deles mostraram que: 1) todos os grupos de métodos tiveram mais de 80% de precisão nos diagnósticos dos NPS; 2) não houve grande predominância na Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 119 classificação dos NPS de algum classificador, isto é, a ALDF e MLP tiveram precisão bem semelhante nos diagnósticos; 3) os Grupos II e III, e todos os Grupos combinados tiveram precisão no diagnósticos considerada excelente; 4) somente o Grupo IV teve precisão considerada regular; 5) o Grupo II, tanto com ALDF quanto com MLP, e os Grupos combinados, somente com MLP, tiveram a área da curva ROC considerada perfeita (AU C = 1.000); e 6) os Grupos combinados foi comprovadamente eficiente no diagnóstico de NPS, portanto concluı́mos que este resultado está de acordo com a idéia fundamental da tese, que é combinar medidas de textura e geometria como forma de obter caracterı́sticas complementares para diagnosticar NPS. A adaptação de métodos clássicos de textura em processamento de imagens, como o Método de Dependência Espacial de Nı́veis de Cinza – SGLDM, o Método de Diferença de Nı́veis de Cinza - GLDM, e o Método de Comprimento de Primitivas de Nı́veis de Cinza - GLRLM, para caracterizar o nódulo em 3D, são comprovadamente eficientes em várias aplicações de reconhecimento de padrões, e também demonstraram eficiência na discriminação e classificação dos nódulos (0.800 < AU C ≤ 0.900). As funções geoestatı́sticas estudadas, mais precisamente o semivariograma e correlograma, forneceram excelentes caracterı́sticas para discrimar NPS entre malignos e benignos, já que a área da curva ROC foi igual a 1.000. Mesmo assim a técnica passo a passo não selecionou nenhuma medida dos métodos covariograma e semimadograma. Além disso, também não foi selecionada nenhuma medida com distância igual a 1, e ainda 4 das 7 medidas selecionadas foram do último lag (maior distância). Esta seleção contradiz a idéia inicial de que lags com distância menores seriam mais importantes na análise dos nódulos, pois detectariam pequenas mudanças de densidades. A combinação do coeficiente de Gini e do esqueleto do nódulo para se obter caracterı́sticas de textura e geometria para diagnósticos dos nódulos não foi tão eficiente quanto o esperado, já que obteve conceito considerado regular (0.700 < AU C ≤ 8.000). A utilização do coeficiente de Gini como medida de caracterização do nódulo não teve muita importância para modelo, tendo somente uma medida selecionada. A aplicação do esqueleto do nódulo em relação à geometria foi importante para a discriminação dos nódulos, mas as medidas que procuravam combinar as caracterı́sticas de textura e geometria, não foram selecionadas para o modelo. A idéia de verificar a variação da textura nos segmentos do esqueleto é válida, mas as medidas escolhidas para fazer esta tarefa talvez não sejam as ideais. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 120 O tamanho da amostra (29 nódulos benignos e 7 malignos) e a sua desproporção (mais nódulos benignos do que malignos) prejudicaram sensivelmente uma análise mais precisa dos métodos propostos. Desta forma, se faz necessária outra análise com uma amostra maior e mais equilibrada. Também é importante utilizar outra amostra com protocolo de aquisição diferente da estudada, para se obter uma conclusão mais definitiva. Com a criação, prevista para o fim de 2004, de uma base de dados de imagens tomográficas de pulmões será possı́vel fazer uma análise mais detalhada dos métodos e fazer comparações com métodos de outros pesquisadores. Maiores informações sobre essa base de dados podem ser encontradas em http://www3.cancer.gov/bip/steer miss.htm e http://www3.cancer.gov/bip/steercom.htm. Uma limitação do “Sistema de Análise de Nódulo Pulmonar – SANP” é a segmentação. Foi percebido pelos médicos durante sua utilização que a segmentação semi-automática faz com que a extração do nódulo seja demorada, e é necessária uma boa precisão motora e visual na eliminação de estruturas próximas ao nódulo. Estes fatores podem trazer algum tipo de informação errada para os métodos propostos, pois, se médico não conseguir distinguir e delimitar corretamente o nódulo, a conseqüência poderá ser um diagnóstico também errado [68], [57]. A expectativa com este trabalho é oferecer uma ferramenta que contribua com mais informações na análise dos NPS, permitindo aos médicos realizarem diagnósticos mais precisos. 5.1 Trabalhos Futuros Com a experiência adquirida neste trabalho, são sugeridas as seguintes extensões para esta tese: – Incluir parâmetros clı́nicos do paciente, como por exemplo idade, sexo e se é fumante, como entrada para os classificadores, ou ainda construir um sistema especialista que complemente os resultados vindos dos classificadores. – Aplicar outras técnicas para selecionar variáveis, como algoritmos genéticos, análise de componentes principais (PCA), etc. – Comparar os resultados encontrados com ALDF e MLP com outros tipos de classificadores, como por exemplo Support Vector Machine (SVM) ou um classificador Fuzzy. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 121 – Este trabalho se restringiu apenas a classificar os nódulos como malignos ou benignos. Com uma amostra bem maior, pode-se fazer um estudo mais detalhado dos nódulos e classificá-los por tipos de lesões, como tuberculoma, granuloma, hamatormas, carcinoma, etc. – Extrair/Segmentar o NPS de uma forma mais automática é um importante trabalho a ser realizado, pois diminuiria o tempo gasto pelos médicos na sua segmentação e evitaria erros de precisão motora. – O SANP já verifica a evolução do nódulo através do tempo de dobra, utilizando a medida de volume ou diâmetro. Porém, outras maneiras podem ser estudadas, como a de analisar a alteração das densidades ou da geometria. – O NPS maligno possui grandes quantidades de vasos, por isso quando o contraste iodado é injetado no paciente, este nódulo tende a absorver mais o iodo e conseqüentemente a realçar os tecidos. Nódulos com realce menor de 15 UH possuem 99% de probabilidades de serem benignos, e nódulos com realce maior que esse valor podem indicar malignidade. Um trabalho a ser realizado seria fazer um mapeamento das regiões que sofreram alterações com o contraste e visualizá-las. – Os dois tratamentos padrões para nódulos malignos são radioterapia e a quimioterapia. Com esses tratamentos as células cancerı́genas tendem a desaparecer, e para a imagem isto significa alterar a densidade do voxel e a geometria do nódulo. Um estudo muito interessante seria fazer o acompanhamento desses nódulos durante o tratamento. – Os métodos propostos podem ser facilmente adaptados para trabalhar com outros tipos de lesões pulmonares, ou outros tipos de anomalias de outros órgãos (tumor no cérebro, por exemplo) ou ainda para qualquer outro trabalho que envolva a obtenção de caracterı́sticas 2D ou 3D de um objeto para o reconhecimento de padrões. Um trabalho futuro seria utilizar estes métodos em outros estudos. – Um passo fundamental para se verificar a evolução do NPS é fazer o registro de dois deles adquiridos de tempos diferentes. Uma das maiores dificuldades em se fazer o registro de imagens médicas é determinar os pontos comuns entre elas. O esqueleto do nódulo, descrito neste trabalho, pode ser uma boa solução para esse problema. Um trabalho futuro seria verificar a eficiência do esqueleto no registro dos nódulos. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 122 – O NPS contém várias estruturas internas em sua composição, como vasos, calcificações, áreas de necrose, etc. Um dos trabalhos realizados em paralelo a esta tese foi a detecção, visualização e quantificação dessas estruturas [95]. Entretanto, é necessário validar este método comparando os resultados obtidos com imagens vindas do exame histopatológico. – Examinar a possibilidade de utilizar métodos que não exijam a prévia segmentação do nódulo (por exemplo, operem sobre toda a tomografia). Referências Bibliográficas [1] HARALICK, R.; SHANMUGAM, K. ; DINSTEIN, I.. Textural features for image classification. SMC, 3(6):610–621, November 1973. [2] DUDA, R. O.; HART, P. E.. Pattern Classification and Scene Analysis. Wiley-Interscience Publication, New York, 1973. [3] LACHENBRUCH, P. A.. Discriminant Analysis. Hafner Press, New York, 1975. [4] KENDALL, M.. Multivariate Analysis. Charles Griffin & Company, London, 1975. [5] GALLOWAY, M. M.. Texture analysis using gray level run lenghts. Computer Graphics and Image Processing, 4:172–179, 1975. [6] DE SOUZA, J.. Estatı́stica Econômica e Social. Editora Campus, Rio de Janeiro - Brazil, 1977. [7] JOURNEL, A. G.; HUIJBREGTS, C. J.. Academic Press, London, 1978. Mining Geostatistics. [8] SWETS, J. A.. ROC analysis applied to the evaluation of medical imaging techniques. Invest Radiol, 4:109–121, 1979. [9] CLARK, I.. Practical Geostatistics. London, 1979. Applied Sience Publishers, [10] HANLEY, J. A.; MCNEIL, B. J.. The meaning and use of the area under a receiver operating characteristic (roc) curve. Radiology, 143(1):29–36, April 1982. [11] HANLEY, J. A.; MCNEIL, B. J.. A method of comparing the areas under receiver operating characteristic curve derived from the same cases. Radiology, 148:839–843, September 1983. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 124 [12] UNSER, M.. Sum and difference histograms for texture classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-8(1):118–125, 1986. [13] LORENSEN, W. E.; CLINE, H. E.. Marching cubes: A high resolution 3D surface construction algorithm. Computer Graphics, 21:163–169, 1987. [14] MIRALDI, F.; WIESEN, E. J.. Imaging Principles in Computer Tomography, volumen 1, chapter Imaging Principles in Computed Tomography, p. 1–24. The C. V. Mosby Company, Washington, 2 edition, 1988. [15] FLURY, B.; RIEDWYL, H.. Multivariete Statistics : A Practical Approach. Chapman and Hall, New York, 1988. [16] JAIN, A. K.. Fundamentals of Digital Image Processing. Prentice Hall, Englewood Cliffs, NJ, USA, 1989. [17] CHU, A.; SEHGAL, C. M. ; GREENLEAF, J. F.. Use of gray value distribuition of run lengths for texture analysis. Pattern Recognition Letters, 11:415–420, 1990. [18] KOENDERINK, J. J.. Solid Shape. MIT Press, Cambridge, MA, USA, 1990. [19] MELO, M. P.. Redes neurais artificiais : uma aplicação a previsão de preços de derivados de petróleo. Master’s thesis, Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 1991. [20] KOENDERINK, J. J.; DOORN, A. J. V.. Surface shape and curvature scales. Image and Vision Computing, 10(8):557–565, October 1992. [21] ELVINS, T.. A survey of algorithms for volume visualization. ACM Computer Graphics, 26(3):194–201, 1992. [22] GONZALEZ, R. C.; WOODS, R. E.. Digital Image Processing. Addison-Wesley, Reading, MA, USA, 3 edition, 1992. [23] WOOD, S. L.; JAMALI, H.. Segmentation of gray scale sampled images with bimodal source models. In: CONFERENCE RECORD OF THE TWENTY-SIXTH ASILOMAR, p. 456–460. Signals, Systems and Computers, 1992. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 125 [24] OHANIAN, P. P.; DUBES, R. C.. Performance evaluation for four classes of textural features. Pattern Recognition, 25(8):819–833, 1992. [25] DEUTSCH, C. V.; JOURNEL, A. G.. GSLIB. Geostatistical Software Library and User’s Guide. Oxford University Press, New York, 1992. [26] ZWEIG, M. H.; CAMPBELL, G.. Receiver-operating characteristic (roc) plots: A fundamental evaluation tool in clinical medicine. Clinical Chemistry, 39(4):561–577, 1993. [27] CRESSIE, N. A. C.. Statistical for Spatial Data. John Wiley & Sons, New York, 1993. [28] HUBERTY, C. J.. Interscience, 1994. Applied Discriminant Analysis. Wiley- [29] SARLE, W. S.. Neural networks and statistical models. In: 19TH ANNUAL SAS USERS GROUP INTERNATIONAL CONFERENCE, p. 1538–1550, 1994. Avaliado em http://citeseer.ist.psu.edu/sarle94neural.html. [30] HOULDING, S. W.. 3D Geoscience Modeling : Computer Techniques for Geological Characterization. Springer-Verlag, Berlin, 1994. [31] HASSOUN, M. H.. Fundamentals of Artificial Neural Networks. MIT Press, Cambridge, MA, USA, 1995. [32] FREIXINHO, M. A. P.. Reconhecimento de dı́gitos manuscritos por redes neurais. Master’s thesis, Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 1996. [33] SWINGLER, K.. Applying Neural Networks : a Practical Guide. Academic Press, London, 1996. [34] RIPLEY, B. D.. Pattern Recognition and Neural Networks. Cambridge University Press, United Kigndom, 1996. [35] TAFNER, M. A.; XEREZ, M. ; FILHO, E. R.. Redes Neuais Artificiais : Introdução e Princı́pios de Neurocomputação. Editora FURB, Blumenau, 1996. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 126 [36] CASTLEMAN, K. R.. Digital Image Processing. Prentice Hall, Englewood Cliffs, NJ, USA, 1996. [37] MUZZOLINI, R. E.. A Volumetric Approach to Segmentation and Texture Characterisation of Ultrasound Images. PhD thesis, College and Graduate Studies and Research, 1996. [38] TARANTINO, A. B.. Nódulo Solitário Do Pulmão, chapter 38, p. 733–753. Guanabara Koogan, Rio de Janeiro, 4 edition, 1997. [39] NEDERLAND, P. M. S.. DICOM cook book for implementations in modalities: Chapters 1 and. Document Number XPR080-970004.00. Avaliado em: ftp://ftp.philips.com/pub/ms/dicom/DICOM Information, 1997. [40] LILLINGTON, G. A.. Management of solitary pulmonary nodules. Postgraduate Medicine, 101(3), 1997. [41] PARKER, J. R.. Algorithms for Image Processing and Computer Vision. John Wiley & Sons, Inc, USA, 1997. [42] ANGUH, M. M.; SILVA, A. C.. Multiscale segmentation and enhancement in mammograms. In: Press, I. C. S., editor, SIMPÓSIO BRASILEIRO DE COMPUTACÃO GRÁFICA E PROCESSAMENTO DE IMAGENS, p. 136–139, Campos do Jordão, Outubro 1997. Avaliado em http://mirror.impa.br/sibgrapi97/anais/. [43] ESSEN, D. C. V.; DRURY, H. A.. Structural and functional analyses of human cerebral cortex using a surface-based atlas. The Journal of Neuroscience, 17(18):7079–7102, 1997. [44] KAWATA, Y.; NIKI, N.; ; OHMATSU, H.; KAKINUMA, R.; EGUCHI, K.; KANEKO, M. ; MORIYAMA, N.. Classification of pulmonary nodules in thin-section CT images based on shape characterization. In: INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, volumen 3, p. 528–530. IEEE Computer Society Press, 1997. [45] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KAKINUMA, R.; MORI, K.; EGUCHI, K.; KANEKO, M. ; MORIYAMA, N.. Curvature based analysis of internal structure of pulmonary nodules using thin-section ct images. In: Press, I. C. S., editor, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, volumen 3, p. 851 –855, October 1998. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 127 [46] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KAKINUMA, R.; EGUCHI, K.; KANEKO, M. ; MORIYAMA, N.. Quantitative surface characterization of pulmonary nodules based on thin-section CT images. IEEE Transactions on Nuclear Science, 45(4):2132–2138, August 1998. [47] HOFFMAN, R.. Estatı́stica para Economistas. Editora Pioneira, São Paulo - Brasil, 3 edition, 1998. [48] ERKEL, A. R. V.; PATTYNAMA, P. M. T.. Receiver operating characteristic (ROC) analysis: Basic principles and applicattions in radiology. European Journal of Radiology, 27:88– 94, 1998. [49] FREEBOROUGH, P. A.; FOX, N. C.. MR texture analysis to the diagnosis and tracking of alzheimer’s disease. IEEE Transactions on Medical Imaging, 17(3):475–479, 1998. [50] TANG, X.. Texture information in run-length matrices. IEEE Transactions on Image Processing, 7(11):1602–1609, 1998. [51] SONKA, M.; HLAVAC, V. ; BOYLE, R.. Image Processing, Analysis and Machine Vision. International Thomson Publishing, 2 edition, 1998. [52] HENDERSON, D. W.. Differental Geometry: A Geometric Introduction. Prentice-Hall, Upper Saddle River, New Jersey, 1998. [53] ARAUJO, P. V.. Geometria Diferencial. Instituto de Matematica Pura e Aplicada, Rio de Janeiro, RJ, 1998. [54] DAHMANI, A.. Changes to the oil export structure of opec member countries – an analysis with the gini coefficient. OPEC Review, 22(4):277–290, 1998. [55] LEE, C.-K.; KANG, S.. Measuring earnings inequality and median earnings in the tourism industry. Tourism Management, 19(4):341–348, August 1998. [56] FALCÃO, A. X.. Visualização de volumes aplicada à área médica. Master’s thesis, Universidade Estadual de Campinas, 1999. [57] III, S. G. A.; GIGER, M. L.; MORAN, C. J.; BLACKBURN, J. T.; DOI, K. ; MACMAHON, H.. Computerized detection of pulmonary nodules on ct scans. Radiographics, 19(5):1303–1311, 1999. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 128 [58] MCNITT-GRAY, M. F.; HART, E. M.; WYCKOFF, N.; SAYRE, J. W.; GOLDIN, J. G. ; ABERLE, D. R.. The effects of co-occurrence matrix based texture parameters on the classification of solitary pulmonary nodules imaged on computed tomography. Computerized Medical Imaging and Graphics, 23:339–348, 1999. [59] MCNITT-GRAY, M. F.; HART, E. M.; WYCKOFF, N.; SAYRE, J. W.; GOLDIN, J. G. ; ABERLE, D. R.. A pattern classification approach to characterizing solitary pulmonary nodules imaged on high resolution CT: Preliminary results. Medical Physics, 26(6):880– 888, 1999. [60] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KUSUMOTO, M.; KAKINUMA, R.; MORI, K.; NISHIYAMA, H.; EGUCHI, K.; KANEKO, M. ; MORIYAMA, N.. Computer aided differential diagnosis of pulmonary nodules using curvature based analysis. In: INTERNATIONAL CONFERENCE ON IMAGE ANALYSIS AND PROCESSING, volumen 2, p. 470–475. IEEE Computer Society Press, 1999. [61] NEDEL, L. P.; MANSSOUR, I. H. ; FREITAS, C. M. D. S.. Computer graphics & medicine, 1999. Avaliado em: http://www.inf.ufrgs.br/cg/publications/nedel/tutorial-cg &m.pdf. [62] JAIN, D.. Understanding the solitary pulmonary nodule. Journal of Indian Academy of Clinical Medicine, 4(2):118–126, 1999. [63] BISHOP, C. M.. Neural Networks for Pattern Recognition. Oxford University Press, New York, 1999. [64] PICCOLI, L.. Segmentação e classificação de imagens ecocardiográficas utilizando redes neurais. Master’s thesis, Universidade Federal do Rio Grande do Sul, Rio Grande do Sul, 1999. [65] SMITH, A. C.. The Folding of the Human Brain, from Shape to Function. PhD thesis, University of London, 1999. Avaliado em http://carmen.umds.ac.uk/a.d.smith/phd.html. [66] DA F. COSTA, L.; VELTE, T. J.. Automatic characterization and classification of glangion cells from the salamander retina. The Journal of Comparative Neurology, 404:33–51, 1999. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 129 [67] ZHOU, Y.; TOGA, A. W.. Efficient skeletonization of volumetric objects. IEEE Transactions on Visualization and Computer Graphics, 5(3):196–208, July-September 1999. [68] ZHAO, B.; YANKELEVITZ, D.. Two-dimensional multi-criterion segmentation of pulmonary nodules on helical CT images. Medical Physics, 26(6):889–895, 1999. [69] MACMAHON, H.. Improvement in detection of pulmonary nodules: Digital image processing and computerized diagnosis. RadioGraphics, 20(4):1169–1177, 2000. [70] KAWATA, Y.; NIKI, N.; OHMATSU, H.; KUSUMOTO, M.; KAKINUMA, R.; MORI, K.; NISHIYAMA, H.; EGUCHI, K.; KANEKO, M. ; MORIYAMA, N.. Internal structure analysis of pulmonary nodules in topological and histogram feature spaces. In: INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, volumen 1, p. 168–171. IEEE Computer Society Press, 2000. [71] CLUNIE, D. A.. DICOM Structered Reporting. Publishing, Pennsylvania, 2000. PixelMed [72] YANKELEVITZ, D. F.; HENSCHKE, C. I.. Small solitary pulmonary nodules. Radiologic Clinics of North America, 38(3):1–7, Maio 2000. [73] DYMINSKI, A. S.. Análise de Problemas Geotécnicos através de Redes Neurais. PhD thesis, Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2000. [74] GREINERA, M.; PFEIFFERB, D. ; SMITHC, R.. Principles and practical application of the receiver-operating characteristic analysis for diagnostic tests. Preventive Veterinary Medicine, 45:23– 41, 2000. [75] REEVES, A. P.; KOSTIS, W. J.. Computer-aided diagnosis for lung cancer. Radiologic Clinics of North America, 38(3):497–509, Maio 2000. [76] FERREIRA, F. H.; DE BARROS, R. P.. Education and income distribution in urban brazil, 1976–1996. CEPAL Review, 71:43– 64, 2000. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 130 [77] PEIXOTO, A.; CARVALHO, P. C. P.. Esqueletos de objetos volumétricos. Technical Report 34/00, Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro - Brasil, 2000. [78] PEIXOTO, A.; VELHO, L.. Transformada de distância. Technical Report 35/00, Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro - Brasil, Setembro 2000. [79] VAN GINNEKEN, B.; TER HAAR ROMENY, B. M. ; VIERGEVER, M. A.. Computer-aided diagnosis in chest radiography: A survey. IEEE Transactions on Medical Imaging, 20(12):1228–1241, December 2001. [80] KAK, A. C.; SLANEY, M.. Principles of Computarerized Tomographic Imaging. IEEE Press, New York, 2001. [81] SERRANO, B. L.; GARCÍA, F. Z.. Estudio del nódulo pulmonar solitario. JANO EMC, 61(1398):51–52, September 2001. [82] MUÑOZ, J. C. E.; RODRÍGUEZ, E. P.; PEREZ, S.; JUSTEL, P.; SALVAT, H.; VILLAR, S. D. ; FREIRE, C.. Guı́a de actuación ante un nódulo pulmonar solitario. Guı́as Clı́nicas, 1(51):1–3, 2001. [83] HAYKIN, S.. Redes Neurais: Princı́pios e Prática. Bookman, Porto Alegre, 2 edition, 2001. [84] WAGNER, R. F.; BEIDEN, S. V. ; METZ, C. E.. Continuos versus categorical data for ROC analysis: Some quantitative considerations. Academic Radiology, 8(4):328–334, April 2001. [85] HETZEL, G.; LEIBE, B.; LEVI, P. ; SCHIELE, B.. 3d object recognition from range images using local feature histograms. IEEE on Computer Society Conference, 2:394–399, 2001. [86] NIKOLAIDIS, N.; PITAS, I.. 3-D Image Processing Algorithms. John Wiley, New York, 2001. [87] OHTAKE, Y.; BELYAEV, A. ; PASKO, A.. Dynamic meshes for accurate polygonization of implicit surfaces with shape features. In: Press, I. C. S., editor, SMI 2001 INTERNATIONAL CONFERENCE ON SHAPE MODELING AND APPLICATIONS, p. 74– 81, 2001. [88] PAIK, D. S.. Computer Aided Interpretation of Medical Images. PhD thesis, Stanford University, 2002. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 131 [89] AOYAMA, M.; L, Q.; KATSURAGAWA, S.; MACMAHON, H. ; DOIB, K.. Automated computerized scheme for distinction between benign and malignant solitary pulmonary nodules on chest images. Medical Physics, 29(5):701–708, May 2002. [90] MANSSOUR, I. H.; FREITAS, C. M. D. S.. Visualização volumétrica. Revista de Informática Teórica e Aplicada, IX(2):97–126, 2002. [91] PEIXOTO, A.. Extração de Malhas Adaptativas Em MultiResolução a Partir de Volumes, Usando Simplificação e Refinamento. PhD thesis, Pontifı́cia Universidade Católica do Rio de Janeiro - PUC-Rio, 2002. [92] ZHANG, J.; LI, T.. International inequality and convergence in educational attainment, 1960–1990. Review of Development Economics, 6(3):383–392, October 2002. [93] SILVA, A. C.; CARVALHO, P. C. P.. Sistema de análise de nódulo pulmonar. In: II WORKSHOP DE INFORMÁTICA APLICADA A SAÚDE, Itajai, Agosto 2002. Universidade de Itajai. Avaliado em http://www.cbcomp.univali.br/pdf/2002/wsp035.pdf. [94] SILVA, A. C.; CARVALHO, P. C. P.. Medidas globais em 3d para diagnóstico de nódulo pulmonar. In: II WORKSHOP DE INFORMÁTICA MÉDICA, Gramado, Rio Grande do Sul, Outubro 2002. Avaliado em http://www.visgraf.impa.br/Projects/vismed/lung/doc1/MedidasNodulo.pdf. [95] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Visualization of density variation in lung nodules. Technical Report Inf.MCC09/02, Pontı́ficia Universidade Católica do Rio de Janeiro - PUC-Rio, Junho 2002. [96] (WHO), W. H. O.. Avaliado em http://www.who.int/en/, 2003. [97] (INCA), I. N. D. C.. Estimativas da incidência e mortalidade por câncer no brasil. Avaliado em http://www.inca.gov.br/estimativas/2003/versaofinal.pdf, 2003. [98] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Investigação de métodos estatı́sticos baseados em textura 3D para diagnóstico de nódulo pulmonar em imagens de tomografia Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 132 computadorizada. In: III WORKSHOP DE INFORMÁTICA MÉDICA, Fortaleza, Brasil, Setembro 2003. [99] BERNDT, D. J.; FISHER, J. W. ; RAJENDRABABU, R. V.. Measuring healthcare inequalities using the gini index. In: Press, I. C. S., editor, 36TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES (HICSS’03), p. 159 –168, 2003. [100] TECGRAF, G. T. G.. Iup: Portable user interface - v 2.0.1. Avaliado em http://www.tecgraf.puc-rio.br/iup/, 2003. [101] TECGRAF, G. T. G.. Im: Access library to bitmap image files v 2.6. Avaliado em http://www.tecgraf.puc-rio.br/im/, 2003. [102] TECGRAF, G. T. G.. Canvas draw - a 2d graphic library v 4.3. Avaliado em http://www.tecgraf.puc-rio.br/cd/, 2003. [103] COUCH, G. G.; YOUNG, N.; CHAU, C. ; CHAPMAN, P.. eFilm medical imaging system, 2003. Avaliado em http://www.eFilm.net. [104] TECHNOLOGIES, L.. SPSS 11.0 for windows. http://www.spss.com, 2003. Avaliado em [105] SOFTWARE, C.-X.. Neuralpower professional v. 1.0. Avaliado em http://www.geocities.com/neuralpower/, 2003. [106] METZ, C. E.. ROCKIT software. Avaliado em http://wwwradiology.uchicago.edu/krl/toppage11.htm, 2003. [107] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Analysis of spatial variability using geostatistical functions for diagnosis of lung nodule in computerized tomography images. Submetido para Pattern Analysis and Applications, 2003. [108] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Diagnosis of lung nodule using semivariogram and geometric measures in computerized tomography images. Submetido para Computer Methods and Programs in Biomedicine, 2003. [109] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Analysis and diagnosis of lung nodule based on geometric measures. Submetido para International Journal of Medical Physics, 2003. Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 133 [110] SILVA, A. C.; CARVALHO, P. C. P. ; GATTASS, M.. Diagnosis of solitary lung nodule using semivariogram and skeletonization in computerized tomography images. Aceito para 21st Meeting of the Society for Computer Applications in Radiology (SCAR 2004), May 2004. [111] SILVA, A. C.; CARVALHO, P. C. P.; PEIXOTO, A. ; GATTASS, M.. Diagnosis of lung nodule using gini coefficient and skeletonization in computerized tomography images. Aceito para 19th ACM Symposium on Applied Computing (SAC 2004), March 2004. A Sistema de Análise de Nódulo Pulmonar – SANP Esta seção apresenta o protótipo do Sistema de Análise de Nódulo Pulmonar – SANP, desenvolvido durante o perı́odo de elaboração da tese para dar suporte às pesquisas das medidas para o diagnóstico do NPS e, ao mesmo tempo, fornecer aos médicos diversos recursos para a análise do nódulo. Alguns desses recursos são: visualização em 2D e 3D das fatias, filtro de visualização, visualização de detalhes, segmentação dos nódulos, métricas de evolução (circularidade, diâmetro, volume, etc.), e visualização das estruturas internas do nódulo. O SANP foi desenvolvido para médicos e especialistas em TC de pulmão. Assim sendo, houve uma grande preocupação para que a interface com o usuário fosse amigável, pois os médicos nem sempre são familiarizados com ferramentas computacionais. Além disso, quanto mais fácil for a desenvoltura do médico ao manusear o sistema, mais rápido será o aprendizado e, conseqüentemente, mais eficaz será sua análise. Durante o desenvolvimento, a equipe médica pôde usar o software e interagir com a equipe desenvolvedora. Desta forma foi possı́vel assegurar o cumprimento deste pré-requisito e o surgimento de novas idéias de ferramentas a serem oferecidas pelo software de acordo com as necessidades reais dos médicos. A Figura A.1 mostra a interface principal do sistema, com seus menus e ferramentas. Uma caracterı́stica importante da implementação do SANP é sua modularização. Este software, apesar de ter seu uso inicial especı́fico para a aplicação de nódulos pulmonares, pode ser utilizado para visualizar qualquer imagem tomográfica por usar o padrão DICOM e pode facilmente ser adaptado à realidade dos problemas de outras áreas de estudo de imagens tomográficas. Uma equipe de tecnologia e outra de saúde participaram do desenvolvimento do SANP. A equipe de tecnologia foi formada por Paulo Cezar Pinto Carvalho, Ana Elisa Ferreira Schmidt, Aristófanes Corrêa Silva, Beatriz Silva Villa Alvarez, Cristina Nader Vasconcelos e André do Nascimento Moreno Fernandes. A equipe de saúde foi composta por Rodolfo Acatauassú Nunes, Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 135 Figura A.1: Interface do SANP. Marcia Boechat, Gustavo Adolpho Moreira Faulhaber, Fabrı́zia Renno Sodero, Patrı́cia Damasco e Patrı́cia Guerra. A.1 Visualização das fatias Para a visualização de fatias, além da visualização mostrada na Figura A.1 foram implementados outros recursos, no intuito de oferecer facilidade de manuseio e análise das regiões de interesse na imagem, conforme descritos a seguir: 1. Galeria de fatias: exibe uma grade com thumbnails das fatias que pode ser configurável através do botão de layout de fatias (Figura A.2). A fatia selecionada é visualizada no canvas principal. 2. Janela/Nı́vel: disponibiliza um filtro de visualização para exibir estruturas de interesse e esconder as demais. Os parâmetros necessários para sua utilização são a janela (área de atuação) e o nı́vel (densidade a ser realçada ou escondida). Além de o usuário poder alterar esses valores, o programa disponibiliza escolhas padronizadas de janelas (Figura A.3). 3. Detalhe: mostra um detalhe da imagem num canvas auxiliar denominado “janela de detalhes”. Na opção janela de detalhe (Figura A.4), o retângulo Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 136 Figura A.2: Galeria de fatias. Figura A.3: Janela/Nı́vel de contraste e exemplos. que fica sobre a imagem do canvas principal de visualização pode ser movido, aumentado ou diminuı́do pelo usuário para analisar diferentes detalhes na imagem. A.2 Segmentação O usuário pode colocar uma barreira em volta do nódulo, com o objetivo de limitar a região de interesse e impedir que a segmentação por agregação de voxel invada outras estruturas do pulmão. A barreira é um cilindro (Figura A.5) cuja manipulação permite aumentá-lo ou diminuı́-lo. Outra forma de barreira, denominada aberta, é quando o usuário indica os pontos extremos de cada segmento que em conjunto formam a barreira ou limite aberto (Figura A.6), com o objetivo de limitar a região de interesse e Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 137 Figura A.4: Zoom de detalhe. Figura A.5: Barreira ao redor do nódulo. impedir que a segmentação por agregação de voxel invada outras estruturas do pulmão. No processo de segmentação, o usuário indica uma semente para iniciar a segmentação, clicando no canvas principal dentro da região de interesse ou digitando a posição (x,y) da semente, então determina um limiar de restrição de densidade e escolhe uma seqüência de fatias onde o nódulo está presente(Figura A.7). A.3 Visualização 3D A visualização tridimensional, através do método Marching Cubes, do nódulo ou qualquer outra estrutura do pulmão previamente segmentadas é mostrada em uma janela auxiliar. Esta também possui uma barra de menu com Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 138 Figura A.6: Barreira aberta. Figura A.7: Processo de segmentação. recursos dos quais os mais úteis são: salvar a superfı́cie do nódulo, visualizá-lo em wireframe, visualizar o seu fecho convexo e sua bounding Box, suavizar sua superfı́cie através do filtro Laplaciano e as medidas estatı́sticas baseadas na sua geometria (Figura A.8). A.4 Tempo de Dobra As informações referentes ao volume e diâmetro do nódulo são armazenadas para comparação com um nódulo de um exame anterior. Nessa comparação o tempo de dobra do nódulo é calculado e exibe um gráfico que mede a sua evolução (Figura A.10). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 139 Figura A.8: Janela de visualização 3D - Marching Cubes. Figura A.9: Tempo de dobra. A.5 Estruturas do Nódulo Este recurso serve para enfatizar e visualizar as estruturas internas do nódulo (calcificação, fibrose, necrose, gordura, etc.) e as quantidades de voxels determinadas para cada estrutura (Figura 10). Algoritmos para Diagnóstico Assistido de Nódulos Pulmonares Solitários em Imagens de Tomografia Computadorizada 140 Figura A.10: Nódulo com estruturas internas visualizadas e histograma das estruturas do nódulo.