Sistema de Recuperação de Imagens Baseada em Conteúdo
Transcrição
Sistema de Recuperação de Imagens Baseada em Conteúdo
Sistema de Recuperação de Imagens Baseada em Conteúdo Usando Mapas de Kohonen e Técnicas de Correlação Cruzada. T. C. S. Santos André *, P. M. de Azevedo Marques*, J. A. H. Rodrigues* and R. M. Rangayyan**. * USP_FMRP/Departamento de Clínica Médica, Ribeirão Preto, SP, Brasil. ** University of Calgary/ Department of Electrical & Computer Engineering, Calgary, AB, Canada. Resumo: Recuperação de imagens baseado em conteúdo (RIBC) tem sido uma área de pesquisa intensamente estudada no campo da visão computacional nos últimos 10 anos. Na medicina, imagens, especialmente imagens digitais, são produzidas numa quantidade crescente e usadas tanto no diagnóstico quanto em terapias de tratamento de doenças. O Departamento de Radiologia do Hospital das Clínicas de Ribeirão Preto sozinho produziu mais de 300.000 imagens em 2003. Neste trabalho apresentamos um sistema de recuperação de imagens baseado em conteúdo que utiliza uma rede neural do tipo de Kohonen para reduzir o tamanho das imagens e a técnica da correlação cruzada para recuperar imagens mamográficas similares àquela apresentada ao sistema. A avaliação da performance do sistema foi feita usando medidas de precisão (0,21) e revocação (0,23) mostrando a necessidade de trabalhos futuros nesta área. Palavras Chaves: recuperação de imagens médicas, recuperação de imagens baseada em conteúdo, correlação cruzada, mamogramas, mapas de Kohonen. Abstract: Content-based image retrieval (CBIR) has been one of the most vivid research areas in the field of computer vision over the last 10 years. In the medical field, images, especially digital images, are being produced in ever-increasing quantities and used for diagnostics and therapy. The Radiology Department of the University Hospital of the Faculty of Medicine of Ribeirão Preto alone produced more than 300,000 images in 2003. We have been developing a CBIR system using a Kohonen neural network to reduce the size of the images and a cross-correlation technique to retrieve similar mammographic images. Evaluation of the system’s performance using measures of precision (0.21) and recall (0.23) indicates the need for further work in this area. Key words: medical image retrieval, content-based image retrieval, cross correlation, mammograms, Kohonen maps. Introdução Os primeiros sistemas de recuperação de imagem baseado em conteúdo (RIBC) foram desenvolvidos no início dos anos 80 [1], sendo que a maioria das pesquisas nesta área se inspirou no sistema da IBM (“Query By Image Content” - QBIC) como ponto de partida dos seus trabalhos [2]. Um sistema comercial de recuperação de imagens e vídeo que podemos citar é o “Virage” [3] que possui clientes bem conhecidos como a CNN. Porém a maioria dos sistemas conhecidos são da área acadêmica. Destes podemos citar dois exemplos bem conhecidos, o “Photobook” [4] e o “Netra” [5] que usam cores e características de textura para descreverem o conteúdo das imagens. No que diz respeito à características das imagens existe uma variedade maior de medidas de textura se comparada com medidas de cores, um pouco devido à imprecisão no entendimento e definição do que seja textura visual. Algumas das medidas mais comuns usadas para extrair características de textura de imagens são “wavelets” [6] e filtros de “Gabor” [7]; filtros de “Gabor” apresentam uma melhor performance e correspondem bem à propriedade do córtex visual humano no que diz respeito à detecção de borda [8]. Outros descritores de textura muito populares contém: características que derivam da matriz de co-ocorrência de níveis de cinza [9], características baseadas na transformada de Fourier [10], e as chamadas características de “Wold” [11]. Basicamente todo sistema RIBC usa a suposição de equivalência da imagem e sua representação no espaço de características. Alguns Sistemas RIBC usam técnicas de medidas tais como modelo de vetores no espaço Euclidiano para medidas de distância entre uma imagem de pesquisa e possíveis imagens semelhantes. Nestes casos as imagens são representadas como vetores de características em um espaço vetorial n-dimensional e as semelhanças estão associadas à menor distância Euclidiana entre tais vetores. Outros usam medidas de distâncias existentes nos espaços vetoriais tais como distancia “city-block”, distância “Mahalanobis” e intersecção de histogramas [12]. Algumas abordagens usam estruturas probabilísticas para medir a probabilidade de uma imagem ser relevante em relação à imagem de pesquisa. Vários sistemas usam métodos que são bem conhecidos no campo de recuperação de textos, ou busca por palavras, e os aplicam às características visuais onde as características visuais correspondem de forma aproximada às palavras nos textos [7]. Isto se baseia nos dois princípios a seguir: • • Uma característica que aparece com frequência numa imagem descreve bem esta imagem. Uma característica que aparece com frequência numa coleção de imagens é um forte indicador para se distinguir uma imagem em relação à outra. Estamos propondo um sistema RIBC baseado em uma rede neural do tipo mapa autoorganizável (MAO) de Kohonen [13] para criar um vetor de características de cada imagem. Posteriormente usamos a técnica da correlação cruzada para estabelecer as semelhanças exixtentes. Apresentamos resultados da aplicação do sistema em imagens mamográficas e discutimos tais resultados no contexto de sistemas de auxílio computadorizado ao diagnóstico de câncer de mama. Materiais e Métodos Escolhemos a base de dados mini MIAS [14] para treinar e testar o sistema RIBC proposto. A base de dados original conhecida como MIAS (cujas imagens foram digitalizadas com uma resolução de 50 microns de tamanho de pixel) foi reduzida para uma resolução de 200 microns de tamanho de pixel, formando a base de dados mini MIAS, cujos mamogramas foram cortados e colados em uma moldura escura gerando imagens de 1024 por 1024 pixels e 8 bits de escala de quantização de cinza. Um conjunto de 322 imagens, contendo imagens mamográficas das mamas esquerda e direita, projeção médio lateral, de 161 pacientes foram usadas neste estudo. Um radiologista experiente classificou cada mamograma de acordo com quatro características: densidade (1 a 4), tamanho da mama (pequeno, médio ou grande), lado (mama esquerda ou direita) e forma da mama (arredondada ou periforme). Esta classificação foi usada na tentativa de medir a performance do sistema RIBC para cada pesquisa feita na base de dados. O primeiro passo na construção da rede neural foi a determinação da estrutura do MAO [15]. Para evitar um número excessivo de padrões no treinamento do MAO, apenas a parte central dos mamogramas foi selecionada (das colunas de pixel 180 a 840 e das linhas de pixel 70 a 1000 da matriz de pixel das imagens). O treinamento do MAO foi feito da seguinte forma, 14 mamogramas foram selecionados randomicamente de modo a representarem todas as categorias de anormalidades, os dois lados, as quatro densidades, as duas formas e os três tamanhos dos mamogramas da base de dados. Estes mamogramas foram divididos ou retalhados em 3458 quadros de 51 por 51 pixels. Estes quadros formavam os padrões de entrada do MAO que tinha 2601 (51 vezes 51) neurônios na camada de entrada que foi alimentada com o valor de nível de cinza de cada pixel das regiões quadradas. A camada de saída do MAO foi empiricamente estabelecida e possuía 9 neurônios arranjados numa topologia plana de 3 por 3 neurônios. O MAO foi treinado com estes 3458 padrões um número suficiente de épocas de forma a garantir a convergência dos pesos dos neurônios da rede. Após a fase de treinamento o MAO foi usado para construir um mosaico de cada imagem porem usando os quadros 3 por 3 da saída da rede e não mais os quadros 51 por 51 da entrada. Cada mosaico foi montado com 361 (19x19) quadros de tamanho 3x3 pixel. Estes mosaicos foram usados como vetores de características para representar as imagens no sistema RIBC. Usamos a técnica da correlação cruzada sobre os mosaicos descritos acima para comparar a imagem de pesquisa com as 322 imagens (incluindo a própria imagem de pesquisa) da base de dados na recuperação baseada em conteúdo. A medida da correlação cruzada C2 foi calculada para cada mosaico segundo a expressão: C2 = 1 MN M N ∑∑ m =1 n =1 {A(m, n) − A}{B(m, n) − B } σ σ A (1) B onde A e σ 2 são medidas da media e da variância A dos valores de pixel de cada mosaico da base de dados respectivamente; B e σ 2 são medidas da B media e da variância dos valores de pixel do mosaico da imagem de pesquisa; M e N representam o tamanho em pixel de cada mosaico (igual a 57 e 57 respectivamente). A média e a variância dos valores de pixel nos mosaicos A e B são definidos pelas seguintes equações: 1 M N A= ∑∑ A(m, n) MN m=1 n=1 1 M N B= ∑∑ B(m, n) MN m=1 n=1 (2) (3) 2 1 M N {A(m, n) − A} = σ A MN ∑∑ m =1 n =1 (4) 2 1 {B(m, n) − B } σ B = MN ∑∑ m =1 n =1 2 N mdb007 mdb003 2 M O sistema também é capaz de mostrar as imagens cujos valores de correlação cruzada foram os menores. Estas imagens são mostradas na Figura 2. Podemos notar que os valores de correlação obtidos são negativos. 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 (5) As grandezas usadas para avaliar o sistema de recuperação de imagem foram a precisão e a revocação, definidas por [16]: 900 1000 1000 100 200 300 400 500 1 600 700 800 900 1000 100 100 200 200 300 300 400 400 500 500 600 600 700 700 300 400 500 600 0.967494 700 800 900 1000 800 800 900 900 1000 100 número de images relevantes recuperadas , número de imagens recuperadas número de imagens relevantes recuperada s . revocação = número de imagens relevantes 200 mdb013 1000 precisão = 100 mdb247 200 300 400 500 600 0.946341 700 800 900 100 1000 200 300 400 mdb119 500 600 0.945953 700 800 900 1000 mdb291 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 100 Resultados Vinte imagens foram selecionadas aleatoriamente da base de dados para testar o sistema RIBC proposto. Foram calculadas a precisão e a revocação de cada pesquisa considerando todas as quatro características e também foram calculadas tais grandezas para cada característica separadamente em cada pesquisa. A média dos valores obtidos para estas grandezas é apresentada na tabela 1. Tabela 1: Média dos resultados das 20 pesquisas. Todas Dens. Forma Tam. Lado Características Precisão Rev. Precisão Precisão Precisão Precisão 0.2088 0.2302 0.3567 0.8038 0.6233 1.0000 O sistema gera automaticamente um gráfico após cada consulta mostrando os valores de correlação cruzada entre a imagem de pesquisa e as imagens da base de dados. Usando este gráfico podemos selecionar um valor de corte para a correlação cruzada e selecionar os casos que o sistema considerou mais relevantes a partir deste valor. O sistema mostra as imagens recuperadas em ordem descendente de valores de correlação cruzada. A Figura 1 mostra a pesquisa feita com a imagem de nome mdb003, posição superior esquerda da figura, e as cinco imagens recuperadas em ordem de valores decrescentes de correlação cruzada, da esquerda para a direita e de cima para baixo (mdb007, mdb247, mdb013, mdb119 e mdb291). 200 300 400 500 600 0.943388 700 800 900 1000 1000 100 200 300 400 500 600 0.943378 700 800 900 1000 Figura 1: Cinco imagens recuperadas pelo sistema RIBC para a imagem de pesquisa mdb003 (superior esquerdo). Os valores de C2 para as imagens recuperadas são, em ordem decrescente: 0.9675, 0.9463, 0.9460, 0.9434 e 0.9434. Discussão A busca através de um sistema RIBC que usa apenas características visuais se torna um problema relativamente difícil. Em nosso sistema usamos apenas análise de textura para a recuperação das imagens que são similares àquela imagem de pesquisa. De uma maneira geral o sistema RIBHC desenvolvido apresentou resultados ruins, conforme apresentado na Tabela 1, entretanto olhando os resultados de cada característica separadamente vemos que com relação à forma, tamanho e lado das mamas os resultados são relativamente bons, demonstrando um potencial de aplicação [17]. Os resultados apresentados na Figura 2, que mostram as imagens menos correlacionadas, são visualmente interessantes e bons. Para resolver o problema da performance ruim com relação à categorização através da densidade da mama serão necessários alguns ajustes. Acreditamos que modificando a fase de treinamento do MAO podemos melhorar tal performance, uma vez que nesta fase o sistema, apesar de reter grande parte da informação da imagem original, acaba por perder alguma informação no que tange à densidade da mama. Acreditamos, portanto que melhores resultados poderão ser obtidos com um treinamento mais apurado do MAO bem como a utilização de técnicas de realce. Podemos inclusive incluir técnicas adicionais em conjunto com a correlação cruzada para melhorar a performance do sistema no que diz respeito à densidade da mama, tal como a técnica de modelamento do disco fibro glandular através da mistura de Gaussianas [18]. Fizemos uma simulação de um sistema deste tipo, onde a busca é feita apenas nas imagens que possuem a mesma densidade da imagem de pesquisa, e não em toda a base de dados, e apresentamos os resultados na Figura 3. mdb003 mdb154 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 Agradecimentos 900 900 1000 1000 100 200 300 400 500 1 600 700 800 900 100 1000 200 300 400 500 600 -0.404311 700 800 900 1000 mdb274 mdb132 100 100 200 200 300 300 400 400 500 500 Outro problema a ser resolvido diz respeito à definição do que seja similaridade entre imagens. Temos que apresentar os resultados da busca a potenciais usuários do sistema RIBC proposto para que estes possam avalia-lo. Neste projeto caracterizamos os mamogramas usados de acordo com quatro grandezas fornecidas por apenas um radiologista experiente. Isto nos leva a outra questão, qual seja, a variabilidade entre observadores. Os resultados obtidos até o momento mostram que novos estudos serão necessários para melhorar a performance do sistema RIBC proposto. Este trabalho foi financiado pela FAPESP, processos números 99/06940-6 e 03/06215-7. Referências 600 600 [1] CHANG, N.-S. and FU K.-S. “Query-bypictorial-example”, IEEE Trans. Sofware Eng. SE 6 (6), pp. 40 - 49, 1980. 700 700 800 800 900 900 1000 1000 100 200 300 400 500 600 -0.243974 700 800 900 100 1000 200 300 400 500 600 -0.219384 mdb096 700 800 900 1000 mdb042 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 500 600 -0.179898 700 800 900 1000 100 200 300 400 500 600 -0.151828 700 800 900 1000 Figura 2: Cinco imagens menos correlacionadas em relação à imagem de pesquisa mdb003 (superior esquerdo). Os valores de C2 para estas imagens são: -0,4043, -0,2440, -0,2194, -0,1799 e –0,1518. mdb003 [2] FLICKNER M., SAWHNEY H., NIBLACK W., ASHLEY J., HUANG Q., DOM B., GORKANI M., HAFNER J., LEE D., PETROVIC D., STEELE D., AND YANKER P., “Query by image and video content: the QBIC system”, IEEE Comput., 28 (9), pp. 23 - 32, 1980. [3] Virage, Internet http://www.virage.com/ 13/05/2004. site address: accessed on mdb291 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 [4] PENTLAND A., PICARD R. W., and SCLAROFF S., “Photobook: tools for contentbased manipulation of image databases”, Int. J. Comput. Vis. 18 (3) pp. 233 - 254, 1996. 800 900 900 1000 1000 100 200 300 400 500 1 600 700 800 900 1000 100 200 300 400 mdb121 500 600 0.944178 700 800 900 1000 mdb315 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 100 200 300 400 500 600 0.936945 700 800 900 1000 1000 100 200 300 400 mdb125 500 0.9319 600 700 800 900 1000 mdb209 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 100 200 300 400 500 600 0.919996 700 800 900 1000 1000 100 200 300 400 500 600 0.919971 700 800 900 1000 Figure 3: Cinco imagens recuperadas pelo sistema RIBC para a imagem de pesquisa mdb003 (superior esquerdo). Os valores de C2 para as imagens recuperadas são, em ordem decrescente: 0.9442, 0.9369, 0.9319, 0.9200 e 0.9200. [5] MA W .Y., DENG Y., and MANJUNATH B. S., “Tools for texture-and-color-based search of images” in: Rogowitz, B. E. and Pappas, T. N. (Eds), Proc. of the Third Int. Conf. on Visual Inf. System (VISUAL’99), no. 1614 in “Lecture Notes in Computer Science, Springer-Verlag, Amsterdam, The Netherlands, pp. 509 - 516, 1999. [6] ORTEGA M., RUI Y., CHAKRABARTI K., PORKAEW K., MEHROTRA S., and HUANG T. S., “Supporting ranked Boolean similarity queries in MARS”, IEEE Trans. Knowledge Data Eng. 10 (6) pp. 905-25, 1998. [7] SQUIRE D. M., MÜLLER W., MÜLLER H., and PUN T., “Content-based query of image databases: in-spirations from text retrieval” Pattern Recognition Letters, vol. 21, pp. 1193 1198, 2000. International Congress Series 1069: pp. 375378, 1994. [8] DAUGMAN J. G., “An information theoretic view of analog representation in striate cortex”, Computat. Neurosci. 2 pp. 9-18, 1990. [15] ANDRÉ T. C. S. S. and ROQUE A. C., “Sistema de diagnóstico de câncer baseado em redes neurais”, XVII Congresso Brasileiro de Engenharia Biomédica – CBEB'2000, Florianópolis, Santa Catarina, 11-13 Setembro, 2000. [9] WESZKA J. S., DYER C. R., and ROSENFELD A., “A comparative study of texture measures for terrain classification”, IEEE Trans. Sys. Man Cybernetics 6 (4) pp. 269 - 285, 1976. [10] MILANESE R. and CHERBULIEZ M., “A rotation, translation and scale-invariant approach to content-based image retrieval”, J. Visual Commun. Image Represent. 10 pp. 186 96, 1999. [11] LU C.–S. and CHUNG R.–F., “Wold features for unsupervised texture segmentation”, in Proc. 14th Int. Conf. on Pattern Recognition (ICPR’98), IEEE, Brisbane, Australia, pp. 1689 1693, 1998. [12] SWAIN M. J. and BALLARD D. H., “Color indexing”, Int. J. Comput. Vis. 7 (1) pp. 11 - 32, 1991. [13] KOHONEN T. “Self – Organizing Maps”, Spring-Verlag Berlin Heidelberg New York, 1997. [14] SUCKLING J., PARKER J., DANCE D., ASTLEY S., HUTT I., BOGGIS C., RICKETTS I., STAMATAKIS E., CERNEAZ N., KOK S., TAYLOR P., BETAL D., and SAVAGE J., "The mammographic images analysis society digital mammogram database." Exerpta Medica. [16] MÜLLER H., MICHOUX N., BANDON D., and GEISSBUHLER A., “A review of content-based image retrieval systems in medical applicationsclinical benefits and future directions”, Int. Journal of Med. Inf. 73, pp. 1 – 23, 2004. [17] BOONE J. M., HURLOCK G., S., SEIBERT A., and KENNEDY R. L., “Automated recognition of lateral from PA chest radiographs: saving seconds in a PACS environment”, Journal of Dig. Im. Vol. 16, No 4, pp. 345 – 9, 2003. [18] FERRARI R. J., RANGAYYAN R. M., BORGES R. A., and FRÈRE A. F., “Segmentation of fibro-glandular disc in mammograms via Gaussian mixture modeling”, Medical and Biological Engineering and Computing, 2004. In press. Contato Túlio César S. S. André - PhD - MsC - CQE Centro de Ciências da Imagem e Física Médica Faculdade de Medicina de Ribeirão Preto - USP Av. Bandeirantes, 3900 - CEP - 14.048-900 Fone - 16 602 2640 - Fax - 16 602 2648 e-mail – [email protected]