uma proposta de melhoria no processo de recuperação de imagens

Transcrição

uma proposta de melhoria no processo de recuperação de imagens
UMA PROPOSTA DE MELHORIA NO PROCESSO DE RECUPERAÇÃO DE
IMAGENS DIGITAIS COM BASE NA DISTRIBUIÇÃO DE
CARACTERÍSTICAS DE BAIXO NÍVEL EM SUAS REGIÕES UTILIZANDO
ÍNDICE INVERTIDO
Patrícia Aparecida Proença1
RESUMO
Considerando a indexação de características de baixo nível de região de imagens
digitais mapeadas para um índice invertido este trabalho busca melhorias no
desempenho do processamento de consultas e ganho na precisão no conjunto de
imagens recuperadas em grandes bases de dados. O índice invertido, análogo ao
utilizado em recuperação textual, é aqui adaptado para recuperação de imagens
baseado em conteúdo. O conceito de termo da recuperação textual é utilizado no
trabalho como características de regiões de imagens para a indexação.
Experimentos mostram ganho da qualidade usando duas coleções de imagens
digitais.
Palavras-Chaves: Índice Invertido, Recuperação de Imagens, CBIR.
1
INTRODUÇÃO
Nos últimos anos, o crescimento do número de imagens produzidas em meio
digital foi imenso, sendo que o custo de processamento e armazenamento desse
tipo de imagem decresceu consideravelmente. Diante de uma grande quantidade de
imagens, muitas vezes o usuário encontra dificuldades em localizar imagens específicas,
surge então a necessidade crescente por melhores algoritmos de busca, métodos de
indexação e técnicas de classificação de imagens digitais.
1
Professora do Curso de Sistemas de Informação da Faculdade Atenas – Paracatu - MG
Dentre os métodos para facilitar busca de imagens, pode-se citar o método de
indexação das imagens por meio de palavras-chaves que descrevam as imagens [6].
Porém, este método é dispendioso em termos de tempo gasto com as descrições, pois
estas precisam ser inseridas manualmente. Em alguns casos são extraídas
automaticamente por meio de algoritmos complicados, ineficientes e imprecisos em
relação à classificação das imagens, pois a descrição pode ser subjetiva [3].
Outro método muito utilizado é o de busca de imagens baseado no contexto do
documento em que a imagem está inserida, processo utilizado pela máquina de busca
Google [8]. O sistema procura em arquivos de hipertexto com imagens que possuam a
palavra chave. O problema deste método é que as imagens inseridas nos hipertextos
não necessariamente correspondam ao texto.
Atualmente tem crescido a busca de imagens pelo próprio conteúdo denominado
CBIR (Recuperação de Imagens Baseada no Conteúdo). O objetivo desse método é
encontrar imagens relevantes conforme a necessidade do usuário, usando de
características visuais extraídas automaticamente das imagens. Nesse método, diferente
dos anteriores, a consulta é feita por meio de uma imagem exemplo e não um
termo ou palavra-chave.
O conjunto de características extraídas de uma imagem varia em número e
especificidade dependendo do domínio de aplicação envolvido. Para melhorar o
desempenho da recuperação, indexação multidimensional é aplicada [16].
Atualmente, diferentes estruturas vêm sendo propostas, mas estruturas da
família R-tree são mais utilizadas em CBIR [16] e [15]. Por exemplo, Titan aplica a Rtree[4], QBIC utiliza a R*-tree, o sistema SRSI é baseado na SR-tree[11] e [5] com R*tree e M-tree.
Com o objetivo de melhorar significativamente o desempenho e o tempo de
recuperação de imagens por conteúdo em grandes coleções como a Web, sem
perda da precisão, paradigmas e técnicas de recuperação textual têm sido
estudadas para utilização na recuperação de imagens. Em [8] e [9] é apresentado uma
proposta de adaptação do CBIR, para a utilização do paradigma existente no campo de
recuperação de informação textual denominado índice invertido.
O objetivo deste trabalho é estender o trabalho [8] e [9] contribuindo na qualidade
e quantidade dos termos utilizados na indexação por meio das regiões das imagens, e
aplicá-lo dentro do ambiente de recuperação por conteúdo para grandes coleções,
visando não somente o ganho de desempenho no processamento das consultas,
mas também ganho na precisão no conjunto de imagens recuperadas.
O trabalho está estruturado da seguinte forma: na Seção 2 é feita uma
revisão bibliográfica de temas importantes relacionados à recuperação textual e à
recuperação baseada em conteúdo. Na Seção 3, é descrito o sistema de [8] e [9]
e o sistema desenvolvido ao longo deste trabalho. Na Seção 4 são apresentados
os resultados experimentais obtidos. Na Seção 5 apresenta-se as conclusões e trabalhos
futuros.
2 REVISÃO BIBLIOGRÁFICA
2.1 RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO
As pesquisas na área de Recuperação de Imagens levaram à construção de
sistemas cujas consultas deixaram de ser relativas a textos descritos em algum
momento, e passaram a ser por similaridades existentes entre as imagens. Este
paradigma para recuperação, denominado CBIR, utiliza a descrição do conteúdo
de imagens para indexá-las e manipulá-las [3]. Por meio de algoritmos automáticos de
processamento de imagens, são criados vetores de características que representam
propriedades das imagens. Desta maneira, o sistema pode recuperar imagens
semelhantes à fornecida como exemplo pelo usuário (imagem consulta).
Os atributos visuais mais utilizados na recuperação, como mencionados
anteriormente, são: cor, forma e textura.
A cor é uma das características visuais mais utilizadas na recuperação de imagens
e possui um papel bastante significativo na indexação e recuperação. Isso porque,
segundo [11], o atributo cor proporciona, na tarefa de separação de background, um
processo relativamente robusto, independente do tamanho e orientação da imagem.
A vantagem deste método baseado em conteúdo está na possibilidade de
um processo de recuperação automático, em oposição ao esforço necessário para
classificar ou anotar as imagens nas outras abordagens. Entretanto, a escolha da
imagem de consulta que melhor representa o que o usuário deseja buscar é uma tarefa
difícil, uma vez que o usuário precisa traduzir conceitos (idéias) em características de
baixo nível.
O cálculo da similaridade é uma outra desvantagem do CBIR. As imagens
são representadas como vetores de características em um espaço vetorial n-dimensional
e as semelhanças estão associadas à menor distância Euclidiana entre a imagem
de consulta com todas as imagens do banco de dados. Basicamente essa
recuperação é demasiadamente cara e lenta para grandes coleções de imagens como a
Web.
O projeto QBIC (Query by Image Content) da IBM [10], o VisualSEEK [14] e
o ImageRover [13] realizam buscas por conteúdo. Outros exemplos incluem o
PicHunter [15] e o Blobworld [2].
2.2 RECUPERAÇÃO TEXTUAL
A primeira solução sistemática para o problema de recuperação de
informação em uma grande coleção de dados foi desenvolvida há cerca de 4000
anos, por bibliotecários, que passaram a organizar os livros catalogando-os por
autor e título Uma das soluções que surgiram no século XVI, a construção dos índices,
vêm sendo utilizada atualmente. Contudo agora são construídos automaticamente.
Existem várias estruturas de índice, porém a mais empregada é a estrutura de
arquivos invertidos [12].
Os arquivos invertidos são estruturas de dados que permitem encontrar de
forma rápida quais documentos de uma coleção possuem um dado termo, [12].
Essa estrutura é composta por dois elementos: (i) o vocabulário - que consiste no
conjunto de todas as palavras diferentes que ocorrem na coleção; (ii) e as listas
invertidas – que são listas contendo todos os documentos da coleção nos quais surge um
dado termo. A construção e a manutenção dos arquivos invertidos correspondem a
uma etapa de pré-processamento que demanda alto custo computacional. Porém esses
custos são amortizados, à medida que as consultas são submetidas ao sistema.
As listas invertidas podem conter, além dos documentos em que ocorre o
termo, outras informações que sejam úteis à máquina de busca, como por
exemplo, a freqüência do termo no documento. Esse valor é chamado na literatura
[1] de Term-Frequency (tf).
Um arquivo invertido é construído por meio do processamento de cada
documento da coleção. Este processamento é chamado indexação e é responsável por
identificar todos os termos existentes na coleção, inserindo-os no vocabulário
juntamente com o ponteiro para a lista invertida, [12].
Quando uma consulta contendo mais de um termo é submetida a um
sistema de recuperação de informação, o processo de busca é responsável por
localizar a lista invertida para cada termo da consulta. Dependendo dos
operadores booleanos utilizados na formulação da consulta, a resposta será gerada
mediante a interseção ou união dos conjuntos de documentos existentes em cada lista,
sendo esse um processo rápido.
Devido a esse rápido tempo de resposta obtido na técnica de busca textual,
estudos vêm sendo feitos para a utilização da técnica textual em recuperação de
imagens baseada em conteúdo, pois esta por sua vez, utilizando similaridade
baseada na distância euclidiana, percorre todo o banco de imagens para o calculo da
similaridade, o que demasia um grande custo com processamento e tempo de resposta.
3 PROPOSTA DE CBIR BASEADO EM ÍNDICE E REGIÕES
3.1 CBIR - ÍNDICE
Em [8] e [9] é proposto uma adaptação do CBIR, para que possa ser
utilizado o paradigma existente no campo de recuperação de informação textual
denominado índice invertido. Segundo [1] o uso do índice invertido em
recuperação textual tem resultado em ganho na velocidade de recuperação de
documentos sem perda de qualidade na recuperação.
Em [8] é apresentado um sistema de recuperação baseado em conteúdo, que
utiliza técnicas textuais para indexação e cálculo da similaridade em recuperação
de imagens. Os termos utilizados na recuperação textual são palavras presentes
nos arquivos textuais. Na recuperação por conteúdo um termo é definido como sendo
uma faixa de valores extraídos da imagem com base em característica de baixo
nível, especificamente momentos de cor. Este caracteriza as imagens em termos
da distribuição das cores nos pixels da imagem. São normalmente dados por três
medidas estatísticas: média, desvio padrão e obliqüidade. Os momentos de cor
podem ser derivados do espaço de cor HSV correspondendo aos canais matiz,
saturação e intensidade.
Em resumo, em [8] as imagens foram convertidas do espaço de cor RGB
para o espaço de cor HSV. Então, foram calculados os três momentos acima para cada
canal H, S e V. Com isto, o vetor de característica da imagem tem nove
posições distribuídas conforme Tabela 1. O sistema indexa as imagens com os
valores encontrados para cada canal de cor HSV e calcula a similaridade baseada no
cosseno entre os vetores. Essa abordagem possibilitou melhoria no desempenho
do processamento
das
consultas
sem
perda
significativa
na
qualidade
da
recuperação quando comparada com a busca por distância euclidiana.
Tabela 1 – Descrição do vetor de característica resultante da extração de
característica da imagem usando os três momentos de cor do espaço HSV, [8].
3.2 SISTEMA CBIR-ÍNDICE-PARTICIONADO
A partir do sistema CBIR-Índice, descrito na seção 3.1, foi implementado um
sistema que particiona as imagens em regiões e atribui os termos da Tabela 1 a
cada região das imagens, construindo um vetor contendo todos os termos encontrados
em todas as regiões
obtidas.
Pois,
segundo
[3],
a
quantidade
de
termos
relacionados às imagens contribuem na precisão da recuperação, pois podem
descrever de forma mais completa o conteúdo de uma imagem.
Afim de melhor expressar o objetivo do trabalho proposto, considere o
esquema da Figura 1. Utilizando o sitema CBIR-Índice, o vetor de termos da
imagem exemplo seria formado conforme a Fig. 2. Com a metodologia proposta
neste trabalho, após particionada a imagem exemplo em duas partes, foram obtidas
duas regiões, ilustradas na Fig. 3. O particionamento utilizado no trabalho consiste em
dividir as imagens em partes de tamanhos iguais. Após foi aplicada a proposta de
[8] em cada região e os vetores de cada região foram juntados, obtendo o vetor
ilustrado na Fig. 3.
4 RESULTADOS EXPERIMENTAIS
As coleções utilizadas nos experimentos foram a BD-160 e a Corel-1000.
Primeiramente foi utilizada a base de treinamento, BD-160. Posteriormente foi
realizado outros experimentos em uma coleção de teste, Corel-1000.
A primeira é um subconjunto da segunda, ambas contendo imagens com resolução
256x384 pixels. As coleções são compostas por categorias, ambas com 10 categorias
(África, Praia, Edifício, Ônibus, Dinossauro, Elefante, Flor, Comida, Cavalo e
Montanha), sendo a BD-160 com 16 imagens em cada categoria e a Corel-1000
contendo 100 imagens por categoria.
No trabalho foram considerados quatro tamanhos diferentes das partições. A
primeira, as imagens foram particionadas em duas partes de tamanhos iguais, a
segunda em quatro partes, a terceira em oito e a quarta em desesseis partes.
Para avaliarmos a qualidade da recuperação utilizaremos à medida de desempenho
Precisão (P). A medida consiste na consiste na fração entre o número de
imagens relevantes recuperadas, sobre o número total de imagens recuperadas.
Para calcular a medida da precisão baseou-se em uma estatística encontrada
em [7]. Foi constatado que os usuários navegam na grande maioria das vezes
até a terceira página de resultados. Assim, calculou-se a Precisão em quatro posições
(P0, P5, P10 e P20). Onde P0, significa calcular a precisão na posição do
ranking onde encontra a primeira imagem relevante, com exceção da imagem de
consulta. P5 é o cálculo da precisão na quinta posição do ranking, analogamente
P10 e P20 são a décima e vigésima respectivamente.
Uma imagem da coleção é considera relevante à imagem de consulta se
ambas pertencerem a mesma classe. Esta definição de relevância por classe, foi
adotada, a fim de evitar um dos maiores problemas na análise de resultados em
CBIR, a subjetividade humana. Pois considera-se que as imagens em ambas as coleções
foram corretamente classificadas.
As tabelas abaixo mostram os valores encontrados das precisões P0, P5, P10 e
P20 do sistema CBIR-Índice e CBIR-Índice-Particionado, relativo a média de 8
consultas de cada classe, juntamente com o valor médio da precisão de 80 consultas da
coleção.
Para avaliar o ganho obtido em relação ao sistema CBIR-Índice, foi
calculado o ganho relativo, posicionado na última linha de cada tabela com os valores
do sistema CBIR-Índice-Particionamento.
Tabela 2. Precisão média obtida no sistema CBIR-Índice. Coleção BD-160.
Tabela 3. Precisão média obtida no sistema CBIR-Índice-Particionado, utilizando duas
partições. Coleção BD-160.
Tabela 4. Precisão média obtida no sistema CBIR-Índice-Particionado, utilizando quatro
partições. Coleção BD-160.
Tabela 5. Precisão média obtida no sistema CBIR-Índice-Particionado, utilizando oito
partições. Coleção BD-160.
Tabela 6. Precisão média obtida no sistema CBIR-Índice-Particionado, utilizando desesseis
partições. Coleção BD-160.
Tabela 7. Precisão média obtida no sistema CBIR-Índice e CBIR-Índice-Particionado,
utilizando oito partições. Coleção Corel-1000.
Nesta seção verificou-se que o método de recuperação de imagens proposto
neste trabalho produziu bons resultados, que quando comparados com CBIR-Índice.
Com os resultados obtidos da coleção de treinamento, BD-160, pode-se notar que
a qualidade de recuperação do sistema proposto é superior ao sistema CBIR-Índice. E
os resultados da coleção de testes, Corel-1000, se mantiveram similar ao da coleção
de treinamento.
Na coleção teste, o melhor resultado para o P0 e P20 foi utilizando a
imagem dividida em duas partes. Já para P5 e P10 os melhores resultados foi com oito
partes.
Na
coleção
de
treinamento
P0 permaneceu
com
melhores resultados
utilizando duas partes, P5 com quatro partes e P10 e P20 com oito partes. Em
geral, o número de partes com valor igual a oito obteve melhores resultados.
A Tabela 7 ilustra os resultados obtidos na coleção de utilizando oito partições.
Na última linha encontra-se o ganho relativo do CBIR-Índice-Particionado em relação
ao CBIR-Índice.
5 CONCLUSÕES E TRABALHOS FUTUROS
Verificou-se que o método de recuperação de imagens proposto neste
trabalho produziu bons resultados, que quando comparados com os resultados da
proposta de [8] e [9].
Como
trabalhos
futuros, pretendemos
aumentar
o tamanho
do
vetor
trabalhando com outras características de baixo nível como textura e forma, para
obtermos uma melhor medida de precisão. Além disso, atribuir pesos em cada
faixa, para proporcionar uma melhor discriminação entre as faixas presentes em
cada imagem.
Outro objetivo é o estudo das técnicas de indexação multidimensional
utilizadas na recuperação de imagens e a possibilidade de aplicação dessas técnicas na
construção dos índices baseado em estatísticas sobre as características das imagens.
REFERÊNCIAS BIBLIOGRÁFICAS
1.
Baeza, R.; Ribeiro-Neto, B.:
ACM/Addison-Wesley, (1999).
Modern
information
retrieval.
2.
Carson, C., B. S. G. H. M. J. Blobworld: Image segmentation
using expectation-maximization and its application to image querying.
IEEE Computer.
3.
Datta, R.; Joshi, D.; Li, J.; Wang, J. Z. Image Retrieval: Ideas,
Influences, and Trends of the New Age. ACM Transactions on
Computing Surveys, Vol. 40, No. 2, April 2008.
4.
Google.
http://www.google.com.br/intl/pt-BR/help/faq_images.html.
Último acesso: 13/11/2008.
5.
Jing, F.; Li, M.; Zhang, H.-J.; Zhang, B.: “An Effective RegionBased Image Retrieval Framework”, ACM, 2002.
6.
Lew, M. S.: Principles of Visual Information Retrieval. Springer, 2001.
7.
Manning, C., Raghavan, P., and Schütze, H. (2007). An
Introduction to information Retrieval. Cambridge University Press,
Cambridge, England.
8.
Matos, T. ; Silva, I. : Zorzo, C. ; Proença, P.: Distribuição de
características de baixo nível em imagens digitais. CLEI, 2008.
9.
Matos, T. ; Silva, I. : Zorzo, C. ; Proença, P.: Índice Invertido para
Recuperação de Imagens Baseada em Conteúdo. CNMAC, 2008.
10.
Niblack, C. W., Barber, R., Equitz, W., Flickner, M. D., Glasman,
E. H., Petkovic, D., Yanker, P., Faloutsos, C., and Taubin, G.
(1993). The qbic project: Querying images by content using color,
texture, and shape. In Poceedings of the SPIE Conference on
Storage and Retrieval for Image and Video Databases 2-3, February, San
Jose, CA,, pages 173–187.
11.
Rui, Yong; Huang, Thomas S.; Chang, Shih_Fu. Image Retrieval:
Past, Present and Future. International Symposium on Multimedia
Information
Processing.
Disponível
em:
http://citeseer.ist.psu.edu/192987.html. Último acesso: 30/08/2008.
12.
Santos, K.: Dependência entre Termos no Modelo Vetorial, 2003.
Dissertação de Mestrado, Universidade Federal de Uberlândia 2003.
13.
Sclaroff, S., T. T. L. M. (1997). Imagerover: A content-based image
browser for the world wide web. Technical Report, Boston University.
14.
Smith, J. R., C. S.-F. (1996). Visualseek: a fully automated
content-based image query system. In Proceedings of the fourth ACM
international conference on Multimedia.
15. Valle, E.; Cord, M.; Philipp-Foliguet, S.: “High-Dimensional Descriptor
Indexing for Large Multimedia Databases”, ACM, 2008.
16. Wu , L.; Bretschneider , T. : “Comparative Analysis of the Efficiency
of R-tree Based Indexing Strategies for Information Retrieval”, IKE 2004.

Documentos relacionados