People Detection and Tracking in Low Frame Rate Dynamic Scenes

Transcrição

People Detection and Tracking in Low Frame Rate Dynamic Scenes
People Detection and Tracking in Low
Frame Rate Dynamic Scenes
D. L. Siqueira and A. M. C. Machado, Member, IEEE
1
Abstract— People detection and tracking in video sequences
are a crucial step for many applications such as security systems
and entertainment. Although humans can easily perform these
tasks, detecting and tracking people in dynamic background
scenes are not trivial for computer vision systems. Furthermore,
the amount of data generated by these applications has become
overwhelming. Reducing the video frame rate can be an
alternative, mainly in security systems, to reduce the amount of
generated data. This paper aims to analyze how much a video
frame rate can be reduced without affecting the performance of
detection and tracking when people move in scenes with dynamic
background. A supervised cascade classifier is used for detection
and tracking is performed using the Kalman filter. The analysis
is based on video sequences recorded from a vehicle. Results
show that tracking is very dependent on the frame rate while
detection is much more robust in this scenario.
Keywords— People Tracking, People Detection, Filtro de
Kalman, Adaboost.
A
I. INTRODUÇÃO
DETECÇÃO e o rastreamento de pessoas em sequências
de imagens são de grande utilidade para várias tarefas
desempenhadas pela sociedade, como o monitoramento de
espaços públicos, estações de ônibus, estádios de futebol e até
mesmo para a análise do comportamento humano. Saber a
localização de pessoas no espaço é uma tarefa trivial realizada
por humanos mas de extrema complexidade para sistemas de
visão computacional. Tanto a forma natural como a
automatizada têm grandes implicações na área de segurança o
que faz dessa tarefa crucial para suas aplicações.
A tarefa de detectar pessoas e a análise de seu movimento
objetiva além da segurança, o rastreamento visual, a contagem
automática de pessoas entre outros. Essa tarefa é feita de
forma não intrusiva, ou seja, sem interferir no ambiente que
está sendo monitorado.
Um dos primeiros trabalhos exclusivamente dedicados à
detecção e ao rastreamento de pessoas em uma sequência de
imagens foi realizado por Riter, Bernat e Schroder em 1988 e
tinha como objetivo detectar e rastrear imigrantes ilegais que
cruzavam a fronteira entre os Estados Unidos da América e o
México [1]. Apesar do tema ter sido profusamente investigado
desde a década de 80, muitos desafios permanecem sem
solução, tais como o correto rastreamento individual de
pessoas em multidões ou em ambientes em que o fundo de
cena não é estático.
1
D. L. Siqueira, Programa de Pós-graduação em Engenharia Elétrica, PUC
Minas, Belo Horizonte, Brasil, [email protected]
A. M. C. Machado, Programa de Pós-graduação em Engenharia Elétrica,
PUC Minas, Belo Horizonte, Brasil, [email protected]
A segmentação de objetos que se movem utilizando-se a
subtração de imagens é inadequado em problemas com fundo
dinâmico [1, 2]. Entretanto, a necessidade de rastrear objetos
em cenas complexas, como as que apresentam fundo não
estático, é cada vez mais comum. Essa necessidade gera uma
grande quantidade de dados que devem ser armazenados e
processados. Dessa forma, há uma necessidade de comprimir
essas informações e uma abordagem amplamente utilizada é a
eliminação de redundâncias físicas-visuais de vídeos que
corresponde à retirada de informações irrelevantes para a
percepção humana, como pequenas variações de cores que o
sistema visual humano não é capaz de perceber ou a
readequação da frequência de quadros que são armazenados
ou exibidos. Esta técnica é comumente utilizada por sistema
de segurança devido ao uso de equipamentos de baixa
qualidade ou à falta de capacidade de armazenamento de
grandes quantidades de dados [3].
Para rastrear uma pessoa em uma sequência de vídeo, é
primordial saber a sua localização nas imagens [4]. A
subtração de uma imagem pela imagem de fundo é uma das
técnicas mais simples e amplamente utilizada para a extração
de pessoas que se movem em uma sequência de imagens [5].
Nessa abordagem, a imagem atual é comparada com uma
imagem previamente definida como imagem de fundo.
Quando entre essas duas há uma diferença significativa, isso
indica que na imagem há pessoas ou objetos em movimento
[6-8]. Contudo, se a imagem de fundo não for atualizada
constantemente, o resultado pode ser facilmente afetado por
mudanças que podem ocorrer na cena, como variação na
iluminação ou até mesmo mudanças físicas. Para evitar essa
limitação e/ou diminuir possíveis ruídos que possam interferir
no resultado da detecção, abordagens com atualizações mais
frequentes da imagem de fundo são propostas na literatura [9,
10]. A diferença de imagens consecutivas de uma sequência é
uma técnica simples e relativamente fácil para extrair objetos
que se movem em vídeos [5]. Nessa abordagem, pixels que
apresentam um valor de diferença elevado são considerados
pixels que não pertencem à cena, logo, são pixels que variam
ao longo do tempo. A detecção de pessoas por subtração de
imagens consecutivas foi utilizada por [1, 4]. Contudo, esse
método é diretamente dependente da escolha de um limiar
capaz de definir na imagem de diferença o que se move ou
não. Um classificador em cascata proposto por [11] leva em
consideração as características das pessoas e é utilizado para a
detecção de pedestres em uma cena. As características
utilizadas pelo classificador são calculadas através de funções
Haar-like. O classificador é definido após um processo de
treinamento para que as melhores características Haar-like
que representam uma pessoa possam ser escolhidas. Como o
classificador leva em consideração apenas as características
dos alvos, essa é uma abordagem de detecção que independe
do fundo da cena.
A tarefa de rastrear pessoas em uma sequência de imagens é
extremamente complexa devido à influência de fatores
externos. Podemos destacar como os principais fatores que
dificultam essa tarefa os ruídos que as imagens analisadas
apresentam, a oclusão total ou parcial das pessoas na cena, a
alteração de iluminação durante a sequência de imagens e o
processamento necessário antes do rastreamento para sistemas
de tempo real [12]. Detectar e estabelecer uma
correspondência entre as pessoas presentes na cena ao longo
dos quadros da sequência pode ser, ou não, realizada pelo
método de rastreamento. No primeiro caso, a detecção é
realizada por métodos específicos de detecção e o seu
resultado é utilizado como entrada para o rastreamento. Já no
segundo caso, a região que pode representar uma pessoa é
estimada iterativamente ao se atualizarem suas posições e
assim realizar o rastreamento. As pessoas localizadas no
processo de detecção podem ser representadas como um ponto
ao longo das imagens de uma sequência. Associar e rotular
esses pontos com base no seu estado anterior para definir sua
trajetória é realizado por métodos como o filtro de Kalman e
filtro de partículas. Proposto por Rudolf Emil Kálmán [13], o
filtro de mesmo nome é usado para estimar o estado de um
sistema linear quando assumimos que este é modelado por
uma distribuição gaussiana. O filtro de Kalman é amplamente
utilizado para o rastreamento de pessoas em sistemas de visão
computacional que apresentam movimentos uniformes [9, 14].
O filtro de Kalman apresenta um comportamento estável
mesmo quando há uma grande presença de ruídos ou quando
oclusões ocorrem durante o rastreamento. Segundo [12], o
filtro de predição de Kalman se tornou popular devido à
facilidade de implementação em linguagem de programação
de computadores e a não necessidade de conhecer exatamente
o funcionamento interno do filtro para implementá-lo.
Algumas técnicas clássicas de rastreamento de objetos podem
ser aplicadas no rastreamento de pessoas. O método meanshift, por exemplo, é utilizado em situações onde a oclusão
parcial ou total de pessoas a serem rastreadas não é frequente
[15, 18].
A principal motivação deste trabalho baseia-se no fato de
muitas abordagens não levarem em conta situações em que o
fundo da cena analisada pode mudar dinamicamente e o vídeo
apresentar baixa taxa de quadros por segundo ao serem
capturadas por sensores de baixo custo. Portanto, é necessário
saber qual o impacto que os vídeos que apresentam baixa
amostragem temporal e fundo dinâmico sofrem ao se
realizarem a detecção e o rastreamento de pessoas.
que se concentrasse apenas na detecção a partir das
características do alvo, como o classificador em cascata
treinado com o algoritmo de aprendizagem de máquina
AdaBoost proposto por [11]. Esse conjunto de algoritmos e
técnicas de processamento de imagens nos fornece um robusto
framework para detecção visual de pessoas. Para compreender
todos os componentes desse framework para a detecção de
pessoas em ambientes de fundo dinâmico, é necessário dividilo em três pilares.
O primeiro pilar do método utilizado no trabalho é uma
nova representação de uma imagem chamada integral image,
ou imagem integral. Essa representação permite que funções
Haar-like sejam calculadas em um tempo constante para
qualquer posição na imagem. O segundo pilar que torna a
tarefa mais eficiente é a construção do classificador ao se
selecionar um pequeno número de características Haar-like
utilizando o algoritmo de aprendizagem de máquina AdaBoost
proposto por [16]. Para proporcionar uma classificação rápida,
o processo de aprendizagem deve excluir a grande maioria das
características e utilizar apenas um pequeno conjunto de
características críticas.
O terceiro e último pilar é o método que combina os
classificadores mais complexos em uma estrutura em cascata
que melhora substancialmente o tempo de detecção de pessoas
ao concentrar-se em regiões promissoras da imagem. Esse
método tem como resultado a eliminação de grande
quantidade de falsos positivos que poderiam exigir tempo de
processamento e consequentemente tornar o processo de
detecção mais lento.
A. Treinamento do classificador
Dado um conjunto de características ou classificadores
simples e um conjunto de amostras positivas e negativas,
poderíamos utilizar qualquer algoritmo de aprendizagem de
máquina para definir um classificador. Mas para o framework
de detecção de pessoas proposto por [11] foi utilizado o
algoritmo de treinamento de máquina AdaBoost devido ao
grande número de características presentes no conjunto de
possíveis características úteis para a classificação. O
classificador resultante desse treinamento é denominado como
um classificador forte.
O AdaBoost é um algoritmo heurístico de aprendizagem de
máquina inicialmente proposto por [16] e parte do princípio de
que um classificador pode ser considerado forte a partir do
momento em que é realizada uma combinação linear de
classificadores fracos. São considerados fracos os
classificadores que realizam classificações de acordo com
apenas uma dimensão da entrada. Podemos definir um
classificador AdaBoost da forma:
II. DETECÇÃO DE PESSOAS
A detecção de pessoas em sequências de imagens em um
cenário de fundo dinâmico não apresenta bons resultados se
forem aplicados os algoritmos de detecção mais utilizados na
literatura, tais como a subtração da cena pelo seu fundo ou a
subtração de quadros consecutivos. Dessa forma, foi
necessário utilizar um detector de pessoas invariante à cena e
onde
representa o vetor de entrada,
são os
classificadores fracos dado
, sendo o número
total de classificadores e
é o peso que cada classificador
fraco recebe após o treinamento.
Também faz parte da solução para a detecção de pessoas
em cenas com fundo dinâmico a organização dos
classificadores em forma de cascata. Organizar os
classificadores em cascata aumenta a performance,
diminuindo radicalmente o tempo de processamento ao
descartar potenciais alvos que já foram identificados como
falsos positivos. A estrutura da cascata favorece o fato que, em
uma única imagem, a grande maioria de sub-janelas não
representa uma pessoa. A eliminação dessas sub-janelas já no
começo de sua classificação proporciona uma grande
economia de tempo e processamento. Já as amostras positivas
consequentemente passam por todos os estágios e consomem
um tempo maior de processamento. Como é um evento raro
em comparação s amostras negativas, o método continua
eficiente.
III. RASTREAMENTO DE PESSOAS
O rastreamento de pessoas em um sistema de visão
computacional tem como principal objetivo definir a trajetória
de uma pessoa localizando seu posicionamento em todos os
momentos de sua presença no vídeo analisado. Desde sua
primeira ocorrência até o último instante em que permanece
na cena, o método de rastreamento é o responsável por
associar o mesmo rótulo de identificação proporcionando um
correto mapeamento do deslocamento da pessoa. Como
métodos de rastreamento possuem algumas limitações de
escopo, foi necessário definir as peculiaridades do problema a
ser resolvido para propiciar a correta escolha do método de
rastreamento de pessoas. Mesmo sendo amplamente utilizado
no rastreamento de pessoas, o método mean-shift foi
descartado pelo fato de sequências de imagens com fundo
dinâmico apresentarem uma alta taxa de variação de
iluminação. Isso ocorre, pois, a mudança de fundo é
ocasionada ou pelo movimento do sensor de captura, ou pelo
próprio movimento do fundo fazendo com que mudanças
bruscas de iluminação ocorram.
Outra peculiaridade do trabalho é a redução da amostragem
temporal do vídeo a ser analisado. Reduzir intencionalmente a
amostragem temporal de uma sequência de imagens é privar
de processamento alguns quadros da sequência. O não
processamento desses quadros tem o mesmo valor de
processar um quadro e não detectar uma pessoa. Tendo em
vista este comportamento, o filtro de Kalman lida bem com
situações onde ocorrem falhas momentâneas de detecção. O
não processamento de um quadro pode ser considerado como
uma detecção malsucedida e sem resultado.
Proposto por Rudolf Emil Kalman [13], o filtro de mesmo
nome é usado para estimar o estado de um sistema linear
quando assumimos que este é modelado por uma distribuição
gaussiana [12]. O filtro de Kalman realiza uma predição
quando se tem um conjunto de medidas até o k-ésimo passo e
. Quando a
deseja-se obter uma estimativa no passo
medida
é calculada, ela é usada para corrigir o
processo de predição que será utilizado novamente. O
algoritmo usado para o rastreamento de pessoas utiliza dois
estágios, a predição e a correção. O estágio de predição é
responsável pelo avanço temporal do filtro e, a cada passo, as
equações de correção são reajustadas corrigindo-se a
estimativa feita a priori.
O filtro de Kalman determina o estado futuro de um
processo utilizando a forma recursiva: o filtro estima o estado
em um certo momento e então utiliza essa estimativa para as
estimativas futuras, mas sempre as corrigindo em cada passo
do processo. Sendo assim, as equações para o filtro são
divididas em dois grupos; equações de predição e equações de
correção. As equações de predição são responsáveis pela
projeção adiante do tempo do estado atual e da matriz de
covariância do erro para se obterem as estimativas a priori dos
próximos passos. As equações de correção são responsáveis
pelo reajuste dos parâmetros da estimação a priori para se
obterem uma estimação a posteriori.
Após o sistema passar pelos estágios de predição e
correção, o processo é repetido com os valores a posteriori
para realizar as estimações a priori. Essa natureza recursiva é
uma das características mais importante do filtro de Kalman.
IV. EXPERIMENTOS E RESULTADOS
Para a execução deste trabalho foi realizado uma coleta de
sequências de imagens em uma base pública. Em seguida, foi
realizado a detecção das pessoas utilizando o framework do
classificador em cascata. Após definida cada posição das
pessoas na cena foi aplicado o filtro de Kalman para definir a
trajetória dos alvos detectados. Para a mesma sequência de
imagens, a amostragem temporal foi reduzida e o experimento
realizado novamente. A hipótese formulada era que os
resultados obtidos através dos experimentos propostos
deixassem evidente que ao se diminuir a amostragem temporal
de imagens em uma sequência, uma queda na qualidade do
rastreamento seria observada. Os experimentos foram
desenvolvidos em MatLab e C++ com o auxílio da biblioteca
OpenCV.
Figura 1. Exemplos de amostras positivas (a) e negativas (b) utilizadas para o
treinamento do classificador cascata.
A base de imagens utilizada neste trabalho foi a Daimler
Pedestrian Path Prediction Benchmark [17] que contém um
conjunto de vídeos capturados com uma câmera digital a uma
frequência de 16 quadros por segundo e com resolução de
1176x640 pixels. A câmera foi posicionada atrás do para-brisa
de um veículo automotor em movimento. O uso dessa base foi
motivado pelo fato de ela conter vídeos de pedestres
capturados por um sensor em movimento que proporciona a
presença de uma pessoa em uma cena em que o fundo varia ao
decorrer do tempo. Além disso, a Daimler Pedestrian Path
Prediction Benchmark apresenta um conjunto de imagens de
treinamento que apresentam imagens distintas das imagens
utilizadas para teste. Com isso, o treinamento do detector de
pessoas utiliza alvos positivos se estes representam uma
pessoa, e negativos caso a imagem não seja uma pessoa.
Para o treinamento do classificador cascata, dois conjuntos
de imagens – positivo e negativo – foram criados. Como os
autores da base rotularam manualmente as pessoas presentes
nas imagens, o conjunto de amostras positivas foi formado
justamente pelo recorte desses alvos rotulados da imagem
original (Fig. 1a). Como uma marcação em volta de uma
pessoa apresenta forma retangular onde a base é menor que a
altura, foi definido que amostras que apresentassem bases
menores que 100 pixels seriam descartados. Todas as amostras
que tinham bases menores que esse tamanho eram pessoas que
se encontravam longe da câmera de captura. Sendo assim, do
total de imagens disponibilizadas para testes, foram retiradas
3.600 amostras positivas. Para cada amostra positiva retirada
de uma imagem da base de treinamento, uma imagem era
gerada com um retângulo na cor preta substituindo o alvo
(Fig. 1b). Sendo assim, a imagem negativa era o fundo da cena
onde o pedestre se encontrava. Foi necessário usar essa técnica
pelo fato de a base de treinamento não fornecer imagens que
não representam pessoas. Também foram incluídas no
conjunto de amostras negativas imagens que não possuíam
rótulos de pessoas o que totalizou 5.000 amostras negativas.
Definidos os conjuntos de amostras que representam ou não
uma pessoa a ser detectada pelo classificador a ser treinado,
foi iniciado o processo de treinamento. As funções Haar-like
foram utilizadas para a extração de características do
classificador. Também foi definido que o classificador em
cascata teria 20 estágios. A quantidade de estágios influencia
diretamente o desempenho do processo de treinamento e para
o conjunto de amostras previamente elaborado, 20 estágios
apresentaram uma boa taxa de acerto e uma baixa taxa de
falsos positivos ao levar em conta o tempo para o treinamento.
Mais detalhes podem ser encontrados na TABELA I que
mostra a relação entre a quantidade de estágios de um
classificador cascata, a taxa de acerto e a taxa de falsos
positivos, aplicado na base de teste e o tempo gasto para seu
treinamento.
TABELA
I.
DESEMPENHO
CLASSIFICADOR CASCATA.
DO
TREINAMENTO
caso o alvo esteja presente na imagem analisada, sua posição é
utilizada pelo processo de rastreamento para a correta
rotulação e identificação do pedestre. A necessidade de se
utilizar um processo de detecção baseado apenas nas
características das pessoas ocorre pelo fato de a cena em que
as mesmas se encontram mudar constantemente. A diminuição
da amostragem temporal dos quadros do vídeo também
reforça o uso dessa técnica, pois a diferença do fundo entre
dois quadros que foram capturados em um espaço de tempo
maior é superior à diferença de dois quadros capturados em
um curto espaço de tempo. Sendo assim, a abordagem da
detecção tem que ser totalmente independente do fundo em
que o alvo se encontra, levando apenas em consideração suas
características visuais.
Figura 2. Ocorrências da correta detecção de pedestres pelo classificador
cascata.
DO
Estágios
Taxa acerto
Taxa falso positivo
Tempo
10
15
20
25
30
78%
85%
89%
91%
92%
13%
10%
5%
3%
1%
01:17:00
02:46:00
03:58:00
05:08:00
06:26:00
A. Detecção de pedestres em fundo dinâmico
A detecção e o rastreamento de pessoas em vídeos são
tratados como processos diferentes neste trabalho. A cada
imagem da sequência é iniciado um processo de detecção e
Figura 3. Ocorrências de falsos negativos (a) e falsos positivos (b). Para
melhor descrever a presença de um falso negativo, foi marcado manualmente
a sua localização com um retângulo vermelho.
Figura 4. Exemplo do rastreamento de pessoas em sequências de 16 quadros por segundo (a) e 2 quadros por segundo (b). O rótulo "Estimando" é atribuído
na provável posição do pedestre. Em sequências com baixa taxa de quadros por segundo o rastreamento fica mais sensível aos erros do detector.
A posição da pessoa detectada foi representada por um
vetor que é a entrada para o processo de rastreamento da
trajetória do pedestre na cena. Como o processo é executado
em todos os quadros do vídeo, é imprescindível que seu tempo
de processamento seja inferior ao tempo de exibição de um
quadro da sequência, ou seja, como foram utilizados vídeos
com output de 16 quadros por segundo, o tempo de detecção
de um único quadro deveria ser de no máximo 65,2ms. Com a
diminuição da amostragem temporal, pode-se gastar mais
tempo com a detecção de pessoas sem interferir no
desempenho. Aplicando-se o classificador em todas as
imagens da base de teste, foi obtida uma taxa de acerto de
89% e o tempo médio de processamento de uma imagem foi
de 37ms. Na Fig. 2 são mostrados alguns exemplos da correta
detecção de pedestres em cenas com fundo dinâmico. Já a Fig.
3a exemplifica as ocorrências de falsos negativos e na Fig. 3b
estão as ocorrências de falsos positivos.
B. Rastreamento de pedestres em vídeos de baixa
amostragem temporal
O rastreamento de pessoas é um processo separado do
processo de detecção mas totalmente dependente deste.
Mesmo quando a detecção não encontra uma pessoa, o
processo de rastreamento é executado e as predições e
correções do filtro de Kalman são calculados. Isso é
importante pois situações de oclusão são tratadas e o
ressurgimento do alvo não faz com que o sistema o defina
como uma nova pessoa. Durante toda a permanência do
pedestre na cena, é de responsabilidade do rastreador definir o
seu rótulo e mantê-lo até o último instante da presença do
pedestre na cena. O rastreador também deve ser capaz de
gerenciar situações onde oclusões momentâneas podem
ocorrer ou até mesmo falhas pontuais de detecção.
Para realizar a comparação e posterior avaliação do
comportamento de um rastreador de pessoas em vídeos com
baixa amostragem temporal, foi necessário reduzir
intencionalmente a quantidade de quadros que o vídeo possui.
O processo adotado consiste em processar um quadro e privar
o seguinte ou os seguintes de processamento. Quanto maior a
quantidade de quadros não processados, menor será a taxa de
amostragem. Como a base Daimler Pedestrian Path
Prediction Benchmark possuía suas sequências com uma taxa
de 16 quadros por segundo, após a redução da amostragem
foram obtidas taxas de 8, 4 e 2 quadros por segundo. Foi
observado que o movimento dos pedestres ao longo da cena
em sequências com maiores amostragens temporais era mais
suave. Isso foi um fator que favoreceu o rastreamento, pois
quando o detector falha ao identificar um pedestre, a sua
posição no quadro seguinte é próxima da posição estimada. Já
nas sequências com baixa frequência de quadros, quando
ocorre um falso negativo, a próxima posição do pedestre pode
ser diferente da que foi estimado. Na Fig. 5 são apresentados
os mapas de posições por onde o pedestre esteve localizado
em uma faixa de tempo. Cada linha e marcação representam a
posição que foi definida pelo detector de pessoas, a posição
que o filtro de Kalman estimou e a posição onde o rótulo foi
definido. Como pode-se observar, ao reduzir-se a frequência
de quadros por segundo o rastreador começa a ter um
comportamento instável e as estimativas das prováveis
posições dos pedestres começam a destoar de suas reais
localizações. Uma ocorrência de erro na detecção _ tanto falso
positivo quanto falso negativo, pode ocasionar erro no
rastreamento (Fig. 4b).
IV. CONCLUSÕES
A realização desta análise nos revela que há um limite no
rastreamento de pessoas quando a amostragem temporal da
sequência é reduzida. Ao se comparar o comportamento de um
rastreador em uma sequência de imagem com a mesma
sequência obtida com taxas de amostragem menores, chegouse à conclusão que ao se diminuir essa amostragem a
qualidade do rastreamento também diminui. A baixa eficácia
do rastreador em sequências de baixa amostragem temporal
ocorre, pois, o movimento da pessoa na cena não é contínuo,
quase ocupando posições aleatórias e ferindo um dos prérequisitos do filtro de Kalman que foi o método escolhido para
o rastreamento. Mesmo que a ação de diminuir a amostragem
temporal seja diretamente proporcional ao insucesso do
rastreamento de pessoas, foi verificado que sequências com
taxa de 8 quadros por segundo apresentaram resultados de
rastreamento semelhante aos de sequência com taxa maior.
Isso pode ser importante para situações onde é necessário
realizar o rastreamento de pessoas, mas, por alguma limitação
a amostragem temporal não pode ser alta. Um maior número
de experimentos, no entanto, é necessário para a comprovação
desse comportamento.
A sincronia entre o detector de pessoas e o rastreador
REFERÊNCIAS
Figura 5. Mapa das posições do pedestre detectado. A posição de
rastreamento é o local onde o filtro de kalman aplica o rótulo de
identificação. A posição detectada é a posição que o detector obteve.
também é um ponto importante que muitas vezes interfere no
resultado do rastreamento. Vídeos que apresentavam uma
baixa taxa de acerto na detecção também apresentavam
problemas principalmente no rastreamento de sequências com
taxa de 8 quadros por segundo ou menos.
Sendo assim, podemos concluir que o rastreamento de
pessoas em sequência de imagens com fundo dinâmico e baixa
amostragem temporal é uma tarefa totalmente dependente do
desempenho do detector de pessoas. Se o detector apresentar
baixas taxas de acerto e/ou altas taxas de falsos positivos, seu
desempenho pode ser comprometido.
[1]
S. Riter, A. Bernat and D. Schroder "Computer detection and tracking
of moving people in television images," in Proc. IEEE International
Conference on Systems, Man, and Cybernetics, p. 1013–1016, Pequim, 1998.
[2]
W. Chan and S. Chien, "Real-time memory-efficient video object
segmentation in dynamic background with multi-background registration
technique," in IEEE Workshop on Multimedia Signal Processing, p. 219–222,
Crete, 2007.
[3]
M. Burton et al. "Face recognition in poor-quality video: Evidence
from security surveillance," in Psychological Science, vol. 10, no. 3, p. 243–
248, 1999.
[4]
H. Ma, H. Lu, and M. Zhang, "A real-time effective system for
tracking passing people using a single camera," in 7th World Congress on
Intelligent Control and Automation (WCICA), p. 6173-6177, Chongqing,
2008.
[5]
M. Piccardi, "Background subtraction techniques: a review," in IEEE
International Conference on Systems, Man and Cybernetics, p. 3099-3104,
The Hague, 2004.
[6]
L. Fuentes, S. Velastin, "People tracking in surveillance applications,"
in Proceedings of the 2nd IEEE International workshop on PETS, p. 11651171, Kauai, 2001.
[7]
M. Li, Z. Zhang, K. Huang, and T. Tan, "Estimating the number of
people in crowded scenes by MID based foreground segmentation and headshoulder detection," in 19th International Conference on Pattern Recognition
(ICPR), p. 1-4, Flórida, 2008.
[8]
S. Yu, X. Chen, W. Sun, and D. Xie, "A robust method for detecting
and counting people," in International Conference on Audio, Language and
Image Processing, p. 1545-1549, Shangai, 2008.
[9]
X. Liu, P. Tu, J. Rittscher, A. Perera, and N. Krahnstoever, “Detecting
and counting people in surveillance applications,” in IEEE Conference on
Advanced Video and Signal Based Surveillance, p. 306-311, Como, 2005.
[10] A. Monnet, A. Mittal, N. Paragios, and V. Ramesh, "Background
modeling and subtraction of dynamic scenes," in IEEE International
Conference on Computer Vision, p. 1305-1312, Nice, 2003.
[11] P. A. Viola, M. J. Jones, D. Snow, "Detecting Pedestrians Using
Patterns of Motion and Appearance," in 9th IEEE International Conference on
Computer Vision, p. 734-741, Nice, 2003.
[12] A. Yilmaz, O. Javed, M. Shah, "Object tracking: A survey," ACM
Computing Surveys vol. 38, no. 4, p. 13, ACM, 2006.
[13] R. E. Kalman, "A new approach to linear filtering and prediction
problems". Journal of Fluids Engineering, vol. 82, no. 1, pp. 35–45, American
Society of Mechanical Engineers, 1960.
[14] J. Garcia, A. G. Vicente, I. Bravo, J. L. Lazaro, M. Martinez, and D.
Rodriguez, “Directional people counter based on head tracking,” IEEE
Transactions on Industrial Electronics, vol. 60, no. 9, pp. 3991–4000, IEEE,
2013.
[15] G. Phadke, R. Velmurugan, "Improved mean shift for multi-target
tracking," in IEEE International Workshop on Performance Evaluation of
Tracking and Surveillance, p. 37-44, Flórida, 2013.
[16] Y. Freund, R. Schapire, "A Decision-Theoretic Generalization of OnLine Learning and an Application to Boosting," JCSS: Journal of Computer
and System Sciences vol. 55, no. 1, p. 119-139, 1997.
[17] N. Schneider and D Gavrila, "Pedestrian path prediction with
recursive Bayesian filters: A comparative study," Pattern Recognition, vol. 1,
no. 1, p. 174-183, Springer, 2013.
[18] D. L. Cosmo, E. Salles, P. Ciarelli, "Pedestrian Detection Utilizing
Gradient Orientation Histograms and Color Self Similarities Descriptors,"
Latin America Transactions, IEEE (Revista IEEE America Latina), vol. 13,
no. 7, p. 2416-2422, IEEE, 2015.
Diego Luiz Siqueira, possui graduação em Ciência da
Computação e mestrado em Engenharia Elétrica pela
Pontifícia Universidade Católica de Minas Gerais,
Brasil. Atualmente é bolsista FAPEMIG nas
instituições Ericsson e FITec.
Alexei Manso Correa Machado é Doutor em Ciência
da Computação pela Universidade Federal de Minas
Gerais, Brasil, com pós-doutorado na University of
Pennsylvania, USA. Atua como professor de
graduação e pós-graduação nas áreas de visão
computacional, inteligência artificial e informática
médica.