Identificação Biométrica de Indivíduos baseada em Parâmetros

Transcrição

Identificação Biométrica de Indivíduos baseada em Parâmetros
Identificação Biométrica de Indivíduos baseada em Parâmetros
Dinâmicos Extraídos da Marcha Humana
Romeu Yukio Takeda , Sarah Negreiros de Carvalho , Matheus Wanderley Romão , Aline Rocha de Assis ,
Glauco Ferreira Gazel Yared
Departamento de Engenharia Elétrica, Instituto de Ciências Exatas e Aplicadas
Universidade Federal de Ouro Preto (UFOP)
[email protected], [email protected], [email protected],
[email protected], [email protected]
Resumo – Human gait have been exploited in the last decades in order to extract useful information for medicine
applications such as deseases diagnostics, for video surveillance to improve the performance of security systems
and for forensic purposes as well. In t his way model based and model free techniques have been developed for
human gait reconigtion. This work is supposed to present two feature extracion approachs to gather information
from human gait so that individual identification can be performed. Therefore a model based approach is used to
parameterize human body and to track 20 joints trajectories through gait cycles by means of Kinect sensor. Then the
3D joints motion was processed to obtain the power spectral density (PSD) along each spatial coordinate and also to
determine the average magnitude of each vector (AMV) defined by a pair of joints for a gait realilzation.The results
have shown around 70% of correct recongition rate for PSD information while have given approximately 96% for
using AMV parameters. .
Palavras-chave: Gait recognition, kinect, power spectral density, Average Magnitude of each Vector, AMV.
1. Introdução
O aumento na integração dos sistemas de informação e de telecomunicações tem permitido o surgimento de novas tecnologias que facilitam a execução de diversas ações comuns no cotiano de empresas privadas e de órgãos governamentais dentre
as quais se podem citar o controle de acesso e o
monitoramento de locais públicos, respectivamente.
Neste sentido, devem-se desenvolver mecanismos
de identificação de indivíduos de forma natural e
não intrusiva, de modo que as informações características de cada indivíduo sejam extraídas, processadas e utilizadas pelos sistemas de segurança.
As medidas biométricas têm sido amplamente
utilizadas com o intuito de permitir a autenticação
ou a identificação de indivíduos, por meio de características fisiológicas ou comportamentais tais como
a íris e a impressão digital, como exemplos do primeiro caso, além da assinatura e a marcha humana,
como ilustração do último caso.
Em particular, a marcha humana tem sido explorada nas últimas décadas como fonte de informação
para a extração de características capazes de auxiliar
desde o diagnóstico de patologias na área médica
[7] até o reconhecimento de indivíduos para suporte
aos sistemas de segurança [2, 6]. No que tange ao
reconhecimento da marcha humana, diversas metodologias tem sido propostas, podendo ser agrupadas
em abordagens independentes de modelos (livres de
modelos) ou baseadas em modelos. Assim, podem-
se destacar aquelas que se baseam na extração do esqueleto, na obtenção dos contornos dos indivíduos,
além de outras que envolvem a extração de informações de modelos tridimensionais. A primeira categoria de abordagens, a qual é livre de modelos
e cujo desempenho depende do ângulo de visualização da câmera, envolve tipicamente a utilização
da informação de silhuetas do indivíduo obtidas ao
longo de imagens sucessivas associadas a marcha.
Pode-se citar como exemplo desta abordagem a GEI
(Gait Energy Image) [5], que consiste na representação, em apenas uma imagem, das características de
múltiplas silhuetas de um indivíduo em um ciclo da
marcha, o que pode ser obtido por meio da normalização e cálculo da média temporal das silhuetas,
resultando em uma medida compacta da ocupação
espacial observada. A segunda categoria compreende as abordagens que tipicamente utilizam diversas câmeras para o rastreamento da marcha e para o
ajuste de um modelo tridimensional ao contorno de
cada indivíduo [9, 11, 1], a partir do qual se pode
representar o indivíduo por meio de um esqueleto e,
consequentemente, determinar medidas estáticas de
pontos específicos do corpo, além de ângulos formados pelos diversos membros ao longo da marcha.
Nos últimos anos, alguns trabalhos têm sido desenvolvidos a partir da utilização do sensor Kinect
[10, 8, 3], que consiste de uma câmera RGB, juntamente com uma fonte e um sensor de luz infravermelha capazes de fornecer dados de profundidade
de imagens. Tal sensor fornece a posição espacial
de 20 pontos do corpo humano, os quais constituem
um modelo tridimensional em forma de esqueleto
[4].
Este trabalho possui como principal objetivo e
contribuição o emprego de características extraídas
da marcha humana para o reconhecimento de indivíduos, quais sejam, a Média do Módulo de cada Vetor (Average Magnitude of each Vector - AMV) definido por dois pontos quaisquer do corpo ao longo da
marcha, e o módulo do espectro de frequências dos
sinais de trajetória ao longo de cada coordenada espacial. Adicionalmente, neste último caso, propõese uma mudança no sistema de coordenadas de referência a fim de se tornar o sistema independente
das condições iniciais e de movimentos indesejados
tal como o ângulo de visualização da câmera em relação a trajetória descrita pelo indivíduo durante a
marcha.
Por fim, as próximas seções apresentarão a metodologia utilizada nos experimentos e os resultados
obtidos com a presente abordagem, seguidas de uma
discussão sobre os aspectos positivos e limitações
que contribuiram para o desempenho obtido para o
sistema desenvolvido e finalizando com as principais conclusões.
2. Metodologia
A primeira etapa para a solução de qualquer problema envolvendo o reconhecimento de padrões
consiste na criação de uma base de dados contendo
informações suficientes para a caracterização estocástica do objeto em estudo. Especificamente, neste
trabalho deve-se implementar um sistema de reconhecimento de indivíduos baseado na marcha e,
neste sentido, é fundamental a utilização ou criação
de uma base de dados. Assim, foram registradas
marchas de 30 indivíduos, sendo 15 de cada sexo.
Nesta base, foram coletadas 40 realizações de marcha por indivíduo, sendo que as marchas foram iniciadas a partir de cada lado do corpo (esquerdo e
direito) em igual proporção e tem duração de 2 à 3
ciclos. Adicionalmente, a base de dados foi separada em conjunto de treinamento, compreendendo
70% das marchas, e conjunto de teste contendo os
demais 30%.
O sensor Kinect realiza a coleta de dados espaciais tridimensionais de 20 pontos conforme indicado
na Figura 1, com uma taxa de amostragem de 30
quadros por segundo.
Figura 1. Pontos rastreados pelo dispositivo
Kinect
A plataforma do Matlab é utilizada para a comunicação com o dispositivo Kinect e de modo que
as trajetórias espaciais ao longo das tês coordenadas
possa ser coletadas.
Uma vez coletada a base de dados, realizouse a parametrização dos sinais de trajetórias espaciais por meio do determinação da média do módulo de cada Vetor (AMV) definido por dois pontos quaisquer do corpo ao longo da marcha. Assim, considerando-se dois pontos quaisquer “P” e
“Q” dentre os vinte rastreados pelo Kinect, pode-se
calcular a média do módulo de acordo com a Equação (1).
~ (n) =(Q(n) −P (n) )x̂+ Q(n) −P (n) ŷ+ Q(n) −Pz(n) ẑ
V
PQ
y
y
x
x
z
r
2 2 2
V~ (n) =
(n)
(n)
(n)
(n)
(n)
(n)
Qx −Px
+ Qy −Py
+ Qz −Pz
PQ Q
M odPmed
=
N 1 X
~ (n) VP Q N n=1
(1)
~ (n) indica o valor do módulo do vetor
em que V
PQ
definido pelos pontos “P” e “Q” no instante “n”, e
Q a média do módulo do Vetor (AMV) defiM odPmed
nido pelos pontos “P” e “Q” ao longo dos “N” quadros obtidos pelo rastreamento de uma realização da
marcha.
Por fim, definiu-se um novo sistema de coordenadas localizado no centro do quadril do indivíduo
a partir dos pontos P1 , P2 , P13 e P17 , o qual permanece fixado no ponto P1 , o que permite a compensação de movimentos indesejados e não relacionados
com informações relevantes para a caracterização da
marcha. Assim, as trajetórias espaciais obtidas no
novo sistema de coordenadas podem ser utilizadas
no cálculo da magnitude do espectro de freqências
obtido pela Transformada de Fouier de Tempo Discreto (TFTD) a partir da Equação (2)
H ejω =
∞
X
o melhor desempenho na classificação. Este processo se repete iterativamente até que o desempenho
do classificador não se modifique com qualquer aumento do número de entradas. A Figura 2 ilustra o
cenário em que foram escolhidas 38 entradas para a
RNA com 30 neurônios na camada escondida, correspondendo a 38 AMVs, em que se obteve uma
taxa de acerto no reconhecimento de aproximadamente 96%. Deve-se destacar que foram avaliadas
RNAs com 5, 10, 20, 30 e 40 neurônios na camada
escondida.
x [n] e−jωn
n=−∞
2
H ejω = H ejω · H ∗ ejω
(2)
Em termos práticos, a TFTD pode ser calculada
por meio da Transformada Rápida de Fourier e no
presente trabalho utilizaram-se 128 pontos, o que
fornece uma resolução espectral em torno de 0,2Hz.
Em última instância, os dados parametrizados
são utilizados como entradas para classificadores implementados com Redes Neurais Artificiais
(RNAs) do tipo multilayer perceptron, as quais possuem 5 saídas binárias utilizadas para a identificação de cada indivíduo que deve ser reconhecido.
3. Resultados e Discussões
Inicialmente, considerando que existem 20 pontos
rastreados, podem-se obter até 190 vetores a partir de todas as combinações possíveis (C220 ). Entretanto, a princípio deve-se investigar quais destes vetores são relevantes do ponto de vista do reconhecimento dos indivíduos. Assim, realizou-se aumento
gradativo do número de entradas da RNA, começando apenas com uma entrada, até que o desempenho do classificador não se altere com a introdução de novas entradas. Neste sentido, na condição
inicial contendo apenas uma entrada, avaliou-se o
desempenho obtido a partir de cada uma das 190
possibilidades separadamente e aquela que forneceu
o melhor desempenho foi fixada como entrada da
RNA. Na iteração seguinte, considerando que uma
entrada já foi escolhida, avaliou-se a inserção separada de cada uma das 189 possibilidades remanescentes de modo a se determinar qual deve ser a segunda entrada fixada para a RNA de acordo com
Figura 2. Determinação das AMVs que devem
compor as entradas da RNA.
Em contrapartida, a utilização das trajetórias espaciais representadas no novo sistema de coordenadas criado no centro do quadril do indivíduo para
o cálculo da magnitude do espectro de frequências
foi capaz de produzir como melhor resultado uma
taxa de acerto no reconhecimento de 70%. Nesta
abordagem existem informações disponíveis de 16
pontos do corpo, visto que outros 4 foram utilizadas para a criação do novo sistema de coordenadas.
Assim, considerando que existem trajetórias de 16
pontos, cada qual com 3 coordenadas espaciais, e
que a TFTD permite o cálculo da magnitude do espectro associada as 64 componentes de frequência
espaçadas de aproximadamente 0,2Hz, então a utilização de toda informação disponível implica em inserir 3072 parâmetros nas entradas da RNA. Devese notar que apesar do espectro de frequências conter informações até 15Hz, não existem componentes
de frequência com magnitude significativa além de
8Hz, conforme ilustrado na Figura 3. Deste modo,
o resultado do reconhecimento de indivíduos por
meio da magnitude do espectro pode ser melhorado
por meio da seleção de uma faixa de frequências
mais restrita.
[3]
[4]
Figura 3. Densidade de Potência Espectral obtidas a partir de 16 trajetórias.
4. Conclusões
Os resultados deste trabalho mostraram que as duas
abordagens utilizadas para a parametrização das trajetórias espaciais de 20 pontos rastreados pelo sensor kinect permitem o reconhecimento de indivíduos por meio da marcha humana, com destaque
para o novo método proposto baseado na média do
módulo do Vetor (AMV) definido por dois pontos
rastreados quaisquer que forneceu como resultado
em torno de 96% de taxa de acerto no reconhecimento, enquanto a abordagem baseada no conteúdo
espectral dos sinais de trajetórias espaciais tridimensionais apresentou um desempenho de 70%. Neste
último caso, observou-se a necessidade de uma seleção de uma faixa de frequências mais restrita, visto
que não se obsevou amplitudes significativas no espectro além de 8Hz.
Por fim, como propostas de continuidade do trabalho devem-se avaliar a extração de informações
dinâmicas a partir dos vetores definidos por quaisquer pares de pontos rastreados, considerando a primeira abordagem, e também analisar o emprego de
filtros para a seleção de faixas de frequência mais
baixas visando a obtenção da informação espectral,
no caso da segunda abordagem.
[5]
[6]
[7]
[8]
[9]
[10]
Referências
[1] Adrian Ball, David Rye, Fabio Ramos, and
Mari Velonaki. Unsupervised clustering of people from’skeleton’data. In Proceedings of the
seventh annual ACM/IEEE international conference on Human-Robot Interaction, pages
225–226. ACM, 2012.
[2] Rita Cucchiara, Costantino Grana, Andrea
Prati, and Roberto Vezzani. Computer vision
[11]
system for in-house video surveillance. IEE
Proceedings-Vision, Image and Signal Processing, 152(2):242–249, 2005.
Moshe Gabel, Ran Gilad-Bachrach, Erin
Renshaw, and Assaf Schuster. Full body gait
analysis with kinect. In Engineering in Medicine and Biology Society (EMBC), 2012 Annual International Conference of the IEEE, pages 1964–1967. IEEE, 2012.
Elena Gianaria, Nello Balossino, Marco Grangetto, and Maurizio Lucenteforte. Gait characterization using dynamic skeleton acquisition.
In Multimedia Signal Processing (MMSP),
2013 IEEE 15th International Workshop on,
pages 440–445. IEEE, 2013.
Ju Han and Bir Bhanu. Individual recognition
using gait energy image. Pattern Analysis and
Machine Intelligence, IEEE Transactions on,
28(2):316–322, 2006.
Peter K Larsen, Erik B Simonsen, and Niels Lynnerup.
Gait analysis in forensic
medicine*.
Journal of forensic sciences,
53(5):1149–1153, 2008.
Paramjeet Mandeep Singh, Mooninder Singh.
Neuro-degenerative disease diagnosis using
human gait: A review. In IJITKMI, volume 7,
pages 16–20, 2013.
M Milovanovic, M Minovic, and D Starcevic. New gait recognition method using kinect stick figure and cbir. In Telecommun. Forum (TELFOR), volume 1, pages 1323–1326,
2012.
Sabesan Sivapalan, Daniel Chen, Simon Denman, Sridha Sridharan, and Clinton Fookes.
Gait energy volumes and frontal gait recognition using depth images. In Biometrics (IJCB),
2011 International Joint Conference on, pages
1–6. IEEE, 2011.
Zheng Xiao, Fu Mengyin, Yang Yi, and
Lv Ningyi. 3d human postures recognition
using kinect. In Intelligent Human-Machine
Systems and Cybernetics (IHMSC), 2012 4th
International Conference on, volume 1, pages
344–347. IEEE, 2012.
Koichiro Yamauchi, Bir Bhanu, and Hideo
Saito. Recognition of walking humans in
3d: Initial results.
In Computer Vision
and Pattern Recognition Workshops, 2009.
CVPR Workshops 2009. IEEE Computer Society Conference on, pages 45–52. IEEE, 2009.