utilização do coeficiente kappa para avaliar algoritmos de

Transcrição

utilização do coeficiente kappa para avaliar algoritmos de
UTILIZAÇÃO DO COEFICIENTE KAPPA PARA AVALIAR ALGORITMOS DE
CLASSIFICAÇÃO PARA USO EM SISTEMAS DE DETECÇÃO DE INTRUSOS EM
REDES SEM FIO
Ed´ Wilson Tavares Ferreira
Pósdoutorando da UNESP, Campus Ilha Solteira
Ailton Akira Shinoda
Prof. Doutor da UNESP, Campus Ilha Solteira
Resumo
O presente artigo resulta da pesquisa que investigou segurança em redes sem fio e o objetivo
proposto é avaliar três algoritmos de classificação: IBk, J48 e MLP, geralmente utilizados em
Sistemas de Detecção de Intrusão em redes sem fio de computadores. Os procedimentos
metodológicos executados envolveram a criação de um conjunto de dados de auditoria,
oriundos da captura dos quadros na camada MAC, além disso, foram executados diversos
ataques nesta rede, portanto o conjunto possui tráfego normal e tráfego oriundo de ataques. Os
resultados obtidos demonstram que o conjunto de dados pode ser empregado para
classificação de algoritmos e também que o Coeficiente Kappa é um bom indicador para
realizar a comparação.
Palavras-chave: Sistema de Detecção de Intrusão. Segurança em Redes Sem Fio. Coeficiente
Kappa.
Introdução
Nos últimos anos houve aumento considerável de pessoas que empregam
dispositivos móveis, como celulares e tablets, para acessar a Internet. Na prática tais
dispositivos tornam-se complementar ao uso do computador para o mesmo fim. Estes
equipamentos geralmente são equipados com interfaces de rede sem fio, baseada na família de
padrões IEEE 802.11.
Com o crescimento do número de usuários de Internet e a facilidade na aquisição de
produtos e serviços na rede, também aumentou a quantidade de operações financeiras
realizadas através dos sistemas bancários e comércio eletrônico. Este incremento despertou o
interesse de atacantes, que perceberam a grande oportunidade para aplicar golpes.
No Brasil, o Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança
(CERT.br) registrou 352.925 notificações de incidentes de segurança no ano de 2013,
representando queda de 24%, quando comparado ao ano anterior. Conforme mostrado na
Página 54
Figura 1, percebe-se que desde 1999, o número de registros de incidentes apresentou aumento
expressivo, mesmo com quedas nos anos 2010 e 2013. As estatísticas contabilizam diversos
tipos de incidentes (tentativas de fraudes, ataques de força bruta em servidores SSH e de
conteúdo, entre outras). Porém, não é possível concluir se realmente ocorreu redução de
ataques ou se houve diminuição do número de comunicações de incidentes.
Figura 1 – Número de incidentes reportados ao CERT.br
Fonte: (CENTRO DE ESTUDOS RESPOSTA E TRATAMENTO DE INCIDENTES DE
SEGURANÇA NO BRASIL, 2014)
A segurança da informação possui três pilares fundamentais, representados pela
tríade: confidencialidade, integridade e disponibilidade (ASSOCIAÇÃO BRASILEIRA DE
NORMAS TÉCNICAS, 2006). Uma ação maléfica que pode afetar um sistema é
caracterizada por uma intrusão. O Sistema de Detecção de Intrusão (Intrusion Detection
System - IDS) deve ser capaz de detectar a ação, porém sem comprometer seu funcionamento
ou utilizar os recursos computacionais em demasia. O IDS é portanto uma ferramenta de
segurança que, com outras medidas, a exemplos de firewall e antivírus, destina-se a reforçar a
segurança da informação (GARCÍA-TEODORO et al., 2009).
Devido à natureza intrínseca da comunicação de dados sem fio, a rede está sujeita a
muitos tipos de ataques. Diversas extensões foram implementadas no padrão IEEE 802.11
(como as ementas IEEE 802.11i e IEEE 802.11w) com objetivo de reduzir ou sanar tais
deficiências, porém ainda insuficientes (BAIG et al., 2011). Com objetivo de elevar o nível de
segurança nestas redes, diferentes propostas têm sido apresentadas para IDS, a exemplo das
abordagens sugeridas por (AKYILDIZ; WANG; WANG, 2005; BAIG et al., 2011;
MOHANABHARATHI; KALAIKUMARAN; SUBBURATHINAM, 2012), porém com a
diversidade de topologias e números de usuários, além de outras características que podem
Página 55
interferir na transmissão das ondas de rádio, a tarefa de comparação e avaliação destes IDS
torna-se demasiadamente complexa.
Os cenários heterogêneos de redes sem fio tornam complexa a justa avaliação entre
as diversas propostas de IDS. Então para comparar as abordagens de implementação de IDS,
pode-se utilizar um conjunto de dados , que representam o funcionamento de uma rede sem
fio. Com esta técnica, todos os IDS podem ser experimentados no mesmo cenário. Uma base
muito conhecida e utilizada para redes cabeadas é a KDD 99 (ARAUJO et al., 2010), porém o
mesmo não acontece em redes sem fio (SHIRAVI et al., 2012). Assim, o objetivo deste artigo
é apresentar a metodologia empregada na construção de um conjunto de dados representativos
de uma rede sem fio bem como a avaliação deste conjunto de dados através do emprego de
três algoritmos de classificação: IBk, J48 e MLP, geralmente utilizados em implementação de
IDS.
Este artigo está organizado da seguinte maneira: na Fundamentação Teórica são
apresentados os principais conceitos acerca da temática proposta que embasou a pesquisa,
além dos trabalhos relacionados. Na seção Metodologia são apresentados os procedimentos
empregados no desenvolvimento desta investigação. A avaliação dos resultados é apresentada
na seção Resultados e Discussões, e finalmente na sequência, são apresentados as
Considerações Finais.
Fundamentação Teórica
Conforme o enfoque adotada para detectar atividades suspeitas, os IDS podem ser
classificados em duas categorias: detecção por anomalias e por abuso (ou assinatura). A
primeira consiste em metodologias que procuram determinar variações nas atividades em
relação a um padrão de comportamento, enquanto a segunda consiste em procurar por padrões
de ataques conhecidos nos dados de auditoria.
Comparando-se as duas categorias, a desvantagem da primeira refere-se ao alto
número de falso-positivos, e da segunda é a necessidade de conhecimento prévio dos ataques.
Com relação às vantagens, a primeira categoria pode detectar ataques não conhecidos
previamente ou novos ataques, enquanto que a segunda categoria exige baixo poder de
processamento na detecção.
Para realizar a comparação entre IDS pode-se utilizar um conjunto de dados de
auditoria, que geralmente são construídos a partir da captura do tráfego em determinada rede
e, em alguns casos, também possuem dados oriundos de simulação. O conjunto de dados
utilizados na avaliação desempenha um importante papel na validação dos métodos
Página 56
empregados nas propostas de IDS. A qualidade dos dados permite julgar a abordagem
proposta e a eficácia no ambiente utilizado. Porém, devido à falta de melhores conjuntos de
dados, boa parte das pesquisas de detecção de intrusão faz o uso de dados simulados
(SHIRAVI et al., 2012).
A variedade de métodos e técnicas de classificação e reconhecimento de padrões
introduziram novas capacidades na detecção de intrusão. Muitas destas técnicas foram
exploradas e tornou-se possível obter altas taxas de detecção, com baixa taxa de falsos
positivos. Enquanto estas variedades de técnicas foram propostas e empregadas, a adequada
comparação entre estes métodos e suas deficiências tem sido muito difícil, como detalhado
em (TAVALLAEE; STAKHANOVA; GHORBANI, 2010).
Um fator importante na avaliação de propostas de IDS é a construção do cenário
idêntico, para ser empregado na avaliação das abordagens sugeridas para implementação de
IDS em redes sem fio. Assim, surge a dificuldade para recriar os perfis de usuários, topologia
da rede e itens que podem intervir na comunicação (interferência de canais, obstáculos,
número de usuários, entre outros).
De maneira geral, as propostas para detecção de intrusão são direcionadas para redes
cabeadas, com o emprego de diversos mecanismos de classificação, a exemplo de redes
neurais artificiais (CORCHADO; HERRERO, 2011; WU; BANZHAF, 2010; ZHONG;
HUANG; CHEN, 2011), clusterização (KUMAR; CHAUHAN; PANWAR, 2013; MUDA et
al., 2011; SHARMA et al., 2012) e algoritmos genéticos (GOYAL; AGGARWAL; JAIN,
2012; KANDEEBAN; RAJESH, 2001; SAZZADUL HOQUE, 2012).
Uma abordagem híbrida, com o uso de classificados k-means e MLP (multilayer
perceptron)
foi
apresentada
por
(MOHANABHARATHI;
KALAIKUMARAN;
SUBBURATHINAM, 2012). Esta proposta emprega dados da camada MAC, e de camadas
superiores, para detecção de intrusão em redes sem fio. Nesta proposta foi empregada a
seleção de atributos através da métrica do ganho da informação, com os classificados kmeans, enquanto que as redes neurais, implementadas com MLP, são utilizadas para
classificação e reconhecimento dos ataques.
Para avaliar a base de dados criada, forma escolhidos três algoritmos de
classificação: IBk, J48 e MLP. E para avaliar tais algoritmos, foram escolhidos três métricas
de medidas de erro: Erro Médio Absoluto, Erro Quadrático Médio e o Coeficiente Kappa,
estas métricas são relativamente simples de serem implementadas e não ocasionam
processamento excessivo nos computadores utilizados.
O Erro Médio Absoluto (Mean Absolute Error – MAE) é definido como a média da
Página 57
diferença entre os valores reais e os valores calculados, como apresentado na Equação 1, onde
n representa o número de termos, xi o valor real do i-ésimo termo, e x´i o valor calculado do
i-ésimo termo. Os valores mais próximos de zero indicam que ocorreu melhor classificação.
𝑀𝐴𝐸 =
!
!!!(𝑥!
− 𝑥´! )
(1)
𝑛
Enquanto que o Erro Quadrático Médio (Root Mean Squared Error – RMSE) é a
média do quadrado do erro, como apresentado na Equação 2, onde n representa o número de
termos, xi o valor real do i-ésimo termo,
e x´i o valor calculado do i-ésimo termo. O valor
MAE mínimo nem sempre indica uma variação mínima, por isso, o emprego em conjunto
com o RMSE torna-se interessante (WILLMOTT; MATSUURA, 2005).
𝑀𝐴𝐸 =
(2)
!
!!!(𝑥!
− 𝑥´! )!
𝑛
O coeficiente Kappa é uma métrica de concordância induzida, que foi usada
inicialmente entre observadores na área de psicologia (COHEN, 1960). Esta métrica mede o
grau de aceitação ou de respostas concordantes entre diversos juízes. É empregado utilizando
a proporção entre a concordância observada (Po) e a concordância devida ao acaso (Pa),
representados na Equação 3.
𝑘=
𝑃𝑜 − 𝑃𝑎
1 − 𝑃𝑎
(3)
O valor unitário indica que a classificação foi totalmente correta, enquanto que o
valor do coeficiente nulo, indica que a classificação ocorreu ao mero acaso, portanto valores
próximos de um confirmam que foram empregados os melhores classificadores.
A avaliação dos conjuntos de dados de auditoria foi executada com implementação
dos algoritmos IBk, J48 e MLP. Estes classificadores foram escolhidos por serem bastante
utilizados em diversos IDS.
O algoritmo IBk é uma implementação do método de clusterização kNN (k-nearest
neighbor), técnica utilizada para classificação e regressão, que consiste encontrar vizinhos
mais próximos de uma data instância. No caso do IBk, utiliza-se os três vizinhos mais
Página 58
próximos do padrão de consulta. Esta é uma técnica relativamente simples, porém também
tem sido utilizada em propostas de IDS (OM; KUNDU, 2012).
O J48 é um algoritmo baseado em classificadores de árvores de decisão. Para
classificar um novo item, primeiro é necessário criar uma árvore de decisão de acordo com
valores de atributos obtidos a partir dos dados de treinamento. Esta técnica também é utilizada
para calcular o ganho de informação de cada atributo e assim otimizar o mecanismo de
classificação nos IDS (NAGLE; CHATURVEDI, 2013).
O MLP é uma rede neural artificial que mapeia com conjunto de entradas para sua
apropriada saída, consiste de várias camadas de nós em um gráfico direcionado. Seu emprego
em IDS tem gerado diversas propostas de implementação (ZHONG; HUANG; CHEN, 2011).
Metodologia
Para realizar a comparação entre as propostas dos mecanismos de classificação para
IDS, os dados de autoria foram obtidos através da captura de quadros de uma rede real, que
emprega criptografia WPA2, instalada no Campus Cuiabá Bela Vista do Instituto Federal do
Mato Grosso (IFMT), cuja topologia é apresentada na Figura 2.
Figura 2 – Topologia da Rede
Estação Atacante
Cliente 2
Ponto de A cesso
Estação de Monitoramento
Ponto de A cesso
Cliente 3
Cliente 1
Estação Atacante
Switch
Servidor Radius
Internet
Fonte: Elaborado pelo autor.
A rede possui várias clientes, dois pontos de acesso (AP) e um servidor RADIUS que
é utilizado para autenticação de usuários. Três estações (Cliente 1, Cliente 2 e Cliente 3) sem
fio foram usadas para gerar tráfego normal, com aplicações web (HTTP e FTP). Uma estação
Página 59
atacante foi configurada para gerar ataques com o emprego do software Airplay
(AIRCRACK, 2014). Enquanto que uma estação de monitoramento foi configurada para
realizar a captura de todo o tráfego na rede, através do software Wireshark (COMBS, 1998).
Os ataques empregados neste cenários são comuns em redes sem fio: deautenticação,
autenticação falsa, AP falso e inundação (synflooding). O primeiro ataque ocorre quando o
atacante gera quadros falso em broadcast com comando para a estação se descontar da rede. A
autenticação falsa injeta quadros na rede, com o objetivo de incluir uma estação que não é um
cliente autêntico da rede, através da captura de quadros que possuem Vetores de Inicialização.
O ataque de AP Falso cria um ponto de acesso que não é legítimo na rede, enquanto que o
ataque de inundação tem objetivo de gerar quadros em quantidade suficiente para paralisar
equipamentos que não estão preparados para este tipo de carga.
Todos os quadros capturados foram pré-processados e gravados no conjunto de dados
de auditoria. Foram utilizados os campos da camada MAC: protocol version, type, subtype, to
DS, from DS, more fragment, retry, power management, more data, WEP, order, duration,
address1, address2, address3 e sequence control. Neste conjunto de dados de auditoria
também foi incluído uma coluna que indica o tipo de tráfego: normal ou o nome do ataque.
Com o emprego desta coluna é possível avaliar a eficiência dos classificadores estudados.
A metodologia de organização dos dados coletados neste experimento segue a
proposta de divisão de dados holdout (SMITH, 1994), com a distribuição do espaço amostral
dos registros numa proporção de 75% e 25%,
nas bases de treinamento e testes
respectivamente. A quantidade de registros é apresentada na Tabela 1.
Tabela 1 - Distribuição do Conjunto de Dados
Tipo
Treinamento
Normal
Teste
4500
1500
Deautenticação
750
250
Autenticação Falsa
750
250
AP Falso
750
250
Synflooding
750
250
7500
2500
Total de Amostras
Fonte: Elaborado pelo autor.
Página 60
A avaliação dos classificadores, aplicados nos conjuntos de dados de auditoria, foi
realizada com o uso do software Weka (HALL et al., 2009). Este software tem sido utilizado
em diversos testes e assim tornou-se bom candidato para exames de protótipos. Como um dos
objetivos é comparar os classificadores, não foi realizado nenhuma customização de
parâmetros no Weka, assim execução do software foi efetuada com todos os valores default. O
computador utilizado foi um Macbook Pro com processador de 2,4GHz Core i5 e equipado
com 8GB de memória RAM com pentes DDR3 de 1600MHz e sistema operacional OS X
versão 10.9.4.
Resultados e Discussões
O Erro Médio Absoluto e o Erro Quadrático Médio são indicadores que fornecem
uma estimativa simples sobre a eficácia das técnicas de classificação empregadas na avalição
de IDS. Seu uso é incipiente e outras métricas devem ser empregadas para melhorar tal
comparação. Os valores dos erros médios absolutos e quadráticos, obtidos nesta pesquisa, são
muito próximos quando comparados para cada método de classificação, conforme pode-se
observar na Tabela 2.
O indicador “Classificação Correta” apresenta o percentual dos dados de auditoria
que foram identificados corretamente, conforme a classificação presente no conjunto de
dados.
Tabela 2 – Eficiência dos Algoritmos Avaliados
Algoritmo Erro Médio
Absoluto
Erro
Classificação
Quadrático Correta (%)
Médio
Coeficiente
Kappa
IBk
0,0553
0,1820
90,88
0,8362
MLP
0,0473
0,1930
90,36
0,8271
J48
0,0610
0,1923
90,04
0,8213
Fonte: Elaborado pelo autor.
Percebe-se que o Coeficiente Kappa sugere que o melhor resultado obtido foi com o
emprego do algoritmo IBk, seguido pelo MLP e por último o J48, confirmando a contagem
apresentada na Tabela 2, indicada pela coluna Classificação Correta, porém isso não ocorreu
com os indicadores Erro Médio Absoluto e Erro Quadrático Médio.
Página 61
Os indicadores dos Erro Médio Absoluto e Erro Quadrático Médio calcula a média
das classificações indicadas pelos algoritmos e do tipo correto do tráfego. Portanto, trata-se de
uma indicação média das falhas.
Considerações Finais
Os resultados obtidos demonstram que o emprego do Coeficiente Kappa é mais
adequado do que uso dos indicadores de erro (erro médio absoluto e quadrático médio),
quando empregados para avaliação de classificadores para IDS em redes sem fio. Foi possível
verificar que entre os três algoritmos avaliados, o IBk apresentou melhor resultado de
classificação, conforme indicado pelo Coeficiente Kappa e comprovado através da quantidade
das classificações corretas.
O coeficiente Kappa, como métrica de concordância, pode ser utilizado como métrica
para comparação entre algoritmos de classificação. Mesmo o coeficiente Kappa sendo
empregado em um cenário específico, relacionado à Sistema de Detecção de Intrusão em
Redes Sem Fio, espera-se que mantenha-se resultados similares em cenários distintos.
Como trabalhos futuros, pretende-se ampliar os estudos com outros algoritmos de
classificação, além da avaliação de outras métricas nesta comparação.
Referências
AIRCRACK. Aircrack-ng. Disponível em: <http://www.aircrack-ng.org/>. Acesso
em: 19 fev. 2014.
AKYILDIZ, Ian; WANG, Xudong; WANG, Weilin. Wireless mesh networks: a
survey. Computer Networks, v. 47, n. 4, p. 445–487, 15 mar. 2005.
ARAUJO, Nelcileno Vergilio de Souza et al. Identifying important characteristics in
the KDD99 intrusion detection dataset by feature selection using a hybrid approach. 2010,
[S.l.]: IEEE, 2010. p. 552–558.
ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR ISO/IEC 27001:
Tecnologia da informação - Técnicas de segurança - Sistema de gestão de segurança da
informação - Requisitos. . São Paulo: ABNT. , 2006
BAIG, Nadeem et al. Intrusion Detection in Wireless Networks Using Selected
Features. (IJCSIT) International Journal of Computer Science and Information Technologies,
v. 2, p. 1887–1893, 2011.
CENTRO DE ESTUDOS RESPOSTA E TRATAMENTO DE INCIDENTES DE
SEGURANÇA NO BRASIL. Estatísticas do CERT.br -- Incidentes. Disponível em:
<http://www.cert.br/stats/incidentes/>. Acesso em: 18 fev. 2014.
Página 62
COHEN, Jacob. A Coefficient of Agreement for Nominal Scales. Educational and
Psychological Measurement, v. 20, n. 1, p. 37–46, 1 abr. 1960. Disponível em:
<http://epm.sagepub.com/cgi/doi/10.1177/001316446002000104>. Acesso em: 24 fev. 2014.
COMBS,
Gerald.
Wireshark
·
Go
<http://www.wireshark.org/>. Acesso em: 19 fev. 2014.
Deep.
Disponível
em:
CORCHADO, Emilio; HERRERO, Álvaro. Neural visualization of network traffic
data for intrusion detection. Applied Soft Computing, v. 11, n. 2, p. 2042–2056, mar. 2011.
GARCÍA-TEODORO, Pedro et al. Anomaly-based network intrusion detection:
Techniques, systems and challenges. Computers & Security, v. 28, n. 1-2, p. 18–28, fev. 2009.
GOYAL, Mayank Kumar; AGGARWAL, Alok; JAIN, Neelam. Effect of change in
rate of genetic algorithm operator on composition of signatures for misuse intrusion detection
system. dez. 2012, [S.l.]: IEEE, dez. 2012. p. 669–672.
HALL, Mark et al. The WEKA data mining software. ACM SIGKDD Explorations
Newsletter, v. 11, n. 1, p. 10, 16 nov. 2009.
KANDEEBAN, Selvakani; RAJESH, Ransing. A Genetic Algorithm Based
elucidation for improving Intrusion Detection through condensed feature set by KDD 99 data
set. Information and Knowledge Management, v. 1, n. 1, p. 1–9, 2001.
KUMAR, Vipin; CHAUHAN, Himadri; PANWAR, Dheeraj. “K-Means Clustering
Approach to Analyze NSL-KDD Intrusion Detection Dataset. International Journal of Soft
Computing and Engineering (IJSCE), v. 3, n. 4, 2013.
MOHANABHARATHI, R; KALAIKUMARAN, M T; SUBBURATHINAM,
Karthik. Feature Selection for Wireless Intrusion Detection System Using Filter and Wrapper
Model. International Journal of Modern Engineering Research (IJMER), v. 2, n. 4, p. 1552–
1556, 2012.
MUDA, Z. et al. Intrusion detection based on K-Means clustering and Naïve Bayes
classification. jul. 2011, [S.l.]: IEEE, jul. 2011. p. 1–6.
NAGLE, Manish Kumar; CHATURVEDI, Setu Kumar. Feature Extraction Based
Classification Technique for Intrusion Detection System. Internation Jornal of Engineering
Research and Development, v. 8, n. 2, p. 23–38, 2013.
OM, Hari; KUNDU, Aritra. A hybrid system for reducing the false alarm rate of
anomaly intrusion detection system. mar. 2012, [S.l.]: IEEE, mar. 2012. p. 131–136.
SAZZADUL HOQUE, Mohammad. An Implementation of Intrusion Detection
System Using Genetic Algorithm. International Journal of Network Security & Its
Applications, v. 4, n. 2, p. 109–120, 31 mar. 2012.
SHARMA, Sanjay Kumar et al. An improved network intrusion detection technique
based on k-means clustering via Naive bayes classification. 2012, Nagapattinam, Tamil Nadu,
India: IEEE, 2012. p. 417–422.
Página 63
SHIRAVI, Ali et al. Toward developing a systematic approach to generate
benchmark datasets for intrusion detection. Computers & Security, v. 31, n. 3, p. 357–374,
maio 2012.
SMITH, PA. Autocorrelation in logistic regression modelling of species’
distributions. Global ecology and biogeography letters, v. 4, n. 2, p. 47–61, 1994.
TAVALLAEE, Mahbod; STAKHANOVA, Natalia; GHORBANI, Ali Akbar.
Toward Credible Evaluation of Anomaly-Based Intrusion-Detection Methods. IEEE
Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), v. 40, n.
5, p. 516–524, 1 set. 2010.
WILLMOTT, Cort; MATSUURA, Kenji. Advantages of the mean absolute error
(MAE) over the root mean square error (RMSE) in assessing average model performance.
Climate Research, v. 30, n. 1, p. 79–82, 2005.
WU, Shelly Xiaonan; BANZHAF, Wolfgang. The use of computational intelligence
in intrusion detection systems: A review. Applied Soft Computing, v. 10, n. 1, p. 1–35, jan.
2010.
ZHONG, Shao Hong; HUANG, Hua Jun; CHEN, Ai Bin. An Effective Intrusion
Detection Model Based on Random Forest and Neural Networks. Advanced Materials
Research, v. 267, p. 308–313, 30 jun. 2011.
Página 64