utilização do coeficiente kappa para avaliar algoritmos de
Transcrição
utilização do coeficiente kappa para avaliar algoritmos de
UTILIZAÇÃO DO COEFICIENTE KAPPA PARA AVALIAR ALGORITMOS DE CLASSIFICAÇÃO PARA USO EM SISTEMAS DE DETECÇÃO DE INTRUSOS EM REDES SEM FIO Ed´ Wilson Tavares Ferreira Pósdoutorando da UNESP, Campus Ilha Solteira Ailton Akira Shinoda Prof. Doutor da UNESP, Campus Ilha Solteira Resumo O presente artigo resulta da pesquisa que investigou segurança em redes sem fio e o objetivo proposto é avaliar três algoritmos de classificação: IBk, J48 e MLP, geralmente utilizados em Sistemas de Detecção de Intrusão em redes sem fio de computadores. Os procedimentos metodológicos executados envolveram a criação de um conjunto de dados de auditoria, oriundos da captura dos quadros na camada MAC, além disso, foram executados diversos ataques nesta rede, portanto o conjunto possui tráfego normal e tráfego oriundo de ataques. Os resultados obtidos demonstram que o conjunto de dados pode ser empregado para classificação de algoritmos e também que o Coeficiente Kappa é um bom indicador para realizar a comparação. Palavras-chave: Sistema de Detecção de Intrusão. Segurança em Redes Sem Fio. Coeficiente Kappa. Introdução Nos últimos anos houve aumento considerável de pessoas que empregam dispositivos móveis, como celulares e tablets, para acessar a Internet. Na prática tais dispositivos tornam-se complementar ao uso do computador para o mesmo fim. Estes equipamentos geralmente são equipados com interfaces de rede sem fio, baseada na família de padrões IEEE 802.11. Com o crescimento do número de usuários de Internet e a facilidade na aquisição de produtos e serviços na rede, também aumentou a quantidade de operações financeiras realizadas através dos sistemas bancários e comércio eletrônico. Este incremento despertou o interesse de atacantes, que perceberam a grande oportunidade para aplicar golpes. No Brasil, o Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança (CERT.br) registrou 352.925 notificações de incidentes de segurança no ano de 2013, representando queda de 24%, quando comparado ao ano anterior. Conforme mostrado na Página 54 Figura 1, percebe-se que desde 1999, o número de registros de incidentes apresentou aumento expressivo, mesmo com quedas nos anos 2010 e 2013. As estatísticas contabilizam diversos tipos de incidentes (tentativas de fraudes, ataques de força bruta em servidores SSH e de conteúdo, entre outras). Porém, não é possível concluir se realmente ocorreu redução de ataques ou se houve diminuição do número de comunicações de incidentes. Figura 1 – Número de incidentes reportados ao CERT.br Fonte: (CENTRO DE ESTUDOS RESPOSTA E TRATAMENTO DE INCIDENTES DE SEGURANÇA NO BRASIL, 2014) A segurança da informação possui três pilares fundamentais, representados pela tríade: confidencialidade, integridade e disponibilidade (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2006). Uma ação maléfica que pode afetar um sistema é caracterizada por uma intrusão. O Sistema de Detecção de Intrusão (Intrusion Detection System - IDS) deve ser capaz de detectar a ação, porém sem comprometer seu funcionamento ou utilizar os recursos computacionais em demasia. O IDS é portanto uma ferramenta de segurança que, com outras medidas, a exemplos de firewall e antivírus, destina-se a reforçar a segurança da informação (GARCÍA-TEODORO et al., 2009). Devido à natureza intrínseca da comunicação de dados sem fio, a rede está sujeita a muitos tipos de ataques. Diversas extensões foram implementadas no padrão IEEE 802.11 (como as ementas IEEE 802.11i e IEEE 802.11w) com objetivo de reduzir ou sanar tais deficiências, porém ainda insuficientes (BAIG et al., 2011). Com objetivo de elevar o nível de segurança nestas redes, diferentes propostas têm sido apresentadas para IDS, a exemplo das abordagens sugeridas por (AKYILDIZ; WANG; WANG, 2005; BAIG et al., 2011; MOHANABHARATHI; KALAIKUMARAN; SUBBURATHINAM, 2012), porém com a diversidade de topologias e números de usuários, além de outras características que podem Página 55 interferir na transmissão das ondas de rádio, a tarefa de comparação e avaliação destes IDS torna-se demasiadamente complexa. Os cenários heterogêneos de redes sem fio tornam complexa a justa avaliação entre as diversas propostas de IDS. Então para comparar as abordagens de implementação de IDS, pode-se utilizar um conjunto de dados , que representam o funcionamento de uma rede sem fio. Com esta técnica, todos os IDS podem ser experimentados no mesmo cenário. Uma base muito conhecida e utilizada para redes cabeadas é a KDD 99 (ARAUJO et al., 2010), porém o mesmo não acontece em redes sem fio (SHIRAVI et al., 2012). Assim, o objetivo deste artigo é apresentar a metodologia empregada na construção de um conjunto de dados representativos de uma rede sem fio bem como a avaliação deste conjunto de dados através do emprego de três algoritmos de classificação: IBk, J48 e MLP, geralmente utilizados em implementação de IDS. Este artigo está organizado da seguinte maneira: na Fundamentação Teórica são apresentados os principais conceitos acerca da temática proposta que embasou a pesquisa, além dos trabalhos relacionados. Na seção Metodologia são apresentados os procedimentos empregados no desenvolvimento desta investigação. A avaliação dos resultados é apresentada na seção Resultados e Discussões, e finalmente na sequência, são apresentados as Considerações Finais. Fundamentação Teórica Conforme o enfoque adotada para detectar atividades suspeitas, os IDS podem ser classificados em duas categorias: detecção por anomalias e por abuso (ou assinatura). A primeira consiste em metodologias que procuram determinar variações nas atividades em relação a um padrão de comportamento, enquanto a segunda consiste em procurar por padrões de ataques conhecidos nos dados de auditoria. Comparando-se as duas categorias, a desvantagem da primeira refere-se ao alto número de falso-positivos, e da segunda é a necessidade de conhecimento prévio dos ataques. Com relação às vantagens, a primeira categoria pode detectar ataques não conhecidos previamente ou novos ataques, enquanto que a segunda categoria exige baixo poder de processamento na detecção. Para realizar a comparação entre IDS pode-se utilizar um conjunto de dados de auditoria, que geralmente são construídos a partir da captura do tráfego em determinada rede e, em alguns casos, também possuem dados oriundos de simulação. O conjunto de dados utilizados na avaliação desempenha um importante papel na validação dos métodos Página 56 empregados nas propostas de IDS. A qualidade dos dados permite julgar a abordagem proposta e a eficácia no ambiente utilizado. Porém, devido à falta de melhores conjuntos de dados, boa parte das pesquisas de detecção de intrusão faz o uso de dados simulados (SHIRAVI et al., 2012). A variedade de métodos e técnicas de classificação e reconhecimento de padrões introduziram novas capacidades na detecção de intrusão. Muitas destas técnicas foram exploradas e tornou-se possível obter altas taxas de detecção, com baixa taxa de falsos positivos. Enquanto estas variedades de técnicas foram propostas e empregadas, a adequada comparação entre estes métodos e suas deficiências tem sido muito difícil, como detalhado em (TAVALLAEE; STAKHANOVA; GHORBANI, 2010). Um fator importante na avaliação de propostas de IDS é a construção do cenário idêntico, para ser empregado na avaliação das abordagens sugeridas para implementação de IDS em redes sem fio. Assim, surge a dificuldade para recriar os perfis de usuários, topologia da rede e itens que podem intervir na comunicação (interferência de canais, obstáculos, número de usuários, entre outros). De maneira geral, as propostas para detecção de intrusão são direcionadas para redes cabeadas, com o emprego de diversos mecanismos de classificação, a exemplo de redes neurais artificiais (CORCHADO; HERRERO, 2011; WU; BANZHAF, 2010; ZHONG; HUANG; CHEN, 2011), clusterização (KUMAR; CHAUHAN; PANWAR, 2013; MUDA et al., 2011; SHARMA et al., 2012) e algoritmos genéticos (GOYAL; AGGARWAL; JAIN, 2012; KANDEEBAN; RAJESH, 2001; SAZZADUL HOQUE, 2012). Uma abordagem híbrida, com o uso de classificados k-means e MLP (multilayer perceptron) foi apresentada por (MOHANABHARATHI; KALAIKUMARAN; SUBBURATHINAM, 2012). Esta proposta emprega dados da camada MAC, e de camadas superiores, para detecção de intrusão em redes sem fio. Nesta proposta foi empregada a seleção de atributos através da métrica do ganho da informação, com os classificados kmeans, enquanto que as redes neurais, implementadas com MLP, são utilizadas para classificação e reconhecimento dos ataques. Para avaliar a base de dados criada, forma escolhidos três algoritmos de classificação: IBk, J48 e MLP. E para avaliar tais algoritmos, foram escolhidos três métricas de medidas de erro: Erro Médio Absoluto, Erro Quadrático Médio e o Coeficiente Kappa, estas métricas são relativamente simples de serem implementadas e não ocasionam processamento excessivo nos computadores utilizados. O Erro Médio Absoluto (Mean Absolute Error – MAE) é definido como a média da Página 57 diferença entre os valores reais e os valores calculados, como apresentado na Equação 1, onde n representa o número de termos, xi o valor real do i-ésimo termo, e x´i o valor calculado do i-ésimo termo. Os valores mais próximos de zero indicam que ocorreu melhor classificação. 𝑀𝐴𝐸 = ! !!!(𝑥! − 𝑥´! ) (1) 𝑛 Enquanto que o Erro Quadrático Médio (Root Mean Squared Error – RMSE) é a média do quadrado do erro, como apresentado na Equação 2, onde n representa o número de termos, xi o valor real do i-ésimo termo, e x´i o valor calculado do i-ésimo termo. O valor MAE mínimo nem sempre indica uma variação mínima, por isso, o emprego em conjunto com o RMSE torna-se interessante (WILLMOTT; MATSUURA, 2005). 𝑀𝐴𝐸 = (2) ! !!!(𝑥! − 𝑥´! )! 𝑛 O coeficiente Kappa é uma métrica de concordância induzida, que foi usada inicialmente entre observadores na área de psicologia (COHEN, 1960). Esta métrica mede o grau de aceitação ou de respostas concordantes entre diversos juízes. É empregado utilizando a proporção entre a concordância observada (Po) e a concordância devida ao acaso (Pa), representados na Equação 3. 𝑘= 𝑃𝑜 − 𝑃𝑎 1 − 𝑃𝑎 (3) O valor unitário indica que a classificação foi totalmente correta, enquanto que o valor do coeficiente nulo, indica que a classificação ocorreu ao mero acaso, portanto valores próximos de um confirmam que foram empregados os melhores classificadores. A avaliação dos conjuntos de dados de auditoria foi executada com implementação dos algoritmos IBk, J48 e MLP. Estes classificadores foram escolhidos por serem bastante utilizados em diversos IDS. O algoritmo IBk é uma implementação do método de clusterização kNN (k-nearest neighbor), técnica utilizada para classificação e regressão, que consiste encontrar vizinhos mais próximos de uma data instância. No caso do IBk, utiliza-se os três vizinhos mais Página 58 próximos do padrão de consulta. Esta é uma técnica relativamente simples, porém também tem sido utilizada em propostas de IDS (OM; KUNDU, 2012). O J48 é um algoritmo baseado em classificadores de árvores de decisão. Para classificar um novo item, primeiro é necessário criar uma árvore de decisão de acordo com valores de atributos obtidos a partir dos dados de treinamento. Esta técnica também é utilizada para calcular o ganho de informação de cada atributo e assim otimizar o mecanismo de classificação nos IDS (NAGLE; CHATURVEDI, 2013). O MLP é uma rede neural artificial que mapeia com conjunto de entradas para sua apropriada saída, consiste de várias camadas de nós em um gráfico direcionado. Seu emprego em IDS tem gerado diversas propostas de implementação (ZHONG; HUANG; CHEN, 2011). Metodologia Para realizar a comparação entre as propostas dos mecanismos de classificação para IDS, os dados de autoria foram obtidos através da captura de quadros de uma rede real, que emprega criptografia WPA2, instalada no Campus Cuiabá Bela Vista do Instituto Federal do Mato Grosso (IFMT), cuja topologia é apresentada na Figura 2. Figura 2 – Topologia da Rede Estação Atacante Cliente 2 Ponto de A cesso Estação de Monitoramento Ponto de A cesso Cliente 3 Cliente 1 Estação Atacante Switch Servidor Radius Internet Fonte: Elaborado pelo autor. A rede possui várias clientes, dois pontos de acesso (AP) e um servidor RADIUS que é utilizado para autenticação de usuários. Três estações (Cliente 1, Cliente 2 e Cliente 3) sem fio foram usadas para gerar tráfego normal, com aplicações web (HTTP e FTP). Uma estação Página 59 atacante foi configurada para gerar ataques com o emprego do software Airplay (AIRCRACK, 2014). Enquanto que uma estação de monitoramento foi configurada para realizar a captura de todo o tráfego na rede, através do software Wireshark (COMBS, 1998). Os ataques empregados neste cenários são comuns em redes sem fio: deautenticação, autenticação falsa, AP falso e inundação (synflooding). O primeiro ataque ocorre quando o atacante gera quadros falso em broadcast com comando para a estação se descontar da rede. A autenticação falsa injeta quadros na rede, com o objetivo de incluir uma estação que não é um cliente autêntico da rede, através da captura de quadros que possuem Vetores de Inicialização. O ataque de AP Falso cria um ponto de acesso que não é legítimo na rede, enquanto que o ataque de inundação tem objetivo de gerar quadros em quantidade suficiente para paralisar equipamentos que não estão preparados para este tipo de carga. Todos os quadros capturados foram pré-processados e gravados no conjunto de dados de auditoria. Foram utilizados os campos da camada MAC: protocol version, type, subtype, to DS, from DS, more fragment, retry, power management, more data, WEP, order, duration, address1, address2, address3 e sequence control. Neste conjunto de dados de auditoria também foi incluído uma coluna que indica o tipo de tráfego: normal ou o nome do ataque. Com o emprego desta coluna é possível avaliar a eficiência dos classificadores estudados. A metodologia de organização dos dados coletados neste experimento segue a proposta de divisão de dados holdout (SMITH, 1994), com a distribuição do espaço amostral dos registros numa proporção de 75% e 25%, nas bases de treinamento e testes respectivamente. A quantidade de registros é apresentada na Tabela 1. Tabela 1 - Distribuição do Conjunto de Dados Tipo Treinamento Normal Teste 4500 1500 Deautenticação 750 250 Autenticação Falsa 750 250 AP Falso 750 250 Synflooding 750 250 7500 2500 Total de Amostras Fonte: Elaborado pelo autor. Página 60 A avaliação dos classificadores, aplicados nos conjuntos de dados de auditoria, foi realizada com o uso do software Weka (HALL et al., 2009). Este software tem sido utilizado em diversos testes e assim tornou-se bom candidato para exames de protótipos. Como um dos objetivos é comparar os classificadores, não foi realizado nenhuma customização de parâmetros no Weka, assim execução do software foi efetuada com todos os valores default. O computador utilizado foi um Macbook Pro com processador de 2,4GHz Core i5 e equipado com 8GB de memória RAM com pentes DDR3 de 1600MHz e sistema operacional OS X versão 10.9.4. Resultados e Discussões O Erro Médio Absoluto e o Erro Quadrático Médio são indicadores que fornecem uma estimativa simples sobre a eficácia das técnicas de classificação empregadas na avalição de IDS. Seu uso é incipiente e outras métricas devem ser empregadas para melhorar tal comparação. Os valores dos erros médios absolutos e quadráticos, obtidos nesta pesquisa, são muito próximos quando comparados para cada método de classificação, conforme pode-se observar na Tabela 2. O indicador “Classificação Correta” apresenta o percentual dos dados de auditoria que foram identificados corretamente, conforme a classificação presente no conjunto de dados. Tabela 2 – Eficiência dos Algoritmos Avaliados Algoritmo Erro Médio Absoluto Erro Classificação Quadrático Correta (%) Médio Coeficiente Kappa IBk 0,0553 0,1820 90,88 0,8362 MLP 0,0473 0,1930 90,36 0,8271 J48 0,0610 0,1923 90,04 0,8213 Fonte: Elaborado pelo autor. Percebe-se que o Coeficiente Kappa sugere que o melhor resultado obtido foi com o emprego do algoritmo IBk, seguido pelo MLP e por último o J48, confirmando a contagem apresentada na Tabela 2, indicada pela coluna Classificação Correta, porém isso não ocorreu com os indicadores Erro Médio Absoluto e Erro Quadrático Médio. Página 61 Os indicadores dos Erro Médio Absoluto e Erro Quadrático Médio calcula a média das classificações indicadas pelos algoritmos e do tipo correto do tráfego. Portanto, trata-se de uma indicação média das falhas. Considerações Finais Os resultados obtidos demonstram que o emprego do Coeficiente Kappa é mais adequado do que uso dos indicadores de erro (erro médio absoluto e quadrático médio), quando empregados para avaliação de classificadores para IDS em redes sem fio. Foi possível verificar que entre os três algoritmos avaliados, o IBk apresentou melhor resultado de classificação, conforme indicado pelo Coeficiente Kappa e comprovado através da quantidade das classificações corretas. O coeficiente Kappa, como métrica de concordância, pode ser utilizado como métrica para comparação entre algoritmos de classificação. Mesmo o coeficiente Kappa sendo empregado em um cenário específico, relacionado à Sistema de Detecção de Intrusão em Redes Sem Fio, espera-se que mantenha-se resultados similares em cenários distintos. Como trabalhos futuros, pretende-se ampliar os estudos com outros algoritmos de classificação, além da avaliação de outras métricas nesta comparação. Referências AIRCRACK. Aircrack-ng. Disponível em: <http://www.aircrack-ng.org/>. Acesso em: 19 fev. 2014. AKYILDIZ, Ian; WANG, Xudong; WANG, Weilin. Wireless mesh networks: a survey. Computer Networks, v. 47, n. 4, p. 445–487, 15 mar. 2005. ARAUJO, Nelcileno Vergilio de Souza et al. Identifying important characteristics in the KDD99 intrusion detection dataset by feature selection using a hybrid approach. 2010, [S.l.]: IEEE, 2010. p. 552–558. ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR ISO/IEC 27001: Tecnologia da informação - Técnicas de segurança - Sistema de gestão de segurança da informação - Requisitos. . São Paulo: ABNT. , 2006 BAIG, Nadeem et al. Intrusion Detection in Wireless Networks Using Selected Features. (IJCSIT) International Journal of Computer Science and Information Technologies, v. 2, p. 1887–1893, 2011. CENTRO DE ESTUDOS RESPOSTA E TRATAMENTO DE INCIDENTES DE SEGURANÇA NO BRASIL. Estatísticas do CERT.br -- Incidentes. Disponível em: <http://www.cert.br/stats/incidentes/>. Acesso em: 18 fev. 2014. Página 62 COHEN, Jacob. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, v. 20, n. 1, p. 37–46, 1 abr. 1960. Disponível em: <http://epm.sagepub.com/cgi/doi/10.1177/001316446002000104>. Acesso em: 24 fev. 2014. COMBS, Gerald. Wireshark · Go <http://www.wireshark.org/>. Acesso em: 19 fev. 2014. Deep. Disponível em: CORCHADO, Emilio; HERRERO, Álvaro. Neural visualization of network traffic data for intrusion detection. Applied Soft Computing, v. 11, n. 2, p. 2042–2056, mar. 2011. GARCÍA-TEODORO, Pedro et al. Anomaly-based network intrusion detection: Techniques, systems and challenges. Computers & Security, v. 28, n. 1-2, p. 18–28, fev. 2009. GOYAL, Mayank Kumar; AGGARWAL, Alok; JAIN, Neelam. Effect of change in rate of genetic algorithm operator on composition of signatures for misuse intrusion detection system. dez. 2012, [S.l.]: IEEE, dez. 2012. p. 669–672. HALL, Mark et al. The WEKA data mining software. ACM SIGKDD Explorations Newsletter, v. 11, n. 1, p. 10, 16 nov. 2009. KANDEEBAN, Selvakani; RAJESH, Ransing. A Genetic Algorithm Based elucidation for improving Intrusion Detection through condensed feature set by KDD 99 data set. Information and Knowledge Management, v. 1, n. 1, p. 1–9, 2001. KUMAR, Vipin; CHAUHAN, Himadri; PANWAR, Dheeraj. “K-Means Clustering Approach to Analyze NSL-KDD Intrusion Detection Dataset. International Journal of Soft Computing and Engineering (IJSCE), v. 3, n. 4, 2013. MOHANABHARATHI, R; KALAIKUMARAN, M T; SUBBURATHINAM, Karthik. Feature Selection for Wireless Intrusion Detection System Using Filter and Wrapper Model. International Journal of Modern Engineering Research (IJMER), v. 2, n. 4, p. 1552– 1556, 2012. MUDA, Z. et al. Intrusion detection based on K-Means clustering and Naïve Bayes classification. jul. 2011, [S.l.]: IEEE, jul. 2011. p. 1–6. NAGLE, Manish Kumar; CHATURVEDI, Setu Kumar. Feature Extraction Based Classification Technique for Intrusion Detection System. Internation Jornal of Engineering Research and Development, v. 8, n. 2, p. 23–38, 2013. OM, Hari; KUNDU, Aritra. A hybrid system for reducing the false alarm rate of anomaly intrusion detection system. mar. 2012, [S.l.]: IEEE, mar. 2012. p. 131–136. SAZZADUL HOQUE, Mohammad. An Implementation of Intrusion Detection System Using Genetic Algorithm. International Journal of Network Security & Its Applications, v. 4, n. 2, p. 109–120, 31 mar. 2012. SHARMA, Sanjay Kumar et al. An improved network intrusion detection technique based on k-means clustering via Naive bayes classification. 2012, Nagapattinam, Tamil Nadu, India: IEEE, 2012. p. 417–422. Página 63 SHIRAVI, Ali et al. Toward developing a systematic approach to generate benchmark datasets for intrusion detection. Computers & Security, v. 31, n. 3, p. 357–374, maio 2012. SMITH, PA. Autocorrelation in logistic regression modelling of species’ distributions. Global ecology and biogeography letters, v. 4, n. 2, p. 47–61, 1994. TAVALLAEE, Mahbod; STAKHANOVA, Natalia; GHORBANI, Ali Akbar. Toward Credible Evaluation of Anomaly-Based Intrusion-Detection Methods. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), v. 40, n. 5, p. 516–524, 1 set. 2010. WILLMOTT, Cort; MATSUURA, Kenji. Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance. Climate Research, v. 30, n. 1, p. 79–82, 2005. WU, Shelly Xiaonan; BANZHAF, Wolfgang. The use of computational intelligence in intrusion detection systems: A review. Applied Soft Computing, v. 10, n. 1, p. 1–35, jan. 2010. ZHONG, Shao Hong; HUANG, Hua Jun; CHEN, Ai Bin. An Effective Intrusion Detection Model Based on Random Forest and Neural Networks. Advanced Materials Research, v. 267, p. 308–313, 30 jun. 2011. Página 64