Seleção de um Algoritmo para um Teste Adaptativo Informatizado

Сomentários

Transcrição

Seleção de um Algoritmo para um Teste Adaptativo Informatizado
 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Selecting a Computerized Adaptive Testing Algorithm for Classification purpose by Simulations Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM [email protected] Dalton Francisco de Andrade Doutorado em Biostatistics, UNC SYSTEM Professor Voluntário do Departamento de Engenharia de Produção e Sistemas, UFSC [email protected] Antonio Cezar Bornia Doutorado em Engenharia de Produção, UFSC Professor do Departamento de Engenharia de Produção e Sistemas, UFSC [email protected] Resumo O objetivo desse trabalho é selecionar um Algoritmo para um Teste Adaptativo Informatizado (TAI) proposto para a avaliação teórica do DETRAN‐SC para fins de classificação por meio de simulações. Vários testes com diferentes opções de critérios de seleção dos itens, definições da habilidade inicial e métodos de estimação da habilidade foram avaliados. O algoritmo selecionado utiliza o zero na escala (0;1) para a definição da habilidade inicial, o método da Máxima Informação para a seleção dos itens e o Método da Máxima Verossimilhança Ponderada para a estimação da habilidade. Palavras‐chave: Teste adaptativo informatizado. Teste para classificação. Simulações. Algoritmos. Abstract The aim of this paper is to select an Algorithm for Computerized Adaptive Test (CAT) proposed for the theoretical evaluation of the DETRAN‐SC for classification purposes by simulations. Several tests with different options for the items selection criteria, initial ability definitions and ability estimation methods were evaluated. The selected algorithm uses the zero on the scale (0, 1) for the initial ability definition, the Maximum Information method for items selection and the Weighted Maximum Likelihood Method to estimate the ability. Keywords: Computerized Adaptive Testing. Classification Test. Simulations. Algorithms. Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Introdução A avaliação teórica do DETRAN‐SC (Departamento Estadual de Trânsito de Santa Catarina) é realizada por meio da aplicação de um teste convencional do tipo “papel e lápis” (Kingsbury, 2002), que pode ser aplicado também na versão informatizada, constituído por 40 questões de múltipla escolha com quatro alternativas, sendo que apenas uma delas é correta. Para que o candidato seja aprovado no exame, ele deve responder corretamente pelo menos 70% das questões, ou seja, ele deve acertar a resposta de, no mínimo, 28 questões quaisquer da prova. A prova é elaborada com a seleção de 40 questões de um banco de itens existentes. Embora o indivíduo receba uma nota final baseada no escore, o objetivo é classificar o indivíduo em aprovado/reprovado, em relação à um determinado ponto de corte, o que caracteriza um teste do tipo “classificação”. O objetivo desse trabalho é selecionar um Algoritmo para um Teste Adaptativo Informatizado (TAI) proposto para a avaliação teórica do DETRAN‐SC para fins de classificação por meio de simulações. O objetivo de um TAI é apresentar itens ao indivíduo que sejam adequados ao seu nível de habilidade, o que fornece diversos benefícios na sua implementação (Van der Linden; Glas, 2000; 2010; Wainer, 2000). 1. Metodologia Os dados utilizados nesse estudo foram disponibilizados pelos DETRAN‐SC e pelo CIASC (Centro de Informática e Automação do Estado de Santa Catarina). A amostra se constituiu de 221.933 provas com 40 itens, respondidas por 178.828 candidatos (alguns fizeram a prova mais de uma vez), e aplicadas no ano de 2008, totalizando 462 itens distintos. O modelo escolhido para essa análise foi o ML3, que permite estimar o parâmetro de acerto casual. Para a utilização desse modelo, as respostas dos itens (categorias A, B, C e D) foram dicotomizadas em duas categorias: (1) correta e (0) incorreta. Itens administrados que não foram respondidos ou que tiveram mais de uma alternativa assinalada foram considerados como resposta incorreta. 58 III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Para verificar o pressuposto da unidimensionalidade, foi realizada uma análise fatorial baseada nas correlações tetracóricas. O resultado obtido mostrou que um único fator foi responsável por explicar 82,82% da variabilidade geral dos dados, sendo um forte indicativo para aceitar a suposição de unidimensionalidade nos dados. Todo o banco de itens foi calibrado simultaneamente numa única etapa, como se fosse uma única grande prova, utilizando‐se os itens em comum. Nesse estudo, os itens foram calibrados na escala (0, 1), ou seja, com média igual a zero e desvio padrão igual a um. Após o processo de calibração, removendo‐se os itens inadequados e os que possuam discriminação menor que 1, o banco final ficou constituído de 286 itens, onde 94,4% desses possuíam grau de dificuldade abaixo do valor médio da escala. Conforme Segall (1997), o ponto de corte deve preservar as taxas atuais de fluxo do teste convencional, ou seja, deve‐se manter a proporção de aprovados e reprovados. Dessa forma, procedeu‐se da seguinte maneira: (1) verificou‐se que a proporção de examinandos reprovados em 2008, segundo os dados obtidos, foi de 0,253548; (2) supondo que a habilidade provém de uma distribuição Normal Padrão, verificou‐se que o valor do eixo x que separa os 25,3548% dos casos mais baixos era ‐0,663; e (3) adotou‐se o valor ‐0,663 como ponto de corte na escala de proficiência, supondo que 25,3548% dos indivíduos na população devem ter habilidade inferior a esse valor. Foram simulados 10.000 respondentes com base na distribuição Normal Padrão. Foi considerada uma taxa máxima de exposição dos itens de 0,20 e o critério de parada utilizado foi um intervalo de 95,4% de confiança (default do CATSim) fora do ponto de corte e no máximo 40 itens administrados. Os algoritmos foram comparados em termos de:  Nível de habilidade inicial: o Mediano igual a zero, o Valor aleatório ente ‐1 e 1. 
Método de seleção dos itens: o Método da Máxima Informação Pura (MI) o Máxima Informação Modificado I (MIMI): Seleciona aleatoriamente 5 itens com máxima informação dentre os primeiros 5 itens do teste. o Máxima Informação Modificado II (MIMII): Seleciona aleatoriamente 10 itens com máxima informação dentre os primeiros 10 itens do teste o Método da Máxima Informação no Ponto de Corte (MIPC): Essa opção pode ser útil nos testes com o objetivo de classificação, onde o item selecionado maximiza a informação no ponto de corte (SPRAY; RECKASE, 1994; 1996) III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 59 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia 
Método de Estimação da habilidade o Máxima Verossimilhança (MV) c/ passo = 1: é o tamanho do passo, na escala de dificuldade, para a seleção do próximo item. o Máxima Verossimilhança (MV) c/ estimação inicial EAP com priori com média 0 e desvio padrão 1. o Máxima Verossimilhança (MV) c/ estimação inicial MAP com priori com média 0 e desvio padrão 1. o Bayesianos da Esperança a Posteriori (EAP) com priori com média 0 e desvio padrão 1. o Bayesiano da Moda a Posteriori (MAP) com priori com média 0 e desvio padrão 1. o Máxima Verossimilhança Ponderada (MVP). Os critérios utilizados para a análise da precisão e da validade dos testes foram: o erro padrão médio (EPM), a raiz quadrada do erro quadrado médio (RQEQM), o desvio empírico médio (DEM), a eficiência (EF) e a correlação linear (CL), conforme Muñiz e Hambleton (1999). Também serão utilizados os seguintes critérios: 
Ap/Ap: Percentual de aprovados que o teste classificou como aprovados. 
Re/Re: Percentual de reprovados que o teste classificou como reprovados. 
Ap/Re: Percentual de aprovados que o teste classificou como reprovados . 
Re/AP: Percentual de reprovados que o teste classificou como aprovados Nesse estudo, foram utilizados os softwares TESTFACT (Bock et al., 2003) para a análise da dimensionalidade, BILOG‐MG (Toit, 2003) para a calibração dos itens (fase 2 do Software), e CATSim (Weiss; Guyer, 2010) para as simulações das respostas e aplicação dos algoritmos dos TAIs. 2. Resultados e comentários Como o número de combinações a serem testadas era muito grande, primeiramente, comparou‐se os dois critérios para a seleção dos itens iniciais, mantendo fixo o Método de seleção dos itens da Máxima Informação pura (MI) e o Método de Estimação da habilidade da Máxima Verossimilhança (MV) c/ passo igual a 1. Foram denominados: 60 III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações 
Teste 1: Utiliza critério mediano igual a zero 
Teste 2: Utiliza um valor aleatório ente ‐1 e 1. As Tabelas 1 e 2 fornecem os resultados dos critérios de avaliação. Tabela 1: Desempenho dos Testes TESTE Teste 1 Teste 2 EPM 0,6080 0,6113 RQEQM 0,7447 0,7712 DEM 0,2318 0,2104 EF 20,1056 19,9101 CL 0,8207 0,8171 Tabela 2: Percentual de acerto e erro na classificação TESTE Teste 1 Teste 2 Acerto 92,45 91,89 Ap/Ap 94,63 94,26 Re/Re 85,81 84,67 Erro 7,55 8,11 Ap/Re 5,37 5,74 Re/Ap 14,19 15,33 Observa‐se que o Teste 1 possui um desempenho superior em relação ao critérios EPM, RQEQM, CL e a todos os critérios da Tabela 2. Dessa forma, Optou‐se por fixar a utilização do critério mediano igual a zero como método de seleção inicial dos itens nas demais simulações. Seguindo‐se a análise, comparou‐se os quatro Método de seleção dos itens, mantendo fixo o Método de Estimação da habilidade da Máxima Verossimilhança (MV) c/ passo igual a 1. Foram denominados: 
Teste 1 (já simulado anteriormente): Utiliza o Método da Máxima Informação Pura (MI) 
Teste 3: utiliza o Método da Máxima Informação Modificado I (MIMI). 
Teste 4: utiliza o Método da Máxima Informação Modificado II (MIMII). 
Teste 5: utiliza o Método da Máxima Informação no Ponto de Corte (MIPC). As Tabelas 3 e 4 fornecem os resultados dos critérios de avaliação. Tabela 3: Desempenho dos Testes TESTE Teste 1 Teste 3 Teste 4 Teste 5 EPM 0,6080 0,6094 0,6123 0,6007 RQEQM 0,7447 0,7669 0,7781 0,6819 DEM 0,2318 0,2131 0,2192 0,1081 EF 20,1056 19,8947 20,0827 28,7146 CL 0,8207 0,8112 0,8176 0,8486 III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 61 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Tabela 4: Percentual de acerto e erro na classificação TESTE Teste 1 Teste 3 Teste 4 Teste 5 Acerto 92,45 92,09 92,26 92,42 Ap/Ap 94,63 94,57 94,62 94,27 Re/Re 85,81 84,55 85,08 86,78 Erro 7,55 7,91 7,74 7,58 Ap/Re 5,37 5,43 5,38 5,73 Re/Ap 14,19 15,45 14,92 13,22 Observa‐se que o Teste 5 teve o pior desempenho entre todos o teste, já que a quantidade média de itens aplicado (EF) foi quase 50% superior do que nos demais. Naturalmente, essa quantidade maior de itens aplicados forneceu resultados ligeiramente melhores que os demais testes quanto ao EPM, a RQEQM, o DEM e a CL e a alguns percentuais. Isso significa que o critério utilizado para a seleção dos itens que maximiza a informação no ponto de corte não teve um bom desempenho e, portanto, não será considerado nas demais simulações. Os demais testes tiveram desempenho muito parecido, ou seja, a utilização dos métodos de seleção dos itens MIMI e MIMII não produziram resultados consideravelmente melhores do que o teste que utiliza a MI. Dessa forma, optou‐se por optou‐se por não considerar os métodos MI modificados nas próximas simulações. Seguindo‐se a análise, comparou‐se os seis Método de estimação da habilidade. Foram denominados: 
Teste 6: utiliza a Máxima Verossimilhança (MV) c/ passo = 1. 
Teste 7: utiliza a Máxima Verossimilhança (MV) c/ estimação inicial EAP. 
Teste 8: utiliza a Máxima Verossimilhança (MV) c/ estimação inicial MAP. 
Teste 9: utiliza a Esperança a Posteriori (EAP). 
Teste 10: utiliza a Moda a Posteriori (MAP). 
Teste 11: utiliza a Máxima Verossimilhança Ponderada (MVP). As Tabelas 5 e 6 fornecem os resultados dos critérios de avaliação. Tabela 5: Desempenho dos Testes TESTE Teste 6 Teste 7 Teste 8 Teste 9 Teste 10 Teste 11 RQEQM 0,7209 0,5490 0,5424 0,4794 0,4795 0,6498 DEM 0,1647 0,0290 0,0156 0,0194 ‐0,0093 0,0606 EF 21,0787 19,4205 19,4090 19,6717 19,5231 19,9361 62 EPM 0,6079 0,5318 0,5195 0,4783 0,4651 0,5563 III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 CL 0,8273 0,8344 0,8318 0,8505 0,8497 0,8242 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Tabela 6: Percentual de acerto e erro na classificação TESTE Teste 6 Teste 7 Teste 8 Teste 9 Teste 10 Teste 11 Acerto 91,74 91,81 92,05 92,49 92,81 91,93 Ap/Ap1 94,38 94,15 94,53 96,23 96,21 93,76 Re/Re2 83,70 84,67 84,51 81,12 82,45 86,37 Erro 8,26 8,19 7,95 7,51 7,19 8,07 Ap/Re3 5,62 5,85 5,47 3,77 3,79 6,24 Re/Ap4 16,30 15,33 15,49 18,88 17,55 13,63 As principais características em um teste de classificação são a eficiência (terminar o teste com menor quantidade de itens aplicados) e a proporção de acertos (ter uma alta proporção de acertos na classificação). Dentro do contexto do DETRAN‐SC, a situação que parece mais grave seria aprovar um candidato que deveria ter sido reprovado, ou seja, habilitar um motorista que ainda não está preparado para dirigir. Dessa forma, em relação aos demais métodos, os procedimentos bayesianos parecem ser menos adequados por aprovar uma quantidade maior de candidatos que deveriam ter sido reprovados. Dentre os testes restantes, aquele que utiliza o procedimento MVP, parece o mais adequado, considerando esse critério. Dessa forma, o algoritmo selecionado foi o do Teste 11, cuja configuração é: 
Modelo de Resposta ao item: ML3 
Nível de habilidade Inicial: Mediano igual a zero na escala (0;1) 
Método de Seleção dos itens: Máxima Informação 
Método de Estimação da habilidade: MVP 
Restrições: Taxa de exposição de 0,20 
Critério de parada: Intervalo de 95,4% de Confiança fora do ponto de corte com no máximo 40 itens administrados. Conclusões Diferentes configurações de algoritmos de de testes adaptativos foram avaliados. Os resultados permitiram selecionar um algoritmo que obteve o melhor desempenho entre os testes avaliados, em geral. Esse algoritmo utiliza o zero na escala (0;1) para a definição da habilidade inicial, o método da Máxima Informação para a seleção dos itens e o Método da Máxima Verossimilhança Ponderada para a estimação da habilidade. III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 63 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Agradecimentos Ao DETRAN‐SC (Departamento Estadual de Trânsito de Santa Catarina), pela autorização na utilização do banco de dados de 2008. Ao CIASC-SC (Centro de Informática e Automação do Estado de Santa Catarina), pela
compilação do banco de dados com as informações necessárias para esse estudo.
Referências Bock, R.; Gibbons, R.; Schilling, S.; Muraki, E. W.; Wood, R., (2003) TESTFACT 4 (Computer software). Lincolnwood, IL: Scientific Software International. Kingsbury, G. G. (2002) An Empirical Comparison of Achievement Level Estimates from Adaptive Tests and Paper‐and‐Pencil Tests. American Educational Research Association annual meeting. New Orleans, LA, USA. Muñiz, J.; Hambleton, R. (1999) Evaluación psicométrica de los tests informatizados. In: Olea, J.; Ponsoda, V.; Prieto, G. (Eds.). Tests informatizados: Fundamentos y aplicaciones. Madrid: Pirámide, p. 23‐52. Segall, D. O. (1997) Equating the CAT–ASVAB. In: Sands, W. A; Waters, B. K.; MCBRIDE, J. R. (Eds.). Computerized adaptive testing: From inquiry to operation (pp. 181–198). Washington, DC, USA: American Psychological Association. Toit, M. (2003) IRT from SSI: BILOG‐MG, MULTILOG, PARSCALE, TESTFACT. Scientific Software International. Van Der Linden, W. J.; Glas, C. A. W. (2000) Computerized Adaptive Testing: Theory and Practice. Dordrecht, Netherlands: Kluwer Academic, 2000. Van Der Linden, W. J.; Glas, C. A. W. (2010) Elements of Adaptive Testing. Statistical for Social and Behavioral Sciences. New York: Springer Science+Business Media, LLC. Wainer, H. (2000) Computerized Adaptive Testing: A Primer. New Jersey: Lawrence Erlbaum Associates. Weiss, D. J.; Guyer, R. (2010) Manual for CATSim: Comprehensive simulation of computerized adaptive testing. St. Paul MN: Assessment Systems Corporation. Recebido em: 03/11/2013 Avaliado em: 25/11/2014 64 III CONBRATRI ‐ Congresso Brasileiro de Teoria da Resposta ao ITEM Anais ‐ Nº 1, ano 2013, p. 57‐64 

Documentos relacionados