Piecewise Loadings - XIX congresso da Sociedade Portuguesa de

Transcrição

XIX Congresso Anual
Sociedade Portuguesa de Estatı́stica
SPE 2011 – Programa e Resumos
Nazaré, 28 de Setembro a 1 de Outubro
Tı́tulo: SPE 2011 - Programa e Resumos
Editora: Sociedade Portuguesa de Estatı́stica
Concepção Gráfica da Capa: Instituto Nacional de Estatı́stica
Produção Gráfica e Impressão: Instituto Nacional de Estatı́stica
Tiragem: 300 Exemplares
ISBN: 978-972-8890-24-7
Depósito Legal: 333630/11
Presidente do Congresso
• Carlos A. Braumann (UÉvora)
Comissão Cientı́fica
• António Pacheco (IST, UTL)
• António St. Aubyn (ISA, UTL)
• Carlos A. Braumann (UÉvora)
• Carlos Tenreiro (UCoimbra)
• M. Ivette Gomes (FCUL)
Mini-Curso
• M. Salomé Cabral (FCUL)
• M. Helena Gonçalves (UAlgarve)
Comissão Organizadora
• Alexandra Seco (ESTG, IPLeiria)
• António Pacheco (IST, UTL)
• Helena Ribeiro (ESTG, IPLeiria)
• M. Rosário de Oliveira (IST, UTL)
• Miguel Felgueiras (ESTG, IPLeiria)
• Rui Santos (ESTG, IPLeiria)
Mensagem do Presidente do Congresso
Caros Congressistas da SPE 2011,
Termina dentro de meses este segundo mandato como Presidente da Sociedade Portuguesa
de Estatı́stica, que tive a honra de servir nas mais variadas formas e funções, desde a de
sócio empenhado, que sempre fui desde a fundação, à de Presidente. Nesta função contei
com o apoio inestimável da Direcção que me acompanhou e da Assembleia Geral e Conselho Fiscal, amigos e companheiros desta jornada de 6 anos sem os quais os importantes
progressos conseguidos não teriam sido possı́veis. Como não teriam sido possı́veis sem a
colaboração de tantos e tantos sócios em diversas Comissões, organização de actividades e
participação na vida da Sociedade.
E que melhor forma de coroar esta etapa do que a de presidir a este XIX Congresso Anual
da Sociedade Portuguesa de Estatı́stica, na companhia de colegas e amigos, na Nazaré do
mar, dos pescadores, das sete saias, de gente indómita, sofrida e alegre, das lendas e mitos
e, hoje, também, a capital da Estatı́stica em Portugal. Nesta nossa festa anual, em que cocelebramos as nossas realizações em prol da Estatı́stica e suas aplicações, devemos estar
gratos à Comissão Organizadora e ao Instituto Superior Técnico e ao Instituto Politécnico
de Leiria por terem ajudado a pôr de pé este grande evento, com uma palavra muito especial
aos nossos colegas António Pacheco Pires e Alexandra Seco pelo trabalho de coordenação.
Naturalmente, a Comissão Cientı́fica, as instituições parceiras e os patrocinadores tiveram
um papel relevante no sucesso desta iniciativa, que muito se agradece. Mas o seu sucesso
deve-se principalmente a si, caro convidado, autor ou participante.
Neste momento em que se avizinha o regresso à condição de militante de base, desejado
mas nem por isso menos nostálgico, estou certo de interpretar o sentimento dos restantes
membros dos órgãos sociais ao agradecer aos sócios da SPE esta oportunidade e honra que
nos deram de a podermos servir de uma forma mais intensa. O que, em conjunto com os
sócios, conseguimos fazer muito deve aos membros dos órgãos sociais que nos precederam e sobre cujas realizações assentámos o nosso trabalho. Por iniciativa da Direcção e o
apoio da Comissão Organizadora e da Comissão Cientı́fica, quisemos prestar-lhes uma singela homenagem através das pessoas dos anteriores Presidentes da SPE, Fernando Rosado,
Ivette Gomes e João Branco, que se reformaram neste último ano e que convidámos para
proferir conferências plenárias. Felizmente aceitaram todos e assim nos honraram com o
seu saber e a sua experiência, que certamente continuarão a pôr ao serviço da SPE e da
Estatı́stica. Seria interessante que esta prática, que ora iniciámos, tivesse continuidade no
futuro.
E, para concluir, é altura de, como nas histórias, formular três desejos. Um, que se dirige aos futuros dirigentes, é o de que tenham os maiores sucessos no exercı́cio das suas
funções, na certeza de que o seu sucesso será também o nosso sucesso, o sucesso da SPE.
Outro, para todos os colegas participantes, é a de que este Congresso lhes seja útil e que nos
possamos voltar a ver todos daqui a um ano no XX Congresso Anual da SPE. O último vai
para todos os sócios da SPE e é o de que o próximo ano possa ser estatisticamente profı́cuo
e pleno de realizações profissionais e pessoais.
Carlos Braumann
SPE 2011
i
Mensagem da Comissão Organizadora
Caros Congressistas da SPE 2011,
Por convite da Direção da Sociedade Portuguesa de Estatı́stica, a organização do XIX Congresso Anual da SPE (SPE 2011) foi entregue ao Instituto Superior Técnico da Universidade Técnica de Lisboa e à Escola Superior de Tecnologia e Gestão do Instituto Politécnico
de Leiria. Para o efeito, foi constituı́da uma Comissão Organizadora formada por docentes
dessas duas instituições, os quais propuseram a turı́stica, e bem pitoristicamente portuguesa, vila da Nazaré para local de realização do Congresso, no perı́odo de 28 de Setembro
a 1 de Outubro de 2011. Para acolher o programa cientı́fico do Congresso, selecionaram o
contemporâneo Hotel Miramar Sul, o qual está integralmente reservado aos participantes
da SPE 2011 durante o decorrer do evento.
Gostarı́amos de agradecer à Direção da SPE o amável convite que nos endereçou, assim
como a confiança que em nós depositou na organização da SPE 2011. Fazemos votos
que este evento consiga corresponder às suas elevadas expetativas, contribuindo para a
divulgação da Estatı́stica, não só a nı́vel nacional, como igualmente ao nı́vel internacional. Para tal, contamos com a apresentação de inúmeras comunicações orais, convidadas
e propostas, bem como diversas sessões de posters. E porque o convı́vio não é menos importante, em paralelo propomos um programa social que esperamos que seja do agrado de
todos. Neste sentido, usufruiremos de um passeio pela região (incluindo visita a Alcobaça
ou, em alternativa, a Óbidos), de um cocktail de boas vindas na Nazaré e de um jantar de
confraternização na Quinta do Fidalgo — Tromba Rija, na vila da Batalha.
Importa aqui salientar que, para que fosse possı́vel a concretização deste congresso, muitos foram os que, direta ou indiretamente, deram um contributo significativo para a sua
realização. Por este motivo, gostarı́amos de expressar aqui a nossa gratidão a todos aqueles
que, de alguma forma, contribuı́ram para o sucesso deste evento, incluindo em particular
os conferencistas convidados, que gentilmente aceitaram o convite para participar neste
evento e nos presentear com as suas comunicações, os colegas que aceitaram presidir às
várias sessões da SPE 2011 e todos os autores e participantes neste evento mor da SPE.
De entre os conferencistas convidados, gostarı́amos de começar por mencionar os antigos
presidentes da SPE:
• M. Ivette Gomes (1990–1994)
• João A. Branco (1994–2000)
• Fernando Rosado (2000–2006)
que, em comum, têm o facto de terem presidido com grande mérito e elevada dedicação à
SPE e de se terem aposentado no decorrer do corrente ano. Devido a esses factos e à grande
estima pessoal pelos antigos presidentes da SPE, a Organização do Congresso associou-se
com o maior gosto à iniciativa da Direção da SPE de homenagear na SPE 2011 estes nossos colegas, prestando-lhes tributo pelas suas qualidades pessoais e, muito em especial, pela
trabalho determinante que desenvolveram em prol da SPE. Em segundo lugar, aos professores Graciela Boente, da Universidad de Buenos Aires – Argentina, e Wolfgang Schmid,
SPE 2011
iii
Mensagem da Comissão Organizadora
da Europa-Universität Viadrina – Alemanha, que partilharão connosco um pouco do seu
grande saber. Não podemos também deixar de expressar um apreço especial às professoras
M. Salomé Cabral e M. Helena Gonçalves pela apresentação do mini-curso, intitulado
Análise de Dados Longitudinais. Associado à homenagem aos antigos presidentes da SPE,
prestamos os nossos maiores agradecimentos às professoras Isabel Fraga Alves, Manuela Souto de Miranda e M. Manuela Neves por terem prontamente e muito gentilmente
aceite ser porta-vozes em primeira instância do reconhecimento da comunidade estatı́stica
nacional a, respetivamente, M. Ivette Gomes, João A. Branco e Fernando Rosado.
Gostarı́amos ainda de agradecer à Direção da SPE e à Comissão Cientı́fica da SPE 2011
pelo apoio continuamente prestado, bem como a todas as instituições que patrocinaram este
evento, à Escola Superior de Tecnologia e Gestão de Leiria, ao Instituto Superior Técnico,
ao Instituto Nacional de Estatı́stica, à PSE – Produtos e Serviços de Estatı́stica, ao Banco
de Portugal, ao CEMAT – Centro de Matemática e Aplicações, ao SAS Institute, Software,
Lda., à Câmara Municipal da Nazaré, à Câmara Municipal de Leiria e, para concluir, ao
Hotel Miramar Sul que acolheu este congresso da SPE.
Por fim, desejamos que a SPE 2011 se materialize num encontro socialmente agradável
e cientificamente frutı́fero para todos os participantes, e que estimule o crescimento da
investigação em Probabilidade e Estatı́stica em Portugal, a cooperação entre investigadores, a divulgação da produção cientı́fica, quer na sua vertente mais teórica quer nas suas
múltiplas aplicações, bem como a troca de experiências e saberes relativos ao ensino da
Estatı́stica. Fazemos votos que todos os participantes e seus acompanhantes usufruam de
uma excelente estadia na Nazaré, onde poderão passear no aprazı́vel paredão junto à praia,
rodeada por encostas ı́ngremes, descobrir os tı́picos trajes ainda utilizados nesta vila, bem
como saborear a rica e variada gastronomia oferecida na região.
Votos de um bom Congresso para todos!
A Comissão Organizadora da SPE 2011,
Alexandra Seco
António Pacheco
Helena Ribeiro
M. Rosário de Oliveira
Miguel Felgueiras
Rui Santos
SPE 2011
iv
Programa Resumido
P ROGRAMA R ESUMIDO
Quarta, 28/09/2011
09:00 — Análise de Dados Longitudinais
(M. Salomé Cabral e
M. Helena Gonçalves)
1
17:00 – SESSÃO DE ABERTURA DO
CONGRESSO
17:30 — O lado não matemático da Estatı́stica (João A. Branco)
3
19:30 — RECEPÇÃO DE BOAS-VINDAS
na Biblioteca Municipal da Nazaré
Quinta, 29/09/2011
9:00
Análise Multivariada I
Biostatı́stica I
Processos Estocásticos I
Extremos I
5
11
17
23
10:00 — Sessão de POSTERS I
29
10:30
Séries Temporais I
Inferência Estatı́stica I
Controlo de Qualidade
Aplicações I
57
63
69
75
11:35 — On the application of statistical
process control in finance
(Wolfgang Schmid)
81
14:30 — PASSEIO DO CONGRESSO
153
11:35 — Some recent results for functional data analysis
(Graciela Boente)
159
14:30
Estatı́sticas Oficiais
Aplicações III
Inferência Estatı́stica III
Variáveis Intervalares
163
169
175
181
15:35 — A Força dos menores
(Fernando Rosado)
187
16:30 — Sessão de POSTERS III
189
17:00
Análise Multivariada III
Biostatı́stica III
Processos Estocásticos III
Extremos III
215
221
227
233
18:00 — SAS
239
19:00 — JANTAR DO CONGRESSO
Sábado, 01/10/2011
09:00
Séries Temporais II
Econometria
Estatı́stica Bayesiana
Análise de Sobrevivência
10:20 — Sessão de POSTERS IV
19:00 — Mixer da jSPE
Sexta, 30/09/2011
9:00
Análise Multivariada II
Biostatı́stica II
Processos Estocásticos II
Extremos II
Aplicações II
241
249
257
265
273
10:50 — A importância de métodos de
re-amostragem em Estatı́stica de Extremos (M. Ivette Gomes)
301
83
89
95
101
11:45 — Sessão de Entrega dos Prémios
SPE JÚNIOR
10:00 — Sessão de POSTERS II
107
12:10 — SESSÃO DE ENCERRAMENTO
DO CONGRESSO
10:30
Inferência Estatı́stica II
Telecomunicações
Modelos Lineares
135
141
147
SPE 2011
12:30 — Almoço de Despedida do Congresso
v
Programa e Índice de Apresentações
P ROGRAMA E ÍNDICE DE A PRESENTAÇ ÕES
P ROGRAMA R ESUMIDO
v
Quarta, 28/09/2011
08:00 Abertura do Secretariado do Congresso
09:00 – 10:30 MINI-CURSO
Sala Atlântico – Presidente: Maria Eduarda Silva
M. Salomé Cabral e M. Helena Gonçalves
Análise de Dados Longitudinais . . . . . . . . . . . . . . . . . . . .
1
10:30 – 11:00 Pausa para Café
11:00 – 12:30 MINI-CURSO (cont.)
12:30 – 14:30 Pausa para Almoço
14:30 – 16:30 MINI-CURSO (cont.)
16:30 – 17:00 Pausa para Café
17:00 – 17:30 SESSÃO DE ABERTURA DO CONGRESSO
Sala Premium – Presidente: Carlos A. Braumann
17:30 – 18:25 HOMENAGEM a JOÃO A. BRANCO
Sala Premium – Presidente: Fernando Rosado
17:30 Tributo a João A. Branco
17:40 Sessão Plenária I
João A. Branco
O lado não matemático da Estatı́stica . . . . . . . . . . . . . . . . . .
3
19:30 – 20:30 RECEPÇÃO DE BOAS-VINDAS na Biblioteca Municipal da Nazaré
(Partida em autocarro do Hotel Miramar Sul às 19:10)
Quinta, 29/09/2011
SPE 2011
vii
09:00 – 10:00 Comunicações Orais – Análise Multivariada I
Sala Premium – Presidente: A. Pedro Duarte Silva
Júlia Teles
Coeficiente de concordância correlacional: use mas não abuse . . . . . . . . . .
5
Irina Kislaya, Miguel Portela, Patrı́cio Costa, Manuel João Costa e Maria Conceição Serra
Early identification of students at risk of failure in the first year of medical degree
7
Manuela Figueira Neves e Fernando Rosado
Estudo de outliers em dados forenses . . . . . . . . . . . . . . . . . . . . . . . .
9
09:00 – 10:00 Comunicações Orais – Biostatı́stica I
Sala Dinastia – Presidente: Manuel Scotto
Ana Subtil, M. Rosário de Oliveira e Luzia Gonçalves
Comparação de intervalos de confiança para sensibilidades e especificidades . . . 11
Filipa Mourão, Ana Braga e Pedro Oliveira
Estimador não paramétrico, condicional ao sexo, para a curva ROC do CRIB . . . 13
Carla Henriques, Ana Cristina Matos e Luı́s Ferreira dos Santos
Diagnóstico de sı́ndrome Brugada: Uma lufada de ar fresco! . . . . . . . . . . . 15
09:00 – 10:00 Comunicações Orais – Processos Estocásticos I
Sala Caminho Real – Presidente: Paula Milheiro de Oliveira
Fátima Ferreira, António Pacheco e Helena Ribeiro
Avaliação do desempenho de filas M X /G − G/1/n . . . . . . . . . . . . . . . . 17
Maria Conceição Serra, Atiyo Ghosh e Patsy Haccou
Quantifying stochastic introgression processes with hazard rates . . . . . . . . . 19
Maria de Fátima Brilhante, Dinis Pestana e Maria Luı́sa Rocha
Conjuntos de Cantor com reparação aleatória . . . . . . . . . . . . . . . . . . . 21
09:00 – 10:00 Comunicações Orais – Extremos I
Sala Atlântico – Presidente: Marta Ferreira
Manuel Cabral Morais e Tiago Salvador
O problema do caixeiro viajante e a teoria de valores extremos . . . . . . . . . . 23
João Paulo Martins, Rui Santos e Ricardo Sousa
Distribuição do máximo condicionada à soma aplicada em testes quantitativos
compostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Marco Aurélio Sanfins e Danilo Monte-Mor
GEV Long-Short Strategy: uma nova modalidade quantitativa . . . . . . . . . . . 27
SPE 2011
viii
10:00 – 10:30 Pausa para Café e Posters
10:00 – 10:30 Sessão de POSTERS I
Ana Cristina Casimiro e Paulo Infante
Cartas de controlo em saúde . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Clara Castro, Maria José Bento, Andreia Pereira e Inês Sousa
Prevalência, incidência e sobrevivência dos cancros do estômago e mama na
Região Norte de Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Marta Ferreira
Estrutura de dependência e comportamento extremal de um processo Pareto . . . 33
Fernanda Otı́lia Figueiredo e Philippe Castagliola
Carta de medianas com limites de controlo estimados . . . . . . . . . . . . . . . 35
Dulce Gomes, Carla Nunes, Patrı́cia Filipe e Teodoro Briz
Controlo da tuberculose em Portugal: demora entre o inı́cio dos primeiros sintomas e o diagnóstico da doença . . . . . . . . . . . . . . . . . . . . . . . . 37
Délia Gouveia, Luiz Guerreiro Lopes e Sandra Mendonça
Aplicação da teoria dos extremos ao estudo da precipitação na Ilha da Madeira . . 39
Manuela Larguinho, José Carlos Dias e Carlos A. Braumann
Análise da distribuição χ 2 não central na avaliação de Opções Europeias num
processo de difusão CIR . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Cristina Martins, Esmeralda Gonçalves e Nazaré Mendes Lopes
Sobre o efeito de Taylor em modelos bilineares . . . . . . . . . . . . . . . . . . 43
Rui Pascoal e Jorge Marques
Dinâmica estocástica na difusão de tecnologias de banda larga em Portugal . . . 45
Paulo Santos, M. Ivette Gomes e Patrı́cia de Zea Bermudez
Testes não-paramétricos para validação de modelos extremais: uma aplicação a
dados de atletismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Fernando Sequeira e Sı́lvio Velosa
Múltiplos caminhos para a uniforme . . . . . . . . . . . . . . . . . . . . . . . . 49
Tufi Machado Soares, Neimar Fernandes da Silva, Mariana Calife Nóbrega
e Alexandre Nicolella
Fatores associados ao abandono escolar no Ensino Médio público de Minas Gerais 51
Inês Sousa
Análise de dados longitudinais com drop-out dependente da variável resposta . . 53
Eugen Ursu e Kamil Feridun Turkman
Periodic autoregressive model identification using genetic algorithms . . . . . . . 55
SPE 2011
ix
10:30 – 11:30 Comunicações Orais – Séries Temporais I
Sala Premium – Presidente: M. Manuela Neves
Ana Diniz, Inês Faria e João Barreiros
Músicos e crianças: Caracterização de séries de tapping bimanual . . . . . . . . 57
Pedro M.D.C.B. Gouveia
Alterações dos padrões de sazonalidade ao longo do ciclo da procura turı́stica . . 59
Fernando Sebastião e Irene Oliveira
Análise espectral singular no estudo do número de vı́timas mortais em acidentes
de viação em Portugal Continental . . . . . . . . . . . . . . . . . . . . . . 61
10:30 – 11:30 Comunicações Orais – Inferência Estatı́stica I
Sala Dinastia – Presidente: Russell Alpizar-Jara
Sara Roque, Adelaide Freitas e Laura Carreto
Uma avaliação experimental de diferentes metodologias estatı́sticas de dados de
microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Paulo C. Rodrigues, Marcos Malosetti, Martin Boer, Hugh G. Gauch e Fred van Eeuwijk
Comparison of statistical methods for the identification of the genetic basis of
plant responses to stress . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Efigénio Rebelo, Patrı́cia Oom do Valle e Rui Nunes
Testes à presença de autocorrelação usando a regressão de Gauss-Newton . . . . 67
10:30 – 11:30 Comunicações Orais – Controlo de Qualidade
Sala Caminho Real – Presidente: Paulo Infante
Patrı́cia Ferreira Ramos, Manuel Cabral Morais, António Pacheco e Wolfgang Schmid
Ordenação estocástica na avaliação qualitativa do desempenho de esquemas conjuntos para processos bivariados . . . . . . . . . . . . . . . . . . . . . . . 69
Manuel do Carmo, Paulo Infante e Jorge Mendes
O revisitar de um método adaptativo em controlo estatı́stico da qualidade . . . . . 71
Miguel Casquilho e Fátima C. Rosa
Estratégias de enchimento de sacos com itens de peso aleatório e soma
constrangida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10:30 – 11:30 Comunicações Orais – Aplicações I
Sala Atlântico – Presidente: Conceição Amado
Paula C.R. Vicente e Maria de Fátima Salgueiro
Dados omissos resultantes de planned missing designs: contributo para a análise
do Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) . . . 75
SPE 2011
x
Marco Aurélio Sanfins, Camila Silva, Danilo Monte-Mor e Tiago Ribeiro
RiD – Uma medida para o cálculo do risco de insolvência . . . . . . . . . . . . . 77
Elena Almaraz Luengo, Eduardo Almaraz Luengo e Maribel Luengo y Dos Santos
Possibilistic downside risk measures and applications . . . . . . . . . . . . . . . 79
11:35 – 12:30 Sessão Plenária II
Sala Premium – Presidente: Manuel Cabral Morais
Wolfgang Schmid
On the application of statistical process control in finance . . . . . . . 81
14:30 – 18:30 PASSEIO DO CONGRESSO
19:00 Mixer da jSPE (Sala Atlântico)
Sexta, 30/09/2011
09:00 – 10:00 Comunicações Orais – Análise Multivariada II
Sala Premium – Presidente: Manuela Souto de Miranda
Catarina Marques e Jorge Lengler
A influência da orientação para o mercado na performance de exportação: O
estudo de efeitos de interacção e quadráticos . . . . . . . . . . . . . . . . . 83
Ana Rita Silva, Ana C. Braga, Isabel Araújo, Teresa Mota, José M. Oliveira
e Jorge Oliveira
Abordagem multivariada à trilogia solo-vinha-vinho. Caso da casta Vinhão . . . 85
Maria José Amorim e Margarida Cardoso
Índices de informação mútua na avaliação de estabilidade de agrupamentos . . . 87
09:00 – 10:00 Comunicações Orais – Biostatı́stica II
Sala Dinastia – Presidente: Isabel Pereira
Joana Gomes Dias e Carlos Carvalho
Metodologia de captura-recaptura na vigilância epidemiológica da doença dos
legionários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Tiago A. Marques, Steve W. Martin, Ronald P. Morrissey, Susan Jarvis,
Nancy DiMarzio, David Moretti e David K. Mellinger
Spatially explicit capture-recapture minke whale density estimation . . . . . . . . 91
SPE 2011
xi
Fernando Ceia e Russell Alpizar-Jara
O comprimento descritivo mı́nimo na amostragem por transectos pontuais . . . . 93
09:00 – 10:00 Comunicações Orais – Processos Estocásticos II
Sala Caminho Real – Presidente: Cláudia Nunes
Ana Prior e Paula Milheiro de Oliveira
Estimação estatı́stica dos parâmetros do processo de Ornstein-Uhlenbeck bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Sandra Lagarto e Carlos A. Braumann
O modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados: aplicação à evolução temporal das taxas de mortalidade masculina e feminina da população portuguesa . . . . . . . . . . . . . . . . . . 97
Clara Carlos e Carlos A. Braumann
Tempos de extinção para um modelo de crescimento populacional aproximadamente logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
09:00 – 10:00 Comunicações Orais – Extremos II
Sala Atlântico – Presidente: Luı́sa Canto e Castro de Loura
M. Ivette Gomes
Comparação assintótica de estimadores de um parâmetro de forma de segundaordem em caudas pesadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
M. Ivette Gomes e Dinis Pestana
Uma generalização do estimador de Hill . . . . . . . . . . . . . . . . . . . . . . 103
Lı́gia Henriques-Rodrigues e M. Ivette Gomes
Excessos acima de nı́veis aleatórios e estimação linear óptima e centrada . . . . . 105
10:00 – 10:30 Sessão de POSTERS II
Carla Correia-Gomes, Denisa Mendonça, Madalena Vieira-Pinto e João Niza-Ribeiro
Factores de risco para a detecção de Salmonella sp. em suı́nos reprodutores em
Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Patrı́cia Costa, Maria Eugénia Ferrão e Pedro Oliveira
Modelos de resposta ao item: linking entre escalas de Matemática . . . . . . . . 109
Joana Dias, Ana Rita Gonçalves, Ana Maria Correia e Emilia Athayde
Absentismo escolar - detecção precoce de epidemias . . . . . . . . . . . . . . . 111
Otı́lia Dias, Isabel Pinto Doria e Ana Sousa Ferreira
Estudantes do Ensino Superior: Caminhos para o sucesso ou insucesso . . . . . . 113
SPE 2011
xii
Sofia Eurico, Patrı́cia Oom do Valle e João Albino Silva
A satisfação e lealdade dos diplomados em turismo face às instituições de ensino
superior frequentadas. Uma aplicação do método PLS-PM . . . . . . . . . 115
A. Rita Gaio e Joaquim F.P. da Costa
Modelos de misturas na identificação de padrões de jardins da cidade do Porto . . 117
João Neves, Cláudia Pascoal, M. Rosário de Oliveira, José Maia e Duarte Freitas
Será possı́vel encontrar um próximo Cristiano Ronaldo? . . . . . . . . . . . . . . 119
Ana Rita Nunes, Sı́lvia Shrubsall e Isabel Natário
Modelação espacial de acidentes rodoviários em Lisboa . . . . . . . . . . . . . . 121
Patrı́cia Oom do Valle, Manuela Guerreiro e Júlio Mendes
Participação no Allgarve, imagem do Allgarve e imagem do Algarve: uma aplicação
da análise de componentes principais não linear e da análise de correspondências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Rui Paiva
Módulos interativos no ensino de Probabilidades e Estatı́stica . . . . . . . . . . . 125
Cláudia Pereira, Paulo Infante e Gonçalo Jacinto
Modelação Estatı́stica pela Teoria da Resposta ao Item . . . . . . . . . . . . . . 127
Fernando Rosado
Estatı́stica Forense com dados Normais — Uma abordagem (bayesiana e frequencista) ao estudo de outliers . . . . . . . . . . . . . . . . . . . . . . . . 129
Jorge Santos, Raquel Menezes e Carlos Teixeira
Análise prospectiva das condições de higiene e segurança alimentar na restauração131
Tufi Machado Soares, Neimar Fernandes da Silva, Mariana Calife Nóbrega
e Alexandre Nicolella
Uma análise do fracasso escolar no Ensino Médio público de Minas Gerais . . . 133
10:30 – 11:30 Comunicações Orais – Inferência Estatı́stica II
Sala Premium – Presidente: Carla Henriques
Paulo Araújo Santos e Isabel Fraga Alves
Momentos de um novo estimador para o parâmetro de forma da distribuição Weibull discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Carlos Tenreiro
Núcleos de fronteira na estimação da função de distribuição . . . . . . . . . . . . 137
Filipe J. Marques e Carlos A. Coelho
O teste de independência de vários grupos de variáveis aleatórias para várias
amostras – Distribuições exacta e quase-exactas da estatı́stica de razão de
verosimilhanças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
SPE 2011
xiii
10:30 – 11:30 Comunicações Orais – Telecomunicações
Sala Dinastia – Presidente: Fernanda Otı́lia Figueiredo
Cláudia Pascoal, M. Rosário de Oliveira, Peter Filzmoser, António Pacheco e Rui Valadas
Os Piratas da Internet II: O Cofre das Anomalias Mortas . . . . . . . . . . . . . 141
Gonçalo Jacinto, Nelson Antunes e António Pacheco
Connectividade em Redes de Telecomunicações Ad Hoc . . . . . . . . . . . . . 143
Gonçalo Jacinto e Nelson Antunes
Problemas inversos em filas de espera e sua aplicação à monitorização da Internet 145
10:30 – 11:30 Comunicações Orais – Modelos Lineares
Sala Caminho Real – Presidente: Maria do Carmo Miranda Guedes
Dulce Gamito Pereira, João Tiago Mexia e Victor Ramos Tavares
Validação estocástica do algoritmo ziguezague na análise conjunta de regressões . 147
Conceição Rocha, Manuel Oliveira e Teresa Mendonça
Aplicação de modelos com dados em painel - estudo de caso . . . . . . . . . . . 149
Luı́s Chorão e José G. Dias
Modelação da perda em empréstimos hipotecários: Uma aplicação a um banco
português . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10:30 – 11:30 Comunicações Orais – Aplicações II
Sala Atlântico – Presidente: Frederico Caeiro
José G. Dias e Sabu S. Padmadas
Factores explicativos do nı́vel nutricional das mulheres indianas: Uma análise
multinı́vel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
José Ramos Pires Manso e Ernesto Ferreira
Há causalidade entre as variáveis económicas e os indicadores de saúde? Uma
abordagem através de vectores autorregressivos com correcção de erros e
da causalidade multivariada à Granger . . . . . . . . . . . . . . . . . . . . 155
Luı́sa Carvalho, Paulo Infante e Anabela Afonso
Os Eborenses e a prática desportiva . . . . . . . . . . . . . . . . . . . . . . . . . 157
11:35 – 12:30 Sessão Plenária III
Sala Premium – Presidente: Ana M. Pires
Graciela Boente
Some recent results for functional data analysis . . . . . . . . . . . . 159
SPE 2011
xiv
14:30 – 15:30 Comunicações Orais – Estatı́sticas Oficiais
Sala Premium – Presidente: José Ramos Pires Manso
José A. Pinto Martins
Acesso à informação estatı́stica oficial para fins de investigação cientı́fica . . . . 163
Elizabeth Reis, Paula Vicente e Álvaro Rosa
Qualidade dos Censos 2011: Mapa de Alerta . . . . . . . . . . . . . . . . . . . . 165
João Farrajota
Censos 2011 - Inquérito de Qualidade . . . . . . . . . . . . . . . . . . . . . . . 167
14:30 – 15:30 Comunicações Orais – Aplicações III
Sala Dinastia – Presidente: Antónia Amaral Turkman
Luı́s Margalho, Raquel Menezes e Inês Sousa
Modelos Espaço-temporais. Aplicação à previsão da temperatura na superfı́cie
terrestre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Isabel Natário, Manuela M. Oliveira, M. Lucı́lia Carvalho, Susete Marques e José Borges
Modelação espaço-temporal de fogos florestais em Portugal . . . . . . . . . . . . 171
Thelma Sáfadi e Airlane P. Alencar
Volatilidade dos principais mercados mundiais . . . . . . . . . . . . . . . . . . . 173
14:30 – 15:30 Comunicações Orais – Inferência Estatı́stica III
Sala Caminho Real – Presidente: Carlos Tenreiro
Dulce Gamito Pereira, João Tiago Mexia e Victor Ramos Tavares
Intervalos de confiança para os nodos do contorno superior em análise conjunta
de regressões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Pedro Macedo, Elvira Silva e Manuel Scotto
Estimadores de máxima entropia em análise de eficiência . . . . . . . . . . . . . 177
Ana Isabel Carita e António Paulo Ferreira
Vencer um jogo de basquetebol: uma análise com probabilidades condicionais . . 179
14:30 – 15:30 Comunicações Orais – Variáveis Intervalares
Sala Atlântico – Presidente: Paula Brito
Paulo Teles e Paula Brito
Modelização de séries temporais intervalares por modelos espácio-temporais . . . 181
Sónia Dias e Paula Brito
Regresão linear com variáveis intervalares . . . . . . . . . . . . . . . . . . . . . 183
A. Pedro Duarte Silva e Paula Brito
MAINT.DATA: Um pacote de R para a análise paramétrica de dados intervalares 185
SPE 2011
xv
15:35 – 16:30 HOMENAGEM a FERNANDO ROSADO
Sala Premium – Presidente: Carlos A. Braumann
15:35 Tributo a Fernando Rosado
15:45 Sessão Plenária IV
Fernando Rosado
A Força dos menores . . . . . . . . . . . . . . . . . . . . . . . . . . 187
16:30 – 17:00 Sessão de POSTERS III
Anabela Afonso e Russell Alpizar-Jara
Amostragem em duas fases adaptativa para estimar a abundância de populações
raras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Conceição Amado
Medidas de centralidade, dispersão e simetria em variáveis categóricas ordinais . 191
Dário Ferreira, Sandra Ferreira, Célia Nunes e João Tiago Mexia
Normalidade aproximada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Adelaide Maria Sousa Figueiredo
Análise de variância robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Sónia Freitas, Maria Isabel Mendonça, Eva Henriques e Roberto Palma dos Reis
O genotipo CC do locus 9p21 apresenta risco acrescido de doença das artérias
coronárias perante valores elevados de PCR de alta sensibilidade . . . . . . 197
Vanda M. Lourenço e Ana M. Pires
Regressão-M em estudos de associação genéticos de caracterı́sticas quantitativas . 199
Francisco Macedo e Ana M. Pires
Leis da genética de Mendel: a enriquecedora controvérsia . . . . . . . . . . . . . 201
Pedro Macedo, Elvira Silva e Manuel Scotto
Funções distância direccionais: novas medidas de eficiência . . . . . . . . . . . . 203
Cristina Miranda, Manuela Souto de Miranda, Anabela Rocha e M. Ivette Gomes
Uma versão robusta para o estimador do ı́ndice extremal de Nandagopalan . . . . 205
Isabel Pereira e Marco Marto
Estimação simultânea da altura dominante, mortalidade e área basal no modelo
GLOBULUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Maria João Polidoro, Fernando Magalhães e Antónia Amaral Turkman
Métodos bayesianos de adequação de modelos estatı́sticos: um estudo de simulação209
SPE 2011
xvi
Isabel M. Rodrigues, Ana M. Bianco e Graciela Boente
Testes robustos para modelos lineares generalizados com respostas incompletas . 211
Natascha Almeida Marques da Silva, Ângela Maria Quintão Lana,
Fabyano Fonseca e Silva, Renato Ribeiro de Lima,
Martinho de Almeida e Silva e José Aurélio Garcia Bergmann
Utilização do algoritmo SAEM na análise genética de bovinos . . . . . . . . . . 213
17:00 – 18:00 Comunicações Orais – Análise Multivariada III
Sala Premium – Presidente: Isabel Rodrigues
Nuno Lavado e Teresa Calapez
Piecewise Loadings - indicadores clássicos adaptados às variantes não-lineares
da ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Armindo Carvalho e Francisco V. Martins
Informação estatı́stica e decisão empresarial: avaliação das escalas de medida de
um modelo estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Maria de Fátima Salgueiro
Modelos de análise factorial exploratória e confirmatória parameterizados como
modelos com grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
17:00 – 18:00 Comunicações Orais – Biostatı́stica III
Sala Dinastia – Presidente: Luzia Gonçalves
Conceição Rocha, Maria Eduarda Silva e Teresa Mendonça
Modelos de simulação para o bloqueio neuro-muscular: uma análise estatı́stica . 221
Lisandra Rocha, Inês Sousa e Raquel Menezes
Análise de dados longitudinais com as observações dependentes do tempo de
medição: uma revisão bibliográfica . . . . . . . . . . . . . . . . . . . . . . 223
Sónia Gouveia e Manuel Scotto
Predicting hypotension in intensive care monitoring:
an optimal alarm system approach . . . . . . . . . . . . . . . . . . . . . . 225
17:00 – 18:00 Comunicações Orais – Processos Estocásticos III
Sala Caminho Real – Presidente: Maria de Fátima Brilhante
Nuno Brites, Carlos A. Braumann, Clara Carlos e Patrı́cia A. Filipe
gSDE Software: tempos de primeira passagem em modelos estocásticos de crescimento individual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Patrı́cia A. Filipe, Carlos A. Braumann, Clara Carlos e Carlos J. Roquete
Crescimento individual em ambiente aleatório: um problema de optimização . . . 229
SPE 2011
xvii
Débora Ricardo e Cláudia Nunes
Processos de difusão com saltos correlacionados: Aplicação à polı́tica óptima de
investimento em linha de alta velocidade . . . . . . . . . . . . . . . . . . . 231
17:00 – 18:00 Comunicações Orais – Extremos III
Sala Atlântico – Presidente: M. Ivette Gomes
Isabel Fraga Alves e Paulo Araújo Santos
Quantis extremais, value-at-risk e método DPOT . . . . . . . . . . . . . . . . . 233
Frederico Caeiro e M. Ivette Gomes
Estimação de um parâmetro de forma de segunda ordem . . . . . . . . . . . . . 235
Miguel de Carvalho e Anthony Davison
Estimação não-paramétrica em extremos multivariados . . . . . . . . . . . . . . 237
18:00 – 18:20 Comunicações Orais – SAS
Sala Premium – Presidente: Isabel Rodrigues
Jos van der Velden
SAS no ensino superior: capacidades analı́ticas sem custos . . . . . . . . . . . . 239
19:00 JANTAR DO CONGRESSO
Sábado, 01/10/2011
09:00 – 10:20 Comunicações Orais – Séries Temporais II
Sala Premium – Presidente: Jorge Caiado
Clara Cordeiro e M. Manuela Neves
Intervalos de previsão usando o procedimento Boot.EXPOS . . . . . . . . . . . . 241
Sara Marques, Maria do Carmo Miranda Guedes, Maria Eduarda Silva e Nuno Carmona
Redes neuronais na previsão de séries temporais . . . . . . . . . . . . . . . . . . 243
Carla Bessa, Francisco Lage Calheiros e M. Manuela Neves
Análise de séries temporais multivariadas: desafios e perspectivas. Aplicações . . 245
Nélia Silva e Isabel Pereira
Previsão em modelos bilineares de valores inteiros . . . . . . . . . . . . . . . . . 247
SPE 2011
xviii
09:00 – 10:20 Comunicações Orais – Econometria
Sala Dinastia – Presidente: Isabel Fraga Alves
Bruno Pires
Cash-Flow at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Ana Almeida e Teresa Crespo
Estatı́sticas da titularização em Portugal – compilação de dados e avaliação de
resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
Ana Cláudia Gouveia e Sı́lvia Fonte Santa
Impacto dos sistemas de pensões ocupacionais na mobilidade do trabalho . . . . 253
Homero Alexandre Gonçalves
Como podem as bases de dados administrativas ajudar a compreender o comportamento financeiro das sociedades não financeiras? . . . . . . . . . . . . . 255
09:00 – 10:20 Comunicações Orais – Estatı́stica Bayesiana
Sala Caminho Real – Presidente: Kamil Feridun Turkman
Conceição Ribeiro, Antónia Amaral Turkman e João Lourenço Cardoso
Modelação de acidentes rodoviários . . . . . . . . . . . . . . . . . . . . . . . . 257
Raquel Nicolette, Isabel Pereira e Manuel Scotto
Inferência bayesiana em modelos auto-regressivos de valores inteiros com limiares auto-induzidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Leonel Vicente e Kamil F. Turkman
Estatı́stica bayesiana no planeamento de recursos humanos . . . . . . . . . . . . 261
Tufi Machado Soares, Neimar da Silva Fernandes e Sarah Martins Salomão Brodbeck
Novas estruturas muldimensionais da TRI para consideração do efeito da ansiedade na proficiência do aluno em avaliações de larga escala . . . . . . . . . 263
09:00 – 10:20 Comunicações Orais – Análise de Sobrevivência
Sala Atlântico – Presidente: Isabel Natário
Ana Moreira e Luı́s Machado
O estimador de Aalen-Johansen pré-suavizado . . . . . . . . . . . . . . . . . . . 265
Regina Bispo, Joana Bernardino e Tiago A. Marques
Estratégia de verificação de cadáveres de aves em testes de remoção nos estudos
de monitorização de parques eólicos . . . . . . . . . . . . . . . . . . . . . 267
Sara Simões Dias, Valeska Andreozzi e Rosário Oliveira Martins
Análise da duração dos internamentos por VIH/SIDA através de um modelo
hierárquico de misturas finitas . . . . . . . . . . . . . . . . . . . . . . . . 269
SPE 2011
xix
Luı́s Antunes, Maria José Bento e Denisa Mendonça
Imputação múltipla - Uma aplicação ao tratamento de dados omissos em análise
de sobrevivência de doentes oncológicos . . . . . . . . . . . . . . . . . . . 271
10:20 – 10:50 Sessão de POSTERS IV
Adriana Belo, Cristina Rocha e Pedro Monteiro
Factores de risco para a ocorrência de enfartes múltiplos decorrentes de uma
sı́ndrome coronária aguda . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Daniela Cunha, Luı́s Antunes, Maria José Bento e Luı́s Machado
Aplicação do algoritmo EM na modelação da sobrevivência relativa de doentes
oncológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Filipe Felisberto, Miguel Felgueiras, António Pereira e Alexandra Seco
Modelo logı́stico de detecção de quedas . . . . . . . . . . . . . . . . . . . . . . 277
Ana Cristina Moreira Freitas
Processo das excedências para sistemas dinâmicos . . . . . . . . . . . . . . . . . 279
Maria Conceição Manso, Sandra Gavinha e Patrı́cia Manarte Monteiro
Regressão logı́stica múltipla: previsão do estado de conservação de próteses
dentárias removı́veis em idosos institucionalizados . . . . . . . . . . . . . 281
Maria Alice Martins, Helena Ribeiro e Rui Santos
Estatı́stica no ensino secundário — um contributo para a clarificação do estudo
da regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Isabel Tiago de Oliveira, Sabu S. Padmadas e José G. Dias
Modelação do impacto da pobreza nas escolhas contraceptivas na Índia: uma
análise multinı́vel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
Rosa Oliveira e Armando Teixeira-Pinto
Métodos de regressão para observações repetidas em Saúde . . . . . . . . . . . . 287
Boris Oumow, Miguel de Carvalho e Anthony Davison
Modelo de mistura bayesiano para extremos não-estacionários . . . . . . . . . . 289
Salomé Pedro, Rui Santos e Luı́s Cotrim
Simulação – uma aplicação ao problema da ruı́na do jogador . . . . . . . . . . . 291
Alexandra Pinto, Fernando Bação e Victor Lobo
Visualização de dados multivariados: radar plot versus tabela-gráfico . . . . . . . 293
Ana Sousa, Zilda Mendes e Maria Antónia Turkman
Factores que influenciam a qualidade de vida dos doentes diabéticos . . . . . . . 295
Laetitia Teixeira, Anabela Rodrigues e Denisa Mendonça
Riscos competitivos em estudos de diálise peritoneal . . . . . . . . . . . . . . . 297
SPE 2011
xx
Estela Vilhena et al.
Preditores da qualidade de vida em pessoas com doenças crónicas . . . . . . . . 299
10:50 – 11:45 HOMENAGEM a M. IVETTE GOMES
Sala Premium – Presidente: João A. Branco
10:50 Tributo a M. Ivette Gomes
11:00 Sessão Plenária V
M. Ivette Gomes
A importância de métodos de re-amostragem
em Estatı́stica de Extremos . . . . . . . . . . . . . . . . . . . . . 301
11:45 – 12:10 Sessão de Entrega dos Prémios SPE JÚNIOR
12:10 – 12:30 SESSÃO DE ENCERRAMENTO DO CONGRESSO
12:30 Almoço de Despedida do Congresso
Índice de Autores
303
SPE 2011
xxi
Quarta, 28/09/2011
MINI-CURSO
Sala Atlântico, 09:00–16:30
Análise de Dados Longitudinais
M. Salomé Cabral1 e M. Helena Gonçalves2
1
CEAUL, Departamento de Estatı́stica e Investigação Operacional da Faculdade de Ciências da
Universidade de Lisboa, [email protected]
2 CEAUL, Departamento de Matemática da Faculdade de Ciências e Tecnologia da Universidade
do Algarve, [email protected]
Resumo: Os dados longitudinais surgem sempre que observações repetidas da variável resposta são
obtidas ao longo do tempo para cada indivı́duo, num ou mais grupos em estudo. As investigações
envolvendo este tipo de dados são referidas como estudos longitudinais e desempenham um papel
fundamental nas mais variadas áreas de conhecimento na medida em que é possı́vel caracterizar as
alterações dentro do indivı́duo e relacionar essas alterações com um conjunto de factores que não o
tempo. Os estudos longitudinais constituem, assim, uma importante estratégia na investigação em
várias áreas cientı́ficas.
Existe uma grande variedade de desafios na análise de dados longitudinais. Por um lado, devido à
sua natureza, as medições repetidas provenientes de estudos longitudinais são multivariadas e têm
uma estrutura complexa de autocorrelação cuja modelação desempenha um papel fundamental na
análise deste tipo de dados. Por outro, a natureza da variável resposta pode ser contı́nua ou discreta,
condicionando a metodologia a utilizar e, no caso discreto, obrigando a ter em conta os próprios
objectivos da inferência. Todos estes factores contribuem para a importância deste tema não só do
ponto de vista teórico mas também prático, tendo-se assistido nos últimos 20 anos a um grande
desenvolvimento das metodologias estatı́sticas para analisar dados longitudinais.
Neste curso serão apresentados os conceitos fundamentais da Análise de Dados Longitudinais assim
como os diferentes modelos e métodos de análise usados nos diversos tipos de dados longitudinais.
Exemplos das áreas da biologia e da medicina irão ilustrar estas metodologias, usando-se para o
efeito bibliotecas do programa R.
Palavras–chave: Dados longitudinais contı́nuos, dados longitudinais discretos, efeitos aleatórios,
heterocedasticidade, correlação, modelo marginal, modelo com efeitos aleatórios
SPE 2011
1
Quarta, 28/09/2011
Sessão Plenária I
Sala Premium, 17:30–18:25
O lado não matemático da Estatı́stica
João A. Branco
Departamento de Matemática e CEMAT, IST, UTL, [email protected]
Resumo: Um olhar, mesmo que despretencioso, para a história da Estatı́stica, só para recordar o
que é, quais os seus objectivos e métodos de trabalho, diz-nos que a presença da matemática é,
de um modo geral, uma presença constante e indispensável na actividade estatı́stica e no próprio
desenvolvimento da Estatı́stica. Mas, para existir e actuar, a Estatı́stica depende de vários outros
saberes que, aqui, colocamos num outro lado, o lado não matemático da Estatı́stica. A tradição,
dando ênfase aos aspectos matemáticos, tem levado a que seja dada uma atenção insuficiente ao
lado não matemático.
Nesta apresentação espreitamos o lado não matemático da Estatı́stica para ver e saborear, com exemplos de análises reais, alguns desses saberes indispensáveis, também eles, ao trabalho estatı́stico.
Concluı́mos deixando: (i) a certeza de que uma condição para o sucesso das boas análises está em
não esquecer qualquer dos dois lados que formam os pilares da Estatı́stica e (ii) a preocupação de
que um olhar demasiado enviesado, para um ou outro dos lados, não só empobrece a análise como
pode trazer consequências negativas para outros aspectos da actividade, como é o caso do ensino da
Estatı́stica.
Palavras–chave: Matemática, estatı́stica, ensino da estatı́stica
SPE 2011
Mesa: Fernando Rosado
3
Quinta, 29/09/2011
Coeficiente de concordância correlacional: use mas não abuse
Júlia Teles
CIPER e Secção de Métodos Matemáticos, Faculdade de Motricidade Humana, Universidade Técnica
de Lisboa, [email protected]
Resumo: Avaliar a reprodutibilidade de uma experiência, método ou instrumento, ou a fiabilidade
entre juı́zes é um assunto que tem interessado diversos investigadores, nomeadamente nas áreas da
Saúde e do Desporto. Lin (1989, 1992) desenvolveu um ı́ndice, o Coeficiente de Concordância
Correlacional, para quantificar a concordância entre duas avaliações. Lin (1989) e Barnhart et al.
(2002) apresentam uma generalização desta medida para mais de duas avaliações. Quando a variabilidade entre indivı́duos é substancialmente superior à variabilidade entre avaliações esta medida
sobrestima o verdadeiro valor da concordância. Alguns exemplos ilustrando esta situação, assim
como algumas soluções para identificar e ultrapassar este problema irão ser apresentados.
Palavras–chave: Reprodutibilidade, coeficiente de concordância correlacional
Introdução
Sejam X1 , . . . , Xm as variáveis aleatórias que representam as m avaliações de uma caracterı́stica
medida numa escala contı́nua, para um indivı́duo seleccionado aleatoriamente numa determinada
população. Lin (1989) expressa o grau de concordância entre as variáveis X j e Xk à custa do correspondente valor esperado do quadrado da diferença, i.e.,
E[(X j − Xk )2 ] = (µ j − µk )2 + (σ 2j + σk2 − 2σ jk ) ,
onde µ j = E(X j ), σ 2j = var(X j ) e σ jk = cov(X j ,Xk ), com j,k = 1,2, . . . , m e j 6= k. Se X j e Xk estiverem em concordância perfeita, então E[(X j − Xk )2 ] = 0. De modo a obter um ı́ndice no intervalo
[−1,1], Lin (1989) propôs o Coeficiente de Concordância Correlacional, ρ cjk , definido por
ρ cjk = 1 −
2σ jk
E[(X j − Xk )2 ]
=
.
2
E[(X j − Xk ) | X j ,Xk são não correlacionadas] (µ j − µk )2 + (σ 2j + σk2 )
Este coeficiente pode ser escrito como o produto de duas componentes, ρ cjk = ρ ×Cb , em que ρ , o
coeficiente de correlação linear de Pearson, é a componente de precisão, e Cb é a componente de
exactidão, que quantifica o desvio da recta de regressão linear relativamente à recta de concordância
(bissectriz dos quadrantes ı́mpares).
Coeficiente de Concordância Correlacional Global
Diversas generalizações deste coeficiente têm sido propostas para situações de múltiplas avaliações
(e.g., Lin, 1989; King e Chinchilli, 2001; Barnhart et al., 2002). Argumentando que, neste caso,
faz sentido usar a variabilidade inter-avaliações, V = ∑mj=1 (X j − X)2 /(m − 1), para descrever a discordância entre avaliadores, instrumentos, etc., Barnhart et al. (2002) apresentam o Coeficiente de
SPE 2011
Mesa: A. Pedro Duarte Silva
5
Quinta, 29/09/2011
Concordância Correlacional Global, ρoc , para quantificar a concordância entre múltiplas avaliações,
ρoc = 1 −
E(V )
.
E(V | X1 ,X2 . . . , Xm são não correlacionadas]
m
2
Como V = ∑m−1
j=1 ∑k= j+1 (X j − Xk ) /(m(m − 1)), então
ρoc
=
m
c
∑m−1
j=1 ∑k= j+1 w jk ρ jk
m
∑m−1
j=1 ∑k= j+1 w jk
,
sendo w jk = (µ j − µk )2 + (σ 2j + σk2 ). Este ı́ndice não é mais do que uma média dos Coeficientes
de Concordância Correlacional entre os diversos pares de variáveis, ρ cjk , ponderada por w jk . Representando por µ o valor médio global, ρoc pode ser escrito em função dos valores médios, variâncias
e covariâncias,
ρoc
=
m
2 ∑m−1
j=1 ∑k= j+1 σ jk
(m − 1) ∑mj=1 σ 2j + m ∑mj=1 (µ j − µ )2
=
m
2 ∑m−1
j=1 ∑k= j+1 σ jk
m
2
(m − 1) ∑mj=1 σ 2j + ∑m−1
j=1 ∑k= j+1 ( µ j − µk )
.
Utilizando o método dos momentos, obtém-se, para estimador de ρoc ,
ρ̂oc
=
m
2 ∑m−1
j=1 ∑k= j+1 S jk
(m − 1) ∑mj=1 S2j + m ∑mj=1 (Y j −Y )2
,
onde Y j , S2j e S jk são, respectivamente, a média, a variância e a covariância amostrais, e Y é a média
global. Várias abordagens têm sido propostas para a estimação do erro standard de ρ̂oc : aproximação
à distribuição normal com transformação-Z de Fisher (Lin, 1989), equações de estimação generalizadas (Barnhart e Williams, 2001), estatı́stica-U (King e Chinchilli, 2001) e bootstrap (e.g.,
Barnhart et al., 2002).
Nota Final
Quando a variabilidade entre indivı́duos é substancialmente superior à variabilidade entre avaliações
o Coeficiente de Concordância Correlacional sobrestima a concordância. Por isso, use mas não
abuse.
Bibliografia
[1] Barnhart, H.X., Haber, M. e Song, J.L. (2002). Overall concordance correlation coefficient for
evaluating agreement among multiple observers. Biometrics, 58, 1020–1027.
[2] Barnhart, H.X. e Williamson, J.M. (2001). Modeling concordance correlation via GEE to
evaluate reproducibility. Biometrics, 57, 931–940.
[3] King, T.S. e Chinchilli, V.M. (2001). A generalized concordance correlation coefficient for
continuous and categorical data. Statistics in Medicine, 20, 2131–2147.
[4] Lin, L.I.-K. (1989). A concordance correlation coefficient to evaluate reproducibility. Biometrics, 45, 255–268.
[5] Lin, L.I.-K. (1992). Assay validation using the concordance correlation coefficient. Biometrics, 48, 599–604.
SPE 2011
6
Quinta, 29/09/2011
Early identification of students at risk of failure in the first
year of medical degree
Irina Kislaya1 , Miguel Portela2 , Patrı́cio Costa1 , Manuel João Costa1 e Maria Conceição Serra3
1
School of Health Sciences, University of Minho,
{irinakislaya,pcosta,mmcosta}@ecsaude.uminho.pt
2 School of Economics and Management, University of Minho, [email protected]
3 School of Science, Dep. Math. and Applications, University of Minho, [email protected]
Abstract: Academic failure is a frequent phenomena in medical education, with huge impact both
on students and medical school, and yet it is poorly understood. For the student, failure is a serious
source of distress and demotivation. For the medical schools, it is an issue of organizational, financial and academic accountability. Failure represents increased costs with students’ training and also
delays their entrance into the labor market.
The first year in the university is often daunting for students and rates of failure in this year are
often the highest. Several studies in the USA and UK indicate that medical students who start failing in first year courses continue to struggle along the degree and become poor doctors. The most
effective way of remediation of persistent failure is to ensure that “academically at risk” students
are identified very early in the degree allowing medical schools to take preventive measures and to
work out solutions for these students.
The main goal of this study is to develop a statistical model that flags, as early as possible, students
at risk of failure in the first year of medical degree. To achieve this goal, administrative data related
to first year students of the School of Health and Sciences of Minho University (3 entry cohort) is
analyzed. The data consists of individual measures of academic performance in first year courses,
high school grade point average, socio-demographic and personality variables collected annually
and thus available from of the School’s longitudinal database.
At Minho University, the first year study plan of the undergraduate medical program comprises
seven courses, organized sequentially along the academic year. In the ten years of existence of the
program, it became clear that “Functional and Organic Systems I”, course (FOSI, 25 ECTS) had
the highest rates of failure (greater than 25%). Furthermore, failure in FOSI results in a great cost
to students, once success in this course is essential for success in subsequent courses: “Functional
and Organic Systems II”, and “Functional and Organic Systems III”, taught at the second year of
the degree. Therefore, FOSI was chosen as criteria for failure in the analysis.
In order to determine which factors influence the academic performance in the first year course with
the highest failure rates, we have used several statistical tools, namely: multivariate logistic regression, discriminant analysis and classification trees.
Keywords: Logistic regression, discriminant analysis, medical students, academic performance
Acknowledgements: FCT - Fundação para a Ciência e Tecnologia (PT DC/ESC/65116/2006)
SPE 2011
7
Quinta, 29/09/2011
Bibliography
[1] Challis, M., Fleet, A. and Basyone, G. (1999). An accident waiting to happen? A case for
medical education. Medical Teacher, 21, 582–585.
[2] Ferguson, E., James, D. and Madeley, L. (2002). Factors associated with success in medical
school and in a medical career: systematic review of the literature. BMJ, 324, 952–957.
[3] Hastie, T., Tibshirani, R. and Friedman, J. (2001). The Elements of Statistical Learning. Data
mining, Inference, and Prediction. Springer-Verlag.
[4] Hosmer, D.W. and Lemeshow, S. (2000). Applied Logistic Regression. 2nd ed., Wiley.
[5] Huberty, C.J. (1994). Applied Discriminant Analysis. Wiley.
[6] Lievens, F., Coetser, P., De Fruyt, F. and De Maeseneer, J. (2002). Medical Students’ personality characteristics and academic performance: a five-factor model perspective. Medical
Education, 36, 1050–1056.
SPE 2011
8
Quinta, 29/09/2011
Estudo de outliers em dados forenses
Manuela Figueira Neves1 e Fernando Rosado2
1
2
Instituto Politécnico da Guarda, CEAUL e UDI/IPG , [email protected]
Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL, [email protected]
Resumo: A Estatı́stica Forense é um domı́nio muito recente inserido no âmbito da Ciência Estatı́stica. No último quarto do século passado tornou-se evidente a sua importância na ciência forense e na criminalı́stica, tendo já entrado nos temas de topo, quer no domı́nio cientı́fico quer no
campo profissional. Têm sido várias as contribuições para o estudo de observações outliers em
ambiente forense. Neste trabalho apresentamos diversas metodologias estatı́sticas para o estudo de
outliers assim como algumas aplicações a dados forenses.
Palavras–chave: Estatı́stica forense, outliers, análise bayesiana
Introdução
Em qualquer amostra ou conjunto de dados estatı́sticos é possı́vel a observação de valores discordantes. O estudo desse tipo de observação pode ser levado a cabo segundo duas abordagens distintas
e antagónicas: a tradicional e a generativa (Rosado, 1984). Na abordagem tradicional o objectivo
principal do estudo de outliers é testar uma observação como discordante. A observação a testar testada é previamente escolhida pelo analista. Esta é a primeira caracterı́stica de subjectividade desta
análise, dita tradicional. Pelo contrário, no estudo proposto em Rosado (1984, 2006) introduz-se objectividade na análise dos valores discordantes de uma amostra de dados estatı́sticos. A observação,
eventualmente, decidida como outlier não é fixada pelo analista a priori. A problemática do estudo
de observações discordantes será conduzida no ambiente da Estatı́stica Forense.
Outliers em Estatı́stica Forense
Na sequência dos primeiros resultados de Lindley (1977) e seguindo métodos de Aitken e Taroni
(2004), Aitken et al. (2007) usam a razão de vantagens em dois nı́veis para estudar a evidência. As
chances constituem um ponto de partida para a discussão na actividade forense. Mas, a comparação
de hipóteses é sempre apoiada e decidida com base em observações. Em qualquer amostra de dados
estatı́sticos, e de acordo com o ponto de vista bayesiano, nenhuma observação deve ser rejeitada.
Neste trabalho proceder-se-á à identificação de observações outliers de dados analisados em Aitken
e Lucy (2004). Estes dados referem-se a fragmentos de vidro de janelas partidas que foram analisados em relação à sua composição. Tais observações serão objecto de testes formais para aferir
da sua condição de outlier, assumindo a normalidade dos dados. Ainda na hipótese de normalidade
serão também objecto de estudo os dados construı́dos por Evett (1977).
Agradecimentos: Esta investigação é parcialmente financiada pela FCT/OE.
SPE 2011
9
Quinta, 29/09/2011
Bibliografia
[1] Aitken, C.G.G. e Lucy, D. (2004). Evaluation of trace evidence in the form of multivariate
data. Applied Statistics, 53, 109–122.
[2] Aitken, C.G.G., Shen, Q., Jensen, R. e Hayes, B. (2007). The evaluation of evidence for
exponentially distributed data. Computational Statistics and Data Analysis, 51, 5682–5693.
[3] Aitken, C.G.G. e Taroni, F. (2004). Statistics and Evaluation of Evidence for Forensic Scientists. Wiley.
[4] Barnett, V. e Lewis, T. (1994). Outliers in Statistical Data. Wiley.
[5] Evett, I.W. (1977). The interpretation of refractive index measurements. Forensic Science,
209–217.
[6] Lindley, D.V. (1977). A problem in forensic science. Biometrika, 207–213.
[7] Paulino, D., Amaral-Turkman, A. e Murteira, B. (2003). Estatı́stica Bayesiana. Fundação Calouste Gulbenkian.
[8] Rosado, F. (1984). Existência e detecção de outliers - Uma abordagem metodológica. Tese de
Doutoramento, Universidade de Lisboa.
[9] Rosado, F. (2006). Outliers em Dados Estatı́sticos. Edições SPE.
[10] Taroni, F., Bozza, S., Biedermann, A., Garbolino, P. e Aitken, C.G.G. (2010). Data Analysis
in Forensic Science - a Bayesian Decision Perspective. Wiley.
SPE 2011
10
Quinta, 29/09/2011
Biostatı́stica I
Sala Dinastia, 09:00–10:00
Comparação de intervalos de confiança para sensibilidades e
especificidades
Ana Subtil1 , M. Rosário de Oliveira1 e Luzia Gonçalves2
1
Departamento de Matemática e CEMAT, Instituto Superior Técnico, Universidade Técnica de
Lisboa, {asubtil,rsilva}@math.ist.utl.pt
2 Unidade de Saúde Pública Internacional e Bioestatı́stica, Instituto de Higiene e Medicina Tropical,
Universidade Nova de Lisboa e CEAUL, [email protected]
Resumo: A estimação intervalar de uma proporção é uma questão de grande relevância prática,
como demonstra a presença generalizada deste tópico no ensino introdutório da Estatı́stica. Embora
a divulgação e utilização do intervalo de confiança de Wald seja prevalecente, as suas limitações têm
sido apontadas por diversos autores [1, 2, 3, 4]. Estes trabalhos identificam e comparam métodos
alternativos de construção de intervalos de confiança com propriedades desejáveis e, deste modo,
fornecem orientações relativamente às escolhas mais adequadas a cada caso prático especı́fico.
A sistemática necessidade de avaliação do desempenho de testes de diagnóstico, nomeadamente motivada pelo permanente surgimento de novos testes, suscita a construção de intervalos de confiança
associados a indicadores de desempenho dos testes. A sensibilidade, que é a probabilidade do
resultado do teste ser positivo quando aplicado a um indivı́duo doente, e a especificidade, que corresponde à probabilidade do resultado ser negativo quando aplicado a um indivı́duo não doente, são
duas das medidas de desempenho mais utilizadas. A sensibilidade (especificidade) consiste numa
probabilidade condicional e o estimador de máxima verosimilhança desta probabilidade define-se
em função do número de doentes (não doentes) em estudo, que é uma variável aleatória dependente da prevalência da doença. Neste contexto, a probabilidade de cobertura e o valor esperado
do comprimento do intervalo de confiança, critérios utilizados de forma recorrente na apreciação
de diferentes métodos de estimação intervalar [3, 4], têm de ser redefinidos. Ignorando esta necessidade, as conclusões dos trabalhos que avaliam diferentes métodos de construção de intervalos de
confiança não são necessariamente válidas para a sensibilidade e a especificidade.
No presente trabalho, a probabilidade de cobertura e o valor esperado do comprimento do intervalo
de confiança são redefinidos e utilizados na comparação de métodos de construção de intervalos
de confiança para a sensibilidade e a especificidade de um teste de diagnóstico. A selecção dos
métodos teve em consideração trabalhos anteriores sobre o problema da estimação intervalar de uma
proporção binomial [1, 2, 3, 4] e recaiu sobre os seguintes métodos: Clopper-Pearson, bayesiano
com distribuição a priori uniforme e de Jeffreys, Wilson (ou Score), Wald, Anscombe, AgrestiCoull, mid-P e Wald. Os méritos e limitações de cada método são debatidos e, apesar da dificuldade
em identificar o melhor método de estimação intervalar em todas as circunstâncias, os métodos de
Wilson e Jeffreys conduzem a resultados promissores.
Palavras–chave: Intervalo de confiança, probabilidade de cobertura, sensibilidade, especificidade
Agradecimentos: Trabalho parcialmente financiado pela FCT através do projecto PTDC/SAUESA/81240/2006.
SPE 2011
Mesa: Manuel Scotto
11
Quinta, 29/09/2011
Biostatı́stica I
Bibliografia
[1] Agresti, A. e Coull, B.A. (1998). Approximate is better than “exact” for interval estimation of
binomial proportions. American Statistician, 52, 119–126.
[2] Brown, L.D., Cai, T.T. e Dasgupta, A. (2002). Confidence intervals for a binomial proportion
and asymptotic expansions. The Annals of Statistics, 30, 160–201.
[3] Newcombe, R. (1998). Two-sided confidence intervals for the single proportion: comparison
of seven methods. Statistics in Medicine, 17, 857–872.
[4] Pires, A.M. e Amado, C. (2008). Interval estimates for a Binomial proportion: comparison of
twenty methods. REVSTAT, 6, 165–197.
SPE 2011
Mesa: Manuel Scotto
12
Quinta, 29/09/2011
Biostatı́stica I
Estimador não paramétrico, condicional ao sexo, para a curva
ROC do CRIB
Filipa Mourão1 , Ana Braga2 e Pedro Oliveira3
1
Instituto Politécnico de Viana do Castelo, [email protected]
Universidade do Minho, [email protected]
3 Instituto de Ciências Biomédicas Abel Salazar, [email protected]
2
Resumo: Em investigação médica, a curva ROC (Receiver Operating Characteristic) é uma técnica
muito bem aceite para avaliar o desempenho de um teste de diagnóstico, sendo a AUC (Area Under
Curve) o ı́ndice mais usado para avaliar a qualidade desse desempenho. No entanto, em algumas
situações, o desempenho do teste de diagnóstico, a própria curva ROC e a AUC pode ser fortemente
influenciado pela presença de covariáveis, sejam elas contı́nuas ou categóricas (López-de-Ullibarri
et al., 2007). Por definição, a curva ROC é a representação gráfica, no plano unitário, dos pares de
valores sensibilidade ou Fracção de Verdadeiros Positivos (FVP) e 1-especificidade ou Fracção de
Falsos Positivos, ordenadas e abcissas, respectivamente, obtidos ao considerar todos os possı́veis
valores de corte da escala, proporcionando uma representação global da exactidão dessa escala.
Uma curva ROC é deste modo uma descrição empı́rica da capacidade da escala poder discriminar
entre dois estados (anormal, normal) na qual cada ponto traduz um compromisso diferente entre
FVP e FFP obtido, por exemplo, pela adopção de valores de corte diferentes (Metz, 1986). A escala
de gravidade clı́nica, CRIB - Clinical Risk Index for Babies, surgiu em 1993 para prever a mortalidade de recém-nascidos com menos de 32 semanas de gestação (Dorling et al., 2005). Em trabalhos
anteriores (Braga et al., 1997) este ı́ndice foi avaliado como apresentando um bom desempenho na
avaliação do risco de falecimento para recém-nascidos de muito baixo peso (peso inferior a 1500
gr). Ilustraremos, neste trabalho, aplicando o método kernel para obter uma curva ROC suavizada,
como o peso ao nascer pode influenciar a escala CRIB na discriminação entre bebés com risco de
falecimento (anormais) e de sobrevivência (normais).
Palavras–chave: ROC (Receiver Operating Characteristic), CRIB (Clinical Risk Index for Babies),
kernel
Bibliografia
[1] Braga, A.C., Oliveira, P., e Gomes, A. (1997). Avaliação do risco de morte em recém-nascidos
de muito baixo peso: uma comparação de ı́ndices de risco baseada em curvas ROC. IV Congresso Anual da Sociedade Portuguesa de Estatı́stica. Editores: Luı́sa Canto e Castro, Dinis
Pestana, Rita Vasconcelos e Isabel Fraga Alves. Edições Salamandra.
[2] Dorling, J.S., Field, D.J., e Manktelow, B. (2005). Neonatal disease severity scoring systems
Arch. Dis. Child. Fetal Neonatal, 90:F11-F16.
[3] López-de-Ullibarri, I., Cao, R., Cadarso-Suárez, C., Lado, M.J. (2007). Nonparametric estimation of conditional ROC curves: application to discrimination tasks in computerized detection
of early breast cancer. Preprint submitted to Elsevier.
[4] Metz, C.E. (1986). Statistical Analysis of ROC Data in Evaluating Diagnostic Performance.
Multiple Regression Analysis: Applications in the Health Sciences. American Institute of Physics, 13:365-384.
SPE 2011
Mesa: Manuel Scotto
13
Quinta, 29/09/2011
Biostatı́stica I
Diagnóstico de sı́ndrome Brugada: Uma lufada de ar fresco!
Carla Henriques1 , Ana Cristina Matos1 e Luı́s Ferreira dos Santos2
1
2
Escola Sup. Tecnologia e Gestão, Instituto Politécnico de Viseu, {carlahenriq,amatos}@estv.ipv.pt
Serviço de Cardiologia, Hospital São Teotónio de Viseu, [email protected]
Resumo: A Sı́ndrome Brugada (SB) é uma doença com carácter hereditário que predispõe à morte
súbita cardı́aca (MSC) indivı́duos sem cardiopatia estrutural. O seu diagnóstico é feito detetando
o padrão tı́pico no electrocardiograma, dito padrão Tipo 1 de Brugada, mas este nem sempre é
visı́vel, o que torna o diagnóstico difı́cil. Neste trabalho foram pesquisadas outras medidas electrocardiográficas, independentes do padrão tı́pico, que tivessem bom potencial para diferenciar os
portadores e não portadores da mutação genética responsável pela doença. A combinação destas
medidas através de modelos lineares permitiu potenciar a capacidade de discriminação entre os dois
grupos, obtendo-se soluções de combinação destas medidas cujas curvas ROC associadas têm AUC
(área sob a curva ROC) superior a 0.9, o que se traduz numa capacidade admirável para discriminar
os dois grupos. Assim, estas soluções afiguram-se alternativas eficazes no diagnóstico de SB que
poderão evitar a procura de um padrão Tipo 1 num electrocardiograma.
Palavras–chave: Curvas ROC, modelos de regressão, sensibilidade, especificidade
Apresentação do problema em estudo e soluções pesquisadas
A Sı́ndrome de Brugada (SB) é uma doença caracterizada por disfunção dos canais de sódio cardı́acos que resulta de uma mutação genética, na maioria dos casos herdada de um dos progenitores,
e que predispõe a arritmias cardı́acas malignas e a paragem cardı́aca súbita. Estima-se que esta
doença seja responsável por pelo menos 20% dos casos de morte súbita cardı́aca em indivı́duos com
coração estruturalmente normal e por pelo menos 4% de todos os casos de morte súbita cardı́aca
(MSC) (Antzelevitch et al., 2005), o que, claramente, explica o crescente interesse cientı́fico à sua
volta. Na verdade, ela é uma entidade clı́nica muito recente, já que foi documentada pela primeira
vez em 1992 por Brugada e Brugada (1992) e em Portugal em 1999 em Cavaco et al. (1999), mas o
número de publicações a seu respeito tem crescido consideravelmente nos últimos anos.
Os indivı́duos portadores da mutação genética podem nunca vir a ter sintomas, no entanto, o primeiro sintoma da doença pode ser a morte súbita cardı́aca, sendo por isso uma espécie de “ameaça”,
por vezes “silenciosa”, nos familiares de portadores da doença. A única forma de eliminar a ameaça
de morte súbita é a implantação de um cardioversor-desfibrilhador implantável (CDI), mas este
é muito caro, bastante desconfortável para o doente e pode levar a complicações, sendo por isso
aconselhável apenas a doentes de alto risco.
O diagnóstico da doença é usualmente feito através de um electrocardiograma (ECG) no qual se
detecta um padrão caracterı́stico, designado por padrão Tipo 1 ou ECG de Brugada, em associação
com outros critérios clı́nicos fáceis de identificar. Uma grande dificuldade associada a este meio
de diagnóstico é detectar o padrão Tipo 1 num electrocardiograma, pois este é frequentemente intermitente, isto é, indivı́duos doentes apresentam intermitentemente ECGs normais e ECGs com
SPE 2011
Mesa: Manuel Scotto
15
Quinta, 29/09/2011
Biostatı́stica I
algum padrão Brugada. Os testes genéticos também não são uma solução adequada, pois são muito
dispendiosos e por vezes é difı́cil detectar a mutação responsável. É neste contexto que se enquadra
o presente trabalho. A partir da análise de registos de 113 elementos de duas famı́lias portuguesas,
com 42 portadores de mutação genética, pesquisaram-se medidas electrocardiográficas que pudessem discriminar entre os portadores da mutação genética e não portadores, com vista a efectuar um
diagnóstico sem ter de recorrer à detecção do padrão Brugada. Através do recurso a curvas ROC,
e outras técnicas estatı́sticas, foi possı́vel identificar cinco medidas electrocardiográficas com bom
poder para discriminar entre os portadores e não portadores da mutação. A questão natural que se
seguiu foi a de combinar a informação destas medidas, da forma mais eficiente possı́vel, de modo a
aproveitar o potencial de cada uma para a discriminação entre os dois grupos. Para isso foram explorados modelos de análise univariada e multivarida, nomeadamente modelos de regressão logı́stica.
Como resultado deste esforço, perspectivam-se neste trabalho formas de combinar estas medidas,
que neste conjunto de dados se revelaram mais eficientes do que a detecção do padrão Brugada.
As análises feitas incluı́ram não só as cinco medidas per si, mas também possı́veis interacções entre elas, a avaliação do problema de escala das varáveis e avaliação do ajustamento dos modelos
de regressão logı́stica. Na avaliação destes modelos recorremos também à metodologia bootstrap.
Obtivemos soluções cujas curvas ROC apresentam uma área superior a 0.9, o que sugere uma capacidade notável para discriminar entre os dois grupos (Hosmer e Lemeshow, 2000). Pelo desempenho
admirável demonstrado nos dados disponı́veis, estas soluções motivam claramente a sua exploração
futura com dados de mais doentes e mais famı́lias.
Bibliografia
[1] Antzelevitch C., Brugada P., Borggrefe M., Brugada J., Brugada R., Corrado D., Gussak I.,
LeMarec H., Nademanee K., Perez Riera A.R., Shimizu W., Schulze-Bahr E., Tan H. e Wilde,
A. (2005). Brugada syndrome: report of the second consensus conference: endorsed by the
Heart Rhythm Society and the European Heart Rhythm Association. Circulation, 111, 659670.
[2] Brugada, P. e Brugada, J. (1992). Right bundle branch block, persistent ST segment elevation
and sudden cardiac death: a distinct clinical and electrocardiographic syndrome. A multicenter
report. J. Am. Coll. Cardiol., 20, 1391-1396.
[3] Cavaco, D., Adragão, P., Mendes, M., Morgado, F., Parreira, L., Bonhorst, D. e Seabra-Gomes,
R. (1999). The Brugada syndrome–a clinical case. Rev Port Cardiol., 18(2), 169-173.
[4] Hosmer, D.W., Lemeshow, S. (2000). Applied Logistic Regression (2nd Edition). John Wiley
and Sons, New York.
SPE 2011
Mesa: Manuel Scotto
16
Quinta, 29/09/2011
Processos Estocásticos I Sala Caminho Real, 09:00–10:00
Avaliação do desempenho de filas M X /G − G/1/n
Fátima Ferreira1 , António Pacheco2 e Helena Ribeiro3
1
Universidade de Trás-os-Montes e Alto Douro, CM–UTAD, [email protected]
IST, Universidade Técnica de Lisboa, CEMAT, [email protected]
3 ESTG, Instituto Politécnico de Leiria, CEMAT, [email protected]
2
Resumo: Neste trabalho, avaliamos o desempenho de filas M X /G − G/1/n em perı́odos de ocupação contı́nua, i.e., perı́odos ininterruptos iniciados no instante em que um cliente começa a ser
servido e terminados no subsequente instante em que o sistema fica vazio. Estas filas são dinâmicas
no sentido de serem capazes de adaptar o seu tipo de serviço em situações de congestionamento.
Palavras–chave: Filas M X /G − G/1/n, misturas de Poisson, perı́odos de ocupação contı́nua
Motivação e breve introdução aos sistemas oscilantes
Filas de espera modelam muitas situações da vida quotidiana. De facto, em qualquer situação
onde num dado momento existam clientes a requerer um serviço em número superior ao número
de servidores há formação de uma fila, fı́sica ou conceptual. Estas filas de espera cumprem uma
missão de organização social indispensável na vida actual, permitindo às entidades uma prestação
de serviços ordeira e mais justa. Nelas os clientes esperam pelo serviço de acordo com a disciplina
da fila, são servidos obedecendo à disciplina de serviço e, em seguida, deixam o sistema. Com
raı́zes associadas à modelação de redes telefónicas [4], as filas de espera encontram hoje em dia
aplicações nas mais diversas áreas e actividades (veja-se, e.g., [1, 3, 6]).
Desde os modelos clássicos de filas de espera – tradicionalmente com um único servidor, chegadas
individuais de clientes e capacidade infinita da fila de espera – inúmeras extensões têm sido propostas na literatura visando a incorporação de caracterı́sticas mais adequadas à modelação de situações
reais. Desde logo a consideração de sistemas com capacidade finita e chegadas em grupo, relevantes
para modelar, e.g., chegadas de clientes a um restaurante ou chegadas de cartas a um posto dos correios. A relevância dos sistemas com chegadas em grupo e capacidade finita (como os considerados
neste trabalho) está bem patente na quantidade de trabalhos apresentados na literatura respeitantes
a estes sistemas (veja-se, e.g., [3] e referências incluı́das).
Na perspectiva do cliente, a avaliação do desempenho das filas passa sobretudo pelo estudo (da
distribuição) do tamanho da fila e dos tempos de espera no sistema. Numa avaliação do desempenho
orientada para a perspectiva do servidor é relevante estudar-se, para além das medidas referidas, a
duração de perı́odos de ocupação contı́nua do sistema e os números de clientes servidos e de clientes
perdidos nesses mesmos perı́odos.
No dimensionamento de uma fila pretende-se que as probabilidades de perda de clientes e os tempos
de espera na fila sejam baixos e que a utilização dos servidores seja elevada. De facto, se por um lado
filas ou perı́odos de espera longos acarretam custos elevados, com inerente degradação do serviço e
consequente perda de clientes, do ponto de vista do sistema é dispendioso manter um servidor com
baixa utilização. Contudo, é bem conhecido que com filas de espera regulares é impossı́vel conciliar
os dois objectivos referidos, uma vez que não é possı́vel reduzir perdas de clientes e tempos de
SPE 2011
Mesa: Paula Milheiro de Oliveira
17
Quinta, 29/09/2011
espera na fila sem que os servidores passem por perı́odos de fraca utilização (veja-se, e.g., [7, 8]).
Uma das formas de aumentar a utilização do servidor, mantendo as perdas e os tempos de espera
na fila controlados, é considerar filas de espera dinâmicas nas quais as caracterı́sticas de serviço
reagem à congestão do sistema, adaptando o tipo de serviço a situações de congestionamento ou de
rarefacção. Estas filas têm vindo a ser estudados por diversos autores (veja-se, e.g., [2, 5, 9]).
Neste trabalho, consideramos filas M X /G − G/1/n, com n = (n,a,b), no sentido da definição de
Chydzinski [2], com n, a e b inteiros tais que 0 ≤ a < b ≤ n. Estas são filas de capacidade finita, n,
às quais os clientes chegam em grupos segundo um processo de Poisson composto. Os clientes são
servidos por ordem de chegada por um único servidor, cujo mecanismo de serviço oscila entre duas
fases, 1 e 2, com diferentes distribuições de serviço, em função da evolução do número de clientes
no sistema. Especificamente, a evolução processa-se da seguinte forma: se num determinado instante o sistema está a operar na fase 1, o número de clientes no sistema é menor do que b e o sistema
permanece na fase 1 enquanto que o número de clientes no sistema se mantiver menor que b. No
preciso instante em que o número de clientes no sistema excede b − 1, o sistema passa a operar na
fase 2, permanecendo nesta fase até ao instante subsequente em que o número de clientes no sistema
passe a ser menor ou igual a a. Nesse instante o sistema passa de novo a operar na fase 1, e assim
sucessivamente.
Tirando partido da estrutura regenerativa markoviana destes sistemas, deduzimos neste trabalho um
procedimento recursivo na capacidade do sistema para o cálculo de medidas de desempenho de filas
M X /G − G/1/n em perı́odo de ocupação contı́nua, nomeadamente para o cálculo das distribuições
dos números de perdas de clientes e de clientes servidos nesses perı́odos. Computacionalmente, o
processo recursivo é de fácil implementação. Para ilustrar a sua eficácia, calculamos as medidas de
desempenho referidas para uma ampla variedade de filas com diferentes distribuições de serviço.
Bibliografia
[1] Boxma, O.J. e Syski, R. (1988). Queueing Theory and its Applications. Cwi Monographs,
North-Holland.
[2] Chydzinski A. (2003). The M − M/G/1-Type Oscillating Systems. Cybernetics and Systems
Analysis, 39(2), 316–324.
[3] Dshalalow, J.H.F. (1997). Frontiers in Queueing: Models and Applications in Science and
Engineering. Boca Raton, FL: CRC.
[4] Erlang, A.K. (1909). The Theory of Probabilities and Telephone Conversations. Nyt tidsskrift
for Matematik, B, 20, 33–39.
[5] Ferreira F., Pacheco A. e Ribeiro H. (2009). Analysis of Finite Oscillating GI X /M(n)/N Queueing Systems. Em Recent Advances in Stochastic Operations Research II (Editores, T. Dohi,
S. Osaki e K. Sawaki), 79–98.
[6] Golubchik, L. e Lui, J.C.S. (2002). Bounding of Performance Measures for Threshold-Based
Queuing Systems: Theory and Application to Dynamic Resource Management in Video-onDemand Servers. IEEE Transactions on Computers, 51(4), 353–372.
[7] Kleinrock, L. (1975). Queueing Systems. Volume I: Theory. Wiley.
[8] Medhi, J. (2003). Stochastic Models in Queueing Theory. Academic Press, Amsterdam.
[9] Takagi, H. (1985). Analysis of a finite-capacity M/G/1 queue with a resume level. Performance evaluation, 5(3), 197–203.
SPE 2011
18
Quinta, 29/09/2011
Quantifying stochastic introgression processes with hazard
rates
Maria Conceição Serra1 , Atiyo Ghosh2 and Patsy Haccou3
1
Department of Mathematics and Applications, Minho University, [email protected]
Institute of Environmental Sciences, Leiden University, [email protected]
3 Mathematical Institute, Leiden University, [email protected]
2
Abstract: Introgression is the permanent incorporation of genes from one population into another
through hybridization and backcrossing. It is currently of particular concern as a possible mechanism for the spread of modified crop genes to wild populations. The hazard rate is the probability
per time unit that such an escape event takes place, given that it has not happened before. It is a
quantitative measure of introgression risk that takes the stochastic elements inherent in introgression
processes into account. We present a methodology, based on multitype Galton-Watson branching
processes, to calculate the hazard rate for situations with time-varying gene flow from a crop to
a large recipient wild population. Several types of time-inhomogeneity are examined, including
deterministic periodicity as well as random variation. Furthermore, we examine the effects of an
extended fitness bottleneck of hybrids and backcrosses in combination with time-varying gene flow.
We discuss the implications of our results for crop management and introgression risk assessment.
Keywords: Branching process, invasion, transgene, random environment
Bibliography
[1] Ghosh, A., Serra, M.C. and Haccou, P., Quantifying stochastic introgression processes with
hazard rates. Submitted for publication.
[2] Serra, M.C. and Haccou, P. (2007). Dynamics of escape mutants, Theoretical Population Biology, 72, 167-178.
SPE 2011
19
Quinta, 29/09/2011
Conjuntos de Cantor com reparação aleatória
Maria de Fátima Brilhante1 , Dinis Pestana2 e Maria Luı́sa Rocha3
1
Universidade dos Açores e CEAUL, [email protected]
CEAUL, [email protected]
3 Universidade dos Açores, [email protected]
2
Resumo: Investigamos o efeito de reparações aleatórias, definidas como adjunção de um segmento
definido por mı́nimo e máximo de duas observações independentes de uma população com suporte
em [0,1], em cada etapa da construção iterativa de um conjunto aleatório de Cantor, admitindo independência das amostras usadas nas fases de supressão e reconstrução. A análise é feita em termos
do diâmetro esperado e do comprimento total esperado ao fim de um número fixo de ciclos do que
se obtém com e sem reparação.
Palavras–chave: Conjuntos de Cantor aleatórios, modelos beta, padrões de aleatoriedade em [0,1]
Introdução
Em importantes questões biológicas e industriais (treino de doentes com lesões cerebrais, recuperação de informação em unidades de armanazenamento danificadas por picos de corrente eléctrica),
quer a extensão dos estragos quer a capacidade de reparação são eventualmente aleatórios.
Aleixo e Pestana (2011) definiram extensões dos conjuntos de Cantor aleatórios, considerando que
em cada etapa a supressão de um conjunto (determinista ou aleatória, definida à custa de estatı́sticas
ordinais) é moderada por uma recuperação, eventualmente parcial, da zona destruı́da. Nesse estudo
inicial, a modelação quer do segmento que é suprimido quer do segmento que é recuperado foi feita
com betas com parâmetros escolhidos por conveniência de cálculo, e a avaliação dos benefı́cios de
reparar aleatoriamente foi feita em termos da dimensão de Hausdorff do fractal obtido como limite
da iteração do procedimento de destruição/reconstrução.
Em Aleixo et al. (2011) o estudo deste processo de random damage/repair foi orientado para a
avaliação do efeito de um número finito, em geral baixo, de ciclos de destruição/reconstrução.
Descrição de Fk no caso de destruição e reconstrução com o mesmo modelo
Partindo de F0 = [0,1], considerem-se ciclos de destruição/reconstrução com as seguintes regras:
1. Seja Fk =
Nk
[
Ci,k uma união de segmentos Ci,k , onde N1 =
i=1
Nk−1
independentes de N1 e Nk =
1 2 3
1
6
2
3
1
6
, N1,i são réplicas
∑ N1,i .
i=1
SPE 2011
21
Quinta, 29/09/2011
2. Fase de destruição: Em cada segmento Ci,k elimina-se um segmento intermédio delimitado pelos mı́nimo e máximo de dois pontos (X1 ,X2 ) gerados em Ci,k , com uma distribuição
seleccionada.
3. Fase de reparação: Gera-se uma amostra de tamanho 2 (Y1 ,Y2 ), independente de (X1 ,X2 ), e
identicamente distribuı́da, e une-se (Y1:2 ,Y2:2 ) a Ci,k − (X1:2 ,X2:2 ).
Este procedimento é facilmente generalizável para o caso de (X1 ,X2 ) e (Y1 ,Y2 ) não serem identicamente distribuı́das, apenas se perde a simplicidade de poder considerar (X1 ,X2 ,Y1 ,Y2 ) uma amostra
de tamanho 4 de uma mesma população, o que tem consequências logo a nı́vel da distribuição das
variáveis aleatórias de contagem Nk .
Avaliação dos benefı́cios da reparação aleatória
Um efeito perverso da reparação aleatória é a possibilidade de se reparar o que não está danificado
— como afinal acontece no nosso quotidiano, por exemplo quando se leva o carro à revisão e o
protocolo seguido leva a substituir velas, correia da ventoı́nha, etc., estejam ou não funcionais.
No contexto de conjuntos de Cantor aleatórios, comparamos (com simulação quando a abordagem
analı́tica não é possı́vel) o diâmetro e soma dos comprimentos dos segmentos, para alguns valores
moderados do número de ciclos do que ocorre no Cantor determinista clássico, nos Cantor aleatórios
obtidos usando estatı́sticas ordinais, e na extensão usando reparação aleatória. Além de se explorar
a situação em que destruição e reconstrução são betas, eventualmente com diferentes parâmetros,
aborda-se também o caso de parentes betinhas (cf. Brilhante et al. [4]) ou BetaBoop (cf. Brilhante
et al. [3]).
Agradecimentos: Investigação financiada por FCT/OE.
Bibliografia
[1] Aleixo, S. e Pestana, D. (2011). Stuttering Cantor-Like Random Sets. Em Luzar-Stiffler, ed.
Proc. ITI 2011, 33rd Int. Conf. Information Technology Interfaces (em impressão).
[2] Aleixo, S., Brilhante, M.F. e Pestana, D. (2011). General stuttering Beta(p,q) Cantor-like
random sets. ISI 2011, 58th Session of the International Statistical Institute (em impressão).
[3] Brilhante, M.F., Gomes, M.I. e Pestana, D. (2011). BetaBoop Brings in Chaos Em Skiadas,
C. H., ed., Proc. Chaos 2011, 4th Chaotic Modeling and Simulation International Conference
(em impressão).
[4] Brilhante, M.F., Pestana, D. e Rocha, M.L. (2011). Betices, Bol. Soc. Port. Mat.. (em impressão).
SPE 2011
22
Quinta, 29/09/2011
Extremos I
O problema do caixeiro viajante e a teoria de valores extremos
Manuel Cabral Morais1 e Tiago Salvador2
1
2
Departamento Matemática – CEMAT, Instituto Superior Técnico, [email protected]
Instituto Superior Técnico, [email protected]
Resumo: A simplicidade de definição, a diversidade de aplicações e a dificuldade de resolução do
problema do caixeiro viajante (PCV) constituem algumas das caracterı́sticas comuns à maior parte
dos problemas que têm vindo a atrair e intrigar os matemáticos. De facto, até hoje não é conhecido
nenhum algoritmo que consiga resolver este problema em tempo polinomial.
Neste trabalho as estimativas pontuais e intervalares do custo óptimo do PCV são calculadas com
base em custos mı́nimos obtidos em diversas execuções dos algoritmos 2 e 3-optimal e respectivas
variantes gananciosas. O modelo extremal considerado é o Weibull de mı́nimos tri-paramétrico,
cujo parâmetro de localização representa tal custo óptimo.
Palavras–chave: Problema do caixeiro viajante, algoritmo λ -optimal, Weibull de mı́nimos
O problema do caixeiro viajante
Considere-se um caixeiro viajante que pretende visitar uma única vez cada uma de N cidades de uma
dada lista, regressando à cidade donde partiu. Admita-se que ele conhece o custo da viagem entre
quaisquer duas cidades. O problema do caixeiro viajante (PCV) consiste em encontrar a sequência
de cidades tal que o custo total do percurso associado seja mı́nimo – percurso óptimo.
O PCV é um problema NP-difı́cil e como tal não é esperado encontrar nenhum algoritmo exacto que
resolva o PCV em tempo polinomial. Assim, foram propostos vários algoritmos que nem sempre
devolvem a solução óptima mas que permitem obter soluções razoáveis em tempo útil, constituindo
um compromisso entre a qualidade da solução obtida e o tempo que se demora a obtê-la. São disso
exemplo os algoritmos λ -optimais e respectivas variantes gananciosas.
O PCV e a teoria dos valores extremos
É também importante obter estimativas pontuais e intervalares para o custo da solução óptima baseado em resultados de n execuções de tais algoritmos. Este tipo de inferências requer a especificação
de um modelo probabilı́stico que caracterize o comportamento das observações recolhidas que neste
caso não passam de custos de soluções aproximadas do PCV. A ideia de usar o modelo extremal
Weibull de mı́nimos tri-paramétrico não é nova, tendo este modelo já sido utilizado por outros autores, dos quais se destacam Golden (1977), Golden e Alt (1979) e Los e Lardinois (1982). O custo
da solução óptima do PCV corresponderá ao parâmetro de localização desconhecido deste modelo
extremal.
SPE 2011
Mesa: Marta Ferreira
23
Quinta, 29/09/2011
Extremos I
Quanto às estimativas pontuais, calculamos as estimativas de máxima verosimilhança e, visto que
surgem algumas dificuldades na sua obtenção, recorremos também às alternativas propostas por
Zanakis (1979) e Wyckoff et al. (1980). No que diz respeito à estimação intervalar, fizemos uso dos
intervalos de confiança propostos por Golden e Alt (1979) e Los e Lardinois (1982), tirando partido
das estimativas pontuais.
Complementarmente, foi efectuada uma análise descritiva dos dados, realizados o teste de Kolmogorov-Smirnov para avaliar a qualidade do modelo extremal utilizado e o teste de Mann-Whitney para
identificar o algoritmo λ -optimal (ou a sua variante) responsável pelas soluções com menor custo
esperado.
Agradecimentos: O segundo autor agradece o apoio financeiro concedido pelo Programa Novos
Talentos em Matemática (Fundação Calouste Gulbenkian).
Bibliografia
[1] Golden, B.L. (1977). A statistical approach to the TSP. Networks, 7, 209–225.
[2] Golden, B. e Alt, F. (1979) Interval estimation of a global optimum for large combinatorial
problems. Naval Research Logistics Quaterly, 26, 69–77
[3] Lawler, E., Lenstra, J., Rinnooy Kan, A. e Shmoys, D. - editores (1985). The Traveling Salesman Problem: A Guide Tour of Combinatorial Optimization. John Wiley & Sons.
[4] Los, M. e Lardinois, C. (1982). Combinatorial programming, statistical optimization and the
optimal transportation problem. Transportation Research Part B: Methodological, 16, 89–124.
[5] Wyckoff, J., Bain, L. e Engelhardt, M. (1980). Some complete and censored sampling results
for the three-parameter Weibull distribution. Journal of Statistical Computation and Simulation, 11, 139–151.
[6] Zanakis, S. (1979). A simulation study of some simple estimators for the three parameter
Weibull distribution. Journal of Statistical Computation and Simulation, 9, 101–116.
SPE 2011
24
Quinta, 29/09/2011
Extremos I
Distribuição do máximo condicionada à soma aplicada em
testes quantitativos compostos
João Paulo Martins1 , Rui Santos1 e Ricardo Sousa2
1
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de
Estatı́stica e Aplicações da Universidade de Lisboa, {jpmartins, rui.santos}@estg.ipleiria.pt
2 Escola Superior de Tecnologia da Saúde de Lisboa do Instituto Politécnico de Lisboa, CEAUL —
Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
Resumo: Neste trabalho investigamos a distribuição do máximo, condicionada ao valor da soma,
em amostras conjuntas com o objectivo de definirmos limiares crı́ticos para testes quantitativos
compostos utilizando a metodologia de Dorfman (1943), considerando diferentes nı́veis de especificidade e de sensibilidade.
Palavras–chave: Teoria de Dorfman, distribuição de extremos condicionados a somas, sensibilidade, especificidade, variáveis quantitativas
A inspeção conjunta de unidades miscı́veis permite economizar substancialmente em áreas tais
como amostragem de aceitação ou análises clı́nicas conjuntas. As 50 páginas de bibliografia anotada, só na área de composite sampling, publicadas por Boswell et al (1996), evidenciam bem a
importância do tema.
A ideia original de Dorfman (1943), aplicada inicialmente a análises qualitativas conjuntas de sangue, é uma estratégia que se adequa apenas a casos em que se pretende determinar a presença
(positividade) ou ausência (negatividade) de determinada caracterı́stica nas unidades amostrais. A
extensão da metodologia de Dorfman não é porém imediata quando a positividade é determinada
por uma quantidade determinada na análise exceder um determinado patamar (ou, alternativamente,
ficar aquém de um limiar), um ponto de corte previamente determinado usando cohortes de doentes
e de não doentes para calibrar a análise por forma a ter valores aceitáveis de sensibilidade e de
especificidade. De facto, ao combinar várias amostras numa única para fazer uma análise conjunta,
estamos a somar quantidades, o que assintoticamente é modelável em termos de peso da soma das
caudas; por outro lado, assintoticamente o máximo e o mı́nimo dependem do peso de uma das caudas (direita e esquerda, respectivamente). Mas a velocidade de convergência quer da distribuição
da soma quer da distribuição de um extremo é frequentemente lenta, e a quantidade de unidades
amostrais que se devem combinar, que naturalmente depende da prevalência p da caracterı́stica que
se pretende detectar, é em geral pequeno. Assim, os resultados assintóticos — que começaram a
ser explorados por Chow e Teugels (1979), havendo actualmente uma vasta bibliografia sobre este
tema, veja-se de Haan e Ferreira (2006) — devem ser secundarizados relativamente a resultados
para miscigenação de um pequeno número de unidades amostrais, que em geral terão que ser tratados por Monte Carlo. Esta problemática tem vindo a ser tratada também por Sousa (2005, 2006,
2008).
Neste trabalho, investigamos os casos em que o resultado do teste pode ser modelado por uma
variável quantitativa X. A intenção de um teste individual é identificar se um determinado indivı́duo
possui uma quantidade dessa substância que ultrapasse um determinado limiar crı́tico l pré-fixado.
Neste quadro, tentamos estender a metodologia de Dorfman. Assim, considere-se a análise de uma
SPE 2011
25
Quinta, 29/09/2011
Extremos I
amostra composta X1 ∪ · · · ∪ Xn de n unidades amostrais. Os problemas considerados consistem em
determinar qual o valor ótimo de n que maximiza a eficiência, isto é, o valor ótimo que minimiza
o número esperado de testes de laboratório a realizar. Outra importante questão relaciona-se com a
identificação de um limiar crı́tico l ∗ que permita concluir que, se a quantidade de substância total
nessas n amostras S = ∑ni=1 Xi ultrapassa l ∗ , (S > l ∗ ), então com probabilidade superior a um valor
fixado existe pelo menos uma amostra tal que Xi > l.
Admitindo que a mistura de amostras é perfeita, a utilização de amostragem composta permite conhecer a quantidade total de substância presente nas n amostras, isto é, permite conhecer S. Assim,
a distribuição do max (X1 , · · · ,Xn ) condicionado ao conhecimento de S (de Haan e Ferreira, 2006)
assume particular importância na definição de l ∗ . No caso da distribuição parente ser uma das leis
estáveis, nomeadamente a lei gaussiana ou a lei Cauchy, o conhecimento dessa distribuição é facilitado. Uma alternativa ao recurso à distribuição do máximo amostral é a utilização de testes de
hipóteses paramétricos quando possı́vel. Contudo, é imprescindı́vel acautelar a questão da potência
do teste. A solução na prática passará frequentemente por compatibilizar a eficiência da metodologia com a potência do teste.
A utilização de amostragem composta acarreta o problema dos resultados dos testes laboratoriais
não serem completamente fiáveis. A presença de uma substância está sujeita a eventuais erros de
deteção que são caracterizados através da sensibilidade e da especificidade. Esta questão é discutida,
quer assumindo que a miscigenação de unidades não altera as caracterı́sticas operacionais do teste,
quer admitindo que a sensibilidade e/ou a especificidade são afetadas por fenómenos associados a
ultradiluição e consequente rarefação.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Boswell, M.T., Gore, S.D., Lovison, G. e Patil, G.P. (1996). Annotated bibliography of composite sampling, Part A: 1936–92, Environmental and Ecological Statistics 3, pp. 1–50.
[2] Chow, T.L. e Teugels, J.L. (1979). The sum and the maximum of i.i.d. random variables. Em
Hradec Králové, ed., Proceedings of the Second Prague Symposium on Asymptotic Statistics,
pp. 81–92. North-Holland, Amsterdam.
[3] de Haan, L. e Ferreira, A. (2006). Extreme Value Theory – An Introduction, Springer, New
York.
[4] Dorfman, R. (1943). The detection of defective members in large populations, Ann. Math.
Statistics 14, pp. 436–440.
[5] Sousa, R. (2005). Análises ao sangue conjuntas. Uma estratégia para redução de custos. Actas
da IV Conferência Estatı́stica e Qualidade na Saúde, pp. 190–196.
[6] Sousa, R. (2006). Análises ao sangue conjuntas. Uma consideração mais realista. Actas da V
Conferência Estatı́stica e Qualidade na Saúde, pp. 129–133.
[7] Sousa, R. (2008). O Problema de Dorfman Revisitado - Análises Quantitativas, Actas da VI
Conferência Estatı́stica e Qualidade na Saúde, pp. 140–144.
SPE 2011
26
Quinta, 29/09/2011
Extremos I
GEV Long-Short Strategy: uma nova modalidade quantitativa
Marco Aurélio Sanfins1 e Danilo Monte-Mor2
1
2
UFF - Universidade Federal Fluminense, [email protected]
IFES - Instituto Federal do Espı́rito Santo, [email protected]
Resumo: A participação no mercado de investimento de fundos de retorno absoluto (Hedge Funds)
tem crescido de forma expressiva. Dentre as principais estratégias de arbitragem utilizadas pelos
gestores desses fundos destaca-se a estratégia long-short, baseada no comportamento de curto prazo
desproporcional e até mesmo antagônico dos preços de ativos financeiros. A Teoria de Valores Extremos (TVE), um importante ramo da probabilidade, foi utilizada neste trabalho para que fossem
modeladas as séries da relação direta entre preços de ativos. A partir de tal modelagem foi criada
uma nova estratégia quantitativa long-short de arbitragem, a qual denominamos GEV Long-Short
Strategy.
Palavras–chave: Arbitragem, estratégias long-short, hedge funds, pair trading, teoria de valores
extremos
Introdução
Os Hedge Funds abrangem diversos fundos não tradicionais como, por exemplo, fundos que exploram ineficiências de mercado através de estratégias sofisticadas de arbitragem. Os fundos que
adotam a estratégia long-short são Hedge Funds que utilizam posições tanto compradas (long),
quanto vendidas (short), em ações de empresas e ı́ndices de ações, seja no mercado à vista ou de
derivativos, para rentabilizar e proteger suas carteiras.
As estratégias long-short compreendem a manutenção simultânea de posições compradas e vendidas
em ações e derivativos, ambos susceptı́veis a apreciação ou depreciação. Nesse tipo de estratégia,
mais importante que a valorização ou desvalorização das ações é o desempenho relativo entre as
posições compradas e vendidas, que se fundamenta nas inúmeras anomalias dos mercados e que é
reforçado em perı́odos de forte volatilidade. É o comportamento por vezes antagônico ou desproporcional dos ativos que permite aos players do mercado estruturar estratégias long-short para proteger
suas carteiras e gerar retornos adicionais, superiores aos custos de oportunidade e independentes ao
movimento do mercado.
Por muitos anos os gestores avaliaram os co-movimentos entre os mercados e construiram seus
portifólios a partir de análises como as que envolvem o conceito linear de correlação para modelar
as interdependências entre ativos financeiros e as que envolvem a distribuição normal. Percebe-se, entretanto, que a modelagem probabilı́stica das séries dos co-movimentos dos preços desses
ativos requer distribuições com caudas pesadas e que mesmo pares de ativos que apresentam forte
correlação podem por vezes oferecer no curto prazo oportunidades de arbitragem.
Nesse sentido, faz-se necessário o desenvolvimento de técnicas quantitativas long-short mais apro-
SPE 2011
27
Quinta, 29/09/2011
Extremos I
priadas à análise dos co-movimentos extremos de pares de ativos e que estejam fora dos padrões
da normalidade. É nesse contexto que a Teoria dos Valores Extremos desempenha um papel fundamental, dada a sua grande capacidade de modelagem de dados extremos.
O principal objetivo deste trabalho é utilizar a Teoria de Valores Extremos para se estabelecer uma
nova modalidade quantitativa long-short, a qual denominamos GEV Long-Short Strategy, de modo
que os fundos tenham a capacidade de gerar ganhos positivos ao proverem retornos não necessariamente correlacionados com classes de ativos tradicionais e com redução dos riscos de investimento.
Nova proposta quantitativa long-short
Definição 1 (Quantil GEV Long-Short). Seja {X1 ,X2 ,...,Xn } um conjunto de variáveis aleatórias
que representam a razão de precificação entre ativos com mesma função de distribuição F. Denominamos Quantil GEV Long-Short o quantil 95% (ou 5%) obtido através da distribuição extrema
para o qual a distribuição dos máximos (ou mı́nimos) padronizados converge, respectivamente.
Os quantis GEV Long-Short, juntamente com os quantis fornecidos pela normal, serão superpostos
à série das razões para um perı́odo subsequente ao perı́odo analisado. Como inferências acerca
da verdadeira distribuição F da série podem ser feitas a partir da GEV ajustada, serão superpostos
também nesse gráfico os verdadeiros quantis da série, ambos obtidos a partir da GEV estimada. Esses quantis serão utilizados para que sejam verificados os momentos em que a razão de precificação
ocupe quantis extremos. A busca pelo timing de arbitragem mais oportuno nos leva a definir:
Definição 2 (Saturação relativa do desequilı́brio). Define-se por saturação relativa do desequilı́brio
o momento em que ativos encontram-se com relação de precificação fora do intervalo definido pelos
quantis GEV Long-Short.
Bibliografia
[1] Embrechts, P., Kluppelberg, C. e Mikosch, T. (1997). Modelling Extremal Events for Insurance
and Finance. Springer-Verlag: Berlin.
[2] Embrechts, P. (2000). Extreme Value Theory: Potential and Limitation as an Integrated Risk
Management Tool. Department of Mathematik, ETH, Zentrum, CH 8092, Zurich.
[3] Fisher, R.A. e Tippett, L.H.C. (1928). Limiting Forms of the Frequency Distribution of the
Largest or Smallest Member of a Sample. Proccedings of the Cambridge Philosophical Society, n.24, p.180-190.
[4] Liang, B. (1999). On the Performance of Hedge Funds.
[5] Mendes, B.V.M. (2004). Introdução à Análise de Eventos Extremos. E-papers Serviços Editoriais Ltda, Rio de Janeiro.
[6] Sanfins, M.A.S. (2009). Copulas para distribuições generalizadas de valores extremos multidimensionais. Rio de Janeiro: UFRJ/IM.
SPE 2011
28
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Cartas de controlo em saúde
Ana Cristina Casimiro1 e Paulo Infante2
1
2
Universidade de Évora - MMEAD, [email protected]
Universidade de Évora - DMAT, CIMA-UE, [email protected]
Resumo: O Controlo Estatı́stico de Qualidade tem vindo recentemente a assumir um papel importante na área da saúde, havendo registo de várias aplicações bem sucedidas como se pode ver,
por exemplo, nos artigos de revisão de Tennant et al.(2007) e Thor et al.(2007). Neste sector têm
merecido maior destaque a aplicação do controlo estatı́stico de qualidade à avaliação do desempenho hospitalar, monitorização de doenças e controlo de surtos infecciosos, nomeadamente após
intervenção cirúrgica. As múltiplas aplicações surgem nas diversas especialidades de medicina.
Neste trabalho pretende-se fundamentalmente mostrar como a utilização de metodologias do controlo estatı́stico da qualidade neste contexto especı́fico podem ser uma mais-valia na análise de
diversos dados que são diariamente produzidos por uma instituição hospitalar. Em particular, a
carta de controlo permite a distinção entre a variação natural do processo e outras formas de
variação e, consequentemente, a informação incorporada permite dar um feedback muito importante
aos serviços que resulte num apoio a todos os profissionais neles integrados, podendo conduzir à
implementação de acções que permitam melhorar a qualidade.
Com a colaboração do Hospital do Espı́rito Santo de Évora iremos considerar dados relativos ao
número de dias de internamento e proporção de readmissões. Por outro lado, mostramos a aplicação
das cartas de controlo com o intuito de realizar um controlo de qualidade eficaz e efectivo sobre
alguns Grupos de Diagnóstico Homogéneos (GDH) médicos e cirúrgicos. Para diferentes casos
abordados pretende-se seleccionar a melhor carta a utilizar em termos de desempenho estatı́stico e
aplicabilidade. Procuramos, ainda, formalizar algumas linhas gerais para uma correcta aplicação
desta ferramenta estatı́stica para ser utilizada dentro dos diversos serviços.
Palavras–chave: Cartas de controlo, estatı́stica e qualidade na saúde
Bibliografia
[1] Tennant, R.; Mohammed, M.A.; Coleman, J.J.; Martin, U. (2007). Monitoring Patientes using
Control Charts: a systematic review. International Journal for Quality in Health Care, 19,
187–194.
[2] Thor, J.; Lundberg, J.; Ask, J.; Olsson, J.; Carli, C.; Harenstam, K.P.; Brommels, M. (2007).
Application of statistical process control in healthcare improvement: systematic review. Quality and Safety in Health Care, 16, 387–399.
SPE 2011
29
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Prevalência, incidência e sobrevivência dos cancros do estômago
e mama na Região Norte de Portugal
Clara Castro1 , Maria José Bento1 , Andreia Pereira2 e Inês Sousa2
1
2
RORENO/IPO Porto, [email protected]
Departamento de Matemática e Aplicações, Universidade do Minho, [email protected]
Resumo: Neste trabalho, pretendemos comparar estimativas para a prevalência, obtidas através de
dois diferentes métodos de estimação: método directo [1] e método indirecto [2].
Palavras–chave: Prevalência, incidência, sobrevivência
Introdução
Neste trabalho, pretendemos comparar estimativas para a prevalência, obtidas através de dois diferentes métodos de estimação: método directo [1] e método indirecto [2]. Foram analisadas duas
bases de dados, ambas disponibilizadas pelo RORENO (Registo Oncológico Regional do Norte).
Foram considerados doentes, diagnosticados entre 2001 e 2005, residentes na Região Norte de Portugal, com cancro de estômago e cancro da mama feminina, com idades superiores ou iguais a 15
anos. Foram escolhidos estes dois tumores uma vez que estes têm padrões de sobrevivência muito
distintos. Enquanto no caso dos tumores do estômago a sobrevivência é reduzida (sobrevivência
relativa a 5 anos de cerca de 35%) e nos tumores da mama a sobrevivência é bastante elevada (cerca
de 86%). A prevalência tem como base compreender o impacto de um tumor na população, ou seja
o quanto comum ou rara esta doença é. O método directo estima a prevalência a partir da contagem
do número de casos incidentes que permanecem vivos no final do perı́odo de interesse. O método
indirecto baseia-se na modelação matemática para a estimação da prevalência, usando para isso
valores estimados da incidência e sobrevivência. Com este trabalho pretendemos comparar os resultados da aplicação dos diferentes métodos abordados na avaliação da prevalência de doentes com
cancro do estômago e da mama feminina. Os resultados obtidos da incidência e da sobrevivência
para cada um destes tumores também são apresentados. Todos os cálculos foram efectuados usando
o software R. Para a estimação da sobrevivência, foi utilizado o package relsurv [3].
Bibliografia
[1] Capocaccia R., Colonna M. e Corazziari I. (2002). Measuring cancer prevalence in Europe:
the EUROPREVAL Project. Annals of Oncology, 13, 831–839.
[2] Pisani P., Bray F. e Parkin M.D. (2002). Estimates of the world-wide prevalence of cancer for
25 sites in the adult population. Annals of Oncology, 97(1), 72–81.
[3] R Development Core Team (2009). R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria.
SPE 2011
31
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Estrutura de dependência e comportamento extremal de um
processo Pareto
Marta Ferreira
Departamento de Matemática, Universidade do Minho, Braga, Portugal,
[email protected]
Resumo: Os processos auto-regressivos de cauda pesada definidos com o operador “mı́nimo” ou
“máximo” podem ser usados como boas alternativas aos clássicos modelos lineares ARMA com
caudas pesadas, no que respeita à modelação de valores extremos de uma série temporal. Neste
artigo apresenta-se uma caracterização completa da estrutura de dependência e do comportamento
extremal do processo auto-regressivo de mı́nimos Yeh-Arnold-Robertson Pareto(III).
Palavras–chave: Condições de dependência, medidas de dependência de cauda, processos pareto,
teoria de valores extremos
Introdução
O objectivo principal de uma análise de valores extremos é a estimação da probabilidade de ocorrência de eventos mais extremos do que qualquer dos já observados. Como exemplo, suponhamos
que a projecção de um dique requer a defesa de uma zona costeira para todos os nı́veis do mar dos
próximos 100 anos. Os modelos extremais são ferramentas que permitem extrapolações deste tipo.
O resultado central na Teoria de Valores Extremos (TVE) clássica estabelece que, se numa dada
uma sucessão {Xn }n≥1 de v.a.’s i.i.d.’s, com função distribuição marginal F, existirem constantes
reais an > 0 e bn , tais que,
P(max(X1 ,...,Xn ) ≤ an x + bn ) −→n→∞ Gγ (x) ,
(1)
para uma função não degenerada Gγ , então esta será uma função Generalizada de Valores Extremos
(GVE), dada por
Gγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, γ ∈ R,
com G0 (x) = exp(−e−x ), e diz-se que F pertence ao domı́nio de atracção de Gγ , abreviadamente,
F ∈ D(Gγ ). O parâmetro γ , conhecido como ı́ndice de cauda, é um parâmetro de forma que determina o peso da cauda de F, sendo assim crucial na TVE. Se γ > 0 tem-se cauda pesada (domı́nio de
atracção Fréchet), γ = 0 significa cauda exponencial (domı́nio de atracção Gumbel) e γ < 0 indica
uma cauda leve (domı́nio de atracção Weibull).
Os primeiros resultados na TVE desenvolveram-se assumindo independência entre as v.a.’s mas,
mais recentemente, tem-se assistido a um desenvolvimento de modelos e ferramentas para a modelação de dependência, um pressuposto mais realista em muitas situações. Vários processos autoregressivos de máximos têm sido considerados na modelação de valores extremos como boas alternativas aos clássicos modelos lineares ARMA de cauda pesada (Davis e Resnick [4], Ferreira and
Canto e Castro [5]). Como Vito Pareto [6] observou, muitas variáveis económicas possuem caudas
SPE 2011
33
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
pesadas, não sendo bem modeladas pela curva normal. Assim, propôs um modelo, mais tarde designado “Pareto” em sua honra, cuja cauda decresce a uma potência negativa de x, quando x → ∞,
i.e., 1 − F(x) ∼ cx−α , quando x → ∞ . Generalizações da distribuição Pareto foram propostas para a
modelação de variáveis económicas (uma exposição do assunto pode ver-se em Arnold [2]). Qualquer processo estocástico cujas margens têm distribuição Pareto ou uma generalização da mesma
é designado um processo Pareto. Aqui considera-se o processo Yeh-Arnold-Robertson Pareto(III)
(Yeh et al. [7]), abreviadamente YARP(III)(1), dado por
Xn = min p−1/α Xn−1 ,
1
εn ,
1 −Un
(2)
onde as inovações {εn }n≥1 são v.a.’s i.i.d.’s com distribuição Pareto(III)(0,σ ,α ), i.e., uma generalizada Pareto de tipo III, tal que,
h
x − µ α i−1
, x > µ.
1 − Fε (x) = 1 +
σ
(3)
com σ ,α > 0, e {Un }n≥1 é uma sucessão de v.a.’s i.i.d.’s com distribuição Bernoulli(p) (independente das inovações). Por convenção, 1/0 interpreta-se como +∞. Condicionando em Un , facilmente se vê que o processo YARP(III)(1) tem distribuição marginal Pareto(III)(0,σ ,α ) e toma-se a
mesma distribuição para X0 para obter um processo completamente estacionário.
Neste trabalho apresenta-se uma caracterização da estrutura de dependência e do comportamento da
cauda direita (a mais utilizada em aplicações) do processo YARP(III)(1) definido em (2). Concluir-se-á que é similar ao processo ARMAX considerado em Alpuim [1], Davis e Resnick [4], Canto e
Castro [3], entre outros, fornecendo assim uma alternativa na modelação de valores extremos.
Bibliografia
[1] Alpuim, M.T. (1989). An extremal markovian sequence. J. Appl. Probab., 26, 219-232.
[2] Arnold, B.C. (1983). Pareto Distributions. International Cooperative Publishing House, Fairland, MD.
[3] Canto e Castro, L. (1992). Sobre a Teoria Assintótica de Extremos. Ph. D. Thesis, FCUL.
[4] Davis, R., Resnick, S. (1989). Basic properties and prediction of max-ARMA processes. Adv.
Appl. Probab., 21, 781-803.
[5] Ferreira, M., Canto e Castro, L. (2010). Modeling rare events through a pRARMAX process.
J. Statist. Plann. Inference, 140(11), 3552-3566.
[6] Pareto, V. (1897). Cours d’economie Politique. Vol.II. F. Rouge, Lausanne.
[7] Yeh, H.C., Arnold, B.C., Robertson, C.A. (1988). Pareto Processes. J. Appl. Probab., 25, 291301.
SPE 2011
34
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Carta de medianas com limites de controlo estimados
Fernanda Otı́lia Figueiredo1 e Philippe Castagliola2
1
2
Faculdade de Economia da Universidade do Porto e CEAUL, [email protected]
Université de Nantes & IRCCyN, [email protected]
Resumo: Neste trabalho é proposta uma carta de medianas para monitorização do valor médio
de um processo gaussiano como alternativa à carta de médias sempre que é necessário estimar
parâmetros do processo. Os resultados do estudo de simulação efectuado levam-nos a concluir que
a carta proposta quando comparada com a carta de medianas implementada com limites exactos
ou com a carta de médias com limites estimados possui propriedades mais robustas à estimação
de parâmetros do processo, nomeadamente no que respeita aos valores obtidos para os parâmetros
ARL e SDRL da distribuição do RL. Para facilitar a implementação da carta de medianas proposta
é disponibilizado o valor do parâmetro da carta usado na determinação dos limites de controlo que
permite obter um determinado valor ARL sob controlo, para várias combinações da dimensão das
amostras a recolher e do número de subgrupos usados na estimação de parâmetros do processo.
Palavras–chave: Cartas de controlo, RL e condicional RL
Carta de medianas com limites de controlo estimados
Para a monitorização do valor médio de um processo, ou mais geralmente da sua localização, apesar da carta de médias ser mais utilizada e apresentar melhor desempenho na detecção de alterações
no processo do que a carta de medianas, esta última é bastante popular devido essencialmente à
robustez da mediana amostral a outliers, a situações de contaminação ou a pequenos desvios da
distribuição subjacente aos dados relativamente à hipótese de normalidade, muitas vezes admitida
aquando da implementação de uma carta de controlo. Note-se que em aplicações práticas é usual
desconhecer-se o valor dos parâmetros da distribuição associada aos dados do processo, sendo
necessário estimá-los a partir de um conjunto de dados recolhidos previamente para esse efeito,
sabendo-se ainda que esta estimação tem um impacto mais ou menos significativo no desempenho
da carta. Assim parece-nos importante estudar as propriedades da carta de medianas com limites de
controlo estimados proposta neste trabalho para monitorizar o valor médio de um processo gaussiano, aqui denotada por carta Ỹ . Para uma revisão de literatura sobre cartas de controlo com limites
estimados ver [1].
Denotemos a i-ésima amostra retirada do processo por (Yi,1 , . . . ,Yi,n ), i = 1,2, . . . , constituı́da por n
variáveis aleatórias independentes com distribuição N(µ0 + δ σ0 ,σ0 ), onde µ0 e σ0 denotam o valor
médio e o desvio padrão do processo quando este se encontra sob controlo estatı́stico, respectivamente, e δ denota a magnitude da eventual alteração ocorrida no valor médio do processo medida
em unidades de σ0 . Seja Ỹi a mediana amostral do i-ésimo subgrupo, neste caso a estatı́stica de
controlo da carta Ỹ .
Os parâmetros µ0 e σ0 , que admitimos desconhecidos, são estimados a partir de m subgrupos
SPE 2011
35
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
(Xi,1 , . . . ,Xi,n ), i = 1, . . . ,m de dimensão n, admitindo-se independência entre as variáveis dentro
e entre subgrupos, e que Xi, j ∼ N(µ0 ,σ0 ).
Os limites de controlo estimados da carta Ỹ em estudo são do tipo
d = µ̂0′ − K σ̂0′ ,
LCI
d = µ̂0′ + K σ̂0′ ,
LCS
(1)
(2)
onde K é um parâmetro da carta obtido recorrendo à distribuição condicional do RL e de modo a
obter um valor ARL especı́fico sob controlo, µ̂0′ e σ̂0′ são os estimadores de µ0 e σ0 definidos por
µ̂0′ =
1 m
∑ X̃i ,
m i=1
(3)
σ̂0′
1
d2,n
(4)
=
!
1 m
∑ Ri ,
m i=1
X̃i e Ri denotam, respectivamente, a mediana e a amplitude do i-ésimo subgrupo e d2,n = E(Ri /σ0 )
é uma constante tabelada em modelo normal para os valores usuais de n.
Conclusões
A carta de medianas com limites estimados aqui proposta pode exibir propriedades distintas das
obtidas para a carta de medianas implementada com limites exactos em virtude da estimação de
parâmetros do processo, tal como acontece com outras cartas implementadas com limites estimados.
No entanto, se usarmos um número relativamente grande de subgrupos na estimação de parâmetros
do processo ou se determinarmos o parâmetro da carta recorrendo à distribuição condicional do RL,
conseguimos obter uma carta de medianas com um desempenho interessante em termos dos valores
obtidos para alguns parâmetros usuais da distribuição do RL. Atendendo a que do ponto de vista
prático a escolha de um número elevado de subgrupos para efectuar a estimação levanta em geral
problemas à implementação da carta, fornecemos, para algumas combinações de n e m, o valor do
parâmetro K que permite obter um valor ARL sob controlo de 370.4, o que facilita a utilização da
carta Ỹ .
Agradecimentos: Este trabalho foi parcialmente financiado pelo centro de investigação CEAUL,
FCT/OE.
Bibliografia
[1] Jensen, W., Jones-Farmer, L., Champ, C. e Woodall, W. (2006). Effects of Parameter Estimation on Control Chart Properties: A Literature Review. Journal of Quality Technology, 38(4),
349–364.
SPE 2011
36
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Controlo da tuberculose em Portugal: demora entre o inı́cio
dos primeiros sintomas e o diagnóstico da doença
Dulce Gomes1 , Carla Nunes2 , Patrı́cia A. Filipe1 e Teodoro Briz2
1
Escola de Ciência e Tecnologia, Universidade de Évora, CIMA/UE,
{dmog, pasf}@uevora.pt
2 Escola Nacional de Saúde Pública, Universidade Nova de Lisboa, CIESP e CMDT-LA,
{cnunes, tshb}@ensp.unl.pt
Resumo: Este trabalho visa uma melhor compreensão das dimensões que estejam explicativamente
associadas ao tempo decorrido desde o inı́cio dos primeiros sintomas e o diagnóstico da tuberculose
(“demora”) e do provável papel deste no nı́vel de incidência. Aplicar-se-á modelos de análise de
sobrevivência, com o objectivo de caracterizar a demora em causa. O evento de interesse aqui é
o diagnóstico da doença. Este perı́odo em análise é extremamente importante na disseminação da
tuberculose, pois é aquele em que o indivı́duo já infectado e doente circula livremente, sendo um
foco de infecção e constituindo um perigo para a saúde da população se for bacilı́fero (cerca de
60% dos casos pulmonares). Serão consideradas algumas variáveis explicativas da demora como:
a região de proveniência, a idade, o sexo e os factores de risco de adoecer conhecidos (e.g., HIV),
entre outros. Nesta fase não são estudadas as dimensões da demora relacionadas com os serviços
de saúde.
Palavras–chave: Tuberculose, análise de sobrevivência, aglomerações espácio-temporais
A tuberculose em Portugal é mencionada em diversos meios com alguma frequência e preocupação:
o nı́vel de endemia é de grau médio-baixo à escala mundial, tende a reduzir-se com lentidão e
encontra-se na situação menos favorável da Europa Ocidental. A actual disponibilidade de meios
eficazes de controlo sustém a expectativa de maior influência sobre a endemia: um programa de
intervenção bem fundamentado, com um sistema de vigilância da doença e um desempenho global
bastante razoável. A co-infecção pelo VIH em pelo menos 15% dos casos novos de tuberculose,
e alguma ineficiência na articulação entre serviços poderão explicar em parte esta dificuldade de
controlo. Assim, há ainda progressos importantes a promover, em particular nos concelhos com
maior risco de adoecer, dado que os factores que mais perpetuam a doença na população estarão
sobretudo relacionados com contextos sócio-económicos, culturais, comportamentais e organizacionais favoráveis à transmissão do bacilo, à não-detecção precoce de novos casos nem de situações
de doença latente, e à não-adesão à terapêutica em grupos especı́ficos (Briz, et al.[1]).
Estudos anteriores de Epidemiologia Espacial, e em particular de processos de clustering espaciotemporal, foram levados a cabo com o objectivo de caracterizar as taxas de incidência notificada em
Portugal (Nunes[2] e Nunes, et al.[3]). A partir deste estudo, verificou-se a existência de acentuada
heterogeneidade geográfica da incidência, com aglomeração espacio-temporal significativa.
Deste modo, e tendo em conta a dinâmica da endemia, serão aplicadas técnicas de análise de sobrevivência nas áreas de maior risco de tuberculose e também nas de risco menor, fazendo intervir no
modelo os factores determinantes presentes nessas áreas. A base de dados é constituı́da por todos
os casos de tuberculose diagnosticados e reportados no ano de 2009.
SPE 2011
37
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações
(CIMA-UE) e do Centro de Investigação e Estudos em Saúde Pública (CIESP-UNL) e do Centro
de Malária e Doenças Tropicais (CMDT-LA/UNL), a primeira e a última unidades financiadas pela
Fundação para a Ciência e Tecnologia.
Bibliografia
[1] Briz, T., Nunes, C., Alves, J. e Santos, O. (2009). O Controlo da Tuberculose em Portugal:
uma apreciação crı́tica epidemiológica global. Revista Portuguesa de Saúde Pública, no 1, 19–
54.
[2] Nunes C. (2007). Tuberculosis incidence in Portugal: spatiotemporal clustering. International
Journal of Health Geographics, 6–30.
[3] Nunes, C. e Gomes, D. (2009). Processo de detecção de aglomerações espácio-temporais:
alguns condicionantes. Estatı́stica. Arte de Explicar o Acaso. Actas do XVI Congresso da Sociedade Portuguesa de Estatı́stica. (I. Oliveira, E. Correia, F. Ferreira, S. Dias, C. Braumann,
eds.), 477–488, Edições SPE.
SPE 2011
38
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Aplicação da teoria dos extremos ao estudo da precipitação
na Ilha da Madeira
Délia Gouveia1 , Luiz Guerreiro Lopes2 e Sandra Mendonça3
1
Universidade da Madeira, Centro de Investigação de Montanha, Centro de Estatı́stica e Aplicações
da Universidade de Lisboa, [email protected]
2 Universidade da Madeira, Centro de Investigação de Montanha, Instituto de Ciências Agrárias e
Ambientais Mediterrânicas, [email protected]
3 Universidade da Madeira, Centro de Estatı́stica e Aplicações da Universidade de Lisboa,
[email protected]
Resumo: A análise de processos espaciais na perspectiva da teoria dos valores extremos tem tido
grandes desenvolvimentos na última década, veja-se, por exemplo, Buishand et al. [1] e De Haan e
Zhou [2]. No presente trabalho é apresentado o resultado da exploração, local e espacial, feita neste
contexto aos dados de precipitação provenientes de estações udométricas da Ilha da Madeira.
Palavras–chave: Estatı́stica de extremos, extremos espaciais, precipitação intensa
Bibliografia
[1] Buishand, T. A. , De Haan, L. e Zhou, C. (2008). On spatial extremes: with application to a
rainfall problem. Annals of Applied Statistics, 2(2), 624–642.
[2] De Haan, L. e Zhou, C. (2008). On extreme value analysis of a spatial process. REVSTAT –
Statistical Journal, 6(1), 71–81.
SPE 2011
39
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Análise da distribuição χ 2 não central na avaliação de Opções
Europeias num processo de difusão CIR
Manuela Larguinho1 , José Carlos Dias2 e Carlos A. Braumann3
1
Área de Matémática do ISCAC, [email protected]
Finance Research Center (UNIDE/ISCTE) e Área de Finanças do ISCAC, [email protected]
3 Centro de Investigação em Matemática e Aplicações - Universidade de Évora,
[email protected]
2
Resumo: Assumindo o processo de difusão de Cox-Ingersoll-Ross (CIR) o preço de uma opção
Europeia sobre obrigações de cupão zero requer o cálculo da função de distribuição qui-quadrado
não central. Neste trabalho comparamos o desempenho de alguns métodos alternativos no cálculo
desta distribuição de probabilidade e a respectiva eficiência na avaliação das opções.
Palavras–chave: Difusão CIR, distribuição qui-quadrado não central
Introdução
O modelo CIR, proposto por [2], é um modelo de equilı́brio intertemporal, sendo um dos mais
populares que tende a ultrapassar o problema das taxas de juro negativas. É utilizado para valorizar
obrigações de cupão zero e opções de compra e venda sobre este tipo de obrigações. A fórmula
de cálculo para os preços das opções pode apresentar alguma complexidade uma vez que envolve a
necessidade da função de distribuição qui-quadrado não central.
Difusão CIR e métodos alternativos para o cálculo da distribuição χ 2 não central
Sob o espaço de probabilidade de risco neutro (Ω, F , Q), [2] assumem que a dinâmica da taxa de
juro, rt , é dada pela seguinte equação diferencial estocástica (EDE):
√
drt = [κθ − (λ + κ )rt ]dt + σ rt dWtQ ,
(1)
onde WtQ é o movimento Browniano padrão sob Q, κ ,θ e σ são constantes positivas que representam
a taxa de reversão à média, a taxa média a longo prazo e a volatilidade da taxa de juro, respectivamente, e λ é o prémio de risco. De modo a assegurar que a taxa de juro permanece positiva temos
de impor que 2κθ > σ 2 .
Sob a difusão CIR, o preço no instante t de uma obrigação de cupão zero com maturidade em S,
Z(r,t,S), é dado por :
Z(r,t,S) = A(t,S)e−B(t,S)r ,
SPE 2011
(2)
41
Quinta, 29/09/2011
onde
A(t,S) =
2γ e
(κ +λ +γ )(S−t) /2
(κ +λ +γ ) eγ (S−t) −1 +2γ
2κθ2
σ
, B(t,S) =
2 eγ (S−t) −1
Átrio do Café, 10:00–10:30
(κ +λ +γ ) eγ (T −t) −1 +2γ
1/2
2
2
.
e γ = (κ + λ ) + 2σ
Denotemos por ZCcall (r,t,T,S,X), o preço no instante t de uma opção de compra Europeia de maturidade T > t, preço de exercı́cio X, subscrita sobre uma obrigação de cupão zero de maturidade
S > T e com a taxa de juro de juro instantânea no instante t dada por rt . O preço da opção é dado
por
"
4κθ 2φ 2 reγ (T −t)
ZCcall (r,t,T,S,X) = Z(r,t,S) χ 2r∗ [φ + ψ + B(T,S)]; 2 ,
σ φ + ψ + B(T,S)
"
#
2 reγ (T −t)
′2
κθ
φ
2
4
−X Z(r,t,T ) χ 2r∗ [φ + ψ ]; 2 ,
,
σ
φ +ψ
′2
onde ψ =
κ +λ +γ
,
σ2
φ=
2γ
σ 2 eγ (T −t) −1
#
(3)
′2
, r∗ = ln A(T,S)
/B(T,S) e χ (x; ν , δ ) é a função de distriX
buição qui-quadrado não central com ν graus de liberdade e parâmetro de não centralidade δ , r∗ é
a taxa de juro crı́tica, abaixo da qual pode ocorrer o exercı́cio da opção, isto é, X = P(r∗ , T, S).
Neste trabalho comparamos o desempenho dos algoritmos propostos por [1], [3] e [4] para o cálculo
da função de distribuição qui-quadrado não central.
Agradecimentos: Larguinho e Braumann são membros do Centro de Investigação em Matemática
e Aplicações (CIMA) da Universidade de Évora e Dias é membro do Finance Research Center do
ISCTE-IUL, ambos os centros financiados pela Fundação para a Ciência e Tecnologia (FCT).
Bibliografia
[1] Benton, D. e Krishnamoorthy, K. (2003). Computing discrete mixtures of continuous distributions: noncentral chisquare, noncentral t and the distribution of the square of the sample
multiple correlation coefficient. Computational Statistics and Data Analysis, 43, 249–267.
[2] Cox, J.C., Ingersoll, J.E. e Ross, S.A. (1985). A theory of the term structure of interest rates.
Econometrica, 53, 385–408.
[3] Ding, C.G. (1992). Algorithm AS 275: computing the non-central χ 2 distribution function.
Applied Statistics, 41, 478–482.
[4] Schroder, M. (1989). Computing the constant elasticity of variance option pricing formula.
Journal of Finance, 44, 211–219.
SPE 2011
42
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Sobre o efeito de Taylor em modelos bilineares
Cristina Martins1 , Esmeralda Gonçalves2 e Nazaré Mendes Lopes2
1
2
Departamento de Matemática da FCTUC, [email protected]
CMUC, Department of Mathematics, University of Coimbra, {esmerald, nazare}@mat.uc.pt
Resumo: Em 1986, Taylor observou, com base em várias séries financeiras analisadas, que a
autocorrelação empı́rica de determinada ordem da série em valor absoluto é superior à autocorrelação
empı́rica da mesma ordem do quadrado dessa série. Posteriormente, vários estudos têm sido levados
a cabo com o objectivo de analisar a presença deste facto em modelos de séries temporais, tanto a
nı́vel empı́rico (efeito de Taylor) como a nı́vel teórico (propriedade de Taylor). Com base num estudo de simulação, é analisada, neste trabalho, a presença do efeito de Taylor na classe dos modelos
bilineares simples.
Palavras–chave: Modelos bilineares, efeito de Taylor
Introdução
A procura de caracterı́sticas empı́ricas não triviais, ditas factos estilizados, em dados temporais,
nomeadamente financeiros, tem sido objecto de vários estudos com vista à identificação de modelos que melhor se adequem a tal tipo de dados. Um facto estilizado identificado por Taylor em
1986, a partir da análise estatı́stica de 40 séries, é o chamado efeito de Taylor. De facto, Taylor
constatou empiricamente que a autocorrelação empı́rica de ordem n, n ∈ {1, . . . ,30}, da série em
d t |,|Xt−n |), é maior do que a autocorrelação empı́rica da mesma orvalor absoluto, ρ̂n (1) = corr(|X
2 ), isto é, ρ̂ (1) > ρ̂ (2). A presença desta relação
d t2 ,Xt−n
dem do quadrado da série, ρ̂n (2) = corr(X
n
n
empı́rica em séries de valores reais tem sido explorada em diversos trabalhos, mas a verificação
de que os modelos para séries temporais satisfazem a relação teórica correspondente é ainda uma
área pouco estudada pelo facto das expressões destas autocorrelações não serem conhecidas para a
maior parte dos modelos. Nesta área, He e Teräsvirta (1999) analisam o efeito de Taylor no modelo AVGARCH(1,1) (modelo GARCH(1,1) em valor absoluto) usando as expressões analı́ticas das
autocorrelações teóricas por eles obtidas. He e Teräsvirta atribuem a designação propriedade de
Taylor à relação teórica ρn (1) > ρn (2), n ≥ 1, tendo concluı́do que, para n = 1, esta propriedade
é verificada pelo modelo AVGARCH(1,1). Gonçalves, Leite e Mendes-Lopes (2009) estudam a
presença da propriedade de Taylor nos modelos TARCH, concluindo que tal propriedade está presente para algumas parametrizações do modelo TARCH de primeira ordem.
Os modelos bilineares têm-se também revelado adequados na modelação de dados financeiros, pelo
que é de todo o interesse analisar a presença, nestes modelos, da referida propriedade de Taylor.
O presente trabalho pretende ser uma primeira abordagem deste estudo no modelo bilinear simples
(m.b.s.)
Xt = β Xt−k εt−l + εt , k > 0, l > 0,
onde β é um parâmetro real e (εt ,t ∈ Z) é um processo de erro. O modelo tem a designação de
superdiagonal se k > l, diagonal se k = l e subdiagonal se k < l.
SPE 2011
43
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Efeito de Taylor no modelo bilinear simples
Sob algumas hipóteses relativas ao processo (εt ,t ∈ Z), Martins (1997 e 1999) estabelece uma
condição necessária e suficiente para que o processo (Xt ,t ∈ Z) obedecendo à equação de evolução
do m.b.s. seja fortemente estacionário, ergódico e fracamente estacionário e obtém alguns momentos de Xt . Em particular, são apresentados os valores de ρn (2), n ∈ N, para os modelos superdiagonal e diagonal. Para o modelo subdiagonal, tais valores são estabelecidos nos casos l = 2k − p,
0 < p < k, e l = 2k. No entanto, a inexistência de resultados sobre as autocorrelações do modelo
(|Xt |,t ∈ Z), não permite ainda o estudo da propriedade de Taylor nos m.b.s.. Assim, a presença do
efeito de Taylor é analisada a partir de um estudo de simulação para tais modelos. Gera-se Xt considerando que (εt ,t ∈ Z) é uma sucessão de variáveis aleatórias reais independentes e identicamente
distribuı́das com uma lei normal ou com uma lei uniforme, ambas centradas, e β tal que |β | < σ12 ,
com σ 2 = E(εt2 ). As simulações efectuadas sugerem que existem valores de n para os quais a série
simulada apresenta o efeito de Taylor, mas, fixado n, o efeito não é verificado para todos os valores
de β acima referidos. Mais precisamente, parece evidente a existência de um valor m ∈ 0, σ12 ,
tal que o efeito é produzido para valores de β que verificam m < |β | < σ12 . Mais, a amplitude do
intervalo ]m, σ12 [ parece diminuir significativamente quando, em vez da distribuição normal centrada
com desvio padrão σ , se considera para εt a distribuição uniforme centrada com o mesmo desvio
padrão. Assim, a um aumento da curtose da distribuição de εt parece corresponder uma diminuição
do valor de m, pelo que será de esperar que, para valores suficientemente elevados da curtose da
distribuição de εt , o valor de m se aproxime de zero e a propriedade de Taylor seja verificada para
todas as possı́veis parametrizações. Esta influência da curtose da distribuição de εt na verificação
da propriedade de Taylor foi também observada por Gonçalves, Leite e Mendes-Lopes (2009) no
modelo TARCH(1). Para ilustrar estes factos, apresentam-se a seguir algumas das simulações efectuadas com o modelo diagonal de ordem 1 (k = 1), para n = 1 e σ = 1. Note-se que m parece
situar-se entre 0.5 e 0.6 no caso da lei normal e entre 0.8 e 0.85 no caso da lei uniforme.
√ √
εt ∼ N(0,1) (|β | < 1)
εt ∼ U([− 3, 3]) (|β | < 1)
β
ρ̂1 (1)
ρ̂1 (2) Ef. Taylor?
β
ρ̂1 (1)
ρ̂1 (2) Ef. Taylor?
0.2 0.1284 0.1784
Não
0.7
0.5184 0.5768
Não
0.5 0.4387 0.4595
Não
0.8
0.5981 0.6056
Não
0.6 0.4926 0.4672
Sim
0.85 0.6414 0.6167
Sim
0.7 0.5402 0.4722
Sim
0.9
0.6721 0.6211
Sim
0.8 0.5897 0.4860
Sim
0.99 0.7073 0.5911
Sim
Este estudo será complementado com a consideração de outras distribuições para o processo de erro,
cujo desempenho será comparado tendo em conta o peso das caudas, bem como de outros modelos
bilineares.
Bibliografia
[1] Gonçalves, E., Leite, J. e Mendes-Lopes, N. (2009). A mathematical approach to detect the
Taylor property in TARCH processes. Statistics and Probability Letters, 79, 602–610.
[2] He, C. e Teräsvirta, T. (1999). Properties of moments of a family of GARCH processes. J.
Econom. 92, 173–192.
[3] Martins, C.M. (1997) On the autocorrelations related to a bilinear model with non-independent
shocks. Statistics and Probability Letters, 36, 245–250.
[4] Martins, C.M. (1999) Higher order moments of bilinear subdiagonal models with nonindependent shocks. Annales de l’I.S.U.P., 43, 1, 29–42.
[5] Taylor, S. (1986). Modelling Financial Time Series. Wiley.
SPE 2011
44
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Dinâmica estocástica na difusão de tecnologias de banda larga
em Portugal
Rui Pascoal e Jorge Marques
Faculdade de Economia da Universidade de Coimbra, {ruiapsp, jmarques}@fe.uc.pt
Resumo: O propósito deste artigo é complementar um estudo efectuado anteriormente pelos mesmos autores sobre a evolução do número de subscritores de acesso fixo por banda larga em séries de
dados referente ao perı́odo de 2000 a 2009, introduzindo agora uma estrutura para a parte estocástica
nos modelos de crescimento: exponencial, logı́stico, Gompertz, Bass e Michaelis-Menten. Desta
forma, procura-se melhorar quer o ajustamento desses modelos às séries quer a sua capacidade de
previsão.
Palavras–chave: Modelos de difusão, banda larga, processos estocásticos
Introdução
Em [4] analisou-se o comportamento das séries do número de subscritores de Internet de Banda
Larga por cabo, recorrendo a diversos modelos de crescimento: exponencial, logı́stico, Gompertz,
Bass e Michaelis-Menten. Este último modelo revela uma melhor capacidade de previsão face às
novas observações, ajustando-se às caracterı́sticas de difusão das tecnologias de Banda Larga.
O propósito do presente estudo é a introdução duma versão mais geral destes modelos, que consiste
em acrescentar à função representativa do trend uma estrutura para a parte estocástica. Esta visa
melhorar o ajustamento dos modelos referidos e encontrar explicação para os resı́duos obtidos na
sua estimação.
A parte estocástica pode ser modelada através, por exemplo, de uma formulação ARFIMA para a
componente do erro que explique a estrutura de correlação dos resı́duos. Outra abordagem possı́vel
consiste em considerar uma equação diferencial estocástica que complemente a equação diferencial
determinı́stica que caracteriza os modelos de crescimento. Este tipo de abordagem é utilizada por
exemplo para modelar o crescimento individual de organismos [2].
Por fim, refira-se que as estimações são efectuadas recorrendo ao programa informático R e ao
software gSDE [1].
Bibliografia
[1] Brites, N.M., Braumann, C.A., Filipe, P.A. e Roquete, C.J. (2010). gSDE: Stochastic
Differential Equation Software for model growth: User guide Version 1.0 [Available at
http://home.uevora.pt/ braumann/project/projectoS.htm]
SPE 2011
45
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
[2] Filipe, P.A., Braumann, C.A., Brites, N.M. e Roquete, C.J. (2010). Modelling Animal Growth
in Random Environments: An Application Using Nonparametric Estimation. Biometrical
Journal, 52(5):653–666. DOI:10.1002/bimj.200900273
[3] Mahler, A. e Everett M. R. (1999). The Diffusion of Interactive Communication Innovations
and the Critical Mass: The Adoption of Telecommunications Services by German Banks.
Telecommunications Policy, 23 (10-11), 719–740.
[4] Pascoal, R. e Marques, J. (2011). Fitting Broadband Diffusion by Cable Modem in Portugal. [Submetido a sellected papers do XVIII Congresso Anual da Sociedade Portuguesa de
Estatı́stica]
[5] Pereira, P. e Pernı́as-Cerrillo J. C. (2005). The diffusion of cellular telephony in Portugal before
UMTS: a time series approach. CEPR Discussion Papers Number 2598
[6] Stremersch, S., Muller, M. e Peres, R. (2010). Does New Product Growth Accelerate across
Technology Generations? Marketing Letters, 21, pp. 103–120
[7] Tellis, Gerard J., Stremersch, S. e Yin, E. (2003). The International Takeoff of New Products:
The Role of Economics, Culture, and Country Innovativeness. Marketing Science, Vol. 22,
No. 2.
SPE 2011
46
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Testes não-paramétricos para validação de modelos extremais:
uma aplicação a dados de atletismo
Paulo Santos1 , M. Ivette Gomes2 e Patrı́cia de Zea Bermudez2
1
2
DEIO, FCUL, Universidade de Lisboa, paulopaulo [email protected]
DEIO, FCUL e CEAUL, Universidade de Lisboa, {ivette.gomes, patzea}@fc.ul.pt
Resumo: Os testes não-paramétricos de ajustamento são frequentemente usados em contexto paramétrico, com o objectivo de validar determinado modelo, como sendo o modelo subjacente aos
dados. Os pontos crı́ticos destes testes são facilmente acessı́veis em tabelas, válidas quando não
há necessidade de estimar parâmetros desconhecidos, uma situação totalmente irrealista na prática.
Procederemos à construção de tabelas de pontos crı́ticos das estatı́sticas de ajustamento mais usuais,
para serem usadas na validação de alguns dos modelos extremais mais relevantes. Essas tabelas só
podem ser construı́das através de simulações de Monte-Carlo, que serão delineadas em R. Procedemos ainda a uma aplicação a dados de atletismo.
Palavras–chave: Teoria de valores extremos, testes de ajustamento, pontos crı́ticos
Introdução e objectivos
Este artigo incide sobre testes não-paramétricos de ajustamento, de entre os quais destacamos os testes de Kolmogorov-Smirnov, de Stephens e de Cramér-von Mises. Face a uma amostra aleatória de
dimensão n, (X1 , X2 . . . . , Xn ) proveniente de um modelo desconhecido, com função de distribuição
(f.d.) F, denotemos por (X1:n ≤ X2:n ≤ · · · ≤ Xn:n ) a amostra de estatı́sticas ordinais ascendentes
associada à amostra (X1 , X2 . . . . , Xn ). Qualquer das estatı́sticas de teste atrás referidas são medidas
de distância entre a f.d. teórica, F, e a f.d. empı́rica, denotada por Fn∗ (x), imagem estatı́stica da
f.d. F(x) = P(X ≤ x), desconhecida. Na Secção 2, abordamos os testes de ajustamento a considerar
neste trabalho, e fazemos uma breve introdução a resultados limites em Teoria de Valores Extremos (TVE). Na Secção 3, referimos a obtenção de um conjunto de tabelas de pontos crı́ticos das
estatı́sticas apresentadas na Secção 2, para alguns dos modelos aı́ mencionados. Finalmente, na
Secção 4, procedemos a uma aplicação a dados de atletismo.
Breve referência aos testes de ajustamento em estudo e à Teoria de Valores Extremos
R
Qualquer estatı́stica da forma R G Fn∗ (x), F(x) dF(x) tem, se F for contı́nua, f.d. independente
de F, fornecendo pois um possı́vel teste de ajustamento. Os testes abordados neste artigo são
medidas de distância entre a f.d. F, desconhecida, e a f.d. empı́rica Fn∗ (x) associada à amostra
em estudo. Referimos
de Kolmogorov-Smirnov, Dn := supx∈R |Fn∗ (x) −RF(x)|, de CramérR o teste
∗
2
von Mises, Wn := n R (Fn (x) − F(x))2 dF(x), e o teste de Stephens, Un2 := n R (Fn∗ (x) − F(x) −
R
∗
2
R (Fn (y) − F(y))dF(y)) dF(x). É sobre este tipo de testes que nos iremos debruçar nas secções
seguintes. Procederemos à construção de tabelas assintóticas, quando não há necessidade de estimar
parâmetros. Na Secção 3, veremos como se podem construir tabelas para o caso em que temos que
proceder à estimação de parâmetros.
SPE 2011
47
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Referimos em seguida alguns dos modelos importantes em TVE. A distribuição limite não-degenerada
da sucessão de máximos parciais, {Xn:n := max(X1 , X2 , . . . , Xn )}n≥1 , é do tipo da chamada distribuição
de Valores Extremos, com a forma funcional Gγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0,
onde γ (∈ R)
é o ı́ndice de valores
extremos. Face ao facto de se ter X1:n := min X1 , X2 , . . . Xn = − max −
X1 , −X2 , . . . , −Xn as possı́veis distribuições limite para a sucessão de mı́nimos parciais, X1:n , são
então do tipo, G∗γ (x) = 1 − Gγ (−x). Quanto ao comportamento limite dos excessos acima de um
nı́vel elevado u, para u = un → +∞, quando n → ∞, obtemos distribuições do tipo da generalizada
1
de Pareto (GP), com a forma funcional, GPγ (x) = 1 + ln Gγ (x) = 1 − (1 + γ x)− γ , 1 + γ x > 0, x > 0.
Para mais detalhes, veja-se [1].
Construção de tabelas de pontos crı́ticos
As tabelas de pontos crı́ticos construı́das estão relacionadas com os três testes de ajustamento discutidos na Secção 2, e com os modelos aı́ referidos, bem como com as suas versões parciais, tais
como os modelos Gumbel, Fréchet, Weibull, Exponencial e Beta, e com a estimação de parâmetros
desconhecidos através dos estimadores de momentos, de momentos ponderados de probabilidade
(veja-se [2]) e de máxima verosimilhança (veja-se [3]). Para a construção destas tabelas, a técnica
das réplicas mostrou-se preferı́vel ao métodos dos quantis, quer em termos de precisão, quer em
termos de eficiência.
Uma aplicação a dados de atletismo
Nesta Secção estamos interessados na aplicação dos resultados obtidos a dados das melhores marcas pessoais em algumas modalidades do atletismo. Face à forma como os dados foram recolhidos,
justifica-se plenamente uma análise paramétrica quer do ı́ndice de valores extremos, quer do limite
superior do suporte, o possı́vel recorde mundial, dadas as condições vigentes. Os dados em análise
estão relacionados com os 60 Metros Barreiras (60MB) e os 1500 Metros, bem como o salto em altura e o salto em comprimento. As fontes foram http://www.iaaf.org/statistics/toplists/index.htmx e
http://hem.bredband.net/athletics/athletics all-time best.htm. Os dados foram coleccionados até ao
fim de 2010, e para qualquer atleta só se contabilizou a melhor marca. Devido ao nosso interesse em
modelos relacionados com a cauda direita F = 1 − F do modelo subjacente aos dados, convertemos
tempos de corrida em velocidades. Por exemplo, 10 segundos nos 60MB (igual a 0.06 quilómetros)
são transformados numa velocidade de 3600 × 0.06/10 = 21.6 km/h. Deste modo, quanto mais
elevada for a velocidade, melhor é o resultado. A mesma situação ocorre com as modalidades salto
em altura e salto em comprimento.
Bibliografia
[1] Embrechts, P., Klüppelberg, C. e Mikosch, T. (1997). Modelling Extremal Events for Insurance
and Finance. Springer, Berlin, Heidelberg.
[2] Hosking, J.R.M. e Wallis, J.R. (1987). Parameter and quantile estimation for the generalized
Pareto distribution. Technometrics 29, 339–349.
[3] Johnson, N.L., Kotz, S. e Balakrishnan, N. (1994; 1995). Continuous Univariate Distributions.
Volumes 1; 2. Wiley Series in Probability and Mathematical Statistics.
SPE 2011
48
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Múltiplos caminhos para a uniforme
Fernando Sequeira1 e Sı́lvio Velosa2
1
2
Faculdade de Ciências da Universidade de Lisboa, [email protected]
Universidade da Madeira, [email protected]
Resumo: Os resultados de Gomes et al. (2009) sugerem a conjectura de que, para X e Y variáveis
aleatórias (v.a.) independentes com suporte em [0,1], as transformações V = X + Y − [X + Y ] e
W = min{ YX , 1−X
1−Y } produzem v.a. com distribuições mais próximas da uniforme que a de X.
Seguindo Johnson (2004), procuramos formalizar e confirmar esta conjectura, traduzindo a aproximação à uniforme em termos de aumento de entropia e decréscimo da informação de Fisher.
Palavras–chave: Distribuição uniforme, entropia, informação de Fisher, transformações de variáveis
aleatórias
Introdução
Num estudo de simulação, Gomes et al. (2009) notaram que, para as v.a. independentes X e
Y com f.d.p. da famı́lia fXm (x) = (mx + 1 − m/2)I(0,1) (x), m ∈ [−2, 2] , as transformações V =
X + Y − [X + Y ] e W = min{ YX , 1−X
1−Y } parecem produzir v.a. com distribuições mais próximas da
uniforme que a de qualquer um dos termos .
Brilhante et al. (2010) observam que, para elementos independentes Xm e X p desta famı́lia, W =
min{Xm /X p , (1 − Xm )/(1 − X p )} tem a distribuição de Xmp/6 , donde é imediato que W é uniforme
se e só se Xm é uniforme ou Xp é uniforme (m = 0 ou p = 0). Notam também que a aproximação
de W à uniforme, na mesma famı́lia de v.a., se pode exprimir em termos da sua entropia: H(X0 ) ≥
H(W ) ≥ max{H(Xm ),H(X p )}.
Por outro lado, conforme Deng e George (1992), W = min{X/Y, (1 − X)/(1 −Y )}, onde X e Y são
v.a. independentes com suporte [0,1] arbitrárias, é uniforme desde que X o seja. Investigamos o
comportamento da entropia de W nesta situação mais geral.
No caso da transformação V = X + Y − [X + Y ], onde X e Y são v.a.’s independentes com suporte
[0,1], é imediato da forma da densidade,
fV (v) =
Z v
0
fX (x) fY (v − x)dx +
Z 1
v
fX (x) fY (1 + v − x)dx
que se obtém também uma uniforme desde que X ou Y o sejam. Para as variáveis da famı́lia Xm fica
fV (v) = (1 − mp/12 + mpv/2 − mpv2 /2)I (0,1) (v) e novamente se constata que a transformação
V aproxima as distribuições de partida da uniforme, na medida em que supv∈[0,1] | fV (v) − 1| <
supx∈[0,1] | fX (x) − 1|.
Seguindo Johnson (2004), procuramos formalizar e exprimir a aproximação à uniforme produzida
pelas transformações V e W em termos de aumento de entropia e decréscimo da informação de
SPE 2011
49
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Fisher. A convergência para a uniforme era expectável em virtude do facto bem conhecido de que
a densidade limite de convoluções num grupo topológico compacto G é uniforme relativamente
à medida de Haar em G, donde advém o princı́pio de entropia máxima H( f ) ≤ 0, f ∈ G, com
igualdade se e só se f é uniforme.
Bibliografia
[1] Brilhante, M. F., Mendonça, S., Pestana, D. e Sequeira, F. (2010). Using Powers of Products
to Test Uniformity. Notas e Comunicações do CEAUL, 02/2010.
[2] Deng, Y. e George, E. O. (1992). Some characterizations of the uniform distribution with
applications to random number generation. Em Ann. Instit. Statistical Mathematics (Editores,
eds.), 44, 379–385.
[3] Gomes, I., Pestana, D., Sequeira, F., Mendonça, S. e Velosa, S. (2009). Uniformity of offsprings from uniform and non-uniform parents. Proceedings of the ITI 2009, 31th International
Conference on Information Technology Interfaces 2009, (Luzar-Stiffler, V., Jarec, I. e Bekic,
Z., eds.), 243–248.
[4] Johnson, O. (2004). Information Theory and the Central Limit Theorem. London: Imperial
College Press.
SPE 2011
50
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Fatores associados ao abandono escolar no Ensino Médio
Público de Minas Gerais
Tufi Machado Soares1 , Neimar Fernandes da Silva1 , Mariana Calife Nóbrega1 e Alexandre
Nicolella2
1
2
CAED-UFJF, {tufi, neimar, calife}@caed.ufjf.br
USP/Campus Ribeirão Preto-Faculdade de Economia, [email protected]
Resumo: Este artigo tem como objetivo principal apontar quais são os principais fatores que influenciam o abandono escolar no Ensino Médio. Os dados utilizados se baseiam numa série histórica
construı́da a partir do levantamento das PNAD - Pesquisa Nacional por Amostra de Domicı́lios - e
uma ampla pesquisa realizada no estado de Minas Gerais, esta pesquisa culminou com a coleta de
diversas informações de um total de 3.418 entrevistados (entre alunos cursantes e não-cursantes).
Com base nesses dados, estimaram-se modelos de Regressão de Risco Proporcional de Cox, que
permitiram identificar a correlação entre fatores intra e extra-escolares com o abandono precoce.
Outro modelo desenvolvido utilizou as bases de dados da PNAD, em que um modelo Logito foi
estimado, permitindo verificar a taxa do não abandono na trajetória do Ensino Médio também para
Minas Gerais. Entre os resultados encontrados destacam-se alguns fatores expressivos na explicação
do abandono como: a dificuldade nas disciplinas, ansiar por uma escola diferente, perceber melhores oportunidades de trabalho com a continuidade dos estudos e a importância atribuı́da na escolha
da escola.
Palavras–chave: Abandono escolar, Ensino Médio, pesquisa nacional por amostra de domicı́lios,
pesquisa sobre abandono escolar
Introdução
Este artigo tem por objetivo apontar algumas caracterı́sticas associadas ao abandono escolar dificultando a conclusão do Ensino Médio pelos jovens com no mı́nimo oito anos de escolaridade nas
escolas públicas do Estado de Minas Gerais. Especificamente, para tal, pretende-se produzir conhecimento empregando dados secundários, por meio da utilização dos dados disponı́veis nas PNADs
(1987 a 1992) e dados primários, produzidos pela PSAE - Pesquisa Sobre Abandono Escolar. Com
a articulação destas formas de análise, será possı́vel checar a robustez dos resultados alcançados em
cada uma das abordagens.
Algumas pesquisas apontaram o abandono escolar do jovem no Ensino Médio influenciada pela
necessidade de entrar no mercado de trabalho, seja colaborando com o orçamento familiar, seja
para ter o próprio dinheiro. Esta visão pode estar ignorando diversos fatores que os jovens consideram ao decidir abandonar a escola. Outros fatores que podem ser listados como capazes de
afastarem os jovens dos bancos escolares, inclui-se a falta de interesse na/pela escola, seja, por
caracterı́sticas individuais, familiares, ou até mesmo da escola (qualidade ensino, infra-estrutura,
excesso de conteúdos), são questões que ainda pouco se compreende no Brasil.
O desinteresse também aparece como forte motivo que influencia a decisão de abandonar a escola
SPE 2011
51
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
e entendê-lo torna-se de suma importância tanto para melhor compreensão do estado de fragilidade
que esses jovens se encontram quanto um indicador importante na orientação de polı́ticas educacionais que visam reverter tal quadro. Na maioria dos estudos fica evidente uma dicotomia entre
fatores internos e fatores externos como causadores do abandono escolar.
Três modelos estatı́sticos foram desenvolvidos para explicar o abandono escolar, entre eles, dois
Modelos de Regressão de Risco Proporcional de Cox [2] que utilizaram dados da PSAE, que inovam
em técnicas de modelagens de eventos recorrentes, que para este caso foi o abandono, condicionado
as covariáveis ligadas a dados educacionais no Brasil. Para os dados da PNAD [1], estimou-se o
Modelo de Variáveis Dependentes Binárias (Logito) com dados empilhados (Pooling) com binárias
de coorte e ano.
Com os resultados dos modelos estatı́sticos foi possı́vel mensurar o impacto positivo e negativo dos
fatores ligados a abandono, tais como: condição socioeconômica, gênero, defasagem idade/série,
trabalho, dificuldade nas disciplinas, percepção de melhores oportunidades de trabalho com a continuidade dos estudos, o anseio por uma escola dinâmica, pretensão de cursar faculdade, interesse e
incentivo da famı́lia nos estudos, entre outros no abandono precoce.
Bibliografia
[1] Brasil. Ministério do Planejamento, Orçamento e Gestão. Instituto Brasileiro de Geografia e
Estatı́stica. Pesquisa Nacional por Amostra de Domicı́lios (PNAD). Rio de Janeiro: IBGE;
2001-2008.
[2] Colosimo, E.A. e Giolo, S.R. (2006). Análise de Sobrevivência Aplicada. 1a ed. Edgard
Blücher Ltda: São Paulo.
SPE 2011
52
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Análise de dados longitudinais com drop-out dependente da
variável resposta
Inês Sousa
Departamento de Matemática e Aplicações, Universidade do Minho, [email protected]
Resumo: Nesta apresentação proponho explorar as dificuldades dos modelos longitudinais quando
o processo de dados faltantes está dependente do processo de medida.
Palavras–chave: Análise de dados longitudinais, drop-out dependente da variável resposta
Introdução
Estudos longitudinais são desenvolvidos quando se pretende obter medidas repetidas para um mesmo
indivı́duo ou entidade. Usualmente, estes aparecem em contexto de bioestatı́stica quando o efeito
de um tratamento/droga/cirurgia quer ser estudado ao longo do tempo. Desta forma, os modelos
estatı́sticos longitudinais permitem distinguir variabilidade entre indivı́duos e dentro do indivı́duo
ao longo do tempo. Os modelos longitudinais combinam técnicas de séries temporais e análise
multivariada. No entanto, quando seguimos indivı́duos ao longo do tempo estes podem originar
séries temporais de diversas dimensões, devido ao facto de podermos perder indivı́duos ao longo
do estudo. Temos assim os chamados drop-out. O motivo pelo qual os indivı́duos saem do estudo, originando drop-out, pode ou não estar relacionado com a variável resposta de interesse. Por
exemplo, se um indivı́duo sai do estudo porque mudou de residência, não é esperado que esta causa
esteja relacionado com o objectivo do estudo. Por outro lado, se um indivı́duo decide sair do estudo
porque cada vez se sente pior, o facto de termos dados faltantes está fortemente associado com a
variável em estudo. Neste trabalho, pretendemos comparar diferentes modelos longitudinais que
consideram a associação entre os dois processos estocásticos, o de variável resposta e o do processo
de drop-out.
Bibliografia
[1] Sousa I. (2011). A review on joint modelling of longitudinal measurements and time-to-event.
REVSTAT, 9(1), 57–81.
SPE 2011
53
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
Periodic autoregressive model identification
using genetic algorithms
Eugen Ursu1 , Kamil Feridun Turkman1
1
CEAUL, {eugenursu,kfturkman}@fc.ul.pt
Abstract: A periodic autoregressive model (PAR) extends the classical autoregressive (AR) model
by allowing the parameters to vary with seasons. Selecting PAR time series models can be computationally expensive and the results are not always satisfactory. We propose a new automatic
procedure to the model selection problem by using the genetic algorithm. The Bayesian information criterion (BIC) is used as a tool to identify the order of the PAR model. The success of the
proposed procedure is illustrated in a small simulation study, and an application with monthly data
is presented.
Keywords: Periodic time series, identification, genetic algorithms
Periodic models
A periodic autoregressive (PAR) model extends the classical autoregressive (AR) model by allowing
the autoregressive parameters to vary with the seasons. Let Y = {Yt , t ∈ Z} be a periodic autoregressive (PAR) stochastic process:
p(ν )
Yns+ν =
∑ φk (ν )Yns+ν −k + εns+ν ;
(1)
k=1
for fixed ν and predetermined value s, the random variable Yns+ν denotes the realization during the
ν th season, with ν ∈ {1, . . . ,s}, at year n, n ∈ Z. The autoregressive model order at season ν is
given by p(ν ), and φk (ν ), k = 1, . . . ,p(ν ), are the autoregressive model coefficients during season
ν , ν = 1, . . . ,s. The error process ε = {εt , t ∈ Z} in (1) corresponds to a zero mean periodic white
noise, that is E(εt ) = 0 and Var(εns+ν ) = σ 2 (ν ) > 0, ν = 1, . . . ,s.
Various selection criteria using AIC or BIC can be employed for PAR model identification. One
possible way is to employ the BIC selection criteria separately for each of the seasonal components,
thus defining the overall BIC criterion as
s
BIC =
∑ BIC(ν ),
(2)
ν =1
with
log(N)
(3)
p(ν ),
N
where ε̂ns+ν , n = 0, . . . ,N − 1 denote the residuals of the adjustment, σ̂ (ν ) corresponds to the least
squares estimators of σ (ν ), and p(ν ) represents the number of autoregressive parameters in the
BIC(ν ) = log σ̂ 2 (ν ) +
SPE 2011
55
Quinta, 29/09/2011
Átrio do Café, 10:00–10:30
season ν . The problem with this piecewise identification method is that the number of possible
model may become excessively large especially for monthly or weekly data, so a random search
algorithm may have to be employed. We suggest the Genetic Algorithm (GA) as a possible solution
to this problem.
Applying GA to the identification problem
A large number of possible solutions of the periodic autoregressive identification problem suggests
that a GA will be useful in efficient examination of the space of solutions and select the combination
of parameters that corresponds to the best model.
While using GA approach, string representations for chromosomes have to be provided. Since the
identification will be made for each of the separate periods, one gene for each possible lag will
be reserved, filling it with 1 if the parameter is free, and with 0 if the parameter is constrained to
zero. The resulting string represents the chromosome. For example, if we take s = 4, ν = 1 and the
maximum order equal to 15, the following model
Y4n+1 = φ6 (1)Y4n + φ7 (1)Y4n−1 + ε4n+1
is represented in terms of the chromosome
000001100000000.
Upon deciding on encoding, a fitness function has to be specified. BIC for each period given in
equation (3) cannot be implemented directly as fitness function (which has to be maximized), as the
proposed criterion has to be minimized. However, a simple linear transformation (Goldberg, 1989;
Gaetan, 2000)
f j (ν ) = M + 1 − BIC j (ν ),
(4)
where BIC j (ν ) is the BIC(ν ) value for the jth chromosome in the current population and M is the
maximum value of the current BIC(ν ) in the current population, is a proper fitness function.
GA starts with an initial population of chromosomes generated at random. In this paper, the tournament selection method is used, since it is computationally more efficient (Mitchell, 1996). The
crossover probability Pc describes how often crossovers will be performed. The probability of a
crossover occurring in the interval (0.5, 0.9) is usually high. Hence, upon studying many variants
of the crossover method found in the literature, the uniform crossover with Pc = 0.8 was found to
be adequate. The probability of mutation Pm is usually assumed small, often taken in the interval
(0.001, 0.1). Larger values turn the GA to a random search. We chose Pm = 0.01.
Bibliography
[1] Gaetan, C. (2000). Subset ARMA model identification using genetic algorithms. Journal of
Time Series Analysis, 21, 559–570.
[2] Goldberg, D.E. (1989). Genetic Algorithms in Search, Optimization & Machine Learning,
Addison-Wesley.
[3] Mitchell, M. (1996). An Introduction to Genetic Algorithms. MIT Press.
SPE 2011
56
Quinta, 29/09/2011
Músicos e crianças: Caracterização de séries de tapping bimanual
Ana Diniz1 , Inês Faria2 e João Barreiros1
1
2
CIPER, FMH, Universidade Técnica de Lisboa, {adiniz,jbarreiros}@fmh.utl.pt
Centro de Recursos para a Inclusão de Almeirim, [email protected]
Resumo: A percepção do tempo é um tema vital já que muitos movimentos humanos partilham o
objectivo de coordenar o movimento com o tempo. Este processo é influenciado por diversos factores tais como a idade, a experiência, etc. Um delineamento experimental usual consiste na produção
de movimentos rı́tmicos (tapping) com intervalos isócronos. O elemento de interesse é a série de
intervalos inter-resposta. Neste trabalho avaliou-se 5 adultos músicos e 23 crianças sem formação
musical numa tarefa rı́tmica e estudou-se as séries de intervalos entre respostas consecutivas.
Palavras–chave: Série temporal, processo estocástico, controlo motor, tarefa de tapping
Introdução
A percepção do tempo e a sua incorporação nos movimentos humanos é um processo fundamental
e que conjuga aspectos maturacionais e aspectos comportamentais. Este é um processo demorado
e que, em geral, só encontra pontos de estabilidade após as fases da infância. O sistema é também
sensı́vel à experiência, como se pode observar pela capacidade acrescida em músicos [3]. Os estudos
sobre este tema envolvendo crianças saudáveis são raros, em contraste com as investigações em
adultos que são vastas e variadas (e.g., [1], [2]).
Os delineamentos experimentais para medir a estabilidade temporal têm visado a produção de movimentos rı́tmicos com as mãos (tapping) com intervalos isócronos. Estas tarefas permitem o registo
de medidas precisas com instrumentos simples e têm sido utilizadas há mais de 100 anos [4]. As
tarefas rı́tmicas levam à produção de séries de intervalos inter-resposta cujo estudo é de grande interesse teórico e prático. Em particular, a modelação deste tipo de séries permite a caracterização
de populações especiais e a identificação de competências individuais com inúmeras finalidades.
Amostra e dados
Neste estudo considerou-se uma amostra de conveniência composta por 5 adultos, músicos percussionistas, com idade média de 28.0 anos e 23 crianças do 1o ano de escolaridade sem necessidades
educativas especiais, sem formação musical, com idade média de 6.8 anos.
A tarefa consistiu na percussão bimanual alternada numa superfı́cie lisa (tapping bimanual), com
captação do som de impacto por um microfone ligado a um computador. O procedimento foi o
de sincronização-continuação, isto é, cada participante foi instruı́do para bater na superfı́cie em
simultâneo com sinais sonoros (20 batimentos) e depois continuar a bater com o mesmo ritmo
SPE 2011
Mesa: M. Manuela Neves
57
Quinta, 29/09/2011
sem referência sonora (130 batimentos). Os intervalos-alvo foram 300 ms e 600 ms e cada sujeito
realizou a tarefa com os dois intervalos numa ordem aleatória. Os valores registados foram os
intervalos de tempo It entre batimentos consecutivos.
Métodos e resultados
O estudo das séries temporais obtidas incidiu sobre as séries totais (direita-esquerda, esquerdadireita, ...) e sobre algumas séries parciais (direita-esquerda, direita-esquerda, ... e direita-direita,
direita-direita, ...) de cada indivı́duo. A análise começou pela representação gráfica das séries
individuais e pelo cálculo de caracterı́sticas amostrais. Em seguida efectuou-se a modelação das
séries individuais através de processos estacionários e não estacionários. Por fim procedeu-se à
identificação de padrões nas séries das crianças com base em medidas relevantes. Os resultados
sugerem diferenças comportamentais fortes entre adultos e crianças e entre crianças entre si.
A Figura 1 mostra as séries totais de intervalos inter-resposta de um adulto e de uma criança com
intervalos-alvo de 300 ms e de 600 ms.
700
Intervalo (ms)
Intervalo (ms)
400
(a)
350
300
250
200
0
20
40
60
80
Batimento
100
120
400
300
200
100
550
0
20
40
60
80
Batimento
100
120
140
800
Intervalo (ms)
Intervalo (ms)
500
(c)
600
500
140
(b)
650
0
20
40
60
80
Batimento
100
120
140
(d)
700
600
500
400
0
20
40
60
80
Batimento
100
120
140
Figura 1: (a) Série de intervalos do adulto A1 com intervalo-alvo de 300 ms; (b) Série de intervalos
do adulto A1 com intervalo-alvo de 600 ms; (c) Série de intervalos da criança C1 com intervalo-alvo
de 300 ms; (d) Série de intervalos da criança C1 com intervalo-alvo de 600 ms.
Bibliografia
[1] Delignières, D. e Torre, K. (2009). Vers une nécessaire prise en compte de la complexité:
variabilité et fractalité dans la motricité rythmique. Intellectica, 52, 41–54.
[2] Diniz, A., Barreiros, J. e Crato, N. (2010). Parameterized estimation of long-range correlation
and variance components in human serial interval production. Motor Control, 14, 26–43.
[3] Repp, B.H. (2010). Sensorimotor synchronization and perception of timing: effects of music
training and task experience. Human Movement Science, 29, 200–213.
[4] Stevens, L.T. (1886). On the time-sense. Mind, 11, 393–404.
SPE 2011
58
Quinta, 29/09/2011
Alterações dos padrões de sazonalidade ao longo do ciclo da
procura turı́stica
Pedro M.D.C.B. Gouveia
Universidade do Algarve - ESGHT, CIITT, CASEE, [email protected]
Resumo: Na última década, a literatura económica tem analisado a relação entre sazonalidade
e ciclo económico. Com efeito, tem sido possı́vel obter evidência de alterações nos padrões de
sazonalidade ao longo do ciclo económico em variáveis económicas como o Índice de Produção
Industrial (vide, inter alia, Matas Mir e Osborn, 2004). Este trabalho estende várias abordagens de
datação do ciclo económico (e.g. ciclo clássico, ciclo de desvio e ciclo em taxas de crescimento)
a variáveis da procura turı́stica em Portugal e é pioneiro no estudo da existência de interacção
entre os padrões de sazonalidade e o ciclo económico. Ou seja, este estudo procura evidência de
comportamento assimétrico na sazonalidade em função das fases do ciclo da procura turı́stica, sendo
espectável um efeito sazonal mais forte em perı́odos de recessão.
Neste artigo, para efeitos do tratamento de dados são utilizados dados com frequência mensal publicados pelo Instituto Nacional de Estatı́stica (INE) relativamente ao número de dormidas de hóspedes
na hotelaria e estabelecimentos similares entre 1968 e Fevereiro de 2011 para o Algarve, Madeira,
Lisboa, Total de Portugal, segundo os principais mercados emissores.
Em termos metodológicos, e no sentido de captar este tipo de não-linearidade nos coeficientes sazonais, são utilizados modelos autorregressivos de tipo Threshold (TAR - Threshold Autorregressive).
Os modelos não - lineares têm sido usados para caracterizar variáveis económicas ou séries financeiras que apresentam comportamentos assimétricos que, em muitos casos, estão associados às fases
de expansão e de recessão do ciclo. Os modelos Threshold introduzidos por Tong (1978) e Tong e
Lim (1980) e extendidos por Tong (1983, 1990) e Hansen (1997) constituem um tipo de modelos
não lineares que tem sido objecto de um interesse crescente na literatura (vide, inter alia, Hansen
1997, Caner e Hansen 2001, Fanses e van Dijk, 2005).
Os resultados obtidos permitem obter evidência de não linearidade no comportamento sazonal da
procura turı́stica, em função das fases do ciclo económico. Os padrões de não-linearidade diferem
de acordo com o tipo de ciclo considerado (ciclo clássico, de desvio ou em taxas de crescimento) e
da forma como é definida a função indicadora do ciclo económico, particularmente em termos do
desfasamento temporal considerado.
A abordagem proposta neste artigo pode constituir um instrumento de apoio à decisão de entidades públicas e privadas permitindo, em cada momento, um melhor ajustamento entre a procura e
a oferta turı́stica. De facto, esta metodologia permite estimar o efeito de um perı́odo de recessão
sobre o peso de cada mês, estação do ano ou época turı́stica no total de dormidas anuais.
Palavras–chave: Sazonalidade, ciclo económico, modelos TAR, não-linearidade
SPE 2011
59
Quinta, 29/09/2011
Bibliografia
[1] Caner, M e Hansen, B.E. (2001). Threshold autoregression with a unit root. Econometrica, 69,
1555-1596.
[2] Franses, P.H. e van Dijk, D. (2005). The forecasting performance of various models for seasonality and nonlinearity for quarternly. Production, International Journal of Forecasting, 21,
2005 87-102.
[3] Hansen, B.E. (1997). Threshold inference in TAR models. Studies in Non-linear Dynamics
and Econometrics, 2, 1-14.
[4] Matas-Mir, A. e Osborn, D.R. (2004). Does seasonality change over the business cycle? An
investigation using monthly industrial production series. European Economic Review, 48,
1309-1332.
[5] Tong, H. (1978), Pattern Recognition and Signal Processing. Amsterdam: Sijthoff & Noordhff.
[6] Tong, H. (1983). Threshold inference in TAR models. Springer and Verlag, Lectures Notes in
Statistics, 21.
[7] Tong, H. (1990), Linear Time Series: A Dynamical Systems Approach. Oxford: Oxford University Press.
[8] Tong, H. e Lim, K.S. (1980). Threshold autoregressions, limit cycles and data. Springer Journal of the Royal Statistical Society, B 42, 245-92.
SPE 2011
60
Quinta, 29/09/2011
Análise espectral singular no estudo do número de vı́timas
mortais em acidentes de viação em Portugal Continental
Fernando Sebastião1 , Irene Oliveira2
1
Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Leiria, CM-UTAD,
[email protected]
2 Universidade de Trás-os-Montes e Alto Douro, CM-UTAD, [email protected]
Resumo: A segurança rodoviária, nas últimas décadas, tem constituı́do matéria relevante para o
acompanhamento constante por parte das autoridades nacionais responsáveis, com vista a uma
redução permanente dos nı́veis de sinistralidade. Os números da mortalidade em acidentes de viação
representam um dos aspectos que tem merecido uma análise cuidada por parte das autoridades competentes.
Neste trabalho pretende-se explorar os valores mensais do número de vı́timas mortais resultantes
dos acidentes de viação ocorridos em Portugal Continental, obtidos nos últimos treze anos, através
da técnica da Análise Espectral Singular.
Palavras–chave: Acidentes de viação, análise espectral singular, componentes principais, mortalidade rodoviária, séries temporais
Descrição do trabalho
Uma extensão da Análise em Componentes Principais é a designada Análise Espectral Singular
(SSA), a qual geralmente apresenta resultados que são considerados muito satisfatórios na análise
de uma série temporal, nomeadamente nos casos em que os dados ostentam uma estrutura mais
complexa como por exemplo em séries com várias componentes sazonais. O principal objectivo da
SSA é decompor uma série de dados original num pequeno número de componentes de forma a que
seja possı́vel interpretar a tendência e as componentes oscilatórias, desprezando a estrutura de ruı́do
subjacente.
No ano de 2001, segundo a proposta da Comissão Europeia sobre a polı́tica europeia de transportes,
pretendia-se que a União Europeia tivesse como meta a redução para metade das vı́timas mortais nas
suas estradas até ao ano de 2010. Estas preocupações presentes na polı́tica de segurança rodoviária
nacional, nas últimas décadas, têm contribuı́do para que a sinistralidade rodoviária em Portugal
tenha cada vez menos impacto na sociedade e como consequência têm-se vindo a verificar uma
diminuição bastante significativa da mortalidade resultante dos acidentes de viação.
A análise do comportamento do número de vı́timas mortais provenientes dos acidentes de viação
permite uma melhor percepção da influência das polı́ticas adoptadas nos últimos anos, e pode contribuir para um planeamento de novas polı́ticas de sensibilização, de prevenção e de aplicação de
legislação.
Neste trabalho procederemos a uma breve descrição da técnica da SSA (Elsner e Tsonis, 1996;
Golyandina et al., 2001 e Hassani, 2007) e apresentaremos o estudo da série mensal do número
SPE 2011
61
Quinta, 29/09/2011
de vı́timas mortais em acidentes de viação ocorridos em Portugal Continental entre os anos de
1998 e 2010. As componentes essenciais para a reconstrução da série dos dados originais, que
permitem descrever o sinal através das componentes oscilatórias e da tendência, serão analisadas e
utilizadas posteriormente para prever valores da mortalidade rodoviária mensal através do algoritmo
de previsão recorrente descrito detalhadamente em Golyandina et al. (2001). Paralelamente, será
efectuada uma pequena abordagem às principais legislações nacionais introduzidas ultimamente em
matéria de segurança e prevenção rodoviárias, assim como uma comparação em termos de evolução
do número de vı́timas mortais em acidentes de viação com outros paı́ses europeus.
Bibliografia
[1] Elsner, J.B. e Tsonis, A.A. (1996). Singular Spectrum Analysis. A New Tool in Time Series
Analysis, New York, Plenum Press.
[2] Golyandina, N.E., Nekruktin, V.V. e Zhigljavsky, A.A. (2001). Analysis of Time Series Structure: SSA and Related Techniques. Chapman & Hall, Boca Raton.
[3] Hassani, H. (2007). Singular spectrum analysis: Methodology and comparison. Journal of
Data Science, 5, 239-257.
SPE 2011
62
Quinta, 29/09/2011
Uma avaliação experimental de diferentes metodologias estatı́sticas de dados de microarrays
Sara Roque1 , Adelaide Freitas1 e Laura Carreto2
1
2
Departamento de Matemática - Universidade de Aveiro, {a32958, adelaide}@ua.pt
Departamento de Biologia - Universidade de Aveiro, [email protected]
Resumo: Nos últimos anos têm sido desenvolvidas diversas técnicas estatı́sticas com vista à análise
de dados de microarrays. Considerando quatro diferentes metodologias estatı́sticas sobre cinco
bases de dados de microarrays, analisámos os resultados obtidos pelos métodos aplicados. Em
diversos casos, as diferentes metodologias forneceram proporções de genes diferencialmente expressos muitos semelhantes. No entanto, quando comparámos estes genes, um a um, apenas uma
menor parte destes genes são comuns entre metodologias.
Palavras–chave: Nı́vel de expressão genética, microarrays, SAM, modelos lineares, métodos
empı́ricos de Bayes, rank products
Introdução e Resultados
Nas últimas décadas, diversas metodologias estatı́sticas para a análise de genes diferencialmente
expressos têm vindo a ser desenvolvidas. No entanto, frequentemente na prática apenas uma metodologia é aplicada quando se pretende efectuar uma análise de dados de microarrays, não existindo, em grande parte dos casos, uma justificação estatı́stica para a aplicação do método escolhido.
Aplicámos 4 metodologias estatı́sticas a 5 bases de dados, validando os pressupostos. Para a análise
referida foram escolhidas metodologias com diferentes abordagens estatı́sticas: (1) a metodologia
SAM ([1], implementada no pacote ) que quantifica, para cada gene, a influência da(s) classe(s)
no nı́vel de expressão genética através do valor de uma estatı́stica de teste e estima a taxa das falsas
descobertas fazendo uso de repetidas permutações dos dados; (2) os modelos lineares para análise
de microarrays ([2], implementados no pacote limma) que assumem um modelo linear ajustado
a cada gene; (3) os métodos empı́ricos de Bayes paramétricos para análise de microarrays ([3, 4],
implementados no pacote EBarrays) os quais podemos tomar um de três modelos: Log-NormalNormal, Gamma-Gamma e Log-Normal-Normal com variância modificada, para cada gene; e, por
fim, (4) a metodologia Rank Products ([5], implementada no pacote RankProd) baseada nas ordens das fold changes. Todas estas metodologias estão implementadas na linguagem R e, à excepção
do pacote samr, todos os pacotes foram obtidos do Bioconductor.
Para o presente estudo experimental foram consideradas 4 bases de dados de microarrays conhecidas na literatura, de acesso livre na Internet, e uma base recentemente criada no Laboratório de
microarrays da Universidade de Aveiro contendo 14 microarrays com os nı́veis de expressão de
6388 genes. As primeiras 4 bases de dados foram: (1) a ApoAI [6], constituı́da por 16 microarrays
(8 obtidos de ratos cujo gene em causa está activo e 8 cujo gene não está activo) e 6382 genes; (2)
a base de dados de Golub [7], formada por 38 microarrays da Affymetrix obtidos de amostras de
medula óssea de pacientes com dois tipos de leucemia aguda (27 de um tipo e 11 de outro); (3) a
Lymphoma [8] tendo sido considerados os nı́veis de expressão de 7079 genes para 77 microarrays
(68 obtido de indivı́duos em condições normais e 9 obtidos de indivı́duos com diffuse large B-cell
lymphoma); e, por último, (4) a colonCA [9] que contém 62 microarrays da Affymetrix (40 obtidos
de indivı́duos com tumor no cólon e 22 de indivı́duos em condições normais) e 2000 genes.
SPE 2011
Mesa: Russel Alpizar-Jara
63
Quinta, 29/09/2011
Verificou-se que apesar de, na maioria dos casos, o número de genes diferencialmente expressos
não sofrer grandes alterações entre metodologias, o número de genes comuns às metodologias, duas
a duas, sofre uma considerável redução, mesmo considerando uma taxa de falsas descobertas suficientemente baixa garantindo que as discrepâncias entre genes diferencialmente expressos e genes
diferencialmente expressos comuns não se devem ao nı́vel da taxa de falsas descobertas considerada.
Estas discrepâncias alertam para a necessidade de se estabelecer um procedimento que permita ao
biólogo identificar qual o método que conduz a resultados mais fiáveis para determinada base de
dados.
Agradecimentos: AF agradece à CIDMA (Universidade de Aveiro) o apoio financeiro concedido.
Bibliografia
[1] Alizadeh, A.A., Eisen, M.B. Davis, R.E. Ma, C. Lossos, I.S. Rosenwald, A. Boldrick, J.C.
Sabet, H., Tran, T., Yu, X. Powell, J.I., Yang, L., Marti, G.E., Moore, T., Hudson, J., Jr, Lu,
L. Lewis, D.B. Tibshirani, R., Sherlock, G. Chan, W.C., Greiner, T.C., Weisenburger, D.D.
Armitage, J.O., Warnke, R., Levy, R., Wilson, W., Grever, M.R., Byrd, J.C., Botstein, D.,
Brown, P.O. e Staudt, L.M. (2000). Distinct types of diffuse large B-cell lymphoma identified
by gene expression profiling, NATURE, 403, 503–511.
[2] Breitling R., Armengaud P., Amtmann A. e Herzyk P. (2004). Rank products: a simple, yet
powerful, new method to detect differentially regulated genes in replicated microarray experiments, FEBS Lett.,573(1–3), 83–92.
[3] Callow, M.J., Dudoit, S., Gong, E.L., Speed, T.P. e Rubin, E.M. (2000). Microarray expression
profiling identifies genes with altered expression in HDL deficient mice. Genome Research,
10, 2022–2029.
[4] Efron, B., Tibshirani, R., Storey, J.D. e Tusher, V. (2001). Empirical Bayes analysis of a
microarray experiment, J. Am. Stat. Assoc., 96, 1151–1160.
[5] Golub, R., Slonim, D.K. Tamayo, P. Huard, C. Gaasenbeek, M. Mesirov, J.P. Coller, H. Loh,
M.L. Downing, J.R. Caligiuri, M.A. Bloomfield, C.D. e Lander, E.S. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286, 531–537.
[6] Kendziorski, C.M., Newton, M.A., Lan, H. e Gould, M.N. (2003). On parametric empirical
Bayes methods for comparing multiple groups using replicated gene expression profiles. Statistics in Medicine, 22, 3899–3914.
[7] Smith, G.K. (2004). Linear models and empirical Bayes methods for assessing differential
expression in microarray experiments, Statistical Applications in Genetics and Molecular Biology 3, No.1, Article 3.
[8] Tusher, V.G., Tibshirani, R. e Chu, G. (2001). Significance analysis of microarrays applied to
the ionizing radiation response, Proc. Natl. Acad. Sci. USA, 98, 5116–5121.
[9] Alon, U., Barkai, N., Notterman, D.A., Gish, K., Ybarra, S., Mack, D. e Levine, A.J. (1999).
Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon
tissue probed by oligonucleotide arrays. Proc. Natl. Acad. Sci. USA 96, 6745–6750.
SPE 2011
64
Quinta, 29/09/2011
Comparison of statistical methods for the identification of the
genetic basis of plant responses to stress
Paulo C. Rodrigues1,2 , Marcos Malosetti2 , Martin Boer2 , Hugh G. Gauch3 e Fred van Eeuwijk2
1
Faculdade de Ciências e Tecnologia, Universidade Nova de Lisboa, Portugal,
[email protected]
2 Biometris, Wageningen University, The Netherlands,
3 Crop and Soil Sciences, Cornell University, NY, USA,
Abstract: A different response of genotypes across environments (location by year combinations) is frequent in multi-environment trials and is known as genotype by environment interaction
(GEI). When the analysis is made in the whole genome, the interactions of interest are between
QTL (quantitative trait loci) and environment (QEI). The study and understanding of these interactions is a major challenge in plant breeding and genetics. Within the last years the mixed models
methodology has proven to be a powerful method to detect QTL and QEI, because of its ability to
account for heterogeneity of variance often present in multi-environment trials [1, 5].
In this paper we propose an alternative to this methodology which can be performed with standard
statistical software. The approach presented here is a generalization of the AQ analysis (AMMI
analysis followed by QTL scans) in [2], in which we now account for genetic and error variances. It
is based on weighted singular value decomposition (SVD) of the GEI data matrix and is conducted
in three stages: (i) compute the weights for each environment based on the error variances; (ii)
present and apply an adaptation of the additive main effects and multiplicative interaction (AMMI)
model where the SVD is replaced by a weighted low rank SVD; and (iii) perform a QTL scan
using the predictions from the weighted AMMI model as response. This approach can potentially
improve the power for QTL detection as it uses genotypic predictions as response variable. The
environments can then be ordered by AMMI parameters that summarize GEI and QEI information
in order to reveal consistent patterns and systematic trends that often can be explained in terms of
environmental conditions.
The proposed methodology is compared with the standard mixed models approach [1, 5] by using
two data sets. One about preharvest sprouting scores of a biparental wheat (Triticum aestivum L.)
population from 17 environments spread over six years [6], and other about yield for a doubled
haploid barley (Hordeum vulgare L.) population tested in 16 environments spread over two years,
and the first product of the North American Barley Genome Mapping Project [3, 4].
Keywords: Genotype by environment interactions, QTL by environment interactions, mixed models, AMMI models, low rank approximations
Bibliography
[1] Boer, M.P., Wright, D., Feng, L.Z., Podlich, D.W., Luo, L., Cooper, M. and van Eeuwijk, F.A.
(2007). A mixed-model quantitative trait loci (QTL) analysis for multiple-environment trial
SPE 2011
65
Quinta, 29/09/2011
data using environmental covariables for QTL-by-environment interactions, with an example
in maize. Genetics, 177, 1801–1813.
[2] Gauch, H.G., Rodrigues, P.C., Munkvold, J.D., Heffner, E.L. and Sorrells, M. (2011). Two new
strategies for detecting and understanding QTL x Environment interactions. Crop Science, 51,
96–113.
[3] Hayes, P.M., Chen, F.Q., Kleinhofs, A., Kilian, A. and Mather, D.E. (1996). Barley genome
mapping and its applications. Em Method of Genome Analysis in Plants (Jauhar, P.P.,eds),
229–249, CRC press, Boca Raton, Florida.
[4] Hayes, P.M., Liu, B.H., Knapp, S.J., Chen, F., Jones, B., Blake, T., Franckowiak, J., Rasmusson, D., Sorrells, M., Ullrich, S.E., Wesenberg, D. and Kleinhofs, A. (1993). Quantitative
trait locus effects and environmental interaction in a sample of North-American Barley Germ
Plasm. Theoretical and Applied Genetics, 87, 392–401.
[5] Malosetti, M., Voltas, J., Romagosa, I., Ullrich, S.E. and van Eeuwijk, F.A. (2004). Mixed
models including environmental covariables for studying QTL by environment interaction.
Euphytica, 137, 139–145.
[6] Munkvold, J.D., Tanaka, J., Benscher, D. and Sorrells, M.E. (2009). Mapping quantitative trait
loci for preharvest sprouting resistance in white wheat. Theoretical and Applied Genetics, 119,
1223–1235.
SPE 2011
66
Quinta, 29/09/2011
Testes à presença de autocorrelação usando a regressão de
Gauss-Newton
Efigénio Rebelo1 , Patrı́cia Oom do Valle1 e Rui Nunes1
1
Faculdade de Economia da Universidade do Algarve, {elrebelo, pvalle, rnunes}@ualg.pt
Resumo: Este trabalho deduz dois tipos de testes à autocorrelação tendo por base uma metodologia
assente numa regressão auxiliar, denominada de regressão de Gauss-Newton. Ambos os testes são
deduzidos em dois contextos particulares: no caso em que a função de regressão não contém valores
contemporâneos de variáveis endógenas, situação em que se recorre ao método dos mı́nimos quadrados não lineares (MMQNL); no caso em que a função de regressão contém valores contemporâneos
de variáveis endógenas, situação em que se utiliza o método das variáveis instrumentais. O primeiro
teste que se apresenta tem por objectivo identificar a presença de autocorrelação, seja ela genuı́na
ou não. O segundo teste apresentado visa distinguir a autocorrelação genuı́na da autocorrelação não
genuı́na, sendo esta última uma evidência de má especificação. O presente trabalho mostra também
que este segundo teste, designado por teste ao factor comum, pode ser deduzido como um teste do
χ 2 ou como um teste t.
Palavras–chave: Autocorrelação, regressão de Gauss-Newton.
SPE 2011
67
Quinta, 29/09/2011
Sala Caminho Real, 10:30–11:30
Ordenação estocástica na avaliação qualitativa do desempenho de esquemas conjuntos para processos bivariados
Patrı́cia Ferreira Ramos1 , Manuel Cabral Morais2 , António Pacheco2 e Wolfgang Schmid3
1
CEMAT, IST, [email protected]
CEMAT e DM, IST, {maj, apacheco}@math.ist.utl.pt
3 Department of Statistics, European University Viadrina, [email protected]
2
Resumo: Ao utilizar um esquema conjunto para controlar o vector de médias µ e a matriz de
covariâncias Σ de um processo bivariado, é comum ocorrerem sinais erróneos. Estes correspondem a
sinais válidos que levam à interpretação errada de uma alteração em µ (resp. Σ) como uma alteração
em Σ (resp. µ ).
Na sequência de um trabalho anterior, que se centrou na avaliação quantitativa das probabilidades de
ocorrência de sinais erróneos em esquemas conjuntos para processos bivariados, fazemos agora uso
da ordenação estocástica para avaliar qualitativamente o impacto de alterações em µ ou Σ naquelas
probabilidades e outras medidas de desempenho.
Palavras–chave: Controlo estatı́stico de processos, sinais erróneos, processos bivariados, esquemas conjuntos
SPE 2011
Mesa: Paulo Infante
69
Quinta, 29/09/2011
O revisitar de um método adaptativo em controlo estatı́stico
da qualidade
Manuel do Carmo1 , Paulo Infante2 e Jorge Mendes3
1
ISLA Campus Lisboa, [email protected]
Universidade de Évora, CIMA–UE, [email protected]
3 ISEGI – UNL, CEGI, [email protected]
2
Resumo: Neste trabalho, propomo-nos revisitar um esquema adaptativo em controlo da qualidade,
que obtém os instantes de amostragem recorrendo à função densidade da distribuição normal padrão
calculados para os valores obtidos da média amostral. Para tal, propomos não só considerar outras cartas de controlo e/ou estatı́sticas amostrais, mas também analisar o desempenho deste esquema adaptativo quando se consideram outras funções densidade de probabilidade, como as das
distribuições de Laplace, t-Student e Logı́stica. Devido à forma das referidas distribuições e, em
particular, às suas caudas mais pesadas, o método pode ganhar em aplicabilidade e revelar-se mais
eficaz, para determinadas alterações da qualidade, quando comparado com o método de amostragem
clássico e com outros métodos de amostragem adaptativa e até mesmo quando se utiliza a função
densidade original.
Palavras–chave: Amostragem adaptativa, cartas de controlo, AATS
Introdução
A melhoria da qualidade de um qualquer produto ou serviço está sempre associada a uma redução
da variabilidade de caracterı́sticas da qualidade associadas a esse produto ou serviço. A carta de
controlo é a ferramenta estatı́stica de eleição para atingir este objectivo, pois permite a distinção
entre a variabilidade inerente ao processo e a variabilidade oriunda de algo externo. Consequentemente, a selecção do tipo de carta de controlo a utilizar num dado contexto e o subjacente processo
de amostragem, onde podemos incluir a determinação dos parâmetros associados a essa carta, assumem uma primordial importância. Nas cartas Shewhart clássicas, os instantes de amostragem,
os tamanhos das amostras e os limites de controlo são fixos durante todo o processo. Na literatura, a carta de controlo com este procedimento é usualmente designada por carta FSI (Fixed
Sampling Intervals). As cartas de controlo usando este esquema de amostragem são pouco eficazes
na detecção de alterações pequenas e moderadas. Reynolds et al. (1988) apresentaram um esquema
de amostragem adaptativo com dois intervalos de tempo para a recolha das amostras designado por
VSI (Variable Sampling Intervals). Vários foram os esquemas de controlo adaptativos que desde
então foram apresentados e analisados, uns com um, outros com dois e até mesmo um com os
três parâmetros adaptativos (instantes de amostragem, tamanho das amostras e múltiplo do desvio
padrão nos limites de controlo). Esta temática continua a merecer grande interesse por parte dos investigadores e recentemente Mahadik e Shirke (2009) apresentaram uma metodologia que usa dois
intervalos de amostragem e três dimensões amostrais designada por SVSSI (Special Variable Sample Size and Sampling Intervals). Rodrigues Dias (1999) apresenta uma metodologia recorrendo à
função densidade de probabilidade da variável normal reduzida para obter intervalos de amostragem
SPE 2011
Mesa: Paulo Infante
71
Quinta, 29/09/2011
(NSI – Normal Sampling Intervals), sendo as suas propriedades estatı́sticas e robustez estudadas em
Infante (2004), onde o desempenho deste esquema adaptativo é comparado com o de outros.
Metodologia
Sejam µ0 e σ0 , respectivamente, a média e o desvio padrão de uma caracterı́stica da qualidade
X. Designando por ti o instante de amostragem de ordem i e por x̄i o valor médio da amostra
correspondente, de acordo com este método, o próximo instante de amostragem (de ordem i+1) é
obtido através da expressão,
(1)
ti+1 = ti + φ (ui ),
com
ui =
x̄i − µ0
√ , t0 = 0, t1 = k.φ (0), x̄0 = µ0 ,
σ0 / n
(2)
onde n representa o tamanho fixo de cada amostra, k uma constante de escala conveniente e φ (u)
é a função densidade da distribuição normal reduzida. A metodologia NSI é simples, mas a sua
aplicação prática por vezes pode tornar-se complicada. Se por um lado podem ser obtidos infinitos intervalos de amostragem, por outro esses intervalos podem ser muito pequenos e de difı́cil
aplicação. Com base na ideia subjacente à metodologia NSI, propomos um método onde os intervalos de amostragem são obtidos através de uma função densidade de probabilidade com abas mais
pesadas. Um boa escolha da distribuição a usar pode aumentar a eficiência estatı́stica para pequenas
alterações da qualidade e também aumentar o menor intervalo de amostragem obtido, tornando mais
exequı́vel a sua aplicabilidade prática.
Bibliografia
[1] Infante, P. (2004). Métodos de Amostragem em Controlo de Qualidade. Universidade de
Évora. Tese de Doutoramento.
[2] Mahadik, S.B. e Shirke, D.T. (2009). A special variable sample size and sampling interval X̄
chart. Communications in Statistics - Theory and Methods, 38, 1284-1299.
[3] Reynolds, M.R., Jr, Amin, R.W.; Arnold, J.C. e Nachlas, J.A. (1988). X̄ charts with variables
sampling intervals. Technometrics 30(2): 181-192.
[4] Rodrigues Dias, J. (1999). Analysis of a new method to obtain different sampling intervals
in statistical quality control. Actas do IV Congresso Galego de Estadı́stica e Investigación de
Opéracions, Universidade de Santiago de Compostela, pp. 155-158.
SPE 2011
Mesa: Paulo Infante
72
Quinta, 29/09/2011
Estratégias de enchimento de sacos com itens de peso
aleatório e soma constrangida
Miguel Casquilho e Fátima C. Rosa
Departamento de Eng.a Quı́mica, Instituto Superior Técnico (UTL),
{mcasquilho,fatimacoelho}@ist.utl.pt
Resumo: É problemática a obtenção, dentro de especificações, do peso total dum conjunto de n
itens com pesos aleatórios, como um saco de frutos, com o resultante n uma variável dependente
dos pesos. Neste estudo, simulou-se o peso total, como soma, constrangida às especificações, das
n variáveis aleatórias, consideradas gaussianas truncadas, para comparar estratégias de enchimento,
clássica e FIFO, aplicáveis neste contexto. A estimativa das fracções “inaptas” (truncagem, desperdı́cio e rejeição) permite a minimização do custo operatório esperado.
Palavras–chave: soma constrangida de variáveis aleatórias, variáveis dependentes, Monte Carlo
Fundamento e escopo
Encontram-se inúmeros produtos, alimentares e outros, à venda em conjuntos de itens em embalagens (sacos, caixas) de certo peso “nominal”. Sempre que os itens (unidades, ou mesmo porções)
não se podem segmentar, é problemático obter o peso “certo”, mesmo se, necessariamente, o peso
tiver de se situar dentro dum intervalo, cujos extremos são estipulados. Este é um aspecto essencial
da Qualidade e seu controle estatı́stico. Os itens, “naturais” (v. g., frutos), ainda que calibrados, ou
“artificiais” (v. g., biscoitos, porções de peixe congelado), têm pesos aleatórios. Assim, em rigor,
nunca alguém compra um saco com 2 quilos de frutos, a menos que se enuncie um intervalo para
o peso, as especificações. O limite inferior, L, é imposto por lei e tipicamente coincide com o peso
nominal; e o superior, U, provém —desejavelmente !— de exame técnico-económico.
Considerou-se que os itens na embalagem, o saco, provêm duma só população, independentes e
identicamente distribuı́dos, com o peso total, W , sujeito aos limites L e U. O número de itens, n, é
também aleatório, discreto, dependente dos pesos. Não se tratou o caso simples de n fixado (v. g., 10
biscoitos), que dificulta a conformidade às especificações, mas torna trivial o problema estatı́stico.
A questão a tratar é: (tentar) obter sacos de peso constrangido a L < W < U, provindo cada item, de
peso w, duma população gaussiana (µ , σ ) sujeita a truncagem, i. é, wa < w < wb ; e adoptando uma
certa estratégia de enchimento. Ensaiaram-se: i) estratégia clássica, em que se enche, progressivamente, cada saco até que seja W > L, mesmo que daqui resulte W > U; e ii) estratégia FIFO (“first
in first out”), em que o último item a entrar pode “expulsar” o primeiro que existia no conjunto,
evitando-se uma situação irreversı́vel. Como variante ao caso clássico, vimos numa empresa, como
pequena melhoria, o uso de uma dezena de canais paralelos optativos.
No processo, geram-se três fracções “inaptas”, com custos dados: a) fTr , fracção truncada (fora
de (wa , wb )), custo cTr ; b) fWa , fracção desperdiçada (“oferecida” ao cliente), custo cWa ; e c) fRe ,
fracção rejeitada, desvalorizada por reciclagem, custo cRe . Nos custos: cTr é a compensação ao for-
SPE 2011
Mesa: Paulo Infante
73
Quinta, 29/09/2011
necedor por não escoar o produto truncado; cWa iguala o preço de venda; e cRe mede o prejuı́zo por
trabalho de reciclagem. O objectivo é, obviamente, minimizar o valor esperado do custo operatório,
z = ∑ c f , ou seja, [min] z = cTr fTr + cWa fWa + cRe fRe , em que, para (µ , σ ) e truncagem dados, z se
torna, mediante fWa e fRe (dependendo fTr só da truncagem), uma função de U, a regular pelo embalador, sendo as variações de fWa e fRe opostas. (Como cTr 6= 0 apenas soma uma constante, far-se-á
nulo.) Note-se que, se for σ diminuto, “más” combinações dos parâmetros originam exagerados
fWa e fRe , pelo que a variação (Deming in [2]) nem sempre “é o inimigo da Qualidade”.
Adiante, comparam-se as estratégias de enchimento: clássica e FIFO. Afigurando-se impraticável
a via analı́tica, usou-se a simulação por Monte Carlo, cuja exigência suscitou computação paralela.
Como previsto, obtém-se no 2.o caso melhoria sensı́vel, justificando a atenção à presente temática.
Ilustração
Simularam-se as duas estratégias para observar como o custo a minimizar varia com U: zC , clássica;
zF , FIFO. Usaram-se (µ , σ ) = (250, 20) g, (wa , wb ) = (210, 295) g, L = 2000 g e c = (0; 1; 0,08). As
estratégias ilustram-se na Fig. 1 (esquerda, clássica; direita, FIFO, mediante “tubo” aberto), com os
resultados —conforme [1]— na Tab. 1, com o melhor mı́nimo para U = 2050 g e FIFO.
Tabela 1: Custo, z, em função de U ( f em %)
U
2020
2050
2080
2110
2140
Estratégia clássica
fWa
fRe 100 zC
0,50 85,7
7,35
1,17 67,4
6,57
1,67 56,5
6,19
1,97 51,6
6,09
2,20 48,7
6,10
Estratégia FIFO
fWa
fRe 100 zF
0,49 48,0
4,33
1,07 32,9
3,70
1,36 29,4
3,71
1,52 27,6
3,73
1,81 23,9
3,72
Figura 1: Estratégias clássica e FIFO
Conclusões
O enchimento de itens de peso aleatório com soma constrangida, como num saco com frutos, tem
recebido escassa atenção. Na ausência de via analı́tica, a simulação, embora computacionalmente
exigente, permite a minimização do custo operatório esperado. As estratégias comentadas são simples mas realistas e ajustáveis, coadjuvando a Qualidade através do seu controle estatı́stico.
Agradecimentos: O estudo decorreu no “Centro de Processos Quı́micos”, IST (Instituto Superior
Técnico), Universidade Técnica de Lisboa, com computação nos “clusters”: Sigma, do Centro de
Informática do IST; e Milipeia, Laboratório de Computação Avançada, Universidade de Coimbra.
Bibliografia
[1] Casquilho, M. (2011). http://web.ist.utl.pt/∼mcasquilho/compute/qc/Fx-moretubefill.php (Abr.).
[2] Gordon, D. K. (2002). Where does Quality begin ? Quality Progress, 35(3), 103–107.
SPE 2011
Mesa: Paulo Infante
74
Quinta, 29/09/2011
Aplicações I
Dados omissos resultantes de planned missing designs: contributo para a análise do Inquérito às Condições de Vida e
Rendimento das Famı́lias (ICOR)
Paula C. R. Vicente1 e Maria de Fátima Salgueiro2
1
2
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa,Portugal, [email protected]
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa,Portugal, [email protected]
Resumo: O Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) foi implementado
com o objectivo de assegurar a participação portuguesa na base de dados europeia EU-SILC (Statistics on Income and Living Conditions). Sendo o ICOR um painel rotativo, com uma dinâmica de
rotatividade anual de 1/4 da amostra, configura uma situação de dados omissos por desenho. Neste
artigo é realizada uma sı́ntese de diferentes planned missing designs encontrados na literatura, sendo
debatido o seu contributo para a análise do ICOR.
Palavras–chave: Painel rotativo, dados omissos, planned missing designs, ICOR
Planned missing designs e tipos de dados omissos
Um dos problemas mais comuns em estudos longitudinais, nas mais variadas áreas do conhecimento, é a existência de dados omissos. Determinar a abordagem analı́tica adequada para conjuntos de dados com observações incompletas é uma questão bastante delicada, pois a utilização de
métodos inadequados pode levar a conclusões erradas.
As omissões que podem ser encontradas em estudos com dados longitudinais são de diferentes tipos:
item non response, unit non response ou simplesmente atrito ou drop-out, caso em que os indivı́duos
abandonam o estudo. Todavia as omissões podem também resultar do desenho do estudo [7].
Num planned missing design os dados omissos ocorrem de acordo com a vontade do investigador,
sendo que o objectivo da utilização de um desenho deste tipo prende-se com o propósito de aumentar
a qualidade dos dados [1, 2]. Uma técnica muito utilizada para diminuir o número de abandonos e
aumentar o número de respostas em inquéritos na área do marketing é designada por split questionnaire design [6]. Esta técnica permite dividir um questionário longo em várias componentes, todas
com o mesmo número de variáveis, e administrar aos respondentes somente uma destas fracções,
originando assim a obtenção de dados omissos. Esta abordagem é no fundo uma extensão de um
outro conceito designado por multiple matrix sampling design, o qual tem sido aplicado em estudos
na área da educação [8]. Basicamente, através desta técnica são criados subgrupos de variáveis
de forma aleatória, afectando do mesmo modo estes subgrupos a subgrupos de indivı́duos. Este
tipo de planeamento revela-se de grande utilidade na estimação de médias populacionais. Contudo,
porque algumas combinações de itens não são observadas conjuntamente, pode não ser possı́vel a
estimação de correlações entre alguns pares de variáveis [6]. Por outro lado, os split questionnaire
design impõem algumas restrições na afectação dos itens aos respondentes.
SPE 2011
Mesa: Conceição Amado
75
Quinta, 29/09/2011
Aplicações I
Existem ainda outras abordagens que resultam de algumas variações dos multiple matrix sampling,
nomeadamente: i) fractional block design [5], abordagem que apesar de permitir a estimação da
correlação entre alguns pares de variáveis, apresenta a limitação de necessitar de análises especı́ficas
na área dos modelos de equações estruturais; ii) balanced incomplete blocks spiral design [3], abordagem que assegura a estimação da correlação entre todos os pares de variáveis, bem como a média
de todas as variáveis; e iii) form design [1], que tem como objectivo aumentar o número de questões
que podem ser respondidas por um indivı́duo, permitindo a estimação de todas as correlações,
médias e variâncias.
Contributo para a análise do ICOR
O ICOR resulta da participação portuguesa no EU-SILC (European Statistics on Income and Living
Conditions), que é assegurada pelo INE desde 2004 com uma periodicidade anual. Este painel
apresenta a particularidade de ser um painel rotativo com uma dinâmica de rotatividade de 1/4 da
amostra [4]. Assim, este tipo de painel configura um caso de dados omissos por desenho, uma vez
que em cada ano sai uma fracção da amostra.
Neste trabalho é apresentada uma sı́ntese da revisão de literatura realizada em termos dos diferentes
tipos de planned missing designs que têm sido propostos e das abordagens que têm sido seguidas
para lidar com os dados omissos resultantes. É ainda discutido o contributo da aplicação destas
metodologias para a análise estatı́stica dos dados do ICOR, face à natureza rotativa do painel.
Bibliografia
[1] Graham, J., Hofer, S. e Mackinnon, D. (1996). Maximizing the usefulness of data obtained
with planned missing value patterns: An application of maximum likelihood procedures. Multivariate Behavioral Research, 31, 197–218.
[2] Graham, J., Taylor, B., Olchowski, A. e Cumsille, P. (2006). Planned missing data designs in
psychological research. Psychological Methods, 11, 323-343.
[3] INE (2009). Inquérito às Condições de Vida e ao Rendimento - ICOR. Documento Metodológico.
[4] Johnson, E. (1992). The design of the National Assessment of Educational Progress. Journal
of Educational Measurement, 29, 95-110.
[5] McArdle, J. (1994). Structural factor analysis experiments with incomplete data. Multivariate
Behavioral Research, 29, 409-454.
[6] Raghunathan, T. e Grizzle, J. (1995). A split questionnaire survey design. Journal of the American Statistical Association, 90, 429, 54-63.
[7] Schaffer, J. e Graham, J. (2002). Missing data: Our view of the state of the art. Psychological
Methods, 7, 2, 147-177.
[8] Shoemaker, D. (1973). Principles and procedures of multiple matrix sampling. Cambridge,
M.A.: Bellinger Publishing.
SPE 2011
76
Quinta, 29/09/2011
Aplicações I
RiD – Uma medida para o cálculo do risco de insolvência
Marco Aurélio Sanfins1 , Camila Silva1 , Danilo Monte-Mor2 , Tiago Ribeiro3
1
UFF - Universidade Federal Fluminense, [email protected], [email protected]
IFES - Instituto Federal do Espı́rito Santo, [email protected]
3 UFRRJ - Universidade Federal Rural do Rio de Janeiro, [email protected]
2
Resumo: A insegurança quanto a solvência das instituições financeiras americanas desencadeou,
no ano de 2008, a procura por alternativas alocativas que estivessem menos associadas a riscos gerenciais. Contudo devido a dificuldade de discernimento por partes dos agentes e das instituições
financeiras, o horizonte de investimento e a possibilidade de diluição dos riscos inerentes a atividade, seguiram limitados. Mesmo com a injeção direta de recursos pelo Federal Reserve, o risco
de insolvência das instituições financeiras manteve-se em patamares elevados, e instaurou-se uma
crise de confiança no sistema financeiro. Este trabalho tem por objetivo criar uma nova medida com
base no descasamento entre ativos e passivos que indique, a valor presente, o risco de insolvência
a que determinada instituição está submetida. Tendo como principal objetivo, fornecer aos analistas de mercado uma ferramenta alternativa, para análise e mensuração do risco de insolvência das
instituições financeiras.
Palavras–chave: Ativo, descasamento, passivo, probabilidade, risco de insolvência, simulação
RiD
O risco de insolvência com relação ao descasamento (RiD) é uma função que indica o risco de insolvência de uma instituição a partir da magnitude do fluxo de passivos e das quantidades absolutas
e relativas da relação entre ativos e passivos.
Seja um espaço de probabilidade onde esta contida as seguintes variáveis: Pt : Ω → R+ é a variável
aleatória que assume o valor do passivo para uma certa maturidade, calculado a valor presente no
instante de tempo t, e At : Ω → R+ é a variável aleatória que assume o valor do ativo para uma
certa maturidade, calculado a valor presente no instante de tempo t. Onde {pt1 , pt2 , ..., ptn } ⊂ R+ e
{at1 , at2 , ..., atn } ⊂ R+ são os valores em unidades monetárias que Pt e At pode assumir em n perı́odos
com maturidades distintas, respectivamente.
Definição 1. O peso atribuı́do a ocorrência de descasamento para um determinado perı́odo k em um
instante de tempo t, será dado pela função Wt (k) que assume valor igual a ocorrência da variável
aleatória Pt , ou seja,
pt
Wt (k) = n k t ,
k = 1,...,n.
∑i=1 pi
Definição 2. Seja δt : R+ × R+ → R+ definida como a função indicadora do grau de insolvência
relativa à exposição dos ativos e passivos para um determinado perı́odo em um dado instante de
tempo t, onde:
SPE 2011
77
Quinta, 29/09/2011
Aplicações I
δt (p,a) =
1,
p ≥ θa
exp(p − θ a), p < θ a
onde θ ∈ [0,1] é um coeficiente de ajuste de solvência com relação ao risco de crédito a que os
ativos estão expostos.
Definição 3. O risco de insolvência com base no descasamento entre ativos e passivos de uma
instituição financeira para um determinado perı́odo k em um instante de tempo t, definido por RDt
é dado pela seguinte expressão:
n
RDt = ∑ Wt (i) × δt (pti ,ati ). ft (pti ,ati ),
k = 1,...,n
i=1
onde pti e ati representam os totais de passivos e ativos de cada um dos n perı́odos considerados,
respectivamente.
Definição 4. O risco marginal de insolvência relativo com base no descasamento entre ativos e
passivos de uma instituição financeira para um determinado perı́odo k em um instante de tempo t,
que será denotado por Rt , é dado pela variável aleatória, definida em R+ → [0,1] onde sua função
de probabilidade é dada por:
rt (k|p, a) =
e e
Wt (k) × δt (ptk ,atk ). ft (ptk ,atk )
n
∑ Wt (i) × δt (pti ,ati ). ft (pti ,ati )
,
k = 1,...,n
i=1
onde p = (pt1 , pt2 ,...,ptn ) e a = (at1 , at2 ,...,atn ) representam o vetor de passivos e ativos respectivae
e
mente para todos os n perı́odos considerados.
Bibliografia
[1] Gonçalves, R.M.L. (2005) Condicionantes do Risco de Liquidez em Cooperativas de Economia e Crédito Mútuo do Estado de Minas Gerais. Disertação de Mestrado. Universidade
Federal de Viçosa, Viçosa.
[2] Janot, M.M. (1999) Modelos de Previsão de Insolvência Bancária no Brasil: Aplicação de
Diferentes Modelos entre 1995 e 1998. Dissertação de Mestrado. Pontifı́cia Universidade
Católica do Rio de Janeiro, Rio de Janeiro.
[3] Kanitz, S.C. (1976) Indicadores contáveis e financeiros de previsão de insolvência: a experiência da pequena e média empresa brasileira.Tese (Livre Docência) 1976. Faculdade de
Economia, Administração e Contabilidade, Universidade de São Paulo, São Paulo.
[4] Martins, M.S. (2003) A Previsão de Insolvência pelo Modelo de Cox: Uma Contribuição para
a Análise de Companhias Abertas Brasileiras. Dissertação de Mestrado. Universidade Federal
do Rio Grande do Sul, Porto Alegre.
SPE 2011
78
Quinta, 29/09/2011
Aplicações I
Possibilistic downside risk measures and applications
Elena Almaraz Luengo1 , Eduardo Almaraz Luengo2 and Maribel Luengo y Dos Santos3
1
Fac. CC. Matemáticas, Universidad Complutense de Madrid, [email protected]
Sta. Ana y San Rafael, [email protected]
3 Ministerio de Educación, [email protected]
2
Abstract: We study classical model of portfolio diversification in fuzzy context. We propose generalizations of this model for particular cases of rates of return and we illustrate them with numerical
examples.
Markowitz’s mean-variance model has been one of the principal methods of financial theory and
assets allocation. This model presents the investor’s problem as a mathematical programming problem. On the other hand, fuzzy theory allows us to represent the investor’s preferences, in particular
it can be used in the portfolio selection problem. Many authors have integrated these techniques and
have proposed portfolio selection problems in fuzzy environments.
Though variance has been a popular risk measure it has some limitations, one of that is that variance
considers that deviations above the mean are equally undesirable than deviations below the mean,
but in economic context, since low part deviation from the expected value means possible loss of
wealth and high part deviation from the expected value means the existence of potential return of
the investment, it has shown that semivariance can be better, as a risk measure, than variance. Due
to this fact, a new approximation is proposed, introducing the crisp possibilistic semivariance of a
fuzzy number and defining the optimization problems for that risk measure.
Fundamental concepts about fuzzy numbers and the principal portfolio selection problems will be
described. Some mean-semivariance models are particularized in some specific cases and numerical
examples will be provided as an illustration.
Keywords: Fuzzy number, mean-variance model, portfolio selection, semi-variance
Bibliography
[1] Almaraz, E. (2010). Fuzzy Mean-Variance portfolio selection problems. Advanced Modelling
and Optimization, 12(3), 399–410.
[2] Carlsson, C. and Fuller, R.A. (2001). On possibilistic mean value and variance of fuzzy numbers. Fuzzy Sets and Systems, 122, 315–326.
[3] Chen, G., Chen, S., Fang, Y. and Wang, S. (2006). A possibilistic Mean VaR Model for Portfolio Selection. Advanced Modeling and Optimiza- tion, 8(1), 99–107.
[4] Huang, X. (2007). Portfolio selection with fuzzy returns. Journal of Intelligent and Fuzzy
Systems, 18, 383–390.
SPE 2011
79
Quinta, 29/09/2011
Aplicações I
[5] Huang, X. (2008). Mean-semivariance models for fuzzy portfolio selection. Journal of Computational and Applied Mathematics, 217, 1–8.
SPE 2011
80
Quinta, 29/09/2011
Sessão Plenária II
On the application of statistical process control in finance
Wolfgang Schmid
European University Frankfurt (Oder), Germany, [email protected]
Abstract: The aim of statistical process control is to detect deviations from a supposed target
process as soon as possible after its occurrence. Because the data are analyzed sequentially a change
in the parameters of the target process can be detected faster than by using conventional fixed-sample
tests.
The most important tool of statistical process control are control charts. The first control scheme
was proposed by Shewhart (1924). Shewhart control charts have gained widespread applications
in engineering. Because they are able to find an error in a production process at an early time
point their application allows the reduction of the production costs. The work of Shewhart was the
starting point of many new fruitful developments. Because these schemes make exclusively use of
the present sample, they are not effective for small and moderate changes. In such cases control
schemes with memory like, e.g. the cumulative sum chart of Page (1954) and the exponentially
weighted moving average scheme of Roberts (1959) provide better results. Many further schemes
have been introduced in literature (cf. Montgomery (2005), Schmid (2007)) for considering among
others autocorrelated processes and multivariate extensions.
In finance, we encounter many problems of that type. For instance, an analyst is interested to detect
quickly changes in the price-process of a stock in order to make no loss. In that context statements
about the monitoring of the related risk process are of importance as well. Furthermore, a portfolio
manager needs information about the optimal time points of adjusting his portfolio.
The application of statistical process control in finance turns out to be much more difficult than in
engineering. The target process is unknown and has to be estimated. Frequently, it is a multivariate,
sometimes a high-dimensional time series. Moreover, the parameters of interest have a more complex structure. Here it is of importance to monitor, e.g., multivariate quantities like the covariances
or cross-covariances of a financial time series, the parameters of a financial process like the CoxIngersoll-Ross process or composite parameters like the optimal portfolio weights. Additionally, a
financial process cannot be stopped and thus a problem is how to restart it.
In this talk an overview of this topic is given and new approaches are presented.
Keywords: Statistical process control, change point detection, control charts, time series analysis,
optimal portfolio weights
Bibliography
[1] Bodnar, O. and Schmid, W. (2007). Surveillance of the mean behavior of multivariate time
series. Statistica Neerlandica, 61, 383–406.
[2] Frisén, M. (2008). Financial Surveillance. Wiley, New York.
SPE 2011
Mesa: Manuel Cabral Morais
81
Quinta, 29/09/2011
Sessão Plenária II
[3] Golosnoy, V. and Schmid, W. (2007). EWMA control charts for monitoring optimal portfolio
weights. Sequential Analysis, 26, 195–224.
[4] Golosnoy, V., Okhrin, I. and Schmid, W. (2010). New characteristics for portfolio surveillance.
Statistics, 44, 303–321.
[5] RosoLebowski, M. and Schmid, W. (2006). EWMA charts for monitoring the mean and the
autocovariances of stationary processes. Statistical Papers, 47, 595–630.
[6] Schipper, S. and Schmid, W. (2001). Sequential methods for detecting changes in the variance
of economic time series. Sequential Analysis, 20, 235–262.
[7] Schmid, W. (2007). Eighty years of control charts. Sequential Analysis, 26, 117–122.
[8] Schmid, W. and Severin, T. (1998). Statistical process control and its application in finance. In:
Contributions to Economics: Risk Measurement, Econometrics and Neural Networks, Physica,
Heidelberg, 83–104.
[9] Schmid, W. and Severin, T. (1999). Monitoring changes in GARCH models. Allgemeines Statistisches Archiv, 83, 281–307.
[10] Śliwa, P. and Schmid, W. (2005). Monitoring the cross-covariances of a multivariate time
series. Metrika, 61, 89–115.
SPE 2011
Mesa: Manuel Cabral Morais
82
Sexta, 30/09/2011
A influência da orientação para o mercado na performance
de exportação: O estudo de efeitos de interacção e quadráticos
Catarina Marques e Jorge Lengler
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE-IUL, Lisboa,
{catarina.marques,jorge.lengler}@iscte.pt
Resumo: No presente estudo examina-se se a orientação para o mercado de empresas brasileiras têm uma relação linear ou quadrática com a performance de exportação. Para além disso,
investiga-se se a intensidade do contexto competitivo das empresas modera as relações quadráticas.
Os parâmetros do modelo são estimados por PLS Path Modelling (PLS-PM) e é utilizada uma
combinação de duas abordagens para a análise dos efeitos não lineares entre variáveis latentes.
Palavras–chave: Relações não lineares, efeitos de interacção, relações quadráticas, PLS path modelling, performance de exportação, orientação para o mercado
Introdução
Com a rápida expansão do comércio internacional, a exportação tornou-se cada vez mais importante
para a sobrevivência e crescimento das empresas. No entanto, o processo de internacionalização
traz novos desafios às empresas, exigindo melhorias nas suas estratégias e capacidades. Dado que
os mercados se tornaram mais competitivos, as empresas precisam criar posturas orientadas ao
mercado. Assim, o conceito de orientação para o mercado torna-se um elemento fundamental para
apoiar as acções das empresas em contextos estrangeiros quando procuram novas oportunidades e
maiores lucros. Nas últimas décadas, vários estudos têm mostrado que a orientação ao mercado é
um elemento central na explicação da performance da empresa.
No presente estudo analisa-se o papel da orientação para o mercado, mais precisamente de dois
dos seus componentes propostos no quadro teórico de Narver e Slater [6], orientação para os consumidores e orientação para a concorrência, como antecedentes na performance de exportação de
empresas brasileiras. A forma da relação entre os dois construtos e a performance de exportação
tem sido assumida na literatura como linear. No entanto, um estudo recente de Cadogan et al.
[1] sugere que esta relação é quadrática, o que pode explicar os resultados inconsistentes e contraditórios encontrados na literatura. Deste modo, é importante avaliar se esta relação é linear ou
quadrática. Adicionalmente, investiga-se os efeitos de moderação da intensidade do contexto competitivo sobre as relações quadráticas entre a orientação para o consumidor e concorrência e a performance de exportação. O modelo conceptual proposto é estimado por PLS-PM [7] sobre os dados
de uma amostra constituı́da por 197 empresas de exportação brasileiras. O construto performance
de exportação é estimado através de um modelo MIMIC, uma vez que é medido simultaneamente
por indicadores formativos e reflectivos.
Abordagem à análise de efeitos não lineares
Várias abordagens à análise de efeitos não lineares entre variáveis latentes têm sido apresentadas na
literatura de modelos de equações estruturais [5]. Neste estudo combinam-se duas frequentemente
usadas em modelos de estruturas de covariância e adaptadas ao quadro de referência de PLS-PM, as
SPE 2011
Mesa: Manuela Souto de Miranda
83
Sexta, 30/09/2011
abordagens Product Indicator (adaptada por [2]) e Latent variable scores. Os efeitos quadráticos da
orientação para o consumdor e da orientação para a concorrência sobre a performance de exportação
são obtidos através de um único indicador criado através do quadrado dos escores estandardizados
das variáveis latentes, estimados previamente num modelo sem termos quadráticos. Os efeitos de
interacção são criados por uma série de termos multiplicativos dos indicadores da variável moderadora, a intensidade competitiva, com os indicadores das variáveis predictoras. Usa-se o processo
residual centering [4] para evitar problemas de multicolinearidade, nomeadamente de instabilidade
das estimativas dos coeficientes de regressão.
Resultados
Os resultados revelam que ambas as relações entre os construtos de orientação para o mercado e
a performance de exportação são quadráticas. No entanto, enquanto que o coeficiente estimado
da relação quadrática entre a orientação para o consumidor e a performance de exportação é positivo, resultando numa curva convexa, a relação orientação para a concorrência - performance de
exportação possui um coeficiente negativo, pelo que é descrita por uma curva concava. Contrariamente ao esperado, os resultados indicam que nenhuma das relações quadráticas são moderadas
pela intensidade do contexto competitivo das empresas. O valor do R2 de 0,622 comprova o poder
explicativo do modelo.
Bibliografia
[1] Cadogan, J.W., Kuivalainen, O. e Sundqvist, S. (2009). Export market-oriented behavior and
export performance: Quadratic and moderating effects under differing degrees of market dynamism and internationalization. Journal of International Marketing, 17(4), 71–89.
[2] Chin, W.W., Marcolin, B.L. e Newsted, P.R. (2003). A partial least squares latent variable
modeling approach for measuring interaction effects: Results from a Monte Carlo simulation study and an electronic-mail emotion/adoption study. Information Systems Research, 14,
189.217.
[3] Little, T.D., Bovaird, J.A. e Widaman, K.F. (2008). On the merits of orthogonalizing powered
and product terms: Implications for modeling interactions among latent variables. Structural
Equation Modeling, 13(4), 497–519.
[4] Marsh, H.W., Wen, Z. e Hau, K.-T. (2004). Structural equation models of latent interactions: evaluation of alternative estimation strategies and indicator construction. Psychological
Methods, 9(3), 275-300.
[5] Narver, J.C. e Slater, S.F. (1990). The Effect of a market orientation on business profitability.
Journal of Marketing, 54(4), 20–35.
[6] Wold, H.O. (1974). Causal flows with latent variables: Partings of the ways in the light of
NIPALS modeling. European Economic Review, 5(1), 67–86.
SPE 2011
84
Sexta, 30/09/2011
Abordagem multivariada à trilogia solo-vinha-vinho. Caso
da casta Vinhão
Ana Rita Silva1 , Ana C. Braga2 , Isabel Araújo3 , Teresa Mota4 , José M. Oliveira5 e
Jorge Oliveira6
1
DPS, Universidade do Minho, [email protected]
3 Vinalia - Soluções de Biotecnologia para a Vitivinicultura, Lda, [email protected]
4 Quinta Campos de Lima, [email protected]
5 IBB, Centre of Biological Engineering, [email protected]
6 Sinergeo - Soluções Aplicadas em Geologia, Hidrogeologia e Ambiente, Lda.,
[email protected]
2
Resumo: A sustentabilidade dos sistemas de produção agrı́cola é indissociável da sustentabilidade
do recurso solo. O conhecimento do solo é essencial para melhorar a rentabilização dos sistemas
produtivos e minimizar os processos de degradação deste recurso. A informação detalhada sobre
os solos de aptidão vitı́cola deve ser um instrumento de gestão essencial para a rentabilização dos
investimentos na produção vitivinı́cola. A ligação da geologia à viticultura surge da aplicação da
cartografia geológica e de solos, climatologia, hidrologia e medição de parâmetros pontuais e globais do solo. Pretende-se identificar e estudar múltiplas variáveis que determinam o comportamento
fı́sico e quı́mico dos solos, que por sua vez influenciará o crescimento da videira e a qualidade final da uva. Este conhecimento pode ser utilizado para optimizar a produção, de forma a conseguir
um produto com caracterı́sticas mais uniformes, em consonância com adequadas tecnologias de
vinificação. Este projecto tem com o objectivo global determinar os parâmetros do solo que influenciam o desenvolvimento da vinha, a qualidade das uvas e por conseguinte a qualidade dos vinhos.
A parcela em estudo situa-se na Quinta Campos de Lima, em Arcos de Valdevez, e está inserida na
região vitivinı́cola Minho, apta à produção do DOC Vinho Verde. A vinha em estudo compreende
apenas a casta tinta Vinhão, encontrando-se explorada em Modo de Produção Biológico (MPB),
certificada pela EcoCert Portugal. Recorrendo à análise multivariada de dados foi possı́vel reduzir
a dimensionalidade do problema no que concerne às variáveis provenientes do solo, da vinha e do
vinho e demonstrou-se graficamente, através da construção de biplots, as relações existentes entre
variáveis, entre observações e entre variáveis e observações. Procurou-se ainda estabelecer uma
relação entre as componentes resultantes desta análise.
Palavras–chave: Viticultura, solo, vinha, vinho, estatı́stica multivariada, biplots
SPE 2011
85
Sexta, 30/09/2011
Índices de informação mútua na avaliação de estabilidade de
agrupamentos
Maria José Amorim1 e Margarida Cardoso2
1
Área Departamental de Matemática, ISEL-Instituto Superior de Engenharia de Lisboa,
[email protected]
2 Departamento de Método Quantitativos e UNIDE, ISCTE-Instituto Universitário de Lisboa,
[email protected]
Resumo: Neste trabalho avalia-se o desempenho de diversos ı́ndices de informação mútua no papel de indicadores da estabilidade de partições. Nesta avaliação são determinadas estimativas dos
valores dos ı́ndices sob hipótese de independência restrita. A análise de dados é efectuada sobre
quatro bases de dados com estruturas de agrupamento conhecidas, às quais se associam partições
alternativas.
Palavras–chave: Avaliação de agrupamentos, estabilidade, informação mútua
Introdução
A estabilidade é reconhecida como uma propriedade desejável de uma solução de agrupamento, e.g.
Mirkin (1996). Na avaliação da estabilidade de resultados de agrupamento provenientes de amostras
diversas pode recorrer-se à utilização de validação cruzada. Os resultados de validação cruzada de
agrupamentos (partições, em particular) sintetizam-se em valores de ı́ndices de concordância entre
as partições produzidas sobre amostras diversas, entre os quais se contam os ı́ndices de informação
mútua. O principal objectivo do presente estudo é avaliar o desempenho de diversos ı́ndices de
informação mútua no papel de indicadores da estabilidade de partições, resultados de agrupamento.
Nesta avaliação são determinadas estimativas dos valores dos ı́ndices sob hipótese de independência
restrita (Amorim e Cardoso, 2010).
Índices de informação mútua
Na literatura encontram-se definidos múltiplos ı́ndices de concordância e, em particular, diversos
ı́ndices de informação mútua. Todos estes se baseiam no conceito fundamental de informação mútua
I(PK ,PQ ) =
K
Q
nkq
nkq
log( nk. n.q ),
k=1 q=1 n
n
∑∑
(1)
cujos cálculos se referem aos dados na tabela de contingência que associa as duas partições consideradas, ou tabela de classificação cruzada [nkq ] de frequências conjuntas observadas no grupo Ck de
partição PK e no grupo Cq e partição PQ com marginais nk. e n.q (k = 1, . . . ,K, q = 1, . . . ,Q). O valor
máximo de I é dado pelo mı́nimo entre as entropias- H- de cada partição, pelo que uma normalização
natural de I advém da divisão por esse mesmo mı́nimo. Uma medida alternativa de informação
mútua normalizada é proposta por (Strehl e Gohosh, 2002), que adoptam uma normalização que
SPE 2011
87
Sexta, 30/09/2011
resulta da divisão de I pela média geométrica das entropias. Na proposta de (Fred e Jain, 2003)
a normalização é efectuada considerando a média simples das entropias. Um ı́ndice alternativo,
proposto por (Meila, 2005) - Variação de Informação - pode ser equacionado como a soma das
entropias condicionadas de cada uma das partições pela outra. A divisão deste ı́ndice por log(n)
fá-lo variar, convenientemente, no intervalo [0,1]. Uma vez que este ı́ndice varia no sentido inverso
da força de associação pode considerar-se 1 −V I/log(n) como um indicador da concordância entre
partições.
Análise experimental
Para comparar o desempenho dos diversos ı́ndices de informação mútua na avaliação da estabilidade de agrupamentos consideram-se quatro bases de dados simulados. Geram-se então quatro
misturas de Normais diferenciadas pelos nı́veis de sobreposição dos grupos que as originam (com
recurso ao package MixSim do R, Maitra e Melnykov, 2010). Para cada base de dados são efectuadas análises de agrupamento alternativas, utilizando implementações dos algoritmos K-Médias e
EM-Expectation Maximation (e.g. Everitt et al., 2001). Para avaliar a estabilidade das partições resultantes, recorre-se ao procedimento de validação cruzada proposto em (Cardoso et al., 2009). Em
complemento, determina-se a concordância entre as soluções e a estrutura real dos dados. Os resultados obtidos são discutidos nas perspectivas descritiva simples e considerando as estimativas obtidas sob hipótese de concordância por acaso. Nas conclusões resumem-se as vantagens-desvantagens
dos ı́ndices que apresentam um comportamento muito diverso no contexto estudado.
Bibliografia
[1] Amorim, M.J.P.C. e Cardoso, M.G.M.S. (2010). Limites de concordância entre duas partições.
Livro de resumos, XVIII Congresso Anual da Sociedade Portuguesa de Estatı́stica, 1,47-48.
[2] Cardoso, M.G.M.S., Carvalho, A.P.L., e Faceli, K. (2009). Evaluation of clustering results:
the trade-off bias-variability. In Classification as a Tool for Research. Proceedings of the 11th
IFCS Biennial Conference. Dresden, March 13-18, 2009 Studies in Classification, Data Analysis, and Knowledge Organization Springer, Berlin-Heidelberg-New York, 201-208.
[3] Everit, B., Landau, S. e Morven, L. (2001). Cluster Analysis. 4th Ed. Arnold.
[4] Fred, A. e Jain, A.K. (2003). Robust data clustering. In Proceedings of the IEEE Computer
Society Conference on Computer Vision Pattern Recognition, 2003. CVPR .
[5] Maitra, R. e Melnykov, V. (2010). Simulating Data to Study Performance of Finite Mixture
Modeling and Clustering Algorithms. Journal of Computational and Graphical Statistics, 2,
354-376.
[6] Meilã, M.(2007). Comparing Clusterings - an information based distance. Journal of Multivariate Analysis, 98,873-895.
[7] Mirkin, B. (1996). Mathematical Classification and Clustering. Dordrecht/Boston/London,
Kluwer Academic Plublishers.
[8] Strehl, A. e Gohosh, J. (2002). Cluster ensembles - a knowledge reuse framework for combining partitions. Journal of Machine Learning Research,3,583-617.
SPE 2011
88
Sexta, 30/09/2011
Biostatı́stica II
Metodologia de captura-recaptura na vigilância epidemiológica da doença dos legionários
Joana Gomes Dias1 , Carlos Carvalho1 , Ana Filipa Ribeiro2 , Denisa Mendonça 3 e Susana Faria 4
1
Departamento de Saúde Pública - ARSNorte, IP, {jdias,ccarvalho}@arsnorte.min-saude.pt
3 Instituto de Ciências Biomédicas Abel Salazar e Instituto de Saúde Pública da Universidade do
Porto, [email protected]
4 Universidade do Minho, [email protected]
2
Resumo: A doença dos legionários é uma pneumonia atı́pica grave, causada por bactérias do género
Legionella. Como todos os sistemas de informação, o sistema do Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários tem problemas de subnotificação. O objectivo do
estudo foi avaliar a exaustividade do sistema, usando métodos de captura-recaptura. A estimativa
do número de casos não detectados foi de 167. Assim, o número estimado de casos de doença na
região foi de 614.
Palavras–chave: Captura-recaptura, modelos log-lineares, doença dos legionários, tabelas de contingência
Introdução
A doença dos legionários (DL) é uma pneumonia atı́pica grave, causada por bactérias do género
Legionella [1]. A infecção transmite-se por via aérea (respiratória), através da inalação de gotı́culas
de água (aerossóis) ou mais raramente por aspiração de água contaminada com a bactéria [1]. A DL
foi descrita pela primeira vez em 1976, após um surto de pneumonia que ocorreu numa convenção
da Legião Americana, num hotel de Philadelphia [1]. Desde então a doença foi identificada em
todo o Mundo, em Portugal a DL foi descrita pela primeira vez em 1979 (publicação em boletim da
OMS). Na região Norte de Portugal (RN) o primeiro surto de doença foi registado em Agosto de
2000.
Em 2004 foi criado o Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários
(PVEIDL), através da Circular Normativa N.o 05/DEP de 22/02/2004 da Direcção-Geral da Saúde,
que prevê a notificação clı́nica dos casos às autoridades de saúde (DDO) e a notificação laboratorial
(LAB) ao Instituto Nacional de Saúde Dr. Ricardo Jorge.
Como todos os sistemas de informação, este sistema tem problemas de subnotificação, apesar de
esta não estar quantificada. Como em qualquer sistema de informação dependente de notificação,
a exaustividade dos registos não é completa. A subnotificação impede o conhecimento exacto da
incidência da doença e a implementação em tempo útil das medidas de interrupção da cadeia de
transmissão das doenças.
O objectivo do estudo foi avaliar a exaustividade do Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários, usando uma terceira fonte de informação - Grupos de Diagnóstico
Homogéneo (GDH).
SPE 2011
Mesa: Isabel Pereira
89
Sexta, 30/09/2011
Biostatı́stica II
Material e métodos
O número anual de casos de DL na região de Saúde do Norte no perı́odo entre 2004 e 2009 foi
obtido a partir das seguintes fontes de informação: DDO, LAB e GDH.
Para avaliar o grau de subnotificação de casos de DL na RN, no perı́odo de 2004 a 2009, utilizaram-se métodos de captura-recaptura [2, 3]. Esta metodologia tem sido cada vez mais usada por
epidemiologistas para analisar se os sistemas de informação são exaustivos e completos, tendo por
base a teoria de análise de tabelas de contingência incompletas e, na prática, implicando o uso de
modelos log-lineares [2, 3]. Depois de ajustados modelos log-lineares, estimou-se o número de
casos de DL que ocorreram no perı́odo em estudo, com os respectivos intervalos de confiança.
Os softwares estatı́sticos utilizados para o tratamento de dados foram o SPSS 18 para o Windows e
o Epidat 3.1.
Resultados
Durante o perı́odo em estudo registaram-se 447 casos de DL, dos quais 168 foram detectados pelo
sistema DDO, 127 pelo sistema LAB e 374 pelo sistema GDH. De salientar que 200 casos de
internamento por DL não foram detectados pelo Sistema de Vigilância Integrado da Doença dos
Legionários.
Após o ajuste por modelos log-lineares, o modelo escolhido para estimar o número de casos de
DL que não foi detectado por nenhuma fonte foi o que apresenta a independência entre o sistema
LAB e o sistema GDH. A estimativa do número de casos não detectados foi de 167. Assim, o
número estimado de casos de DL foi de 614 (IC a 95%: (533,696)). O PVEIDL apresentou uma
exaustividade de 60,8%.
Conclusões
O problema da subnotificação na DL dificulta o conhecimento da sua incidência na população.
A metodologia de captura-recaptura recorrendo aos modelos log-lineares, utilizando uma terceira
fonte de dados independente, poderá ser uma importante ferramenta não só para estimar o número
real de casos de doença mas também para monitorizar a performance do PVEIDL.
Bibliografia
[1] Brookmeyer R. e Stroup D. (2004). Monitoring the Health of Populations: Statistical Principles and Methods for Public Health, USA, Oxford University Press.
[2] Chin J. (2000). Control of Communicable Diseases Manual, 17th ed. Washington: American
Public Health Association.
[3] International Working Group for Disease Monitoring and Forecasting. (1995). CaptureRecapture and Multiple-Record Systems Estimation I: History and Theoretical Development.
American Journal of Epidemiology, 142 (10), 1047–1058
SPE 2011
90
Sexta, 30/09/2011
Biostatı́stica II
Spatially explicit capture-recapture minke whale density estimation
Tiago A. Marques1 , Steve W. Martin2 , Ronald P. Morrissey3 , Susan Jarvis3 ,
Nancy DiMarzio3 , David Moretti3 and David K. Mellinger4
1
Centre for Research into Ecological and Environmental Modeling, University of St Andrews,
Scotland; Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
2 Space and Naval Warfare Systems Center Pacific, U.S.A.,
3 Naval Undersea Warfare Center, U.S.A.,
4 Cooperative Institute for Marine Resources Studies, Oregon State University, U.S.A.,
Abstract: Density estimation for marine mammal species is performed primarily using visual distance sampling or capture-recapture. Recent advances in spatially explicit capture-recapture has
led data from multiple hydrophones over which sounds can be associated into capture histories to
be naturally suited to be used for density estimation. Here we review the use of spatially explicit
capture-recapture methods and present an application of these methods to the estimation of minke
whale density in Hawaiian waters.
Keywords: Cue count, passive acoustic density estimation, passive acoustic monitoring, boing vocalization, spatially explicit capture-recapture
Introduction
Estimating animal density is one of the fundamental steps for adequate conservation and management measures to be implemented. Therefore, reliable methods to estimate density are fundamental
to reach those goals. In recent years, spatially explicit capture-recapture has been developed and
implemented in both Bayesian (e.g. [5]) and likelihood frameworks (e.g. [1]).
Minke whales (Balaenoptera acutorostrata) are one of the smallest and most abundant baleen whales, and as with many other cetacean species, existing density and abundance estimates are largely
based on visual line transect surveys. However, in some areas, the animals appear to be extremely
cryptic to visual observation, making such methods inexact or infeasible.
A set of bottom mounted hydrophones at the US Navy Pacific Missile Range Facility (PMRF) north
of Kauai, Hawaii, has been detecting “boing”sounds which can be associted with minke whales.
In this work we illustrate how these sounds, associated into capture histories across the hydrophones,
can be used to estimate minke whale “boing”density using spatially explicit capture-recapture.
We used the freely available R package secr [2] to implement the methods in a likelihood framework.
Estimated boing density was 130 boings per hour per 10,000 km2 (95% CI 104-163). Converting
“boing”density into minke whale density comes at the expense of considering a cue production
rate. Little is known about the population’s acoustic behavior, so conversion from boing to animal
SPE 2011
91
Sexta, 30/09/2011
Biostatı́stica II
density is difficult. As a demonstration of the method, we used a tentative boing rate of 6.04 boings
per hour, from a single animal tracked in 2009, to give an estimate of 21.5 boing-calling minke
whales per 10,000 km2 .
A preliminary analysis of similar data in both a Bayesian and likelihood frameworks has been
presented at the 2009 SPE conference, and was later published in Marques et al. ([3]). The current
research has been submitted as an original paper to Marine Mammal Science, and is currently under
review [4].
Acknowledgements: SWM acknowledges the support of personnel at the Pacific Missile Range Facility, notably Jim Hager, Mike Dick, Eliseo Bolosan and Robin Higuchi, in collection of acoustic
data over several years. This work is an output of the NOPP-sponsored project Density Estimation
of Cetaceans from passive Acoustic Fixed sensors (DECAF), funded jointly by the Joint Industry
Program of the International Association of Oil and Gas Producers and the US National Marine
Fisheries Service. We thank other DECAF members for input, particularly David Borchers who
provided insightful comments regarding the SECR analysis. The minke whale data used are freely
available on the Ocean Biogeographic Information System (OBIS-SEAMAP) web site.
Bibliography
[1] Borchers, D.L. e Efford, M. (2008). Spatially explicit maximum likelihood methods for
capture-recapture studies. Biometrics, 64, 377–385.
[2] Efford, M. (2008). secr - Spatially Explicit Capture-Recapture in R, version 1.2.10. Department of Zoology, University of Otago, Dunedin, New Zealand
[3] Marques, T.A., Thomas, L., Martin, S.W., Mellinger, D.K., Jarvis, S., Morrissey, R.P., Ciminello, C.-A. e DiMarzio, N. (2011). Spatially explicit capture recapture methods to estimate
minke whale abundance from data collected at bottom mounted hydrophones. Journal of Ornithology. DOI:10.1007/s10336-010-0535-7.
[4] Martin, S.W., Marques, T.A., Thomas, L., Morrissey, R.P., Jarvis, S., DiMarzio, N., Moretti,
D. e Mellinger, D.K. (submitted). Estimating minke whale (Balaenoptera acutorostrata) boing
sound density using passive acoustic sensors. Marine Mammal Science.
[5] Royle, J.A. e Young, K.V. (2008). A hierarchical model for spatial capture-recapture data
Ecology, 89, 2281–2289.
SPE 2011
92
Sexta, 30/09/2011
Biostatı́stica II
O comprimento descritivo mı́nimo na amostragem por transectos pontuais
Fernando Ceia1 e Russell Alpizar-Jara2
1
2
Escola EB23 José Régio, CIMA, Universidade de Évora, [email protected]
Departamento de Matemática, CIMA, Universidade de Évora, [email protected]
Resumo: Os métodos de amostragem por distâncias, têm vindo a ser amplamente utilizados na
estimação da densidade de uma população de animais ou objectos numa determinada área de estudo.
Destes, destacam-se os transectos pontuais, nos quais o observador fixa-se num ponto à procura dos
indivı́duos da população em estudo. De forma a estimar a densidade de objectos é necessário ajustar
uma função densidade de probabilidade f (r|θ ), onde r representa o raio do cı́rculo onde o objecto
foi detectado e θ um vector de parâmetros. Em [1] é apresentada uma abordagem semi-paramétrica,
onde o objectivo principal é a obtenção dos estimadores de máxima verosimilhança de θ recorrendo
a uma função de detectabilidade ajustada por termos de uma expansão em série. Neste trabalho,
propõe-se uma abordagem não paramétrica para o cálculo da densidade populacional em transectos pontuais, baseada numa aplicação desenvolvida por [2] para transectos lineares. Esta recorre
ao princı́pio do Comprimento Descritivo Minimo proposto por [5], e a sua aplicação na estimação
de uma função densidade por um histograma [4], tendo-se efectuado uma transformação dos dados iniciais proposta em [3]. Para ilustrar a metodologia, analisam-se os dados resultantes de uma
simulação relativa a transectos pontuais do programa DISTANCE [6], e comparam-se as duas abordagens de estimação. Apesar dos resultados preliminares mostrarem uma ligeira vantagem para
a metodologia semi-paramétrica, a performance dos estimadores obtidos com ambas abordagens
estão bastante próximos dos valores reais.
Palavras–chave: Amostragem por distâncias, transectos pontuais, comprimento descritivo mı́nimo,
simulação por métodos de Monte Carlo
Bibliografia
[1] Buckland, S.T., Anderson, D.R., Burnham, K.P., Laake, J.L., Borchers, D.L. e Thomas, L.
(2001). Introduction to Distance Sampling. Oxford University Press, Oxford.
[2] Burnham, K.P., Anderson, D.R., e Laake, J.L. (1980). Estimation of Density from Line Transect Sampling of Biological Populations. Wildlife Monographs 72, 3-202.
[3] Ceia, F.J.M.F. (2009). O Comprimento Descritivo Mı́nimo na Amostragem por Transectos
Lineares. Dissertação de Mestrado. Universidade de Évora.
[4] Kontkanen, P. e Myllymäki, P. (2006). Information-Theoretically Optimal Histogram Density
Estimation. Helsinki Institute for Information Techonology.
[5] Rissanen, J. (1978). Modeling by shortest data description. Automatica 14, 465-471.
SPE 2011
93
Sexta, 30/09/2011
Biostatı́stica II
[6] Thomas, L., Buckland, S.T., Rexstad, E.A., Laake, J.L., Strindberg, S., Hedley, S.L., Bishop,
J.R.B., Marques, T.A. e Burnham, K.P. (2010). Distance software: design and analysis of
distance sampling surveys for estimating population size. Journal of Applied Ecology 47: 514. DOI: 10.1111/j.1365-2664.2009.01737.
SPE 2011
94
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
Estimação estatı́stica dos parâmetros do processo de OrnsteinUhlenbeck bidimensional
Ana Prior1 e Paula Milheiro de Oliveira2
1
2
Instituto Superior de Engenharia de Lisboa, [email protected]
Faculdade de Engenharia da Universidade do Porto, [email protected]
Resumo: O processo de Ornstein-Uhlenbeck tem sido utilizado na prática para modelar diversos
fenómenos fı́sicos, revestindo-se assim de particular importância a estimação estatı́stica dos seus
parâmetros. Trata-se de um processo estocástico que satisfaz a equação diferencial estocástica
1
dXt = AXt dt + B 2 dWt ,
(1)
1
onde {Wt ,t ≥ 0} é um processo de Wiener bidimensional e A e B 2 são matrizes quadradas de ordem
2. Este trabalho tem por objectivo o estudo do problema da estimação estatı́stica dos parâmetros A,
1
1
matriz de deriva, e B = B 2 B 2 T , matriz de difusão, do modelo (1) em tempo contı́nuo. Em tempo
contı́nuo, recorrendo à Formula de Itô, a estimação da matriz de difusão B não oferece dificuldade. Assim, apenas a estimação da matriz de deriva A constitui um problema que tem merecido a
atenção dos investigadores. Na utilização do método de máxima verosimilhança assume particular
importância a derivada de Radon-Nikodym da medida gerada pelo processo com respeito à medida
de Wiener. Uma revisão bibliográfica dos resultados obtidos no problema da estimação da matriz A
e em especial das condições impostas para a obtenção do estimador de máxima verosimilhança e a
verificação das suas propriedades mostra que o caso particular em que se tem
A=
0
− mk
1
− mc
1
e B2 =
0 0
0 σ
,
(2)
não fica coberta pela grande parte dos resultados teóricos conhecidos, não sendo sequer conhecido
o estimador de máxima verosimilhança de A e muito menos sendo garantidas suas propriedades. No
entanto a equação (1) nestas condições serve de modelo para o movimento vibratório de estruturas
sujeitas a acções aleatórias e daı́ o seu interesse prático. Consideramos portanto o problema de estimar k e c no modelo (1)-(2), com X0 = 0, sendo os processos Wti , com i = 1,2 processos de Wiener
independentes num espaço de probabilidade (Ω,̥,P). Admite-se que o processo (Xt )t>0 é observado no intervalo [0,T ] , sem perda de generalidade. A principal dificuldade deste problema reside
no facto de a matriz de difusão B ser uma matriz singular, uma vez que os resultados anteriormente
referidos requerem que a matriz B seja não singular. Propomos um estimador para o modelo (1)-(2)
e analisamos a sua consistência, centricidade e distribuição assimptótica.
Palavras–chave: Processo Ornstein-Uhlenbeck, modelo linear, estimador máxima verosimilhança,
derivada de Radon-Nikodym
SPE 2011
Mesa: Cláudia Nunes
95
Sexta, 30/09/2011
Bibliografia
[1] Arato, M. (1982). Linear stochastic systems with constant coefficients. A statistical approach.
Lectures Notes in Control and Information Sciences, 45. Springer-Verlag, Berlin.
[2] Basak, G. e Lee, P. (2008). Asymptotic properties of an estimator of the drift coefficients of
multidimensional Ornstein-Uhlenbeck processes that are not necessarily stable. Electronic
Journal of Statistics, Vol.2, 1309-1344.
[3] Khasminskii, R.Z., Krylov, N. e Moshchuk, N. (1999). On the estimation of parameters for
linear stochastic differential equations. Probability Theory Related Fields, 113, 443-472.
[4] Prakasa Rao, B.L.S. (1999). Statistical inference for diffusion type process. Kendall´s Library
of Statistics, 8. Edward Arnold, London. Oxford University Press, New York.
[5] Rao, B. e Basawa, I.(1980). Statistical Inference for Stochastic Processes. London, Academic
Press.
SPE 2011
96
Sexta, 30/09/2011
O modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados: aplicação à evolução
temporal das taxas de mortalidade masculina e feminina
da população portuguesa
Sandra Lagarto e Carlos A. Braumann
CIMA, Universidade de Évora, {sdlagarto, braumann}@gmail.com
Resumo: Na análise transversal de dados demográficos, há que ter em conta as flutuações aleatórias
das condições “ambientais” (em sentido lato), pelo que utilizamos equações diferenciais estocásticas
(EDE). Fixada a idade de interesse, aplica-se o modelo de Gompertz bidimensional estocástico com
processos de Wiener correlacionados às Taxas Brutas de Mortalidade (TBM) da população masculina e feminina portuguesa (séries anuais entre 1940 e 2009). Compara-se o modelo completo, com
correlação entre os processos de Wiener unidimensionais relativos a cada sexo, e o modelo sem
correlação entre esses processos.
Palavras–chave: Modelo de Gompertz bidimensional estocástico, processos de Wiener correlacionados, taxas de mortalidade
Introdução
As séries temporais das TBM da população portuguesa caracterizam-se por uma forte tendência
decrescente, comum a todas as idades, e que se verifica em ambos os sexos. Há, no entanto, factores ambientais que variam aleatoriamente ao longo do tempo. Para tal, usamos como modelo de
evolução temporal das TBM de uma dada idade e sexo, um modelo de Gompertz estocástico. Contudo, os factores ambientais podem afectar os indivı́duos dos dois sexos de forma semelhante (por
exemplo, quando a taxa de mortalidade, de uma idade, cresce de um ano para o outro, nos indivı́duos
do sexo feminino, há uma forte tendência para as dos indivı́duos do sexo masculino terem idêntico
comportamento). Esta correlação, entre os efeitos dos factores ambientais nas taxas de mortalidade
dos dois sexos, implica que os processos de Wiener associados às EDE que as modelam devem estar
correlacionados.
Aplicação do modelo de Gompertz estocástico com processos de Wiener correlacionados
Consideremos uma determinada idade e sejam Xi (t) as TBM dessa idade no ano t, respectivamente
i = 1 para o sexo feminino e i = 2 para o sexo masculino. Seja Yi (t) = ln Xi (t). O modelo de
Gompertz estocástico com correlação pode escrever-se na forma do sistema de EDE autónomas
dY1 (t) = b1 (A1 −Y1 (t))dt+σ1 dW1∗ (t),
dY2 (t) = b2 (A2 −Y2 (t))dt+σ2 dW2∗ (t),
SPE 2011
97
Sexta, 30/09/2011
com Yi (t0 ) = yi,t0 suposto conhecido e os parâmetros Ai (taxas médias de mortalidade assintóticas,
em escala logarı́tmica), bi (velocidades de aproximação ao regime assintótico) e σi (intensidades
das flutuações ambientais) todos positivos. Supomos que W1∗ (t) e W2∗ (t) são processos de Wiener
padrão correlacionados com coeficiente de correlação ρ (outro parâmetro do modelo). Podemos
escrevê-los à custa de dois processos de Wiener padrão independentes W1 (t) e W2 (t):
W1∗ (t) = α W1 (t) + β W2 (t) e W2∗ (t) = β W1 (t) + α W2 (t),
com α = ((1 + (1 − ρ 2 )1/2 )/2)1/2 e β = sinal(ρ )((1 − (1 − ρ 2 )1/2 )/2)1/2 = sinal(ρ )(1 − α 2 )1/2 .
As soluções no instante t são dadas por
R
Y1 (t) = A1 + (y1,t0 − A1 )exp{−b1 (t − t0 )} + σ1 exp{−b1t} tt0 exp{b1 s} dW1∗ (s),
R
Y2 (t) = A2 + (y2,t0 − A2 )exp{−b2 (t − t0 )} + σ2 exp{−b2t} tt0 exp{b2 s} dW2∗ (s),
com distribuições marginais gaussianas com as médias e variâncias indicadas:
Y1 (t) ⌢ N (A1 + (y1,t0 − A1 )exp{−b1 (t − t0 )},σ12 (1 − exp{−2b1 (t − t0 )})/2b1 ),
Y2 (t) ⌢ N (A2 + (y2,t0 − A2 )exp{−b2 (t − t0 )},σ22 (1 − exp{−2b2 (t − t0 )})/2b2 ).
A distribuição conjunta é normal bivariada com coeficiente de correlação
1 +b2 )(t−t0 )})
ρ (1−exp{−2b(1−exp{−(b
(t−t )})1/2 (1−exp{−2b (t−t
1
0
2
0 )})
1/2
2(b1 b2 )1/2
b1 +b2 .
Podemos ainda obter Yi (t −1) condicionado a yi,t−1 (i = 1,2) no instante t −1 (a chamada distribuição
de transição) fazendo nas expressões anteriores t0 = t − 1. Devido à propriedade de Markov das
soluções, a verosimilhança das observações é dada pelo produto das densidades de transição.
O modelo sem correlação é idêntico ao anterior pondo ρ = 0. Os parâmetros são estimados pelo
método de máxima verosimilhança. Um teste de razão de verosimilhanças pode ser usado para comparar o modelo com correlação com o modelo sem correlação. Na comparação de modelos, serão
usadas medidas de performance, técnicas de validação cruzada e estudo da capacidade preditiva
(veja-se metodologia em [1, 2] e referências aı́ contidas).
Os resultados preliminares, em várias idades, sugerem quer menores erros de ajustamento, quer
previsões mais realı́sticas nos modelos em que foi considerada a correlação entre os sexos, com um
favorecimento deste efeito nos indivı́duos do sexo feminino relativamente aos do sexo masculino.
(CIMA), unidade financiada pela FCT.
Bibliografia
[1] Filipe, P.A., Braumann, C.A., Brites, N.M. e Roquete, C.J. (2010). Modelling animal growth
in random environments: An application using nonparametric estimation. Biometrical Journal
52, DOI 10.1002/bimj.200900273.
[2] Filipe, P.A., Braumann, C.A. e Roquete, C.J. (2010). Multiphasic Individual Growth Models in Random Environments. Methodology and Computing in Applied Probability, DOI
10.1007/s11009-010-9172-0.
SPE 2011
98
Sexta, 30/09/2011
Tempos de extinção para um modelo de crescimento
populacional aproximadamente logı́stico
Clara Carlos1,2 e Carlos A. Braumann2
1
Escola Superior de Tecnologia do Barreiro, Instituto Politécnico de Setúbal,
[email protected]
2 Centro de Investigação em Matemática e Aplicações, Universidade de Évora,
[email protected]
Resumo: Por vezes ao estudar o crescimento populacional considera-se o modelo logı́stico como
uma aproximação ao modelo real que se desconhece. No caso de populações crescendo em ambiente aleatório estudamos o efeito dessa aproximação nos tempos de extinção da população.
Palavras–chave: Crescimento populacional, ambiente aleatório, tempos de extinção
Consideramos o modelo determinı́stico de crescimento populacional, com a taxa de crescimento
per capita com a forma
1 dX
= f (X), X(0) = x,
(1)
X dt
onde X = X(t) representa o tamanho da população no instante t ≥ 0, f é uma função real definida
para X > 0 e suponhamos conhecida a população inicial X(0) = x > 0. Um dos modelos usados na
literatura é o modelo logı́stico ou de Pearl-Verhulst, onde a taxa decrescimento per capita decresce
linearmente com o tamanho da população, isto é, f (X) = r 1 − KX , com r > 0 a taxa intrı́nseca de
crescimento e K > 0 a capacidade de sustento do meio. No entanto, a verdadeira taxa de crescimento per capita pode afastar-se ligeiramente do modelo logı́stico e nada nos garante que o modelo
utilizado retrate o comportamento da população. Vejamos o que
sucede se o modelo correcto se
desviar do logı́stico, para o que consideramos f (X) = r 1 − KX + α (X), onde α , função de classe
C1 com |α (X)|
< δ , é uma espécie de erro relativo.
r
Suponhamos que o ambiente está sujeito a perturbações aleatórias e que os efeitos dessas perturbações
sobre a taxa de crescimento per capita da população é um ruı́do que pode ser aproximado por um
ruı́do branco padrão σ ε (t), onde σ > 0 é a intensidade do ruı́do e ε (t) é um ruı́do branco padrão.
Nesse caso, o modelo passa a ser uma equação diferencial estocástica
usualmente escrita na forma
1 dX
= f (X) + σ ε (t),
X dt
(2)
dX = f (X)Xdt + σ XdW (t),
(3)
onde W (t) é um processo de Wiener padrão. O modelo (2) tem solução única até um instante de
explosão e é um processo de difusão com coeficiente de tendência
σ2
X
a(X) = X r 1 −
+ α (X) +
(4)
K
2
e coeficiente de difusão
SPE 2011
b2 (X) = σ 2 X 2 ,
(5)
99
Sexta, 30/09/2011
usando o cálculo de Stratonovich. As fronteiras são X = 0 e X = +∞ e o espaço de estados é
(0, + ∞). Ambas as fronteiras são não-atractivas, o que implica que não existe extinção matemática
e não existem explosões, garantindo a existência e unicidade de (2) para todo o t > 0.
Existe densidade estacionária da forma
p(y) = Dy
R
2r
−1
σ2
Zy
α (θ )
2
2r
dθ ,
exp − 2 y exp
σ K
σ2 n θ
(6)
com D constante tal que 0+∞ p(y)dy = 1. O processo é ergódico e a distribuição de X(t) converge
para a distribuição estacionária.
O facto de não existir ”extinção matemática” (X(t) tornar-se nulo ou X(t) → 0 quando t → +∞)
para este modelo não significa que a população não esteja extinta no sentido biológico. Assim, para
estudar a extinção é preferı́vel usar o conceito de ”extinção realista”, em que se considera que a
população está extinta quando atinja um limiar positivo (a > 0) adequadamente escolhido. Supondo
que a população inicial é superior a essse limiar, apresentamos, para este modelo, expressões para a
média e a variância dos tempos de primeira passagem pelo limiar a (tempo de extinção),
Z +∞
Zθ
Z
2r
2r
2
2 x − 2r2 −1
2r
α (η )
2 −1
σ
σ
exp
exp
E[Ta |X(0) = x] = 2
ξ
ξ
θ
dη − 2 θ dθ dξ
σ a
σ 2K
σ2 ξ η
σ K
ξ
(7)
e
Z +∞
Z
8 x − 2r2 −1
2r
2r
− 2r2 −1
σ
σ
ζ
ζ
ξ
ξ
Var[Ta |X(0) = x] =
exp
exp
σ4 a
σ 2K
σ 2K
ζ
Z
Z +∞
2r
2 θ α (η )
2r
θ σ 2 −1 exp − 2 θ + 2
dη dθ
σ K
σ ζ η
ξ
Z
Z +∞
2r
2 θ α (η )
2r
2 −1
σ
θ
dη dθ dξ dζ ,
(8)
exp − 2 θ + 2
σ K
σ ξ η
ξ
respectivamente. Estudamos o efeito sobre a média e o desvio padrão do tempo de extinção dos
pequenos desvios do modelo em relação ao modelo logı́stico, já apresentado em trabalhos anteriores ([3, 4]). Finalmente ilustramos os resultados obtidos com alguns exemplos numéricos do
comportamento da média e do desvio padrão do tempo de extinção.
(CIMA) da Universidade de Évora, financiado pela Fundação para a Ciência e a Tecnologia (FCT).
Bibliografia
[1] Carlos, C. e Braumann, C.A. (2005). Tempos de extinção para populações em ambiente
aleatório. Em Estatı́stica Jubilar, Braumann, C.A., Infante, P., Oliveira, M., Alpı́zar-Jara,
R. e Rosado, F. (Eds.), 133–142, Edições SPE.
aleatório e cálculos de Itô e Stratonovich. Em Ciência Estatı́stica, L. Canto e Castro, E.
G. Martins, C. Rocha, M. F. Oliveira, M. M. Leal e F. Rosado (Eds.), 229–238, Edições SPE.
SPE 2011
100
Sexta, 30/09/2011
Extremos I
Comparação assintótica de estimadores de um parâmetro de
forma de segunda-ordem em caudas pesadas
M. Ivette Gomes
DEIO and CEAUL, Universidade de Lisboa, [email protected]
Resumo: Em contexto de terceira-ordem, procedemos à comparação assintótica de dois estimadores alternativos do parâmetro de forma mais usual em contexto de cauda-direita pesada.
Palavras–chave:
paramétrica
Teoria de valores extremos, propriedades assintóticas, estimação semi-
Num contexto de caudas direitas pesadas, procederemos a uma comparação assintótica de dois
estimadores de um parâmetro de segunda-ordem ρ , o estimador implı́cito em [2] e uma das classes
de estimadores em [3]. Na área de Estatı́stica de Extremos, um modelo F diz-se de cauda direita
pesada sempre que F := 1 − F é uma função de variação regular (no infinito) com um ı́ndice de
variação regular negativo e igual a −1/γ , γ > 0, or equivalentemente, a função quantil recı́proca
U(t) := F ← (1 − 1/t), t ≥ 1, com F ← (x) := inf{y : F(y) ≥ x}, é de variação regular com ı́ndice γ ,
i.e., para qualquer x > 0, limt→∞ F(tx)/F(t) = x−1/γ ou equivalentemente limt→∞ U(tx)/U(t) = xγ .
O parâmetro de segunda-ordem ρ (≤ 0) rege a velocidade de convergência na condição de primeiraordem atrás referida, e é o parâmetro não-positivo que aparece na relação limite,
lim lnU(tx) − lnU(t) − γ ln x /A(t) = xρ − 1 /ρ ,
(1)
t→∞
x > 0, e onde |A| é então de variação regular com ı́ndice ρ . Este parâmetro de segunda-ordem ρ , que
admitimos ser negativo, é o parâmetro de interesse neste artigo. De forma a obter informação completa sobre o comportamento assintótico dos estimadores de ρ , é necessário admitir uma condição
de terceira-ordem, que rege a velocidade de convergência em (1), garantindo-se que para todo o
x > 0,
′
lim lnU(tx) − lnU(t) − γ ln x /A(t) − xρ − 1 /ρ /B(t) = xρ +ρ − 1 /(ρ + ρ ′ ),
(2)
t→∞
onde |B(t)| tem de ser de variação regular com ı́ndice ρ ′ . Aparece então este parâmetro de terceiraordem ρ ′ ≤ 0. Neste artigo consideramos uma classe de modelos
de tipo Pareto, com função de
cauda F(x) = 1 − F(x) = Cx−1/γ 1 + D1 xρ /γ + D2 x2ρ /γ + o x2ρ /γ quando x → ∞, com C > 0,
D1 , D2 6= 0, ρ < 0. Note-se que admitir este tipo de cauda direita é equivalente a dizer que se
verifica (2) com ρ = ρ ′ < 0 e que podemos escolher
A(t) = α t ρ =: γ β t ρ ,
B(t) = β ′ t ρ =
β ′ A(t)
ξ A(t)
β′
=:
, β , β ′ 6= 0, ξ = ,
βγ
γ
β
(3)
com β e β ′ parâmetros de “escala” de segunda e terceira-ordem, respectivamente.
Na Secção 2 deste artigo, introduzimos os estimadores em análise, e fornecemos, na Secção 3, uma
descrição breve do comportamento assintótico desses estimadores de ρ .
SPE 2011
Mesa: Luı́sa Canto e Castro de Loura
101
Sexta, 30/09/2011
Extremos I
Os estimadores de ρ em análise
Face a uma amostra aleatória, (X1 , X2 , . . . , Xn ), usamos a notação (X1:n ≤ X2:n ≤ · · · ≤ Xn:n ) para a
amostra de estatı́sticas ordinais ascendentes associada. Uma das classes de estimadores de ρ em
análise é o mais simples estimador em [3]. Esta classe de estimadores pode ser parametrizada em
termos de um parâmetro de controlo τ ∈ R, e é definida do modo seguinte:
τ /2
τ
(2)
(1)
3(T (τ ) (k) − 1) Mn (k) − Mn (k)/2
n
(τ )
FAGH
FAGH
(k) ≡ ρbn
(k; τ ) := − (τ )
ρbn
, Tn (k) :=
τ /3 ,
τ /2
(3)
(2)
Tn (k) − 3 − Mn (k)/6
Mn (k)/2
para τ 6= 0 e com a continuação usual para τ = 0, onde, denotando Vik os excessos das log( j)
observações, Vik := ln Xn−i+1:n − ln Xn−k:n , 1 ≤ i ≤ k, Mn (k) := ∑ki=1 Vikj /k, j ≥ 1. A segunda classe,
baseada no facto de Ui = i(ln Xn−i+1:n − ln Xn−i:n ), 1 ≤ i ≤ k, serem aproximadamente exponenciais
−ρ
com valor médio µi = γ eβ (i/n) , 1 ≤ i ≤ k, é a classe de estimadores de ρ em [2], onde se considera a maximização conjunta, em γ , β e ρ , da log-verosimilhança, ln L(γ , β , ρ ;Ui , 1 ≤ i ≤ k) =
−k ln γ − β ∑ki=1 (i/n)−ρ − 1γ ∑ki=1 exp(−β (i/n)−ρ )Ui . Esse estimador será denotado ρbnFH (k).
Comportamento assintótico dos estimadores de ρ
Nas linhas de investigação em [3] e [1], mas com algumas indicações adicionais relacionadas com
o comportamento assintótico dos estimadores em análise, enunciamos o teorema seguinte:
Teorema 1. √Sob a validade da condição (1), com ρ < 0, e para k tal que k = kn → ∞,
k/n → 0 e k A(n/k) → ∞, quando n → ∞, ρbnFH (k) e ρ̂nFAGH (k) são consistentes para a
estimação de ρ . Se admitirmos adicionalmente a validade de (2), com A e B dados em
√
d
(3), podemos garantir que ρbn• (k) − ρ = σ• Uk• /( k A(n/k)) + b• A(n/k)(1 + √
o p (1)), onde
FH
FAGH
são
Uk e Uk
p variáveis aleatórias normal padrão, σFH = γ (1 − ρ )(1√− 2ρ ) 1 − 2ρ /ρ e
σFAGH√
= γ (1 − ρ )3 2ρ 2 − 2ρ + 1/ρ . Consequentemente, se admitirmos que kA2 (n/k) → λA , finito, k A(n/k) (ρbn• (k) − ρ ) é assintóticamente nomal com valor médio λA b• e σ•2 .
Procederemos a uma comparação assintótica de ρ̂nFH (k) e de ρ̂nFAGH (k), quer para um k genérico,
quer em nı́veis óptimos, i.e., nı́veis k = k0• em que o erro médio quadrático assintótico de ρ̂n• é
mı́nimo, referindo ainda a discrepância entre comportamento assintótico e em amostras finitas.
Bibliografia
[1] Caeiro, F. e Gomes, M.I. (2010). Asymptotic comparison at optimal levels of reduced-bias
extreme value index estimators. Notas e Comunicações CEAUL 24/2010.
[2] Feuerverger, A. e Hall, P. (1999) Estimating a tail exponent by modelling departure from a
Pareto distribution. Ann. Statist., 27, 760–781.
[3] Fraga Alves, M.I., Gomes, M.I. e de Haan, L. (2003). A new class of semi-parametric estimators of the second order parameter. Portugaliae Mathematica, 60:2, 193–213.
SPE 2011
102
Sexta, 30/09/2011
Extremos I
Uma generalização do estimador de Hill
M. Ivette Gomes e Dinis Pestana
DEIO e CEAUL, Universidade de Lisboa, {ivette.gomes,dinis.pestana}@fc.ul.pt
Resumo: Neste trabalho estamos interessados numa generalização simples do estimador de Hill,
baseada na média de ordem p de estatı́sticas fulcrais na construção do clássico estimador de Hill
para um ı́ndice de valores extremos positivo.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, caudas pesada
Face a uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), proveniente de uma população com
função de distribuição (f.d.) F, denotemos (X1:n ≤ · · · ≤ Xn:n ) a amostra associada das estatı́sticas
ordinais ascendentes. Admitamos ainda que é possı́vel normalizar a sucessão de máximos parciais, de modo a obtermos um limite não degenerado, necessariamente com f.d. do tipo EVγ (x) =
exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, γ ∈ R. Dizemos então que
F pertence ao domı́nio de atração
para máximos de EVγ , e usamos a notação F ∈ DM EVγ . O parâmetro γ é o ı́ndice de valores extremos (EVI, do Inglês extreme value index). Iremos aqui trabalhar com modelos de cauda
direita F := 1 − F pesada, i.e., com γ > 0. Com a notação U(t) := F ← (1 − 1/t), t ≥ 1, com
F ← (x) = inf{y : F(y) ≥ x},
+
F ∈ DM
≡ DM EVγ γ >0 ⇐⇒ lim U(tx)/U(t) = xγ ∀ x > 0,
(1)
t→∞
i.e., U(·) é uma função de variação regular no infinito, com um ı́ndice de variação regular γ (veja-se
+
[1]). Para modelos F ∈ DM
, os estimadores clássicos do EVI são os estimadores de Hill [5],
H(k) :=
1 k
∑ ln (Xn−i+1:n /Xn−k:n ) ,
k i=1
1 ≤ k < n.
Note-se que H(k) é o logaritmo da média geométrica de Uik := Xn−i+1:n /Xn−k:n :
!1/k
k
H(k) = ∑ ln (Xn−i+1:n /Xn−k:n )1/k = ln
i=1
(2)
k
∏ (Xn−i+1:n/Xn−k:n )
.
i=1
Mais geralmente, iremos agora considerar a média de ordem p ≥ 0 das estatı́sticas Uik , 1 ≤ i ≤ k < n,
dada por

p 1/p

se p > 0
 ∑ki=1 Uik /k
A p (k) =
(3)

1/k

k
se p = 0,
∏i=1 Uik
e o estimador do EVI,
Hp (k) :=
SPE 2011

 (1 − exp(−p ln A p (k))) /p se p > 0

ln A0 (k) = H(k)
(4)
se p = 0,
103
Sexta, 30/09/2011
Extremos I
dependente agora deste parâmetro de controlo p ≥ 0, e com H(k) e A p (k) definidos em (1) e (3),
respectivamente.
Para a derivação do comportamento não degenerado de estimadores do EVI, em contexto semiparamétrico, é usual restringir o domı́nio DM + , admitindo a validade de uma condição do tipo,
lim
t→∞
U(tx)/U(t) − xγ
xρ − 1
= xγ
A(t)
ρ
∀ x > 0,
(5)
e onde |A| tem então de ser de variação regular com ı́ndice ρ , necessariamente não-positivo [2]. É
então válido o teorema seguinte, generalização para p > 0 do resultado para p = 0 em [4].
Teorema 1. Sob a validade da condição de primeira-ordem, em (1), e para k = kn sucessão intermédia, i.e., se k = kn → ∞ e kn = o(n), quando n → ∞, a classe de estimadores Hp (k), em (4) é
consistente para a estimação de γ . Se além dissso admitirmos a validade da condição de segundaordem, em (5), temos a validade da representação assintótica
γ (1 − pγ ) Zk
1 − pγ
d
Hp (k) = γ + √ √
+
A(n/k) + o p (A(n/k)),
1
−
pγ − ρ
k 1 − 2pγ
com Zk assintoticamente normal padrão.
Com base em artigos variados, de entre os quais referimos [3], procederemos ainda à comparação,
em nı́veis óptimos, no sentido de erro quadrático médio mı́nimo, da nova classe Hp , p > 0, com
H0 , mostrando a existência de uma vasta região de valores de p onde Hp compara favoravelmente
com H0 ≡ H. Avançaremos ainda com um estudo de simulação, para comparação dos elementos da
classe de estimadores em (4), em amostras de dimensão finita.
Bibliografia
[1] Bingham, N., Goldie, C.M., e Teugels, J.L. (1987). Regular Variation. Cambridge Univ. Press,
Cambridge.
[2] Geluk, J., e Haan, L. de (1987). Regular Variation, Extensions and Tauberian Theorems. CWI
Tract 40, Center for Mathematics and Computer Science, Amsterdam, The Netherlands.
[3] Gomes, M.I. e Neves, C. (2008). Asymptotic comparison of the mixed moment and classical
extreme value index estimators. Statistics and Probability Letters 78:6, 643-653.
[4] Haan, L. de e Peng, L. (1998). Comparison of tail index estimators. Statistica Neerlandica 52,
60-70.
[5] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution.
Annals Statistics 3, 1163-1174.
SPE 2011
104
Sexta, 30/09/2011
Extremos I
Excessos acima de nı́veis aleatórios e estimação linear óptima
e centrada
Lı́gia Henriques-Rodrigues1 e M. Ivette Gomes2
1
CEAUL, Universidade de Lisboa, e Instituto Politécnico de Tomar,
[email protected]
2 DEIO, FCUL e CEAUL, Universidade de Lisboa, [email protected]
Resumo: Neste artigo abordamos um método de estimação, semi-paramétrico e invariante para
mudanças de localização e escala, de um ı́ndice de valores extremos (EVI, do inglês, extreme value
index) positivo. Tomando como base estimadores lineares centrados (BLUE, do Inglês best linear
unbiased estimators) do EVI, consideramos agora estimadores PORT-BLUE do EVI, propomos
um método heurı́stico de escolha adaptativa dos parâmetros de controlo, e aplicamos esse método à
análise de dados ambientais.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, estimadores lineares
centrados, excessos acima de nı́veis aleatórios
Em Estatı́stica, sempre que colocamos a questão de como combinar informação de modo a melhorar
o comportamento de um estimador, somos frequentemente levados a pensar em estimadores lineares
centrados e óptimos, i.e., em combinações lineares de um conjunto adequado de estatı́sticas, com
variância mı́nima na classe dessas combinações lineares. Na área de Estatı́stica de Extremos, e no
que concerne a estimação do ı́ndice de valores extremos, foi derivado e estudado em [2] o comportamento de estimadores BLUE assintoticamente centrados. Mas, tal como acontece com os estimadores clássicos de Hill ([5]), esses estimadores não são invariantes para mudanças de localização,
contrariamente aos estimadores PORT-Hill, introduzidos recentemente em [1], onde PORT é a sigla
para peaks over random threshold. Neste artigo consideramos estimadores PORT-BLUE do EVI, a
introduzir na Secção 2, e derivamos o seu comportamento assintótico. Na Secção 3, sugerimos uma
escolha adaptativa dos parâmetros de controlo em jogo e uma aplicação a dados ambientais.
Estimadores PORT-BLUE do EVI
Seja Xn = (X1 , . . . , Xn ), uma amostra aleatória de n variáveis aleatórias (v.a.’s) independentes e
identicamente distribuı́das com distribuição F, e denotemos Xi:n , 1 ≤ i ≤ n, a i-ésima estatı́stica
ordinal ascendentes associada. Se o máximo, Xn:n , linearmente normalizado, convergir para
uma v.a. não degenerada, então, para algum γ ∈ R, onde γ é o chamado EVI, essa v.a. limite
tem uma distribuição do tipo da distribuição de valores extremos (EV, do inglês extreme value),
então que F está no domı́nio de atração (para
EVγ (x) := exp − (1 + γ x)−1/γ , 1 + γ x > 0. Dizemos
máximos) de EVγ , e escrevemos F ∈ DM EVγ . O EVI está directamente relacionado com o peso
da cauda direita F := 1 − F, e iremos considerar caudas direitas pesadas, i.e. γ > 0. Então, com
SPE 2011
105
Sexta, 30/09/2011
Extremos I
U(t) := F ← (1 − 1/t) := inf {x : F(x) ≥ 1 − 1/t}, e com a notação RVα para a classe de funções
de variação regular com ı́ndice de variação regular α , F ∈ DM (EVγ )γ >0 ⇐⇒ U ∈ RVγ ⇐⇒
F ∈ RV−1/γ . A consideração da contrapartida empı́rica de U(t) leva-nos então aos estimadores
de Hill, médias de k excessos das log-observações, com k = kn sucessão intermédia de inteiros
(k = kn → ∞ e k/n → 0, quando n → ∞), denotados Hn (k) ≡ Hn (k; Xn ). Face à não invariância
para a localização dos estimadores de Hill, podemos pensar na classe de estimadores PORT-Hill
baseados numa amostra de excessos acima de um nı́vel aleatório Xnq :n , nq := [nq] + 1, 0 < q < 1,
(q)
denotada Xn := Xn:n − X[nq]+1:n , . . . , X[nq]+2:n − X[nq]+1:n . Esses estimadores PORT-Hill do EVI
têm a mesma forma funcional dos estimadores de Hill, mas com a amostra inicial Xn substituı́da
(q)
(q)
(q)
por Xn , ou seja, Hn (k) ≡ Hn (k; Xn ). Em [2] consideraram-se combinações lineares assintoticamente centradas de estimadores de Hill (os chamados estimadores BLUE-H do EVI) calculados em nı́veis intermédios k − m + 1,k − m + 2, · · · ,k, i.e., combinações lineares baseadas no vector,
H ≡ (Hn (k − m + 1), · ·· , Hn (k)). Avançamos agora com
os estimadores PORT-BLUE-H do EVI,
(q)
(q)
(q)
(q)
baseados em H
≡ Hn (k − m + 1), · · · , Hn (k) , e denotados BLn (k). A normalidade assintótica destes estimadores é obtida face à validade de uma condição de segunda ordem adequada,
que rege a velocidade de convergência na condição de primeira ordem, U ∈ RVγ .
Escolha dos parâmetros de controlo e aplicação a dados ambientais
A escolha de k e q nos estimadores PORT-BLUE-H do EVI é feita com base num “bootstrap” duplo,
(q)
(q)
baseado na estatı́stica auxiliar, Tn (k) := BLn ([k/2]) − BLn (k), na linha de [3]. Procedemos ainda
à aplicação do algoritmo na análise de dados ambientais, relacionados com o número de hectares
ardidos em Portugal durante um perı́odo de 14 anos (1990-2003). A amostra, de dimensão n = 2627,
não parece ter uma estrutura temporal significativa, e usámos a amostra global, embora nos pareça
sensata a consideração de diferentes regiões, de modo a evitar heterogeneidade espacial. Fomos
conduzidos a q = 0, a uma escolha do nı́vel k̂0BL = 1319 e à estimativa PORT-BLUE-H dada por
BL∗ = 0.66, um valor consentâneo com valores anteriormente obtidos para estes dados.
Bibliografia
[1] Araújo Santos, P., Fraga Alves, M.I. e Gomes, M.I. (2006). Peaks over random threshold
methodology for tail index and quantile estimation. Revstat 4:3, 227–247 (2006)
[2] Gomes, M.I., Figueiredo, F. e Mendonça, S. (2005). Asymptotically best linear unbiased tail
estimators under a second order regular variation. J. Statist. Planning and Inference 134:2,
409–433.
[3] Gomes, M.I., Henriques-Rodrigues, L. e Miranda, C. (2011). Reduced-bias location-invariant
extreme value index estimation: a simulation study. Comm. in Statist. – Simul. & Comput.
40:3, 424–447. DOI: 10.1080/03610918.2010.543297
[4] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Ann.
Statist. 3, 1163–1174.
SPE 2011
106
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Factores de risco para a detecção de Salmonella sp. em suı́nos
reprodutores em Portugal
Carla Correia-Gomes1 , Denisa Mendonça1 , Madalena Vieira-Pinto2 e João Niza-Ribeiro1
1
ICBAS-UP (Departamento de Estudos das Populações)/ISPUP, {cgomes, dvmendon}@icbas.up.pt,
[email protected]
2 UTAD, Departamento de Veterinária, Clı́nicas Veterinárias, [email protected]
Resumo: A Salmonela é uma das principais causas de doenças transmitidas pelos alimentos na
União Europeia. O conjunto de dados analisados neste trabalho refere-se a um estudo transversal
em suı́nos reprodutores em Portugal. O objectivo deste estudo foi a pesquisa de factores de risco
para a presença de Salmonela em suı́nos reprodutores. Foram recolhidas um total de 1.670 amostras
fecais, pertencentes a 167 explorações. Destas 170 amostras foram positivas para Salmonela. Foi,
também, aplicado um questionário para recolher informações sobre o maneio a nı́vel da exploração
e factores de risco potenciais para a Salmonela. Foi aplicada uma análise multinı́vel ao conjunto
dos dados. O primeiro nı́vel foi atribuı́do às amostras fecais e o segundo nı́vel foi atribuı́do as
explorações. Os resultados mostram associações significativas (p < 0.05) a nı́vel da exploração e a
nı́vel da amostra. Este estudo forneceu informações valiosas que devem ser incorporadas em futuros
planos de controlo deste agente na produção de suı́nos em Portugal.
Palavras–chave: Salmonela, análise multinı́vel
Introdução
Salmonela é uma das principais causas de doenças veiculadas pelos alimentos na União Europeia
(UE) nos últimos dez anos [1], sendo alguns casos associados a carne de porco. Nos suı́nos este
agente passa despercebido pois provoca geralmente infecções sub-clı́nicas. Para se reduzir a prevalência deste agente é necessário saber quais os factores de risco associados ao tipo de produção
existente. Alguns dos factores de risco conhecidos [2] estão ligados a: 1) medidas de biossegurança,
2) maneio da exploração, 3) a prática alimentares, e 4) estado de saúde dos animais relativamente a
outros agentes.
O objectivo do estudo foi a pesquisa de factores de risco para a presença de Salmonela em suı́nos
reprodutores.
Material e Métodos
Foi realizada uma amostragem representativa proporcional das explorações com porcos reprodutores em Portugal de acordo com as especificações da Decisão da Comissão 2008/55/EC. Em cada
exploração eram recolhidas 10 amostras compostas de fezes. As amostras foram enviadas para o
laboratório para detecção de Salmonela e cada amostra positiva foi serotipada. A informação refe-
SPE 2011
107
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
rente aos potenciais factores de risco foi recolhida através de um inquérito a todas as explorações
da amostra. Como os dados seguem uma estrutura multinı́vel, amostras fecais (primeiro nı́vel)
que pertencem a explorações (segundo nı́vel), foi considerada uma análise multinı́vel utilizando
um modelo misto generalizado [3], cuja variável dependente seguia uma distribuição de Bernoulli,
com a função de ligação logite. Foi utilizado o procedimento glmmPQL do pacote MASS [4] do
software R gratuito [5], que ajusta o modelo através de método de quase-verosimilhança penalizada. As variáveis com p ≤ 0.15, na análise univariável, foram selecionadas para entrar no modelo
multivariável. Os coeficientes de regressão, em seguida, foram convertidos para odds ratio (OR) e
calculados os intervalos de confiança a 95% para estes.
Resultados
Foram recolhidas um total de 1.670 amostras (nı́vel 1), pertencentes a 167 explorações (nı́vel 2) que
preencheram o questionário. De todas as amostras recolhidas 170 foram positivas para detecção
de Salmonela, correspondendo a 76 explorações infectadas. Resultados do modelo multinı́vel multivariável revelaram que as seguintes variáveis estão significativamente associadas à presença de
Salmonela (p < 0.05): região da exploração, tamanho da exploração, origem do sémen utilizado
na exploração, fase de produção, origem da dieta, controlo dos roedores, origem dos varrascos, e
número de animais nos parques amostrados.
Conclusão
Estes resultados são importantes para avaliar o risco das explorações relativamente à Salmonela e
podem ser utilizados em programas de controlo do agente e em sistemas de vigilância baseados no
perfil de risco das explorações.
Agradecimentos: Às autoridades veterinárias oficiais pela cedência dos dados. À FCT pela bolsa
de doutoramento.
Bibliografia
[1] EFSA (2011). The European Union Summary Report on Trends and Sources of Zoonoses,
Zoonotic Agents and Food-borne Outbreaks in 2009. EFSA Journal, 9(3), 2090.
[2] Fosse, J., Seegers, H. e Magras, C. (2009). Prevalence and risk factors for bacterial food-borne
zoonotic hazards in slaughter pigs: a review. Zoonoses and public health 2009, 56(8), 429–54.
[3] Goldstein, H. (2011). Multilevel Statistical Models. John Wiley&Sons.
[4] Venables, W.N. e Ripley, B.D. (2002). Modern Applied Statistics with S.. Springer.
[5] R Development Core Team (2010). R: A Language and Environment for Statistical Computing. http://www.R-project.org.
SPE 2011
108
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Modelos de resposta ao item: linking entre escalas de Matemática
Patrı́cia Costa1 , Maria Eugénia Ferrão2 e Pedro Oliveira3
1
Joint Research Centre - European Commission, [email protected]
Departamento de Matemática - Universidade da Beira Interior e CEMAPRE, [email protected]
3 Instituto de Ciências Biomédicas Abel Salazar - Universidade do Porto, [email protected]
2
Resumo: Linking define-se como sendo o procedimento estatı́stico usado para ajustar a classificação
dos examinandos em testes ou formas de teste com diferentes especificações (em termos de conteúdo
e/ou nı́vel de dificuldade e/ou na aferição de diferentes factores latentes) a uma escala única (Kolen
e Brennan [2]).
O linking entre as escalas obtidas pela aplicação da Prova de Aferição de Matemática do 6o ano
de escolaridade, do Ensino Básico, e do teste 3EMat (Costa, Oliveira e Ferrão [1]) foi efectuado pelo método linear e pelo método baseado na estimação conjunta dos parâmetros dos itens
e do factor latente, assumindo que cada um dos instrumentos é um subteste aplicado à mesma
amostra. A correlação entre a classificação obtida através da estimação conjunta e as restantes
classificações é forte, mostrando ser promissor o método aplicado para estabelecer a métrica na
perspectiva de comparação dos resultados escolares ao longo do tempo. A análise dos resultados,
do teste de hipóteses para amostras emparelhadas, permitiu verificar que não existem diferenças
estatı́sticamente significativas entre as classificações obtidas nos dois instrumentos.
Esta aplicação evidencia uma das vantagens da utilização da classe de Modelos de Resposta ao Item
que é a comparação entre examinandos da mesma população que foram submetidos a instrumentos
totalmente diferentes.
Palavras–chave: Modelos de resposta ao item, comparação de instrumentos, linking
Agradecimentos: Os autores agradecem ao Gabinete de Avaliação Educacional (GAVE) do Ministério da Educação pelos dados disponibilizados.
Bibliografia
[1] Costa, P., Oliveira, P. e Ferrão, M.E. (2008). Equalização de escalas com o modelo de resposta
ao item de dois parâmetros. Em Estatı́stica - da Teoria à Prática, Actas do XV Congresso
Anual da Sociedade Portuguesa de Estatı́stica (Hill, M.; Ferreira, M.; Dias, J.; Salgueiro, M.;
Carvalho, H.; Vicente, P. e Braumann, C., eds.), 155–166. Edições SPE.
[2] Kolen, M.J. e Brennan, R.L. (2004). Test Equating, Scaling, and Linking: Methods and Practices - 2nd ed. Springer.
SPE 2011
109
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Absentismo escolar - detecção precoce de epidemias
Joana Dias1 , Ana Rita Gonçalves2 , Ana Maria Correia1 e Emilia Athayde3
1
Departamento de Saúde Pública - ARSNorte, IP, {jdias, acorreia}@arsnorte.min-saude.pt
3 Departamento de Matemática e Aplicações, Universidade do Minho, [email protected]
2
Resumo: Desde o ano lectivo 2006/2007 que o Departamento de Saúde Pública (DSP) tem em
funcionamento o Sistema de Monitorização do Absentismo Escolar na região Norte. Este trabalho
tem como objectivo propor um método estatı́stico para a detecção precoce de “picos” no absentismo
escolar na região Norte. Recomenda-se a implantação do método CUSUM e do método de Cullen
durante os dois próximos anos lectivos no Sistema de Monitorização do Absentismo Escolar na
região Norte.
Palavras–chave: Absentismo escolar, epidemias, detecção precoce
Introdução
Em 2005, o Departamento de Saúde Pública (DSP) da Administração Regional de Saúde do Norte,
I.P. desenvolveu um conjunto de actividades de preparação face à ameaça de pandemia de gripe.
Dentro dessas actividades, a implementação de um sistema de informação que forneça dados fiáveis
que permitam identificar com celeridade a ocorrência de surtos de gripe, foi considerada prioritária. Assim, desde o ano lectivo 2006/2007 que o DSP tem em funcionamento o Sistema de
Monitorização do Absentismo Escolar na região Norte. Na actual fase de desenvolvimento do projecto, é fundamental a identificação de um processo que permita validar “picos” de absentismo
escolar detectados pelo sistema.
Objectivo
Propor um método estatı́stico para a detecção precoce de “picos” no absentismo escolar na região
Norte.
Material e Métodos
O Sistema de Monitorização do Absentismo Escolar integra uma amostra de escolas do 1o , 2o e 3o
Ciclos do Ensino Básico da região e está activo entre a semana 40 de cada ano e a semana 20 do
ano seguinte, interrompendo-se durante os fins-de-semana e as férias escolares. Os dados utilizados
para este estudo abrangem os anos lectivos 2006/2007, 2007/2008, 2008/2009 e 2009/2010. Para a
caracterização do absentismo escolar, calculou-se o absentismo (%) semanal para a região em cada
um dos anos lectivos em estudo. Para a construção da área basal, testaram-se quatro métodos estatı́sticos: método de Cullen; método do 3o Quartil; método de Albuquerque; método CUSUM. Para
SPE 2011
111
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
a construção dos gráficos, utilizaram-se os dados semanais de absentismo escolar na região, nos três
primeiros anos lectivos. Os dados do ano lectivo 2009/2010 foram usados para teste. Em Portugal, a
vigilância epidemiológica da gripe é realizada pela Rede de Médicos-Sentinela em colaboração com
o Centro Nacional da Gripe. Semanalmente é elaborado um Boletim de Vigilância Epidemiológica
da gripe sazonal. Este boletim permitiu identificar as semanas epidémicas da gripe sazonal em Portugal, para posteriormente serem comparadas com as semanas epidémicas obtidas pelos métodos
referidos anteriormente.
Resultados
A análise das semanas epidémicas assinaladas pelos quatro métodos estatı́sticos utilizados (n = 33
semanas), mostrou que o método de Cullen detectou 10 semanas epidémicas, o método de Albuquerque detectou 10 semanas, o método do 3o Quartil detectou 14 e o método CUSUM detectou 12 semanas epidémicas. Comparando as semanas epidémicas detectadas por cada um dos métodos, com
as semanas epidémicas da gripe sazonal identificadas pela Rede de Médicos-Sentinela, verificou-se
que o método CUSUM foi o que melhor identificou as semanas epidémicas no absentismo escolar,
quando comparadas com a actividade gripal em Portugal. Os métodos de Cullen e de Albuquerque
também apresentaram valores elevados na proporção de verdadeiras semanas epidémicas identificadas.
Conclusão
O método CUSUM apresentou uma maior proporção de verdadeiras semanas epidémicas identificadas, seguido pelos métodos de Cullen e de Albuquerque. Portanto, recomenda-se a implantação
do método CUSUM e do método de Cullen durante os dois próximos anos lectivos no Sistema de
Monitorização do Absentismo Escolar na região Norte.
Bibliografia
[1] DSP - ARSNorte (2010). Vigilância do Absentismo Escolar na região Norte: 2009/2010.
Unidade de Vigilância Epidemiológica. Administração Regional de Saúde do Norte, I.P..
[2] Montgomery, D.C. (2008). Introduction to Statistical Quality Control. John Wiley & Sons.
[3] Schmidt, W.P., Pebody, R. e Mangtani, P. (2010). School absence data for influenza surveillance: a pilot study in the United Kingdom. Euro Surveill., 15(3):pii=19467.
SPE 2011
112
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Estudantes do Ensino Superior: Caminhos para o sucesso ou
insucesso
Otı́lia Dias1 , Isabel Pinto Doria2 e Ana Sousa Ferreira3
1
ESTBarreiro, Instituto Politécnico de Setúbal, CEAUL , [email protected]
LEAD, FP - Universidade de Lisboa, CEAUL, [email protected]
3 LEAD, FP - Universidade de Lisboa, UNIDE e CEAUL, [email protected]
2
Resumo: O insucesso escolar afecta muitos estudantes do ensino superior, conduzindo frequentemente ao abandono escolar e a profissões pouco diferenciadas e/ou mal remuneradas. Pretendendo
conhecer as variáveis que impactam o sucesso escolar, bem como indicadores de proximidade do
percurso académico, o Instituto Politécnico de Setúbal (IPS) desenhou um estudo com vista a identificar as variáveis predisponentes ao sucesso, insucesso e abandono escolares. Este trabalho incide
sobre o estudo piloto que decorreu na Escola Superior de Tecnologia do Barreiro (ESTBarreiro,
IPS) e procura compreender como é que as caracterı́sticas socio-demográficas dos estudantes, o seu
nı́vel de envolvimento com a escola e com a famı́lia e as notas de ingresso no ensino superior explicam o sucesso/insucesso.
Palavras–chave: Análise multivariada de dados, insucesso, sucesso
Introdução
O insucesso escolar afecta muitos estudantes do ensino superior, conduzindo frequentemente ao
abandono escolar e a profissões pouco diferenciadas e/ou mal remuneradas. O ensino superior em
Portugal tem vindo a viver profundas mudanças nos últimos anos. A generalização do acesso ao
ensino superior, as reestruturações dos planos curriculares em consequência do Processo de Bolonha e o aumento dos estudantes ao abrigo do acesso para Maiores de 23 anos, introduziram nas
instituições de ensino superior um corpo de estudantes bastante diferenciado relativamente às suas
competências, dificuldades e expectativas, que importa conhecer.
Em Portugal, o tema do insucesso e do abandono escolar tem sido objecto de numerosos estudos cientı́ficos procurando identificar os factores potencialmente relevantes para a sua compreensão
(Projectos inovadores no ensino superior - Programa de Intervenção Operacional Ciência e Inovação
2010). As publicações da OCDE e os resultados apresentados pelo Ministério da Ciência, Tecnologia e Ensino Superior [1] apontam para taxas de sobrevivência (rácio entre número de diplomados
e número de inscritos no 1o ano/1a vez) nas instituições do ensino superior portuguesas, na ordem
dos 67% registando-se contudo taxas mais elevadas de abandono e insucesso durante o 1o ano de
ingresso. Os ı́ndices de sobrevivência mais elevados foram observados nas áreas da Saúde e das
Ciências Sociais e Humanas, e os mais baixos nas áreas da Informática, Engenharia e Ciências
Exactas ou da Natureza.
Os nı́veis de insucesso no ensino superior constituem um problema que afecta o ambiente escolar e
acarretam diversas disfunções pessoais e sociais.
SPE 2011
113
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Procedimento e Resultados
Assumindo que a melhoria da qualidade necessita do conhecimento das variáveis que impactam
o sucesso escolar, bem como de indicadores do percurso académico, o Instituto Politécnico de
Setúbal (IPS) desenhou, através da UNIQUA (Unidade para a Qualidade e a Avaliação), um estudo
com vista a identificar os factores predisponentes ao sucesso, insucesso e abandono escolares. O
inquérito desenvolvido para os estudantes do 1o ano/1a vez, para além de conseguir identificar os
factores e processos potencialmente relevantes para a compreensão do sucesso e insucesso escolares, pretendeu também disponibilizar dados e informações sobre o perfil dos seus estudantes de
modo a contribuir para o planeamento das estratégias educativas a adoptar. Este inquérito incluiu
a informação solicitada pelo RAIDES (Inquérito ao Registo de Alunos Inscritos e Diplomados do
Ensino Superior) e a informação contida na ficha de candidatura.
A primeira aplicação piloto decorreu na Escola Superior de Tecnologia do Barreiro (ESTBarreiro,
IPS) relativa aos resultados académicos do 1o semestre do ano lectivo de 2010/2011 incidindo nas
três Licenciaturas de Engenharia Civil (LEC), Engenharia Quı́mica (LEQ) e Gestão da Construção
(LGC). No presente ano lectivo, o inquérito foi preenchido por todos os estudantes de 1a vez durante
o acto da matrı́cula. Dos 118 estudantes da ESTBarreiro/IPS que ingressaram pela 1a vez e para o
1o ano em 2010/2011 (78 em LEC, 10 em LEQ e 30 em LGC), apenas 27% são do sexo feminino,
75% são solteiros e 79% nasceram em Portugal. Estes estudantes são provenientes maioritariamente
do distrito de Setúbal (75%), vindo de Lisboa cerca de 18% e de Santarém cerca de 3%. A média das
idades destes estudantes que ingressaram na ESTBarreiro/IPS é de 26 anos (d.p. 9), sendo que 51%
dos estudantes têm uma idade inferior a 23 anos e 25% uma idade superior a 32 anos, observandose um máximo de 51 anos e um mı́nimo de 17 anos. Os estudantes com mais idade são em geral
os que procuraram os cursos de Mestrado e Pós-graduação, enquanto os mais novos visaram os
cursos de LEC e LEQ e entraram pelo Concurso Nacional de Acesso (CNA). A opção pelo curso
foi referida ser por vocação por 46% dos estudantes de LEC, 20% de LEQ e 27% LGC tendo todos
estes estudantes indicado grandes expectativas em relação ao curso: a maior parte destes estudantes
conta vir a ter sucesso a todas as unidades curriculares.
Dos alunos que entraram no 1o ano/1a vez pelo Concurso Nacional de Acesso observou-se uma
média do Ensino Secundário de 130 pontos (desvio padrão 11) e uma nota média de candidatura
de 123 pontos (desvio padrão 12), registando-se um máximo de 149 pontos e um mı́nimo de 105
pontos nesta candidatura.
À luz dos objectivos referidos, a análise dos dados obtidos neste estudo incide sobre o estudo da
relação entre as motivações, caracterı́sticas pessoais (ex: expectativas sobre o curso; idade; género;
experiências de trabalho social) e o sucesso académico recorrendo a métodos de análise multivariada
[2, 3]. Os principais resultados deste estudo são apresentados e discutidos, bem como algumas
conclusões preliminares.
Bibliografia
[1] CIES-ISCTE, ISFLUP (2009). Os Estudantes e os seus trajectos no Ensino Superior. Insucesso, Factores e Processos, Promoção de boas práticas. Projecto ETES.
[2] Pinto Doria, I. (2008). Representações Euclidianas de Dados - Uma Abordagem para
Variáveis Heterogéneas. Tese de Doutoramento, Universidade de Lisboa.
[3] Sousa Ferreira, A. (2000). Combinação de Modelos em Análise Discriminante sobre Variáveis
Qualitativas. Tese de Doutoramento, Universidade Nova de Lisboa.
SPE 2011
114
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
A satisfação e lealdade dos diplomados em turismo face às
instituições de ensino superior frequentadas. Uma aplicação
do método PLS-PM
Sofia Eurico1 , Patrı́cia Oom do Valle2 e João Albino Silva2
1
Instituto Politécnico de Leiria - Escola superior de Turismo e Tecnologia do Mar,
[email protected]
2 Faculdade de Economia da Universidade do Algarve, {pvalle, jsilva}@ualg.pt
Resumo: O presente trabalho descreve os resultados de um estudo que visa identificar os elementos
que influenciam o processo de formação da satisfação e da lealdade dos diplomados em Turismo
para com a Instituição de Ensino Superior (IES) frequentada. A metodologia do Índice Europeu
de Satisfação do Consumidor, ECSI, serviu de ponto de partida para a construção de um modelo
de investigação, norteado por um conjunto de construtos mensuráveis por meio de variáveis observáveis. O método PLS-PM foi utilizado para especificar, estimar, validar e representar o modelo
num diagrama de caminhos que permitiu espelhar as relações hipotéticas que se estabelecem entre
as diferentes variáveis. 166 diplomados em Turismo, já integrados no mercado de trabalho no sector
do Turismo, foram inquiridos e os resultados sugerem que a imagem institucional é o antecedente
mais significativo da satisfação. Esse resultado tem implicações para as IES, tendo em conta a competitividade existente e a necessidade de estratégias que actuem em conformidade com a situação.
Palavras–chave: Ensino Superior em Turismo, satisfação, ECSI, PLS-PM
SPE 2011
115
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Modelos de misturas na identificação de padrões de jardins
da cidade do Porto
A. Rita Gaio e Joaquim F. P. da Costa
Departamento de Matemática da Faculdade de Ciências da Universidade do Porto,
{argaio, jpcosta}@fc.up.pt
Resumo: Este trabalho enquadra-se na área de Análise Classificatória usando essencialmente modelos de misturas finitas. Mais concretamente, pretende-se agrupar um conjunto de 95 jardins e
praças da cidade do Porto, descritos por 3 variáveis discretas e 4 contı́nuas. É assumido que a componente contı́nua segue uma distribuição normal multivariada, a componente discreta segue uma
multinomial e que as duas componentes são independentes. No final procede-se à identificação dos
jardins tı́picos e respectivas caracterı́sticas.
Palavras–chave: Modelos de misturas finitas, análise em componentes principais
Introdução
Para K componentes, a equação genérica do modelo multivariado de misturas finitas é
h(yi |ϕ ) =
com
K
∑ πk = 1
e
K
∑ πk (wi , α ) fk (yi |θk )
(1)
k=1
πk > 0,
k = 1, . . . , K.
k=1
Aqui, h designa a função densidade de probabilidade total, yi = (yi1 , . . . ,yiJ ) é um vector de J
observações (categóricas ou contı́nuas) para a unidade i, ϕ = (α t , θ1t , . . . ,θKt ) é o conjunto dos
parâmetros do modelo a serem estimados, π1 . . . ,πK são as proporções da mistura, f1 , . . . , fK são
as densidades das componentes, e w é um vector de variáveis concomitantes, que influenciam as
proporções da mistura.
O modelo (1) resulta da composição de dois modelos: o modelo de variáveis concomitantes e o
modelo especı́fico das componentes.
O modelo de variáveis concomitantes determina as proporções da mistura em função das variáveis
concomitantes, através de um modelo de regressão logı́stica multinomial com parâmetros α i.e.,
para k ∈ {1,2, . . . ,K},
t
e(1,w )αk
πk (w,α ) = K (1,wt )α
k
∑k=1 e
t
t
t
com α = (α1 , . . . , αK ) e α1 = 0.
O modelo especı́fico das componentes modela as densidades fk (.|θk ), com parâmetros θk , k =
1, . . . ,K. Dentro da mistura k, assume-se que a densidade de cada yi j provém da famı́lia exponencial
(no nosso caso, distribuições Gaussianas e Multinomiais).
SPE 2011
117
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Os dados considerados foram recolhidos no âmbito do projecto “Biodiversity and Landscape Design” (http://bio-diver-city.fc.up.pt/), consistindo dos 95 jardins e praças existentes na cidade do
Porto. As variáveis y j consistem de 3 áreas (de coberto vegetal, de impermeabilidade e de plano de
água), da idade dos jardins, uso dominante para o qual os jardins foram concebidos, e o carácter do
espaço verde.
Após a formação dos grupos pretende-se, por um lado, identificar o jardim representativo de cada
grupo, e, por outro, descrever as caracterı́sticas de cada padrão encontrado. Esta última tarefa será
realizada através da análise em componentes principais.
Bibliografia
[1] Fahey, M.T., Thane, C.W., Bramwell, G.D. e Coward, W.A. (2007). Conditional Gaussian
mixture modelling for dietary pattern analysis. Journal of the Royal Statistical Society: Series
A, 170, Part 1, 149–166.
[2] Gruen, B. e Leisch, F. (2008). FlexMix Version 2: Finite mixtures with concomitant
variables and varying and constant parameters. Journal of Statistical Software, 28(4);
http://www.jstatsoft.org/v28/i04/
[3] McLachlan, G.J. e Peel, D. (2000). Finite Mixture Models. Wiley: New York.
SPE 2011
118
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Será possı́vel encontrar um próximo Cristiano Ronaldo?
João Neves1 , Cláudia Pascoal1 , M. Rosário de Oliveira1 , José Maia2 e Duarte Freitas3
1
CEMAT e Departamento de Matemática, Instituto Superior Técnico, Universidade Técnica de
Lisboa, {joao.d.neves, claudiapascoal}@ist.utl.pt, [email protected]
2 Faculdade de Desporto, Universidade do Porto, [email protected]
3 Departamento de Educação Fı́sica e Desporto, Universidade da Madeira, [email protected]
Resumo: O Futebol infanto-juvenil é caracterizado por um vasto quadro de exigências formais, funcionais, técnicas, tácticas e estratégicas. Uma das principais tarefas dos treinadores/seleccionadores
é tomar decisões de selecção, quase sempre de modo subjectivo, sobre os jovens que melhor configuram as exigências do treino e da competição. A avaliação objectiva das caracterı́sticas dos jovens
futebolistas e das suas aptidões permite tomar decisões mais acertadas. Um dos grandes desafios
na selecção refere-se, precisamente, à obtenção de perfis que permita diferenciar, com maior rigor
e segurança, classes de jovens seleccionados em diferentes escalões competitivos.
A abundância de informação, disponibilizada pelo crescente avanço tecnológico, tem tornado o
problema de identificar as variáveis relevantes na descrição de um dado fenómeno, de importância
capital em muitas áreas de conhecimento, que não apenas a Estatı́stica. Por exemplo, Blum e Langley [1] referem que o número de objectos necessário para obter uma dada precisão com o método
de classificação do vizinho mais próximo cresce exponencialmente com o número de variáveis irrelevantes consideradas. Assim, o estudo de um conjunto de dados é, por vezes, dividido em duas
fases: decidir quais as variáveis a usar na descrição do problema e como combinar essas variáveis
para efectivamente resolver o problema real.
Neste trabalho, considera-se um conjunto de dados formados por indicadores somáticos e motores
dos jogadores de futebol das camadas infanto-juvenis da Região Autónoma da Madeira [3] recolhidos com o objectivo de estudar o problema de selecção de jovens futebolistas. Identificam-se as
variáveis relevantes na escolha dos atletas seleccionados tendo em conta a informação mútua. Este
indicador mede a quantidade de informação que uma variável contém acerca da outra, sendo uma
medida de dependência linear e não linear entre variáveis [2]. Os resultados baseados nos estimadores clássicos de informação mútua são comparados com um novo método robusto de selecção de
variáveis, também ele construı́do a partir deste indicador. Uma vez que os critérios de selecção dos
treinadores parecem diferir entre os dois escalões de competição, os resultados obtidos são separados nos dois escalões analisados.
Palavras–chave: Informação mútua, selecção de variáveis, futebol
Bibliografia
[1] Blum, A.L. e Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, 245–271.
[2] Cover, T.M. e Thomas, J.A. (2007). Elements of information theory. 2a Edição. John Wiley
and Sons.
SPE 2011
119
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
[3] Quintal, A.J., Teixeira, A.L., Freitas, M.A., Maia, J.A., Freitas, D.L., Valdivia, A.B., Seabra, A.F., Garganta, R.M., Almeida, S.M., e Gouveia, E.R. (2007). O atleta infanto-juvenil
madeirense. Selecção, performance motora e morfológica externa. Faculdade de Desporto da
Universidade do Porto e Universidade da Madeira - Departamento de Educação Fı́sica e Desporto.
SPE 2011
120
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Modelação espacial de acidentes rodoviários em Lisboa
Ana Rita Nunes1 , Sı́lvia Shrubsall2 e Isabel Natário3
1
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, [email protected]
Centro de Sistemas Urbanos e Regionais (CESUR), Instituto Superior Técnico,
[email protected]
3 Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, Centro de Estatı́stica e
Aplicações da Universidade de Lisboa, [email protected]
2
Resumo: Os acidentes rodoviários em meio urbano contribuem para o decréscimo da qualidade
de vida e para a inequidade social das cidades. Em Portugal o número e gravidade dos acidentes
rodoviários decresceu muito nos últimos 20 anos, mas essa tendência não foi acompanhada em
meio urbano onde a situação se afasta inaceitavelmente da média europeia. Estudos noutros paı́ses
têm revelado a existência de relações entre as caracterı́sticas urbanas e a localização dos acidentes,
permitindo adequar polı́ticas e gerir recursos eficazmente. Em Portugal não são conhecidos estudos
sistemáticos neste âmbito.
Na cidade de Lisboa tem vindo a verificar-se um decréscimo no número e gravidade dos acidentes
rodoviários, mas a situação continua a ser preocupante. Deste modo, com base no conjunto de
todos os acidentes com vı́timas ocorridos na cidade de Lisboa entre 2004 e 2007, os dados são
tratados e analisados, na tentativa da caracterização do problema e, também, com vista a encontrar
factores que se mostrem mais importantes na explicação da gravidade dos acidentes. Esta análise
exploratória é feita recorrendo aos modelos lineares generalizados, nomeadamente ao modelo de
regressão logı́stica na análise da gravidade dos acidentes e ao modelo de Poisson na análise do
número de acidentes em cada freguesia da cidade de Lisboa.
Estes dados são, ainda, geo-referenciados, pelo que se pretende explorar a natureza espaço-temporal
dos mesmos, tentando perceber padrões geográficos e/ou temporais existentes, identificando factores de risco associados. Considerando a localização da ocorrência de cada acidente como aleatória
enquadra-se este problema na teoria dos processos pontuais espaciais, eventualmente com marcas
que podem traduzir a gravidade do referido acidente, permitindo a estimação da superfı́cie de risco
associada em função de factores extrı́nsecos ao acidente. Em alternativa o número de acidentes
pode, também, ser agregado em áreas, como sendo ruas, quarteirões ou freguesias.
Pretende-se assim identificar medidas mais eficientes, tendo em conta as condições prevalecentes
a nı́vel local, bem como realizar uma comparação com realidades internacionais no que respeita a
segurança rodoviária.
Palavras–chave: Acidentes rodoviários, modelos lineares generalizados, processos pontuais espaciais
Agradecimentos: Este trabalho é parcialmente suportado pelo projecto SACRA, Spatial Analysis
of Child Road Accidents, PTDC/TRA/66161/2006. Os dados utilizados no estudo foram cedidos
pela Autoridade Nacional de Segurança Rodoviária, e a sua geo-referenciação foi feita pelo Laboratório Nacional de Engenharia Civil.
SPE 2011
121
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Bibliografia
[1] Al-Ghamdi, A.S. (2002). Using logistic regression to estimate the influence of accident factors
on accident severity. Accident Analysis & Prevention, 34, 729–741.
[2] Baddeley, A. (2008). Analysing Spatial Point Patterns in R. Workshop notes, CSIRO, 2008.
http://www.csiro.au/resources/pf16h.html
[3] Baddeley, A., Bárány, I. e Schneider, R. (2007). Spatial Point Processes and their applications.
Lecture notes in mathematics. Springer.
[4] Carvalho, M.L. e Natário, I. (2008). Análise de Dados Espaciais. Sociedade Portuguesa de
Estatı́stica.
SPE 2011
122
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Participação no Allgarve, imagem do Allgarve e imagem do
Algarve: uma aplicação da análise de componentes principais não linear e da análise de correspondências
Patrı́cia Oom do Valle1 , Manuela Guerreiro1 e Júlio Mendes1
1
Faculdade de Economia da Universidade do Algarve, {pvalle, mmguerre, jmendes}@ualg.pt
Resumo: A imagem do Algarve enquanto destino turı́stico encontra-se fortemente ligada ao seu
produto turı́stico principal, o sol e o mar. Em 2007, o Governo português lançou o programa de
eventos Allgarve como os objectivos de aumentar a procura turı́stica e de reposicionar a imagem da
região enquanto destino igualmente atento e dinâmico no que respeita à oferta de produtos culturais.
Concebido na perspectiva dos turistas, o programa Allgarve não foi inicialmente bem recebido por
parte dos residentes na região. Três anos após o surgimento do programa, este estudo avalia o nı́vel
de participação dos residentes algarvios nos eventos do Allgarve e em que medida o seu grau de
envolvimento se traduz numa imagem diferente do programa mas também do próprio Algarve. O
interesse desta análise decorre do facto do Algarve ser o principal destino de férias dos algarvios
e estes representarem uma proporção muito importante do público dos eventos integrados no Allgarve. Os dados do estudo resultaram da aplicação de um questionário estruturado a uma amostra
de 241 residentes em Albufeira. A análise dos dados assenta no uso sequencial da Análise de Componentes Principais não Lineares e da Análise de Correspondências Múltiplas. O estudo evidencia
que os residentes participantes nos eventos têm uma imagem do Allgarve e do próprio Algarve diferente da partilhada pelos residentes não participantes. Os primeiros tendem a percepcionar mais
o Allgarve como um programa de eventos culturais e o Algarve como um destino de cultura e de
glamour. Os segundos revelam com uma maior frequência que o Allgarve é desporto, feiras e gastronomia e que o Algarve é um destino seguro e familiar. As conclusões deste estudo evidenciam a
relevância dos eventos enquanto instrumentos de reposicionamento de estratégias de imagem, dos
eventos e dos próprios destinos.
Palavras–chave: Análise de componentes principais não lineares, análise de correspondências
múltiplas, Allgarve, Algarve, imagem
SPE 2011
123
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Módulos interativos no ensino de Probabilidades e Estatı́stica
Rui Paiva
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria e Centro de Matemática
da Universidade do Porto, [email protected]
Resumo: O objectivo deste trabalho é apresentar o projeto MITO – “Módulos Interativos de Treino
Online” e descrever a experiência educativa de utilização de conteúdos interativos no ensino de
Probabilidades e Estatı́stica na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de
Leiria. A experiência centrou-se nas unidades curriculares de Estatı́stica dos cursos de licenciatura
em Contabilidade e Finanças e Engenharia Mecânica e fez uso de diversos tipos de componentes
interativas.
Palavras–chave: Ensino a distância, interativo, GeoGebra, Moodle, STACK
Introdução
No Espaço Europeu, a educação superior atravessa mudanças efetivas e significativas que tiveram
inı́cio há onze anos com a Declaração de Bolonha. O problema maior que estas mudanças colocam
às instituições de Ensino Superior é resolver a equação constituı́da pela necessidade de democratizar
o acesso ao seu ensino com a exigência, a profundidade e o rigor dos conhecimentos que ela tem
obrigação de produzir e de transmitir. Fomentar o estudo persistente, empenhado e continuado
ao longo do ano letivo e não apenas em momentos pontuais, que em pouco contribuem para a
consolidação dos saberes, está entre os principais objetivos da Declaração de Bolonha. Para que tal
aconteça, a avaliação, independentemente do formato que possa assumir - exames, testes, trabalhos
de casa individuais, trabalhos de grupo, etc. -, assume um papel fundamental. A revisão frequente
da matéria e a avaliação dos alunos ao longo do ano letivo implica um grande esforço por parte
do professor e, no caso do ensino da Matemática, é uma tarefa extremamente difı́cil com o atual
número de alunos existente no Ensino Superior. Neste sentido, a utilização de tecnologias tı́picas
do e-learning dentro e fora da sala de aula pode assumir um papel fundamental.
É neste contexto que surge o projeto MITO – “Módulos Interativos de Treino Online”, promovido
pelo Departamento de Matemática (DMAT) da Escola Superior de Tecnologia e Gestão (ESTG) do
Instituto Politécnico de Leiria (IPL). O principal objetivo é a construção de conteúdos interativos de
apoio às unidades curriculares do DMAT lecionadas no ensino presencial e no ensino à distância.
O projeto MITO (www.mito.ipleiria.pt/moodlemat) planeia converter-se num projeto
mais abrangente, integrando os outros Departamentos da ESTG, as outras Escolas e Unidades
Orgânicas do IPL, instituições de ensino superior nacionais e escolas do ensino básico e secundário.
Vamos apresentar o projeto MITO e o seu desenvolvimento na ESTG no ano letivo 2010/11 no
ensino de Probabilidades e Estatı́stica através das seis componentes de um módulo interativo do
MITO: perguntas de treino e de avaliação (com correção e resolução automáticas, comentário à
resposta errada e introdução da resposta sob a forma de expressão matemática), gráficos estáticos
SPE 2011
125
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
e aleatórios com elevado nı́vel de detalhes, gráficos interativos gerados pelo software GeoGebra
(www.geogebra.org), livros interativos do MITO, vı́deos tutoriais com elevada qualidade tipográfica
e slides interativos.
Bibliografia
[1] Damião, M.H., Belo, P. e Ribeiro, C. (2009). Reorganização curricular de Bolonha:
Percepções de alunos universitários. Centro de Psicopedagogia de Universidade de Coimbra.
[2] Sangwin, C. (2007). Assessing elementary algebra with STACK. International Journal for
Mathematical Education in Science and Technology, 8, 38, 987-1002.
[3] Wild, I. (2009). Moodle 1.9 Math, Packt Publishing.
SPE 2011
126
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Modelação Estatı́stica pela Teoria da Resposta ao Item
Cláudia Pereira1 , Paulo Infante2 e Gonçalo Jacinto2
1
2
ECT da Universidade de Évora, [email protected]
ECT da Universidade de Évora e CIMA-UE, {pinfante, gjcj}@uevora.pt
Resumo: A Teoria da Resposta ao Item (TRI) pretende encontrar soluções que a teoria clássica
dos testes não consegue dar resposta, nomeadamente, a de proporcionar medições que não dependam do instrumento de avaliação utilizado e conceber instrumentos de medida cujas propriedades
não dependam dos objectos medidos. O objectivo deste trabalho é modelar estatisticamente o grau
de dificuldade de provas de avaliação pela Teoria de Resposta ao Item. Pretende-se analisar os
graus de dificuldade das provas nacionais de Matemática do 3◦ ciclo do Ensino Básico e do Ensino
Secundário nos anos de 2008, 2009 e 2010, através da Teoria de Resposta ao item, de forma a correlacionar a dificuldade das provas e de algumas questões com os seus resultados finais e de modo
a avaliar comparativamente esta associação nos últimos 3 anos. Por outro lado, procuramos estudar
a influência do factor localização geográfica tomando como referência a divisão do paı́s em NUTS
II.
Palavras–chave: Teoria de Resposta ao Item, modelo logı́stico, correlação bisserial
SPE 2011
127
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Estatı́stica Forense com dados Normais — Uma abordagem
(bayesiana e frequencista) ao estudo de outliers
Fernando Rosado
Faculdade de Ciências da Universidade de Lisboa, Departamento de Estatı́stica e Investigação Operacional, Centro de Estatı́stica e Aplicações da Universidade de Lisboa,
[email protected]
Resumo: Recentemente, Rosado (2009), Rosado e Neves (2008a) e Rosado e Neves (2008b), apresentaram alguma reflexão sobre a problemática dos outliers bayesianos em geral e, mais especificamente, contribuições para o estudo de observações discordantes em dados de Estatı́stica Forense. Neste trabalho faz-se uma análise dos trabalhos pioneiros de Lindley e Evett e da respectiva
contribuição para o estudo de outliers bayesianos. Para além da perspectiva histórica concretiza-se
um estudo de outliers nos dados construı́dos por Evett (1977). A sı́ntese deste trabalho permite formular uma metodologia essencialmente prática para estudo de outliers em Estatı́stica Forense com
dados Normais.
Palavras–chave: Outliers, estatı́stica forense, razão das chances, análise bayesiana
Sobre o estudo de outliers numa perspectiva bayesiana
Em estudos da prática estatı́stica, principalmente na Estatı́stica Forense, “o ADN” e “os fragmentos
de vidro” são casos que requerem especial cuidado quer na interpretação dos dados quer no cálculo
ou valor de prova. É mais sobre os segundos que falaremos neste trabalho. Para uma análise de
outliers, através de dois exemplos, a seguir usaremos dados dos estudos pioneiros de Evett (1977) e
Lindley (1977).
Guttman (1973) é um trabalho de referência para a abordagem bayesiana no estudo de outliers. O
interesse desse estudo torna-se particularmente importante na Estatı́stica Forense, como veremos.
O modelo considerado por Guttman (1973) usa a Normalidade nos dados o que é particularmente
interessante para o estudo que pretendemos fazer neste trabalho. No entanto é limitativo pois apenas
considera observações discordantes por alterações no parâmetro de localização. Numa perspectiva
mais actual do estudo de outliers é mais importante a formalização da influência do parâmetro de
escala. É um trabalho que pode ser feito na continuação daquele que ora apresentamos.
Como habitualmente, dispomos de n observações x1 , . . . , xn . No modelo de discordância, seja considerada uma hipótese que admite aquelas observações geradas por uma normal N(µ ,σ ) e que, para
construir uma alternativa, também se supõe que uma delas possa ter sido gerada por uma normal
N(µ + m,σ ). Assim, com estes pressupostos, podemos prosseguir o estudo em diversas vertentes:
numa perspectiva de um Modelo Generativo com Alternativa Natural para estudo de outliers numa
amostra (método GAN, como é feito em Rosado (2006), cap. 4) ou, embora mais restritiva, numa
abordagem de deslizamento (como é feito em Barnett and Lewis (1994), p. 49 e p. 103) ou, ainda,
na abordagem bayesiana proposta, entre outros, por Guttman (1973). Porque desejamos prosseguir
para uma análise de observações discordantes em Estatı́stica Forense no que se segue optaremos
de perto pela última das metodologias referidas. O ponto teórico de partida é a consideração das
SPE 2011
129
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
distribuições a priori e a posteriori para os parâmetros envolvidos. Neste contexto é particularmente
relevante a influência de m que, de algum modo, é empiricamente considerada como uma medida
de contaminação dos dados o que pode ser usado para analisar a presença de um outlier na amostra.
Conclusão
Aqui chegados, várias questões são geradas pelo estudo prático que elaborámos. Para além do tema
teórico fundamental da problemática e da controvérsia “bayesianismo vs frequencismo” também
o modo como os métodos bayesianos investigam a presença (ou a ausência?) de observações discordantes numa amostra é questão que se deve aprofundar. Um outro tema - e este, se possı́vel,
ainda mais complexo e que exige pesquisa - envolve o número de contaminantes na amostra e toda
a problemática de contaminação “em bloco” ou “sequencial”; já um pouco estudada na estatı́stica
dita tradicional. Concordamos com Aitken and Taroni (2004) que, no prefácio das duas edições da
sua obra, registam e realçam o aumento da importância da Estatı́stica na Ciência Forense. Em dez
anos, dizem, foi enorme o avanço alcançado. Mas, muito há para fazer! E, quando tudo está dito
e feito, podemos continuar a citar Barnett and Lewis (1994, p. 459) para concluir que o principal
problema no estudo de outliers numa amostra continua a ser aquele que os primeiros investigadores
enfrentaram: O que é um outlier e o que fazer com essa observação?
Agradecimentos: Investigação parcialmente apoiada pela Fundação para a Ciência e Tecnologia
(FCT/OE)
Bibliografia
[1] Aitken, C. e Taroni, F. (2004). Statistics and Evaluation of Evidence for Forensic Scientists.2a
edição. Wiley.
[2] Barnett, V. e Lewis, T. (1994) - Outliers in Statistical Data. 3a edição. Wiley.
[3] Curran, J.M. (2003) - The Statistical Interpretation of Forensic Glass Evidence. International
Statistical Review 497-520.
[4] Evett, I.W. (1977) - The interpretation of refractive index measurements. Forensic Science,
209-217.
[5] Guttman, I. (1973) - Care and handling of univariate or multivariate outliers in detecting spuriosity - a Bayesian approach. Technometrics 723-8.
[6] Hawkins, D.H. (1980) - Identification of Outliers. Chapman and Hall.
[7] Lindley, D.V. (1977)- A problem in forensic science. Biometrika, 207-13.
[8] Rosado, F.(2006) - Outliers em Dados Estatı́sticos. Edições SPE.
[9] Rosado, F.(2009) - Outliers bayesianos em Estatı́stica Forense. TechnicalReport CEAUL
08/09.
[10] Rosado, F. e Neves, M. (2008a) - Sobre a Crescente Importância da Estatı́stica na Ciência
Forense. Technical Report CEAUL 1/2008.
[11] Rosado, F. e Neves, M. (2008b) - Notes on Forensic Statistics and Outlier Identification. Technical Report CEAUL 25/2008.
SPE 2011
130
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Análise prospectiva das condições de higiene e segurança alimentar na restauração
Jorge Santos1 , Raquel Menezes1 e Carlos Teixeira2
1
Departamento de Matemática e Aplicações, Universidade do Minho,
{jorge.mfd, rmenezes}@sapo.pt
2 Empresa Forvisão, Guimarães, [email protected]
Resumo: As condições de Higiene e Segurança Alimentar em estabelecimentos de Restauração são
de grande importância para todos nós. Numa primeira fase deste trabalho, analisam-se resultados
obtidos em 266 auditorias efectuadas na zona Norte de Portugal. Faz-se uma análise por Distrito,
Concelho e Lotação de cada restaurante, pretendendo-se por exemplo avaliar se o Distrito ou/e
Concelho de origem dos restaurantes afecta as classificações obtidas nos parâmetros avaliados pela
Lista de Verificação.
Outros objectivos primordiais deste trabalho passam pela identificação de pontos crı́ticos e possı́veis
intervenções. Procuram-se identificar responsabilidades dos resultados obtidos nas auditorias, se
são do pessoal ou do próprio empresário. Procura-se perceber se o tipo de investimento necessário
para melhorar as classificações são do tipo corpóreo ou não corpóreo, ou se serão requisitos de
projecto ou pós-arranque ao funcionamento do estabelecimento.
Por último, pretende-se avaliar a evolução entre 2 auditorias. Faz-se um estudo comparativo que
envolve, para além dos dados anteriores, os resultados obtidos numa segunda auditoria decorrida
sensivelmente 2 meses mais tarde. A segunda auditoria foi efectuada a 51 restaurantes, escolhidos
entre o total de 266 iniciais, tendo sido os restaurantes em questão previamente avisados.
Palavras–chave: Testes de associação, teste de McNemar, auditorias, restauração
Introdução
A base de dados fornecida é referente a auditorias executadas em estabelecimentos da Restauração
do Norte de Portugal, segundo uma Lista de Verificação para o Controlo da Higiene e Segurança Alimentar na Restauração, elaborada pela Forvisão seguindo a legislação Europeia, através da Directiva
93/43/CEE de 14 Junho e dos Regulamentos 852/2004 e 853/2004 de 29 de Abril, e a legislação
Nacional através dos DL 67/98 de 18 Março, DL 425/99 de 21 Outubro e o DL 113/2006 de 12 de
Junho.
Esta lista está dividida em oito áreas distintas de parâmetros controlados, nomeadamente as áreas:
“Higiene Pessoal”, “Instalações Sanitárias do Pessoal”, “Vestiários do Pessoal”, “Cozinha/Copa/
Balcão”, “Armazéns/Dispensas/Frigorı́ficos/Arcas Congeladoras”, “Sala de Refeições”, “Fornecedores”e ‘Condições Gerais”, em que cada parâmetro é classificado por um dos seguintes nı́veis “Não
Conforme”, “Conforme”, “Não Aplicável” ou “Não Observado”. Com o objectivo de avaliar as
condições de Higiene e Segurança Alimentar, tem-se então disponı́vel um total de 106 parâmetros,
todos eles auditados em cada um do total de 266 restaurantes, localizados em quatro distritos do
SPE 2011
131
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Norte de Portugal.
Inicializou-se este estudo com uma análise exploratória dos dados. Seguidamente, para verificar a
existência de associações entre algumas variáveis em estudo, recorreu-se ao Teste do Qui-Quadrado,
que como hipótese nula supõe a independência das variáveis, isto é a inexistência de associação entre elas. Quando os pressupostos deste teste não forem verificados, como por exemplo existirem
células com uma frequência esperada inferior a 5, recorremos ao teste exacto de Fisher para testar a existência de associação entre as variáveis. Para as variáveis em que se provou existir uma
associação estatisticamente significativa, utilizou-se o coeficiente V de Cramer para medir a força
dessa associação.
Na comparação entre as duas auditorias recorreu-se ao teste de McNemar para testar a significância
de mudança de estado entre niveis, tendo-se concluido que ocorreram diferenças significativas entre
auditorias, com melhorias na auditoria que ocorreu mais tarde. As áreas que mais melhoraram as
suas classificações foram a “Higiene Pessoal”, “Instalações Sanitárias” e “Vestiários do Pessoal”.
Bibliografia
[1] Baptista, P. e Antunes, C. (2005). Higiene e Segurança Alimentar na Restauração, Volume II
– Avançado, Forvisão - Consultadoria em Formação Integrada, S.A., Guimarães.
[2] Baptista, P. e Linhares, M. (2005). Higiene e Segurança Alimentar na Restauração, Volume I
– Iniciação, Forvisão - Consultadoria em Formação Integrada, S.A., Guimarães.
[3] Pereira, A. (2008). Guia Prático de Utilização do SPSS – Análise de Dados para Ciências
Sociais e Psicologia (7.a ed.), Edições Silabo, Lda, Lisboa.
[4] Pestana, M.H. e Gageiro, J.N. (2009). Análise Categórica, Árvores de Decisão e Análise de
Conteúdo – em Ciências Sociais e da Saúde com o SPSS, Lidel – Edições Técnicas, Lda,
Lisboa.
SPE 2011
132
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
Uma análise do fracasso escolar no Ensino Médio público de
Minas Gerais
Tufi Machado Soares1 , Neimar Fernandes da Silva1 , Mariana Calife Nóbrega1 e Alexandre
Nicolella2
1
2
CAED-UFJF, {tufi, neimar, calife}@caed.ufjf.br
USP/Campus Ribeirão Preto-Faculdade de Economia, [email protected]
Resumo: O artigo discute os determinantes do abandono escolar no Ensino Médio. Os dados utilizados se baseiam em uma ampla pesquisa realizada em seis pólos regionais de educação do estado
de Minas Gerais, que culminou com a coleta de diversas informações de um total de 3.418 entrevistados - entre alunos cursantes e não-cursantes. Com base nesses dados, estimaram-se dois modelos
de Regressão de Riscos Proporcionais de Cox, que permitiram identificar a correlação entre diversas variáveis e a chegada ao terceiro ano do Ensino Médio, e, o efeito sobre a Taxa de Abandono
condicionado às reprovações anteriores. O terceiro modelo desenvolvido utilizou as bases de dados
da PNAD - Pesquisa Nacional por Amostra de Domicı́lios - que estimou-se um modelo Logito, que
permitiu verificar a conclusão do Ensino Médio, para os jovens com 18 anos ou mais de idade por
coorte de nascimento. Os resultados encontrados vão ao encontro dos principais desenvolvimentos
da literatura, demonstrando a influência negativa, entre outros fatores, da gravidez na adolescência,
defasagem idade/série, repetência, pertencer ao gênero masculino, ı́ndice socioeconômico baixo e
necessidade de trabalhar para ajudar a famı́lia. No entanto, outros dois fatores foram medidos na
pesquisa a (falta de) qualidade do professor e a dificuldade nas disciplinas.
Palavras–chave: Fracasso escolar, Ensino Médio, modelo de regressão
Introdução
O fenômeno do abandono escolar é particularmente grave no sistema educacional público brasileiro. Sabe-se que os diferentes públicos que compõem este contingente encontram-se sujeitos a
diversas condições educacionais. Valle e Hasenbalg [3], destacam que a educação no Brasil é conhecida por apresentar distintas caracterı́sticas, como distribuição muito desigual da escolaridade
da população; ausência de igualdade de oportunidades educacionais, retratada pela alta correlação
entre o nı́vel educacional das crianças e o de seus pais e avós; profundas disparidades regionais nos
nı́veis educacionais; e nı́vel educacional médio demasiadamente baixo.
Este trabalho interpreta, porém, o efeito de variáveis ligadas aos alunos e suas trajetórias escolares,
destacando fatores que influenciam a permanência do aluno no sistema educacional. Este estudo
presta-se, portanto, a uma análise dos determinantes de chegada e de conclusão do Ensino Médio,
que de uma maneira geral, corroboram para o abandono precoce desses jovens.
Os resultados apresentados por este artigo se baseiam em duas amostras, sendo uma pesquisa realizada em 46 escolas do estado de Minas Gerais, ao final de 2009, intitulada de PSAE - Pesquisa
Sobre Abandono Escolar - e uma série histórica de dados da PNAD [1], coletadas nos anos de 2001
a 2008.
SPE 2011
133
Sexta, 30/09/2011
Átrio do Café, 10:00–10:30
A PSAE teve como população alvo os alunos cursantes do Ensino Médio das escolas públicas do
estado referido, no ano de 2009 e os alunos que abandonaram o mesmo sistema educacional antes
de sua conclusão nos anos de 2006, 2007, 2008 e 2009. No total, foram aplicados 3.418 questionários, o que permitiu delinear um panorama dos jovens que frequentam/frequentaram o sistema
educacional mineiro em suas particularidades como situação familiar, dificuldades enfrentadas dentro e fora da escola, expectativas para o futuro, entre outras. Com base nas respostas, estimaram-se
dois modelos estatı́sticos (Modelo de Regressão de COX [2]) que nos permitiu identificar os principais fatores associados à chegada ao 3o ano do Ensino Médio, e, o efeito da Taxa de Abandono
condicionado às reprovações e abandonos por essa população.
Enquanto, com a utilização das bases de dados da PNAD, foi possı́vel trabalhar com cerca de 380 mil
casos, devido o caráter nacional da pesquisa. Pelo fato de a PSAE ser uma pesquisa especı́fica para o
Ensino Médio, as informações nela contidas são muito mas ricas para a análise do abandono escolar
para esta etapa de escolaridade do que aquelas contidas na PNAD, no entanto, esta pode trazer
informações relevantes para o entendimento do abandono, por exemplo, sobre os determinantes da
conclusão do Ensino Médio por grupos de alunos nascidos nos mesmos anos. Dessa forma, com
base nas respostas, estimou-se outro modelo estatı́stico (Logito) que nos permitiu identificar outros
fatores determinantes na conclusão da etapa de escolaridade, para os jovens com 18 anos ou mais
de idade por coorte de nascimento.
Acredita-se que a análise das duas pesquisas de forma conjunta cooperem para um melhor entendimento do abandono escolar no Ensino Médio para o estado de Minas Gerais. Em especial,
percebeu-se que as caracterı́sticas mais marcantes em determinar a fuga da escola ou sua conclusão,
eram aquelas já apontadas pela literatura educacional, como dificuldade em conciliar trabalho com
os estudos, gravidez na adolescência, problemas familiares, excesso de matérias, falta de interesse,
defasagem idade/série. No entanto, outros dois fatores se sobressaı́ram nesta pesquisa à dificuldade
em aprender e a quando falta no trabalho do professor.
Bibliografia
[1] Brasil. Ministério do Planejamento, Orçamento e Gestão. Instituto Brasileiro de Geografia e
Estatı́stica. Pesquisa Nacional por Amostra de Domicı́lios (PNAD). Rio de Janeiro: IBGE;
2001-2008.
[2] Colosimo, E.A. e Giolo, S.R. (2006). Análise de Sobrevivência Aplicada. 1a ed. Edgard
Blücher Ltda: São Paulo.
[3] Valle, N. e Hansenbalg, C. (2000). Tendências da desigualdade educacional no Brasil. Dados,
Rio de Janeiro, V.43, n.3, p.423-445.
SPE 2011
134
Sexta, 30/09/2011
Momentos de um novo estimador para o parâmetro de forma
da distribuição Weibull discreta
Paulo Araújo Santos1 , Isabel Fraga Alves2
1
2
Instituto Politécnico de Santarém e CEAUL, [email protected]
Faculdade de Ciências da Universidade de Lisboa e CEAUL, [email protected]
Resumo: Apresentamos expressões teóricas para os momentos do estimador das proporções de
Khan, Khalique e Abouammoh (1989), e para os momentos de um novo estimador proposto para
o parâmetro de forma da distribuição Weibull discreta. Mostramos que o novo estimador tem um
desempenho favorável comparativamente ao estimador das proporções, tanto em termos de viés,
como de erro quadrático médio.
Palavras–chave: Distribuição Weibull discreta, parâmetro de forma
Introdução
Em diversos campos de aplicação, modelamos os dados observados como uma amostra de um modelo contı́nuo. Em Grimshaw et al. (2005), um estudo é motivado pela prática comum de testar a
dependência com base em durações com dados económicos e financeiros, utilizando a distribuição
Weibull contı́nua quando os dados são na realidade de tipo discreto. Também em fiabilidade, vários
estudos envolvem variáveis aleatórias discretas, como o número de cópias tiradas por uma máquina,
o número de ciclos de uma máquina de lavar, entre outras. Devido a restricções práticas, com
frequência, materiais, equipamentos, dispositivos e estruturas, são monotorizados periodicamente e
não continuamente. Nestes casos, a distribuição Weibull discreta desempenha um papel importante.
Para uma resenha sobre distribuições discretas de tempos de vida, veja-se Bracquemond e Gaudoin
(2003). A distribuição Weibull discreta pode ser aplicada na análise de renovação polı́tica (Lin e
Guillén, 1998) ou em problemas económicos envolvendo dependência com base em durações, por
exemplo, o backtesting de modelos Value-at-Risk (Haas, 2005).
A distribuição Weibull discreta, versão de Nakagawa e Osaki (1975), também conhecida como
distribuição Weibull discreta tipo I, tem as seguintes função distribuição e função massa de probabilidade:
FD (d) =
θ
1 − qd , d = 1,2,3,... (pontos de salto)
,
0,
x<1
θ
θ
fD (d) = q(d−1) − qd , d = 1,2,3,...,
para 1 < q < 0 e θ > 0. Nesta distribuição, θ é o parâmetro de forma e o parâmetro q é a probabilidade de uma duração ser superior a 1. Se W é uma variável aleatória (v.a.) Weibull contı́nua,
SPE 2011
Mesa: Carla Henriques
135
Sexta, 30/09/2011
então por discretização D = [W ] + 1, onde [W ] denota a parte inteira de W , obtemos uma v.a. Weibull discreta tipo I. Em 1984, Stein e Dattero (1984), introduziram a Weibull discreta tipo II. Em
1985, Padgett e Spurrier (1985) introduziram a Weibull discreta tipo III. A distribuição tipo II tem
uma desvantagem que decorre de ter um suporte limitado. A estimação de parâmetros é difı́cil na
distribuição tipo III. No estudo sobre distribuições discretas de tempos de vida, Bracquemond e
Gaudoin (2003), recomendam a utilização da distribuição tipo I.
Neste trabalho apresentamos expressões teóricas para os momentos do estimador das proporções de
Khan, et al. (1989), e para os momentos de um novo estimador proposto para o parâmetro de forma
θ . Mostramos que o novo estimador tem um desempenho muito superior em comparação com o
estimador das proporções, quer em termos de viés, quer em termos de erro quadrático médio.
Agradecimentos: Este trabalho é parcialmente financiado pela Fundação para a Ciência e Tecnologia (FCT/PROTEC e FCT/OE).
Bibliografia
[1] Bracquemond, C. e Gaudoin, O. (2003). A survey on discrete lifetime distributions. International Journal of Reliability, Quality and Safety Engineering, 10, 69–98.
[2] Grimshaw S.D., McDonaldb J., McQueenc G.R. e Thorleyc S. (2005). Estimating Hazard
Functions for Discrete Lifetimes Communications in Statistics - Simulation and Computation,
34(2), 451–463.
[3] Haas, M. (2005). Improved duration-based backtesting of Value-at-Risk, Journal of Risk, 8(2),
17–36.
[4] Khan, M.S.A., Khalique, A. e Abouammoh, A.M. (1989). On Estimating Parameters in a
Discrete Weibull Distribution. IEEE Transactions Reliability, 38, Aug., 348–350.
[5] Lin T. e Guillén M. (1998). The rising Hazards of Party Incumbency. A Discrete Renewal
Analysis. Political Analysis. An Annual Publication of the Methodology Section of the American Political Science Association. vol. 7, 31–57.
[6] Nakagawa T. e Osaki S., (1975). The discrete Weibull distribution. IEEE Transactions Reliability, vol 24, Dec., 300–301.
[7] Padgett W.J. e Spurrier J.D., (1985). Discrete failure models. IEEE Transactions Reliability,
vol. 34, no.3, 253–256.
[8] Stein W.E. e Dattero R., (1984). A new discrete Weibull distribution, IEEE Transactions Reliability, vol R-33, Jun., 196-197.
SPE 2011
136
Sexta, 30/09/2011
Núcleos de fronteira na estimação da função de distribuição
Carlos Tenreiro
CMUC, Departamento de Matemática, Universidade de Coimbra, [email protected]
Resumo: São bem conhecidos os efeitos de fronteira em estimadores do núcleos de curvas com suporte compacto, como a regressão ou a densidade de probabilidade. No contexto, menos estudado,
da estimação da função de distribuição, consideramos neste trabalho estimadores do núcleo com
correcção de fronteira e estabelecemos algumas das suas propriedades assintóticas. Os resultados
obtidos mostram a superioridade do estimador com correcção de fronteira relativamente ao estimador não corrigido do núcleo no caso da função de distribuição subjacente às observações não ser
suficientemente regular nos pontos extremos do suporte da distribuição.
Palavras–chave: Estimador do núcleo da função de distribuição, núcleos de fronteira, propriedade
de Chung-Smirnov, erro quadrático médio integrado
Introdução
Sendo X1 , . . . ,Xn cópias independentes duma variável aleatória real absolutamente contı́nua com
densidade de probabilidade f e função de distribuição F, desconhecidas, o estimador do núcleo de
F, introduzido por autores como Tiago de Oliveira [6], Watson e Leadbetter [7] ou Nadaraya [4],
surge como integral do estimador da densidade de Parzen-Rosenblatt, sendo definido, para x ∈ R,
por
1 n
x − Xi
F̄nh (x) = ∑ K̄
,
(1)
n i=1
h
R
onde K̄(u) = ]−∞,u] K(v)dv, para u ∈ R, com K um núcleo em R, isto é, uma densidade de probabilidade simétrica e limitada com suporte [−1,1], e h = hn uma sucessão de números reais estritamente
positivos que converge para zero quando n tende para infinito.
Com o objectivo de melhorar o desempenho do estimador (1) quando F não é suficientemente regular nos pontos extremos do suporte [a,b] da distribuição (suporte este que supomos conhecido),
consideramos neste estudo a utilização dos chamados núcleos de fronteira, propostos para os estimadores do núcleo da regressão e da densidade em [1], [2], [3] e [5]. O estimadorR do núcleo com
correcção de fronteira Fnh é definido por (1) sendo K̄ substituı́do por K̄x,h (u) = ]−∞,u] Kx,h (v)dv,
onde, para x ∈ ]a,b[ e 0 < h ≤ (b − a)/2, Kx,h toma a forma
 L
 K (u; (x − a)/h), a < x < a + h
K(u),
a+h ≤ x ≤ b−h
Kx,h (u) =
 R
K (u; (b − x)/h), b − h < x < b,
onde K L (·; α ) e K R (·; α ) são, para α ∈ ]0,1[, núcleos de segunda ordem com suportes contidos em
[−1,α ] e [−α ,1], respectivamente. Além disso, definimos Fnh (x) = 0 para x ≤ a e Fnh (x) = 1 para
x ≥ b.
SPE 2011
137
Sexta, 30/09/2011
Se, em particular, tomarmos K L (u; α ) = K(u/α )/α , verificamos que Fnh é, com probabilidade um,
uma função de distribuição contı́nua. Assim, no contexto da estimação da função de distribuição,
e contrariamente ao que acontece no caso da estimação da densidade de probabilidade, a vantagem teórica do estimador com correcção de fronteira que estabelecemos nos resultados seguintes, é
compatı́vel com a propriedade natural de obtermos um estimador próprio da função de distribuição.
Principais resultados
R
Teorema 1 (Convergênica uniforme). Para ℓ = L,R, seja K ℓ tal que supα ∈ ]0,1[ |K ℓ (u; α )| du < ∞.
Se h → 0, então
sup |Fnh (x) − F(x)| → 0 quase completamente.
x∈R
Teorema 2 (Propriedade de Chung-Smirnov). Nas condições do Teorema 1, se F é de Lipschitz e
(n/ log log n)1/2 h → 0, ou se F ′ é de Lipschitz em [a,b] e (n/ log log n)1/2 h2 → 0, então
lim sup (2n/ log log n)1/2 sup |Fnh (x) − F(x)| ≤ 1 quase certamente.
n→∞
x∈R
Teorema 3 (Desenvolvimento assintótico do erro quadrático médio integrado (EQMI)). Para ℓ =
é
tal
que
L,R,
se
Kℓ
2
R1 R ℓ
|K
(u;
α
)|du
d
α
<
∞
e
a
restrição
de
F
ao
intervalo
[a,b]
é
duas
vezes
continuamente
dife0
renciável, então
Z
Z
Z
1
h
E {Fnh (x) − F(x)}2 dx =
F(x)(1 − F(x))dx − 2
uK(u)K̄(u)du
n
n
Z
2 Z
h4
2
u K(u)du
F ′′ (x)2 dx + O n−1 h2 + o h4 .
+
4
Bibliografia
[1] Gasser, T. e Müller, H.-G. (1979). Kernel estimation of regression functions. In Smoothing
Techniques for Curve Estimation, Gasser, T., Rosenblatt, M. (Eds), Lecture Notes in Mathematics, 757, 23–68.
[2] Gasser, T., Müller, H.-G. e Mammitzsch, V. (1985). Kernels for nonparametric curve estimation. J.R. Stat. Soc. Ser. B Stat. Methodol., 47, 238–252.
[3] Müller, H.-G. (1991). Smooth optimum kernel estimators near endpoints. Biometrika, 78, 521–
530.
[4] Nadaraya, E.A. (1964). Some new estimates for distribution functions. Theory Probab. Appl.,
9, 497–500.
[5] Rice, J. (1984). Boundary modification for kernel regression. Comm. Statist. Theory Methods,
13, 893–900.
[6] Tiago de Oliveira, J. (1963). Estatı́stica de densidades: resultados assintóticos. Rev. Fac. Ciên.
Lisboa, 9, 111–206.
[7] Watson, G.S. e Leadbetter, M.R. (1963). On the estimation of the probability density. I. Ann.
Math. Statist., 34, 480–491.
[8] Yamato, H. (1973). Uniform convergence of an estimator of a distribution function. Bull. Math.
Statist., 15, 69–78.
SPE 2011
138
Sexta, 30/09/2011
O teste de independência de vários grupos de variáveis aleatórias
para várias amostras – Distribuições exacta e quase-exactas
da estatı́stica de razão de verosimilhanças
Filipe J. Marques e Carlos A. Coelho
1
Departamento de Matemática, Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, {fjm,cmac}@fct.unl.pt
Resumo: Neste trabalho, são desenvolvidas distribuições quase-exactas para a estatı́stica de razão
de verosimilhanças, λ , utilizada para testar a hipótese de independência de vários grupos de variáveis
para várias amostras. Utilizando uma decomposição da hipótese nula, em estudo, em duas hipóteses
nulas parciais, pode-se obter a expressão da estatı́stica de teste λ , bem como a expressão do seu
h-ésimo momento nulo e da função caracterı́stica da variável aleatória W = − log λ . Esta decomposição da hipótese nula induz uma factorização na função caracterı́stica de W que, juntamente
com resultados obtidos em [2] e [3], são a base para a obtenção das distribuições exactas de W
e λ sob uma forma adequada ao desenvolvimento de distribuições quase-exactas para estas estatı́sticas. As distribuições quase-exactas assim obtidas correspondem a uma distribuição Gama
Quase-Inteira Generalizada (GQIG, veja-se [2]) ou a misturas de distribuições GQIG. Os estudos
numéricos desenvolvidos mostram a qualidade das aproximações obtidas e as suas boas propriedades assimptóticas.
Palavras–chave: Distribuição gama inteira generalizada, independência de grupos de variáveis,
igualdade de matrizes de covariância
Distribuições exacta e quase-exactas para a estatı́stica de razão de verosimilhanças do teste de
independência de vários de grupos de variáveis aleatórias para várias amostras
O teste de independência de grupos de variáveis aleatórias para várias amostras é uma generalização
do usual teste de independência de grupos de variáveis aleatórias. No caso em estudo, consideramos
q amostras independentes, cada uma extraı́da de uma população multivariada normal, Np (µ j , Σ j )
com j = 1, . . . ,q . Estamos interessados em testar a hipótese nula


Σ11 0 . . . 0
 0 Σ22 . . . 0 


(1)
H0 : Σ1 = Σ2 = · · · = Σq =  ..
..
..
..  ( Σii não especificadas)
 .
.
.
. 
0
0
...
Σkk
onde Σii é de ordem pi × pi com i = 1, . . . ,k e p = p1 + · · · + pk . A hipótese nula em (1) pode ser
decomposta em duas hipóteses nulas parciais
onde
SPE 2011
H0 = H0b|0a ◦ H0a
(2)
H0a : Σ1 = Σ2 = · · · = Σq (= Σ) (Σ não especificada)
(3)
139
Sexta, 30/09/2011
é a hipótese nula de igualdade de q matrizes de covariância (veja-se [1]) e onde
H0b|0a : Σi j = 0 for i 6= j where i, j = 1, . . . ,k
assumindo que Σ1 = Σ2 = · · · = Σq (= Σ)
(4)
é a hipótese nula para testar a independência dos k grupos de variáveis (veja-se [1]).
A decomposição da hipótese nula, H0 , em (2) permite-nos obter a estatı́stica de teste, λ , como o
produto das estatı́sticas de razão de verosimilhanças, λa e λb|a , utilizadas para testar respectivamente H0|a e H0b|0a em (3) e (4). Dada a independência das estatı́sticas λa e λb|a sob H0 , a expressão
do h-ésimo momento nulo de λ pode ser obtido como o produto dos h-ésimos momentos nulos
de λa e λb|a . Esta decomposição da hipótese nula induz também uma factorização na função caracterı́stica da variável aleatória W = − log λ , a qual, juntamente com os resultados obtidos em
[2] e [3], é a base para o desenvolvimento de distribuições quase-exactas para W e para λ . As
distribuições quase-exactas assim obtidas correspondem a uma distribuição Gama Quase-Inteira
Generalizada (GQIG, veja-se [2]) ou misturas de distribuições GQIG. São apresentados gráficos
das funções densidade de probabilidade e distribuição quase-exactas de λ , para diferentes casos, e
realizados estudos numéricos, baseados numa medida de proximidade entre funções caracterı́sticas
que é também uma medida de proximidade entre funções distribuição, os quais mostram a qualidade
das aproximações desenvolvidas.
Agradecimentos: Este trabalho de investigação foi financiado pela Fundação para a Ciência e Tecnologia através do Centro de Matemática e Aplicações (CMA) da Universidade Nova de Lisboa
(Financiamento Base 2010 ISFL-1-297 de FCT/MCTES/PT).
Bibliografia
[1] Anderson, T.W. (2003). An Introduction to Multivariate Statistical Analysis. 3rd ed. New York,
J. Wiley & Sons.
[2] Coelho, C.A. (2004). The Generalized near-integer gamma distribution: a basis for “nearexact” approximations to the distributions of statistics which are the product of an odd number
of independent Beta random variables. Journal of Multivariate Analysis, 89, 191-218.
[3] Coelho, C.A. e Marques, F.J. (2011). Near-exact distributions for the likelihood ratio test statistic to test equality of several variance-covariance matrices in elliptically contoured distributions. Computational Statistics (aceite para publicação).
SPE 2011
140
Sexta, 30/09/2011
Os Piratas da Internet II: O Cofre das Anomalias Mortas
Cláudia Pascoal1 , M. Rosário de Oliveira1 , Peter Filzmoser2 , António Pacheco1 e Rui Valadas3
1
CEMAT e Departamento de Matemática, Instituto Superior Técnico, Universidade Técnica de
Lisboa, [email protected], {rsilva,apacheco}@math.ist.utl.pt
2 Department of Statistics and Probability Theory, Vienna University of Technology,
[email protected]
3 Instituto de Telecomunicações, Instituto Superior Técnico, Universidade Técnica de Lisboa,
[email protected]
Resumo: Após o primeiro enredo cujo guião principal se centra no estudo de diversos métodos
de deteção de anomalias na transmissão de dados na Internet baseados em componentes principais
robustas, a ação desenvolve-se agora numa outra direção. Neste novo espisódio, as personagens
pretendem selecionar, de um vasto leque de variáveis, as mais promissoras na identificação destas
anomalias.
Em problemas reais, a existência de variáveis que não contribuem efectivamente para distinguir anomalias de tráfego regular, prejudica o desempenho dos métodos de deteção de anomalias. De modo
a minimizar este problema, sugere-se um novo método robusto de seleção de variáveis que se baseia
numa medida de associação entre variáveis, popular entre a comunidade da Teoria da Informação
[1], mas menos conhecido entre os estatı́sticos. Esta medida, denominada Informação Mútua, mede
associações lineares e não-lineares entre 2 variáveis e goza de um conjunto de propriedades teóricas
interessantes que a tornaram presença assı́dua em métodos de seleção de variáveis aplicados a diversas áreas. Blum e Langley [2] agrupam os métodos de seleção de variáveis em 3 categorias,
denominando por métodos de filtragem (filter methods) aqueles que realizam a seleção de variáveis
a priori ao método de análise que se pretende utilizar, que neste caso é: método de identificação de
outliers (ou anomalias) baseado em componentes principais robustas.
A Informação Mútua é calculada entre cada variável disponı́vel para caracterizar os objectos e a
variável (binária, no presente exemplo) que representa a classe a que cada objecto (fluxo) pertence
(assume o valor 1, se o fluxo é anómalo e 0 caso contrário). Para tal, utiliza-se um estimador robusto
da Informação Mútua, menos sensı́vel a classificações incorrectas dos fluxos como anómalos ou
regulares. Este facto é particularmente importante no caso do tráfego de Internet pois raramente há
certezas absolutas quanto à classe a que cada fluxo da amostra de treino efectivamente pertence [3].
As variáveis selecionadas como informativas na classificação das observações, são utilizadas na
estimação robusta de componentes principais. Cada nova observação será então projectada nestas
direções e classificada como anómala ou regular.
A avaliação dos novos métodos propostos é feita, não só através de um estudo de simulação, mas
também através de dados obtidos a partir de um emulador de redes, que reconstitui condições muito
próximas da realidade do funcionamento da Internet actual, e simultaneamente permite obter fluxos
em que se sabe exactamente qual a classe a que pertencem. Tal facto, permite avaliar de forma
efectiva o desempenho dos métodos de deteção de anomalias.
Palavras–chave: Seleção de variáveis, informação mútua, deteção de anomalias, análise em componentes principais
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
141
Sexta, 30/09/2011
Bibliografia
[1] Walters-Williams, J. e Li, Y. (2009). Estimation of mutual information: A survey. Proceedings
of the 4th International Conference on Rough Sets and Knowledge Technology, 5589/2009,
389–396.
[2] Blum, A.L. e Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, 245–271.
[3] Ringberg, H., Roughan, M. e Rexford, J. (2008). The need for simulation in evaluating anomaly detectors. SIGCOMM Comput. Commun. Rev., 38, 1, 55–59.
SPE 2011
142
Sexta, 30/09/2011
Connectividade em Redes de Telecomunicações Ad Hoc
Gonçalo Jacinto1 , Nelson Antunes2 e António Pacheco3
1
ECT da Universidade de Évora e CIMA-UE, [email protected]
FCT da Universidade do Algarve e CEMAT, [email protected]
3 Instituto Superior Técnico, Universidade Técnica de Lisboa e CEMAT, [email protected]
2
Resumo: Uma rede de telecomunicações ad hoc é uma rede sem fios constituı́da por nós que se
organizam autonomamente e sem recurso a qualquer infra-estrutura e onde a comunicação entre dois
nós usualmente ocorre através de rotas com múltiplas ligações. Uma das medidas mais importantes
para avaliar o desempenho dos protocolos de selecção de rotas é o número de ligações necessárias
para construir uma rota, sendo que a criação dessa rota tem que ter em conta, além de outros factores,
a distribuição espacial dos nós, o alcance de transmissão de cada nó e o protocolo utilizado.
Neste trabalho é derivada a distribuição de probabilidade do número de ligações de uma rota numa
rede de telecomunicações ad hoc, quando o número de nós é fixo e uniformemente distribuı́do entre
o nó emissor e o nó destino. Esta distribuição é derivada usando o método de aleatorização de Poisson. As rotas seleccionadas usam os protocolos que seleccionam o nó mais afastado ou o nó mais
próximo do nó emissor. São obtidos resultados numéricos para comparar os protocolos de selecção
de rotas e avaliar o respectivo desempenho.
Palavras–chave: Redes de telecomunicações ad hoc, conectividade, rotas com múltiplas ligações
Introdução e Discussão
Uma das medidas mais importantes para avaliar o desempenho dos protocolos de selecção de rotas
é o número de saltos necessários para construir uma rota, sendo que a criação dessa rota tem que
ter em conta, além de outros factores, a distribuição espacial dos nós, o alcance de transmissão
de cada nó e o protocolo utilizado. A interacção destas caracterı́sticas torna bastante complexa a
tarefa de obter a distribuição de probabilidade do número de ligações necessárias para efectuar uma
comunicação entre o nó emissor e o nó destino. Por estas razões, e apesar da sua importância,
existem poucos resultados sobre este tópico e os resultados existentes consideram modelos com
rotas com apenas uma ligação ([4, 5]) e/ou resultados aproximados ([3, 2]). No artigo [1] é derivada
a distribuição de probabilidade do número de ligações duma rota numa rede unidimensional.
Neste trabalho, derivamos a distribuição de probabilidade do número de ligações quando os nós se
encontram uniformemente distribuı́dos numa área de interesse, utilizando o método de aleatorização
de Poisson. Esta distribuição de probabilidade é obtida para rotas que seleccionam o nó mais afastado ou o nó mais próximo do nó emissor.
No final do artigo são apresentados resultados numéricos para avaliar o desempenho da distribuição
de probabilidade do número de saltos e para comparar os dois métodos de selecção de rotas. Através
dos resultados obtidos concluı́mos que o protocolo que seleccciona o nó mais afastado é mais eficiente para encontrar uma rota entre o nó fonte e o nó destino.
SPE 2011
143
Sexta, 30/09/2011
Bibliografia
[1] Antunes, N., Jacinto, G. e Pacheco, A. (2008). On the minimum hop count and connectivity
in one-dimensional Ad Hoc wireless networks. Telecommunication Systems 39 (2), 366-376.
[2] Dulman, S., Rossi, M., Havinga, P. e Zorzi, M. (2006). On the hop count statistics for randomly
deployed wireless sensor networks. International Journal of Sensor Network 1 (1), 89–102.
[3] Kuo, J.-C. e Liao, W. (2007). Hop count distribution of multihop paths in wireless networks
with arbitrary node density: Modeling and its applications. IEEE Transactions on Vehicular
Technology 4, 56, 2321 - 2331.
[4] Srinivasa, S. e Haenggi, M. (2009). Distance distributions in finite uniformly random
networks: Theory and applications. IEEE Transactions on Vehicular Technology, 59 (2), 940949.
[5] Vural, S. e Ekici, E. (2005). Analysis of hop distance relationship in spatially random sensor
networks. MobiHoc ’05: Proceedings of the 6th ACM international symposium on Mobile ad
hoc networking and computing. ACM, New York, USA.
SPE 2011
144
Sexta, 30/09/2011
Problemas inversos em filas de espera e sua aplicação à monitorização da Internet
Gonçalo Jacinto1 e Nelson Antunes2
1
2
ECT da Universidade de Évora e CIMA-UE, [email protected]
FCT da Universidade do Algarve e CEMAT, [email protected]
Resumo: Na teoria de filas de espera, usualmente, os parâmetros do sistema são conhecidos e
pretende-se derivar as medidas de desempenho do sistema. O problema inverso consiste em observar
várias trajectórias do mesmo sistema e, utilizando as equações de evolução do sistema, deduzir os
parâmetros que deram origem a estas observações.
Este tipo de problemas inversos tem um papel fundamental na avaliação de desempenho e na
monitorização do tráfego na Internet e é usualmente denominado por medições activas. Para isso,
introduzem-se pacotes de teste da rede, chamados de sondas, e observa-se o seu desempenho. Estes
pacotes constituem uma amostra do sistema real, cuja análise permite reconstruir as caracterı́sticas
do tráfego original.
Neste trabalho, iremos abordar as diferentes metodologias utilizadas na literatura para monitorização
do tráfego na Internet através do envio de sondas e estudar o efeito da distribuição do intervalo de
tempo entre sondas. No final, iremos apresentar os desafios que ainda se colocam nos problemas
inversos em filas de espera e dos possı́veis caminhos para a sua solução.
Palavras–chave: Filas de espera, problemas inversos, medições activas
Introdução e Discussão
A enorme expansão da Internet associada com o aparecimento de novas aplicações multimédia,
colocam vários problemas no desempenho e controlo da rede. Torna-se, portanto, necessário monitorizar a rede de forma a que se consiga eficientemente medir a qualidade de serviço e construir
mecanismos de controlo da congestão da rede. É neste sentido que as medições activas têm sido
alvo de grande interesse por parte dos investigadores, pois permitem medir o desempenho do tráfego
da Internet, enviando sondas para a rede (pacotes de teste), cuja observação constitui uma amostra
do estado da rede. Este tipo de medições é realizada no inı́cio e no fim da rede, não havendo necessidade de ter acesso ao seu interior e podendo ser facilmente realizada por qualquer utilizador.
As medições activas da rede permitem estudar caracterı́sticas tão diversas da rede como perdas e
atrasos dos pacotes, a largura de banda disponı́vel, e até as caracterı́sticas do tráfego na rede.
Neste trabalho, iremos estudar os problemas inversos em filas de espera com aplicações à monitorização e análise de desempenho da Internet. Isto é, através do envio de sondas para a rede e das
suas observações, infere-se os parâmetros que descrevem a fila de espera, nomeadamente, qual a
taxa de entrada do tráfego e qual a taxa de serviço dos pacotes. Existem poucos resultados na literatura que estudam este tipo de problemas inversos e os principais são [1, 3, 5]. No entanto, como as
SPE 2011
145
Sexta, 30/09/2011
sondas são processadas como pacotes da rede e têm um tamanho positivo, estas irão iteragir com o
tráfego real da rede e portanto são por inerência intrusivas. Como resultado desta intrusão, as medidas do sistema perturbado pelas sondas difere das medidas do sistema real, pelo que se levanta um
novo problema de determinar as caracterı́sticas do tráfego real através das caracterı́sticas do tráfego
perturbado.
Também a periodicidade do envio das sondas tem um papel fundamental na análise do sistema
real, pois, embora à partida o envio de sondas em intervalos de tempo determinı́sticos pareça ser
a forma mais simples, este envio periódico poderá sincronizar com o próprio sistema [4]. Para
evitar a sincronização, enviar as sondas segundo um processo de renovamento parece ser uma alternativa. Além disso, se o envio for efectudado segundo um processo de Poisson, um resultado
conhecido como PASTA (Poisson Arrivals See Time Averages), assegura que as médias observadas
pelas sondas convergem para o verdadeiro valor médio do sistema [2].
Neste trabalho, iremos percorrer as diversas metodologias utilizadas na monitorização do tráfego na
Internet através do envio de sondas e estudar o impacto da distribuição do intervalo de tempo entre
sondas. No final, iremos apresentar os desafios que ainda se colocam nos problemas inversos em
filas de espera e os possı́veis caminhos para a sua solução.
Bibliografia
[1] Alouf, S., Nain, P. e Towsley, D. F., R. (2001). Inferring network characteristics via momentbased estimators. INFOCOM, 1045-1054.
[2] Baccelli, F., Machiraju, S., Veitch, D. e Bolot, J. (2006). The role of PASTA in network measurement. In Proceedings of SIGCOMM ’06. ACM, New York, NY, USA, 231-242.
[3] Baccelli, F., Kauffmann, B. e Veitch, D. (2009). Inverse problems in queueing theory and
Internet probing. Queueing Systems 63, 59 - 107.
[4] Roughan, M. (2006). A comparison of poisson and uniform sampling for active measurements.
IEEE Journal on Selected Areas in Communication, 24 (2), 2299-2312.
[5] Sharma, V. e Mazumdar, R. (1998). Estimating traffic parameters in queueing systems with
local information. Performance Evaluation, 32, 217-230.
SPE 2011
146
Sexta, 30/09/2011
Modelos Lineares
Validação estocástica do algoritmo ziguezague na análise conjunta de regressões
Dulce Gamito Pereira1 , João Tiago Mexia2 e Victor Ramos Tavares3
1
Universidade de Évora, DMAT e CIMA, [email protected]
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, DMAT e CMA,
[email protected]
3 Doutorando do Programa de Doutoramento de Matemática, Universidade de Évora,
[email protected]
2
Resumo: A Análise Conjunta de Regressões (ACR), tem sido uma técnica bastante utilizada no
domı́nio da avaliação de genótipos/cultivares.
Mexia et al. (1999), introduziram os ı́ndices ambientais L2 que permitiram estender as técnicas de
ACR aos planos de melhoramento em blocos incompletos. Pereira (2004) desenvolveu de forma sistemática a ACR utilizando ı́ndices ambientais L2 . A aplicação destes ı́ndices aos blocos incompletos
é concretizada por um algoritmo iterativo - algoritmo ziguezague - e a sua utilização para além de
permitir obter estimadores de máxima verosimilhança dos ı́ndices ambientais, permite a obtenção
destes estimadores para outros parâmetros e a realização de testes de razão de verosimilhanças.
Desta forma consegue-se a integração da ACR na inferência estatı́stica. Embora funcionando bem
este algoritmo não dispõe de uma validação teórica para o caso geral em que não se assume trabalhar com blocos completos. Pretende-se agora obter uma validação estocástica do mesmo.
Palavras–chave: Análise Conjunta de Regressões, regressão linear, ı́ndices ambientais, validação
estocástica, algoritmo ziguezague
Bibliografia
[1] Mexia, J.T., Pereira, D.G. e Baeta, J. (1999). L2 environmental indexes. Biometrical Letters,
36, 137–143.
[2] Pereira, D.G. (2004). Conjunta Pesada de Regressões em Redes de Ensaios. Tese de Doutoramento Universidade de Évora.
[3] Pereira, D.G. e Mexia, J.T. (2009). Comparing double minimization and zigzag algorithms in
Joint Regression Analysis: the complete case. Journal of Statistical Computation and Simulation, Vol. 80, No.2 133–141.
SPE 2011
Mesa: Maria do Carmo Miranda Guedes
147
Sexta, 30/09/2011
Modelos Lineares
Aplicação de modelos com dados em painel - estudo de caso
Conceição Rocha1 , Manuel Oliveira2 e Teresa Mendonça3
1
Faculdade de Economia, Universidade do Porto e CIDMA, [email protected]
Faculdade de Economia, Universidade do Porto, [email protected]
3 Departamento de Matemática, Faculdade de Ciências, U. do Porto e CIDMA, [email protected]
2
Resumo: Neste estudo de caso é feita uma análise do sinal Bispectral Index Score (BIS) em pacientes sedados por administração de propofol a partir da estimação de modelos com dados em
painel. Os dados clı́nicos foram recolhidos durante a monitorização de colonoscopias no Hospital
Universitário de Barcelona (84 casos reais). Neste trabalho explora-se a relação entre o sinal de BIS
e a quantidade de fármaco administrada, bem como as suas variações com os atributos fı́sicos do
paciente (peso, altura, sexo e LBM).
Palavras–chave: Dados em painel, regressão multivariada, modelos de efeitos fixos
A importância crescente que a medicina preventiva tem vindo actualmente a assumir, conduziu à
frequente realização de exames de diagnóstico ou apoio ao diagnóstico mais invasivos, aumentando
significativamente o uso de técnicas anestésicas (p.e. sedação). Essencialmente, existem três tipos
de fármacos para a anestesia: hipnóticos, opióides e bloqueadores neuromusculares. Os diferentes
fármacos visam diferentes objectivos. Os hipnóticos induzem a inconsciência, os opióides para
além de analgésicos são também protectores contra os reflexos autonómicos e os bloqueadores
neuromusculares são imobilizadores.
Com o aparecimento do propofol, usado pela primeira vez em 1977, a anestesia intravenosa sofreu
uma revolução, uma vez que é um agente hipnótico adequado para a indução e manutenção da anestesia, [1]. Nas últimas décadas, com a utilização de novos fármacos para administração intravenosa,
tais como o opióide remifentanil, bem como o recente desenvolvimento tecnológico a par de uma
melhor compreensão dos princı́pios farmacocinéticos levaram ao desenvolvimento de técnicas de
anestesia totalmente intravenosas.
Com a introdução na prática anestésica das bombas de perfusão TCI (Target Controlled Infusion),
[3], foi desencadeada investigação direccionada para o desenvolvimento de novos modelos para
fármacos, contribuindo para o avanço de sistemas robustos para previsão e infusão controlada. O
TCI para o propofol foi introduzido na prática clı́nica na Europa em 1996, [4], e tem despoletado
desde então um crescente interesse na investigação no sentido de optimizar a dose individualizada
a administrar.
É actualmente reconhecido que a modelação e os métodos de identificação dos sistemas devem
atender às caracterı́sticas evidenciadas pelos dados, contribuindo para o desenvolvimento e análise
de sistemas estocásticos. Um dos sinais fisiológicos analisados pelo clı́nico é o sinal Bispectral
Index Score (BIS) que é, de entre os sinais que medem o grau de hipnose, aquele que clinicamente
é mais utilizado. Este sinal, à semelhança dos outros, tem contaminações, o que significa que nem
sempre traduz de forma correcta o estado hipnótico do paciente.
Neste trabalho explora-se, por recurso à estimação de modelos com dados em painel, quer a relação
do sinal BIS com a quantidade de fármaco administrada, quer o modo como a sua variação depende
SPE 2011
149
Sexta, 30/09/2011
Modelos Lineares
dos atributos fı́sicos do paciente. Este estudo de caso tem por base os dados, recolhidos em ambiente
clı́nico, de 84 pacientes sedados por administração do hipnótico propofol e do opióide remifentanil
que, de acordo com resultados clı́nicos reportados, potencia o efeito do propofol, [5]. Ambos os
fármacos foram administrados por recurso ao sistema TCI.
Agradecimentos: Conceição Rocha agradece a bolsa de doutoramento SFRH/BD/61781/2009 da
FCT/ESF. Os autores agradecem ao Dr. Pedro Gambús e ao Hospital Universitário de Barcelona a
base de dados utilizada neste estudo.
Bibliografia
[1] Absalom, A. e Struys, M. (2007). Overview of Target Controlled Infusions and Total Intravenous Anaesthesia. Academia Press.
[2] Anderson, R. E., Barr, G. e Jakobsson, J. G. (2002). Correlation Between AAI-Index and the
BIS-Index during propofol hypnosis: A clinical study. Journal of Clinical Monitoring and
Computing, 17, 325–329.
[3] Enlund, M. (2008). TCI: Target controlled infusion, or totally confused infusion? Call for an
optimised population based pharmacokinetic model for Propofol. Upsala J Med Sci, 113(2),
161–170.
[4] Russel, D., Wilkies, M., Hunter, S., Glen, J., Hutton, P. e Kenny, G. (1995). Manual compared
with target-controlled infusion of propofol. British Journal of Anaesthesia, 75, 562–566.
[5] Vuyk, J. (1997). Pharmacokinetic and pharmacodynamic interactions between opioids and
Propofol Jounal of Clinical Anesthesia, 9, 23S-26S.
SPE 2011
150
Sexta, 30/09/2011
Modelos Lineares
Modelação da perda em empréstimos hipotecários:
Uma aplicação a um banco português
Luı́s Chorão e José G. Dias
ISCTE – Instituto Universitário de Lisboa, Lisboa, Portugal, [email protected],
[email protected]
Resumo: A perda em caso de incumprimento (LGD) é uma dimensão fundamental na quantificação
do risco de crédito das instituições financeiras. Este trabalho explora o uso de diferentes metodologias de análise de sobrevivência na modelação de LGD. Os resultados são ilustrados utilizando para
o efeito uma base de dados de crédito hipotecário de um Banco Português.
Palavras–chave: Perda em caso de incumprimento, empréstimos hipotecários, modelos de sobrevivência
O Acordo de Basileia permite às instituições financeiras a quantificação do risco de crédito e a consequente determinação dos nı́veis mı́nimos de capital necessário para assegurar um nı́vel mı́nimo de
solvabilidade. Existem duas possı́veis abordagens: a abordagem-padrão e a baseada em modelos internos. Sob a égide da primeira, os Bancos calculam os activos ponderados pelo risco de acordo com
os ratings externos apurados pelas agências de rating ou, na sua falta, será a entidade supervisora
(Banco de Portugal) a fornecer os ponderadores, nomeadamente a probabilidade de incumprimento
(PD), a perda em caso de incumprimento (LGD), o montante em default (EAD) e a maturidade
(M). Relativamente à segunda abordagem, duas variantes estão disponı́veis: a abordagem simples
do método de ratings internos (IRB Foundation) e a abordagem avançada (IRB Advanced). Na primeira, todos os componentes são disponibilizados pela entidade reguladora à excepção da PD que
é calculada internamente, mas validada pelo Banco Central; na segunda, todos os componentes são
determinados internamente. Como observado por Baesens e Tony em [1], quanto mais avançada é
a abordagem, maior a responsabilidade do Banco para determinar os parâmetros de risco. Um dos
grandes desafios actuais do sector bancário tem que ver com a adopção, ou não, destes métodos de
ratings internos avançados.
Durante décadas, o componente PD foi o foco de atenção em termos de modelação, tendo a modelação de LGD sido negligenciada. Os modelos LGD são difı́ceis de estimar e levará algum tempo até
que existam dados disponı́veis para construir modelos internos, devido à falta de observações de
recuperação e à complexidade do processo de recuperação. Tal como indica o Banco de Espanha
em [2], para as carteiras de empréstimo hipotecário, há um novo constrangimento resultante da falta
de dados históricos ilustrativos de novos segmentos de exposição (novos canais, novos produtos e
novos grupos de clientes).
Apesar de se tratar de uma tarefa bastante difı́cil, a modelação da LGD é importante por duas razões:
i) os bancos devem optimizar o seu processo de decisão relativamente às solicitações de crédito. No
passado, a concessão de um crédito era um processo baseado na observação da PD, i.e., rejeitar
clientes de maior risco e aceitar os mais promissores, ao preço mais adequado, permitindo aos
Bancos minimizar as perdas e maximizar os lucros esperados [3]. Com a introdução da dimensão
LGD, qualquer decisão deve ser baseada no EL (prejuizo esperado) causando uma redução no erro
SPE 2011
151
Sexta, 30/09/2011
Modelos Lineares
do tipo II, também conhecido por risco comercial e proporcionando um aumento no volume de
negócios; ii) em conformidade com o Acordo de Basileia II, o cálculo do capital regulatório é
altamente sensı́vel à LGD, através do prejuı́zo esperado (EL), como ilustra o seguinte exemplo para
uma carteira de hipotecas (Tabela 1):
Tabela 1: EL = PD × LGD.
PD
LGD
EL
0.01
40.0
0.4
0.015
26.(6)
0.4
0.02
20.0
0.4
A escassez de soluções para a elaboração de modelos de LGD, quando comparado com a modelação
de PD, é por si só um desafio a considerar. Este trabalho explora o uso da análise de sobrevivência
na modelação de LGD. Assim, analisa-se o processo de recuperação (complementar da perda) por
meio do estimador de Kaplan-Meier, o modelo de Cox, Anderson-Gill, WLW e o modelo PWP [4].
O presente trabalho propõe-se analisar estes diferentes processos de modelação de LGD utilizando
para o efeito uma base de dados de crédito hipotecário de um Banco Português.
Bibliografia
[1] Banco de Espanha (2007). Loss given default estimates under downturn conditions (DLGD)
in mortgage loan portfolios in Spain. Validation Document 1 (pp. 10). Madrid: Banco de
Espanha.
[2] Box-Steffensmeier, J.M. e Zorn, C. (2002). Duration models for repeated events. The Journal
of Politics, 64(4), 1069–1094.
[3] Experı́an-SCOREX (2002). LGD Scoring Overview: Description, methods and application
(pp. 16).
[4] Gestel, T.V. e Baesens, B. (2009). Credit Risk Management. Oxford: Oxford University Press.
SPE 2011
152
Sexta, 30/09/2011
Aplicações II
Factores explicativos do nı́vel nutricional das mulheres indianas: Uma análise multinı́vel
José G. Dias1 e Sabu S. Padmadas2
1
ISCTE – Instituto Universitário de Lisboa, UNIDE, Lisboa, Portugal, [email protected]
Centre for Global Health, Population, Poverty & Policy, University of Southampton, United Kingdom, [email protected]
2
Resumo: Este trabalho explora os factores explicativos do nı́vel nutricional das mulheres indianas
medido simultaneamente por duas variáveis: o nı́vel de anemia e o ı́ndice de massa corporal. Para
o efeito, considera-se um modelo multinı́vel com três nı́veis de modo a permitir modelar simultaneamente a dependência entre as duas variáveis dependentes e controlar o efeito da comunidade. Os
resultados mostram que ambos os efeitos são significativos e não devem ser negligenciados neste
tipo de análises.
Palavras–chave: Nutrição, modelos multinı́vel, anemia, IMC
A Índia confronta-se actualmente com um enorme desafio de saúde pública derivado do seu perfil
nutricional. De forma persistente, existem elevados nı́veis de subnutrição, em particular do grupo
das mulheres e crianças. Estudos mostram que mais de 70% das mulheres grávidas que vivem em
meio rural são classificadas como anémicas [1]. Este problema está identificado em todo o sul da
Ásia, reflectindo problemas graves de nutrição [2].
Este estudo considera uma definição bidimensional de nutrição, assumindo que a utilização de apenas um indicador pode resultar num perfil incorrecto ou imperfeito de classificação e explicação.
Utilizaram-se dois biomarcadores que permitem uma medição mais rigorosa dos ı́ndices nutricionais: o ı́ndice de massa corporal (IMC) e o nı́vel de anemia. Os dados utilizados têm origem no
2005-06 National Family Health Surveys, em que 124385 mulheres de 109041 agregados familiares foram inquiridas em 29 estados indianos, cobrindo as 6 regiões da Índia. Este estudo baseia-se
na amostra de 87925 mulheres casadas no momento do inquérito e com idade entre os 15 e os 49
anos. Os nı́veis de anemia e de IMC estão disponı́veis em categorias ordinais para 67416 e 68671
mulheres, respectivamente. A amostra final considerada tem a dimensão de 67325 mulheres.
Entre as variáveis explicativas incluı́das no modelo consideraram-se variáveis de rendimento (ı́ndice
de riqueza do agregado familiar e a ocupação da inquirida), variáveis espaciais (local de residência
e região), a religião e a casta da inquirida, variáveis demográficas (a idade da inquirida, a idade
ao primeiro casamento, um indicador de nascimento de filho no último ano, o número de filhos
vivos), o nı́vel educacional da inquirida e do marido, a estrutura do agregado familiar e o sexo
do responsável pelo agregado, a exposição aos meios de comunicação e variáveis de medição da
autonomia feminina.
Este trabalho modela simultaneamente estas duas variáveis ordinais utilizando um modelo multinı́vel a três nı́veis, sendo o nı́vel um ocupado pelas variáveis dependentes. O nı́vel dois é ocupado
pela inquirida, definindo-se uma estrutura factorial para permitir a correlação entre os nı́veis de
resposta da inquirida às duas variáveis de nı́vel um. O nı́vel três controla o efeito da comunidade. Utiliza-se uma parametrização probit ordinal. Para além do efeito significativo das variáveis
SPE 2011
Mesa: Frederico Caeiro
153
Sexta, 30/09/2011
Aplicações II
independentes em pelo menos uma das variáveis dependentes, os resultados mostram, via efeitos
aleatórios, que as respostas estão associadas e existe o efeito do nı́vel comunidade (nı́vel três) que
deve ser tido em atenção na estimação e interpretação dos resultados.
Agradecimentos: Os autores agradecem o apoio financeiro da FCT – Fundação para a Ciência e a
Tecnologia (PTDC/CS-DEM/108033/2008).
Bibliografia
[1] Bentley, M.E. e Griffiths, P.L. (2003). The burden of anemia among women in India. European
Journal of Clinical Nutrition, 57(1), 52–60.
[2] Griffiths, P.L. e Bentley, M.E. (2001). The nutrition transition is underway in India. Journal of
Nutrition, 131(10), 2692–2700.
SPE 2011
154
Sexta, 30/09/2011
Aplicações II
Há causalidade entre as variáveis económicas e os indicadores de saúde? Uma abordagem através de vectores autorregressivos com correcção de erros e da causalidade multivariada à Granger
José Ramos Pires Manso1 e Ernesto Ferreira2
1
2
Universidade da Beira Interior, [email protected]
Universidade da Beira Interior, [email protected]
Resumo: A esperança de vida à nascença (LEB) é geralmente apresentada como um indicador
de qualidade de vida de um paı́s e para a sua explicação têm sido seleccionados diversos factores,
nomeadamente alguns relacionados com as condições de saúde; mas estas condições dependem
de indicadores económicos como é o caso do PIB (GDP), as despesas pública (PubHe) e privada
(PrvHe) com a saúde, os três agregados expressos em valores constantes (dólares EUA de 2009),
per capita e em paridade de poder de compra para que se possam fazer comparações internacionais;
a estes acrescentamos ainda o número de médicos e uma trend (variável temporal), habitualmente
relacionada com o progresso técnico. O objectivo desta comunicação é assim testar se haverá algum nexo de causalidade multivariada nos termos definidos por Granger das variáveis económicas
para os indicadores ou variáveis de saúde (LEB - iniciais de life expectance when born) usando
dados da realidade portuguesa, à semelhança do que ocorre nalguns dos paı́ses do mundo ocidental
desenvolvido.
Com esta investigação esperamos identificar uma interessante rede (network) entre as variáveis
acima referidas - económicas e de saúde - usando em particular na análise vectores autorregressivos com correcção de erro (modelos VECM) quer para estudar a sensibilidade do indicador LEB
a alterações de alguns dos indicadores económicos e outros como o PIB per capita, as despesas
em saúde pública e privada, todas per capita, e ainda o número de médicos e o trend; esta abordagem entronca nas chamadas funções IR (Impulse-Response Functions); é também nossa intenção
quantificar a influência de cada uma dessas variáveis explicativas na explicação das variações da
esperança média de vida (a chamada Cholesky decomposition) e, acima de tudo, apreciar se existe
uma relação de causa e efeito no sentido grangeriano e multivariado do termo daquelas variáveis
sobre o indicador esperança de vida em Portugal.
Palavras–chave: Metodologia VAR, integração, cointegração, funções impulso-resposta, causalidade multivariada, indicadores de saúde, Portugal
SPE 2011
155
Sexta, 30/09/2011
Aplicações II
Os Eborenses e a prática desportiva
Luı́sa Carvalho1 , Paulo Infante2 e Anabela Afonso2
1
Departamento de Matemática, Universidade de Évora, [email protected]
Departamento de Matemática e Centro de Investigação em Matemática e Aplicações, Universidade
de Évora, {pinfante, aafonso}@uevora.pt
2
Resumo: Os estilos de vida saudáveis são promovidos por práticas activas que diminuam e combatam o sedentarismo, reduzindo consideravelmente os riscos de várias doenças. A Organização
Mundial de Saúde reconhece a grande importância da actividade desportiva para a saúde fı́sica,
mental e social, e para o nosso bem-estar. Aponta para a necessidade de polı́ticas que levem em
conta as necessidades e possibilidades dos diferentes indivı́duos, procurando integrar a actividade
fı́sica no dia-a-dia de todas as faixas etárias em todos os sectores sociais. Neste contexto, diferentes municı́pios têm desenvolvido diversas iniciativas de promoção da prática desportiva procurando
também conceber infra-estruturas que tentem ir de encontro a este objectivo e às necessidades e
desejos dos seus munı́cipes. Numa colaboração entre a Universidade de Évora e a Câmara Municipal de Évora, desenvolveu-se um estudo tendo como objectivo principal a caracterização da prática
desportiva no Concelho de Évora com base nos seus hábitos desportivos, grau de satisfação com a
oferta desportiva e com os equipamentos desportivos municipais e perfil sociocultural.
Inicialmente foi concebido um questionário tendo em conta os objectivos definidos pela secção de
Desporto do Municı́pio de Évora, o qual, depois de validado, foi aplicado a uma amostra representativa dos munı́cipes deste Concelho (com base nos dados fornecidos pelo INE nos Censos 2001).
Neste trabalho efectua-se uma descrição das principais etapas do estudo e apresentam-se os resultados mais importantes que caracterizam a actividade fı́sica neste concelho. Além da estatı́stica descritiva e dos testes não paramétricos de associação, utilizam-se ferramentas estatı́sticas que permitem
traçar diferentes perfis de praticantes como é o caso da regressão logı́stica. Por fim, compararam-se
os resultados deste estudo com os obtidos em estudos desenvolvidos a nı́vel nacional e europeu.
A nı́vel nacional refira-se o estudo comparativo apresentado em [1], onde factores como a idade,
sexo, nı́vel de escolaridade e estatuto socioprofissional surgem associados à prática desportiva. A
nı́vel da União Europeia têm-se realizado alguns estudos relacionados com a temática, sendo o
mais recente efectuado pelo Eurobarómetro em 2010, com dados referentes a 2009 [2]. Este estudo indica-nos que Portugal é um dos piores paı́ses da União Europeia, com os menores ı́ndices
da prática desportiva (33%) à semelhança dos paı́ses mediterrânicos. Em contrapartida os paı́ses
nórdicos, tais como Suécia e Finlândia, apresentam um ı́ndice de prática desportiva de 72%.
Palavras–chave: Amostragem, análise exploratória de dados, inferência
Bibliografia
[1] Mariovet, S. (2000). Práticas Desportivas na Sociedade Portuguesa (1988-1998). Em Actas do IV Congresso Português de Sociologia: Passados Recentes, Futuros Próximos. APS
Publicações. Disponı́vel em:
SPE 2011
157
Sexta, 30/09/2011
Aplicações II
http://www.aps.pt/cms/docs prv/docs/DPR462e088b86481 1.PDF.
Consultado a 10 de Abril de 2011.
[2] TNS Opinion & Social (2010). Sport and Physical Activity. Special Eurobarometer
334/Wave72.3. European Commission. Disponı́vel em:
http://ec.europa.eu/public opinion/archives/ebs/ebs 334 en.pdf.
Consultado a 10 de Abril de 2011.
SPE 2011
158
Sexta, 30/09/2011
Sessão Plenária III
Some recent results for functional data analysis
Graciela Boente
Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires and CONICET, Argentina, [email protected]
Abstract: In many situations, when dealing with several populations equality of the covariance
operators is assumed. In this talk, we will briefly discuss the extension to the functional setting of
the common principal component model that has been widely studied when dealing with multivariate observations (see, Flury, [6]).
Keywords: Covariance operators, functional data, principal components, robust estimators
Introduction
Functional data analysis provides modern analytical tools for data that are recoded as images or as
a continuous phenomenon over a period of time. Because of the intrinsic nature of these data, they
can be viewed as realizations of random functions often assumed to be in L2 (I ), with I a real
interval or a finite dimensional Euclidean set.
On the other hand, when working with more than one population, as in the finite dimensional case,
a common assumption is to assume the equality of covariance operators. In the case of finitedimensional data, test for equality of covariance matrices have been extensively studied (see for
example Seber [11]), even when the sample size is greater than the size of the variables (see Ledoit
and Wolf [8] and Schott [10]). As in the multivariate setting, assuming equality of covariance
operators is not satisfactory since the covariance operators may exhibit some common structure.
During this talk we will briefly discuss the extension to the functional setting of the common principal component model and we will present estimators of the unknown parameters as well as a robust
approach for the common directions and their size related to the proposal given by Boente et al. [4].
If possible, we will present a proposal for testing the hypothesis that the covariance operators of k−
populations of random objects are equal based on the norm of the difference among estimates of the
operators.
Preliminaries and notation
Let us consider independent random elements X1,1 , . . . ,Xk,1 in a separable Hilbert space H (often
L2 (I )) with inner product h·,·i and norm kuk = hu,ui1/2 and assume that EkXi,1 k2 < ∞. Denote
by µi ∈ H the mean of Xi,1 , µi = E(Xi,1 ) and by Γi : H → H the covariance operator of Xi,1 .
Let ⊗ stand for the tensor product on H , e.g., for u, v ∈ H , the operator u ⊗ v : H → H is
defined as (u ⊗ v)w = hv,wiu. With this notation, the covariance operator Γi can be written as
Γi = E{(Xi,1 − µi ) ⊗ (Xi,1 − µi )}, which is just the functional version of the variance–covariance
SPE 2011
Mesa: Ana M. Pires
159
Sexta, 30/09/2011
matrix in the classical multivariate analysis. The operator Γi is linear, self-adjoint and continuous.
R
In particular, if H = L2 (I ) and hu, vi = I u(s)v(s)ds, the covariance operator isRdefined through
the covariance function of Xi , γi (s,t)R =RCOV(Xi,1 (s), Xi,1 (t)), s,t ∈ I as (Γi u)(t) = I γi (s,t)u(s)ds.
It is usually assumed that kγi k2 = I I γi2 (t,s)dtds < ∞ hence, Γi is a Hilbert-Schmidt operator.
Hilbert–Schmidt operators have a countable number of eigenvalues, all of them being real.
Let F denote the Hilbert space of Hilbert–Schmidt operators with inner product defined by
∞
hH1 , H2 iF = trace(H1 H2 ) =
∑ hH1 uℓ , H2 uℓ i
ℓ=1
2 1/2 , where {u : ℓ ≥ 1} is any orthonormal basis of
and norm kHkF = hH, HiF = {∑∞
ℓ
ℓ=1 kHuℓ k }
H , while H1 , H2 and H are Hilbert-Schmidt operators, i.e., such that kHkF < ∞. Choosing an
orthonormal basis {φi,ℓ : ℓ ≥ 1} of eigenfunctions of Γi related to the eigenvalues {λi,ℓ : ℓ ≥ 1} such
2
2
that λi,ℓ ≥ λi,ℓ+1 , we get kΓi k2F = ∑∞
ℓ=1 λi,ℓ . In particular, if H = L (I ), we have kΓi kF = kγi k.
1/2
The Karhunen-Loéve expansion for the process leads to
Xi,1 = µi +
∞
1
2
∑ λiℓ fiℓ φi,ℓ .
(1)
ℓ=1
The random variables fim are the standardized coordinates of Xi,1 − µi on the basis {φi,ℓ : ℓ ≥ 1},
1
2 ) = 1, E( f
that is, fim = hXi,1 − µi ,φi,m i/λim2 . Note that E( fim ) = 0, while E( fim
im f is ) = 0 for m 6= s,
since COV (hu, Xi,1 − µi i, hv, Xi,1 − µi i) = hu, Γi vi.
The problem
Let Xi,1 (t), · · · ,Xi,ni (t) for i = 1, . . . ,k be independent observations from k independent samples of
smooth random functions in a separable Hilbert space H with mean µi and covariance operator Γi .
An natural way to estimate the covariance operators
Γi for i =
1, . . . ,k is to consider the empirical
bi = ∑ni Xi, j − Xi ⊗ Xi, j − Xi /ni , where Xi = 1/ni ∑ni Xi, j . Daucovariance operator given by Γ
j=1
j=1
√ b
xois et al. [5] proved that n Γ
converges
in
distribution
to
a
zero
mean
gaussian
random
−
Γ
i
i
i
element Ui of F .
bsi of the covariance operators were studied in Boente and Fraiman [2] while the
Smooth estimators Γ
robust scatter estimators proposed by Locantore et al. [9] and further developed by Gervini [7] may
be considered, if one suspects that outliers may be present in the sample.
A natural extension to the functional setting of the common principal components model introduced by Flury [6] is to assume that the covariance operators Γi have common eigenfunctions φℓ (t)
but different eigenvalues λiℓ . In this sense, Karhunen-Loéve expansion (1) of the processes Xi,1 ,
1
2
1 ≤ i ≤ k, can be written as Xi,1 = µi + ∑∞
ℓ=1 λiℓ f iℓ φℓ , with λi1 ≥ λi2 ≥ · · · ≥ 0 and so, the common
eigenfunctions, as in the one–population setting, exhibit the same major modes of variation. We
will denote this model the functional common principal component (FCPC) model. As in principal component analysis, the FCPC model could be used to reduce the dimensionality of the data,
retaining as much as possible of the variability present in each of the populations. Besides, this
SPE 2011
Mesa: Ana M. Pires
160
Sexta, 30/09/2011
model provides a framework for analysing different population data that share their main modes of
variation φ1 , φ2 , . . . . A similar problem was recently studied by Benko et al. [1] who considered the
case of k = 2 populations and provide tests for equality of means and equality of a fixed number of
eigenfunctions.
The aim of this talk is to briefly introduce estimators of the common eigenfunctions under a FCPC
model and to describe their asymptotic behaviour, as well as to consider robust estimators based on
a projection–pursuit approach.
If possible, we will also consider tests for the equality of the covariance operators of k populations,
that is, we wish to test the null hypothesis H0 : Γ1 = · · · = Γk against H1 : ∃ i 6= j such that Γi 6= Γ j .
Let N = n1 + · · · + nk and assume that ni /N → τi . A natural test statistic is given by Tk,n =
bj −Γ
b1 k2 , where Γ
bi are, for instance, the empirical covariance operators of i−th popuN ∑kj=2 kΓ
F
lation. The asymptotic behaviour of Tk,n under the null and under contiguous alternatives related to
the functional common principal model will be described, as well as a bootstrap approach.
Acknowledgements: This talk is based on recent results with Lucas Bali, Daniela Rodriguez and
Mariela Sued from the University of Buenos Aires.
Bibliography
[1] Benko, M., Härdle, P. and Kneip, A. (2009). Common Functional Principal Components.
Annals of Statistics, 37, 1-34.
[2] Boente, G. and Fraiman, R. (2000). Kernel-based functional principal components. Statistics
and Probabability Letters, 48, 335-345.
[3] Boente, G., Rodriguez, D. and Sued, M. (2010). Inference under functional proportional and
common principal components models. Journal of Multivariate Analysis, 101, 464-475.
[4] Boente, G. Pires, A. M. and Rodrigues, I. (2006). General projection–pursuit estimators for
the common principal components model: Influence functions and Monte Carlo study. Journal
of Multivariate Analysis, 97, 124-147.
[5] Dauxois, J., Pousse, A. and Romain, Y. (1982). Asymptotic theory for the principal component
analysis of a vector random function: Some applications to statistical inference. Journal of
Multivariate Analysis, 12, 136-154.
[6] Flury, B. (1988). Common principal components and related multivariate models. New York:
John Wiley.
[7] Gervini, D. (2008). Robust functional estimation using the spatial median and spherical principal components. Biometrika, 95, 587-600.
[8] Ledoit, O. and Wolf, M. (2002). Some hypothesis tests for the covariance matrix when the
dimension is large compared to the sample size. Annals of Statistics, 30, 1081-1102.
[9] Locantore, N., Marron, J. S., Simpson, D. G., Tripoli, N., Zhang, J. T. and Cohen, K. L. (1999).
Robust principal components for functional data (with Discussion). Test, 8, 1-73.
SPE 2011
Mesa: Ana M. Pires
161
Sexta, 30/09/2011
[10] Schott, J. (2007). A test for the equality of covariance matrices when the dimension is large
relative to the sample sizes. Computational Statistics & Data Analysis, 51, 6535-6542.
[11] Seber, G. (1984). Multivariate Observations. John Wiley and Sons.
SPE 2011
Mesa: Ana M. Pires
162
Sexta, 30/09/2011
Acesso à informação estatı́stica oficial para fins de investigação
cientı́fica
José A. Pinto Martins
Instituto Nacional de Estatı́stica, [email protected]
Resumo: A comunidade académica apresenta necessidades especiais no tocante à informação estatı́stica, nomeadamente para o desenvolvimento de trabalhos de investigação e para a elaboração
de teses de Mestrado e Doutoramento.
Neste contexto, o Instituto Nacional de Estatı́stica (INE) estabeleceu um Protocolo com a Fundação
para a Ciência e a Tecnologia (FCT) e o Gabinete de Planeamento, Estratégia, Avaliação e Relações
Internacionais do ex–MCTES (GPEARI), com o objectivo de facilitar o acesso dos investigadores
(acreditados) à informação estatı́stica oficial de que necessitam para o exercı́cio da sua actividade.
Na apresentação serão explicados os procedimentos necessários à acreditação cientı́fica em sede do
GPEARI, bem como o conjunto de bases de dados já preparadas especificamente pelo INE para
utilização ao abrigo desta forma de acesso. O acesso a esta informação é gratuito para os investigadores.
Palavras–chave: Bases de dados do INE, acreditação de investigadores, dados estatı́sticos individuais anonimizados, estatı́sticas oficiais, acesso gratuito e privilegiado
SPE 2011
Mesa: José Ramos Pires Manso
163
Sexta, 30/09/2011
Qualidade dos Censos 2011: Mapa de Alerta
Elizabeth Reis, Paula Vicente e Álvaro Rosa
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE-IUL, Lisboa,
{ear,paula.vicente,alvaro.rosa}@iscte.pt
Resumo: No presente estudo desenha-se um Mapa de Alerta com três nı́veis de risco potencial para
as freguesias portuguesas com o principal objectivo de fornecer aos coordenadores de freguesia e
concelhios informação que lhes permita garantir elevada qualidade dos processos na Operação Censos 2011.
Palavras–chave: Censos, qualidade dos processos, análise de clusters, mapa de alerta
Introdução
Os recenseamentos da habitação e da população (censos) constituem a maior e mais dispendiosa
operação estatı́stica que um paı́s pode levar a cabo [1] e têm como principal objectivo fornecer
informação estatı́stica de elevada qualidade que responda às necessidades dos seus utilizadores.
Nas operações censitárias existe a possibilidade de erro a vários nı́veis e em diferentes etapas do
processo. Para os Censos 2011 o INE pretendia implementar mecanismos que permitissem detectar
falhas e sinalizar aspectos que pudessem ser melhorados no decorrer da própria operação, bem
como quantificar os diferentes tipos de erros [2]. Com esse objectivo foi criado um Sistema de
Indicadores de Alerta (SIA) para as unidades estatı́sticas (alojamentos e indivı́duos) a observar nos
Censos 2011. Com a sua implementação pretendia-se obter informação sobre potenciais desvios da
recolha e averiguar a sua provável causa, monitorizando em tempo real o processo de distribuição
e recolha de questionários, desencadeando acções de ajustamento ou correcção com vista a garantir
os princı́pios de qualidade que balizam a realização de uma operação censitária.
O SIA proposto inclui o desenho de um mapa com três nı́veis de alerta com base num conjunto
de indicadores que permitem identificar o grau de risco potencial de cada freguesia não garantir
elevada qualidade do produto final e ao qual corresponde um grau de acompanhamento da operação
por parte do coordenador concelhio da operação censitária.
Mapa de Alerta
Para a construção do Mapa de Alerta (MA) com três nı́veis de risco (Reduzido=Verde, Médio=Laranja, Elevado=Vermelho) propõe-se um conjunto de indicadores, que incluem as caracterı́sticas demográficas dos coordenadores ao nı́vel das freguesias (presidentes das Juntas), as suas competências
especı́ficas e experiência anterior para a realização deste tipo de tarefas. Esta informação foi recolhida através da realização de um inquérito aos Presidentes das 4260 Juntas de Freguesia (PJF)
do Continente e Ilhas com base num questionário estruturado que incluı́a ainda questões sobre a
percepção dos PJF em relação às caracterı́sticas da freguesia e dos recenseadores que pudessem
SPE 2011
165
Sexta, 30/09/2011
dificultar o trabalho a desenvolver durante a operação Censos 2011: existência de população idosa,
analfabeta, residente em bairros sociais, emigrante, imigrante e sem abrigo; habitações em regime de
condomı́nio fechado e alojamentos de segunda habitação; áreas de construção habitacional recente,
de difı́cil acesso, com habitações muito dispersas e tipo dormitório; recrutamento de recenseadores
com competências e com disponibilidade.
Método
Para a construção do Mapa de Alerta definem-se os seguintes passos metodológicos:
(1) Análise em componentes principais sobre as variáveis recolhidas através do Inquérito aos PJF
para reduzir a informação disponı́vel (número de variáveis) e uniformizar as escalas de medida das
variáveis originais; (2) Estimação do número de grupos k através de modelos de mistura finita ou
segmentos latentes; (3) Classificação não hierárquica das freguesias para uma partição em k grupos
através da análise de clusters k-médias; (4) Validação do número de grupos k através da análise
discriminante com validação cruzada; (5) Caracterização da partição em k grupos de freguesias
com base na informação dos Censos 2001 e no nı́vel de risco potencial de cada agrupamento.
Resultados
Obtiveram-se 3855 respostas ao inquérito aos PJF num total de 4260 freguesias a quem foi enviado
o questionário correspondendo a uma taxa de resposta de 90,5%. Extraı́ram-se sete componentes
principais denominadas por “Competências do PJF”, “Experiência do PJF”, “População de difı́cil
contacto”, “Competências e disponibilidade dos recenseadores”, “População envelhecida”, “Zonas
(interior) desertificadas” e “Zonas com população ausente (recentes ou de 2a habitação)”. A escolha
do número de grupos foi previamente validada com a aplicação de modelos de mistura finita ou
segmentos latentes que apontaram para a existência de 7 grupos. O grau de risco potencial associado
aos sete grupos de freguesias encontra-se sumarizado no quadro seguinte.
Tabela 1: Distribuição das freguesias segundo o nı́vel de alerta.
No de fregueias (%)
População (Censos 2001) (%)
Vermelho
(risco elevado)
260 (6,7)
2 924 656 (30,1)
Laranja
(risco médio)
1826 (47,4)
3 778 541 (38,9)
Verde
(risco reduzido)
1769 (45,9)
3 003 706 (30,9)
Bibliografia
[1] Instituto Nacional de Estatı́stica (2007). Programa de Acção para os Censos 2011. INE, Gabinete dos Censos.
[2] Instituto Nacional de Estatı́stica (2010). Plano de Controlo e Avaliação da Qualidade Censos
2011 - Controlo do Processo Produtivo. INE, Gabinete dos Censos.
SPE 2011
166
Sexta, 30/09/2011
Censos 2011 - Inquérito de Qualidade
João Farrajota
Instituto Nacional de Estatı́stica, [email protected]
Resumo: Após a conclusão dos Censos 2011, realizou-se o Inquérito de Qualidade dos Censos
2011 (IQ), o qual pretende constituir o instrumento de medida da qualidade final daquela operação
censitária. Este inquérito por amostragem tem como objectivos fundamentais a avaliação de duas
categorias de erros: os erros de cobertura e os erros de conteúdo. Neste trabalho são apresentados
aspectos operacionais e o plano de amostragem utilizado no IQ, bem como o processo de estimação.
Palavras–chave: Censos, inquérito de qualidade, erros de cobertura, erros de conteúdo
Introdução
O Inquérito de Qualidade dos Censos 2011 (IQ) tem como objectivo apoiar a aferição quantitativa
da qualidade da informação censitária. Serão disponibilizados indicadores sobre erros de cobertura
das unidades estatı́sticas observadas (edifı́cios, alojamentos, famı́lias, indivı́duos) e sobre erros de
conteúdo das variáveis e respectivas modalidades, incluı́das nos questionários. O projecto é realizado sob responsabilidade metodológica do agrupamento constituı́do pelo Instituto Superior de
Estatı́stica e Gestão de Informação da Universidade Nova de Lisboa e pela Qmetrics, SA. Esta entidade foi seleccionada através de concurso público, realizado em 2009. Para além da satisfação das
necessidades a nı́vel nacional, os indicadores a disponibilizar permitirão cumprir, na parte correspondente, o Regulamento (UE) n.o 1151/2010, da Comissão, de 08.12.2010.
Plano de amostragem
O IQ é um inquérito por amostragem que abrange todo o território nacional, sendo representativo
ao nı́vel II da Nomenclatura das Unidades Territoriais para fins Estatı́sticos (NUTSII), para o seguinte conjunto de variáveis: alojamento, famı́lia clássica, indivı́duo residente, população activa,
população empregada, população residente com 20 ou mais anos de idade, população residente por
grupo etário decenal entre os 20 e os 70 anos, nı́vel de instrução (1.o , 2.o e 3.o Ciclos) e sectores
de actividade (Secundário e Terciário). Na avaliação dos erros de cobertura dos Edifı́cios e Alojamentos é utilizada uma amostra de secções estatı́sticas, enquanto na avaliação dos erros de cobertura
das Famı́lias Clássicas e dos Indivı́duos, bem como na avaliação dos erros de conteúdo das variáveis
incluı́das nos questionários é utilizada uma amostra de alojamentos.
A amostra foi primeiramente estratificada por NUTSII, o que permite garantir a obtenção de resultados fiáveis, pelo menos para o nı́vel nacional e para as regiões NUTSII. Tendo em conta o duplo
objectivo de medição dos erros de cobertura e dos erros de conteúdo, a amostra foi seleccionada,
em cada estrato, através de um método multi-etápico, com selecção sistemática, de probabilidades
desiguais. Tendo em conta os objectivos definidos acima, na primeira etapa foram seleccionadas
SPE 2011
167
Sexta, 30/09/2011
freguesias, na segunda etapa foram seleccionadas secções estatı́sticas e na terceira etapa foram seleccionados alojamentos.
As probabilidades de inclusão nas várias etapas de amostragem recorreram a estimativas da população residente, referentes ao momento da operação censitária, bem como a contagens do número
de alojamentos, efectuadas nas freguesias seleccionadas para amostra, na fase de distribuição dos
questionários da operação Censos 2011. A dimensão amostral global, bem como a sua repartição
pelos vários estratos, foi determinada através da resolução de um problema de optimização não
linear que teve como objectivo a minimização do custo total de amostragem, sujeito a um conjunto de restrições que contemplavam limites máximos para os coeficientes de variação dos totais
das variáveis seleccionadas ao nı́vel nacional e ao nı́vel de NUTSII. Foram efectuadas simulações
com os dados dos Censos 2001 de forma a se determinarem as dimensões amostrais em cada
subpopulação definida pelas NUTSII, garantindo-se um coeficiente de variação máximo de 5% ou
de 8%, para dois conjuntos de variáveis.
1. Questionários, procedimentos de recolha e meios envolvidos
No IQ foram utilizados 4 questionários: Capa de Edifı́cio, Alojamento Familiar, Famı́lia e Individual. Para maior eficácia da recolha de dados e menor sobrecarga dos inquiridos, foram incluı́das
no IQ apenas cerca de 50% das variáveis observadas nos Censos (mas com conceitos iguais), coincidindo com as de resposta obrigatória ao Eurostat. A capa de edifı́cio foi utilizada para novo
recenseamento (exaustivo) das secções estatı́sticas da amostra, nas quais se procedeu a nova contagem do número de edifı́cios e de alojamentos. A quantificação do número de edifı́cios foi efectuada
com apoio na cartografia utilizada nos Censos. Os questionários de alojamento, famı́lia e individual
foram aplicados, através de entrevista presencial, a uma sub-amostra de alojamentos, em cada uma
das secções da amostra.
Foram recenseados cerca de 90.000 alojamentos e entrevistadas cerca de 10.000 famı́lias. A amostra
de secções estatı́sticas do IQ permaneceu confidencial até à conclusão da recolha censitária em cada
área. A recolha de dados (com referência ao momento censitário, 21 de Março de 2011) iniciouse em meados de Maio, terminou em meados de Agosto e foi efectuada sob a responsabilidade
operacional do INE. Para além da coordenação nacional do projecto, estiveram envolvidos 8 coordenadores regionais, 34 técnicos de supervisão e acompanhamento e 233 entrevistadores. Toda a
estrutura utilizada foi independente da que esteve envolvida nos Censos.
Estimação e produção de indicadores
A identificação dos erros de cobertura e de conteúdo faz-se pela comparação dos dados recolhidos
nos Censos com os dados recolhidos no Inquérito de Qualidade, sobre a mesma unidade estatı́stica.
A metodologia de estimação dos totais populacionais usados para cálculo dos erros de cobertura
e conteúdo recorre a estimadores pela regressão que integram informação auxiliar proveniente do
recenseamento. Uma versão provisória dos indicadores de qualidade (nesta fase apenas indicadores
de cobertura) deverá ser disponibilizada até final de 2011.
SPE 2011
168
Sexta, 30/09/2011
Aplicações III
Modelos Espaço-temporais. Aplicação à previsão da temperatura na superfı́cie terrestre
Luı́s Margalho1 , Raquel Menezes2 e Inês Sousa2
1
Departamento de Fı́sica e Matemática, Instituto Superior de Engenharia de Coimbra, [email protected]
Departamento de Matemática e Aplicações, Universidade do Minho,
{rmenezes, isousa}@math.uminho.pt
2
Resumo: Os modelos geoestatı́sticos espaço-temporais surgem com o registo de dados ao longo do
tempo bem como no espaço. Estes modelos têm sido utilizados em diversos contextos, de entre os
quais em problemas de observação ambiental, como por exemplo a monitorização da deposição de
metais pesados ou a variação da temperatura na superfı́cie terrestre.
O objectivo deste trabalho é fazer uma apresentação de modelos espaço-temporais já referidos na
literatura, ilustrando com a aplicação a uma base de dados de temperaturas diárias do ano de 2006.
Palavras–chave: Geoestatı́stica, modelos espaço-temporais, variograma, predição espaço-temporal
Introdução
Os modelos espaço-temporais pretendem representar o comportamento de dados recolhidos em
várias localizações do espaço, sendo que para cada localização é ainda observável uma dependência
temporal.
Supondo a observação de um processo Z(si ,t j ) nas localizações si , i = 1, · · · , n, e nos tempos t j , j =
1, · · · , T, o objectivo principal será construir um modelo para fazer previsões de Z(s0 ,t j ) em localizações não observadas s0 para um tempo particular t j .
A modelação espaço-temporal pode, então, ser efectuada segundo uma perspectiva temporal, recorrendo a modelos ARMA para analisar as estruturas espacial e temporal, ou recorrendo aos modelos
de geoestatı́stica para igualmente modelar as estruturas temporal e espacial. De entre os diversos
modelos existentes, podem ser referidos os modelos separáveis, caracterizados por englobarem uma
componente puramente espacial e uma componente puramente temporal.
Com este trabalho, pretende-se fazer uma compilação dos diversos modelos que são referidos na
literatura. Pretende-se ainda apresentar uma exemplificação para uma base de dados de temperatura
terrestre, da identificação de um modelo espaço-temporal que permita prever temperaturas para
localizações não observadas.
Bibliografia
[1] Elamtzoglou, I. (2006). Spatio-Temporal Geostatistical Models, with an application in fish
stocks. MSc Thesis. University of Lancaster.
SPE 2011
Mesa: Antónia Amaral Turkman
169
Sexta, 30/09/2011
Aplicações III
[2] Fernández-Casal, R., González-Manteiga, W. e Febrero-Bande, M. (2003). Flexible SpacioTemporal Stationary Variogram Models. Statistics and Computing, 13, 127–136.
[3] Gneiting, T., Genton, M.G. e Guttorp, P. (2005). Geostatistical Space-Time Models, Stationarity, Separability and Full Symmetry. Technical Report no. 475. Department of Statistics,
University of Washington.
[4] Hengl, T. (2009). A Practical Guide to Geostatistical Mapping. Office for Official Publications
of the European Communities, Luxembourg.
[5] Kyriakidis, P.C. e Journel, A.G. (1999). Geostatistical space-time models: A review. Mathematical Geology, vol. 31, 6, 651–684.
[6] Niu, X., McKeaque, I.W. e Elsner, J.B. (2003). Seasonal space-time models for climate systems. Statistical Inference for Stochastic Processes, 6, 111–133.
[7] Rouhani, S. e Myers, D.E. (1990). Problems in space-time kriging of geohydrological data.
Mathematical Geology, vol. 22, 5, 611–623.
SPE 2011
170
Sexta, 30/09/2011
Aplicações III
Modelação espaço-temporal de fogos florestais em Portugal
Isabel Natário1,2 , Manuela M. Oliveira3 , M. Lucı́lia Carvalho4,2 , Susete Marques 5 e José Borges5
1
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, [email protected]
Centro de Estatı́stica e Aplicações da Universidade de Lisboa,
3 Centro Investigação em Matemática Aplicada, Departamento de Matemática, Universidade de
Évora, [email protected]
4 Faculdade de Ciências da Universidade de Lisboa, [email protected]
5 Centro de Estudos Florestais, Instituto Superior de Agronomia da Universidade Técnica de Lisboa, {smarques,joseborges}@isa.utl.pt
2
Resumo: Os incêndios florestais são uma calamidade que tem aumentado consideravelmente nas
últimas décadas, também em Portugal, com consequências importantes ao nı́vel económico, social
e ambiental. É imprescindı́vel, para a escolha e aplicação de polı́ticas de intervenção efectivas neste
problema, que se consiga perceber quais os factores que mais contribuem para este fenómeno. A
utilização de sistemas de informação geográficos em conjunto com modelos estatı́sticos adequados
podem contribuir de forma importante para este objectivo.
Neste contexto, propomos-nos implementar um modelo hierárquico espaço-temporal introduzido
em [1], para o risco de incêndio florestal em Portugal, modelando conjuntamente a probabilidade
de ignição e o tamanho dos incêndios, numa moldura Bayesiana. Nesta modelação os dados são
tomados em pequenas áreas definidas numa grelha regular. Contudo, neste trabalho, consideraremos
as freguesias como sub-unidade de área (fronteiras irregulares).
Assim, o conjunto de dados em análise, referente ao perı́odo de 2002 a 2007, compreende a percentagem anual de área ardida em cada freguesia, bem como valores anuais de várias covariáveis, desde
condições atmosféricas, informação topográfica, proximidade a estradas e densidade populacional
Dado que o conjunto das freguesias que dividem Portugal Continental é muito grande (3424 freguesias), a estimação do modelo via técnicas MCMC (Markov Chain Monte Carlo), usual nos modelos
Bayesianos aplicados a dados espaço-temporais, fica computacionalmente muito pesada. De forma
a ultrapassar este problema, optou-se por fazer a estimação através do método de aproximações
de Laplace aninhadas e integradas, Integrated Nested Laplace Approximation (INLA), que apresenta significativas vantagens computacionais. Esta abordagem aproximada tem vindo a ganhar
relevância no âmbito dos problemas de estimação Bayesianos que se podem encaixar na sub-classe
dos modelos de regressão com estrutura aditiva, os modelos Gaussianos latentes.
Descrevemos detalhadamente a génese do procedimento inferencial decorrente do INLA, a sua
implementação para a estimação do modelo acima referido na aplicação dos fogos florestais em
Portugal, e apontaremos quais as vantagens/desvantagens concretas com que nos confrontámos, relativamente aos métodos de MCMC.
Palavras–chave: Risco de incêndio, modelos hierárquicos espaço-temporais, sistemas de informação
geográficos, integrated nested Laplace approximation
SPE 2011
171
Sexta, 30/09/2011
Aplicações III
Bibliografia
[1] Amaral-Turkman, M.A., Turkman, K.F., Le Page, Y e Pereira, J.M. (2010). Hierarchical
space-time models for fire ignition and percentage of land burned by wildfire. Environmental Ecological Statistics, 17. DOI 10.1007/s10651-010-0153-9.
[2] Marques, S., Borges, J., Garcia-Gonzalo, J., Moreira, F., Carreiras, B.M.J., Oliveira, M.M.,
Cantarinha, A., Botequim, B. e Pereira, J.M.C. (2010). Characterization of wildfires in Portugal. European Journal of Forest Research, DOI 10.1007/s10342-010-0470-4.
[3] Rue, H., Martino, S. e Chopin, N. (2009). Approximate bayesian inference for latent gaussian
models using integrated nested Laplace approximations (with discussion). Journal of the Royal
Statistical Society, Series B, 71, 319–392.
[4] Russel-Smith, J., Yates, P., Whitehead, P.J., Smith, R., Craig, R., Allan, G.E., Thackway, R.,
Frakes, I., Cridland, S., Meyer, C.P. e Malcom, A.M. (2007). International Journal of Wildland
Fires, 16, 361–377.
SPE 2011
172
Sexta, 30/09/2011
Aplicações III
Volatilidade dos principais mercados mundiais
Thelma Sáfadi1 e Airlane P. Alencar2
1
2
Universidade Federal de Lavras, Lavras, MG, Brasil, [email protected]
Universidade de São Paulo, São Paulo, Brasil, [email protected]
Resumo: Neste trabalho estudamos a associação entre as volatilidades estimada das principais bolsas de valores do mundo. As séries consideradas foram valores diários dos ı́ndices S&P500 (US),
Shanghai Comp Index (China), FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina), Nikkei 225 (Japan) durante o perı́odo de 04/01/2008
a 10/05/2010. Os retornos foram ajustados por meio do modelo AR-APARCH e a associação entre
as volatilidades estimadas foi obtida com a análise de agrupamento. Observamos essencialmente a
formação de três grupos, sendo o primeiro composto por Canadá, Brasil e Japão, o segundo por Estados Unidos, Reino Unido, França, Alemanha e Argentina e o terceiro composto apenas pela China.
Palavras–chave: Volatilidade, análise de agrupamento, bolsas de valores
Introdução
A associação entre os ı́ndices das principais bolsas de valores tem sido estudada por vários pesquisadores. [2] considerando as séries S&P500 (US), Shanghai Comp Index (China), FTSE100 (UK),
CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina) e
Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010 utilizaram o modelo fatorial
com três fatores. Eles observaram que o primeiro fator indicou que a crise financeira associada
principalmente aos US foi sentida por todas as outras bolsas do mundo. O segundo fator é associado
aos paı́ses asiáticos, China e Japão e o terceiro fator associado aos paı́ses europeus, principalmente
Inglaterra, França e Alemanha.
Neste trabalho estamos interessados em estudar a associação entre a volatilidade estimada das principais bolsas de valores do mundo e agrupá-las utilizando as medidas de correlação linear entre
elas. As séries consideradas foram valores diários de S&P500 (US), Shanghai Comp Index (China),
FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval
(Argentina), Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010.
Resultados e Discussão
O modelo AR(1)-APARCH(1,1) (para modelo APARCH ver [1]) foi ajustado para as séries de
retornos. O retorno foi obtido da maneira usual por rt = lnYt − lnYt−1 , em que Yt é o valor do
ı́ndice no tempo t. A Figura 1(a) apresenta as volatilidades estimadas. A China apresenta um
comportamento distinto das demais. Em geral, maiores volatilidades são observadas nos ı́ndices do
Canadá, Brasil e Japão.
O dendrograma da análise de agrupamentos é mostrado na Figura 1(b), onde observa-se a formação
SPE 2011
173
Sexta, 30/09/2011
Aplicações III
UK
0.6
300
400
0.25
similaridade
0.4
100
200
300
Argentina
Japão
300
400
Time
0.4
0.0
0.2
0.4
0.0
0.2
0.4
200
400
0.6
Brasil
0.6
Time
França
0
UK
400
US
300
Time
Argentina
200
Alemanha
100
Brasil
0
Canada
400
Time
Japão
300
0.0
0.2
0.4
0.0
0.2
0.4
0.2
200
400
0.6
Canada
0.2
100
300
Alemanha
0.0
0
200
França
0.0
100
100
Time
0.6
0
0
Time
0.20
200
0.15
100
China
0.4
0.0
0
0.10
400
0.05
300
Time
0.00
200
0.6
100
0.6
0
Agrupamento Completo, Coeficiente de Correlação
0.2
0.4
0.2
0.0
0.0
0.2
0.4
0.6
China
0.6
US
0
100
200
300
400
0
Time
100
200
300
400
Bolsas
Time
(a) Volatilidade estimada.
(b) Dendograma para a volatilidade.
Figura 1: Volatilidade estimada e Dendrograma.
de três grupos, sendo o primeiro composto por Canadá, Brasil e Japão, o segundo por Estados
Unidos, Reino Unido, França, Alemanha e Argentina e no terceiro apenas China.
Conclusões
Concluimos que o Canadá, Brasil e Japão apresentam em geral uma volatilidade estimada maior
durante todo o perı́odo analisado, indicando que esses paı́ses podem apresentar maior risco. Os Estados Unidos, Reino Unido e França apresentam volatilidades semelhantes e seguidas por volatilidades um pouco maiores na Argentina e Alemanha. A China, além de apresentar menor volatilidade,
apresenta muita estabilidade dos retornos, sem ser muito afetada pela crise do subprime.
Agradecimentos: As autoras agradecem o auxı́lio financeiro da FAPEMIG, FAPESP e CNPq.
Bibliografia
[1] Ding, Z., Engle, R.F. e Granger, C.W.J. (1993). A long memory property of stock market
returns and a new model. Journal of Empirical Finance, 1, 83-106.
[2] Safadi, T., Alencar, A.P. e Morettin, P.A. (2011). The dynamic factor model: an application to
stock market indexes. International Journal of Statistics & Economics, 7 (A11).
SPE 2011
174
Sexta, 30/09/2011
Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30
Intervalos de confiança para os nodos do contorno superior
em análise conjunta de regressões
Dulce Gamito Pereira1 , João Tiago Mexia2 e Victor Ramos Tavares3
1
Universidade de Évora, DMAT e CIMA, [email protected]
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, DMAT e CMA, [email protected]
3 Doutorando do Programa de Doutoramento de Matemática, Universidade de Évora,
[email protected]
2
Resumo: A Análise Conjunta de Regressões (ACR), é uma técnica muito utilizada para a avaliação
de genótipos/cultivares, integrando numa variável (o ı́ndice ambiental) a capacidade produtiva para
cada par (local, ano).
A ACR é uma técnica flexı́vel, já que para cada valor da produtividade, medida pelo ı́ndice ambiental, selecciona um ou mais genótipos/cultivares. O conjunto dos genótipos/cultivares seleccionados
variará, em geral, com o ı́ndice ambiental. O contorno superior definido pelas linhas das regressões
ajustadas pode ser usado para esta selecção. Quando se ajustam as regressões correspondentes
aos diferentes genótipos/cultivares obtêm-se como representação uma poligonal com a concavidade
voltada para cima, ver Mexia et al. (1997). Os genótipos/cultivares cujas regressões participam no
contorno superior são os genótipos/cultivares dominantes já que, para cada um deles, se tem um
intervalo de variação do ı́ndice ambiental (que mede a capacidade produtiva) que conduz a rendimentos mais elevados que os restantes. Os outros genótipos/cultivares terão de ser comparados
com os genótipos/cultivares dominantes. Aplica-se testes-t e métodos de comparação múltipla para
realizar a selecção de genótipos/cultivares. Pretende-se agora obter intervalos de confiança para as
abscissas dos vértices da poligonal.
Palavras–chave: Análise Conjunta de Regressões (ACR), ı́ndices ambientais, intervalos de confiança,
contorno superior
Bibliografia
[1] Mexia, J.T., Amaro, A.P., Gumão, L. e Baeta, J. (1997). Upper contour of a joint regression
analysis. J. Genet. & Breed., 51, 253–255.
[2] Pereira, D.G. e Mexia, J.T. (2004). Nodes of the upper contour in joint regression analysis,
Colloquium Biometryczne, 34, 267–277.
SPE 2011
Mesa: Carlos Tenreiro
175
Sexta, 30/09/2011
Estimadores de máxima entropia em análise de eficiência
Pedro Macedo1 , Elvira Silva2 e Manuel Scotto1
1
2
Departamento de Matemática, Universidade de Aveiro, {pmacedo, mscotto}@ua.pt
Resumo: A abordagem de estados contingentes no estudo das fronteiras de produção enfrenta
algumas dificuldades, nomeadamente a possibilidade de um grande número de estados, poucas
observações por estado e colinearidade. Nesta apresentação ilustra-se o bom desempenho de alguns
estimadores de máxima entropia na análise de eficiência técnica com estas fronteiras de produção.
Palavras–chave: Máxima entropia, eficiência técnica, fronteiras de produção, abordagem de estados contingentes
Introdução
O trabalho de Chambers e Quiggin (2000) tem inspirado desenvolvimentos notáveis na literatura
sobre a teoria económica da produção. A teoria da produção condicionada a estados contingentes
permite uma representação mais realista dos problemas de produção com incerteza, uma vez que os
produtores podem alocar diferentes inputs a diferentes estados da natureza e, desta forma, melhor
gerir a incerteza. Em análise de eficiência, esta abordagem permite obter nı́veis de eficiência técnica
mais elevados quando comparados com os obtidos usando a análise tradicional com fronteiras de
produção estocásticas. As fronteiras de produção condicionadas a estados contingentes permitem
decompor os desvios à fronteira de produção em erro aleatório, ineficiência do produtor e risco.
Embora a teoria da produção condicionada a estados contingentes esteja bem desenvolvida, a sua
aplicação empı́rica encontra-se ainda numa fase embrionária e enfrenta algumas dificuldades: possibilidade de um grande número de estados, poucas observações por estado e colinearidade. Os
estimadores de máxima entropia generalizada (GME) e cross-entropy (GCE) desenvolvidos por
Golan et al. (1996), bem como os estimadores de máxima entropia de ordens superiores (GME-α )
propostos por Golan e Perloff (2002), sendo úteis em amostras de reduzida dimensão e robustos
perante colinearidade, são avaliados nesta apresentação através de um estudo de simulação.
Fronteira de produção e estimadores de máxima entropia
A fronteira de produção condicionada a estados contingentes usada no estudo de simulação é
S
ln q =
∑
P
S
∑ ds b−1
ps ln x ps − ∑
s=1 p=1
P
S
∑ ds b−1
ps ln as − ∑
s=1 p=1
P
K
∑ b−1
ps ∑ αk zk + v − u,
s=1 p=1
(1)
k=1
−1
com 0 < b−1
ps ≤ 1, as > 0 e 0 < ∑ p b ps ≤ P, ∀ s (s = 1,2, . . . ,S). O output é denotado por q, S é o
número de estados da natureza, P é o número de inputs especı́ficos de cada estado, K é o número de
SPE 2011
177
Sexta, 30/09/2011
variáveis exógenas, ds é uma variável dummy associada à escolha de estados, b ps são parâmetros que
representam a possibilidade de substituição de output entre estados, x ps são os inputs especı́ficos de
estados, as são parâmetros especı́ficos de produção, zk são as variáveis exógenas, αk os respectivos
parâmetros a estimar, v é a variável que representa o erro aleatório e u a variável que representa a
ineficiência técnica.
Considerando a fronteira de produção (1) na forma matricial
ln q = f (X; β ) + v − u,
(2)
os estimadores GME e GME-α , com as devidas adaptações, são definidos pela maximização de
H(p,w,ρ ) =
N
R
N
∑ Hαe (βr ) + ∑ Hαe (vn ) + ∑ Hαe (un ),
1
r=1
2
n=1
(3)
2
n=1
ou, de forma equivalente, pela maximização de
H(p,w,ρ ) = Hαe 1 (β ) + Hαe 2 (v) + Hαe 2 (u),
(4)
sujeitos às restrições de consistência e aditividade,
ln q = XZp + Aw − Bρ ,
1R = (IR ⊗ 1′M )p,
1N = (IN ⊗ 1′J )w,
1N = (IN ⊗ 1′L )ρ ,
(5)
onde ⊗ representa o produto de Kronecker, Hαe 1 (·) e Hαe 2 (·) são medidas de entropia (Shannon,
Rényi ou Tsallis), e α1 , α2 são as ordens de entropia usadas nas entropias de Rényi e Tsallis. O
estimador GCE é definido pela minimização de
H(p,w,ρ ,q3 ) = p′ ln p + w′ ln w + ρ ′ ln(ρ /q3 ),
(6)
sujeito às condições (5). O vector q3 representa informação sobre a componente de ineficiência.
Principais resultados
Com menor erro quadrático médio e menor diferença entre o valor de eficiência estimado e o
valor efectivo, estes estimadores possuem um melhor desempenho que o estimador de máxima
verosimilhança na maioria dos casos estudados (modelos com um grande número de estados da
natureza, com poucas observações por estado e modelos afectados por colinearidade).
Bibliografia
[1] Chambers, R.G. e Quiggin, J. (2000). Uncertainty, Production, Choice, and Agency: The
State-Contingent Approach. Cambridge University Press, Cambridge.
[2] Golan, A., Judge, G. e Miller, D. (1996). Maximum Entropy Econometrics: Robust Estimation
with Limited Data. John Wiley & Sons, Chichester.
[3] Golan, A. e Perloff, J.M. (2002). Comparison of maximum entropy and higher-order entropy
estimators. Journal of Econometrics, 107, 195–211.
SPE 2011
178
Sexta, 30/09/2011
Vencer um jogo de basquetebol:
uma análise com probabilidades condicionais
Ana Isabel Carita1 e António Paulo Ferreira2
1
CIPER e Secção de Métodos Matemáticos, Faculdade de Motricidade Humana, Universidade
Técnica de Lisboa, [email protected]
2 Laboratório de Perı́cia no Desporto, Faculdade de Motricidade Humana, Universidade Técnica de
Lisboa, [email protected]
Resumo: A predição do resultado em eventos desportivos é uma matéria que desde sempre tem
animado a investigação em desporto. Concretamente, a determinação da probabilidade de vitória
num jogo é um problema de investigação actual que envolve treinadores, analistas desportivos e
investigadores. No desporto anglo-saxónico, em particular no basquetebol, vários são os modelos
probabilı́sticos sugeridos para a predição dos resultados de jogos e de campeonatos, recorrendo a
informação de registos relativos a performances anteriores (Orendorff e Johnson, 2007; Ben–Naim
et al., 2006; Heit et al., 1994). Muito poucos estudos, porém, se têm dedicado à análise preditiva
do resultado do jogo utilizando registos da performance do decurso do próprio jogo (Burke, 2009).
Neste trabalho procura–se perceber se estar a ganhar em determinado momento é determinante para
vencer o jogo. A partir de uma amostra de 176 jogos da época 2007/08 da fase regular do campeonato da NBA (National Basketball Association), estima-se probabilidades de vitória, condicionais
ao resultado que se verifica em diferentes momentos ao longo do jogo. As probabilidades condicionais são calculadas para uma equipa em diferentes circunstâncias competitivas: em função do
local do jogo (casa vs fora), do nı́vel de oposição e em face do equilı́brio dos jogos. Para além do
estudo da probabilidade condicional de vencer ao longo do jogo, procurou-se igualmente modelar a
variável aleatória definida como o tempo de jogo em que ocorre a última alternância no marcador.
Palavras–chave: Probabilidade condicional, tempo de jogo, alternância no marcador
Bibliografia
[1] Ben-Naim, E., Vazquez, F. e Redner, S. (2006). Parity and predictability of competitions.
Journal of Quantitative Analysis in Sports, vol 2, Issue 4, Article 1.
[2] Burk, B. (2009). Modeling win probability for a college Basketball game. The Wages of Wins
Journal (jornal electrónico).
[3] Heit, E., Price, P. C. e Bower, G.H. (1994). A Model for predicting the outcomes of Basketball
games. Applied Cognitive Psychology, 8, 621–639.
[4] Orendorff, D. e Johnson, T. (2007). First-order probabilistic models for predicting the winners
of professional Basketball games. Project paper. Department of Computer Science, University
of California, Irvine.
SPE 2011
179
Sexta, 30/09/2011
Modelização de séries temporais intervalares por modelos
espácio-temporais
Paulo Teles e Paula Brito
Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal,
{pteles, mpbrito}@fep.up.pt
Resumo: Neste trabalho é proposto e estudado um modelo espácio-temporal para modelizar séries
temporais intervalares, por forma a ter em conta a possı́vel correlação entre os extremos dos intervalos observados. Uma aplicação a dados reais ilustra a abordagem proposta.
Palavras–chave: Dados intervalares, séries temporais intervalares, modelo espácio-temporal autoregressivo
A Análise de Dados Simbólicos oferece um modelo de representação adequado a dados onde
possam ocorrer variabilidade e/ou incerteza em cada observação [3, 4]. Os dados designados
“simbólicos” generalizam o quadro clássico, no qual a cada indivı́duo corresponde a observação
de um único valor para cada variável, permitindo a presença de valores múltiplos, eventualmente
ponderados. Novos tipos de variáveis foram introduzidos, permitindo a representação de variabilidade e/ou incerteza eventualmente inerentes aos dados: variáveis a valores múltiplos, variáveis
intervalares e variáveis modais. Para uma exposição mais alargada sobre esta nova área, o leitor
poderá consultar [3, 6], ou, mais recentemente, [12]. Uma variável designa-se por intervalar se os
seus valores são intervalos de IR; pode ocorrer em múltiplas situações, que resultem de agregacão
temporal ou amostragem sistemática, tais como o registo de temperaturas mensais ou da velocidade
diária do vento em diferentes localizacões ou ainda retornos diários de accões. Outras fontes de
dados intervalares são a agregação de grandes bases de dados em grupos ou classes, onde os valores
reais individuais são generalizados por intervalos, ou situações onde existe alguma imprecisão ou
incerteza no registo do valor de uma variável clássica (e.g., devido a erros de medida). Os dados intervalares podem ser representados pelos limite inferior e superior de cada intervalo observado, ou,
alternativamente, pelo respectivo centro e raio. Quando dados simbólicos intervalares são registados
ao longo do tempo, ou outra dimensão, formam uma série temporal intervalar (STI).
Em [13], Teles e Brito apresentaram o primeiro modelo para séries temporais intervalares, baseado na estimação de processos ARIMA univariados para os limites dos intervalos. Em [1], [7],
[9] e [10] definem processo estocástico intervalar, série temporal intervalar, estacionaridade fraca
para processos intervalares e funções de autocovariância e autocorrelação para séries temporais intervalares. Em [1], [7] e [2] os autores focam-se na previsão baseando-se em modelos vectoriais
autoregressivos (VAR), modelos vectoriais de correcção de erro (VEC) e filtros de alisamento.
Neste trabalho é proposta uma nova abordagem para STI, usando Modelos Espácio-Temporais
Auto-Regressivos (modelos STAR), que permitem levar em conta a existência de correlação contemporânea ou dependência entre os limites inferior e superior (ou centro e raio) dos intervalos
observados. Começamos por estabelecer o modelo STAR bivariado para os limites da STI e por
deduzir o correspondente modelo bivariado para os centros e raios, que se verifica ser um modelo
vectorial auto-regressivo (SVAR) da mesma ordem. Os parâmetros deste último modelo são função
dos parâmetros do primeiro. Casos particulares importantes e respectivas consequências são ana-
SPE 2011
Mesa: Paula Brito
181
Sexta, 30/09/2011
lisadas. Discutimos depois a previsão dos limites da STI a partir do respectivo modelo STAR e dos
centros e raios a partir do modelo SVAR correspondente.
Finalmente, é apresentada uma aplicação desta modelização a dados reais, (ver [11]), que consistem
na série temporal das velocidades mı́nima e máxima diárias do vento medidas em 5 estações metereológicas da Irlanda no perı́odo 1961-1978. O modelo STAR é estimado para os limites dos intervalos e é verificada a sua adequabilidade. O modelo correspondente para os centros e raios é depois
deduzido e as estimativas dos seus parâmetros calculadas a partir do modelo STAR. Seguidamente,
os valores da STI são previstos para vários perı́odos (previsões fora da amostra), evidenciando um
bom desempenho em termos de previsão. Mostra-se ainda a equivalência entre as previsões obtidas
a partir dos limites dos intervalos e dos centros e raios da STI.
Bibliografia
[1] Arroyo, J. (2008). Métodos de predicción para series temporales de intervalos e histogramas,
Unpublished Ph.D. Dissertation, Universidad Pontificia Comillas, Madrid.
[2] Arroyo, J., González-Rivera, G. e Maté, C. (2011). Forecasting with interval and histogram
data. Some financial applications. In: Ullah, A. et al, Eds. Handbook of Empirical Economics
and Finance. Chapman and Hall/CR, New York, pp. 247-280.
[3] Billard, L. e Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Analysis. John Wiley and Sons, Chichester.
[4] Bock, H.-H. e Diday, E. (Eds.) (2000). Analysis of Symbolic Data. Springer, Heidelberg.
[5] Cressie, N.A.C. (1993). Statistics for Spatial Data. John Wiley and Sons, New York.
[6] Diday, E. e Noirhomme, M. (Eds.) (2008). Symbolic Data and the SODAS Software. Wiley,
Chichester.
[7] Garcı́a-Ascanio, C. e Maté, C. (2009). Electric power demand forecasting using interval time
series: A comparison between VAR and iMLPC, Energy Policy 38, 715-725.
[8] Gneiting, T., Genton, M.G. e Guttorp, P. (2007). Geostatistical space-time models, stationarity,
separability, and full symmetry. In: Finkenstädt, B., Held, L. and Isham, V., eds. Statistical
Methods for Spatio-Temporal Systems. Chapman and Hall/CRC, London, 151-175.
[9] González-Rivera, G. e Arroyo, J. (2010). Time series modelling of histogram-valued data: The
daily histogram time series of S&P500 intradaily returns. Int. J. Forecasting (in press).
[10] Han, A., Hong, Y., Lai, K. e Wang, S. (2008). Interval time series analysis with an application
to the Sterling-Dollar exchange rate, J. Systems Science and Complexity 21, (4), 558-573.
[11] Haslett, J. e Raftery, A.E. (1989). Space-time modelling with long-memory dependence: assessing Ireland’s wind-power resource (with discussion). Applied Statistics 38, (1), 1-50.
[12] Noirhomme-Fraiture, M. e Brito, P. (2011). Far Beyond the Classical Data Models: Symbolic
Data Analysis. Statistical Analysis and Data Mining, Vol. 4, (2), 157-170.
[13] Teles, P. e Brito, P. (2005). Modelling interval time series data. Proceedings of the 3rd IASC
World Conference on Computational Statistics and Data Analysis. Limassol, Cyprus.
SPE 2011
Mesa: Paula Brito
182
Sexta, 30/09/2011
Regressão linear com variáveis intervalares
Sónia Dias1 e Paula Brito2
1
Escola Superior Tecnologia e Gestão, Instituto Politécnico Viana do Castelo, Portugal,
[email protected]
2 Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, [email protected]
Resumo: Nesta comunicação é apresentado um modelo de regressão linear para variáveis intervalares. O modelo permite, para cada observação, estimar o intervalo de valores de uma variável
dependente em função dos intervalos observados nas variáveis independentes. Os parâmetros do
modelo são solução óptima de um problema de optimização quadrática, que usa a Distância de
Mallows entre as funções quantil associadas aos intervalos observados, assumindo uniformidade.
Palavras–chave: Dados simbólicos, variáveis intervalares, regressão linear
Nos últimos anos, têm-se desenvolvido diferentes abordagens para a modelização e análise de dados que ultrapassam o modelo usual, onde para cada variável, a cada observação corresponde um
único valor, numérico ou categórico. A Análise de Dados Simbólicos [1] generaliza este modelo
permitindo que a cada indivı́duo ou classe de indivı́duos observados esteja associado um conjunto
finito de valores (variáveis quantitativas a valores múltiplos); um conjunto de categorias (variáveis
qualitativas a valores múltiplos); um intervalo (variáveis intervalares) ou uma distribuição (variáveis
modais); no caso numérico das variáveis modais, a distribuição pode habitualmente ser representada
por um histograma, as variáveis designam-se neste caso por variáveis histograma. Nos últimos anos,
os conceitos e métodos da estatı́stica clássica têm vindo a ser adaptados a este tipos de variáveis
[1, 8]. De entre os vários tipos de variáveis simbólicas, as variáveis intervalares são as mais estudadas. É de salientar que as variáveis intervalares podem ser vistas como um caso particular das
variáveis histograma, quando temos apenas um intervalo com probabilidade igual a um.
O primeiro modelo de regressão linear para variáveis intervalares designa-se Método do Centro e
foi proposto por Billard e Diday em 2000 [1]. Análogos ao anterior, em 2002, os mesmos autores
[2] propõem uma série de modelos dos quais se destaca o Método MinMax. Estes modelos usam o
modelo de regressão linear clássico para estimar os centros e raios ou os extremos dos intervalos. Os
referidos modelos baseiam-se na diferença entre valores reais e não quantificam a aproximação entre
os elementos intervalos. Em 2008, Lima Neto e Carvalho [7] propõem um novo modelo, designado
Método do Centro e Amplitude que, tal como os anteriores, requer o ajuste de dois modelos de
regressão linear clássicos, um para estimar o centro e outro o raio dos intervalos. No modelo que
permite estimar os raios, se os coeficientes estimados forem negativos, poderemos obter valores
negativos para os raios. Esta limitação do modelo fez com que dois anos mais tarde, os mesmos
autores apresentassem uma nova proposta, o Método do Centro e Amplitude com restrições [6].
Neste novo método, ao modelo de regressão linear que permitia estimar os raios dos intervalos é
imposta uma restrição de não negatividade aos parâmetros. No entanto, esta restrição força a que a
relação linear entre os raios tenha que ser obrigatoriamente uma relação linear directa.
Dadas as limitações dos modelos apresentados e uma vez que as variáveis intervalares são um caso
particular das variáveis histograma, particularizamos para variáveis intervalares, o modelo proposto
para as variáveis histograma [4]. Este novo modelo irá permitir estimar os intervalos de valores
SPE 2011
Mesa: Paula Brito
183
Sexta, 30/09/2011
para a variável dependente a partir dos intervalos de valores das variáveis independentes, usando
neste caso a função quantil para representar os valores que as variáveis intervalares podem tomar,
em cada observação. No entanto, o comportamento das funções quantil não permite que o modelo
de regressão linear para as variáveis intervalares seja apenas uma adaptação do modelo de regressão
linear clássico usando as funções quantil para representar os valores que as variáveis intervalares tomam para cada observação. O modelo proposto assenta em conceitos bem diferentes dos anteriores,
e tem como critério minimizar uma distância entre as funções quantil estimadas e observadas, relativas à variável dependente. No entanto, também neste caso se torna necessário impor aos parâmetros
restrições de não negatividade, para impedir a multiplicação de funções quantil (necessariamente
não decrescentes) por um número real negativo, pois nesta situação obterı́amos funções que não
são funções não decrescentes. Contudo, apesar de estarmos a incluir no modelo restrições de não
negatividade aos parâmetros, não estamos a impor que a relação linear seja directa, uma vez que
no modelo proposto incluı́mos não só as funções quantil que representam os intervalos de valores
que as variáveis independentes podem tomar em cada observação, mas também as funções quantil
referentes às respectivas variáveis intervalares simétricas. É de salientar, que se restringimos os
intervalos a um ponto, o modelo proposto coincide com o modelo de regressão linear clássico.
Os valores dos parâmetros do modelo são obtidos como solução óptima do problema de optimização
quadrática sujeito a restrições de não negatividade, que usa a distância de Mallows entre as funções
quantil associadas aos intervalos observados, sob hipótese de uniformidade. Analogamente ao
que acontece no modelo de regressão linear clássico, é então possı́vel deduzir um coeficiente de
determinação que permite medir a qualidade do ajuste do modelo. Esta medida é uma das vantagens do modelo proposto.
A análise dos resultados do modelo e a sua interpretação será apresentada com base em exemplos
já aplicados aos modelos anteriores e em resultados de simulação.
Bibliografia
[1] Billard, L. e Diday, E. (2000). Regression Analysis for Interval-Valued Data. Em: Data Analysis, Classification, and Related Methods. Proceedings of the Seventh Conference of the International Federation of Classification Societies (IFCS’00). Springer, 369-374.
[2] Billard, L. e Diday, E. (2002). Symbolic Regression Analysis. Em: Classification, Clustering
and Data Analysis. Proceedings of the Eighth Conference of the International Federation of
Classification Societies (IFCS’02). Springer, 281-288.
[3] Billard, L. e Diday, E. (2007). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester.
[4] Dias, S. e Brito, P. (2011). Linear Regression for Interval and Histogram Variables. Em:
Classificação e Análise de Dados, Programa e Resumos das XVIII Jornadas de Classificação
e Análise de Dados (JOCLAD’2011), 161-164.
[5] Lima Neto, E.A. e de Carvalho, F.A.T. (2008). Centre and Range Method for Fitting a Linear
Regression Model to Symbolic Intervalar Data. CSDA, 52, 1500-1515.
[6] Lima Neto, E.A. e de Carvalho, F.A.T. (2010). Constrained linear regression models for symbolic interval-valued. CSDA, 54, 333-347.
[7] Noirhomme-Fraiture, M. e Brito, P. (2011). Far Beyond the Classical Data Models: Symbolic
Data Analysis. Statistical Analysis and Data Mining, (in press).
SPE 2011
Mesa: Paula Brito
184
Sexta, 30/09/2011
MAINT.DATA: Um pacote de R para a análise paramétrica
de dados intervalares
A. Pedro Duarte Silva1 e Paula Brito2
1
Faculdade de Economia e Gestão & CEGE, Univ. Católica Portuguesa, Porto, Portugal,
[email protected]
2 Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, [email protected]
Resumo: Neste trabalho é apresentado um pacote R concebido para modelizar dados intervalares
por modelos paramétricos e efectuar análises multivariadas dos dados a partir dessas modelizações.
Palavras–chave: Análise de Dados Simbólicos, dados intervalares, distribuição skew-normal, modelização paramétrica de dados intervalares, testes estatı́sticos para dados intervalares
A Análise de Dados Simbólicos fornece um quadro de representação onde novos tipos de variáveis
permitem considerar directamente a variabilidade e/ou incerteza associados a cada elemento individual do conjunto a analisar, podendo ser observados valores múltiplos, possivelmente ponderados,
em cada variável [2, 4, 5]. Interessamo-nos em particular pelo caso dos dados intervalares, isto é,
quando os elementos em análise são descritos por variáveis cujos valores são intervalos de IR.
Em [3] são desenvolvidas metodologias de inferência baseadas em modelos probabilı́sticos para
variáveis intervalares, onde cada intervalo é representado pelo seu centro e log-amplitude. Num
primeiro modelo, assume-se que a distribuição conjunta dos centros e das log-amplitudes é Normal
multivariada. Este modelo tem a vantagem de permitir a aplicação imediata de métodos inferenciais
clássicos. Se considerarmos os centros dos intervalos como indicadores de localização dos valores
das variáveis, assumir que seguem uma distribuição conjunta Normal corresponde à hipótese Gaussiana usual para dados clássicos. Ao considerar a log-transformação das amplitudes, ultrapassa-se
o problema levantado pelo seu domı́nio limitado. Uma implicação óbvia deste modelo é que as
distribuições marginais dos centros são Normais e as das amplitudes são Log-Normais. Consideraremos em seguida modelos mais gerais, com recurso à distribuição Skew-Normal [1], que permitem
de alguma forma ultrapassar as limitações da distribuição Normal.
A natureza intrı́nseca das variáveis intervalares conduz a estruturas particulares da matriz de variânciacovariância, representadas por cinco possı́veis configurações distintas. Numa formulação mais geral, permitem-se correlações não-nulas entre todos os centros e log-amplitudes; outros casos de
interesse são:
• Os centros (respectivamente, log-amplitudes) de diferentes variáveis podem ser correlacionados, o centro de cada variável pode ser correlacionado com a respectiva log-amplitude, mas
não é permitida correlação entre centros e log-amplitudes de variáveis distintas;
• As variáveis intervalares são não correlacionadas entre si, mas, para cada variável, o centro
pode ser correlacionado com a respectiva log-amplitude;
• Os centros (respectivamente log-amplitudes) de diferentes variáveis podem ser correlacionados, mas não é permitida correlação entre centros e log-amplitudes;
SPE 2011
Mesa: Paula Brito
185
Sexta, 30/09/2011
• Todos os centros e log-amplitudes são não correlacionados entre si.
Neste trabalho, apresentamos o pacote MAINT.DATA, que implementa as metodologias propostas
no ambiente estatı́stico R [6]. É introduzida uma classe de dados especialmente concebida para representar dados intervalares. O pacote proposto inclui funções e métodos para a análise paramétrica
desta classe de dados. Em particular, MAINT.DATA efectua a estimação de máxima verosimilhança
assim como testes estatı́sticos para as diferentes configurações. (M)ANOVA e Análise Discriminante Linear e Quadrática são também implementadas para todas as configurações consideradas.
Bibliografia
[1] Azzalini, A. e Dalla Valle, A. (1996). The multivariate skew-normal distribution. Biometrika
83 (4), 715–726.
[2] Billard, L. e Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester.
[3] Brito, P. e Duarte Silva, A.P. (2011). Modelling interval data with normal and skew-normal
distributions. Journal of Applied Statistics, (in press).
[4] Diday, E. e Noirhomme-Fraiture, M. (Eds.) (2008). Symbolic Data Analysis and the SODAS
Software. Wiley, Chichester.
[5] Noirhomme-Fraiture, M. e Brito, P. (2011). Far beyond the classical data models: symbolic
data analysis. Statistical Analysis and Data Mining, (in press).
[6] R Development Core Team. R: A language and environment for statistical computing. R Fondation for statistical computing. Viena, Austria. ISBN 3-900051-07-0, URL http://www.Rproject.com, 2011.
SPE 2011
Mesa: Paula Brito
186
Sexta, 30/09/2011
Sessão Plenária IV
A Força dos menores
Fernando Rosado
Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL, [email protected]
Resumo: Pensemos, em particular, na Estatı́stica. A Estatı́stica, tão simplesmente, é a ciência
dos dados; também aplicada porque a pesquisa, muitas vezes, visa também uma aplicação. A
Estatı́stica é interessante e útil porque fornece estratégias e instrumentos para trabalhar os dados de
modo a melhor “entrar” em problemas reais. Dados são números (ou a falta deles) inseridos num
determinado contexto ou experiência. Determinar a média de 50 números é puro cálculo aritmético,
não é Estatı́stica. Discernir sobre aquele valor 50 e decidir se temos uma pequena ou grande amostra
e, em cada caso, concluir sobre a discrepância de determinado valor (mesmo que usando a média
atrás calculada!) já é Estatı́stica.
Mas, quais são os temas fundamentais da Estatı́stica para o século XXI? O que agora “é importante”
emerge do século passado? No recente congresso do ISI - International Statistical Institute o “tema
Água” foi eleito para todo um dia de comunicações cientı́ficas. Porquê?
Meditando sobre a investigação, introduza-se “quos fama obscura recondit”. Na dicotomia entre
a “razão menor” e uma “razão mais alta” deve o estatı́stico ter como objectivo (apenas) o conhecimento que lhe permite cobrir as suas necessidades cientı́ficas básicas? Em alternativa, esse deve
ser um estádio inicial tendo por objecto a sabedoria estatı́stica onde (ainda) admite a (enorme) importância dos “detalhes cientı́ficos” daqueles a quem uma obscura fama esconde - chamemos-lhes
outliers; que são estimuladores da investigação e podem ser originados pelos valores discordantes
de uma amostra. Uma minoria!
São esses “menores” que fazem avançar a ciência?! Neles está a força!
Palavras–chave: Estatı́stica, ciência estatı́stica, investigação cientı́fica, outliers
SPE 2011
Mesa: Carlos A. Braumann
187
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Amostragem em duas fases adaptativa para estimar a abundância de populações raras
Anabela Afonso e Russell Alpizar-Jara
Departamento de Matemática e Centro de Investigação em Matemática e Aplicações, Universidade
de Évora, {aafonso, alpizar}@uevora.pt
Resumo: Algumas populações são raras ou tendem a distribuir-se apenas em certas zonas. A amostragem adaptativa garante que uma maior parte do esforço seja gasto nas zonas com maior densidade
de animais, aumentando assim a dimensão da amostra. Recentemente foram propostos desenhos
em duas fases adaptativos para estimar a abundância de populações raras [2]. Nestes desenhos, a
região de estudo em dividida em secções. Numa primeira fase é estimada a taxa de ocupação nessas secções a partir da observação directa ou indirecta da presença dos indivı́duos nessas secções,
ou numa amostra aleatória dessas secções. Na segunda fase, e apenas nas secções que satisfazem
pelo menos um certo patamar de detecções, é realizada uma amostragem mais intensiva do tipo
captura-recaptura sendo a abundância estimada pelos processos habituais. Neste trabalho, propomos a utilização da amostragem por distâncias [1] na segunda fase de amostragem e estudamos as
propriedades deste modelo.
Palavras–chave: Abundância, amostragem adaptativa, amostragem em duas fases, amostragem por
distâncias
Bibliografia
[1] Buckland, S.T., Anderson, D.R., Burnham, K. P., Laake, J.L., Borchers, D.L. e Thomas, L.
(2001) Introduction to distance sampling. Oxford University Press, New York.
[2] Conroy, M.J., Runge, J.P., Barker, R.J., Schofield, M.R. e Fonnesbeck, C.J. (2008). Efficient
estimation of abundance for patchily distributed populations via two-phase, adaptive sampling.
Ecology, 89, 3362–3370.
SPE 2011
189
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Medidas de centralidade, dispersão e simetria em variáveis
categóricas ordinais
Conceição Amado
CEMAT, IST-TUL, [email protected]
Resumo: Neste trabalho discute-se o problema da definição de caracterı́sticas sumárias relativas a
variáveis categóricas ordinais.
Palavras–chave: Variáveis categóricas ordinais, medidas de centralidade, medidas de simetria
Introdução
Muitos problemas práticos envolvem variáveis categóricas ordinais. Estas variáveis caracterizam-se
pela existência de uma ordenação entre os seus possı́veis valores e podem provir da categorização
de uma variável contı́nua que é agrupada, ou de uma variável categórica naturalmente agrupada.
A noção de distância entre os possı́veis valores deste tipo de variáveis não é fácil de definir complicando o conceito da sua distribuição de probabilidades e, naturalmente, das suas caracterı́sticas
sumárias. Neste trabalho discute-se esta questão revendo-se algumas das propostas que têm sido
efectuadas na literatura. Por fim apresentam-se propostas de medidas de simetria e achatamento
para estas variáveis.
Bibliografia
[1] Agresti, A. (2010). Analysis of Ordinal Categorical Data. 2nd ed., Wiley.
[2] Anderson, J.A. e Philips, P.R. (1981). Regression, Discrimination and Measurement Models
for Ordered Categorical Variables. Journal of the Royal Statistical Society. Series C (Applied
Statistics), 30, 22–31.
[3] Franceschini, F., Galetto, M. e Varetto, M. (2004). Qualitative Ordinal Scales: The Concept of
Ordinal Range. Quality Engineering, 16, 515–524.
SPE 2011
191
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Normalidade aproximada
Dário Ferreira1 , Sandra Ferreira1 , Célia Nunes1 e João Tiago Mexia2
1
2
UBI, {dario, sandraf, celian}@ubi.pt
FCT-UNL, [email protected]
Resumo: Muitas estatı́sticas relevantes são polinómios de baixo grau em variáveis independentes. Se essas variáveis, para além de serem normais, tiverem um baixo coeficiente de variação, as
estatı́sticas seguirão uma distribuição aproximadamente normal.
Neste trabalho iremos realizar uma discussão do tema referido. A fim de consolidar os desenvolvimentos teóricos obtidos realizar-se-ão algumas simulações e será apresentada uma aplicação.
Na primeira parte mostraremos que polinómios de baixo grau em variáveis normais independentes,
com um baixo coeficiente de variação, seguem uma distribuição normal. Esse facto é importante
pois muitas estatı́sticas relevantes são polinómios de baixo grau e a assunção da normalidade irá
facilitar a inferência.
De seguida apresentaremos algumas simulações que confirmam os desenvolvimentos teóricos obtidos.
Por último será ainda apresentada uma aplicação utilizando a normalidade aproximada.
Palavras–chave: Normalidade aproximada, convergência quase certa, variáveis normais
Bibliografia
[1] Areias, A., Oliveira, M., M. e Mexia, J.T. (2008). Models for Series of Studies based on
Geometrical Representation. Statistical Methodology, 5, 3, 277–288.
[2] Ferreira, D., Ferreira, S., Ramos, L. e Mexia, J.T. (2008). Normal Approximation to the Product of a Non Central Chi-Square by an Independent Normal Variable. Journal of Applied
Mathematics, 1, 2, 185–192.
[3] Imhof, J.P. (1961). Computing the distribution of quadratic forms in normal variables. Biometrics 48, 3-4, 419–426.
[4] Mexia, J.T. e Oliveira, M. (2010). Asymptotic linearity and limit distributions, approximations,
Journal of Statistical Planning and Inference, 140, 2, 353–357
SPE 2011
193
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Análise de variância robusta
Adelaide Maria Sousa Figueiredo1
1
Faculdade de Economia e LIAAD-INESC Porto, Universidade do Porto, [email protected]
Resumo: Considere-se a abordagem dual da abordagem clássica de estatı́stica multivariada em que
os indivı́duos estão fixos e as variáveis são escolhidas aleatoriamente de uma população de variáveis.
Supondo que as variáveis estão centradas e reduzidas e que a amostra de variáveis é formada por
vários grupos de variáveis, sendo cada grupo de variáveis proveniente de uma população de Watson, pretende-se averiguar se os grupos de variáveis são distintos, usando a análise de variância
dual. Neste trabalho propõe-se uma versão robusta da estatı́stica de teste da análise de variância
dual; mostra-se, efectuando simulações, que na presença de outliers, o teste baseado na estatı́stica
robusta é mais potente que o teste de análise de variância, e apresenta-se uma aplicação desta metodologia a dados bancários.
Palavras–chave: Análise de variância dual, distribuição de Watson
Introdução
Considere-se o quadro de dados multivariado com n indivı́duos descritos por p variáveis. Na abordagem clássica as p variáveis estão fixas e os n indivı́duos são escolhidos aleatoriamente de uma
população de indivı́duos. Neste estudo considera-se a abordagem dual usada por Gomes [7] e Figueiredo [3], onde os n indivı́duos estão fixos e as p variáveis são escolhidas aleatoriamente de uma
população de variáveis. Supõe-se que as variáveis estão centradas e reduzidas, de modo que são
representadas por pontos da esfera n-dimensional. Admite-se que a amostra de variáveis é formada
por vários grupos de variáveis, sendo estes grupos obtidos através da identificação de uma mistura
de distribuições de Watson através do algoritmo EM proposto por Dempster, Laird e Rubin [2] e
aplicado neste contexto por Figueiredo e Gomes [5]. Na análise de variância multivariada clássica
pretende-se comparar várias subpopulações de indivı́duos e associa-se a cada subpopulação uma
distribuição multinormal. Neste trabalho considera-se a análise de variância dual para comparar
vários grupos de variáveis e associa-se a cada grupo de variáveis uma distribuição de Watson. Esta
abordagem foi proposta por Gomes e Figueiredo [8], Figueiredo [3] e Figueiredo e Gomes [4].
Análise de variância dual robusta
A estatı́stica do teste de análise de variância dual depende dos parâmetros das distribuições de
Watson, os quais são em geral desconhecidos e estimados com base nas amostras das populações
de Watson, através das estimativas de máxima verosimilhança. Como Fisher, Lewis e Embleton
([6], p. 176) referem para o caso da distribuição de Watson definida na esfera e também se mostra
para o caso da distribuição de Watson definida na hiperesfera, que a estimação do parâmetro de
concentração é bastante afectada pela presença de contaminantes na amostra, embora a estimação
SPE 2011
195
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
do parâmetro direccional já não seja afectada por contaminantes. Assim propõe-se que na estatı́stica
de teste usada na análise de variância dual, a estimação de cada parâmetro de concentração seja
efectuada através do estimador robusto proposto por Best e Fisher [1] em vez do estimador de
máxima verosimilhança usual.
Potência do teste proposto e aplicação a dados bancários
Efectua-se um estudo de simulação no caso de dois grupos de variáveis para comparar a potência
do teste de análise de variância robusta com o teste de análise de variância dual. Conclui-se que na
presença de contaminantes o teste robusto é mais potente que o teste usual e que a potência do teste
robusto aumenta com o número de contaminantes nas amostras. Na ausência de contaminantes nas
amostras, o teste robusto à presença de um ou dois contaminantes em cada amostra tem potência
semelhante à do teste usual.
Finalmente, apresenta-se uma aplicação onde se considera os bancos portugueses caracterizados por
variáveis tais como a ocupação, antiguidade dos trabalhadores e as suas condições salariais. Com
o objectivo de verificar se os grupos homogéneos de variáveis obtidos através da identificação de
uma mistura de distribuições de Watson são distintos, aplica-se ambas as abordagens de análise de
variância dual, usual e robusta, uma vez que se suspeita da existência de outliers nas amostras.
Bibliografia
[1] Best, D. e Fisher, N.I. (1986). Goodness-of-fit and discordancy tests for samples from the
Watson distribution on the sphere. Australian Journal of Statistics, 28 (1), 13-31.
[2] Dempster, A.P., Laird, N.M. e Rubin, D.B. (1977). Maximum likelihood from incomplete data
via the EM algorithm (with discussion). Journal of the Royal Statistical Society, series B, vol.
39, 1-38.
[3] Figueiredo, A. (2000). Classificação de variáveis no contexto de um modelo probabilı́stico
definido na n-esfera. Tese de Doutoramento, Universidade de Lisboa.
[4] Figueiredo, A. e Gomes, P. (2002). Comparação dos parâmetros direccionais de k populações
de Bingham. Em Novos rumos em Estatı́stica (Carvalho, L., Brilhante, F. & Rosado, F., eds.),
227-234, Edições SPE.
[5] Figueiredo, A. e Gomes, P. (2006). Performance of the EM algorithm on the identification of
a mixture of Watson distributions defined on the hypersphere. REVSTAT - Statistical Journal,
vol. 4, no 2, 19.
[6] Fisher, N.I.; Lewis, T. e Embleton, B.J.J. (1987). Statistical analysis of spherical data. Cambridge University Press.
[7] Gomes, P. (1987). Distribution de Bingham sur la n-sphere: une nouvelle approche de
l’Analyse Factorielle. Thèse de Doctorat D’État, Université de Montpellier.
[8] Gomes, P. e Figueiredo, A. (1999). A new probabilistic approach for the classification of
normalised variables. Bulletin of the International Statistical Institute,vol. LVIII, no 1, p. 403404.
SPE 2011
196
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
O genotipo CC do locus 9p21 apresenta risco acrescido de
doença das artérias coronárias perante valores elevados de
PCR de alta sensibilidade
Sónia Freitas1 , Maria Isabel Mendonça1 , Eva Henriques1 e Roberto Palma dos Reis2
1
Unidade de Investigação - Hospital Central do Funchal,
{soniafreitas, dep.card, evinha afonseca}@srs.pt
2 Faculdade de Medicina da Universidade Nova de Lisboa, [email protected]
Resumo: Estudos recentes de associação genómica em larga escala identificaram vários loci associados com maior risco de doença coronária (DC). De entre vários, a variante CC do SNP rs
1333049 no locus 9p21 tem demonstrado uma associação consistente com a DC que tem sido replicada com sucesso, em várias populações, nomeadamente na nossa. A Proteı́na C Reactiva de alta
sensibilidade (PCR-as) tem sido também associada à actividade inflamatória ligada ao fenómeno
aterosclerótico. Desconhece-se a eventual interacção entre estes dois marcadores de doença aterosclerótica. Objectivo: O objectivo deste trabalho é explorar a interacção entre este alelo mutado em
homozigotia (CC) e os nı́veis plasmáticos elevados de PCR-as no aparecimento da DC.
Métodos: Estudo de casos e controlos, que incluiu 1561 indivı́duos, 695 doentes coronários consecutivos (idade média de anos 53,9 ± 8,9 anos 78,8% do sexo masculino) e 838 controlos sem DC
(idade média de 52,0 ± 11,4 anos 71,0% do sexo masculino), seleccionados para não apresentar
diferenças significativas em relação ao sexo e idade.
As variantes G/C foram estudados de forma cega recorrendo a uma técnica combinada PCR e TaqMan. Analisou-se a distribuição de Hardy-Weiberg.
O risco de DC foi investigado por análise univariada (tabelas 4x2), calculando-se os OR e IC de
95%. Os valores de PCR-as foram repartidos por quartis sendo avaliado o superior, considerado o
de risco. Foram utilizadas medidas de sinergismo no modelo aditivo (SI) e multiplicativo (SIM) e
calculado o excesso de risco relativo (RERI). Limiar de significância valor de p < 0,05.
Resultados: A variante CC está associada à DC, de forma significativa, para toda a população
(OR=1,32; p=0,011). A presença isolada desta variante com valores normais de PCR-as apresentou,
no presente trabalho, risco de DC (Odds Ratio = 1,28). A associação desta variante com valores
elevados de PCR-as (quartil superior) mostrou um aumento do risco de DC (OR=1,7; p =0,007; SI
= 1,63; SIM = 1,15; RERI=0,27).
Conclusão: O presente trabalho revela-nos que o genótipo CC do locus 9p21 pode aumentar, globalmente, o risco de DC. Este pode ser acrescido em algumas circunstâncias, nomeadamente na
presença de valores elevados de PCR-as. Na presença destas duas entidades, verificou-se uma
interacção aditiva e multiplicativa no risco de DC. Este conceito permite-nos antever uma tentativa
de controlo do risco dos factores genéticos pelo controlo das circunstâncias que lhe estão associadas, se susceptı́veis de intervenção.
Palavras–chave: Doença coronária, PCR(as), equilı́brio de Hardy-Weiberg, locus 9p21, sinergismo
SPE 2011
197
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Regressão-M em estudos de associação genéticos de caracterı́sticas quantitativas
Vanda M. Lourenço1 e Ana M. Pires2
1
2
FCT/UNL, Dep. Matemática e IST/UTL, CEMAT, Portugal, [email protected]
IST/UTL, Dep. Matemática e CEMAT, Portugal, [email protected]
Resumo: O pressuposto da normalidade é uma conveniência matemática. Em geral, a distribuição
de caracterı́sticas quantitativas não é normal, apresentando caudas pesadas que por seu turno fazem
com que observações regulares sejam erradamente classificadas como outliers, sendo esta uma das
razões pela qual a não-normalidade e a presença de outliers estão habitualmente associadas. Entretanto, é também sabido que os métodos clássicos que se baseiam na verosimilhança têm um fraco
desempenho aquando da violação deste pressuposto. Tal é igualmente o caso do teste F da ANOVA
cuja potência fica comprometida nestas circunstâncias [3]. Os métodos robustos por seu lado, são
desenhados por forma a serem fiáveis mediante a violação de alguns dos pressupostos subjacentes aos métodos clássicos, em particular a violação da condição da normalidade dos erros (isto no
enquadramento de um modelo de regressão). Neste sentido, pretendemos comparar a abordagem
clássica com duas alternativas não paramétricas [6] e a regressão-M [5] no contexto dos estudos
de associação genéticos de caracterı́sticas quantitativas em que temos marcadores genéticos como
variáveis explicativas e onde se usam os modelos de regressão para aferir possı́veis associações
[1, 2]. Os resultados mostrarão a vantagem da metodologia robusta proposta bem como os perigos
que podem advir da utilização da abordagem clássica mesmo quando os resı́duos apresentam uma
distribuição aproximadamente normal [4].
Palavras–chave: Não-normalidade, estimação-M, estudos de associação, polimorfismo de nucleótido único (SNP)
Agradecimentos: V. M. Lourenço e A. M. Pires agradecem o apoio financeiro do CEMAT, Centro
de Matemática e Aplicações do Instituto Superior Técnico.
Bibliografia
[1] Balding, D.J. (2006). A tutorial on statistical methods for population association studies. Nature Reviews Genetics 7: 781-791.
[2] Chapman, J. e Whittaker, J. (2008). Analysis of multiple SNPs in candidate gene or region.
Genet. Epidemiol. 32(6), 560-566.
[3] Copt, S. e Heritier, S. (2007). Robust alternatives to the F-Test in mixed linear models based
on MM-estimates. Biometrics, 63, 1045–1052.
SPE 2011
199
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
[4] Lourenço, V.M., Pires, A.M. e Kirst, M. (2011). Robust linear regression methods in association studies. Bioinformatics.
[5] Maronna, R.A., Martin, D.R. e Yohai, V.J. (2006). Robust Statistics, Theory and Methods.
Chichester: Wiley.
[6] McKean, J.W. e Terpstra, J.T (2009). Computational rank-based statistics. Wiley Interdisciplinary Reviews: Computational Statistics 1, 132–140.
SPE 2011
200
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Leis da genética de Mendel: a enriquecedora controvérsia
Francisco Macedo e Ana M. Pires
Departamento de Matemática e CEMAT, IST-UTL, [email protected],[email protected]
Resumo: Em 1866 Gregor Mendel publicou as leis da genética, após milhares de experiências
realizadas sobre a reprodução das ervilheiras. Os resultados dessas experiências foram mais tarde
explorados exaustivamente pelo brilhante estatı́stico e geneticista Sir Ronald Fisher que, com o simples objectivo de homenagear um grande homem, acabou por ser surpreendido com a sua própria
análise. Terá Mendel realmente efectuado as experiências? Ou será que manipulou de alguma
forma os resultados, ciente do que pretendia obter? Neste trabalho discute-se a análise e os argumentos apresentados por Fisher. Em particular, analisa-se a combinação de testes do qui-quadrado
recorrendo a simulações de Monte Carlo para reproduzir a forma como as experiências podem ter
decorrido.
Palavras–chave: Genética, qui-quadrado, valor-p
Bibliografia
[1] Fisher, R.A. (1936). Has Mendel’s work been rediscovered? Annals of Science 1, 115–137.
[2] Franklin, A., Edwards, A.W.F., Fairbanks, D.J., Hartl, D.L. e Seidenfeld, T. (2008). Ending
the Mendel-Fisher Controversy. Univ. of Pittsburgh Press, Pittsburgh.
[3] Mendel, G. (1866). Experiments in Plant Hybridization. Verhandlungen des naturforschenden
Vereines in Brünn, Bd. IV für das Jahr, 1865, 3–47. (uma transcrição da primeira tradução em
inglês deste artigo encontra-se em Franklin et al., 2008, pp. 78–114)
[4] Pires, A.M. e Branco, J.A. (2010). A statistical model to explain the Mendel-Fisher controversy. Statistical Science 25, 545–565.
SPE 2011
201
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Funções distância direccionais: novas medidas de eficiência
Pedro Macedo1 , Elvira Silva2 e Manuel Scotto1
1
2
Departamento de Matemática, Universidade de Aveiro, {pmacedo, mscotto}@ua.pt
Resumo: As funções distância direccionais têm um papel importante na teoria económica da
produção, nomeadamente na medição da eficiência e produtividade. A selecção do vector direccional é fulcral, pois condiciona a análise económica. Nesta apresentação são propostas duas novas
medidas de eficiência técnica, uma baseada na mediana de inputs e outputs, e outra baseada nas
funções distância de Shephard.
Palavras–chave: Mediana, eficiência técnica, funções distância direccionais
Introdução
As funções distância direccionais são uma representação completa da tecnologia de produção. Tal
como referido por Chambers, Chung e Färe [1], uma função distância direccional é definida pela
contracção de inputs e, simultaneamente, pela expansão de outputs numa determinada direcção
estabelecida. É importante notar que as funções distância direccionais oferecem uma medida natural
de eficiência, pelo que são apelativas em análise de eficiência. Nesta apresentação são propostas
duas novas medidas de eficiência técnica, uma baseada na mediana de inputs e outputs, e outra
baseada em dois vectores direccionais associados às funções distância de Shephard.
Função distância direccional e vector direccional
Considere-se a tecnologia de produção, T ⊆ RN+ × RM
+ , definida por
T = {(x,y) : x pode produzir y},
(1)
onde x = (x1 ,x2 , . . . ,xN ) ∈ RN+ é um vector de inputs e y = (y1 ,y2 , . . . ,yM ) ∈ RM
+ um vector de outputs. Assumindo que T satisfaz as condições de regularidade tradicionais, uma função distância
direccional pode ser definida por
~DT (x,y; gx ,gy ) = sup{β : (x − β gx ,y + β gy ) ∈ T },
(2)
onde g = (gx ,gy ) ∈ RN+ × RM
+ é um vector direccional que define a direcção na qual os inputs devem
ser contraı́dos e os outputs expandidos. Assim, a distância medida por (2) pode ser interpretada
como uma medida de eficiência técnica, ou seja, uma medida que define em quanto os outputs
podem ser aumentados e os inputs reduzidos, enquanto for tecnicamente possı́vel (e.g., Chambers,
Chung e Färe [1], Färe e Grosskopf [2]).
Uma questão inevitável é: como seleccionar o vector g? Em estudos empı́ricos, o vector direccional
é normalmente definido pela média das observações, isto é, gx = x e gy = y.
SPE 2011
203
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Novas propostas para medir a eficiência técnica
A primeira proposta consiste na distância medida pelo vector direccional g = (med x, med y), onde
med representa a mediana. Assim, neste caso, a direcção é determinada pela mediana dos dados
observados e a medida de ineficiência técnica é dada por
~DT (x,y; med x,med y).
(3)
Na presença de outliers, a medida (3) conduz a menores valores de ineficiência técnica quando
comparada com a medida baseada no vector direccional g = (x,y), cuja direcção é determinada pela
média das observações.
A segunda proposta consiste na medida
rh
i2
i2 h
~DT (x,y; x,0) + ~DT (x,y; 0,y) ,
(4)
que captura informação dos vectores direccionais g = (x,0) e g = (0,y), que estão associados
às funções distância de inputs e outputs de Shephard. Esta medida poderá contribuir para uma
avaliação mais equilibrada da eficiência técnica, uma vez que diferentes produtores com diferentes nı́veis de ineficiência, segundo diferentes vectores direccionais, podem, afinal, ser considerados
semelhantes em termos de ineficiência técnica.
Bibliografia
[1] Chambers, R.G., Chung, Y. e Färe, R. (1998). Profit, Directional Distance Functions, and
Nerlovian Efficiency. Journal of Optimization Theory and Applications, 98, 351–364.
[2] Färe, R. e Grosskopf, S. (2004). New Directions: Efficiency and Productivity. Kluwer Academic Publishers, Boston.
SPE 2011
204
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Uma versão robusta para o estimador do ı́ndice extremal de
Nandagopalan
Cristina Miranda1 , Manuela Souto de Miranda2 , Anabela Rocha3 e Ivette Gomes4
1
CEAUL e ISCA-Universidade de Aveiro, [email protected]
CIDMA e DMAT-Universidade de Aveiro, [email protected]
3 CIDMA e ISCA-Universidade de Aveiro, [email protected]
4 CEAUL e DEIO-Universidade de Lisboa, [email protected]
2
Resumo: Em muitas aplicações frequentes da Teoria de Valores Extremos somos confrontados com
a ocorrência de excedências de nı́veis elevados em grupos. Quando isto sucede, a distribuição de
valores extremos é afetada, havendo necessidade de estimar um outro parâmetro, designado por
ı́ndice extremal. Existem várias propostas na literatura para estimar este parâmetro, que pode ser
interpretado como o inverso da dimensão média dos grupos de excedências, mas os estimadores
mais divulgados não são robustos. Neste trabalho revisitamos o estimador de Nandagopalan, considerando um indicador robusto de localização em substituição da média amostral que o integra, de
modo a obter estimativa robustas do número de excedências que ocorrem em cada grupo.
Palavras–chave: Estimador de Nandagopalan, ı́ndice extremal, robustez
Em Teoria de Valores Extremos é conhecido o resultado que permite a identificação da distribuição
limite do máximo de uma sucessão, Mn = max{X1 ,X2 ,...,Xn }, devidamente normalizado, no caso de
uma amostra com observações independentes e identicamente distribuı́das (i.i.d.):
Seja {Xn } uma sucessão de variáveis aleatórias i.i.d. e admitamos que existem sucessões de constantes {an }, {bn }, com an > 0 e bn ∈ R, tais que
Mn − bn
≤x
P
an
→ G(x).
n→∞
Então, se G(x) é não-degenerada, sabemos que assume uma forma paramétrica especı́fica. Se, para
além disso, considerarmos uma sucessão estacionária, sob determinadas condições, é ainda possı́vel
obter a distribuição limite do máximo, diferindo esta de G(.) por conter um parâmetro θ , conhecido
por ı́ndice extremal. O valor do ı́ndice extremal traduz o grau de dependência de uma sucessão:
quando é zero, os termos da sucessão são fortemente dependentes e quando é 1, a sucessão é de
termos independentes ou assintoticamente independentes.
Na prática, é frequente observar sucessões dependentes em que a ocorrência de extremos se caracteriza pela sua multiplicidade, isto é, em que os extremos não ocorrem de forma isolada, mas em
grupos de valores elevados (ou baixos). São disso exemplo a forma como ocorrem as marés vivas
– há dias consecutivos com marés acima (abaixo) dos valores normais; picos de temperatura, etc..
Um dos estimadores propostos para o ı́ndice extremal é o estimador de Nandagopalan ou de cruzamentos ascendentes. Trata-se do inverso da média amostral da dimensão dos grupos de excedências
que se verificam acima de uma dado nı́vel definido, un .
Se uma sucessão estacionária {Xn } com ı́ndice extremal θ > 0 verifica determinadas condições,
SPE 2011
205
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
então o número médio de excedências e o número médio de cruzamentos ascendentes relacionam-se
através da razão constante 1/θ . Nesses casos, o estimador de Nandagopalan para o ı́ndice extremal,
é definido em [1] por:
1
∑n P [Xi > un (τ )]
,
= n−1 i=1
θ̂nN
∑i=1 P (Xi ≤ un (τ ) < Xi+1 )
(1)
onde os termos un (τ ) representam nı́veis não normalizados, tais que
nP [X1 > un (τ )] ∼ cn τ , com cn , kn → ∞ e
n→∞
cn
→ 0.
kn
Consequentemente,
θ̂nN =
número de cruzamentos ascendentes de un
1
=
.
número total de excedências de un
número médio de excedências em cada grupo
Trata-se de um estimador que converge em probabilidade para θ e que tem distribuição assintótica
Normal. No entanto, a expressão funcional que o define depende de uma média amostral, implicando que o estimador não seja robusto.
Neste trabalho propomos que se utilize um indicador robusto de localização para substituir a média
amostral em (1), obtendo assim, uma versão robusta do estimador de Nadagopalan.
A proposta consiste em estimar de forma robusta a tendência central do número de observações
que constituem os grupos de excedências. Com esse objectivo, estudamos a aplicação de diferentes
estimadores-M, os quais podem ser definidos, implicitamente, pela solução de equações do tipo
∑ ψ (xi ,θ ) = 0, para funções ψ adequadas. As propriedades do estimador, nomeadamente, no que
respeita à robustez, dependem das caracterı́sticas da função ψ escolhida (ver, p.ex., em [2]).
Para avaliar o desempenho da proposta, recorremos a estudos de simulação, comparando os resultados de diferentes versões robustas, com os obtidos pelo estimador de Nadagopalan. Em amostras
onde haja grupos de excedências de dimensão atipicamente elevada (ou pequena) é de esperar que
o estimador proposto supere o original.
Bibliografia
[1] Leadbetter, M.R. e Nandagopalan, S. (1989). On exceedance point processes for stationary
sequences under mild oscillation restrictions. Em Extreme Value Theory (Hüsler, J. and R.-D.
Reiss, eds.), 69–80, Springer-Verlag.
[2] Maronna, R. A., Martin, R. D. e Yohai, V. (2006). Robust Statistics, Theory and Methods. John
Wiley & Sons.
SPE 2011
206
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Estimação simultânea da altura dominante, mortalidade e
área basal no modelo GLOBULUS
Isabel Pereira1 e Marco Marto2
1
2
Universidade de Aveiro, CIDMA, [email protected]
Universidade de Aveiro, [email protected]
Resumo: Os modelos de crescimento florestal e produção são muitas vezes caracterizados por um
sistema de equações que explicitam a interdependência entre equações. Com o objetivo de se modelar o crescimento da espécie Eucalyptus globulus, Tomé et al [1] sugeriram o modelo, não linear,
GLOBULUS. Para se estimarem os parâmetros estruturais deste modelo de crescimento foram usados o método dos mı́nimos quadrados não lineares em três fases e o método NSUR (Nonlinear
Seemingly Unrelated Regression). Adicionalmente foi ainda implementada a metodologia bayesiana para estimar os parâmetros, após se ter feito a escolha do modelo com base no critério de
informação da deviance, vulgarmente designado por DIC. Foi implementado o algoritmo de Monte
Carlo baseado em cadeias de Markov, usando a priori´s não informativas.
Palavras–chave: Algoritmo MCMC, critério DIC, mı́nimos quadrados, modelo de equações simultâneas, NSUR
Introdução
Em Portugal têm sido feitos muitos estudos de modelação do crescimento da espécie Eucalyptus
globulus, mais conhecido correntemente por eucalipto desde a instalação das primeiras parcelas
permanentes, instaladas pela Celbi, em 1971. O modelo resultante dum projecto de colaboração
entre a indústria e a ISA foi o GLOBULUS, apresentado por Tomé et al. [1] e que tem vindo a ser
melhorado em sucessivas versões. O presente trabalho assenta versão GLOBULUS 2.1, Tomé et al.
[2]. O modelo que vai ser analisado segundo as metodologias clássica e bayesianas é um modelo
de povoamento que considera as seguintes variáveis de estado: altura dominante - representando a
altura das árvores dominantes na parcela florestal (em metros), mortalidade - indicando o número
de árvores vivas por hectare na parcela florestal e a área basal- que apresenta a soma das áreas das
árvores da parcela a 1,30m de altura, em m2 /ha. Para os estados mortalidade e área basal terão
de ser considerados dois módulos, o módulo de inicialização e o módulo da projecção, sendo este
último formulado através de equações ás diferenças.
Bibliografia
[1] Tomé, M., Ribeiro, F., Soares, P. (1998). Silvipastoral systems in Portugal. Em Modelling the
growth of tree plantations and agroforestry systems in south and east Africa (Pukkala,T. e
Eerikäinen, K., eds.), Tiedonantoja Research Notes, 80: 23–33.
SPE 2011
207
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
[2] Tomé, M., Ribeiro, F., Soares, P. (2001). O modelo Globulus 2.1. Relatórios TecnicoCientı́ficos do GIMREF no 1/2001. Centro de Estudos Florestais, Instituto Superior de Agronomia, Lisboa.
SPE 2011
208
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Métodos bayesianos de adequação de modelos estatı́sticos:
um estudo de simulação
Maria João Polidoro1 , Fernando Magalhães2 e Maria Antónia Turkman3
1
ESTGF - Instituto Politécnico do Porto, CEAUL, [email protected]
ISCAP - Instituto Politécnico do Porto, CEAUL, [email protected]
3 DEIO e CEAUL - Faculdade de Ciências da Universidade de Lisboa, [email protected]
2
Resumo: O processo de construção de um modelo estatı́stico pode ser visto como uma etapa da
análise estatı́stica que se pode dividir em duas fases: (i) selecção/comparação de modelos e (ii)
validação/adequação do modelo seleccionado. Cada uma destas fases dispõe de várias técnicas que
visam alcançar o melhor modelo, ou seja, aquele que melhor descreva o fenómeno aleatório em
estudo, e que, simultaneamente, seja adequado para produzir inferências úteis à tomada de decisão.
Na abordagem clássica, o estudo da adequação de um modelo aos dados passa pela formulação
de um teste de ajustamento, em que a hipótese nula consiste no modelo proposto. Na abordagem
bayesiana, o modelo inclui, além da distribuição amostral condicional ao vector de parâmetros,
a especificação de uma famı́lia de distribuições a priori para o vector de parâmetros. Há várias
propostas apresentadas na literatura para o estudo da adequabilidade de um modelo segundo a abordagem bayesiana, nomeadamente: (i) métodos baseados em medidas de diagnóstico; (ii) métodos
baseados em medidas de surpresa; (iii) teste do qui-quadrado bayesiano; e (iv) testes de ajustamento
bayesianos não paramétricos.
Neste trabalho apresenta-se um estudo de simulação em que se comparam os métodos bayesianos
de adequação de modelos referidos anteriormente, sugerindo-se ainda, em algumas situações, propostas alternativas.
Palavras–chave: Adequação de modelos, medidas de diagnóstico, medidas de surpresa, qui-quadrado bayesiano, testes de ajustamento não paramétricos
Agradecimentos: Este trabalho é suportado por uma bolsa da FCT - Bolsa SFRH/BD/36869/2007,
pelo CEAUL e pelo PFAD.IPP.
SPE 2011
209
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Testes robustos para modelos lineares generalizados com respostas incompletas
Isabel M. Rodrigues1 , Ana M. Bianco2 e Graciela Boente2
1
2
Instituto Superior Técnico, UTL (TULisbon) e CEMAT, Portugal, [email protected]
Universidad de Buenos Aires e CONICET, Argentina, {abianco, gboente}@dm.uba.ar
Resumo: Em muitas situações em que os dados seguem um modelo linear generalizado a média
das respostas é bem modelada considerando uma função (de ligação) linear das covariáveis. Com
o objectivo de construir testes de hipóteses robustos para os parâmetros de regressão, neste trabalho são estudados novos estimadores robustos desses parâmetros, para conjuntos de dados com
respostas completas ou incompletas. O comportamento assimptótico dos estimadores robustos foi
estudado sob a hipótese nula e sob alternativas contı́guas, o que permitiu obter uma versão robusta
da estatı́stica de Wald. O grau de robustez desta estatı́stica foi estudado através da função de influência do funcional correspondente. O comportamento da nova estatı́stica, para amostra finitas,
foi analisado num estudo de simulação de Monte Carlo.
Palavras–chave: Dados incompletos, estimação robusta, funções de influência, modelos lineares
generalizados, testes robustos
Introdução
Os modelos lineares generalizados (MLG) são uma técnica popular para a modelação de uma vasta
variedade de dados. Assumem que as observações (yi ,xi ), para i = 1, . . . , n, com xi ∈ R p , são independentes com a mesma distribuição de (y,x) ∈ R p+1 , e a distribuição condicional de y|x pertence à
famı́lia exponencial canónica
exp {[yθ (x) − B (θ (x))] /A(τ ) +C(y,τ )} ,
onde A, B e C são funções conhecidas. Nesta situação, se denotarmos por B′ a derivada de B, a
média µ (x) = E(y|(x)) = B′ (θ (x)) é modelada lineramente com uma função de ligação conhecida, g, i.e., g(µ (x)) = θ (x) = xT β . Procedimentos robustos para modelos lineares generalizados
foram considerados, entre outros, por Stephanski, Carroll e Ruppert [7], Künsch, Stefanski e Carroll [6], Bianco e Yohai [3], Cantoni e Ronchetti [4], Croux e Haesbroeck [5] e Bianco, Garcı́a Ben
e Yohai [1]. Recentemente, testes robustos para os parâmetros de regressão do modelo logı́stico
foram estudados por Bianco e Martı́nez [2].
Na prática, pode ocorrer que algumas variáveis resposta sejam incompletas e os métodos anteriormente referidos, delineados para conjuntos de dados completos, são inadequados. Neste trabalho
desenvolvemos procedimentos inferenciais robustos para conjuntos de dados com observações incompletas da variável resposta mas com a covariável x completamente observada. São introduzidos
procedimentos robustos para estimar o parâmetro β , sob o MLG, o qual inclui, no caso de dados
completos, a famı́lia de estimadores anteriormente referida. Mostrou-se√que o estimador robusto de
β é consistente e assimpoticamente normal (com taxa de covergência n). Um teste de hipóteses
SPE 2011
211
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
robusto, do tipo Wald, para testar H0 : β = β 0 foi também estudado. Foi deduzida a função de
influência para o funcional relacionado com a estatı́stica de teste, o que permitiu avaliar o seu grau
de robustez. Um estudo de simulação de Monte Carlo, com diferentes esquemas de contaminação,
permitiu comparar o comportamento da nova estatı́stica de teste, para amostras finitas, com o de
outras estatı́sticas robustas e o da estatı́stica clássica de Wald.
Bibliografia
[1] Bianco, A., Garcı́a Ben, M. e Yohai, V. (2005). Robust estimation for linear regression with
asymmetric errors. Canad. J. Statist., 33, 511-528.
[2] Bianco, A. e Martı́nez, E. (2009). Robust testing in the logistic regression model. Comp. Statist. Data Anal., 53, 4095-4105.
[3] Bianco, A. e Yohai, V. (1995). Robust estimation in the logistic regression model. Lecture
Notes in Statistics, 109, 17-34. Springer-Verlag, New York.
[4] Cantoni, E. e Ronchetti, E. (2001). Robust Inference for Generalized Linear Models. Journal
of the American Statistical Association, 96, 1022-1030.
[5] Croux, C. e Haesbroeck, G. (2003). Implementing the Bianco and Yohai estimator for logistic
regression. Comp. Statist. Data Anal., 44, 273-295.
[6] Künsch, H., Stefanski, L. e Carroll, R. (1989). Conditionally unbiased bounded influence estimation in general regression models with applications to generalized linear models. J. Amer.
Assoc., 84, 460-466.
[7] Stefanski, L., Carroll, R. e Ruppert, D. (1986). Bounded score functions for generalized linear
models. Biometrika, 73, 413-424.
SPE 2011
212
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
Utilização do algoritmo SAEM na análise genética de bovinos
Natascha Almeida Marques da Silva1 , Ângela Maria Quintão Lana2 , Fabyano Fonseca e Silva3
Renato Ribeiro de Lima4 , Martinho de Almeida e Silva2 e José Aurélio Garcia Bergmann2
1
Universidade Federal de Uberlândia, [email protected]
Universidade Federal de Minas Gerais, {lana, martinho, bergmann}@vet.ufmg.br
3 Universidade Federal de Viçosa, [email protected]
4 Universidade Federal de Lavras, [email protected]
2
Resumo: O objetivo do trabalho foi comparar duas diferentes metodologias na avaliação genética de
curvas de crescimento de animais Nelore: o algoritmo SAEM e o método Two Step. A diferença entre eles é que o algoritmo SAEM estima simultaneamente parâmetros do modelo e efeitos genéticos
e ambientais e o método Two Step faz esse processo de estimação em duas etapas distintas, além
do algoritmo SAEM utilizar o método de máxima verossilhança (ML) e do Two-step o de máxima
verossimilhança restrita (REML) .O algoritmo SAEM se mostrou consistente na estimação dos
efeitos fixos e predição dos aleatórios, se apresentando como uma alternativa viável para avaliação
genética.
Palavras–chave: Componentes de (co)variância, algoritmo SAEM, Nelore
Introdução
As estimativas dos parâmetros dos modelos de crescimento em programas de seleção, normalmente,
são obtidas por meio de uma metodologia frequentista (método Two-Step), que considera duas
fases distintas. No entanto, segundo [1] métodos de estimação simultânea de efeitos genéticos e
ambientais são mais eficientes na avaliação genética de animais. [2] sugerem como alternativa
de estimação simultânea uma extensão do algoritmo EM com o uso de um processo estocástico,
denominado algoritmo SAEM (Stochastic Approximation EM algorithm) para se obter estimativas
pelo método da Máxima Verossimilhança. Os objetivos da realização deste trabalho foram: Obter
a partir da utilização do algoritmo SAEM e do método Two Step, os componentes de variância
e os parâmetros genéticos dos parâmetros com interpretação biológica do modelo não linear de
crescimento de Brody modificado.
Metodologia
Foram utilizados dados de 410 bovinos cedidos pela ABCZ. O modelo de crescimento não linear utilizado para avaliar o crescimento, foi o modelo de Brody Modificado conforme [2], para a avaliação
genética dos animais utilizou-se o modelo touro . Para a obtenção dos componentes de variância
provenientes do ajuste do modelo touro, os dados de bovinos Nelore foram analisados por meio
de duas metodologias: SAEM e Two-Step. A forma de aplicação dos métodos SAEM e Two-Step
SPE 2011
213
Sexta, 30/09/2011
Átrio do Café, 16:30–17:00
se deu de quatro maneiras distintas: 1a ) SAEM 1 (S1) - Os dados dos 410 animais Nelore, foram
analisados a partir do algoritmo SAEM. 2a ) Two- Step 1 (TS1)- Dos 410 animais utilizados na primeira etapa de ajuste deste método, apenas 326 que obtiveram convergência para os parâmetros do
modelo foram utilizados. 3a ) SAEM2 (S2)- o algoritmo SAEM foi utilizado para analisar apenas os
dados dos mesmos 326 animais que convergiram no TS1. 4a ) Two- Step 2 (TS2)- Os parâmetros do
modelo estimados pelo SAEM 1, foram utilizados como as variáveis dependentes no modelo touro.
Resultados e discussão
A partir dos resultados obtidos de componentes de variância, observou-se que o S1 apresentou menores valores em relação ao TS1, principalmente em relação aos componentes residuais. Isso se
deve provavelmente pelo fato do TS1 ser executado em duas etapas distintas, assim os erros provenientes do ajuste do modelo de crescimento na primeira etapa não são considerados na estimação
dos componentes de variância na segunda etapa. Como no S1 a estimação é simultânea, há uma
correção nas estimativas dos componentes de variância, diminuindo a variação residual. O mesmo
comportamento é observado quando compara-se TS1 e S2. Quando compara-se o S1 com o TS2, as
estimativas dos componentes de variância obtidas se aproximaram. Esse fato elucida que a diferença
na estimação dos componentes de variância é realmente proveniente do erro de ajuste da primeira
etapa, já que o TS2 utiliza as estimativas de A e K do S1 para estimar os componentes de variância.
No entanto é importante também considerar que outro fator que pode estar elevando as diferenças
entre os componentes de variância estimados, é o fato do SAEM e TS considerarem metodologias diferentes para estimação desses componentes. O SAEM utiliza o método de ML e o TS o
de REML. Por esse motivo as estimativas do SAEM podem estar sendo subestimadas, pois esse já
um comportamento esperado quando se utiliza a ML. [3] comprovam esse fato em um estudo de
simulação de dados, onde estes autores compararam estimativas de componentes de (co)variância
dos parâmetros da curva de crescimento de Gompertz pelos métodos ML e REML.
Conclusões
Pode-se concluir que o algoritmo SAEM mostrou um indicativo de ser adequado para a avaliação
genética de bovinos, pois apresentou estimativas mais estáveis quando comparadas ao TS.
Agradecimentos: Apoio da FAPEMIG e CNPq.
Bibliografia
[1] Blasco A., Piles M. e Varona L. (2003). A Bayesian analysis of the effect of selection for
growth rate on growth curves in rabbits, Genetic Selection Evolution v.35, p. 21–41.
[2] Jaffrézic, F., Meza, C., Lavielle, M. e Foulley, J.L. (2006). Genetic analysis of growth curve
using the SAEM algorithm. Genetic Selection Evolution, v.38, p. 583–600.
[3] Meza, C. Jaffrézic, F. e Foulley, J.L. (2007). REML Estimation of Variance Parameters in
Nonlinear Mixed Effects Models Using the SAEM Algorithm. Biometrical Journal, v. 49, n.6,
p. 876–888.
SPE 2011
214
Sexta, 30/09/2011
Piecewise Loadings - indicadores clássicos adaptados às variantes não-lineares da ACP
Nuno Lavado1 e Teresa Calapez2
1
Instituto Superior de Engenharia de Coimbra (ISEC), Unidade de Investigação em Desenvolvimento Empresarial (Unide-IUL), [email protected]
2 Instituto Universitário de Lisboa (ISCTE-IUL), Unidade de Investigação em Desenvolvimento
Empresarial (Unide-IUL), [email protected]
Resumo: As variantes não-lineares da Análise em Componentes Principais (ACPNL) abordam o
problema da não-linearidade relaxando as restrições lineares da ACP clássica [2]. Um novo algoritmo para esse efeito, designado quasi-linear PCA (qlPCA), foi recentemente proposto pelos
autores [3]. Este é uma adaptação do algoritmo CATPCA [5] concebido para variáveis categoriais
por forma a incorporar directamente variáveis contı́nuas sem necessidade prévia dum processo de
discretização. O algoritmo da qlPCA assenta no processo de Alternating Least Squares [4] associado a transformações spline [1, 6] de ordem inferior a três sem limitações quanto ao número de nós.
Esta comunicação tem dois objectivos: apresentar a qlPCA e exemplificar uma das suas potencialidades - a tradução da informação associada às componentes principais não-lineares em termos das
variáveis originais naquilo que designamos de piecewise loadings.
Palavras–chave: Análise em componentes principais não-linear, quasi-linear PCA, piecewise loadings
Bibliografia
[1] Boor, C. (1978). A Practical Guide to Splines. Springer.
[2] Calapez, T. e Lavado, N. (2005). Um enquadramento das variantes não-lineares da ACP via
transformações spline. Em Estatı́stica Jubilar. Actas do XII Congresso da Sociedade Portuguesa de Estatı́stica (Carlos A. Braumann, Paulo Infante, Manuela M. Oliveira, Russell
Alpı́zar-Jar, Fernando Rosado, eds.), 391–402. Edições SPE.
[3] Calapez, T. e Lavado, N. (2011). Quasi-linear PCA: Low order spline’s approach to non-linear
principal components. Aceite para publicação pela IAENG.
[4] Gifi, A. (1991). Nonlinear Multivariate Analysis. Wiley.
[5] Meulman, J., Kooij, A. e Heiser, W. (2004). Principal components analysis with nonlinear
optimal scaling transformations for ordinal and nominal data. Em The Sage Handbook of
Quantitative Methodology for the Social Sciences, 49–70, Sage.
[6] Winsberg, S. e Ramsay, J. (1983). Monotone spline transformations for dimension reduction.
Psychometrika, 48, 575–595.
SPE 2011
Mesa: Isabel Rodrigues
215
Sexta, 30/09/2011
Informação estatı́stica e decisão empresarial: avaliação das
escalas de medida de um modelo estrutural
Armindo Carvalho e Francisco V. Martins
Faculdade de Economia do Porto, {amsc,vmartins}@fep.up.pt
Resumo: Neste estudo é desenvolvido um modelo de medida do desempenho de sistemas de
informação baseado nos conceitos de usabilidade e actuabilidade. Para o efeito, é definido um
modelo de equações estruturais, através do qual se pretende determinar os factores que contribuem para explicar a utilidade das estatı́sticas oficiais nos processos de decisão dos operadores
turı́sticos portugueses. Tais factores explicativos constituem variáveis latentes (constructos) não observáveis cuja quantificação terá de ser assegurada por meio de medidas apropriadas. O objectivo
desta apresentação é de discutir os resultados da análise factorial confirmatória aplicada para testar
a validade das variáveis de medida usadas como representações dos constructos teóricos do modelo
estrutural.
Palavras–chave: Sistemas de informação, estatı́sticas oficiais, tomada de decisão, modelos de
equações estruturais, análise factorial confirmatória
Problemática
A complexidade crescente das organizações modernas é acompanhada de necessidades acrescidas em informação de qualidade, devidamente sistematizada para responder atempadamente às
exigências de gestão de processos de decisão. Os progressos alcançados nas tecnologias de informação permitiram ampliar o potencial dos meios de acesso à informação, tornando-os mais flexı́veis e
fáceis de utilizar, acrescentando-lhes valor.
A competitividade das empresas é por sua vez tributária da capacidade de aproveitar convenientemente as oportunidades abertas por este recurso fundamental para a eficiência dos processos de
gestão, determinante para o sucesso empresarial. O investimento neste recurso e a forma como é
gerido e aproveitado, são factores que condicionam as possibilidades de diferenciação e de melhoria
do seu posicionamento e vantagens de competitividade.
A captura de dados pertinentes para a gestão organizacional baseia-se no acesso a um conjunto
de fontes de informação, incluindo os sistemas de operações internas e de clientes, de fornecedores, de concorrentes, de mercados de produtos e serviços e de outras entidades externas como
as organizações produtoras de sondagens e previsões ou os organismos produtores de estatı́sticas
oficiais.
A informação e, de um ponto de vista mais amplo, os sistemas de informação, enquanto factores
de qualificação de processos de decisão devem assim ser avaliados de uma dupla perspectiva: a da
capacidade de acesso e utilização adequada da informação disponı́vel e a da utilidade em processos
de decisão. Dimensões que Beynon-Davies (2002) define como efeitos de primeira ordem e de
segunda ordem dos sistemas de informação.
SPE 2011
217
Sexta, 30/09/2011
Os efeitos de primeira ordem referem-se a questões de uso, e portanto à problemática da usabilidade
em sistemas de informação. Os efeitos de segunda ordem respeitam ao impacto dos sistemas de
informação na actividade das organizações, facto que remete para a problemática do seu potencial
acção e a avaliação da sua actuabilidade.
A usabilidade é uma caracterı́stica que reflecte o quanto amigável é um sistema de informação. Expressa a facilidade de aprendizagem para novos utilizadores e a facilidade de uso para utilizadores
habituais. Sendo a informação cada vez mais um elemento crucial do processo de decisão, a usabilidade da informação e dos sistemas de informação é um factor crı́tico para a efectiva integração
entre informação e decisão.
Goldkuhl e Ågerfalk (2002) define a actuabilidade de um sistema de informação como a aptidão
desse sistema de informação para realizar, promover e facilitar a realização de acções concretas
pelos utilizadores, através do sistema e na base de informação do sistema, num dado contexto organizacional.
Partindo dos dois conceitos de usabilidade e actuabilidade pretende-se estudar as práticas e os factores condicionantes do uso de sistemas de informação, e em particular dos sistemas de informação
estatı́stica oficial no contexto do processo de decisão empresarial no sector do Turismo. Para o efeito
foi definido um quadro conceptual alicerçado num modelo de equações estruturais, na base do qual
foi estabelecido um instrumento de avaliação empı́rica e aplicado a uma amostra de operadores
turı́sticos.
O instrumento de avaliação operacionaliza um conjunto de escalas de medida usadas como quantificações empı́ricas representativas dos constructos teóricos envolvidos no sistema de inter-relações
definido pelo modelo estrutural adoptado. O objectivo desta apresentação é de discutir os resultados da análise factorial confirmatória aplicada para efeitos de avaliação da validade das medidas de
quantificação enquanto representações empı́ricas dos constructos teóricos do modelo.
Bibliografia
[1] Beynon-Davies, P. (2002). Information Systems. Palgrave, New York.
[2] Goldkuhl, G. e Ågerfalk, P.J. (2002). Actability: A Way to Understand Information Systems
Pragmatics, In Coordination and Communication Using Signs: Studies in Organisational Semiotics 2, (Eds, K. Liu, et al.) Boston: Kluwer Academic Publishers.
SPE 2011
218
Sexta, 30/09/2011
Modelos de análise factorial exploratória e confirmatória parameterizados como modelos com grafos
Maria de Fátima Salgueiro
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa, Portugal,
[email protected]
Resumo: Nesta apresentação o modelo clássico de análise factorial e o modelo de análise factorial
confirmatória, com mais de um factor, são parameterizados como modelos com grafos com estruturas em cadeia, usando correlações parciais. São apresentadas expressões para as relações entre
i) correlações parciais entre variáveis manifestas, ii) correlações parciais entre variáveis manifestas
e factores latentes e iii) pesos factoriais. Os resultados propostos são ilustrados recorrendo a um
modelo com dois factores de bem-estar, usando dados do British Household Panel Survey.
Palavras–chave: Análise factorial exploratória, análise factorial confirmatória, correlação parcial,
modelos com grafos com estrutura em cadeia
Modelos com grafos e modelos de análise factorial
A modelação com grafos (graphical modelling) é uma técnica de análise estatı́stica multivariada,
baseada no conceito de independência condicionada, que usa grafos para representar modelos. O
grafo é uma representação da estrutura de independências condicionadas das variáveis: vértices
representam variáveis; arestas representam associações entre variáveis. A interpretação da estrutura
de associações é feita directamente a partir do grafo, com recurso às propriedades de Markov. Para
uma introdução a estes modelos ver Whittaker (1990); para uma exposição mais matemática ver
Lauritzen (1996).
O modelo clássico de análise factorial postula que os factores latentes reproduzem a estrutura de
variâncias/covariâncias (ou de correlações) das variáveis manifestas, sendo as variáveis manifestas
condicionalmente independentes dado os factores latentes (Bartholomew e Knott, 1999).
Num modelo de análise factorial confirmatória a estrutura dos pesos factoriais é definida à priori, dependendo de que variáveis manifestas se supõem medir os factores latentes no modelo em
estudo. Os factores latentes assumem-se correlacionados entre si, podendo o modelo de análise factorial confirmatória ser considerado a componente de medida de um modelo de equações estruturais
(Bollen, 1989).
Parameterização de um modelo de análise factorial com mais de um factor como um modelo
com grafos
Salgueiro et al., (2008) mostraram como parameterizar um modelo de análise factorial com um
factor como um modelo Gaussiano com grafos, usando correlações parciais, tendo enfatizado o
SPE 2011
219
Sexta, 30/09/2011
contributo da parameterização proposta para uma melhor compreensão deste tipo de modelos, designadamente no que à estrutura de associações entre variáveis manifestas diz respeito.
Salgueiro et al. (2010) exploraram as relações entre a parameterização clássica e a parameterização
como um modelo Gaussiano com grafos do modelo de análise factorial com um factor, e derivaram
expressões matemáticas para as relações entre manifest partial correlations (correlações parciais entre variáveis manifestas), factor partial correlations (correlações parciais entre variáveis manifestas
e factores latentes) e factor loadings (pesos factoriais).
O presente trabalho ilustra como parameterizar o modelo clássico de análise factorial e o modelo de
análise factorial confirmatória como graphical chain models (modelos com grafos com estrutura em
cadeia). São usadas correlações parciais para investigar a estrutura de associações entre variáveis
manifestas no modelo.
São extendidos resultados anteriormente obtidos por Salgueiro et al. (2008) e (2010). São considerados o modelo clássico de análise factorial e o modelo de análise factorial confirmatória, com dois
factores latentes, e apresentadas expressões matemáticas para as relações entre i) correlações parciais entre variáveis manifestas, ii) correlações parciais entre variáveis manifestas e factores latentes
e iii) pesos factoriais.
Os resultados obtidos são ilustrados com dados do British Household Panel Survey, sendo considerados dois factores latentes de bem-estar percepcionado, cada um deles medido por três variáveis
manifestas.
Agradecimentos: A investigação desenvolvida teve o apoio da Fundação para a Ciência e a Tecnologia, Bolsa SFRH/BSAB/981/2010.
Bibliografia
[1] Bartholomew, D.J. e Knott, M. (1999). Latent Variable Models and Factor Analysis. 2a ed.
London: Arnold Publishers.
[2] Bollen, K.A. (1989). Structural Equations with Latent Variables. John Wiley & Sons.
[3] Lauritzen, S. L. (1996). Graphical Models. Oxford: Oxford University Press.
[4] Salgueiro, M.F., Smith, P.W.F. e McDonald, J.W. (2008). The manifest association structure
of the single-factor model: insights from partial correlations. Psychometrika, 73 (4), 665–670.
[5] Salgueiro, M.F., Smith, P.W.F. e McDonald, J.W. (2010). Connections between graphical gaussian models and factor analysis. Multivariate Behavioral Research, 45, 135–152.
[6] Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics. Chichester: John
Wiley & Sons.
SPE 2011
220
Sexta, 30/09/2011
Modelos de simulação para o bloqueio neuro-muscular: uma
análise estatı́stica
Conceição Rocha, Maria Eduarda Silva e Teresa Mendonça
Departamento de Matemática, Faculdade de Ciências, U. Porto e CIDMA, {[email protected],
[email protected],tmendo}@fc.up.pt
Resumo: O desenvolvimento de sistemas para administração de fármacos por via endovenosa em
anestesia requer a integração da informação extraı́da dos dados recolhidos em ambiente clı́nico nos
modelos baseados nas leis fı́sicas, quı́micas e biológicas, de forma a representar adequadamente
a variabilidade interindividual observada. Neste trabalho propõe-se e valida-se um modelo para o
relaxamento muscular induzido pela administração do fármaco atracurium que será usado como
modelo de simulação para determinar a dose individualizada de fármaco a administrar em modo
contı́nuo.
Palavras–chave: Modelo de simulação, dados longitudinais
Na anestesia moderna, a utilização de infusões endovenosas de fármacos têm tido uma evolução
continuada, no sentido de induzir no paciente um estado estável num nı́vel de anestesia desejado. A relação entre a dose de fármaco administrada e o efeito fisiológico induzido é determinada pelas caracterı́sticas farmacocinéticas e farmacodinâmicas, PK/PD, do fármaco. O modelo
farmacocinético-farmocodinâmico, PK/PD, de um fármaco descreve quer a evolução temporal da
concentração plasmática do fármaco quer a relação entre a concentração plasmática de fármaco e o
efeito fisiológico induzido. Os parâmetros dos modelos PK/PD dependem das caracterı́sticas individuais dos pacientes e a sua determinação requer medições da concentração plasmática do fármaco
em instantes diferentes ao longo da sua acção o que é impraticável.
No caso particular do fármaco atracurium que provoca relaxamento muscular, Lago [1] propõe
um modelo populacional, doravante referido como M , que tem sido usado extensivamente em
simulações com vista ao desenho de controladores automáticos. As caracterı́sticas populacionais
deste modelo foram estabelecidas com base nos parâmetros farmacocinéticos/farmacodinâmicos
(PK/PD) de 12 pacientes submetidos a pequenas cirurgia publicados por Ward [4] e Weatherley [5].
No entanto, trabalho recente, Rocha [2], sugere que o modelo M para o relaxamento muscular induzido pelo atracurium não representa adequadamente o relaxamento muscular observado em bloco
operatório de um conjunto de 84 pacientes submetidos a anestesia geral. Mais, a recalibração do modelo M com base nos dados actualmente disponı́veis não é possı́vel uma vez que as concentrações
plasmáticas dos pacientes não estão disponı́veis.
Em alternativa ao modelo PK/PD, é proposto em [3] um modelo para o relaxamento muscular
induzido pelo atracurium, aqui designado por N BR . Este modelo é um modelo reduzido que
contém apenas dois parâmetros que dependem das caracterı́sticas individuais do paciente, sendo os
outros parâmetros dependentes do modo de administração do fármaco. Neste trabalho considera-se
então o problema de estabelecer um modelo populacional para o relaxamento muscular induzido
pelo atracurium com base no modelo N BR . O modelo depois de validado, será usado como
modelo de simulação para determinar a dose individualizada de fármaco a administrar em modo
contı́nuo.
SPE 2011
Mesa: Luzia Gonçalves
221
Sexta, 30/09/2011
Agradecimentos: Conceição Rocha agradece a bolsa de doutoramento SFRH/BD/61781/2009 da
FCT/ESF.
Bibliografia
[1] Lago, P., Mendonça, T. e Gonçalves, L. (1989). On-line autocalibration of a PID controller
of neuromuscular blockade. Em Proceedings IEEE Int. Conference on Control Applications,
363–367.
[2] Rocha, C., Mendonça, T. e Silva, M.E. (2009). Online individualized dose estimation.
Em Proceedings of the 6th IEEE International Symposium on Intelligent Signal Processing
(WISP2009), 26–28.
[3] Silva, M.M., Wigren, T. e Mendonça, T. (2011). Nonlinear identification of a minimal NeuroMuscular Blockade model in anesthesia. IEEE Trans. Contr. Sys. Tech., aceite para publicação.
[4] Ward, S., Neil, A., Weatherley, B. e Corall, M.(1983). Pharmacokinetics of Atracurium Besylate in Healthy Patients (after a single i.v. bolus dose). British Journal of Anaesthesia, 55,
113–116.
[5] Weatherley, B., Williams, S. e Neill, S. (1983). Pharmacokinetics, Pharmacodynamics and
Dose-Response Relationships of Atracurium Administered i.v.. British Journal of Anaesthesia,
55, 39–45.
SPE 2011
222
Sexta, 30/09/2011
Análise de dados longitudinais com as observações dependentes do tempo de medição: uma revisão bibliográfica
Lisandra Rocha, Inês Sousa e Raquel Menezes
Departamento de Matemática e Aplicações, Universidade do Minho, [email protected],
{isousa,rmenezes}@math.uminho.pt
Resumo: Os estudos longitudinais caracterizam-se por acompanhar a evolução dos indivı́duos,
medindo-os várias vezes ao longo do tempo. Em muitos estudos longitudinais, os indivı́duos não
são necessariamente sempre medidos no mesmo intervalo de tempo, nem com a mesma frequência
e nem medidos em tempos igualmente espaçados.
Considera-se que, neste tipo de estudos existem dois importantes processos a modelar: processos do
tempo de medição e o processo de respostas. O processo de tempo de medição pode ser deterministico ou estocástico e o processo de respostas é estocástico. Por exemplo, num estudo clı́nico, não só
as medições observadas longitudinalmente podem dar informações sobre um estado de doença, mas
também o acompanhamento pode dar informações sobre o estado de saúde dos pacientes. Neste
caso, o acompanhamento não pode ser considerado fixo pelo planeamento de estudo, mas o modelo
deve considerá-lo dependente das medições longitudinais anteriores.
Neste trabalho, é apresentada uma revisão bibliográfica nos estudos que existem sobre dados longitudinais com as observações dependentes do tempo de medição. A pesquisa concentrou-se na
análise de três artigos sobre o tema: Lipsitz et al. (2002), Lin et al. (2004) e Fitzmaurice et al.
(2006). Nestes artigos são propostos vários modelos para analisar a dependênncia entre o processo
de respostas e o processo de tempo de medição.
O objectivo deste trabalho é reunir e analisar a informação existente sobre este tema e perceber a
abordagem utilizada em estudos anteriores.
Palavras–chave: Dados longitudinais, processo de medição, processo de respostas
Agradecimentos: Os autores agradecem à FCT pelo projecto PTDC/MAT/104879/2008. A autora
Lisandra Rocha possui uma bolsa de doutoramento da FCT SFRH/BD/61368/2009.
Bibliografia
[1] Crawley M.J. (2007). The R Book. John Wiley and Sons, Ltd.
[2] Diggle, P.J., Heagerty, P., Liang K-Y. e Zeger, S.L. (2002). Analysis of Longitudinal Data
(second edition). Oxford: Oxford University Press.
[3] Fitzmaurice, G.M., Lipsitz, S.R., Ibrahim, J.G., Gelber, R. e Lipshultz, S. (2006). Estimation
in regression models for longitudinal binary data with outcome-dependent follow-up. Biostatistics , 7, 3, pp. 469–485.
SPE 2011
223
Sexta, 30/09/2011
[4] Lin, H., Scharfstein, O.D. e Rosenheck, R.A. (2004). Analysis of longitudinal data with irregular, outcome-dependent follow-up. Royal Statistical Society 66, Part 3, pp. 791–813.
[5] Lipsitz, S.R., Fitzmaurice, G.M., Ibrahim, J.G., Gelber, R. e Lipshultz, S. (2002). Parameter
estimation in longitudinal studies with outcome-dependent follow-up. Biometrics 58, 50–59.
[6] Pinheiro J. e Bates, D. (2002). Mixed-Effects Models in S ans S-PLUS. Springer
SPE 2011
224
Sexta, 30/09/2011
Predicting hypotension in intensive care monitoring:
an optimal alarm system approach
Sónia Gouveia1 e Manuel Scotto2
1
Centro de Matemática da Universidade do Porto e Departamento de Matemática da Universidade
de Aveiro, Portugal, [email protected], [email protected]
2 Departamento de Matemática da Universidade de Aveiro (UA) e Centro de I&D em Matemática e
Aplicações (CIDMA-UA), Portugal, [email protected]
Abstract: The purpose of this talk is to introduce a suitable framework for constructing optimal
alarm systems based on excursions of an alarm process in time, to predict whether a temporal process will enter a catastrophic situation in later time. The alarm system is developed bearing in mind
the prediction of acute hypotensive episodes using mean arterial pressure time series acquired from
patients staying at Intensive Care Units. The methods are illustrated and validated using experimental data from the MIMIC II dataset.
Keywords: Optimal alarm system, prediction, hypotension
Introduction
Improving patients survival in intensive care units (ICU) demands for early identification of imminent risk of abnormally low blood pressure, i.e., acute hypotensive episodes (AHE). An AHE can
deprive the brain and other vital organs of oxygen and nutrients, leading to a life-threatening condition and irreversible organ damages [8]. These episodes are defined as a sustained downcrossing
of the mean arterial pressure (MAP) time series for a fixed threshold value (see Fig. 1). Typically,
150
MAP (mmHg)
120
90
60
30
140
145
150
155
160
Elapsed time since ICU admission (hours)
165
170
Figura 1: Mean arterial blood pressure (MAP) at one-minute intervals. The dashed lines
delimitate the one-hour length forecast window, where an AHE occurs, i.e., a period longer
than 30 minutes during which at least 90% of the MAP values are lower than 60 mmHg.
SPE 2011
225
Sexta, 30/09/2011
AHE are predicted based on conventional linear forecasting. One of the major drawbacks of this
approach, however, is that it fails to provide the probability of future downcrossings. It is in this
context that the implementation of an optimal alarm system reveals to be useful for AHE prediction.
Optimal Alarm Systems (hereafter OAS) are developed to predict potential catastrophes based on
level crossings for a random process over time. One set of principles for OAS construction OAS in
the continuous time-domain has been described, and basic results considering Gaussian processes
were obtained ([3, 4, 6]). Results for discrete-time processes have also been reported ([1, 2]). The
purpose of this work is to introduce a suitable framework for constructing OAS based on excursions
of an alarm process in time, to predict whether a temporal process will enter a catastrophic situation
in later time. Once this framework has been developed, general results which incorporate appropriate definitions of an alarm event and a catastrophe event are presented. In particular, the goal of
this work is to use MAP information to predict if the patient will have an AHE that begins during a
given forecast window (see Fig. 1).
It is worth noting that as the alarm framework needs to be cost effective in the sense of not providing
too many false alarms, concepts from reliability and risk analysis need to be incorporated into it.
In this context, the performance of the methods is evaluated on experimental data from the MIMIC
II database [7], a representative sample of physiologic time series from patients in ICU of a major
teaching hospital. A set of 60 train and 50 test cases were included into the study, each case being a
MAP series at one-minute samples. Also, AHE/nonAHE classifications and timing of the forecast
window were available.
The spectrum of OAS applications is wide and yet to be explored. One major area of applications is
in environmental statistics, e.g., to investigate the occurrence of future rare events which can have
catastrophic consequences for human activities, through their impacts on the natural and constructed
environments. Another area of OAS application is econometrics, e.g. in risk management, with the
implementation of probabilistic models for the assessment of market/credit risks.
Bibliography
[1] Amaral-Turkman, M.A. e Turkman, K.F. (1990). Optimal alarm systems for autoregressive
processes; a Bayesian approach. Computational Statistics and Data Analysis, 10, 307–314.
[2] Antunes, M., Amaral-Turkman, M.A. e Turkman, K.F. (2003). A Bayesian approach to event
prediction intervals. Journal of Time Series Analysis, 24, 631–646.
[3] de Maré, J. (1980). Optimal prediction of catastrophes with application to Gaussian process.
Annals of Probability, 8, 841–850.
[4] Lindgren, G. (1975). Prediction for a random point time. Annals of Probability, 3, 412–423.
[5] Lindgren, G. (1975). Prediction of catastrophes and high level crossings. Bulletin of the International Statistical Institute, 46, 225–240.
[6] Moody, G.B. e Lehman L.H. (2009). Predicting Acute Hypotensive Episodes: The 10th Annual PhysioNet/Computers in Cardiology Challenge. Computers in Cardiology, 36, 541–544.
[7] Saeed, M., Lieu, C., Raber, G. e Mark, R.G. (2002). MIMIC II: A massive temporal ICU patient database to support research in intelligent patient monitoring. Computers in Cardiology,
29, 641–644.
SPE 2011
226
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
gSDE Software: tempos de primeira passagem em modelos
estocásticos de crescimento individual
Nuno Brites1 , Carlos A. Braumann1 , Clara Carlos1,2 e Patrı́cia A. Filipe1
1
Universidade de Évora - Centro de Investigação em Matemática e Aplicações,
[email protected], [email protected], [email protected]
2 Instituto Politécnico de Setúbal - Escola Superior de Tecnologia do Barreiro,
[email protected]
Resumo: Em trabalhos anteriores estudámos vários modelos de crescimento individual em ambiente aleatório. Problemas de ajustamento e previsão foram também estudados tanto para modelos
estocásticos como para modelos clássicos de regressão. Para a estimação dos parâmetros destes
modelos criámos um conjunto de algoritmos e desenvolvemos um novo software (chamado gSDE
Software) que incorpora esses algoritmos. Apresentamos aqui um novo módulo para o software
gSDE que permite o cálculo da média e variância de tempos de primeira passagem para os modelos
estudados.
Palavras–chave: gSDE, equações diferenciais estocásticas, crescimento individual, tempos de primeira passagem
Em [1] foram utilizados modelos do tipo
dY (t) = b(A −Y (t))dt + σ dW (t), Y (t0 ) = y0 ,
(1)
para modelar o crescimento de animais em ambiente aleatório, onde Y (t) = g(X(t)), com g uma
função (conhecida) estritamente crescente e continuamente diferenciável; y(0) = g(x(0)), com x(0)
a representar o tamanho à nascença; A = g(a), com a a representar o tamanho na maturidade;
b > 0 é o coeficiente de crescimento ou a taxa de aproximação à maturidade; σ mede a intensidade das flutuações aleatórias do ambiente sobre o crescimento e W (t) é o processo de Wiener padrão. A função g pode assumir várias formas, por exemplo g(x) = xc , c > 0 que corresponde ao modelo de Bertalanffy-Richards estocástico ou g(x) = ln(X(t)) que representa o modelo de Gompertz estocástico. A solução de (1) é um processo de difusão ergódico com coeficientes de tendência e difusão dados por µ (y) = b(AR− y) e σ 2 (y) = σ 2 , respectivamente, cuja
−bt
−bt t ebs dW (s). Sabemos ainda que (ver [2])
forma é dada
0
+ σe
por: Y (t) = A + e (y0 − A)
Y (t) ∼ N A + e−bt (y0 − A), σ2b (1 − e−2bt ) e Y (+∞) ∼ N A, σ2b , com Y (+∞) a representar a
variável aleatória cuja distribuição é a distribuição assintótica de Y (t). Estes resultados permitiramnos obter as estimativas de máxima verosimilhança dos parâmetros (A,b,σ ). Considerámos ainda
modelos multifásicos, isto é, modelos em que a taxa de aproximação à maturidade tem diferentes valores em diferentes instantes e ainda modelos cujo tamanho na maturidade difere de animal
para animal (ver [1] e [2]). Um resumo destes modelos, técnicas de cálculo das estimativas dos
parâmetros e o manual do software gSDE podem ser consultados em [2].
2
2
Pretendemos agora estudar, para este tipo de modelos, os tempos de primeira passagem por limiares
superiores ao tamanho inicial. Assim, seja Q∗ um limiar superior para o tamanho do animal X(t).
O nosso objectivo é determinar o tempo que um animal demora a alcançar o tamanho Q∗ , pela
primeira vez. Considerar o tempo que demora até um animal atingir um determinado tamanho Q∗
é equivalente a considerar o tempo de primeira passagem de Yt por Q = g(Q∗ ). Denotemos esse
SPE 2011
Mesa: Maria de Fátima Brilhante
227
Sexta, 30/09/2011
tempo por TQ = inf{t > 0 : Y (t) = Q} e assuma-se que y0 < Q < +∞ com Q no interior do espaço
de estados de Y .
Os resultados explı́citos sobre a média e a variância de tempos de primeira passagem para soluções
ergódicas de equações diferenciais estocásticas autónomas com densidade estacionária em condições
de regularidade adequadas podem encontrar-se em [1], [3] e [4], tendo-se aı́ obtido, para o caso
particular dos modelos do tipo (1), as seguintes expressões explı́citas para a média e variância de
TQ :
E[TQ |Y (0) = y0 ] =
√
1
b
Z η
Φ(z)
ζ
√
φ (z)
dz e Var[TQ |Y (0) = y0 ] =
2
b2
Z η
ζ
1
φ (z)
Z z
Φ2 (y)
−∞
φ (y)
dydz,
(2)
onde ζ = σ2b (y0 − A), η = σ2b (Q − A), Φ e φ são a função distribuição e a função densidade de
probabilidade de uma variável aleatória Gaussiana estandardizada.
O novo módulo do software gSDE desenvolvido pretende, possibilitar o cálculo da média e variância
do tempo que um animal demora até atingir determinado tamanho pela primeira vez. Permite esse
cálculo para vários modelos (várias funções g). O novo módulo utiliza as expressões (2) resolvendo
alguns problemas de instabilidade nos métodos numéricos de quadratura utilizados tradicionalmente
para calcular os integrais.
Para ilustração dos resultados utilizamos dados de bovinos mertolengos. Para os criadores de bovinos pode ser de interesse económico o estudo do tempo que um animal demora a atingir determinado
peso, que poderá ser o peso exigido pelo mercado. Para tal, caracterizamos o tempo que o animal
leva a atingir esse peso pela primeira vez. Podemos aplicar estes resultados, por exemplo, com o
objectivo de optimizar o lucro de venda do animal.
da Universidade de Évora, unidade apoiada pela Fundação para a Ciência e Tecnologia. Agradecemos ao Professor Dr. Carlos Roquete (ICAAM-Universidade de Évora) a cedência dos dados.
Bibliografia
[1] Braumann, C.A., Filipe, P.A., Carlos C. e Roquete, C.J. (2009). Growth of individuals in
randomly fluctuating environments. Proceedings of the International Conference in Computational and Mathematical Methods in Science e Engineering, Vigo-Aguiar, J., Alonso, P.,
Oharu, S., Venturino, E. and Wade, B. (Eds.), Gijon, p. 201–212.
[2] Brites, N.M. (2010). Modelos estocásticos de crescimento individual e desenvolvimento de
software de estimação e previsão. Tese de Mestrado - Mestrado em Matemática e Aplicações,
Universidade de Évora.
aleatório e cálculos de Itô e Stratonovich. Ciência Estatı́stica, L. Canto e Castro, E. G. Martins, C. Rocha, M. F. Oliveira, M. M. Leal e F. Rosado (Eds.), Edições SPE, p. 229–238.
aleatório. Estatı́stica Jubilar, Braumann, C.A., Infante, P., Oliveira, M., Alpı́zar-Jara, R. e
Rosado, F. (Eds.), Edições SPE, p. 133–142.
SPE 2011
228
Sexta, 30/09/2011
Crescimento individual em ambiente aleatório: um problema
de optimização
Patrı́cia A. Filipe1 , Carlos A. Braumann1 , Clara Carlos2 e Carlos J. Roquete3
1
Centro de Investigação em Matemática e Aplicações, Universidade de Évora,
{pasf, braumann}@uevora.pt
2 Centro de Investigação em Matemática e Aplicações, Universidade de Évora; Escola Superior de
Tecnologia do Barreiro, Instituto Politécnico de Setúbal, [email protected]
3 Instituto de Ciências Agrárias e Ambientais Mediterrânicas, Universidade de Évora,
[email protected]
Resumo: Com base numa classe de modelos de crescimento individual em ambiente aleatório aplicada ao crescimento de bovinos mertolengos, calculamos o lucro esperado com a venda do animal
para diferentes idades, e em particular, determinamos qual a idade óptima de venda. Por outro
lado, podemos estar interessados no tempo que um animal demora a atingir determinado peso, que
poderá ser o peso exigido pelo mercado. Para tal, caracterizamos o tempo que o animal leva a atingir determinado peso pela primeira vez. São apresentadas expressões para a média e desvio padrão
destes tempos. Aplicamos estes resultados com o objectivo de optimizar o lucro de venda do animal.
Palavras–chave: Equações diferenciais estocásticas, crescimento individual de bovinos, optimização do lucro
Em trabalhos anteriores (ver, por exemplo, Filipe et al. 2007, 2010) apresentamos uma classe de
modelos de crescimento individual em ambiente aleatório e a sua aplicação à evolução do peso
de bovinos mertolengos. São casos particulares desta classe de modelos o modelo de Gompertz
estocástico e o modelo de Bertalanffy-Richards estocástico. A aplicação deste tipo de modelos pode
ser de extrema utilidade no contexto económico. Este trabalho é dedicado à questão de optimização
do lucro médio de venda de um animal.
Por um lado, com base nos nossos modelos, podemos calcular o lucro esperado para diferentes
idades do animal, e em particular, podemos determinar a idade óptima de venda do animal de forma
a que esse lucro seja máximo. Podemos também obter a distribuição de probabilidade do lucro
de venda e calcular probabilidades envolvendo esse lucro. Por outro lado, sabendo qual o peso
do animal exigido pelo mercado, podemos estudar as propriedades do tempo que o animal demora
a atingir esse peso pela primeira vez. Apresentamos expressões para a média e variância destes
tempos (tempos de primeira passagem Braumann et al., 2009), assim como expressões para a sua
função densidade de probabilidade e função distribuição. Com base nestes resultados podemos
determinar qual o peso óptimo de venda do animal em termos de maximização do lucro médio de
venda.
Foi feita a comparação entre as duas metodologias, uma consistindo em vender o animal numa
idade fixa (escolhida de forma a optimizar o lucro médio de venda) independentemente do seu
peso e a outra consistindo em vender o animal quando atinja pela primeira vez um peso fixo (escolhido de forma a optimizar o lucro médio) independentemente da idade. Verificou-se que a segunda
metodologia, para valores tı́picos do mercado, era preferı́vel pois permitirá um lucro óptimo mais
elevado do que a primeira até, no caso do modelo de Gompertz estocástico, com um menor desvio-
SPE 2011
229
Sexta, 30/09/2011
padrão desse lucro óptimo (para o modelo de Bertalanffy-Richards estocástico o desvio-padrão era
maior na segunda metodologia mas só ligeiramente).
Agradecimentos: Os três primeiros autores são membros do Centro de Investigação em Matemática
e Aplicações (CIMA) e o quarto autor é membro do Instituto de Ciências Agrárias e Ambientais Mediterrânicas (ICAAM), unidades financiadas pela FCT.
Bibliografia
[1] Braumann, C.A., Carlos, C., Filipe, P.A. e Roquete, C.J. (2009). Growth of individuals in
randomly fluctuating environments, Em Proceedings of the 2009 International Conference in
Computational and Mathematical Methods in Science e Engineering, (Vigo-Aguiar J., Alonso
P., Oharu S., Venturino E. e Wade B., eds), Gijón, 201-212.
[2] Filipe, P.A., Braumann C.A. e Roquete, C.J. (2007). Modelos de crescimento de animais em
ambiente aleatório, Em Estatı́stica: Ciência Interdisciplinar, Actas do XV Congresso Anual
da Sociedade Portuguesa de Estatı́stica, (Ferrão, M.E., Nunes, C. e Braumann, C.A., eds.),
Edições SPE, 401-410.
[3] Filipe, P.A., Braumann, C.A. e Roquete, C.J. (2010). Multiphasic individual growth
models in random environments. Methodology and Computing in Applied Probability,
DOI:10.1007/s11009-010-9172-0.
SPE 2011
230
Sexta, 30/09/2011
Processos de difusão com saltos correlacionados:
Aplicação à polı́tica óptima de investimento em linha de alta
velocidade
Débora Ricardo1 e Cláudia Nunes2
1
2
Departamento de Matemática, IST, [email protected]
Departamento de Matemática, IST e CEMAT, [email protected]
Resumo: É usual em problemas de finanças e de fı́sica considerar um movimento geométrico browniano com saltos regidos por um processo de Poisson independente do movimento browniano que
modela o ruı́do. Neste trabalho propõe-se a generalização de alguns resultados sobre estes processos mas assumindo agora que o processo de saltos e o próprio movimento browniano podem ter
uma estrutura de dependência (fixa ou temporal). Os resultados que são derivados têm em mente
a aplicação a polı́ticas óptimas de investimento, nomeadamente em linhas de serviço ferroviário de
alta velocidade.
Palavras–chave: Movimento geométrico browniano, processo de Poisson, opções reais
Introdução
No projecto como o investimento na linha ferroviária de alta velocidade (vulgo TGV), o nı́vel de
procura do serviço é o principal factor de incerteza no projecto. Adicionalmente, podem ocorrer
choques conjecturais que levam a uma alteração mais ou menos drástica no nı́vel da dita procura. Por
exemplo, a crise vulcânica registada no ano passado alterou, embora que pontualmente, a procura
de serviços ferroviários, tendo o nı́vel subido de forma drástica.
Geralmente estes choques conjecturais são externos ao próprio processo de procura, que formalmente se traduz pela independência dos dois processos. Mas o que acontecerá se tal pressuposto
não for certo? Isto é, como se pode formalmente derivar os resultados necessários sob hipótese de
não-independência?
Neste trabalho assume-se que o nı́vel de procura, doravante designado por {Xt ,t ≥ 0}, obedece à
seguinte equação diferencial estocástica:
dXt = µ Xt dt + σ Xt dWt + Xt dNt
(1)
onde {Wt ,t ≥ 0} é um movimento browniano padrão e {Nt ,t ≥ 0} é um processo de Poisson de taxa
λ , tal que
dNt = Ut
(2)
com probabilidade λ dt, com {Ut ,t ≥ 0} designando o salto que ocorre no instante t.
O problema de polı́tica óptima de investimento (seja no TGV quer seja noutro enquadramento) é
um problema de paragem óptima, com recurso ao princı́pio de programação dinâmica de Bellman.
Como se verá neste trabalho no caso concreto, para deduzir a dita polı́tica óptima de paragem, será
SPE 2011
231
Sexta, 30/09/2011
necessário calcular integrais envolvendo a variável de estado Xt , que na verdade são relacionados
com a função geradora de momentos.
Assumindo uma particular estrutura de dependência, deduziremos o nı́vel de procura do serviço que
justifica a decisão de investimento. Ilustraremos os resultados algébricos com situações numéricas
particulares, e veremos qual a influência do papel da correlação dos processos na tomada de decisão.
SPE 2011
232
Sexta, 30/09/2011
Extremos III
Quantis extremais, value-at-risk e método DPOT
Isabel Fraga Alves1 e Paulo Araújo Santos2
1
2
Faculdade de Ciências da Universidade de Lisboa e CEAUL, [email protected]
Instituto Politécnico de Santarém e CEAUL, [email protected]
Resumo: Neste trabalho utilizamos o método DPOT (Duration based Peaks Over Threshold) na
previsão de quantis elevados no contexto de séries financeiras e previsão do VaR (Value-at-Risk).
Comparamos este método com outros métodos de previsão de quantis elevados utilizando ı́ndices
de acções e testes para a avaliação de modelos que produzem previsões intervalares.
Palavras–chave: Teoria de valores extremos, gestão quantitativa do risco
Introdução
Em teoria de valores extremos (EVT), o método designado por POT (Peaks Over Threshold) considera os excessos acima de um certo nı́vel “threshold”. Após a publicação do teorema limite da
distribuição dos excessos (Balkema e de Haan, 1974 e Pikands, 1975), foram deduzidos desenvolvimentos do método POT baseados no ajustamento de uma distribuição generalizada de Pareto
(GPD), com função distribuição,
GP(x; δ , γ ) = 1 − 1 + γ
x −1/γ
x
, 1 + γ > 0, δ ∈ R+ , γ ∈ R.
δ
δ
Para γ = 0 a expressão é interpretada como o limite quando γ → 0, i.e., como a função distribuição
exponencial F(x) = 1 − exp(−x/δ ).
Um tema relevante em estatı́stica é a descrição da variação de uma variável resposta em termos
de covariáveis. Uma vez que cada excesso está associado a um evento especı́fico, é possivel fazer
os parâmetos de forma e escala, da distribuição GPD, dependerem de variáveis explicativas. A
consideração na distribuição GPD, dos parâmetros de forma e escala como funções de covariáveis
e parâmetros de regressão foi estudada por Davison (1990).
Num trabalho recente, Araújo Santos e Fraga Alves (2011) propuseram um método POT com base
em durações, designado por DPOT. O desempenho deste método foi comparado com outros métodos
na previsão do VaR a um dia e com a probabilidade igual a 0.01, que é a utilizada para cálculo dos
requisitos de capital no contexto dos Acordos de Basileia. Com esta probabilidade e utilizando todos
os retornos históricos dos ı́ndices S & P 500, DAX 30 e FTSE 100, o modelo DPOT apresentou um
desempenho superior aos outros modelos de previsão do VaR e em particular muito superior ao
popular modelo RiskMetrics (1996).
Neste trabalho, comparamos o desempenho do modelo DPOT com outros modelos, considerando
probabilidades inferiores a 0.01 e por isso num contexto de quantis extremais. Este contexto, de
probabilidades baixas, como por exemplo 0.001, pode ter interesse na elaboração dos testes de
SPE 2011
Mesa: M. Ivette Gomes
233
Sexta, 30/09/2011
Extremos III
stress (Tsay, 2010). No estudo comparativo, utilizamos testes clássicos de cobertura condicional
e independência, bem como um novo teste de independência para avaliação da previsão intervalar
(Araújo Santos e Fraga Alves, 2010).
Agradecimentos: Este trabalho é parcialmente financiado pela Fundação para a Ciência e Tecnologia (FCT/PROTEC e FCT/OE).
Bibliografia
[1] Araújo Santos, P. e Fraga Alves, M.I. (2011). Forecasting Value-at-Risk with a Duration Based
POT Method. CEAUL. Technical Report 8/2011.
[2] Araújo Santos, P. e Fraga Alves, M.I. (2010). A new class of independence tests
for interval forecasts evaluation. Computational Statistics and Data Analysis. In press.
doi:10.1016/j.csda2010.10.002.
[3] Balkema, A.A. e de Haan, L. (1974). Residual Life Time at Great Age. Ann. Probab., 2,792–
804.
[4] Davison, A.C.(1990). Models for Exceedances over High Thresholds. Journal of Royal Statist.
Soc. B, 52, 393–442.
[5] Pickands III, J. (1975). Statistical Inference using Extreme value Order Statistics, Ann. Statist.,
3, 119–131.
[6] RiskMetrics (1996), J.P. Morgan Technical Document, 4th Edition, New York, J.P. Morgan.
[7] Tsay, R. (2010). Analysis of Financial Time Series. Wiley Series in Probability and Statistics.
SPE 2011
234
Sexta, 30/09/2011
Extremos III
Estimação de um parâmetro de forma de segunda ordem
Frederico Caeiro1 e M. Ivette Gomes2
1
2
DM–FCT e CMA, Universidade Nova de Lisboa, [email protected]
DEIO e CEAUL, Universidade de Lisboa, [email protected]
Resumo: Neste artigo procedemos ao estudo de uma classe de estimadores de um parâmetro de
forma de segunda ordem, estimadores esses semi-paramétricos, explı́citos e válidos para uma classe
vasta de modelos com cauda direita pesada.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, caudas pesadas, nı́veis
óptimos
Consideremos uma amostra de dimensão n de variáveis aleatórias (v.a.’s) independentes e identicamente distribuı́das, (X1 , . . . , Xn ), provenientes de um modelo F. Seja (X1:n ≤ · · · ≤ Xn:n ) a amostra das estatı́sticas ordinais ascendentes associada, e admitamos que existem sucessões {an > 0} e
{bn ∈ R} tais que o máximo linearmente normalizado, i.e., (Xn:n − bn ) /an , converge em distribuição
para uma v.a. não-degenerada, com distribuição necessariamente do tipo da distribuição de valores
extremos, com a forma funcional
exp(−(1 + γ x)−1/γ ), 1 + γ x > 0 se γ 6= 0
Gγ (x) =
exp(− exp(−x)), x ∈ R
se γ = 0.
Dizemos então
que F pertence ao domı́nio de atração para máximos de Gγ , e escrevemos
F ∈ DM Gγ . O parâmetro γ é o ı́ndice de valores extremos (EVI, do Inglês extreme value index). Este ı́ndice mede o peso da função de cauda direita, F := 1 − F, sendo essa cauda tanto mais
pesada quanto mais elevado for γ . Iremos aqui considerar modelos de cauda direita pesada, i.e.,
modelos de tipo Pareto, frequentes em telecomunicações, finanças e seguros, com função quantil do
tipo
U(t) := inf{x : F(x) ≥ 1 − 1/t} = Ct γ (1 + Dt ρ + o p (t ρ )), C > 0,
D = γβ /ρ , ρ < 0, β 6= 0. (1)
+
Para estes modelos, em DM
≡ DM EVγ γ >0 , o estimador clássico do EVI é o estimador de Hill
(1975). Este estimador é dados pela média dos excessos das log-observações,
Vik := ln Xn−i+1:n − ln Xn−k:n , 1 ≤ i ≤ k < n,
(2)
ou equivalentemente, dos espaçamentos escalados das log-observações,
Ui := i {ln Xn−i+1:n − ln Xn−i:n } , 1 ≤ i ≤ k < n,
(3)
i.e., H(k) = 1k ∑ki=1 Ui = 1k ∑ki=1 Vik , 1 ≤ k < n. Mas estes estimadores do EVI têm frequentemente
um viés elevado para valores de k moderados, incluindo o próprio nı́vel óptimo, no sentido de
SPE 2011
235
Sexta, 30/09/2011
Extremos III
erro quadrático médio mı́nimo em k. Consequentemente, a escolha adaptativa do nı́vel óptimo e
a estimação adequada do viés do estimador de Hill têm sido tópicos recentes e recorrentes. Estes
tópicos requerem a estimação adequada dos parâmetros de forma e “escala” de segunda ordem, ρ e
β , respectivamente, introduzidos em (1).
Relativamente à estimação do parâmetro ρ , mencionamos os artigos pioneiros de Gomes et al.
(2002) e Fraga Alves et al. (2003). Mais recentemente Ciuperca e Mercadier (2010) e Goegebeur
et al. (2010) estudaram classes genéricas de estimadores semi-paramétricos de ρ , baseados nas
estatı́sticas Vik e Ui , em (2) e (3), respectivamente. Apesar destes resultados recentes, o estimador
de Fraga Alves et al. (2003) continua a ser um dos mais simples e um dos melhores em aplicações
práticas.
Considerando a classe de estimadores estudada de Goegebeur et al. (2010), estudamos neste trabalho o estimador do parâmetro de forma de segunda ordem, ρ , definido por
(θ )
ρn (k) := 1 +
(θ )
Tn (k)
com
:=











1
(θ )
1 − Tn (k)
,
θ ∈ R,
θ θ
(3/2)
− Nn (k)
θ ,
θ (2)
(3/2)
Nn (k) − Nn (k)
(1)
(3/2)
ln Nn (k) −ln Nn (k)
,
(3/2)
(2)
ln Nn (k) −ln Nn (k)
(α )
(4)
(1)
Nn (k)
Nn (k) :=
se θ 6= 0
,
se θ = 0
α k i α −1
Ui .
∑ k
k i=1
Estudamos as propriedades assintóticas para amostras de dimensão finita. Segue-se o estudo da
escolha adequada do parâmetro de controlo, θ ∈ R, de forma a reduzir o termo dominante de viés
(θ )
assintótico de ρn (k), em (4), e consequentemente o respectivo erro quadrático médio.
Bibliografia
[1] Ciuperca, G. e Mercadier, C. (2010). Semi-parametric estimation for heavy tailed distributions.
Extremes 13, 55–87.
[2] Fraga Alves, M.I., Gomes, M.I. e Haan, L. de (2003). A new class of semi-parametric estimators of the second order parameter, Portugaliae Mathematica, 60(2), 193–213.
[3] Goegebeur, Y., Beirlant, J. e de Wet, T. (2010). Kernel estimators for the second order parameter in extreme value statistics. Journal of Statistical Planning and Inference, 140, 2632–2652.
[4] Gomes, M.I., de Haan, L. e Peng, L. (2002). Semi-parametric estimation of the second order
parameter in statistics of extremes. Extremes 5, 387–414.
[5] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution.
Annals Statistics 3, 1163–1174.
SPE 2011
236
Sexta, 30/09/2011
Extremos III
Estimação não-paramétrica em extremos multivariados
Miguel de Carvalho e Anthony Davison
Ecole Polytechnique Fédérale de Lausanne, {Miguel.Carvalho, Anthony.Davison}@epfl.ch
Resumo: O modelo Ramos–Ledford tem recebido grande atenção na modelação de extremos multivariados [1]. O modelo apresenta inúmeras vantagens na modelação de dependência extremal e permite unificar numa só abordagem os casos de dependência e independência assintóticas. Apesar das
suas potenciais vantagens na modelação de uma vasta possibilidade de estruturas de associação entre variáveis aleatórias, para efeitos de estimação apenas existem actualmente na literatura modelos
paramétricos, o que restringe o domı́nio das suas aplicações. Neste trabalho propomos técnicas nãoparamétricas de estimação e inferência para complementar a análise do modelo Ramos–Ledford. As
técnicas propostas são desenvolvidas usando métodos de verosimilhança empı́rica [2] sendo obtidos
os teoremas de Wilks correspondentes.
Palavras–chave: Coeficiente de dependência das caudas, dependência assintótica, extremos multivariados, independência assintótica, verosimilhança empı́rica
Bibliografia
[1] A. Owen (2001). Empirical likelihood. Boca Raton: Chapman and Hall.
[2] Ramos, A. e Ledford, A. (2009). A new class of models for bivariate joint tails. Journal of the
Royal Statistical Society, Ser. B, 71, 219–241.
SPE 2011
237
Sexta, 30/09/2011
SAS
SAS no ensino superior: capacidades analı́ticas sem custos
Jos van der Velden
SAS Institute, Software Lda. - Portugal, [email protected]
Resumo: A compreensão de analı́ticas avançadas, exploração e mineração de dados é cada vez
mais importante para a economia, o negócio e o mundo académico, já que permite ganhar vantagens competitivas num mercado de trabalho exigente. Mas para incorporar estas disciplinas com
sucesso, professores precisam de ferramentas de ensino económicas e simples.
Palavras–chave: Ferramentas estatı́sticas, advanced analytics, data mining, previsão, SAS, Academic Program
Introdução ao SAS, uma multinacional que nasceu no mundo académico
O SAS é uma das maiores empresas de software a nı́vel mundial. Desde 1976 o SAS apresenta
um crescimento contı́nuo de proveitos e uma rentabilidade sustentável. Num ambiente económicofinanceiro global incerto, caracterizado por fusões, mudança de proprietário ou simplesmente desaparecimento do mercado de muitos concorrentes, o SAS permaneceu focado na sua missão principal
- entregar software de qualidade superior desenvolvido em colaboração com os clientes, parceiros e
o mundo académico.
SAS OnDemand for Academics, tecnologia cloud para apoiar o ensino superior
A busca por conhecimento é a força que alavanca o ensino. Desde 1976, ano da fundação, um
dos objectivos do SAS tem sido dar suporte ao ensino. Através do programa académico o SAS
permanece fiel a este objectivo, oferecendo suporte ao mundo académico a uma escala global. Tendo
uma posição privilegiada, com raı́zes no mundo académico, o SAS está disposto a colaborar com as
organizações de ensino superior para que estes conseguem concretizar os seus objectivos no âmbito
do ensino, aprendizagem e investigação.
O em SAS OnDemand for Academics implementa um modelo de utilização online para o ensino e
aprendizagem de gestão de dados e analı́tica avançada. Através de uma ligação via internet à infraestrutura do SAS os utilizadores recorram à capacidade analı́tica do SAS instalado nos servidores
utilizando um interface gráfico simples do tipo “point-and-click”. Neste momento os componentes
disponı́veis são:
c OnDemand for Academics: Enterprise Guide
R
• SAS
c OnDemand for Academics: Enterprise Miner?
• SAS
c OnDemand for Academics: Forecast Server (Beta stage)
• SAS
SPE 2011
239
Sábado, 01/10/2011
Intervalos de previsão usando o procedimento Boot.EXPOS
Clara Cordeiro1 e M. Manuela Neves2
1
2
FCT/ Universidade do Algarve, [email protected]
ISA/ Universidade Técnica Lisboa e CEAUL, [email protected]
Resumo: O procedimento automático Boot.EXPOS foi desenvolvido pelas autoras em ambiente
e tem como objectivo prever valores futuros de uma série temporal. Este junta duas metodologias:
métodos de alisamento exponencial e Bootstrap. Devido aos resultados encorajadores obtidos em
competições como “M3 competition” e “NNGC1 competition”, este foi aplicado também no contexto de observações omissas. Agora propomo-nos a aplicar este procedimento na construção de
intervalos de previsão.
Palavras–chave: bootstrap, intervalos de previsão, métodos de alisamento exponencial, séries temporais
Introdução
Uma série temporal poderá ser encarada como o resultado da combinação (aditiva ou multiplicativa)
de componentes associados a diferentes caracterı́sticas. Estas caracterı́sticas manifestam-se com
maior ou menor intensidade em cada série, sendo possı́vel, portanto, identificar as caracterı́sticas
mais marcantes em cada caso. Ao construir um modelo, o objectivo é explicar da melhor forma
possı́vel cada uma das caracterı́sticas, ou pelo menos as mais marcantes, da série de interesse. Existem modelos que fazem a combinação destas componentes e a sua identificação irá ser importante
na escolha de um modelo de previsão. O modelo obtido é então validado por meio de testes apropriados. Se o modelo obtido é considerado válido então podemos entrar na fase da previsão de valores
futuros para a série e posteriormente obter intervalos de previsão.
Os métodos de alisamento exponencial
Os métodos de alisamento exponential designam um conjunto de métodos de previsão que são dos
mais eficientes quando aplicados a séries que apresentam tendência e sazonalidade. Esta técnica
vai actualizando as previsões atribuı́ndo um “peso” maior às observações mais recentes, isto é,
utiliza ponderadores exponentialmente decrescentes com a antiguidade das observações. A sua
classificação, atendendo à tendência e sazonalidade, foi inicialmente proposta por Pegels (1969).
Desde então vários autores investigaram e desenvolveram estes métodos. Hoje em dia estes podem
ser classificados em quinze métodos distintos, se a componente do erro for ignorado [3]. A Tabela 1
mostra a taxonomia para os quinze métodos de alisamento exponencial possı́veis. Se considerarmos
o factor erro como aditivo e multiplicativo então estamos a referir-nos a um total de trinta métodos.
SPE 2011
Mesa: Jorge Caiado
241
Sábado, 01/10/2011
Tabela 1: Classificação dos modelos de alisamento exponencial.
Componente Tendência
N (Nenhuma)
A (Aditivo)
Ad (Aditivo amortecido)
M (Multiplicativo)
Md (Multiplicative amortecido)
Componente Sazonalidade
N
A
M
(Nenhuma) (Aditivo) (Multiplicativo)
N,N
N,A
N,M
A,N
A,A
A,M
Ad,N
Ad,A
Ad,M
M,N
M,A
M,M
Md,N
Md,A
Md,M
O procedimento
O ponto de partida para o procedimento Boot.EXPOS é o ajustamento inicial através da escolha
do melhor modelo de acordo com a Tabela 1 com base no critério de AIC. Desde modo pretendese captar caracterı́sticas tais como a sazonalidade e/ou tendência com o propósito de isolar estas
componentes com interpretação directa. O nosso objectivo é estimar e retirar as componentes determinı́sticas (tendência e/ou sazonalidade) e trabalhar a componente estocástica, no caso de ser
estacionária, com técnicas lineares, como por exemplo os processos autoregressivos. Devido à
natureza i.i.d. dos resı́duos do processo AR, o bootstrap clássico de Efron pode facilmente ser aplicado neste caso. Uma nova série de erros autoregressivos é reconstruı́da usando a amostra bootstrap.
Uma réplica da série inicial é obtida usando as componentes do ajustamento inicial e a nova série
autoregressiva. Posteriormente e usando de novo os parâmetros do ajustamento inicial, as previsões
são obtidas.
Este procedimento tem sido estudado, desenvolvido e aperfeiçoado pelas autoras em diversos trabalhos, como por exemplo [1, 2]. Observou-se que o procedimento Boot.EXPOS é uma boa opção na
determinação de previsões, traduzido em melhores resultados das medidas de exactidão adoptadas.
Neste trabalho, as previsões são apresentadas sob a forma de intervalos de previsão, também caracterizados pela estimação da probilidade de cobertura. Os intervalos gerados são obtidos usando
os métodos dos percentis e o “bias-corrected bootstrap”, e também usando intervalos paramétricos
no caso de se verificar a hipótese de normalidade na distribuição das previsões. Várias medidas de
precisão são utilizadas na comparação dos intervalos de previsão. Os procedimentos implementados foram aplicados a um vasto conjunto de séries observadas. Todo o trabalho computacional foi
realizado com o .
Bibliografia
[1] Cordeiro, C. e Neves, M. (2008). Bootstrap and exponential smoothing working together in
forecasting time series. Em Proceedings in Computational Statistics (Paula Brito, editor), 891–
899 in CD-ROM, Physica-Verlag.
[2] Cordeiro, C. e Neves, M. (2009). Forecasting time series with Boot.EXPOS procedure. REVSTAT, 7 (2), 135–149.
[3] Hyndman, R., Koehler, A., Ord, J. e Snyder, R. (2008). Forecasting with Exponential Smoothing: The State Space Approach, Springer-Verlag.
SPE 2011
Mesa: Jorge Caiado
242
Sábado, 01/10/2011
Redes neuronais na previsão de séries temporais
Sara Marques1 , Maria do Carmo Miranda Guedes1 , Maria Eduarda Silva2 e Nuno Carmona3
1
Departamento de Matemática, Faculdade de Ciências, U. Porto, [email protected],
[email protected]
2 Departamento de Matemática, Faculdade de Ciências, U. Porto e CIDMA, [email protected]
3 REN – sector Modelos de Previsão, [email protected]
Resumo: Avaliação do impacto de variáveis explicativas usando redes neuronais, de modo a obter
uma arquitectura de rede adequada à obtenção de previsões de séries temporais.
Palavras–chave: Previsão, co-integração, rede neuronal, séries temporais múltiplas
Introdução
A previsão de séries temporais é, actualmente, um instrumento indispensável na tomada de decisão
em muitas áreas de interesse prático. A complexidade crescente dos processos em análise e a influência de múltiplos factores (variáveis explicativas) tem intensificado o uso de redes neuronais na
obtenção de previsões. De facto, muitas vezes, os métodos tradicionais não conseguem captar certos comportamentos observados nas séries temporais, enquanto que os modelos baseados em redes
neuronais têm tido sucesso nessa tarefa. No entanto, devido à natureza desta metodologia, não é
possı́vel aferir a significância das variáveis explicativas usando métodos tradicionais, nem avaliar a
qualidade da previsão obtida.
Neste trabalho, pretende-se avaliar o impacto das variáveis explicativas na previsão de séries temporais usando redes neuronais, de modo a obter um modelo adequado à obtenção de previsões.
Uma rede neuronal consiste num conjunto de nós interligados. A informação proveniente das
variáveis explicativas concentra-se nos diversos nós da rede, sendo processada por cada um deles.
Isto permite a captação de eventuais interacções entre as variáveis na modelação do comportamento
das variáveis dependentes. Pretende-se estudar a sensibilidade das variáveis explicativas no modelo,
[2], decidir sobre a escolha dos parâmetros que podem influenciar a performance da rede neuronal
e aferir sobre a existência de cointegração entre uma ou mais variáveis explicativas e as variáveis
dependentes. Para tal usam-se indicadores como AIC, BIC ou SBC baseados nos erros de previsão
dos modelos construı́dos e testes de rácio de verosimilhança, de modo a escolher o modelo mais
adequado, [1]. Pretende-se também obter intervalos de confiança para as previsões. Neste estudo,
aplicam-se as metodologias seleccionadas a um conjunto de dados reais.
Bibliografia
[1] Medeiros, M.C. (2006). Building neural network models for time series: A statistical approach. Journal of Forecasting, 25, pp 49-75.
SPE 2011
Mesa: Jorge Caiado
243
Sábado, 01/10/2011
[2] Raudys, T.C. (1996). Variable Selection with Neural Networks. Neurocomputing, 12, pp 223248.
[3] Zhang, G., Patuwo, B.E. e Hu, M.Y. (1998). Forecasting with artificial neural networks: The
state of the art. International Journal of Forecasting, 14, pp 35-62.
SPE 2011
Mesa: Jorge Caiado
244
Sábado, 01/10/2011
Análise de séries temporais multivariadas: desafios e perspectivas. Aplicações
Carla Bessa1 , Francisco Lage Calheiros1 e M. Manuela Neves2
1
2
FEUP e ENEAS, {dma09033,xico}@fe.up.pt
ISA/UTL e CEAUL, [email protected]
Resumo: A análise de séries temporais tem um papel cada vez mais importante na modelação e
previsão nas áreas mais diversas. Muitos fenómenos de interesse dependem de várias variáveis
e, nestas condições, uma análise univariada pode conduzir a previsões incorrectas, pelo que é necessário recorrer a procedimentos adequados de análise de séries multivariadas. O objectivo deste
trabalho é a recolha e comparação de procedimentos actualmente existentes de análise de séries temporais multivariadas. Será considerada a aplicação na análise de séries climáticas/meteorológicas e
a modelação e previsão pretende explorar os desenvolvimentos mais recentes do software R e outros. Não deixamos de abordar séries unidimensionais que continuam a resistir à modelação.
Palavras–chave: Séries temporais multivariadas, sistemas dinâmicos, modelação, previsão
Introdução
A necessidade de modelar dados de natureza temporal surge nas áreas mais variadas, como medicina, meteorologia, climatologia, finanças, sociologia, para citar apenas algumas delas. A caracterı́stica mais importante deste tipo de dados é que as observações vizinhas são dependentes e
o objectivo é analisar e modelar utilizando esta dependência. Muitos dos fenómenos em estudo
nalguns daqueles domı́nios dependem de várias variáveis. A utilização de procedimentos de análise
multivariada será então um caminho a explorar.
A análise de séries temporais univariadas tem sido objecto de grande investigação e muitos modelos
e métodos existem na literatura. Menos exploradas têm sido as combinações de métodos estatı́sticos
com métodos de sistemas dinâmicos. No caso das séries temporais multivariadas os estudos não são
tão extensos e os procedimentos constituem investigação recente. Neste trabalho fazemos uma revisão de procedimentos existentes, sua comparação e levantamento das dificuldades. Não deixamos
de referir a escolha dos intervalos inter-observações.
Serão estudadas as seguintes séries: Southern Oscillation Index, cujos dados são relativos a medições
(valores médios mensais) das oscilações da pressão do ar ao nı́vel do mar entre Tahiti e Darwin entre 1876 e 2010; série de dados climatológicos referentes a quatro variáveis medidas através da
liquidificação de núcleos de gelo no North Greenland Ice core Project e uma série de dados meteorológicos de medições diárias de várias variáveis em Pedras Rubras-Porto.
Abordagens na análise de séries temporais
A abordagem estatı́stica no estudo de uma série temporal considera fundamentalmente as seguintes
etapas: estudo do cronograma - gráfico da função de autocorrelação (FAC) e de autocorrelação par-
SPE 2011
Mesa: Jorge Caiado
245
Sábado, 01/10/2011
cial (FACP); análise das componentes da série temporal, nomeadamente, tendência, sazonalidade,
movimentos cı́clicos e flutuações aleatórias ou ruı́do; selecção e comparação de modelos (ARIMA,
GARCH, etc); análise da adequação de modelos. Nos métodos de previsão podemos indicar: alisamento exponencial; método de Holt-Winters e ainda métodos não paramétricos - estimação da
densidade pelo método do núcleo, técnicas de regressão, métodos locais polinomiais, modelação
por Splines, métodos de séries ortogonais e reamostragem Bootstrap e Jackknife.
Mas a abordagem por Sistemas Dinâmicos é uma alternativa na análise de séries temporais que considera o recurso a: espaço de estados; modelação de sistemas dinâmicos não lineares; representação
da dinâmica dos sistemas no espaço de fases; reconstrução do espaço de fases (teorema de RuelleTakens, escolha do desfasamento temporal, escolha da dimensão de imersão,...); determinação dos
expoentes de Lyapunov; análise das secções de Poincaré e métodos baseados na análise de Fourier
(espectro).
Na análise de uma série temporal multivariada encontramos basicamente modelos que fazem a
análise sem redução da dimensão: VARMA, ARMAX e MGARCH e ainda modelos não paramétricos como a regressão polinomial multivariada local. Dos modelos que têm sido frequentemente utilizados para baixar a dimensionalidade referimos a utilização de Análise em Componentes
Principais, “Singular Spectrum Analysis” e o recurso a técnicas de mineração (data mining).
Recentemente têm surgido procedimentos de análise de séries temporais multivariadas implementados no software R. Peng (2008) criou um método de visualização de uma série temporal multivariada, útil para análise exploratória, package mvtsplot; Gilbert (2009) implementou no package
DSE funções para modelação de séries temporais lineares, multivariadas e estacionárias e Holmes
e Ward (2010) apresentam no package MARSS um modelo linear com erros gaussianos. Também
Pinto (2009) desenvolveu um software aberto, com recurso ao Matlab, para o tratamento de séries
temporais via sistemas dinâmicos e que se tem mostrado muito eficaz.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PPCDT/FEDER.
Bibliografia
[1] Gilbert, P. (2009). Brief User’s Guide: Dynamic Systems Estimation (DSE). Bank of Canada.
[2] Holmes, E.E. e Ward, E.J. (2010). Analysis of Multivariate Time-Series using the MARSS
Package. Mathematical Biology Program.
[3] Peng, R.D. (2008). A Method for visualizing multivariate time series data. Journal of Statistical Software, 25, in http://www.jstatsoft.org/ .
[4] Pinto, R. (2009). Análise de séries temporais através de representações do espaço de fases.
Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores, FEUP,
com software disponı́vel em http://paginas.fe.up.pt/ ee02208/dissertacao.html.
SPE 2011
Mesa: Jorge Caiado
246
Sábado, 01/10/2011
Previsão em modelos bilineares de valores inteiros
Nélia Silva1 e Isabel Pereira1
1
Universidade de Aveiro, CIDMA, {neliasilva,isabel.pereira}@ua.pt
Resumo: Os modelos bilineares de valores inteiros não negativos foram introduzidos por Doukhan
et al. (2006) e mais tarde desenvolvidos por Drost et al. (2008). Neste trabalho considera-se o
modelo bilinear de valores inteiros de primeira ordem, INBL (1,0,1,1) e estuda-se o problema da
predição de futuras observações, considerando previsão linear e não linear. Ambas as abordagens
são analisadas segundo as metodologias clássica e bayesiana e o seu desempenho é comparado
através de um estudo de simulação.
Palavras–chave: Análise bayesina, modelo bilinear, processo de valores inteiros
Introdução
Em muitas ciências encontramos observações constituı́das por valores não negativos que correspondem a processos de contagem em instantes consecutivos no tempo. Nestas duas últimas décadas
tem havido um grande desenvolvimento na literatura no estudo de séries de valores temporais de
valores inteiros. Muitos destes modelos são baseados em operadores de filtragem, e em particular
no operador de filtragem Steutel e van Harn (1979), para definir os processos de filtragem similares aos modelos econométricos clássicos. Os modelos bilineares de valores inteiros não negativos
foram introduzidos por Doukhan et al. (2006) e mais tarde desenvolvidos por Drost et al. (2008).
Formalmente, um modelo bilinear de valores inteiros, INBL(p,q,m,n), é definido por:
p
q
i=1
j=1
l
Xt = ∑ ai ◦ Xt−i + ∑ c j ◦ εt− j ∑
n
∑ blk ◦ (εt−l Xt−k ) + εt ,
k=1 l=1
onde os operadores de filtragem ai ◦, i = 1, . . . ,p, c j ◦, j = 1, . . . ,q e bkl ◦ , k = 1, . . . ,m, l = 1, . . . ,n,
são mutuamente independentes e {εt }t∈Z é uma sucessão de v.a.´s de valores inteiros não negativos i.i.d. com valor médio e variância finitos, e independente dos operadores. Usualmente, estes
modelos são utilizados para analisar sistemas que apresentam fenómenos de salto, que ocorrem em
instantes aleatórios, apresentando alterações bruscas de grande amplitude - comportamento análogo
ao correspondente no modelo bilinear de valores reais introduzido por Granger e Andersen (1978).
Considerando o modelo bilinear de primeira ordem, INBL (1,0,1,1), Doukhan et al. (2006) determinaram condições suficientes para que o processo fosse estritamente estacionário as quais foram posteriormente estendidas por Drost et al. [2] para a classe superdiagonal do processo INBL(p,q,m,n).
Considerando o modelo mais simples, Drost et al. (2006) provaram também a consistência e a normalidade assintótica dos estimadores obtidos pelo método dos momentos. Tendo em conta que, de
uma forma geral, a previsão linear pontual de futuras observaçoes não fornece bons resultados, neste
trabalho pretende-se desenvolver métodos de previsão não linear, considerando o modelo bilinear
de primeira ordem, BL (1,0,1,1), dado por:
Xt = a ◦ Xt−1 + b ◦ (εt−1 Xt−1 ) + εt .
SPE 2011
Mesa: Jorge Caiado
247
Sábado, 01/10/2011
Bibliografia
[1] Doukhan, P., Latour, A. e Oraichi, D. (2006). A simple integer-valued bilinear time series
model. Adv. Appl. Prob., 38, 559-578.
[2] Drost, F.C., Akker, R. e Werker, B.J.M. (2008). Note on integer-valued bilinear time series
models. Stat. Prob. Letters, 78, 992-996.
[3] Granger, C.W.J. e Andersen, A.P. (1978). An introduction to bilinear series model. Vandenhoeck & Ruprecht, Gottingen.
[4] Steutel, E. e van Harn, K. (1979). Discrete analogues of self-decomposability and stability.
Ann. Prob., 7, 893-899.
SPE 2011
Mesa: Jorge Caiado
248
Sábado, 01/10/2011
Econometria
Cash-Flow at Risk
Bruno Pires
Instituto Superior de Ciências do Trabalho e da Empresa e Banco de Portugal, [email protected]
Resumo: O presente trabalho pretende avaliar em que medida os capitais próprios das empresas
não financeiras portuguesas são suficientes, para fazer face ao aparecimento de cash-flows negativos (CFaR, Cash-Flow at Risk), tema actual sobretudo em momentos de turbulência económicofinanceira como os que temos vivido nos últimos anos.
A desagregação da análise por sector de actividade e classe de dimensão permite identificar as PME
(que têm um elevado peso no total), bem como as “actividades de informação e de comunicação”,
os “outros serviços” e o “comércio” como os agregados com maior fragilidade da estrutura de
capitais. Pelo contrário, as grandes empresas e sectores como os “transportes e armazenagem” e
a “electricidade e água” são os que têm maior peso de empresas com uma “almofada” de capitais
próprios adequada para fazer face ao aparecimento de perdas. Não se confirma a suposição que os
sectores com maior volume de perdas correspondam aos de maior autonomia financeira.
O recurso ao capital permanente (em vez do capital próprio) e o recurso ao Resultado Lı́quido do
Exercı́cio (RLE), em vez do cash-flow, confirmam o posicionamento relativo dos agregados analisados, apesar dos capitais permanentes serem superiores aos próprios e de os RLE serem mais
gravosos que os cash-flows. Os sectores com maior investimento em capital fixo são os mais afectados por este agravamento, devido ao elevado nı́vel das amortizações.
A segregação dentro de cada sector do efeito das PME e das grandes permite concluir que em todos
os sectores, com intensidades distintas e a excepção das empresas transportadoras (que beneficiam
do comportamento das PME), as PME mostram geralmente uma maior insuficiência de capitais
próprios para fazer face ao CFaR.
Uma breve análise das cessações de empresas confirma o posicionamento relativo dos vários agregados atrás referidos, mostrando que os mais frágeis são naturalmente os que originam mais cessações
(em termos relativos).
Palavras–chave: Cash-Flow at Risk, Net Worth at Risk, autonomia financeira, estrutura financeira
SPE 2011
Mesa: Isabel Fraga Alves
249
Sábado, 01/10/2011
Econometria
Estatı́sticas da titularização em Portugal – compilação de dados e avaliação de resultados
Ana Almeida e Teresa Crespo
Departamento de Estatı́stica do Banco de Portugal, {ammalmeida, mtcrespo}@bportugal.pt
Resumo: Esta comunicação descreve, de forma sucinta, o processo da titularização em Portugal ao
longo da década de 2000 e a sua incidência em termos da compilação de estatı́sticas pelo Banco
de Portugal. O enquadramento legal é apresentado, com indicação dos principais diplomas que
estabelecem o quadro jurı́dico português para este tipo de operações.
Descreve-se, seguidamente, o sector da titularização, sendo identificados os dois tipos de entidades
que titularizam créditos em Portugal: as Sociedades de Titularização Crédito (STC) e os Fundos
de Titularização de Crédito (FTC), assinalando as principais diferenças existentes nas operações
realizadas por cada uma destas entidades. São, igualmente, apresentadas as principais caracterı́sticas
das operações de titularização em função do respectivo desreconhecimento, ou não, no balanço da
entidade originadora da operação, com as devidas implicações estatı́sticas.
O processo que permite a compilação das estatı́sticas de titularização é subsequentemente relatado, com identificação da informação de base proveniente dos dados contabilı́sticos remetidos à
Comissão do Mercado de Valores Mobiliários para efeitos de supervisão, os quais são complementados com informação proveniente de diversas fontes de natureza administrativa e dados estatı́sticos
disponı́veis no Banco de Portugal.
Alguns resultados estatı́sticos para os anos mais recentes são também evidenciados, sendo de assinalar diferentes fases identificadas ao longo dos últimos dez anos no sector da titularização em
Portugal, em particular como reflexo de diversos acontecimentos verificados nos mercados financeiros internacionais. É ainda de referir a preponderância crescente da titularização no balanço do
sector financeiro português, representando, no final de 2010, 8% do total do mesmo.
O documento termina com uma referência aos diversos suportes através dos quais é divulgada a
informação estatı́stica das STC e FTC pelo Banco de Portugal, bem como à disponibilização de
informação pelo Banco Central Europeu relativa à dimensão deste fenómeno na União Monetária
Europeia.
Palavras–chave: Titularização, fundos de titularização de créditos, sociedades de titularização de
créditos, informação estatı́stica
Bibliografia
[1] Campos, A. (2005). Titularização de Créditos, algumas notas sobre titularização sintética.
Revista da Banca, 60, 77–92.
[2] Decreto -Lei n.o 453/1999, de 5 de Novembro - Lei da Titularização.
[3] Decreto -Lei n.o 219/2001, de 4 de Agosto - Regime fiscal da Titularização.
SPE 2011
251
Sábado, 01/10/2011
Econometria
[4] Decreto -Lei n.o 303/2003, de 5 de Dezembro - Alargamento do tipo de activos passı́veis de
serem titularizados.
[5] Moreira, T. e Moura, R. M. (2004). Titularização de Créditos - Algumas reflexões e propostas.
Revista de Fiscalidade, Outubro de 2004, 1–11.
[6] Orientação (CE) N.o 160/2009 do Banco Central Europeu, de 19 de Dezembro de 2008
(BCE/2008/31).
[7] Pinto, J. e Marques, M. (2007). O movimento de Titularização de Activos em Portugal. Cadernos do Mercado de Valores Mobiliários, 26, 8–45.
[8] Regulamento (CE) N.o 24/2009 do Banco Central Europeu, de 19 de Dezembro de 2008
(BCE/2008/30), relativo às estatı́sticas dos activos e passivos das sociedades de titularização
envolvidas em operações de titularização.
[9] Securitisation in the Euro Area. ECB Monthly Bulletin, Fevereiro de 2008, 81–91.
SPE 2011
252
Sábado, 01/10/2011
Econometria
Impacto dos sistemas de pensões ocupacionais na mobilidade
do trabalho
Ana Cláudia Gouveia1 e Sı́lvia Fonte Santa2
1
2
Universidade Nova de Lisboa, ana [email protected]
Banco de Portugal, [email protected]
Resumo: No actual contexto de discussão do futuro dos sistemas de pensões, este estudo pretende
avaliar o potencial impacto da existência de fundos de pensões ocupacionais nas taxas de mobilidade
do mercado de trabalho em Portugal. A não portabilidade destes planos é vista como a principal
razão para os portadores de planos ocupacionais apresentarem uma mobilidade 60% inferior à dos
trabalhadores não cobertos. No entanto, a literatura existente, focada sobretudo nos Estados Unidos
e Reino Unido, avança outros factores explicativos como o prémio salarial dos empregados com
pensão ocupacional e a auto-selecção de trabalhadores menos móveis. Os resultados encontrados
para Portugal quanto ao efeito dos fundos de pensões demonstram que a portabilidade tem peso na
decisão de mobilidade mas é apenas parte da explicação.
Palavras–chave: Mobilidade do trabalho, fundos de pensões ocupacionais, portabilidade
Na Estratégia de Lisboa e na Estratégia Europeia de Emprego “foi oficialmente reconhecido que
uma maior mobilidade geográfica e profissional constituı́a um factor de adaptação essencial no contexto de mercados do trabalho em mutação rápida.” Adicionalmente, foi estabelecido que uma das
medidas para promover essa mobilidade passaria por aumentar a transferibilidade dos direitos a
pensões ocupacionais. Efectivamente, no contexto das pensões ocupacionais, a mudança de emprego encontra-se, em geral, associada à perda de benefı́cios no momento da reforma, associada
à não portabilidade dos planos. Esta portabilidade dos direitos com pensões é definida como a
capacidade de um trabalhador mudar de empregador mantendo o valor actuarial das suas pensões
futuras.
A literatura existente sobre este assunto evidencia a presença de taxas de mobilidade significativamente mais baixas para os trabalhadores abrangidos por esquemas de pensões ocupacionais. Este
facto é geralmente associado às perdas de mobilidade e, por isso, a transferibilidade das pensões
aparece como prioridade na agenda polı́tica. No entanto, a literatura tem avançado com explicações
adicionais que vão para além da portabilidade. O estudo da relação negativa entre mobilidade do
trabalho e sistema de pensões tem inı́cio no final de 1970 e inı́cio de 1980, sendo que as primeiras
investigações sobre esta matéria centram-se na não portabilidade como factor explicativo.
Estudos recentes salientam a importância de outras explicações. Allen, Clark e McDermed [1] apontam os prémios salariais associados às pensões e a auto-selecção dos trabalhadores menos móveis
como factores que contribuem para a baixa mobilidade dos trabalhadores dos EUA, mas destacando
as perdas de portabilidade como factor principal. Gustman e Steinmeier [3], novamente para os EUA
argumentam que o prémio salarial ocupa um papel central na explicação das taxas de mobilidade
dos trabalhadores, não encontrando diferenças de comportamento entre os trabalhadores cobertos
com planos de pensão de benefı́cio definido e de contribuição definida (nos quais não existe o problema da portabilidade). Andrietti [2], com base na análise de quatro paı́ses europeus (Dinamarca,
Irlanda, Holanda e Reino Unido) reforça as conclusões de [3]. Outras análises sugerem que a auto
SPE 2011
253
Sábado, 01/10/2011
Econometria
selecção de trabalhadores menos móveis em empregos cobertos com pensões ocupacionais explica
a baixa rotatividade destes trabalhadores.
Na presença de explicações alternativas à questão da portabilidade, é necessário ter presente que
medidas como as avançadas na Estratégia de Lisboa e na Estratégia Europeia de Emprego no sentido de reforçar a transferabilidade podem não ter o efeito desejado na mobilidade do trabalho e
consequentemente na eficiência da economia. Neste sentido, este estudo pretende avaliar o potencial impacto da existência de fundos de pensões ocupacionais nas taxas de mobilidade do mercado
de trabalho em Portugal e avaliar o impacto dos diferentes factores explicativos. Esta análise tem
especial interesse no actual contexto em que se debate o futuro dos sistemas de pensões e numa
altura em que as potenciais reformas dos sistemas de pensões públicos podem vir a conduzir a um
aumento da importância dos sistemas de pensões privados.
Este trabalho tem como ponto de partida a informação do mercado de trabalho presente nos Quadros de Pessoal, complementada com informação da Central de Balanços do Banco de Portugal.
Os Quadros de Pessoal é uma base de dados do Ministério do Emprego e da Segurança Social com
informação anual sobre todos os trabalhadores do sector privado residentes em Portugal (idade,
educação, tenure, salários, horas trabalhadas, remunerações extra, entidade empregadora, etc.) e
respectivas entidades empregadoras (localização, dimensão, sector de actividade, etc.). Relativamente à informação da Central de Balanços do Banco de Portugal, é de destacar a importância da
informação disponibilizada pelo novo sistema de reporte simplificado de informação anual de base
contabilı́stica, designado por IES- Informação Empresarial Simplificada (ver Suplemento 1/2008 ao
Boletim Estatı́stico).
Com base na informação disponibilizada pela Central de Balanços do Banco de Portugal, na lista
de entidades para fins estatı́sticos publicada pelo Banco de Portugal e na lista de fundos de pensões
autónomos fechados disponibilizada pelo Instituto de Seguros de Portugal foi possı́vel classificar as
diferentes entidades empregadoras quanto à existência, ou não, de fundos de pensões ocupacionais.
Os resultados obtidos confirmam a menor mobilidade dos trabalhadores com fundos de pensões
ocupacionais, com taxas cerca de 60% inferiores aos trabalhadores não cobertos. A portabilidade
é um factor explicativo, no entanto está longe de ser o único. O simples facto do trabalhador
estar coberto, mesmo depois de controlar para as perdas de portabilidade, é um factor relevante
para explicar a menor rotatividade destes trabalhadores. Aumentar a portabilidade, por exemplo
impondo um vesting period de apenas um ano, não se irá traduzir, de acordo com o nosso estudo,
em melhorias significativas em termos de mobilidade dos trabalhadores.
Bibliografia
[1] Allen, S., Clark, R. e McDermed, A. (1993). Pensions, Bonding, and Lifetime Jobs. The
Journal of Human Resources, 28(3), 463–481.
[2] Andrietti, V. (2001). Occupational Pensions and Interfirm Job Mobility in the European Union
– Evidence from the ECHP Survey. CeRP Working Paper 5/01.
[3] Gustmam, A. and Steinmeier, T. (1993). Pension Portability and Labor Mobility – Evidence
from the Survey on Income and Program Participation. Journal of Public Economics, 50, 299–
323.
SPE 2011
254
Sábado, 01/10/2011
Econometria
Como podem as bases de dados administrativas ajudar a compreender o comportamento financeiro das sociedades não financeiras?
Homero Alexandre Gonçalves
Banco de Portugal, [email protected]
Resumo: Esta comunicação demonstra que as bases de dados administrativas constituem instrumentos muito úteis para a obtenção de informação, evitando a sobrecarga dos agentes económicos
com novas solicitações. De facto, o elevado nı́vel de detalhe da informação constante nestas bases de dados permite efectuar uma análise económica muito diversificada e aprofundar aspectos
relevantes à melhor compreensão da situação e evolução do sector das sociedades não financeiras.
Neste estudo foram utilizados os dados individuais de quase todas as sociedades não financeiras
existentes em Portugal (mais de 350 mil empresas) para avaliar a saúde financeira deste sector institucional. Em concreto, recorreu-se a duas bases de dados geridas pelo Departamento de Estatı́stica
do Banco de Portugal, designadamente a Central de Balanços (CB) e a Central de Responsabilidades de Crédito (CRC). A CB contém informação anual das empresas, essencialmente de base
contabilı́stica, e a CRC contém informação sobre crédito, efectivo e potencial, obtido pelas empresas junto do sistema financeiro residente. Esta informação sobre crédito tem natureza positiva
(quando as obrigações contratuais são cumpridas) e negativa (quando existe incumprimento).
A partir daquelas duas bases de dados foi efectuada uma análise muito completa do comportamento
financeiro do sector, tendo em conta as caracterı́sticas das empresas, nomeadamente a actividade
económica e a dimensão. Neste domı́nio, foi possı́vel identificar padrões de financiamento distintos
ao nı́vel da classe das microempresas, por comparação com as empresas de grande dimensão, bem
como entre as empresas do sector da Construção face aos restantes sectores de actividade. Adicionalmente, foram analisados os resultados de diversos indicadores económicos e financeiros por
sectores de actividade e classes de dimensão, os quais permitiram complementar a caracterização
dos comportamentos e justificar as diferenças encontradas.
Os resultados deste trabalho podem também ser utilizados para efeitos de apuramento de estatı́sticas
macroeconómicas, designadamente as contas nacionais e as estatı́sticas monetárias e financeiras.
Palavras–chave: Base de dados administrativa, microdados, sociedades não financeiras, comportamento financeiro, central de balanços, central de responsabilidades de crédito, sectores de actividade
económica, classes de dimensão das empresas
Agradecimentos: Luı́s Sarmento, Margarida Brites, Mário Lourenço e Vı́tor Silveira.
SPE 2011
255
Sábado, 01/10/2011
Econometria
Bibliografia
[1] Banco de España (2010). El endeudamiento de las sociedades no financieras españolas. Evolución temporal y comparación con el área del euro. Boletı́n Económico, Maio 2010.
[2] Banco de Portugal (2005). Utilização da Central de Responsabilidades de Crédito no âmbito
das Estatı́sticas Monetárias e Financeiras. Suplemento ao Boletim Estatı́stico.
[3] Banco de Portugal (2008). Reporte Simplificado: incorporação da Informação Empresarial
Simplificada nas Estatı́sticas das Empresas não Financeiras da Central de Balanços. Suplemento ao Boletim Estatı́stico.
[4] Banco de Portugal (2010). Relatório de Estabilidade Financeira.
[5] Banque de France (2009). The position of firms in France at end 2008 - Recent developments.
Quarterly Selection of Articles, 14.
[6] Baugnet, Z. (2007). Belgian corporate finance in a European perspective National Bank of
Belgium Economic Review.
[7] Custodio C. e Gomes A. (2009). Finanças da Empresa. Booknomics.
[8] European Central Bank (2007). Corporate Finance in the Euro Area. Structural Issues Report,
Maio 2007.
[9] European Commission (2005). SME access to finance. Flash Eurobarometer, 174.
[10] European Commission (2009). Survey access to finance analytical report.
SPE 2011
256
Sábado, 01/10/2011
Modelação de acidentes rodoviários
Conceição Ribeiro1 , Antónia Amaral Turkman2 e João Lourenço Cardoso3
1
Instituto Superior de Engenharia da Universidade do Algarve e CEAUL, [email protected]
Departamento de Estatı́stica e Investigação Operacional e CEAUL, Faculdade de Ciências da
Universidade de Lisboa, [email protected]
3 Laboratório Nacional de Engenharia Civil, [email protected]
2
Resumo: Este trabalho consiste na aplicação de modelos bayesianos hierárquicos espaço-temporais
a dados de acidentes rodoviários em Portugal, por concelho, de 2000 a 2007.
Palavras–chave: Modelos bayesianos hierárquicos, segurança rodoviária, pequenas áreas
Introdução
Os dados de acidentes rodoviários em Portugal, por concelho, de 2000 a 2007, revelam valores
baixos de contagem de ocorrências e até mesmo zeros. Para além disso, os concelhos não têm
a mesma área geográfica, nem o mesmo número de habitantes, nem o mesmo número de veı́culos
seguros, nem o mesmo número de quilómetros de estradas, o que acrescenta complexidade à análise
dos dados.
Neste trabalho iremos analisar estes dados usando modelos bayesianos hierárquicos espaço-temporais.
Em particular, iremos usar modelos generalizados de Poisson com efeitos aleatórios espaciais e
temporais. A utilização destes modelos permite captar a variabilidade das estimativas em pequenas
áreas, revelar tendências e padrões espaciais e temporais e incorporar informação de covariáveis,
[1], [4], [7], [8].
Com esta aplicação pretende-se alcançar dois objectivos distintos. Por um lado, a construção de
mapas de risco, a fim de se obter estimativas do risco relativo para cada área, e, por outro lado, a
análise da associação entre acidentes rodoviários e potenciais factores de risco, [2], [3], [6].
Para além dos objectivos referidos, com a aplicação destes modelos pretende-se também fazer a
comparação entre os métodos MCMC, através do GeoBUGS do WinBUGS, e a integração aproximada de Laplace, através do programa INLA do R, [9], [10], [11].
Agradecimentos: Este trabalho é financiado por FCT/OE e por SFRH/PROTEC/49226/2008.
Bibliografia
[1] Aguero-Valverde, J. e Jovanis, P.P. (2006). Spatial analysis of fatal and injury crashes in
Pennsylvania. Accident Analysis & Prevention, 38(3):618 – 625.
SPE 2011
Mesa: Kamil Feridun Turkman
257
Sábado, 01/10/2011
[2] Bernardinelli, L., Clayton, D., Pascutto, C., Montomoli, C., Ghislandi, M. e Songini, M.
(1995). Bayesian analysis of space-time variation in disease risk. Statist. Med., 14(2122):2433–2443.
[3] Besag, J., York, J., e Mollié, A. (1991). Bayesian image restoration, with two applications in spatial statistics. Annals of the Institute of Statistical Mathematics, 43:1–20.
10.1007/BF00116466.
[4] Eksler, V. (2008). Exploring spatial structure behind the road mortality of regions in Europe.
Applied Spatial Analysis, 1:133–150.
[5] Ghosh, M., Natarajan, K., Waller, L.A. e Kim, D. (1999). Hierarchical Bayes GLMs for the
analysis of spatial data: An application to disease mapping. Journal of Statistical Planning
and Inference, 75(2):305 – 318.
[6] Knorr-Held, L. (2000). Bayesian modelling of inseparable space-time variation in disease risk.
Statistics In Medicine, 19(17-18):2555–2567.
[7] MacNab, Y.C. (2004). Bayesian spatial and ecological models for small-area accident and
injury analysis. Accident Analysis & Prevention, 36(6):1019 – 1028.
[8] Miaou, S.-P., Song, J.J. e Mallick, B.K. (2003). Roadway traffic crash mapping: A space-time
modeling approach. Journal of Transport Stat., 6:33–57.
[9] Rue, H. e Martino, S. (2009). Approximate bayesian inference for latent gaussian models by
using integrated nested laplace approximations. Journal of the Royal Statistical Society B, 71
(2):319–392.
[10] Spiegelhalter, D.J., Thomas, A., e Best, N.G. (1999). WinBUGS Version 1.2 User Manual.
Technical report, MRC Biostatistics Unit.
[11] Thomas, A., Best, N., Lunn, D., Arnold, R. e Spiegelhalter, D. (2004). GeoBUGS User
Manual Version 1.2. Technical report, Department of Epidemiology and Public Health of
Imperial College at St Mary’s Hospital London.
SPE 2011
258
Sábado, 01/10/2011
Inferência bayesiana em modelos auto-regressivos de valores
inteiros com limiares auto-induzidos
Raquel Nicolette1 , Isabel Pereira1 e Manuel Scotto1
1
Universidade de Aveiro, CIDMA, {nicolette, isabel.pereira, mscotto}@ua.pt
Resumo: Neste trabalho considera-se o modelo auto-regressivo de valores inteiros com limiares
auto-induzidos, denotado por SETINAR (Self-Excited Threshold Integer-Valued Autoregressive),
com inovações de Poisson. Considerando dois regimes, um dos objetivos consiste em estimar os
parâmetros no modelo SETINAR (p1 ,p2 ;2) na perspectiva bayesiana, implementando o algoritmo
de Monte Carlo baseado em cadeias de Markov. Seguidamente analisa-se o problema da seleção
das ordens p1 e p2 dos processos auto-regressivos de cada um dos troços. Consequentemente é
desenvolvido um método de Monte Carlo baseado em cadeias de Markov com saltos reversı́veis
(RJMCMC) para permitir movimentos entre os processos SETINAR de diferentes ordens. Por fim,
faz-se um estudo de simulação para comparar o desempenho das metodologias propostas para estimar os parâmetros e seleccionar as ordens.
Palavras–chave: Algoritmo MCMC, modelo limiar, processo de contagem, saltos reversı́veis entre
modelos
Introdução
Considerando modelos auto-regressivos de valores inteiros com médias móveis, INARMA(p,q),
Neal e Subba Rao (2007) apresentaram um algoritmo eficiente de Monte Carlo via cadeias de Markov (MCMC) para estimar parâmetros numa abordagem bayesiana quando as ordens p e q são
conhecidas e baseando-se numa ampliação de dados. Neste trabalho, considera-se a classe de modelos auto-regressivos de valores inteiros com dois regimes, designado por SETINAR (p1 ,p2 ;2),
com inovações independentes e identicamente distribuı́das de uma distribuição de Poisson.
Tendo por objetivo estimar as ordens p1 e p2 do modelo SETINAR é necessário que o algoritmo
MCMC seja capaz de mover-se entre diferentes espaços de parâmetros. Green (1995) introduziu
um algoritmo de Monte Carlo baseado em cadeias de Markov com saltos reversı́veis (do inglês Reversible Jump Monte Carlo Markov Chain), denotado por RJMCMC, que permite ao amostrador
efetuar saltos entre os diferentes espaços e ainda manter a equação de equilı́brio por forma a garantir a irreversibilidade da cadeia. Note-se que este algoritmo é uma “variação” do algoritmo de
Metropolis-Hastings (MH), através da inclusão do Jacobiano da transformação no cálculo da probabilidade de aceitação do algoritmo MH por forma a considerar a diferença existente na dimensão
dos espaços paramétricos envolvidos no movimento. Têm sido apresentados na literatura alguns
algoritmos eficientes para determinar ordens de séries temporais com estrutura auto-regressiva. Em
particular, Enciso-Mora et al. (2007) sugeriram um algoritmo eficiente RJMCMC para determinar
as ordens de um modelo INARMA(p, q), usando a metodologia da ampliação de dados.
Neste trabalho, além de se estimarem os parâmetros segundo a perspetiva bayesiana, estende-se a
SPE 2011
259
Sábado, 01/10/2011
metodologia introduzida por Neal e Subba Rao (2007) e extendida por Enciso-Mora et al. (2007)
para a determinação das ordens desconhecidas dos diferentes regimes do modelo SETINAR(p1 ,p2 ;2)
proposto.
Bibliografia
[1] Enciso-Mora, V., Neal, P.J. e Subba Rao, T. (2007). Efficient order selection algorithms for
integer-valued ARMA processes. Journal of Time Series Analysis, 30, 1–18.
[2] Green, P. (1995). Reversible jump Markov chain Monte Carlo computation and Bayesian model determination. Biometrika, 82, 711–732.
[3] Neal, P.J. e Subba Rao, T. (2007). MCMC for integer valued ARMA processes. Journal of
Time Series Analysis, 28, 92–110.
SPE 2011
260
Sábado, 01/10/2011
Estatı́stica bayesiana no planeamento de recursos humanos
Leonel Vicente1 e Kamil F. Turkman2
1
2
ESTG – Instituto Politécnico de Leiria/CEAUL, [email protected]
DEIO – Faculdade de Ciências da Universidade de Lisboa/CEAUL, [email protected]
Resumo: O planeamento de recursos humanos (PRH) tem sido tradicionalmente utilizado pelas
organizações para garantir que dispõem do número certo de pessoas, no lugar e no tempo certo [3].
Do ponto de vista da metodologia estatı́stica, uma estrutura de recursos humanos (RH) pode ser descrita como um sistema dinâmico aleatório de stocks e fluxos. Uma das propriedades dos modelos
de PRH que emerge como atraente para os decisores é a possibilidade de simular o comportamento
do sistema no futuro, o que permite avaliar as consequências da adopção de certas polı́ticas ou estratégias. Uma grande variedade dos modelos estocásticos propostos podem ser classificados em
dois tipos: modelos markovianos e modelos de renovamento [1]. Nestes modelos, em geral, o erro
nas previsões não é quantificado sendo apenas estudada a dinâmica temporal dos valores esperados dos stocks e fluxos. Os modelos bayesianos hierárquicos e os métodos de inferência baseados
na simulação são muito úteis para modelar e fazer inferência sobre sistemas estocásticos de elevada complexidade que envolvem dinâmicas temporais tal como sucede nos sistemas de recursos
humanos. As inferências são efectuadas usualmente usando métodos dinâmicos de simulação, nomeadamente os métodos de Monte Carlo via cadeias de Markov [2, 4].
Nos últimos anos, muitas Instituições de Ensino Superior reduziram drasticamente as contratações
de funcionários docentes e não docentes havendo mesmo algumas que praticamente congelaram
as contratações. Esta forma de agir levou a uma redução óbvia do número total de funcionários
com consequências difı́ceis de prever. A falta de um estudo sobre os cenários possı́veis para o
futuro torna o planeamento difı́cil para as Instituições de Ensino Superior, fazendo com que a carreira docente e consequentemente a carreira não docente tenham perspectivas pouco definidas. Em
[5] considerou-se os modelos markovianos e modelos de renovamento para obter predições para a
evolução, em média, dos stocks e fluxos do sistema de RH da Faculdade de Ciências da Universidade de Lisboa (FCUL).
Os sistemas de RH de Instituições de Ensino Superior podem ser caracterizados como processos
de contagem multidimensionais. Para fazer inferências sobre a dinâmica temporal da estrutura de
probabilidade desta cadeia de Markov multidimensional, esta cadeia é tratada como não homogénea
e os fluxos, bem como os stocks, como processos aleatórios, captando a dinâmica temporal através
de um modelo bayesiano hierárquico. A flexibilidade destes modelos e a capacidade do WinBUGS
em ajustar uma gama considerável de modelos, permite obter predições pontuais e intervalos de
credibilidade, a médio e a longo prazo, para os stocks das categorias, as promoções, os recrutamentos e as saı́das, considerando vários cenários. Adicionalmente, permite analisar as polı́ticas a ser
implementadas de forma que a evolução dos RH seja a pretendida. A modelação, usando a abordagem bayesiana, foi aplicada à carreira docente da FCUL, podendo os procedimentos adoptados ser
extendidos, com as devidas adaptações, à carreira não docente.
Palavras–chave: PRH, modelos bayesianos hierárquicos, MCMC, WinBUGS, modelos markovianos
Trabalho parcialmente financiado por FCT/PTDC/MAT/64353/2006 e FCT/POCI/2010.
SPE 2011
261
Sábado, 01/10/2011
Bibliografia
[1] Bartholomew, D.J. e Forbes, A.F. (1991). Statistical techniques for manpower planning. John
Wiley.
[2] Gamerman, D. (1997). Markov Chain Monte Carlo: Stochastic Simulation for Bayesian Inference. Chapamn & Hall, London.
[3] Jackson, S.E. e Schuler, R.S. (1990). Human resource planning: Challenges for industrial/organizational psychologists. American Psychologist, 45(2), 223-239.
[4] Paulino, C.D., Turkman, M.A.A. e Murteira, B. (2003). Estatı́stica Bayesiana. Fundação Calouste Gulbenkian.
[5] Vicente, L. e Turkman, K.F. (2008). Recursos Humanos da FCUL: Presente e Futuro. Notas e
Comunicações do Centro de Estatı́stica e Aplicações da Universidade de Lisboa, 05/08.
SPE 2011
262
Sábado, 01/10/2011
Novas estruturas muldimensionais da TRI para consideração
do efeito da ansiedade na proficiência do aluno em avaliações
de larga escala
Tufi Machado Soares, Neimar da Silva Fernandes e Sarah Martins Salomão Brodbeck
CAED-UFJF, {tufi, neimar, sarah}@caed.ufjf.br
Resumo: Este artigo se propõe a mostrar o efeito da ansiedade sobre o desempenho do aluno
nos testes cognitivos. É sugerido um modelo multidimensional que simultaneamente considera no
cálculo de proficiência, o nı́vel de ansiedade apresentado pelos alunos, tendo a medida de ansiedade
extraı́da de um instrumento em separado. Foi constatado que a ansiedade realmente afeta a proficiência, e quando adequadamente modelada o seu efeito tende a diminuir.
Palavras–chave: Teoria da Resposta ao Item, modelos multidimensionais, ansiedade
Introdução
O Brasil, desde 1992, vem utilizando avaliações em larga escala como forma de planejar, gerenciar
e avaliar polı́ticas educacionais. Devido à necessidade de equalização, isso é, de comparação dos
resultados obtidos a partir de diferentes formas de teste aplicadas ao longo das avaliações, utilizase a Teoria de Resposta ao Item (Lord et al [2]) para a correção dos testes (Klein [3]). Assim
como diversos estados do Brasil, o estado de Minas Gerais tem seu programa de avaliação da Rede
Pública. Conjuntamente com o teste cognitivo, são aplicados questionários que avaliam fatores
associados à proficiência do aluno, como o Índice Sócio Econômico, a escolaridade dos pais, o
ambiente em sala de aula, entre outros.
No ano de 2009, juntamente com os testes de Lı́ngua Portuguesa e Matemática, foi aplicado um
questionário com trinta e quatro assertivas, as quais os alunos deveriam responder através de uma
escala de Likert de quatro nı́veis. Dentre essas assertivas, havia uma escala, extraı́da de um teste
psicológico (Bandura et al [5]), com a finalidade de medir a ansiedade do aluno. Para mensurar tal
constructo latente, foi utilizado o modelo de respostas graduadas da TRI de Samejima (Samejima
[4]), muito adequado para a aplicação em itens politômicos. A fim de se realizar comparações, a
escala de ansiedade foi dividida em três faixas com base nos quartis, sendo essas: ansiedade baixa,
média e alta. Desta avaliação, feita no 5◦ ano de escolaridade, participaram mais de 500.000 alunos
respondido à diversos testes que eram constituı́dos, ao todo, 169 itens.
Uma série de estudos aponta para uma relação entre o desempenho do aluno no teste e seu nı́vel
de ansiedade (Bandura [5]). Pode-se constatar empiricamente que o aluno mais ansioso tende a
ter uma proficiência menor. Modelos de Regressão Hierárquica Multinı́vel (Lee [1]) realizados
com a base da avaliação revelaram que a um aumento da ansiedade do aluno está associado uma
menor proficiência, gerando, portanto, a necessidade de um estudo mais aprofundado acerca da
relação entre o desempenho do aluno no teste e seu nı́vel de ansiedade.A seguinte pergunta necessita
ser respondida nesta etapa de estudo: a ansiedade afeta o desempenho como um todo ou há um
SPE 2011
263
Sábado, 01/10/2011
subconjunto de itens mais afetados pela ansiedade do aluno?
Sabe-se que alguns itens podem apresentar comportamento diferente para determinados subgrupos
dentro de uma população. Este fenômeno é denominado DIF (Differential Item Functioning) (Soares [6]). Uma análise de DIF preliminar, baseada no método de Mantel-Haenszel, diagnosticou
que alguns itens da Avaliação se comportaram diferentemente para grupos de alunos com diferentes
nı́veis de ansiedade. Essa análise mostrou, também, que esse DIF provavelmente é influenciado pela
maior dificuldade da questão e por sua posição no teste.
Dessa forma, este trabalho propõe um modelo de Teoria de Resposta ao Item que leva em consideração
o impacto do nı́vel de ansiedade do aluno. O modelo proposto consiste em uma estrutura multidimensional não compensatória para acomodar o efeito da ansiedade. Assim, a função de ligação da
resposta do item com a proficiência (ICC) sofreu o acréscimo de mais parâmetros, segundo uma
estrutura multidimensional, além dos três tradicionais da TRI (o parâmetro de discriminação (a),
parâmetro de dificuldade (b) e parâmetro relacionado ao acerto ao acaso (c)).
A fim de se estimar esta estrutura, foram utilizadas técnicas de MCMC (Gamerman [7]) utilizandose as priores tradicionais para os parâmetros a, b e c: lognormal para o parâmetro a, normal para o
parâmetro b e beta para o parâmetro c. Quanto aos novos parâmetros propostos no modelo, foi feito
um estudo da eficácia de diversas priores.
Para a realização dessas estimativas, utilizou-se o software livre de estatı́stica bayesiana WinBUGS.
Esse programa, a partir do modelo proposto, das priores e dos dados, realiza a estimativa dos
parâmetros pelo método do algoritmo de Gibbs. Nesse presente trabalho, foram consideradas 40.000
iterações, utilizando-se das 10.000 últimas com intervalos de amostragem de 5, restando 2000 elementos na amostra para análise e inferência.
Bibliografia
[1] Lee, V.L. (2001). What are multilevel questions, and how might we explore them with quantitative methods? Estudos em Avaliação Educacional, 24, 31–68.
[2] Lord, F. (1980). Applications of item response theory to practical testing problems. Hillsdale:
Lawrence Erlbaum.
[3] Klein, R. (1997). Indicadores educacionais e disparidades regionais e socioeconômicas no
Brasil. Em H. Bomeny (Org.), Avaliação e determinação de padrões na educação latinoamericana, 47–86, Rio de Janeiro: Fundação Getúlio Vargas.
[4] Samejima, F.A. Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, n. 17.
[5] Bandura, A., Schwarzer, R. e Wicklund,R. (1991). Anxiety and self-focused attention, 89–110.
New York: Harwood.
[6] Soares, T.M., Gamerman, D. e Gonsalves, F.B. (2007). Análise Bayesiana do Funcionamento
Diferencial do Item. Pesquisa Operacional, v 27, n. 2, 271–291.
[7] Gamerman, D. (1997). Markhov Chain Monte Carlo: Stochastic Simulation. Chapman & Hall,
pp119–189. New York.
SPE 2011
264
Sábado, 01/10/2011
O estimador de Aalen-Johansen pré-suavizado
Ana Moreira1 e Luı́s Machado1
1
Universidade do Minho, Dep. Matemática e Aplicações, {id2809,lmachado}@alunos.uminho.pt
Resumo: Em estudos longitudinais médicos, os doentes podem experimentar vários eventos num
determinado perı́odo de acompanhamento. A análise destes estudos pode ser realizada com sucesso
pelos modelos multiestado. A análise de sobrevivência pode ser descrita pelo processo de Markov
com dois estados, ’vivo’ e ’morto’ e uma única transição entre eles. Em alguns estudos, o estado
representando os pacientes ’vivos’ pode ser subdividido em dois ou mais estados intermédios, cada
um correspondendo a um estado particular no desenvolvimento normal da doença. Um desses modelos é o modelo de doença-morte (illness-death) que é totalmente caracterizado por três estados
e três transições entre eles. Um dos objectivos principais em aplicações clı́nicas de modelos de
multiestados é a estimação de probabilidades de transição. Estas quantidades têm proporcionado
um crescente interesse pois elas permitem efectuar previsões a longo prazo do processo. Aalen e
Johansen (1978) introduziram um estimador não paramétrico das probabilidades de transição para
os modelos Markovianos. Neste trabalho, apresentamos novas contribuições para este tópico e investigamos o desempenho dos vários estimadores através de estudos de simulação, comparando os
novos métodos com os concorrentes. As metodologias propostas são ilustradas recorrendo a dados
reais.
Palavras–chave: Kaplan-Meier, modelos multiestado, pré-suavização, probabilidades de transição
Agradecimentos: Os autores agradecem a recepção de apoio financeiro do Ministério Português
da Ciência, Tecnologia e Ensino Superior sob a forma de subvenções PTDC/MAT/104879/2008 e
SFRH/BD/62284/2009. A investigação também foi parcialmente financiada pela FCT e CMAT sob
o programa POCI 2010.
Bibliografia
[1] Aalen, O. (1978). Nonparametric estimation of partial transition probabilities in multiple decrement models. Annals of Statistics, 6, 534–545.
[2] Dikta, G. (1998). On semiparametric random censorship models. Journal of Statistical Planning and Inference, 66, 253–279.
[3] Meira Machado, L., de Uña-Álvarez, J. e Cadarso-Suárez, C. (2006). Nonparametric estimation of transition probabilities in a non-Markov illness-death model. Lifetime Data Analysis,
12, 325–344.
SPE 2011
Mesa: Isabel Natário
265
Sábado, 01/10/2011
Estratégia de verificação de cadáveres de aves em testes de
remoção nos estudos de monitorização de parques eólicos
Regina Bispo1 , Joana Bernardino2 e Tiago A. Marques3
1
Departamento de Estatı́stica, ISPA - IU, Departamento de Estatı́stica e Investigação Operacional,
FCUL e Centro de Aplicações e Estatı́stica da Universidade de Lisboa, [email protected]
2 Bio3 - Estudos e Projectos em Biologia e Valorização de Recursos Naturais,
[email protected]
3 Center for Research into Ecological and Environmental Modeling, Scotland UK e Centro de
Aplicações e Estatı́stica da Universidade de Lisboa, [email protected]
Resumo: Uma questão central no âmbito dos estudos de monitorização de parques eólicos prendese com a quantificação da mortalidade de aves e quirópteros causada por colisão com os aerogeradores. Tal quantificação implica a realização de testes de remoção de cadáveres que visam estimar
a taxa de permanência das aves mortas em campo para efeitos de “correcção”, da mortalidade observada. Dadas as frequentes limitações financeiras torna-se necessário desenvolver metodologias
que minimizem os custos associados à monitorização mas que não comprometam a fiabilidade da
estimação da probabilidade de permanência das aves mortas em campo. No contexto da realização
dos testes de remoção, os custos associados ao processo dependem da estratégia experimental usada,
nomeadamente, no que diz respeito ao número de deslocações ao parque e ao perı́odo de tempo
máximo de realização dos testes. Neste estudo apresentam-se os resultados relativos à avaliação do
impacto das diferentes estratégias experimentais na estimação dos parâmetros dos modelos de sobrevivência paramétricos ajustados aos tempos de remoção e na estimação da taxa de permanência
de cadáveres de aves nos parques eólicos. O estudo conclui com a formulação de recomendações relativas à estratégia de verificação de cadáveres de aves a adoptar em futuros planos de monitorização
de parques eólicos.
Palavras–chave: Análise de sobrevivência, modelação paramétrica, parques eólicos
Introdução
No processo de quantificação da mortalidade de aves e quirópteros causada por colisão com os
aerogeradores em parques eólicos é amplamente reconhecido que a mortalidade observada pode
diferir substancialmente da mortalidade real, nomeadamente, porque os cadáveres podem ser removidos por predadores e/ou por decomposição. No âmbito dos planos de monitorização em parques
eólicos está, por isso, contemplada a realização de testes de remoção que visam estimar a taxa de
permanência das aves mortas em campo para efeitos de “correção” da mortalidade observada.
Dados os custos, frequentemente avultados, associados aos processos de monitorização torna-se
necessário adoptar metodologias experimentais eficientes, que permitam minimizar os custos associados à monitorização sem, no entanto, comprometer a fiabilidade dos resultados.
Neste estudo foram analisadas diferentes estratégias experimentais de condução dos testes de remoção.
A definição das estratégias de verificação da remoção de cadáveres de aves teve por base modelos
SPE 2011
267
Sábado, 01/10/2011
de sobrevivência paramétricos ajustados aos tempos de remoção observados em parques eólicos nacionais [2]. Foi tido em conta que no processo de remoção de cadáveres de aves, a função hazard é
tipicamente uma função monótona decrescente ou unimodal com assimetria positiva marcada, com
maiores taxas de remoção na fase inicial (após a chegada do cadáver ao solo) e menores taxas de
remoção numa fase avançada (depois de decorrido algum tempo após a chegada do cadáver ao solo).
Por outro lado, atendeu-se ao facto da taxa de decaimento da função de sobrevivência (velocidade
de remoção) poder variar marcadamente (e.g. diferentes velocidades de remoção para aves de pequeno e grande porte). Em situações onde a velocidade de remoção é elevada, porque a função de
sobrevivência rapidamente atinge a respectiva assimptota horizontal, é esperado que o processo de
verificação possa ser encurtado mas que os intervalos entre verificações não possam ser aumentados,
sem que se comprometa a fiabilidade dos resultados. Pelo contrário, em situações onde o decaimento
da função de sobrevivência é lento, pode ser necessário aumentar o tempo máximo de verificação
de cadáveres compensando esse aumento com uma diminuição do número de deslocações ao parque, por aumento do espaçamento entre verificações, para controlar os custos financeiros e não
comprometer a qualidade dos resultados.
Assim, as estratégias de verificação consideradas foram definidas por variação do tempo máximo
de verificação da remoção [1, 5, 3] e variação dos intervalos entre verificações (espaçamentos constantes e irregulares) [4]. As estratégias experimentais foram analisadas em função do seu impacto
nos parâmetros dos modelos de sobrevivência paramétricos ajustados aos tempos de remoção e na
estimação da taxa de permanência de cadáveres de aves. Conclui-se formulando recomendações
relativas à estratégia de verificação de cadáveres de aves a adoptar em testes de remoção futuros.
Agradecimentos: O presente estudo foi realizado em colaboração com a empresa Bio3 - Estudos e
Projectos em Biologia e Valorização de Recursos Naturais, Lda.
Bibliografia
[1] Bernardino, J., Bispo, R., Torres, P., Mascarenhas, M. Costa, H. M. e Rebelo, R. (2009).
Enhancing of carcass removal trials at three wind energy facilities in Portugal. Wildlife Biology
in Practice (in press)
[2] Bispo, R., Bernardino, J., Marques, T.A. e Pestana, D. (2010). Modeling carcass removal time
and estimation of a scavenging correction factor for avian mortality assessment in wind farms
using parametric survival analysis, 10/10, Notas e Comunicações do CEAUL.
[3] Brown, W.K. e Hamilton, B.L. (2006). Monitoring of bird and bat collisions with wind turbines at the Summerview Wind Power Project, Alberta. Terrestrial & Aquatic Environmental
Managers ltd.
[4] Erickson, W., Johnson, G., Strickland, M.D. e Kronner, K. (2000). Avian and bat mortality
associated with the Vansycle Wind Project. Umatilla County, Oregon. Western EcoSystems
Technology, Inc.
[5] Higgins, K.F., Osborn, R.G. e Naugle, D.E. (2007). Effects of wind turbines on birds and bats
in Southwestern Minnessota, USA. Em Birds and wind farms (Lucas, M., Janss, G.F.E. and
Ferrer, M., eds), 153–175, Servicios Informativos Ambientales/Quercus, Madrid, Spain.
SPE 2011
268
Sábado, 01/10/2011
Análise da duração dos internamentos por VIH/SIDA através
de um modelo hierárquico de misturas finitas
Sara Simões Dias1 , Valeska Andreozzi2 e Rosário Oliveira Martins3
1
Departamento Universitário de Saúde Pública, Faculdade de Ciências Médicas, Universidade
Nova de Lisboa & Instituto Superior de Estatı́stica e Gestão de Informação, Universidade Nova
de Lisboa, [email protected]
2 Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
3 Unidade de Parasitologia e Microbiologia Médicas, Instituto de Higiene e Medicina Tropical,
Universidade Nova de Lisboa, [email protected]
Resumo: Neste estudo propõe-se identificar factores associados à duração dos internamentos por
VIH/SIDA através de um modelo hierárquico de misturas.
Palavras–chave: Modelo hierárquico de misturas, duração do internamento
Introdução
A duração dos internamentos dos doentes é uma medida importante de actividade hospitalar, mas a
sua distribuição empı́rica é, com frequência muito assimétrica. Recentemente, vários modelos foram propostos para modelar a duração dos internamentos, já que estes têm implicações importantes
nos estudos sobre cuidados de saúde. Leung et al. (1998) para atingirem a normalidade modelaram
o logaritmo da duração dos internamentos através de um modelo de regressão linear, contudo não
tiveram em conta a heterogeneidade da duração dos internamentos. O presente trabalho tem como
objectivo preencher esta lacuna e para além disso tem em conta a natureza hierárquica dos dados.
Métodos
Dados
Os dados foram fornecidos pela Administração Central dos Serviços de Saúde (ACSS) e constitutem a base nacional portuguesa dos grupos de diagnóstico homogéneo (GDH). Neste trabalho
analisaram-se os dados de duração dos internamentos de adultos ocorridos em 2008 por VIH/SIDA
referente ao GDH 714 (VIH com condição significativa associada), que representa um volume de
dias de internamento elevado, tendo um grande impacto no orçamento e financiamento dos hospitais
públicos.
*Modelo
Modelou-se a distribuição da duração dos internamentos em escala logaritmica, tendo por base a
mistura de duas distribuições normais. Tendo em conta que os internamentos dentro do mesmo
hospital são geralmente correlacionadas, aplicou-se um modelo hierárquico de misturas com efeitos
aleatórios. Para o modelo hierárquico de misturas seja Yi j (i = 1,...,m, j = 1,...,ni ) o logaritmo da
duração dos internamentos para o j-ésimo indivı́duo no i-ésimo hospital, onde m é o número de
SPE 2011
269
Sábado, 01/10/2011
hospitais e ni é o número de internamentos que ocorrem no hospital i. Um modelo hierárquico de
misturas finitas para a densidade de probabilidade de Y , assume a seguinte forma (McLachlan e
Basford, 1988):
c
f (yi j |x j ,Θk ) = ∑ πk fk (yi j |x j ,βk ,φk ),
(1)
i=1
onde πk é a proporção de doentes pertencentes à k-ésima componente, c é o número de componentes,
e fk descreve a k-ésima distribuição de componentes com um vector de parâmetros Θk . O modelo
é estimado pelo método de máxima verosimilhança baseado no algoritmo EM. Para determinar o
número adequado de componentes, a mistura é ajustada com diferentes números de componentes
e utilizaram-se os critérios de informaçãoo AIC e BIC para seleccionar o modelo mais apropriado.
Para estimar os modelos utilizou-se a library flexmix (Grun e Leisch, 2007) do software R.
Resultados
Foi seleccionado o modelo com mistura de duas componentes. Os pesos estimados das componentes, π̂g , foram 0.44 e 0.56. O modelo ajustado sugere que o efeito de algumas covariáveis varia entre
componentes. Dos 23 hospitais analisados, existe um hospital cujos efeitos aleatórios de ambas as
componentes são significativamente abaixo de zero, sendo este o hospital mais eficiente; e existem
três hospitais que apresentam os efeitos aleatórios das duas componentes significativamente maiores
que zero, estes hospitais prolongam a duração do internamento.
Conclusões
A mistura de duas componentes parece ser uma alternativa adequada para analisar dados de duração
de internamento. A vantagem desta abordagem sobre o modelo de regressão linear apoia-se no facto
de que diferentes covariáveis influenciam o grupo de doentes de curta e longa duração de forma distinta. Além disso, teve-se em conta a natureza hierárquica dos dados, fornecendo inferências correctas sobre os coeficientes de regressão (β ). Para futuros desenvolvimentos serão testados modelos
de mistura de outras distribuições com estrutura hierárquica.
Bibliografia
[1] Grun, B. e Leisch, F. (2007). Fitting finite mixtures of generalizaed linear regressions in R.
Computational Statistics & Data Analysis. 51(11), 5247–5252.
[2] Leung, K.M., Elashoff, R.M., Rees, K.S., Hasan, M.M. e Legorreta, A.P. (1998). Hospital- and
Patient-Related Characteristics Determining Maternity Length of Stay: A Hierarchical Linear
Model Approach. American Journal of Public Health, 88 (3), 377–381.
[3] McLachlan, G.J. e Basford, K.E. (1988). Mixture Models. Inference and applications to clustering. Marcel Dekker, New York.
SPE 2011
270
Sábado, 01/10/2011
Imputação múltipla - Uma aplicação ao tratamento de dados
omissos em análise de sobrevivência de doentes oncológicos
Luı́s Antunes1 , Maria José Bento1 e Denisa Mendonça2
1
RORENO - Registo Oncológico Regional do Norte, {luis.antunes, mjbento}@ipoporto.minsaude.pt
2 ICBAS/ISPUP - Universidade do Porto, [email protected]
Resumo: A existência de informação incompleta é um problema comum em muitos estudos na
área da saúde. A forma mais comum de lidar com a ocorrência de dados omissos consiste em não
considerar na análise os registos com informação incompleta. Esta restrição na análise pode levar a
inferências com diferenças substanciais daquelas que seriam obtidas se não houvesse dados omissos. A imputação múltipla tem sido uma das formas de lidar com dados omissos no pressuposto
que os dados em falta dependam apenas de informação observada. Neste trabalho apresenta-se uma
aplicação da imputação múltipla a um problema de análise de sobrevivência de doentes com cancro
do pulmão.
Palavras–chave: Imputação múltipla, análise de sobrevivência, cancro do pulmão
Introdução
A existência de variáveis com informação incompleta é um problema recorrente em registos oncológicos de base populacional. A extensão da doença à data de diagnóstico, factor de prognóstico
de maior importância, é uma variável para a qual a percentagem de casos sem informação tende
a ser elevada. Numa análise de sobrevivência, a consideração apenas dos casos para os quais
existe informação completa, pode introduzir enviesamentos nas conclusões que se retiram dessa
mesma análise, especialmente se o mecanismo de omissão não for completamente aleatório. No
pressuposto de que a falta de informação depende apenas de informação observada, a imputação
múltipla é uma das formas propostas para lidar com este problema em estudos de sobrevivência
com informação incompleta nas covariáveis [2].
Métodos
Aplicou-se a imputação múltipla por equações em cadeia [3] para gerar as observações das variáveis
em falta, iterativamente, a partir da distribuição de cada uma dessas variáveis condicionada aos dados observados para outras variáveis. Vários conjuntos de dados completados foram gerados. Para
cada um destes conjuntos foi ajustado um modelo de sobrevivência relativa. Neste modelo, com
estrutura de modelo linear generalizado com erro de Poisson, considera-se que o risco de morte de
cada paciente resulta da soma de duas componentes: uma relacionada com o risco esperado (estimado a partir de tábuas de mortalidade para a população em geral) e uma componente de excesso de
risco relacionado com a doença [1]. O resultado do modelo são estimativas para razões de excesso
de risco para cada covariável, ajustadas para as restantes. Os resultados obtidos para cada conjunto
SPE 2011
271
Sábado, 01/10/2011
completado são combinados para produzir as estimativas finais. Na variância final das estimativas
dos coeficientes do modelo, é tida em conta a incerteza associada aos valores estimados no processo
de imputação [2].
Aplicação
Pretendeu-se estudar os factores de prognóstico mais importantes na sobrevivência de doentes de
cancro do pulmão. Consideraram-se os pacientes diagnosticados no perı́odo 2000 a 2006, com
idade igual ou superior a 15 anos, residentes na região Norte de Portugal à data de diagnóstico e
registados no RORENO (Registo Oncológico Regional do Norte). O estadio da doença à data do
diagnóstico não era conhecido em cerca de metade dos casos e a morfologia do tumor encontrava-se
mal especificada em cerca de 26% dos casos. Neste trabalho, apresentam-se os resultados obtidos na
modelação da sobrevivência, tendo sido usada a imputação múltipla para completar a informação
nas covariáveis com informação em falta. Variáveis como estado vital, tempo de sobrevivência,
idade, sexo, fonte de informação, ano de diagnóstico, base de diagnóstico, entre outras, foram usadas
nos modelos de imputação. Foi efectuada uma análise comparativa entre os resultados obtidos e
aqueles que se obtiveram usando apenas os casos completos.
Bibliografia
[1] Dickman, P.W., Sloggett, A., Hills, M. e Hakulinen, T (2004). Regression models for relative
survival. Statistics in Medicine, 23, 51-64.
[2] Nur, U., Shack, L.G., Rachet, B., Carpenter, J.R. e Coleman, M.P. (2010). Modelling relative
survival in the presence of incomplete data: a tutorial. Int. J. Epidemiol, 39(1), 118-28.
[3] Van Buuren, S., Boshuizen, H.C. e Knook, D.L. (1999). Multiple Imputation of missing blood
pressure covariates in survival analysis. Statist. Med., 18, 681-694.
SPE 2011
272
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Factores de risco para a ocorrência de enfartes múltiplos decorrentes de uma sı́ndrome coronária aguda
Adriana Belo1 , Cristina Rocha2 e Pedro Monteiro3
1
Faculdade de Ciências da Universidade de Lisboa - DEIO, [email protected]
Faculdade de Ciências da Universidade de Lisboa - CEAUL, [email protected]
3 Hospitais da Universidade de Coimbra, [email protected]
2
Resumo: O enfarte agudo do miocárdio (EAM) constitui actualmente uma das principais causas
de morte nos paı́ses desenvolvidos. O enfarte resulta geralmente da lesão do músculo cardı́aco por
obstrução de uma artéria coronária e consequente privação de oxigénio e nutrientes. O prognóstico é
favorecido por uma menor área de enfarte e uma maior rapidez na obtenção de tratamento adequado.
O acompanhamento do doente é fundamental para evitar complicações potencialmente mortais.
O tempo médio de internamento de um enfarte não complicado é de 5 a 7 dias. Este perı́odo é
importante para proporcionar um tratamento eficaz que apenas pode ser conseguido em ambiente
hospitalar. Após a alta, a mudança do estilo de vida e uma medicação adequada são importantes
para evitar a ocorrência de morte ou novo enfarte.
Neste estudo observacional prospectivo foram incluı́dos 378 doentes admitidos na Unidade de Cuidados Intensivos de Cardiologia dos Hospitais da Universidade de Coimbra, entre janeiro de 2004
e dezembro de 2006, com diagnóstico de sı́ndrome coronária aguda (EAM e Angina Instável). Para
cada doente foi recolhida informação referente aos dados demográficos, antecedentes cardiovasculares, factores de risco cardiovascular, medicação anterior ao internamento, parâmetros laboratoriais, tratamento intra-hospitalar, medicação administrada durante o internamento e complicações
intra-hospitalares. Após a alta os doentes foram seguidos durante um perı́odo de 5 anos a fim de
determinar a ocorrência de complicações tais como, novo enfarte, morte, acidente vascular cerebral
e insuficiência cardı́aca. Este trabalho tem como objectivo a modelação do tempo até à ocorrência
de múltiplos enfartes como complicações de uma sı́ndrome coronária aguda e a determinação dos
seus factores de risco.
Podendo existir, neste caso, várias ocorrências do mesmo acontecimento (EAM) para o mesmo indivı́duo, a utilização do modelo de Cox não é adequada. De entre diversos modelos de sobrevivência
para acontecimentos múltiplos, optou-se por considerar o modelo de regressão PWP desenvolvido
por Prentice, Williams e Peterson (1981) para a avaliação da influência dos diversos factores no
tempo de sobrevivência dos indivı́duos. Este modelo revelou-se o mais adequado nesta situação de
acontecimentos ordenados com risco condicional, uma vez que o risco de sofrer cada novo enfarte é
diferente do risco associado ao enfarte anterior, sendo assumido que o doente apenas está em risco
de sofrer o enfarte de ordem k quando já sofreu o enfarte de ordem k-1.
Palavras–chave: Análise de sobrevivência, acontecimentos múltiplos, modelo PWP
SPE 2011
273
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Bibliografia
[1] Prentice, R.L., Williams, J. e Peterson, A.V. (1981). On the regression analysis of multivariate
failure time data. Biometrika, 68, 373–379.
SPE 2011
274
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Aplicação do algoritmo EM na modelação da sobrevivência
relativa de doentes oncológicos
Daniela Cunha1 , Luı́s Antunes2 , Maria José Bento2 e Luı́s Machado1
1
Escola de Ciências - Universidade do Minho, fifida [email protected], [email protected]
RORENO - Registo Oncológico Regional do Norte,
{luis.antunes, mjbento}@ipoporto.min-saude.pt
2
Resumo: Na modelação da sobrevivência relativa é normalmente considerado um modelo de riscos
aditivo. Considera-se que o risco de morte de cada indivı́duo é a soma de duas componentes: o
risco relacionado com a sua idade e sexo, obtido a partir das tábuas de mortalidade populacionais,
e o excesso de risco atribuı́vel à doença em estudo. A estimação do modelo tem sido efectuada no
âmbito dos modelos lineares generalizados ou por maximização directa da verosimilhança. Perme
et al. [2] propuseram um procedimento alternativo baseado no algoritmo EM. Contrariamente aos
métodos usuais, neste procedimento nenhuma forma paramétrica é assumida para a função de excesso de risco de referência. Com este trabalho pretendeu-se comparar os resultados da aplicação
das diferentes abordagens na modelação da sobrevivência de doentes com cancro do pulmão e da
mama.
Palavras–chave: Sobrevivência relativa, algoritmo EM, cancro
Introdução
O uso da sobrevivência por causa especı́fica em estudos de base populacional de sobrevivência de
doentes de cancro é limitado pelo desconhecimento, para a maioria dos casos, da causa de morte.
O uso da sobrevivência relativa tem como objectivo resolver esse desconhecimento, comparando a
sobrevivência observada na coorte de doentes, com aquela que se esperaria encontrar num grupo de
indivı́duos com as mesmas caracterı́sticas, mas livres da doença. Os modelos de regressão usualmente empregues neste contexto, consideram que o risco de morte de cada indivı́duo resulta da soma
de duas componentes, nomeadamente, o risco da população em geral e uma componente de excesso
de risco causado pela doença. A primeira componente é estimada a partir das tábuas de mortalidade
e a segunda é modelada como função de um conjunto de covariáveis de interesse, considerando
normalmente, riscos proporcionais com uma função de excesso de risco de referência modelada
parametricamente [1]. Recentemente, foi proposta [2] uma forma não paramétrica de estimar esta
linha de base, permitindo evitar problemas inerentes à má especificação da forma desta função.
Métodos
Designando por SO (t) e SP (t) as funções de sobrevivência observada e da população, respectivamente, a sobrevivência relativa é definida como sendo o quociente das duas funções SR (t) =
SPE 2011
275
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
SO (t)/SP (t). Considerando a relação entre a função de risco e a função de sobrevivência:
Zt
S(t) = exp − λ (u)du ,
(1)
0
o modelo de sobrevivência relativa pressupõe um modelo de riscos aditivo, em que λO = λP + λE .
λO representa o risco observado, λP o risco da população e λE , o excesso de risco atribuı́vel à
doença. O excesso de risco é modelado como função de um vector de covariáveis de interesse Z:
λE (t,Z) = λ0 (t)eβ Z ,
(2)
em que λ0 (t) representa a função excesso de risco de referência. Esta é, usualmente, considerada
como sendo constante em intervalos de tempo pré-especificados, ou outras funções paramétricas.
No método proposto por Perme et al. [2], nenhum pressuposto é necessário relativamente à forma
desta função. O método generaliza o modelo de Cox, tratando a causa de morte como dado omisso.
No algoritmo, esta é estimada conjuntamente com os parâmetros do modelo.
Todos os cálculos foram efectuados usando o software R. Para a modelação da sobreviência, foi
utilizada a package relsurv descrita em [3].
Aplicação
Neste trabalho, pretendeu-se comparar as estimativas das razões de excesso de risco num modelo
de riscos aditivos, considerando diferentes formas de estimar o modelo: máxima verosimilhança
e algoritmo EM, como proposto por Perme et al. [2]. Foram analisados dois conjuntos de dados,
ambos disponibilizados pelo RORENO (Registo Oncológico Regional do Norte). Correspondem a
doentes diagnosticados com cancro de pulmão e mulheres diagnosticadas com cancro da mama, no
perı́odo 2000 a 2006, com idade igual ou superior a 15 anos, residentes na região Norte de Portugal
à data de diagnóstico. Escolheram-se dois tumores com padrões de sobrevivência muito distintos.
Enquanto no caso dos tumores do pulmão a sobrevivência é muito reduzida (sobrevivência relativa
a 5 anos de cerca de 11%), os tumores da mama têm uma sobrevivência bastante elevada (cerca de
85%).
Bibliografia
[1] Dickman, P.W., Sloggett, A., Hills, M. e Hakulinen, T. (2004). Regression models for relative
survival. Statistics in Medicine, 23, 51-64.
[2] Perme, M.P., Henderson, R. e Stare, J. (2009). An approach to estimation in relative survival
regression. Biostatistics, 10, 136-146.
[3] Pohar, M. e Stare, J. (2006). Relative survival in R. Computer Methods and Programs in
Biomedicine, 81, 272-278.
SPE 2011
276
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Modelo logı́stico de detecção de quedas
Filipe Felisberto1 , Miguel Felgueiras2 , António Pereira3 e Alexandra Seco4
1
CIIC do Instituto Politécnico de Leiria, [email protected]
CEAUL e CIIC do Instituto Politécnico de Leiria, [email protected]
3 INOV e CIIC do Instituto Politécnico de Leiria, [email protected]
4 ESTG do Instituto Politécnico de Leiria, [email protected]
2
Resumo: Estudo da aplicação de Regressão Logı́stica para minimizar os falsos positivos, inerentes
à utilização de acelerómetros, na detecção de quedas em idosos.
Palavras–chave: regressão logı́stica, detecção de quedas, redes de sensores sem fios, envelhecimento
Introdução
As quedas são a principal causa de hospitalização e morte em pessoas com mais de 65 anos. Procurando obviar este problema, o nosso grupo de investigação tem vindo a desenvolver um sistema de
detecção de quedas, através da utilização da Rede de Sensores Sem Fios [3].
Algumas Noções sobre Detecção de Quedas
Qualquer modelo de detecção de quedas deve atender quer a questões de sensibilidade, quer a
questões de especificidade. Naturalmente que um sistema que não detecte correctamente quedas é
ineficaz, mas é igualmente importante que este distinga acções do dia-a-dia similares a quedas de
verdadeiras quedas. Falsos positivos são altamente nefastos para o sistema já que destroem a credibilidade do mesmo, para além de ocuparem recursos que podem ser necessários para um problema
real. Numa primeira análise [2], ficou claro que recorrer apenas a dados não tratados de aceleração,
forma tradicional de abordar este problema, não seria suficiente para distinguir correctamente uma
queda de outras actividades do dia-a-dia de aceleração similar, como o acto de sentar mais violento.
A solução que apresenta melhores resultados [1], baseia-se em utilizar sensores externos para realizar um estudo continuo do movimento do idoso. O problema advém do facto dos sensores externos
limitarem o sistema a uma área de utilização muito restrita. Ao utilizarmos sensores internos (acelerómetros) na nossa abordagem, temos a vantagem de não restringir a movimentação do utilizador.
Ainda assim, novos problemas emergem, pois por questões de energia e erro não é possı́vel realizar
uma análise contı́nua do movimento.
Modelo Proposto
Para testar a solução por nós proposta, que recorre a um acelerómetro no processo de detecção de
quedas, foi realizado um conjunto de simulações. Destas, 150 foram simulações de quedas e 110
simulações do acto de sentar bruscamente. Caso se utilizasse o modelo tradicional de classificação
ajustado aos dados, o qual apenas recorre a um limiar da aceleração resultante para destinguir um
queda de um acto do dia-a-dia, 92 das simulações de sentar seriam consideradas como quedas,
SPE 2011
277
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
originando uma precisão de apenas 16%. Isto pois várias simulações do acto de sentar têm uma
aceleração observada superior a simulações de quedas.
Recorrendo à análise dos dados através da Regressão Logı́stica [4] e utilizando apenas os valores
da aceleração resultante, conseguiu-se obter uma redução do número de falsos positivos, passando
estes de 84% para 55%. Mas por outro lado, 27% das quedas passaram a ser detectadas como actos
de sentar.
Decidiu-se então passar a utilizar também os valores de aceleração de cada eixo. Com as novas
covariáveis a precisão passou a ser superior a 90%, tanto na detecção de quedas como na distinção
dos actos de sentar. Por outro lado, 5,5% de quedas ficam por detectar, o que continua a ser um
valor muito elevado. Decidimos então recorrer ao estudo da diferença em valores beta (DfBeta) e
após um processo iterativo, foram detectados um total de 6 valores influentes. Já sem estes valores,
a precisão passou a ser de aproximadamente 99% na detecção de quedas e obtivemos apenas 3% de
falsos positivos.
Resultados finais
Assim, para a matriz de valores contendo a aceleração de cada eixo e a aceleração resultante
(X,Y,Z,Acel), obtemos a seguinte a função logit, onde π̂ representa o estimador da probabilidade de
queda
π̂
ln
= 5.479 + 11.905X + 12.622Y + 4.081Z + 21.556Ace,
(1)
1 − π̂
sendo a probabilidade de ocorrer uma queda estimada por
π̂ =
e11.905X+12.622Y +4.081Z+21.556Acel
.
0.0041735 + e11.905X+12.622Y +4.081Z+21.556Acel
(2)
Bibliografia
[1] Bourke, A.K., O’Donovan, K.J., Nelson, J. e OLaighin, G.M. (2008). Fall-detection through
vertical velocity thresholding using a tri-axial accelerometer characterized using an optical
motion-capture system, Engineering in Medicine and Biology Society, 2832 -2835.
[2] Felisberto, F., Moreira, N., Marcelino, I., Fdez-Riverola, F. e Pereira, A. (2011). Elder Care’s
Fall Detection System, Proceedings of the PAAMS11 - 9th International Conference on Practical Applications of Agents and Multi-Agent Systems, España.
[3] Marcelino, I., Barroso, J., Bulas Cruz, J. e Pereira, A. (2008). Elder Care Architecture, Proceedings of the 2008 Third International Conference on Systems and Networks Communications,
349-354.
[4] Seco, A., Felgueiras, M., Fdez-Riverola, F. e Pereira, A. (2011). Elder Care Alert
Management-Decision Support by a Logistic Regression Model, Trends in Practical Applications of Agents and Multiagent Systems, 9–16.
SPE 2011
278
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Processo das excedências para sistemas dinâmicos
Ana Cristina Moreira Freitas
CMUP & FEP, [email protected]
Resumo: Neste trabalho reformulamos as condições usuais que nos permitem concluir que o processo das excedências, quando propriamente normalizado, converge em distribuição para um processo de Poisson. Essencialmente, enfraquecemos a condição de mistura de forma a que, no contexto dos sistemas dinâmicos, decorra do decaimento de correlações.
Palavras–chave: Teoria de valores extremos, processo de excedências, sistemas dinâmicos
Leis de valores extremos para sistemas dinâmicos
Consideremos um sistema dinâmico discreto (X, B,µ , f ), em que X é uma variedade Riemanniana
de dimensão d, B é a σ -algebra de Borel, f : X → X é uma aplicação mensurável e µ uma medida de
probabilidade f -invariante, absolutamente contı́nua com respeito à medida de Lebesgue (acip), com
dµ
densidade denotada por ρ = dLeb
. Consideremos um observável ϕ : X → R ∪ {±∞} que atinge um
máximo global em ζ ∈ X e o processo estocástico estacionário X0 , X1 , . . . dado por
Xn = ϕ ◦ f n ,
para cada n ∈ N.
(1)
Definamos o máximo parcial Mn := max{X0 , . . . ,Xn−1 }. Seja un uma sucessão de nı́veis tal que
nµ (X0 > un ) → τ , quando n → ∞,
(2)
para algum τ ≥ 0. A Teoria Clássica de Valores Extremos estabelece que existem apenas três tipos de distribuições assimptóticas não-degeneradas para o máximo de uma amostra de variáveis
aleatórias (v.a.) independentes e identicamente distribuı́das (i.i.d.) sob normalização linear. O
mesmo tipo de leis aplicam-se a processos estocásticos estacionários, sob certas condições na estrutura de dependência, o que permite a redução ao caso independente. A um processo estocástico
dado X0 ,X1 , . . . associamos uma sucessão de v.a. i.i.d. Y0 ,Y1 , . . ., cuja f.d. é a mesma de X0 , e cujo
máximo parcial definimos como M̂n := max{Y0 , . . . ,Yn−1 }. Denotando as condições de dependência
usuais por D(un ) e D′ (un ), onde un é uma sucessão de nı́veis que satisfaz (2), num trabalho anterior
propusemos uma versão mais fraca de D(un ), que denotamos por D2 (un ), e que é consequência
imediata do decaimento de correlações suficientemente rápido para observáveis que são de variação
limitada ou Hölder contı́nuos.
Estabelecemos que, se D2 (un ) e D′ (un ) se verificam para o processo X0 , X1 , . . . e para uma sucessão
de nı́veis que satisfazem (2), então o seguinte limite existe, e
lim µ (M̂n ≤ un ) = lim µ (Mn ≤ un ).
n→∞
SPE 2011
n→∞
279
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Processo pontual das excedências
Neste trabalho estamos interessados na ocorrência de excedências do nı́vel un para o processo estocástico X0 ,X1 , . . ..
Definamos então o Processo Pontual das Excedências (PPE) do nı́vel un , contando o número de
excedências durante o intervalo de tempo [0,t). Reescalonemos o tempo usando o factor vn :=
1/µ (X > un ) dado pelo Teorema de Kac. Então, para qualquer x ∈ X e todo t ≥ 0, seja
Nn (t) = Nn ([0,t),x) :=
⌊vn t⌋
∑ 1X >u .
j
n
(3)
j=0
Sabe-se que sob D(un ) e D′ (un ), o PPE Nn , quando convenientemente normalizado, converge em
distribuição para um processo de Poisson.
O nosso objectivo aqui é estabelecer que ainda obtemos um limite Poisson se relaxarmos a condição
D(un ) de forma a que seja suficiente termos decaimento de correlações suficientemente rápido dos
sistemas dinâmicos que geram o processo estocástico. Contudo, com esse objectivo, precisamos de
uma condição mais forte do que D2 (un ) de modo a lidar com acontecimentos múltiplos. Por isso
introduzimos a condição D3 (un ) abaixo, que é também consequência do decaimento de correlações
suficientemente rápido, tal como D2 (un ) era.
Seja S o semi-anel de subconjuntos de R+
0 cujos elementos são intervalos do tipo [a,b), para
a,b ∈ R+
.
Denotemos
por
R
o
anel
gerado
por S . Relembremos que para todo A ∈ R existem
0
k ∈ N e k intervalos I1 , . . . ,Ik ∈ S tais que A = ∪ki=1 I j . De forma a fixar uma notação, sejam
a j ,b j ∈ R+
0 tais que I j = [a j ,b j ) ∈ S .Para I = [a,b) ∈ S e α ∈ R, denotamos α I := [α a,α b) e
I + α := [a + α ,b + α ). De forma análoga, para A ∈ R definimos α A := α I1 ∪ · · · ∪ α Ik e A + α :=
(I1 + α ) ∪ · · · ∪ (Ik + α ). Para todo A ∈ R seja M(A) := max{Xi : i ∈ A ∩ Z}. No caso particular em
que A = [0,n) escrevemos simplesmente, como anteriormente, Mn = M[0,n).
Propomos então a seguinte condição:
Condição D3 (un ). Sejam A ∈ R e t ∈ N. Dizemos que D3 (un ) se verifica para a sucessão X0 ,X1 , . . .
se
µ ({X0 > un } ∩ {M(A + t) ≤ un }) − µ ({X0 > un })µ ({M(A) ≤ un }) ≤ γ (n,t),
onde γ (n,t) é não-crescente em t para cada n e nγ (n,tn ) → 0 quando n → ∞ para alguma sucessão
tn = o(n).
Antes de estabelecermos o resultado que nos dá estatı́sticas de Poisson como limite para o PPE sob
D3 (un ) and D′ (un ), apresentemos a condição D′ (un ) já referida anteriormente.
Condição D′ (un ). Dizemos que D′ (un ) se verifica para a sucessão X0 ,X1 , . . . se
lim lim sup n
k→∞ n→∞
⌊n/k⌋
∑
j=1
µ ({X0 > un } ∩ {X j > un }) = 0.
Teorema 1. Seja X1 , X2 , . . . um processo estocástico estacionário para o qual as condições D3 (un )
and D′ (un ) se verificam para uma sucessão de nı́veis un que satisfaz (2). Então, o PPE Nn definido
d
em (3) é tal que Nn →
− N, quando n → ∞, onde N denota um processo de Poisson de média 1.
SPE 2011
280
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Regressão logı́stica múltipla: previsão do estado de conservação de próteses dentárias removı́veis em idosos institucionalizados
Maria Conceição Manso1 , Sandra Gavinha2 e Patrı́cia Manarte Monteiro2
1
Faculdade de Ciências da Saúde, Universidade Fernando Pessoa, Porto REQUIMTE-UP, Portugal, [email protected]
2 Departamento de Medicina Dentária, Faculdade de Ciências da Saúde, Universidade Fernando
Pessoa, Porto, Portugal, {sgavinha, patmon}@ufp.edu.pt
Resumo: A reabilitação protética removı́vel tem a capacidade de reduzir/eliminar as deficiências
atribuı́das a dentes perdidos. Contudo, a sua manutenção/conservação é uma necessidade pois permite prevenir alterações que estas possam provocar nas estruturas remanescentes da cavidade oral.
Este trabalho teve como objectivo avaliar o efeito de variáveis associadas ao mau estado conservação
de próteses dentárias removı́veis (acrı́licas e esqueléticas), por utilização de uma regressão logı́stica
múltipla. O género, o grau de independência, a higiene da prótese, o tipo de prótese removı́vel
e a sua idade foram os factores retidos pelo modelo de regressão logı́stica para explicar a má
conservação da prótese.
Palavras–chave: Regressão logı́stica múltipla, próteses dentárias removı́veis, idosos institucionalisados, dentária
Os dados foram recolhidos através de um estudo observacional, transversal e descritivo (Janeiro a
Junho de 2008), com 372 indivı́duos com 60 ou mais anos e residentes em 22 dos 158 lares do Distrito do Porto, fazendo uma avaliação da condição oral dos indivı́duos e um inquérito relativo a dados
socio-demográficos e de hábitos relacionados com a sua saúde oral. A avaliação da conservação das
próteses removı́veis deu origem a uma variável dependente dicotómica (0- bom estado, 1- mau estado). Das 194 próteses avaliadas no maxilar superior e 151 no maxilar inferior, apenas 42 (21,6%)
e 34 (22,5%) apresentaram bom estado de conservação. As variáveis candidatas a variáveis explicativas são quantitativas (idade (anos)-I, idade da prótese (anos)-IP e há quanto tempo não vai ao
médico dentista (anos)-TDent), qualitativas com três categorias de resposta (grau de escolaridadeGE: sem escolaridade, primeiro ciclo, mais do que o primeiro ciclo), tipo de prótese-TP (Portador de
prótese parcial acrı́lica (PPPA), Portador de prótese parcial esquelética (PPPE) e Portador de prótese
total acrı́lica (PPTA)), quem fez a prótese e quem consertou a prótese (médico dentista, protésico,
não sabe)) e dicotómicas (género (feminino (F), masculino (M)), grau de independência (GI) para
tarefas de higiene oral diária (independente (I), dependente (D)) e higiene da prótese (ausência de
placa bacteriana (APB), presença de placa (PP))).
Realizou-se análise descritiva e inferencial (alfa=0,05) e regressão logı́stica múltipla (método passo
a passo regressivo, p=0,05 para inclusão de factores e p=0,10 para exclusão) utilizando SPSS vs17.0
recorrendo ao adicional complex samples. O processo de selecção das covariáveis começou pela
análise univariada de cada variável candidata a variável explicativa (regressão logı́stica simples).
Todas as variáveis apresentaram valores inferiores a 0,010, com excepção da variável quem consertou a prótese (inf. a 0,250). Na tabela 1 resume-se a informação do modelo de previsão de má
SPE 2011
281
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
conservação das próteses, apresentando-se as estimativas para os coeficientes do modelo e do erro
padrão dos coeficientes estimados, os valores observados da E.T. dos parâmetros estimados (teste
de Wald), os graus de liberdade, os valores p (teste de Wald), as estimativas das razões de chances
(OR) e correspondentes intervalos de confiança a 95% de confiança.
Tabela 1: Resultados do modelo de regressão logı́stica múltipla ajustado.
Variável
Género (x1 )
GI (x2 )
HP (x3 )
TP (x4 )
IP (x5 )
Categoria
M (x1 = 1)
D (x2 = 1)
PP (x3 = 1)
PPPA (x41 = 1)
PPPE (x42 = 1)
PPTA (x43 = 1)
+1ano
Constante
B
-1,071
0,375
1,668
E.P.
0,092
0,125
0,088
-1,614
-0,599
0,103
1,185
0,130
0,102
0,006
0,097
W
136,271
9,047
358,094
154,731
154,550
34,683
340,153
149,650
g.l.
1
1
1
2
1
1
1
1
valor p
< 0,001
0,003
< 0,001
< 0,001
< 0,001
< 0,001
< 0,001
< 0,001
Exp(B) ou OR
0,343 (0,286 - 0,410)
1,455 (1,140 - 1,857)
5,299 (4,459 - 6,298)
1
0,199 (0,154 - 0,257)
0,550 (0,450 - 0,671)
1,108 (1,096 - 1,121)
3,271
A área abaixo da curva ROC foi 0,859 (IC95%: 0,845-0,873), correspondendo a uma boa discriminação
(Hanley and McNeil, 1982; Hosmer and Lemeshow, 1989), a percentagem de classificação correcta
obtida foi de 85,7%, a sensibilidade de 49,3% e a especificidade de 95,3%.
O modelo obtido deve ser visto com alguma reserva se se pretender aplicar à conservação de próteses
de indivı́duos não institucionalizados ou fora do intervalo de idades considerado, mas é certamente
útil para dar algumas indicações sobre a questão em estudo neste trabalho.
Bibliografia
[1] Hanley, J.A. e McNeil, B.J. (1982). The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology, 143, 29–36.
[2] Hosmer, D.W. e Lemeshow, S. (1989). Applied Logistic Regression. John Wiley & Sons, New
York.
SPE 2011
282
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Estatı́stica no ensino secundário — um contributo para a
clarificação do estudo da regressão linear simples
Maria Alice Martins1 , Helena Ribeiro2 e Rui Santos3
1
Agrupamento de Escolas Artur Gonçalves de Torres Novas, [email protected]
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEMAT — Centro de
Matemática e Aplicações, [email protected]
3 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de
Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
2
Resumo: A Estatı́stica tem vindo a ocupar, cada vez mais, um lugar de destaque no ensino da
Matemática quer ao nı́vel do ensino básico quer ao nı́vel do ensino secundário, consequência da
crescente utilidade que esta área da Matemática tem vindo a desempenhar no nosso quotidiano.
Contudo, os materiais disponı́veis para o ensino e compreensão dos conceitos mais elementares de
Estatı́stica, que são igualmente os mais fundamentais, nem sempre são os mais adequados (apesar
de contributos bem sucedidos pela literacia estatı́stica, como ilustra o projecto ALEA – Acção
Local Estatı́stica Aplicada – http://www.alea.pt). Pretendemos, neste trabalho, dar o nosso
contributo para a melhoria do ensino da Estatı́stica em Portugal apresentando algumas incorrecções,
gralhas e/ou erros que frequentemente aparecem nos materiais utilizados neste nı́vel de ensino,
bem como apresentando algumas propostas de clarificação (destinada quer a professores quer a
estudantes destes nı́veis de ensino). Neste sentido, iremos focar a atenção no erro mais comum que
detectamos nos manuais por nós consultados, a de utilização da mesma recta de regressão, obtida
pelo método dos mı́nimos quadrados, para estimar um valor de x condicionado a um dado valor
de y bem como para estimar um valor de y condicionado a um valor de x quando, correctamente,
dever-se-iam utilizar duas rectas distintas (excepto em alguns casos muito particulares onde as
duas rectas são análogas). Este erro será exemplificado utilizando um software (que é freeware)
frequentemente utilizado no ensino da geometria no ensino básico e secundário, o GeoGebra.
Palavras–chave: Ensino de Estatı́stica, regressão linear simples, método dos mı́nimos quadrados
Introdução
No 10.o ano de escolaridade é transmitida uma ideia intuitiva de recta de regressão, explorando a
sua interpretação e as suas limitações. Apesar de não ser objectivo explicar formalmente a recta
obtida, é transmitida a ideia pela qual ela é determinada — corresponde à recta que faz com que a
soma dos quadrados das distâncias de cada ponto da nuvem à recta seja mı́nima; sendo esta recta
unicamente determinada recorrendo a uma calculadora. Contudo, em muitos manuais utilizados no
ensino secundário, a mesma recta é utilizada para efectuar uma previsão para a variável y quando
conhecemos um valor de x (condicionada a x = x0 ) quer para efectuar previsões para x quando
conhecemos um valor especı́fico da variável y (y = y0 ) o que não deveria ocorrer. Notemos que
caso utilizemos uma regressão de y em função de x, determinando os parâmetros α0 e α1 da recta
ŷt = α0 + α1 xt que minimizam ∑ (yt − yˆt )2 , a recta será (excepto em alguns caso muito especı́ficos)
distinta da recta obtida quando efectuamos uma regressão de x em função de y, determinando os
parâmetros β0 e β1 da recta x̂t = β0 + β1 yt que minimizam ∑ (xt − xˆt )2 . Esta diferença resulta da
SPE 2011
283
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
forma como definimos os erros nas duas regressões, pois enquanto na primeira os erros são medidos
paralelamente ao eixo das ordenadas (o erro é definido pela diferença entre o valor observado de
y e o seu valor estimado condicionalmente a x, εt = yt − yˆt ), na segunda os erros são medidos
paralelamente ao eixo das abcissas (o erro é definido pela diferença entre o valor observado x e o
seu valor estimado pela regressão em função de y, εt = xt − xˆt ). Desta forma, será erróneo1 utilizar
a regressão de y em função de x para efectuar previsões para x quando conhecemos um determinado
valor para y (y = y0 ) e, apesar de em algumas aplicações a diferença das duas rectas poder ser
diminuta, existem outras situações em que o erro pode assumir valores elevados.
Figura 1: Regressão de y condicionada a x versus de x condicionada a y
Conforme claramente ilustram os dois exemplos representados na Figura 1 onde estão representadas
as duas rectas obtidas utilizando dois conjuntos distintos de 10 observações (recorrendo ao software
GeoGebra), podemos constatar a distinção entre as duas rectas bem como a diferença no valor
estimado de y obtido pelas duas rectas quando x assume o valor 5.
Bibliografia
[1] Montgomery, D.C., Peck, E.A. e Vining, G.G. (2006). Introduction to Linear Regression
Analysis, 4th Ed., Wiley Series in Probability and Statistics, John Wiley & Sons.
[2] Murteira, B. (1993). Análise exploratória de dados - Estatı́stica Descritiva, McGraw-Hill,
Lisboa.
[3] Osborne, C. (1991). Statistical Calibration: A Review, International Statistical Review 59, n.o
3, pp. 309–336.
[4] Pestana, D.D. e Velosa, S.F. (2009). Introdução à Probabilidade e à Estatı́stica, Vol. 1, 3.a ed.,
Fundação Calouste Gulbenkian, Lisboa.
1
Há, contudo, determinadas situações especı́ficas para as quais se justifica a necessidade de utilização
de regressão inversa, como ilustram alguns modelos de calibração [3].
SPE 2011
284
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Modelação do impacto da pobreza nas escolhas contraceptivas na Índia: uma análise multinı́vel
Isabel Tiago de Oliveira1 , Sabu S. Padmadas2 e José G. Dias3
1
ISCTE – Instituto Universitário de Lisboa, CIES, Lisboa, Portugal, [email protected]
Centre for Global Health, Population, Poverty & Policy, University of Southampton, United Kingdom, [email protected]
3 ISCTE – Instituto Universitário de Lisboa, UNIDE, Lisboa, Portugal, [email protected]
2
Resumo: Esta investigação discute o efeito dos nı́veis de pobreza-riqueza sobre as escolhas contraceptivas das mulheres indianas. Os programas de planeamento familiar indianos têm favorecido
a esterilização feminina como método contraceptivo dominante. Nesta situação, a opção por outros métodos contraceptivos em alternativa à esterilização está associada às caracterı́sticas sociodemográficas, em particular o nı́vel de riqueza do agregado familiar e a escolaridade do casal.
Palavras–chave: Métodos de contracepção, demografia, modelos de escolha discreta, modelos
multinı́vel
A relação existente entre a pobreza e a escolha de métodos de contracepção é mediada por factores
ao nı́vel individual e do agregado familiar. Na Índia, 56.3% das mulheres casadas utilizam actualmente contracepção, principalmente através de esterilização feminina (37.3%), todos os outros
métodos (modernos e tradicionais) correspondem a 19.9% (11.1% para os métodos femininos modernos; 7.8% para os métodos tradicionais; e 1% para esterilização masculina) [1]. A importância
da esterilização feminina na Índia é muito elevada em resultado de programas de planeamento familiar orientados para este método contraceptivo [3]. A esterilização está associada a uma estratégia
de paragem reprodutiva versus uma opção pelo espaçamento entre os nascimentos. Este tipo de
escolha contraceptiva tem consequências significativas na saúde materna e infantil e resulta num
padrão etário de fecundidade muito jovem, com importantes consequências no crescimento populacional [2]. A escolha entre esterilização feminina e os métodos modernos de espaçamento (e.g.,
pı́lula) estão claramente associada à condição sócio-económica das mulheres.
Quer o ı́ndice de riqueza do agregado familiar quer o nı́vel de escolaridade feminina estão associados
com as escolhas de método de contracepção pelas mulheres. Das mulheres indianas que actualmente
utilizam métodos de contracepção, cerca de 70% preferem esterilização feminina nos primeiros
quatro quintis, mas no mais elevado esta preferência decresce para metade das que usam outro tipo
de método de contracepção. Em termos de nı́vel educacional, o gradiente é ainda mais forte do
que no caso do ı́ndice de riqueza do agregado familiar. A esterilização feminina é o método mais
importante de contracepção para nı́veis educacionais mais reduzidos e a sua importância relativa
reduz-se (de 76% para 33%) com o aumento no nı́vel educacional. Por outro lado, a percentagem de
mulheres que utiliza métodos modernos de espaçamento (entre todas as mulheres casadas que usam
métodos de contracepção) aumenta substancialmente com o nı́vel educacional (de 9% para 46%).
As mulheres com nı́vel educacional mais elevado preferem métodos modernos de espaçamento a
esterilização, tornando-se uma situação única no contexto da Índia.
Tendo por base dados do 2005-06 National Family Health Surveys, este estudo analisa de forma sistemática o impacto da pobreza em termos de escolhas das mulheres indianas. Modelos com classes
SPE 2011
285
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
latentes são aplicados para classificar os agregados familiares em termos de ı́ndice de riqueza. A
interacção entre a riqueza do agregado e outros factores determinantes da escolha contraceptiva das
mulheres é modelada utilizando um modelo multinı́vel multinomial logit, controlando os factores
individuais, do agregado familiar e da comunidade relevantes ao modelo de escolha de contracepção.
Agradecimentos: Os autores agradecem o apoio financeiro da FCT – Fundação para a Ciência e a
Tecnologia (PTDC/CS-DEM/108033/2008).
Bibliografia
[1] International Institute for Population Sciences (IIPS) e Macro International (2007). National
Family Health Survey (NFHS-3), 2005-06: India: Volume I. Mumbai: IIPS.
[2] Matthews, Z., Padmadas, S.S., Hutter, I., McEachran, J. e Brown, J.J. (2009). Does early childbearing and a sterilization-focused family planning program in India fuel population growth?,
Demographic Research, 20 (28), 693–720.
[3] Visaria, L., Jejeebhoy, S. e Merrick, T. (1999). From family planning to reproductive health:
Challenges facing India. International Family Planning Perspectives, 25 (Supplement), 44–49.
SPE 2011
286
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Métodos de regressão para observações repetidas em Saúde
Rosa Oliveira e Armando Teixeira-Pinto
Faculdade de Medicina - Universidade do Porto, {rcoliveira,tpinto}@med.up.pt
Resumo: Estudam-se os ganhos de eficiência da regressão multivariada comparada a múltiplas regressões univariadas quando o conjunto de covariáveis são especı́ficas das observações individuais.
Em particular, analisamos a situação em que as observações partilham algumas das covariáveis, enquanto que outras covariáveis são especı́ficas de sub-conjuntos de observações. Demonstramos que
para os coeficientes associados com covariáveis partilhados, existem ganhos de eficiência, enquanto
que para as covariáveis especı́ficas de sub-conjuntos de observações, os ganhos de eficiência dependem da correlação entre os resultados associados às observações.
Palavras–chave: Estatı́stica, análise multivariada, análise de dados, aplicações à biologia e ciências
médicas
SPE 2011
287
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Modelo de mistura bayesiano para extremos não-estacionários
Boris Oumow, Miguel de Carvalho, Anthony Davison
Ecole Polytechnique Fédérale de Lausanne, [email protected]
Resumo: Os modelos de estatı́sticas de valores extremos desempenham um papel fundamental na
modelação de acontecimentos catastróficos. Para medir o risco desses acontecimentos necessitamos de extrapolar para as caudas da distribuição, sendo necessário desenvolver métodos para a
inferência de valores superiores aos observados. Um trabalho importante na modelação de extremos não-estacionários é devido a [2], mas a pesquisa de modelos alternativos continua a ser um
tópico de interesse actual [1, 3]. Neste trabalho propomos um modelo de mistura para o centro da
distribuição e para as caudas, como alternativa ao modelo introduzido em [5]. A nossa abordagem
envolve a modelação do centro da distribuição e dos parâmetros do processo pontual que caracteriza
as caudas através de modelos bayesianos aditivos generalizados com B-splines e penalizações [4].
Os efeitos não-lineares dos regressores na intensidade do processo de Poisson limite são utilizados
para induzir a não-estacionariedade no processo gerador de extremos.
Palavras–chave: Estatı́sticas de valores extremos, extremos não-estacionários, modelos aditivos
generalizados, modelos de mistura, P-splines bayesianos
Bibliografia
[1] Carvalho, M. de, Turkman, K.F. e Rua, A. (2010). Nonstationary extremes and the US business
cycle. Working Paper—Banco de Portugal, ISBN 978-989-678-013-5.
[2] Chavez-Demoulin, V. e Davison, A.C. (2005). Generalized additive modelling of sample
extremes. Journal of the Royal Statistical Society, Ser. C, 54, 207–222.
[3] Davison, A.C. e Ramesh, N.I. (2000). Local likelihood smoothing of sample extremes. Journal
of the Royal Statistical Society, Ser. B, 62, 191–208.
[4] Lang, S. e Brezger, A. (2004). Bayesian P-splines. Journal of Computational and Graphical
Statistics, 13, 183–212.
[5] Mendes, B.V.M. e Lopes, H.F. (2004). Data driven estimates for mixtures. Computational
Statistics and Data Analysis, 47, 583–598.
SPE 2011
289
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Simulação – uma aplicação ao problema da ruı́na do jogador
Salomé Pedro1 , Rui Santos2 e Luı́s Cotrim3
1
Agrupamento de Escolas de Pataias, [email protected]
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de
Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
3 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, LSRE — Laboratório de Processos de Separação e Reacção da Faculdade de Engenharia da Universidade do
Porto, [email protected]
2
Resumo: Em 1657 é publicado o primeiro livro sobre cálculo de probabilidades, de Huygens.
Esta pequena colectânea de problemas relativos a jogos de azar, baseada na correspondência entre
Pascal e Fermat em 1654, permitiu despertar a atenção de numerosos matemáticos durante os
séculos XVII, XVIII e XIX para esta temática, razão pela qual surgiram variadas generalizações
de alguns dos problemas propostos. O último desafio apresentado neste opúsculo de Huygens, e
porventura um dos mais célebres problemas em probabilidades, é o problema da ruı́na do jogador.
Neste trabalho serão apresentadas algumas soluções exactas para algumas variantes, com recurso
à modelação do problema através de equações às diferenças, bem como soluções aproximadas
recorrendo à simulação Monte Carlo (via software R) e à Lei dos Grandes Números. Por fim,
far-se-á uma análise crı́tica à possibilidade de utilização deste problema (e outros semelhantes) na
disciplina de Matemática no ensino secundário, nomeadamente no que se refere à utilização de
simulação no ensino das probabilidades.
Palavras–chave: Simulação, história da probabilidade, ensino de probabilidades
O Problema da ruı́na do jogador
Consideremos um jogo entre dois jogadores (A e B) dividido em partidas, onde em cada partida o
jogador A ganha com probabilidade p, recebendo um euro do jogador B, e perde com probabilidade
q = 1 − p pagando um euro ao jogador B. O jogo acaba quando um dos jogadores for à ruı́na (ficar
sem dinheiro). A probabilidade Pa do jogador A ganhar o jogo tendo a e (estando em jogo n = a + b
euros, onde b é o montante em posse do jogador B) pode ser modelada pela equação às diferenças
Pa = p Pa+1 + (1 − p) Pa−1 , 0 < a < n,
(1)
com P0 = 0 e Pn = 1 como condições de fronteira (consultar, por exemplo, [1] ou [2]). Assim,
conclui-se

a
 a+b
se p = 21
.
(2)
Pa =
 qa pb −pn se p 6= 1
qn −pn
2
Este resultado permite deduzir diversas probabilidades associadas ao jogo, como por exemplo
quando uma das fortunas é ilimitada (b → ∞) ou a probabilidade de um jogo nunca terminar, entre
outras. Por outro lado, o número esperado de partidas até o jogo acabar quando o jogador A tem
SPE 2011
291
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
a e, representado por Ea , é modelado pela equação
p Ea+1 − Ea + (1 − p) Ea−1 = −1, 0 < a < n,
com E0 = En = 0 como condições de fronteira. Deste modo obtemos, como solução,

ab
se p = 21


a
.
Ea =
( 1−p
p ) −1
n
a

− 1−2p
se p 6= 21
 1−2p
1−p n
( p ) −1
(3)
(4)
Simulação
Apesar de ser possı́vel deduzir diversas caracterı́sticas do jogo da ruı́na do jogador de forma exacta
através das equações às diferenças, conforme as equações (1) e (3) ilustram, podemos igualmente
obter resultados aproximados destas caracterı́sticas recorrendo a simulação. Há igualmente especificidades do jogo que dificilmente se consegue obter de forma analı́tica (sendo, em alguns casos,
provavelmente impossı́vel) e que a simulação nos permite obter uma caracterização aproximada.
Por outro lado, o ensino das probabilidades no ensino secundário, muitas vezes dedicado quase
exclusivamente ao cálculo combinatório, pouco intuitivo e de difı́cil compreensão, pode ser bastante enriquecido com a inclusão de problemas para os quais, apesar de existirem soluções exactas
analiticamente difı́ceis para alunos deste nı́vel de ensino, podem ser obtidas soluções aproximadas
recorrendo a simulações, que permitem igualmente ilustrar, de forma intuitiva e esclarecedora, o
comportamento dos fenómenos aleatórios (consultar [3], [4] ou outros exemplos disponı́veis no site
do projecto ALEA — http://www.alea.pt). Desta forma, quer no ensino secundário quer
no ensino superior a simulação é uma ferramenta extremamente eficaz para ilustrar o comportamento dos fenómenos não determinı́sticos, nomeadamente dos resultados assimtópticos, fundamentais para a compreensão do aleatório, como por exemplo a Lei dos Grandes Números, o Teorema
Limite Central ou o Teorema de Glivenko-Cantelli.
Bibliografia
[1] Edwards, A.W.F. (1983). Pascal’s Problem: The ’Gambler’s Ruin’, International Statistical
Review 51 n.o 1, 73–79.
[2] Feller, W. (1967). Introduction to Probability Theory, vol.1, John Wiley & Sons.
[3] Martins, M.E.G. e Ponte, J.P. (2010). Organização e tratamento de dados, Ministério
da Educação, Direcção-Geral de Inovação e de Desenvolvimento Curricular (disponı́vel
em http://area.dgidc.min-edu.pt/materiais_NPMEB/matematicaOTD_
Final.pdf).
[4] Ross, S.M (2006). Simulation, 4th edition, Elsevier Academic Press.
SPE 2011
292
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Visualização de dados multivariados: radar plot versus
tabela-gráfico
Alexandra Pinto1 , Fernando Bação2 e Victor Lobo3
1
Faculdade de Medicina de Lisboa, Laboratório de Biomatemática, apinto.fm.ul.pt
ISEGI-UNL, [email protected]
3 Escola Naval, [email protected]
2
Resumo: A visualização de dados resulta do processo de converter dados em imagens. Com a
evolução dos computadores, assistiu-se ao aumento, quer da capacidade de armazenamento, quer
do processamento, tendo-se criado condições para a recolha e o tratamento de dados de elevada
dimensão.
Há diversas representações bi-dimensionais usadas para visualizar dados multivariados. Neste trabalho propõe-se a tabela-gráfico, uma representação gráfica adequada e alternativa aos radar plot
quando o número de variáveis é elevado. A tabela-gráfico demonstrou ser uma técnica importante na visualização de dados e pode ser utilizada como complemento do radar plot. Neste estudo
usaram-se os dados do 4o Inquérito Nacional de Saúde e a tabela-gráfico foi implementada em Matlab.
Palavras–chave: Visualização de dados multivariados, tabela-gráfico, radar plot
Introdução e Objectivos
A visualização de dados é uma tecnologia emergente que está a beneficiar com a crescente capacidade dos computadores e técnicas de data mining, para extrair informação útil dos dados. Esta
tecnologia é apropriada para a análise de grandes bases de dados e de dados multivariados.
A visualização é um poderoso meio de análise que ajuda a descobrir padrões e tendências escondidos nos dados. No entanto, um gráfico também pode tornar-se visualmente difı́cil de compreender
se o número de variáveis e de grupos a representar for elevado, ou ainda se as escalas de medidas
são diferentes [3].
Um dos principais problemas da visualização de dados consiste na escolha de uma representação
gráfica adequada à informação a tratar [1].
O radar plot é uma representação gráfica bi-dimensional de dados multivariados e é largamente utilizada para três ou mais variáveis quantitativas. O radar plot não é uma ferramenta muito útil quando
se pretendem representar muitas variáveis. Por exemplo, se tentarmos construir um radar plot com
mais de oito variáveis, o gráfico tornar-se-à confuso, sobretudo se não houver uma relação de ordem
simples entre essas variáveis, e for necessário colocar legendas (labeling). Nestas situações deverá
implementar-se um novo algoritmo que melhore a colocação dessas legendas.
O objectivo deste estudo é encontrar uma representação alternativa à técnica clássica do radarplot,
quando o número de variáveis é elevado. Posteriormente, pretende-se também fazer a sua implementação em Matlab.
SPE 2011
293
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Tabela-gráfico
Neste trabalho sugerimos uma abordagem, a tabela-gráfico, citada por Tufte [4]. Esta é uma
representação de dados multivariados que permite visualizar cada elemento do gráfico sem perda
de informação. A tabela-gráfico apresenta todos os valores de cada variável ligados por uma linha
(horizontal, ascendente ou descendente), tal como num comum gráfico de linhas.
Aplicação e Resultados
Antes de proceder à aplicação da tabela-gráfico a um caso de estudo, foi necessário implementá-la
em Matlab, versão 7.
Neste estudo aplicámos ambos os métodos, de um modo complementar, para dados sobre medicação,
provenientes do 4o Inquérito Nacional de Saúde - 2005/06 [2]. Os radar plots foram construı́dos para
representar apenas os cinco medicamentos mais consumidos em cada uma das sete regiões da NUTS
II, enquanto que com a tabela-gráfico representaram-se todos (dezoito) os medicamentos referidos
no inquérito.
A tabela-gráfico permitiu-nos, na mesma representação, facilmente fazer comparações transversais
entre e dentro das regiões.
Ambos os gráficos foram utilizados para extrair conclusões acerca da polimedicação e foi possı́vel
mostrar que, neste caso, a tabela-gráfico constitui uma mais valia ao apresentar os dados com maior
clareza do que com múltiplos radar plots.
Bibliografia
[1] Carmo, M.B. (2003). Visualização de Informação. Modelo Integrado para o Tratamento de
Filtragem e Múltiplas Representações. Universidade de Lisboa.
[2] Pinto, A., Rodrigues, T., Bação, F. e Lobo, V. (submetido). Medication and Polymedication in
Portugal.
[3] Saary, M.J. (2008). Radar plots: a useful way for presenting multivariate health care data.
Journal of Clinical Epidemiology, 60, 311–317.
[4] Tufte, E. (2006). Beautiful Evidence. Graphics Press.
SPE 2011
294
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Factores que influenciam a qualidade de vida dos doentes
diabéticos
Ana Sousa1 , Zilda Mendes1 e Maria Antónia Turkman2
1
2
CEFAR, ANF, {ana.sousa, zilda.mendes}@anf.pt
DEIO (FCUL) e CEAUL, [email protected]
Resumo: Em 2007, o Centro de Estudos e Avaliação em Saúde (CEFAR) da Associação Nacional
das Farmácias promoveu um estudo sobre a Qualidade de Vida dos Doentes Diabéticos em Portugal,
numa amostra de 1.479 doentes diabéticos. Dos doentes inquiridos, 53,7% eram do sexo feminino,
tinham idade média de 64 anos e apenas 19% apresentavam ı́ndice de massa corporal inferior a 25
kg/m2 . Relativamente à medicação, 80,2% dos doentes estavam apenas a fazer terapêutica oral,
10,4% insulina e 9,4% ambas as terapêuticas. Alguns doentes já apresentavam complicações como:
neuropatia (27,3%), retinopatia (22,4%) e nefropatia (11,9%). Neste questionário foi também avaliada a frequência de utilização dos cuidados de saúde por parte destes doentes.
A qualidade de vida foi avaliada através de um questionário especı́fico para esta patologia “Audit
of Diabetes Dependent Quality of Life (ADDQoL)” (Portuguese version 6.6.02). O ADDQoL é
composto por 2 questões gerais sobre o impacto da doença, pontuados entre -3 (muito mau) e
3 (excelente) e mais 18 itens subdivididos em domı́nios especı́ficos pontuados entre -9 (máximo
impacto negativo) e 9 (máximo impacto positivo). A pontuação global (average weight impact AWI) e por item é efectuado através de uma média ponderada. Nesta amostra o AWI encontrado
foi negativo (-1,88), com um intervalo de confiança a 95% para a média de [−1,96; −1,79], e uma
mediana de -1,56.
Neste trabalho pretende-se avaliar a influência de alguns factores, na qualidade de vida dos doentes
diabéticos através de duas metodologias: 1) Avaliação dos Odds Ratio obtidos através Regressão
Logı́stica Multipla e 2) Utilização adicional de Propensity Scores para minimizar a influência de
potenciais variáveis de confundimento no modelo de Regressão Logı́stica.
Palavras–chave: Diabetes, Propensity Scores
SPE 2011
295
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Riscos competitivos em estudos de diálise peritoneal
Laetitia Teixeira1 , Anabela Rodrigues2 e Denisa Mendonça3
1
PDMA/FCUP, [email protected]
CHPHSA/ICBAS, [email protected]
3 ICBAS/ISPUP, [email protected]
2
Resumo: Doentes em diálise peritoneal estão sujeitos a múltiplos eventos. Quando o interesse é
analisar a sobrevivência do doente para um evento especı́fico, a abordagem adequada é a utilização
de métodos que têm em conta riscos competitivos. Neste trabalho pretende-se apresentar uma
aplicação de riscos competitivos a um problema de análise de sobrevivência de doentes em diálise
peritoneal.
Palavras–chave: Riscos competitivos, análise de sobrevivência, diálise peritoneal
Introdução
A utilização do método de Kaplan-Meier na estimação da função de incidência cumulativa é prática
comum na análise de sobrevivência em estudos de Nefrologia, nomeadamente na diálise peritoneal.
Doentes em diálise peritoneal estão sujeitos a múltiplos eventos. Quando o interesse é analisar a
sobrevivência do doente para um evento especı́fico, a abordagem adequada é a utilização de métodos
que têm em conta riscos competitivos [1]. Tendo como objectivo a avaliação da sobrevivência do
doente, o evento de interesse é ‘morte em diálise peritoneal’, enquanto que ‘transplante de um
doente em diálise peritoneal’ e ‘transferência para hemodiálise’ são outros eventos possı́veis. Estes
dois últimos eventos são denominados competitivos, dado que a ocorrência de um anula a ocorrência
do evento de interesse [2]. A abordagem correcta nesta análise de sobrevivência na presença de
riscos competitivos, é a estimação da função de incidência cumulativa (FIC) para cada evento [1].
Objectivos
Estimação da FIC, tendo em conta riscos competitivos, na análise de sobrevivência de doentes em
diálise peritoneal (global e por caracterı́sticas do doente) e comparação com os resultados obtidos
por métodos que não consideram riscos competitivos.
Métodos
Os dados deste estudo provêm da Unidade de Diálise Peritoneal do Departamento de Nefrologia
do Hospital Geral de Santo António. Todos os pacientes que iniciaram tratamento com diálise peritoneal entre Outubro de 1985 e Junho de 2010 foram considerados no estudo (n=427). Doentes
que apresentaram recuperação da função renal (n=11) e pacientes como valores desconhecidos para
as variáveis diabetes (n=6) e idade (n=1) foram excluı́dos da análise. Na análise tendo em conta
SPE 2011
297
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
os eventos competitivos, o evento ‘morte em diálise peritoneal’ corresponde ao evento de interesse,
sendo os eventos ‘transferência para hemodiálise’ e ‘transplante’ os eventos competitivos. Doentes que não apresentem nenhum destes eventos foram censurados à data da última visita ou do fim
do perı́odo do estudo. Na análise ignorando os eventos competitivos, usou-se o método de KaplanMeier e o evento de interesse considerado foi ‘morte em diálise peritoneal’, sendo todos os restantes
censurados. Variáveis demográficas (sexo e idade) e clı́nicas (diabetes e proveniência) foram consideradas para análise de subgrupos. A variável proveniência refere o método de substituição da
função renal utilizado anteriormente à diálise peritoneal, caso exista. Esta variável é classificada
segundo três categorias: diálise peritoneal, hemodiálise ou doente transplantado. Foi utilizado a
software R e o pacote cmprsk para a estimação da função de incidência cumulativa, utilizando os
métodos propostos por J.P. Fine e R.J. Gray (ver [2]).
Resultados
O valor de FIC obtido aos 5 anos é duas vezes inferior ao calculado caso se tivesse utilizado o
método de Kaplan-Meier, ignorando a existência de riscos competitivos. Os resultados da análise
por subgrupo utilizando os testes de Gray e log-rank são notoriamente diferentes pois estes transmitem diferentes tipos de informação. O teste de Gray sugere que os três grupos definidos pela sua
proveniência são similares relativamente à sobrevivência do doente.
Conclusão
A estimação da incidência cumulativa ignorando a existência de riscos competitivos pode produzir resultados erróneos. Neste estudo, verificou-se uma elevada sobrestimação da incidência de
morte em diálise peritoneal se o método de Kaplan-Meier tivesse sido considerado, revelando a
importância dos riscos competitivos na análise de sobrevivência.
Bibliografia
[1] Pintilie, M. (2006). Competing Risks: A Practical Perspective. John Wiley & Sons: New York.
[2] Scrucca, L., Santucci, A. e Aversa, F. (2007). Competing risk analysis using R: an easy guide
for clinicians. Bone Marrow Transplant, 40, 381-387.
SPE 2011
298
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Preditores da qualidade de vida em pessoas com doenças crónicas
Estela Vilhena1 , José Pais-Ribeiro2 , Isabel Silva3 , Luı́sa Pedro4 ,
Rute Meneses5 , Helena Cardoso6 , Madalena Abreu7 , Vera Melo8
Ana Silva9 , António Martins da Silva10 , Denisa Mendonça11
1
Instituto Politécnico do Cávado e do Ave, Barcelos; ICBAS, Universidade do Porto,
[email protected]
2 FPCE, Universidade do Porto; UIPES, [email protected]
3 Universidade Fernando Pessoa, [email protected]
4 UIPES; ESTeSL IP, Lisboa, [email protected]
5 Universidade Fernando Pessoa, [email protected]
6 ICBAS, Universidade do Porto; HGSA Centro Hospitalar do Porto, [email protected]
7 FPCE, Universidade do Porto, [email protected]
8 FPCE, Universidade do Porto, [email protected]
9 HGSA Centro Hospitalar do Porto, [email protected]
10 ICBAS, Universidade do Porto; HGSA Centro Hospitalar do Porto, [email protected]
11 ICBAS, ISPUP , Universidade do Porto, [email protected]
Resumo: O presente trabalho teve como objectivo identificar preditores psicossociais da qualidade
de vida, em pessoas com doenças crónicas. Aplicando modelos de Análise de Covariância Multivariada, e controlando para um conjunto de factores sócio-demográficos e clı́nicos, verificou-se
que, de forma geral, o afecto positivo, a adesão aos tratamentos, o optimismo, a espiritualidade e o
suporte social contribuem para uma melhor qualidade de vida.
Palavras–chave: Doença crónica, preditores, qualidade de vida, MANCOVA
Introdução
A qualidade de vida é um conceito que envolve todas as componentes essenciais da condição humana, quer seja fı́sicas, psicológicas, sociais, culturais ou espirituais. Uma doença crónica tem
o papel de induzir alterações profundas na vida das pessoas, que são confrontadas com um conjunto de factores que exercem um impacto negativo na sua qualidade de vida. Como tal, após o
diagnóstico, muitos dos doentes tentam encontrar novas formas de lidar com a doença e com a vida.
O estudo teve como objectivo identificar preditores psicossociais da qualidade de vida em pessoas
com doenças crónicas.
Métodos
Estudo transversal que envolveu uma amostra de 774 indivı́duos com doença crónica (cancro, diabetes, epilepsia, esclerose múltipla, miastenia gravis e obesidade), dos quais 546 mulheres, com
idade compreendida entre os 17 e 67 anos e que após o diagnóstico, retomaram a sua vida normal.
SPE 2011
299
Sábado, 01/10/2011
Átrio do Café, 10:20–10:50
Foi aplicado um questionário que incluı́a variáveis sócio-económicas e clı́nicas, percepção da saúde
e qualidade de vida. O modelo de Análise de Covariância Multivariada (MANCOVA) foi aplicado
para identificar factores psicossociais (afecto positivo/negativo, adesão aos tratamentos, optimismo,
espiritualidade e suporte social) preditores da qualidade de vida (bem-estar geral, saúde fı́sica, saúde
mental e bem-estar subjectivo), ajustando para um conjunto de variáveis sócio-económicas e clı́nicas
(sexo, idade, escolaridade, anos de diagnóstico e classificação da doença). De forma a não violar os
pressupostos de aplicabilidade da MANCOVA foram aplicadas transformações às variáveis saúde
fı́sica e saúde mental.
Resultados
Os resultados da MANCOVA permitiram identificar as variáveis psicossociais associadas à qualidade de vida, ajustando para as variáveis sócio-demográficas e clı́nicas. O afecto positivo e negativo, adesão aos tratamentos, optimismo e espiritualidade estão associados ao bem-estar geral
(todos p<0.01); o afecto positivo e negativo, adesão aos tratamentos e o suporte social associados
à saúde fı́sica (todos p<0.01); o afecto positivo e negativo, adesão aos tratamentos, optimismo e o
suporte social associados à saúde mental (todos p<0.05); o afecto positivo e negativo, adesão aos
tratamentos, optimismo, espiritualidade e o suporte social associados ao bem-estar subjectivo (todos p<0.05). Doentes com mais afecto positivo e uma melhor adesão aos tratamentos, apresentam
melhor bem-estar geral, uma melhor saúde fı́sica, uma melhor saúde mental e um melhor bem-estar
subjectivo. Já o afecto negativo comporta-se como um preditor negativo destas componentes. O
optimismo e a espiritualidade contribuem para um melhor bem-estar geral e um melhor bem-estar
subjectivo; verifica-se também que o optimismo exerce um efeito positivo, estatisticamente significativo na saúde mental; um bom suporte social contribui para uma melhor saúde fı́sica, uma melhor
saúde mental e um melhor bem-estar subjectivo.
Conclusões
No presente estudo verificou-se, aplicando Análise de Covariância Multivariada, que o afecto positivo, a adesão aos tratamentos, o optimismo, a espiritualidade e o suporte social são preditores que
contribuem para uma melhor qualidade de vida, em pessoas com doenças crónicas. Estas conclusões
sugerem que, uma terapia multidisciplinar pode ajudar a uma melhor adaptação dos protocolos de
tratamento, para atender às necessidades especiais dos doentes.
SPE 2011
300
Sábado, 01/10/2011
Sessão Plenária V
A importância de métodos de re-amostragem em Estatı́stica
de Extremos
M. Ivette Gomes
DEIO and CEAUL, Faculdade de Ciências, Universidade de Lisboa, [email protected]
Resumo: Neste artigo, realçamos a importância de métodos de re-amostragem, tais como o jackknife generalizado e o bootstrap, na obtenção de estimativas semi-paramétricas fiáveis de qualquer
parâmetro de acontecimentos extremos ou raros. Para ilustrar essas metodologias, consideraremos
não só os clássicos estimadores de Hill mas também uma classe de estimadores de viés-corrigido
de um ı́ndice de valores extremos positivo, o parâmetro fundamental em estatı́stica de extremos.
Procederemos ainda à aplicação destes métodos a dados reais e simulados.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, bootstrap, jackknife
Introdução e preliminares
Na área de estatı́stica de extremos, as metodologias jackknife e bootstrap têm-se revelado de grande
importância na estimação adequada de parâmetros de acontecimentos raros, tais como um quantil
elevado, o perı́odo de retorno de um nı́vel elevado ou o parâmetro primordial de acontecimentos
extremos, o ı́ndice de valores extremos (EVI, do Inglês extreme value index).
+
Trabalharemos na área de modelos F, com cauda direita pesada, i.e. admitiremos que F ∈ DM
≡
DM (EVγ )γ >0 , o domı́nio de atração para máximos de EVγ (·), γ > 0, em que EVγ (·) denota a função
de distribuição de valores extremos, dada neste caso particular por EVγ (x) = exp −(1 + γ x)−1/γ ,
x > −1/γ , γ > 0. Para estes modelos de caudas pesadas, e face a uma amostra aleatória Xn e
à amostra associada de estatı́sticas ordinais (e.o.’s) ascendentes, (X1:n ≤ · · · ≤ Xn:n ), o estimador
clássico do EVI é o estimador de Hill (Hill, 1975), definido como
H(k) ≡ H(k; Xn ) :=
1
k
k
∑ {ln Xn−i+1:n − ln Xn−k:n },
i=1
k = 1, 2, . . . , n − 1.
(1)
Os estimadores em (1) são consistentes desde que Xn−k:n seja uma e.o. intermédia, i.e., desde que
k = kn → ∞ e k/n → 0, quando n → ∞.
Devido ao elevado viés assintótico do estimador de Hill, em (1), para valores de k moderados a
elevados, vários autores têm abordado o problema de redução de viés na área de extremos. Uma
das classes mais simples de estimadores do EVI com viés-corrigido é a introduzida em Caeiro et
al. (2005). Essa classe depende da estimação adequada, feita através de (β̂ , ρ̂ ), de um vector de
parâmetros de segunda-ordem, (β , ρ ), e com H(k) definido em (1), tem a forma funcional
H(k) ≡ H(k; Xn ) ≡ H β̂ ,ρ̂ (k) := H(k) 1 − β̂ (n/k)ρ̂ /(1 − ρ̂ ) .
(2)
O jackknife generalizado (Gray and Schucany, 1972) e o bootstrap (Efron, 1979) gozam de papel
fundamental na redução de viés e na escolha de k, respectivamente, permitem a obtenção de estima-
SPE 2011
Mesa: João A. Branco
301
Sábado, 01/10/2011
Sessão Plenária V
tivas semi-paramétricas fiáveis de qualquer parâmetro de acontecimentos raros, e serão abordados
em seguida.
A metodologia bootstrap na estimação do nı́vel óptimo
Quando consideramos a melhor forma de escolher o parâmetro de controlo k, na estimação de γ ,
quer através de H(k), em (1), ou através de H(k), em (2), queremos usualmente estimar k0H :=
arg mink MSE(H(k)) ou k0H = arg mink MSE(H(k)), onde MSE (do Inglês mean square error) denota o erro médio quadrático. Podemos então usar um bootstrap duplo aplicado a uma estatı́stica
auxiliar, que tende para zero, e que tem um comportamento assintótico semelhante ao de H(k) (vejase Gomes and Oliveira, 2001, entre outros) ou de H(k) (veja-se Gomes et al., 2011), o estimador a
ser considerado em paralelo com a estatı́stica auxiliar T (k) := H(k) − H([k/2]), onde [x] denota a
parte inteira de x.
Redução de viés e a metodologia jackknife
Mas nos nı́veis óptimos referidos na Secção 2, ainda temos um viés assintótico não-nulo. Se quisermos remover esse viés, podemos usar o jackknife generalizado (GJ, do Inglês generalized jackknife).
É então suficiente considerar um par adequado de estimadores do parâmetro de acontecimentos extremos em estudo, e construir combinações afins de viés-reduzido desses estimadores (veja-se Gomes et al., 2000, também entre outros, para a aplicação desta técnica ao estimador de Hill). Para
ilustrar esta metodologia, consideraremos mais uma vez os estimadores H(k), em (2), e o novo
estimador
GJ
H (k) := H(k) − 2−2ρ̂ H([k/2]) /(1 − 2−2ρ̂ ).
(3)
Agradecimentos: Investigação parcialmente financiada através dos Fundos Nacionais, FCT —
Fundação para a Ciência e a Tecnologia, projecto PEst-OE/MAT/UI0006/2011, e PTDC / FEDER.
Bibliografia
[1] Caeiro, F., Gomes, M.I. e Pestana, D. (2005). Direct reduction of bias of the classical Hill
estimator. Revstat, 3, 113–136.
[2] Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of Statistics,
7, 1–26.
[3] Gomes, M.I., Martins, M.J. e Neves, M.M. (2000). Alternatives to a semi-parametric estimator
of parameters of rare events – the jackknife methodology. Extremes, 3, 207–229.
[4] Gomes, M.I. e Oliveira, O. (2001). The bootstrap methodology in statistical extremes — the
choice of the optimal sample fraction. Extremes, 4, 331–358.
[5] Gomes, M.I., Mendonça, S. e Pestana, D. (2011). Adaptive reduced-bias tail index and VaR
estimation via the bootstrap methodology. Comm. in Statistics – Theory and Methods, 40,
2946–2968.
[6] Gray, H.L. e Schucany, W.R. (1972). The Generalized Jackknife Statistic. Marcel Dekker.
[7] Hill, B. (1975). A simple general approach to inference about the tail of a distribution. Ann.
Statist., 3, 1163–1174.
SPE 2011
Mesa: João A. Branco
302
Índice de Autores
Índice de Autores
Madalena Abreu, 299
Anabela Afonso, 157, 189
Airlane P. Alencar, 173
Eduardo Almaraz-Luengo, 79
Elena Almaraz-Luengo, 79
Ana Almeida, 251
Russell Alpizar-Jara, 93, 189
Conceição Amado, 191
Maria José Amorim, 87
Valeska Andreozzi, 269
Luı́s Antunes, 271, 275
Nelson Antunes, 143, 145
Isabel Araújo, 85
Paulo Araújo Santos, 135, 233
Emilia Athayde, 111
Fernando Bação, 293
João Barreiros, 57
Adriana Belo, 273
Maria José Bento, 31, 271, 275
José Aurélio Garcia Bergmann, 213
Patrı́cia de Zea Bermudez, 47
Joana Bernardino, 267
Carla Bessa, 245
Ana M. Bianco, 211
Regina Bispo, 267
Graciela Boente, 159, 211
Martin Boer, 65
José Borges, 171
Ana Braga, 13, 85
João A. Branco, 3
Carlos A. Braumann, 41, 97, 99, 227, 229
Maria de Fátima Brilhante, 21
Nuno Brites, 227
Paula Brito, 181, 183, 185
Teodoro Briz, 37
Sarah Martins Salomão Brodbeck, 263
M. Salomé Cabral, 1
Frederico Caeiro, 235
Teresa Calapez, 215
Francisco Lage Calheiros, 245
Helena Cardoso, 299
João Lourenço Cardoso, 257
Margarida Cardoso, 87
Ana Isabel Carita, 179
Clara Carlos, 99, 227, 229
Manuel do Carmo, 71
Nuno Carmona, 243
Laura Carreto, 63
Armindo Carvalho, 217
Carlos Carvalho, 89
Luı́sa Carvalho, 157
M. Lucı́lia Carvalho, 171
Miguel de Carvalho, 237, 289
Ana Cristina Casimiro, 29
Miguel Casquilho, 73
Philippe Castagliola, 35
Clara Castro, 31
Fernando Ceia, 93
Luı́s Chorão, 151
Carlos A. Coelho, 139
Clara Cordeiro, 241
Ana Maria Correia, 111
Carla Correia-Gomes, 107
Joaquim F.P. da Costa, 117
Manuel João Costa, 7
Patrı́cia Costa, 109
Patrı́cio Costa, 7
Luı́s Cotrim, 291
Teresa Crespo, 251
Daniela Cunha, 275
Anthony Davison, 237, 289
Joana Dias, 89, 111
José Carlos Dias, 41
José G. Dias, 151, 153, 285
Otı́lia Dias, 113
Sónia Dias, 183
Sara Simões Dias, 269
Nancy DiMarzio, 91
Ana Diniz, 57
Isabel Pinto Doria, 113
Fred van Eeuwijk, 65
Sofia Eurico, 115
Inês Faria, 57
Susana Faria, 89
João Farrajota, 167
Miguel Felgueiras, 277
303
Índice de Autores
Filipe Felisberto, 277
Neimar da Silva Fernandes, 263
Maria Eugénia Ferrão, 109
Ana Sousa Ferreira, 113
António Paulo Ferreira, 179
Dário Ferreira, 193
Ernesto Ferreira, 155
Fátima Ferreira, 17
Marta Ferreira, 33
Sandra Ferreira, 193
Adelaide Sousa Figueiredo, 195
Fernanda Otı́lia Figueiredo, 35
Patrı́cia A. Filipe, 37, 227, 229
Peter Filzmoser, 141
Sı́lvia Fonte Santa, 253
Isabel Fraga Alves, 135, 233
Adelaide Freitas, 63
Ana Cristina Moreira Freitas, 279
Duarte Freitas, 119
Sónia Freitas, 197
A. Rita Gaio, 117
Hugh G. Gauch, 65
Sandra Gavinha, 281
Atiyo Ghosh, 19
Dulce Gomes, 37
M. Ivette Gomes, 47, 101, 103, 105, 205, 235,
301
Ana Rita Gonçalves, 111
Esmeralda Gonçalves, 43
Homero Alexandre Gonçalves, 255
Luzia Gonçalves, 11
M. Helena Gonçalves, 1
Ana Cláudia Gouveia, 253
Délia Gouveia, 39
Pedro M.D.C.B. Gouveia, 59
Sónia Gouveia, 225
Maria do Carmo Miranda Guedes, 243
Manuela Guerreiro, 123
Patsy Haccou, 19
Carla Henriques, 15
Eva Henriques, 197
Lı́gia Henriques-Rodrigues, 105
Paulo Infante, 29, 71, 127, 157
Gonçalo Jacinto, 127, 143, 145
Susan Jarvis, 91
Irina Kislaya, 7
Sandra Lagarto, 97
Ângela Maria Quintão Lana, 213
Manuela Larguinho, 41
Nuno Lavado, 215
Jorge Lengler, 83
Renato Ribeiro de Lima, 213
Victor Lobo, 293
Luiz Guerreiro Lopes, 39
Vanda M. Lourenço, 199
Francisco Macedo, 201
Pedro Macedo, 177, 203
Luı́s Machado, 265, 275
Fernando Magalhães, 209
José Maia, 119
Marcos Malosetti, 65
José Ramos Pires Manso, 155
Maria Conceição Manso, 281
Luı́s Margalho, 169
Catarina Marques, 83
Filipe J. Marques, 139
Jorge Marques, 45
Sara Marques, 243
Susete Marques, 171
Tiago A. Marques, 91, 267
Steve W. Martin, 91
Cristina Martins, 43
Francisco V. Martins, 217
João Paulo Martins, 25
José A. Pinto Martins, 163
Maria Alice Martins, 283
Rosário Oliveira Martins, 269
Marco Marto, 207
Ana Cristina Matos, 15
David K. Mellinger, 91
Vera Melo, 299
Júlio Mendes, 123
Jorge Mendes, 71
Nazaré Mendes Lopes, 43
Zilda Mendes, 295
Denisa Mendonça, 89, 107, 271, 297, 299
Maria Isabel Mendonça, 197
Sandra Mendonça, 39
Teresa Mendonça, 149, 221
Rute Meneses, 299
Raquel Menezes, 131, 169, 223
João Tiago Mexia, 147, 175, 193
304
Índice de Autores
Cristina Miranda, 205
Danilo Monte-Mor, 27, 77
Patrı́cia Manarte Monteiro, 281
Pedro Monteiro, 273
Manuel Cabral Morais, 23, 69
Ana Moreira, 265
David Moretti, 91
Ronald P. Morrissey, 91
Teresa Mota, 85
Filipa Mourão, 13
Cláudia Pereira, 127
Dulce Gamito Pereira, 147, 175
Isabel Pereira, 207, 247, 259
Dinis Pestana, 21, 103
Alexandra Pinto, 293
Ana M. Pires, 199, 201
Bruno Pires, 249
Maria João Polidoro, 209
Miguel Portela, 7
Ana Prior, 95
Isabel Natário, 121, 171
João Neves, 119
M. Manuela Neves, 241, 245
Manuela Figueira Neves, 9
Alexandre Nicolella, 51, 133
Raquel Nicolette, 259
João Niza-Ribeiro, 107
Mariana Calife Nóbrega, 51, 133
Ana Rita Nunes, 121
Célia Nunes, 193
Carla Nunes, 37
Cláudia Nunes, 231
Rui Nunes, 67
Patrı́cia Ferreira Ramos, 69
Efigénio Rebelo, 67
Elizabeth Reis, 165
Ana Filipa Ribeiro, 89
Conceição Ribeiro, 257
Helena Ribeiro, 17, 283
Tiago Ribeiro, 77
Débora Ricardo, 231
Anabela Rocha, 205
Conceição Rocha, 149, 221
Cristina Rocha, 273
Lisandra Rocha, 223
Maria Luı́sa Rocha, 21
Anabela Rodrigues, 297
Isabel M. Rodrigues, 211
Paulo C. Rodrigues, 65
Sara Roque, 63
Carlos J. Roquete, 229
Álvaro Rosa, 165
Fátima C. Rosa, 73
Fernando Rosado, 9, 129, 187
Irene Oliveira, 61
Isabel Tiago de Oliveira, 285
Jorge Oliveira, 85
José M. Oliveira, 85
M. Rosário de Oliveira, 11, 119, 141
Manuel Oliveira, 149
Manuela M. Oliveira, 171
Paula Milheiro de Oliveira, 95
Pedro Oliveira, 13, 109
Rosa Oliveira, 287
Patrı́cia Oom do Valle, 67, 115, 123
Boris Oumow, 289
António Pacheco, 17, 69, 141, 143
Sabu S. Padmadas, 153, 285
José Pais-Ribeiro, 299
Rui Paiva, 125
Roberto Palma dos Reis, 197
Cláudia Pascoal, 119, 141
Rui Pascoal, 45
Luı́sa Pedro, 299
Salomé Pedro, 291
Andreia Pereira, 31
António Pereira, 277
Thelma Sáfadi, 173
Maria de Fátima Salgueiro, 75, 219
Tiago Salvador, 23
Marco Aurélio Sanfins, 27, 77
Jorge Santos, 131
Luı́s Ferreira dos Santos, 15
Maribel Luengo y Dos Santos, 79
Paulo Santos, 47
Rui Santos, 25, 283, 291
Wolfgang Schmid, 69, 81
Manuel Scotto, 177, 203, 225, 259
Fernando Sebastião, 61
Alexandra Seco, 277
Fernando Sequeira, 49
Maria Conceição Serra, 7, 19
Sı́lvia Shrubsall, 121
305
Índice de Autores
A. Pedro Duarte Silva, 185
Ana Rita Silva, 85
Ana Silva, 299
António Martins da Silva, 299
Camila Silva, 77
Elvira Silva, 177, 203
Fabyano Fonseca e Silva, 213
Isabel Silva, 299
João Albino Silva, 115
Maria Eduarda Silva, 221, 243
Martinho de Almeida e Silva, 213
Nélia Silva, 247
Natascha Almeida Marques da Silva, 213
Neimar Fernandes da Silva, 51, 133
Tufi Machado Soares, 51, 133, 263
Ana Sousa, 295
Inês Sousa, 31, 53, 169, 223
Ricardo Sousa, 25
Manuela Souto de Miranda, 205
Ana Subtil, 11
Victor Ramos Tavares, 147, 175
Carlos Teixeira, 131
Laetitia Teixeira, 297
Armando Teixeira-Pinto, 287
Júlia Teles, 5
Paulo Teles, 181
Carlos Tenreiro, 137
Kamil Feridun Turkman, 55, 261
M. Antónia Amaral Turkman, 209, 257, 295
Eugen Ursu, 55
Rui Valadas, 141
Jos van der Velden, 239
Sı́lvio Velosa, 49
Leonel Vicente, 261
Paula C. R. Vicente, 75
Paula Vicente, 165
Madalena Vieira-Pinto, 107
Estela Vilhena, 299
306

Piecewise Loadings - XIX congresso da Sociedade Portuguesa de

Transcrição

Documentos relacionados

SHELLAC 78`

A distribuiç ˜ao Weibull inversa generalizada na modelagem de

Reitores na Moncloa - Duvi

anexo

142968

Ementa sugerida para mini curso de Data Mining

Teorema de Ptolomeu

Estatísticos que Mudaram a Estatística - O Centro

Comunicação à Imprensa Patheon Italia, a

capítulo 11 - Novos Olhos