Piecewise Loadings - XIX congresso da Sociedade Portuguesa de

Transcrição

Piecewise Loadings - XIX congresso da Sociedade Portuguesa de
XIX Congresso Anual
Sociedade Portuguesa de Estatı́stica
SPE 2011 – Programa e Resumos
Nazaré, 28 de Setembro a 1 de Outubro
Tı́tulo: SPE 2011 - Programa e Resumos
Editora: Sociedade Portuguesa de Estatı́stica
Concepção Gráfica da Capa: Instituto Nacional de Estatı́stica
Produção Gráfica e Impressão: Instituto Nacional de Estatı́stica
Tiragem: 300 Exemplares
ISBN: 978-972-8890-24-7
Depósito Legal: 333630/11
Presidente do Congresso
• Carlos A. Braumann (UÉvora)
Comissão Cientı́fica
• António Pacheco (IST, UTL)
• António St. Aubyn (ISA, UTL)
• Carlos A. Braumann (UÉvora)
• Carlos Tenreiro (UCoimbra)
• M. Ivette Gomes (FCUL)
Mini-Curso
• M. Salomé Cabral (FCUL)
• M. Helena Gonçalves (UAlgarve)
Comissão Organizadora
• Alexandra Seco (ESTG, IPLeiria)
• António Pacheco (IST, UTL)
• Helena Ribeiro (ESTG, IPLeiria)
• M. Rosário de Oliveira (IST, UTL)
• Miguel Felgueiras (ESTG, IPLeiria)
• Rui Santos (ESTG, IPLeiria)
Mensagem do Presidente do Congresso
Caros Congressistas da SPE 2011,
Termina dentro de meses este segundo mandato como Presidente da Sociedade Portuguesa
de Estatı́stica, que tive a honra de servir nas mais variadas formas e funções, desde a de
sócio empenhado, que sempre fui desde a fundação, à de Presidente. Nesta função contei
com o apoio inestimável da Direcção que me acompanhou e da Assembleia Geral e Conselho Fiscal, amigos e companheiros desta jornada de 6 anos sem os quais os importantes
progressos conseguidos não teriam sido possı́veis. Como não teriam sido possı́veis sem a
colaboração de tantos e tantos sócios em diversas Comissões, organização de actividades e
participação na vida da Sociedade.
E que melhor forma de coroar esta etapa do que a de presidir a este XIX Congresso Anual
da Sociedade Portuguesa de Estatı́stica, na companhia de colegas e amigos, na Nazaré do
mar, dos pescadores, das sete saias, de gente indómita, sofrida e alegre, das lendas e mitos
e, hoje, também, a capital da Estatı́stica em Portugal. Nesta nossa festa anual, em que cocelebramos as nossas realizações em prol da Estatı́stica e suas aplicações, devemos estar
gratos à Comissão Organizadora e ao Instituto Superior Técnico e ao Instituto Politécnico
de Leiria por terem ajudado a pôr de pé este grande evento, com uma palavra muito especial
aos nossos colegas António Pacheco Pires e Alexandra Seco pelo trabalho de coordenação.
Naturalmente, a Comissão Cientı́fica, as instituições parceiras e os patrocinadores tiveram
um papel relevante no sucesso desta iniciativa, que muito se agradece. Mas o seu sucesso
deve-se principalmente a si, caro convidado, autor ou participante.
Neste momento em que se avizinha o regresso à condição de militante de base, desejado
mas nem por isso menos nostálgico, estou certo de interpretar o sentimento dos restantes
membros dos órgãos sociais ao agradecer aos sócios da SPE esta oportunidade e honra que
nos deram de a podermos servir de uma forma mais intensa. O que, em conjunto com os
sócios, conseguimos fazer muito deve aos membros dos órgãos sociais que nos precederam e sobre cujas realizações assentámos o nosso trabalho. Por iniciativa da Direcção e o
apoio da Comissão Organizadora e da Comissão Cientı́fica, quisemos prestar-lhes uma singela homenagem através das pessoas dos anteriores Presidentes da SPE, Fernando Rosado,
Ivette Gomes e João Branco, que se reformaram neste último ano e que convidámos para
proferir conferências plenárias. Felizmente aceitaram todos e assim nos honraram com o
seu saber e a sua experiência, que certamente continuarão a pôr ao serviço da SPE e da
Estatı́stica. Seria interessante que esta prática, que ora iniciámos, tivesse continuidade no
futuro.
E, para concluir, é altura de, como nas histórias, formular três desejos. Um, que se dirige aos futuros dirigentes, é o de que tenham os maiores sucessos no exercı́cio das suas
funções, na certeza de que o seu sucesso será também o nosso sucesso, o sucesso da SPE.
Outro, para todos os colegas participantes, é a de que este Congresso lhes seja útil e que nos
possamos voltar a ver todos daqui a um ano no XX Congresso Anual da SPE. O último vai
para todos os sócios da SPE e é o de que o próximo ano possa ser estatisticamente profı́cuo
e pleno de realizações profissionais e pessoais.
Carlos Braumann
SPE 2011
i
Mensagem da Comissão Organizadora
Caros Congressistas da SPE 2011,
Por convite da Direção da Sociedade Portuguesa de Estatı́stica, a organização do XIX Congresso Anual da SPE (SPE 2011) foi entregue ao Instituto Superior Técnico da Universidade Técnica de Lisboa e à Escola Superior de Tecnologia e Gestão do Instituto Politécnico
de Leiria. Para o efeito, foi constituı́da uma Comissão Organizadora formada por docentes
dessas duas instituições, os quais propuseram a turı́stica, e bem pitoristicamente portuguesa, vila da Nazaré para local de realização do Congresso, no perı́odo de 28 de Setembro
a 1 de Outubro de 2011. Para acolher o programa cientı́fico do Congresso, selecionaram o
contemporâneo Hotel Miramar Sul, o qual está integralmente reservado aos participantes
da SPE 2011 durante o decorrer do evento.
Gostarı́amos de agradecer à Direção da SPE o amável convite que nos endereçou, assim
como a confiança que em nós depositou na organização da SPE 2011. Fazemos votos
que este evento consiga corresponder às suas elevadas expetativas, contribuindo para a
divulgação da Estatı́stica, não só a nı́vel nacional, como igualmente ao nı́vel internacional. Para tal, contamos com a apresentação de inúmeras comunicações orais, convidadas
e propostas, bem como diversas sessões de posters. E porque o convı́vio não é menos importante, em paralelo propomos um programa social que esperamos que seja do agrado de
todos. Neste sentido, usufruiremos de um passeio pela região (incluindo visita a Alcobaça
ou, em alternativa, a Óbidos), de um cocktail de boas vindas na Nazaré e de um jantar de
confraternização na Quinta do Fidalgo — Tromba Rija, na vila da Batalha.
Importa aqui salientar que, para que fosse possı́vel a concretização deste congresso, muitos foram os que, direta ou indiretamente, deram um contributo significativo para a sua
realização. Por este motivo, gostarı́amos de expressar aqui a nossa gratidão a todos aqueles
que, de alguma forma, contribuı́ram para o sucesso deste evento, incluindo em particular
os conferencistas convidados, que gentilmente aceitaram o convite para participar neste
evento e nos presentear com as suas comunicações, os colegas que aceitaram presidir às
várias sessões da SPE 2011 e todos os autores e participantes neste evento mor da SPE.
De entre os conferencistas convidados, gostarı́amos de começar por mencionar os antigos
presidentes da SPE:
• M. Ivette Gomes (1990–1994)
• João A. Branco (1994–2000)
• Fernando Rosado (2000–2006)
que, em comum, têm o facto de terem presidido com grande mérito e elevada dedicação à
SPE e de se terem aposentado no decorrer do corrente ano. Devido a esses factos e à grande
estima pessoal pelos antigos presidentes da SPE, a Organização do Congresso associou-se
com o maior gosto à iniciativa da Direção da SPE de homenagear na SPE 2011 estes nossos colegas, prestando-lhes tributo pelas suas qualidades pessoais e, muito em especial, pela
trabalho determinante que desenvolveram em prol da SPE. Em segundo lugar, aos professores Graciela Boente, da Universidad de Buenos Aires – Argentina, e Wolfgang Schmid,
SPE 2011
iii
Mensagem da Comissão Organizadora
da Europa-Universität Viadrina – Alemanha, que partilharão connosco um pouco do seu
grande saber. Não podemos também deixar de expressar um apreço especial às professoras
M. Salomé Cabral e M. Helena Gonçalves pela apresentação do mini-curso, intitulado
Análise de Dados Longitudinais. Associado à homenagem aos antigos presidentes da SPE,
prestamos os nossos maiores agradecimentos às professoras Isabel Fraga Alves, Manuela Souto de Miranda e M. Manuela Neves por terem prontamente e muito gentilmente
aceite ser porta-vozes em primeira instância do reconhecimento da comunidade estatı́stica
nacional a, respetivamente, M. Ivette Gomes, João A. Branco e Fernando Rosado.
Gostarı́amos ainda de agradecer à Direção da SPE e à Comissão Cientı́fica da SPE 2011
pelo apoio continuamente prestado, bem como a todas as instituições que patrocinaram este
evento, à Escola Superior de Tecnologia e Gestão de Leiria, ao Instituto Superior Técnico,
ao Instituto Nacional de Estatı́stica, à PSE – Produtos e Serviços de Estatı́stica, ao Banco
de Portugal, ao CEMAT – Centro de Matemática e Aplicações, ao SAS Institute, Software,
Lda., à Câmara Municipal da Nazaré, à Câmara Municipal de Leiria e, para concluir, ao
Hotel Miramar Sul que acolheu este congresso da SPE.
Por fim, desejamos que a SPE 2011 se materialize num encontro socialmente agradável
e cientificamente frutı́fero para todos os participantes, e que estimule o crescimento da
investigação em Probabilidade e Estatı́stica em Portugal, a cooperação entre investigadores, a divulgação da produção cientı́fica, quer na sua vertente mais teórica quer nas suas
múltiplas aplicações, bem como a troca de experiências e saberes relativos ao ensino da
Estatı́stica. Fazemos votos que todos os participantes e seus acompanhantes usufruam de
uma excelente estadia na Nazaré, onde poderão passear no aprazı́vel paredão junto à praia,
rodeada por encostas ı́ngremes, descobrir os tı́picos trajes ainda utilizados nesta vila, bem
como saborear a rica e variada gastronomia oferecida na região.
Votos de um bom Congresso para todos!
A Comissão Organizadora da SPE 2011,
Alexandra Seco
António Pacheco
Helena Ribeiro
M. Rosário de Oliveira
Miguel Felgueiras
Rui Santos
SPE 2011
iv
Programa Resumido
P ROGRAMA R ESUMIDO
Quarta, 28/09/2011
09:00 — Análise de Dados Longitudinais
(M. Salomé Cabral e
M. Helena Gonçalves)
1
17:00 – SESSÃO DE ABERTURA DO
CONGRESSO
17:30 — O lado não matemático da Estatı́stica (João A. Branco)
3
19:30 — RECEPÇÃO DE BOAS-VINDAS
na Biblioteca Municipal da Nazaré
Quinta, 29/09/2011
9:00
Análise Multivariada I
Biostatı́stica I
Processos Estocásticos I
Extremos I
5
11
17
23
10:00 — Sessão de POSTERS I
29
10:30
Séries Temporais I
Inferência Estatı́stica I
Controlo de Qualidade
Aplicações I
57
63
69
75
11:35 — On the application of statistical
process control in finance
(Wolfgang Schmid)
81
14:30 — PASSEIO DO CONGRESSO
153
11:35 — Some recent results for functional data analysis
(Graciela Boente)
159
14:30
Estatı́sticas Oficiais
Aplicações III
Inferência Estatı́stica III
Variáveis Intervalares
163
169
175
181
15:35 — A Força dos menores
(Fernando Rosado)
187
16:30 — Sessão de POSTERS III
189
17:00
Análise Multivariada III
Biostatı́stica III
Processos Estocásticos III
Extremos III
215
221
227
233
18:00 — SAS
239
19:00 — JANTAR DO CONGRESSO
Sábado, 01/10/2011
09:00
Séries Temporais II
Econometria
Estatı́stica Bayesiana
Análise de Sobrevivência
10:20 — Sessão de POSTERS IV
19:00 — Mixer da jSPE
Sexta, 30/09/2011
9:00
Análise Multivariada II
Biostatı́stica II
Processos Estocásticos II
Extremos II
Aplicações II
241
249
257
265
273
10:50 — A importância de métodos de
re-amostragem em Estatı́stica de Extremos (M. Ivette Gomes)
301
83
89
95
101
11:45 — Sessão de Entrega dos Prémios
SPE JÚNIOR
10:00 — Sessão de POSTERS II
107
12:10 — SESSÃO DE ENCERRAMENTO
DO CONGRESSO
10:30
Inferência Estatı́stica II
Telecomunicações
Modelos Lineares
135
141
147
SPE 2011
12:30 — Almoço de Despedida do Congresso
v
Programa e Índice de Apresentações
P ROGRAMA E ÍNDICE DE A PRESENTAÇ ÕES
P ROGRAMA R ESUMIDO
v
Quarta, 28/09/2011
08:00 Abertura do Secretariado do Congresso
09:00 – 10:30 MINI-CURSO
Sala Atlântico – Presidente: Maria Eduarda Silva
M. Salomé Cabral e M. Helena Gonçalves
Análise de Dados Longitudinais . . . . . . . . . . . . . . . . . . . .
1
10:30 – 11:00 Pausa para Café
11:00 – 12:30 MINI-CURSO (cont.)
12:30 – 14:30 Pausa para Almoço
14:30 – 16:30 MINI-CURSO (cont.)
16:30 – 17:00 Pausa para Café
17:00 – 17:30 SESSÃO DE ABERTURA DO CONGRESSO
Sala Premium – Presidente: Carlos A. Braumann
17:30 – 18:25 HOMENAGEM a JOÃO A. BRANCO
Sala Premium – Presidente: Fernando Rosado
17:30 Tributo a João A. Branco
17:40 Sessão Plenária I
João A. Branco
O lado não matemático da Estatı́stica . . . . . . . . . . . . . . . . . .
3
19:30 – 20:30 RECEPÇÃO DE BOAS-VINDAS na Biblioteca Municipal da Nazaré
(Partida em autocarro do Hotel Miramar Sul às 19:10)
Quinta, 29/09/2011
08:00 Abertura do Secretariado do Congresso
SPE 2011
vii
Programa e Índice de Apresentações
09:00 – 10:00 Comunicações Orais – Análise Multivariada I
Sala Premium – Presidente: A. Pedro Duarte Silva
Júlia Teles
Coeficiente de concordância correlacional: use mas não abuse . . . . . . . . . .
5
Irina Kislaya, Miguel Portela, Patrı́cio Costa, Manuel João Costa e Maria Conceição Serra
Early identification of students at risk of failure in the first year of medical degree
7
Manuela Figueira Neves e Fernando Rosado
Estudo de outliers em dados forenses . . . . . . . . . . . . . . . . . . . . . . . .
9
09:00 – 10:00 Comunicações Orais – Biostatı́stica I
Sala Dinastia – Presidente: Manuel Scotto
Ana Subtil, M. Rosário de Oliveira e Luzia Gonçalves
Comparação de intervalos de confiança para sensibilidades e especificidades . . . 11
Filipa Mourão, Ana Braga e Pedro Oliveira
Estimador não paramétrico, condicional ao sexo, para a curva ROC do CRIB . . . 13
Carla Henriques, Ana Cristina Matos e Luı́s Ferreira dos Santos
Diagnóstico de sı́ndrome Brugada: Uma lufada de ar fresco! . . . . . . . . . . . 15
09:00 – 10:00 Comunicações Orais – Processos Estocásticos I
Sala Caminho Real – Presidente: Paula Milheiro de Oliveira
Fátima Ferreira, António Pacheco e Helena Ribeiro
Avaliação do desempenho de filas M X /G − G/1/n . . . . . . . . . . . . . . . . 17
Maria Conceição Serra, Atiyo Ghosh e Patsy Haccou
Quantifying stochastic introgression processes with hazard rates . . . . . . . . . 19
Maria de Fátima Brilhante, Dinis Pestana e Maria Luı́sa Rocha
Conjuntos de Cantor com reparação aleatória . . . . . . . . . . . . . . . . . . . 21
09:00 – 10:00 Comunicações Orais – Extremos I
Sala Atlântico – Presidente: Marta Ferreira
Manuel Cabral Morais e Tiago Salvador
O problema do caixeiro viajante e a teoria de valores extremos . . . . . . . . . . 23
João Paulo Martins, Rui Santos e Ricardo Sousa
Distribuição do máximo condicionada à soma aplicada em testes quantitativos
compostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Marco Aurélio Sanfins e Danilo Monte-Mor
GEV Long-Short Strategy: uma nova modalidade quantitativa . . . . . . . . . . . 27
SPE 2011
viii
Programa e Índice de Apresentações
10:00 – 10:30 Pausa para Café e Posters
10:00 – 10:30 Sessão de POSTERS I
Ana Cristina Casimiro e Paulo Infante
Cartas de controlo em saúde . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Clara Castro, Maria José Bento, Andreia Pereira e Inês Sousa
Prevalência, incidência e sobrevivência dos cancros do estômago e mama na
Região Norte de Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Marta Ferreira
Estrutura de dependência e comportamento extremal de um processo Pareto . . . 33
Fernanda Otı́lia Figueiredo e Philippe Castagliola
Carta de medianas com limites de controlo estimados . . . . . . . . . . . . . . . 35
Dulce Gomes, Carla Nunes, Patrı́cia Filipe e Teodoro Briz
Controlo da tuberculose em Portugal: demora entre o inı́cio dos primeiros sintomas e o diagnóstico da doença . . . . . . . . . . . . . . . . . . . . . . . . 37
Délia Gouveia, Luiz Guerreiro Lopes e Sandra Mendonça
Aplicação da teoria dos extremos ao estudo da precipitação na Ilha da Madeira . . 39
Manuela Larguinho, José Carlos Dias e Carlos A. Braumann
Análise da distribuição χ 2 não central na avaliação de Opções Europeias num
processo de difusão CIR . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Cristina Martins, Esmeralda Gonçalves e Nazaré Mendes Lopes
Sobre o efeito de Taylor em modelos bilineares . . . . . . . . . . . . . . . . . . 43
Rui Pascoal e Jorge Marques
Dinâmica estocástica na difusão de tecnologias de banda larga em Portugal . . . 45
Paulo Santos, M. Ivette Gomes e Patrı́cia de Zea Bermudez
Testes não-paramétricos para validação de modelos extremais: uma aplicação a
dados de atletismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Fernando Sequeira e Sı́lvio Velosa
Múltiplos caminhos para a uniforme . . . . . . . . . . . . . . . . . . . . . . . . 49
Tufi Machado Soares, Neimar Fernandes da Silva, Mariana Calife Nóbrega
e Alexandre Nicolella
Fatores associados ao abandono escolar no Ensino Médio público de Minas Gerais 51
Inês Sousa
Análise de dados longitudinais com drop-out dependente da variável resposta . . 53
Eugen Ursu e Kamil Feridun Turkman
Periodic autoregressive model identification using genetic algorithms . . . . . . . 55
SPE 2011
ix
Programa e Índice de Apresentações
10:30 – 11:30 Comunicações Orais – Séries Temporais I
Sala Premium – Presidente: M. Manuela Neves
Ana Diniz, Inês Faria e João Barreiros
Músicos e crianças: Caracterização de séries de tapping bimanual . . . . . . . . 57
Pedro M.D.C.B. Gouveia
Alterações dos padrões de sazonalidade ao longo do ciclo da procura turı́stica . . 59
Fernando Sebastião e Irene Oliveira
Análise espectral singular no estudo do número de vı́timas mortais em acidentes
de viação em Portugal Continental . . . . . . . . . . . . . . . . . . . . . . 61
10:30 – 11:30 Comunicações Orais – Inferência Estatı́stica I
Sala Dinastia – Presidente: Russell Alpizar-Jara
Sara Roque, Adelaide Freitas e Laura Carreto
Uma avaliação experimental de diferentes metodologias estatı́sticas de dados de
microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Paulo C. Rodrigues, Marcos Malosetti, Martin Boer, Hugh G. Gauch e Fred van Eeuwijk
Comparison of statistical methods for the identification of the genetic basis of
plant responses to stress . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Efigénio Rebelo, Patrı́cia Oom do Valle e Rui Nunes
Testes à presença de autocorrelação usando a regressão de Gauss-Newton . . . . 67
10:30 – 11:30 Comunicações Orais – Controlo de Qualidade
Sala Caminho Real – Presidente: Paulo Infante
Patrı́cia Ferreira Ramos, Manuel Cabral Morais, António Pacheco e Wolfgang Schmid
Ordenação estocástica na avaliação qualitativa do desempenho de esquemas conjuntos para processos bivariados . . . . . . . . . . . . . . . . . . . . . . . 69
Manuel do Carmo, Paulo Infante e Jorge Mendes
O revisitar de um método adaptativo em controlo estatı́stico da qualidade . . . . . 71
Miguel Casquilho e Fátima C. Rosa
Estratégias de enchimento de sacos com itens de peso aleatório e soma
constrangida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10:30 – 11:30 Comunicações Orais – Aplicações I
Sala Atlântico – Presidente: Conceição Amado
Paula C.R. Vicente e Maria de Fátima Salgueiro
Dados omissos resultantes de planned missing designs: contributo para a análise
do Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) . . . 75
SPE 2011
x
Programa e Índice de Apresentações
Marco Aurélio Sanfins, Camila Silva, Danilo Monte-Mor e Tiago Ribeiro
RiD – Uma medida para o cálculo do risco de insolvência . . . . . . . . . . . . . 77
Elena Almaraz Luengo, Eduardo Almaraz Luengo e Maribel Luengo y Dos Santos
Possibilistic downside risk measures and applications . . . . . . . . . . . . . . . 79
11:35 – 12:30 Sessão Plenária II
Sala Premium – Presidente: Manuel Cabral Morais
Wolfgang Schmid
On the application of statistical process control in finance . . . . . . . 81
12:30 – 14:30 Pausa para Almoço
14:30 – 18:30 PASSEIO DO CONGRESSO
19:00 Mixer da jSPE (Sala Atlântico)
Sexta, 30/09/2011
08:30 Abertura do Secretariado do Congresso
09:00 – 10:00 Comunicações Orais – Análise Multivariada II
Sala Premium – Presidente: Manuela Souto de Miranda
Catarina Marques e Jorge Lengler
A influência da orientação para o mercado na performance de exportação: O
estudo de efeitos de interacção e quadráticos . . . . . . . . . . . . . . . . . 83
Ana Rita Silva, Ana C. Braga, Isabel Araújo, Teresa Mota, José M. Oliveira
e Jorge Oliveira
Abordagem multivariada à trilogia solo-vinha-vinho. Caso da casta Vinhão . . . 85
Maria José Amorim e Margarida Cardoso
Índices de informação mútua na avaliação de estabilidade de agrupamentos . . . 87
09:00 – 10:00 Comunicações Orais – Biostatı́stica II
Sala Dinastia – Presidente: Isabel Pereira
Joana Gomes Dias e Carlos Carvalho
Metodologia de captura-recaptura na vigilância epidemiológica da doença dos
legionários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Tiago A. Marques, Steve W. Martin, Ronald P. Morrissey, Susan Jarvis,
Nancy DiMarzio, David Moretti e David K. Mellinger
Spatially explicit capture-recapture minke whale density estimation . . . . . . . . 91
SPE 2011
xi
Programa e Índice de Apresentações
Fernando Ceia e Russell Alpizar-Jara
O comprimento descritivo mı́nimo na amostragem por transectos pontuais . . . . 93
09:00 – 10:00 Comunicações Orais – Processos Estocásticos II
Sala Caminho Real – Presidente: Cláudia Nunes
Ana Prior e Paula Milheiro de Oliveira
Estimação estatı́stica dos parâmetros do processo de Ornstein-Uhlenbeck bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Sandra Lagarto e Carlos A. Braumann
O modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados: aplicação à evolução temporal das taxas de mortalidade masculina e feminina da população portuguesa . . . . . . . . . . . . . . . . . . 97
Clara Carlos e Carlos A. Braumann
Tempos de extinção para um modelo de crescimento populacional aproximadamente logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
09:00 – 10:00 Comunicações Orais – Extremos II
Sala Atlântico – Presidente: Luı́sa Canto e Castro de Loura
M. Ivette Gomes
Comparação assintótica de estimadores de um parâmetro de forma de segundaordem em caudas pesadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
M. Ivette Gomes e Dinis Pestana
Uma generalização do estimador de Hill . . . . . . . . . . . . . . . . . . . . . . 103
Lı́gia Henriques-Rodrigues e M. Ivette Gomes
Excessos acima de nı́veis aleatórios e estimação linear óptima e centrada . . . . . 105
10:00 – 10:30 Pausa para Café e Posters
10:00 – 10:30 Sessão de POSTERS II
Carla Correia-Gomes, Denisa Mendonça, Madalena Vieira-Pinto e João Niza-Ribeiro
Factores de risco para a detecção de Salmonella sp. em suı́nos reprodutores em
Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Patrı́cia Costa, Maria Eugénia Ferrão e Pedro Oliveira
Modelos de resposta ao item: linking entre escalas de Matemática . . . . . . . . 109
Joana Dias, Ana Rita Gonçalves, Ana Maria Correia e Emilia Athayde
Absentismo escolar - detecção precoce de epidemias . . . . . . . . . . . . . . . 111
Otı́lia Dias, Isabel Pinto Doria e Ana Sousa Ferreira
Estudantes do Ensino Superior: Caminhos para o sucesso ou insucesso . . . . . . 113
SPE 2011
xii
Programa e Índice de Apresentações
Sofia Eurico, Patrı́cia Oom do Valle e João Albino Silva
A satisfação e lealdade dos diplomados em turismo face às instituições de ensino
superior frequentadas. Uma aplicação do método PLS-PM . . . . . . . . . 115
A. Rita Gaio e Joaquim F.P. da Costa
Modelos de misturas na identificação de padrões de jardins da cidade do Porto . . 117
João Neves, Cláudia Pascoal, M. Rosário de Oliveira, José Maia e Duarte Freitas
Será possı́vel encontrar um próximo Cristiano Ronaldo? . . . . . . . . . . . . . . 119
Ana Rita Nunes, Sı́lvia Shrubsall e Isabel Natário
Modelação espacial de acidentes rodoviários em Lisboa . . . . . . . . . . . . . . 121
Patrı́cia Oom do Valle, Manuela Guerreiro e Júlio Mendes
Participação no Allgarve, imagem do Allgarve e imagem do Algarve: uma aplicação
da análise de componentes principais não linear e da análise de correspondências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Rui Paiva
Módulos interativos no ensino de Probabilidades e Estatı́stica . . . . . . . . . . . 125
Cláudia Pereira, Paulo Infante e Gonçalo Jacinto
Modelação Estatı́stica pela Teoria da Resposta ao Item . . . . . . . . . . . . . . 127
Fernando Rosado
Estatı́stica Forense com dados Normais — Uma abordagem (bayesiana e frequencista) ao estudo de outliers . . . . . . . . . . . . . . . . . . . . . . . . 129
Jorge Santos, Raquel Menezes e Carlos Teixeira
Análise prospectiva das condições de higiene e segurança alimentar na restauração131
Tufi Machado Soares, Neimar Fernandes da Silva, Mariana Calife Nóbrega
e Alexandre Nicolella
Uma análise do fracasso escolar no Ensino Médio público de Minas Gerais . . . 133
10:30 – 11:30 Comunicações Orais – Inferência Estatı́stica II
Sala Premium – Presidente: Carla Henriques
Paulo Araújo Santos e Isabel Fraga Alves
Momentos de um novo estimador para o parâmetro de forma da distribuição Weibull discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Carlos Tenreiro
Núcleos de fronteira na estimação da função de distribuição . . . . . . . . . . . . 137
Filipe J. Marques e Carlos A. Coelho
O teste de independência de vários grupos de variáveis aleatórias para várias
amostras – Distribuições exacta e quase-exactas da estatı́stica de razão de
verosimilhanças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
SPE 2011
xiii
Programa e Índice de Apresentações
10:30 – 11:30 Comunicações Orais – Telecomunicações
Sala Dinastia – Presidente: Fernanda Otı́lia Figueiredo
Cláudia Pascoal, M. Rosário de Oliveira, Peter Filzmoser, António Pacheco e Rui Valadas
Os Piratas da Internet II: O Cofre das Anomalias Mortas . . . . . . . . . . . . . 141
Gonçalo Jacinto, Nelson Antunes e António Pacheco
Connectividade em Redes de Telecomunicações Ad Hoc . . . . . . . . . . . . . 143
Gonçalo Jacinto e Nelson Antunes
Problemas inversos em filas de espera e sua aplicação à monitorização da Internet 145
10:30 – 11:30 Comunicações Orais – Modelos Lineares
Sala Caminho Real – Presidente: Maria do Carmo Miranda Guedes
Dulce Gamito Pereira, João Tiago Mexia e Victor Ramos Tavares
Validação estocástica do algoritmo ziguezague na análise conjunta de regressões . 147
Conceição Rocha, Manuel Oliveira e Teresa Mendonça
Aplicação de modelos com dados em painel - estudo de caso . . . . . . . . . . . 149
Luı́s Chorão e José G. Dias
Modelação da perda em empréstimos hipotecários: Uma aplicação a um banco
português . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10:30 – 11:30 Comunicações Orais – Aplicações II
Sala Atlântico – Presidente: Frederico Caeiro
José G. Dias e Sabu S. Padmadas
Factores explicativos do nı́vel nutricional das mulheres indianas: Uma análise
multinı́vel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
José Ramos Pires Manso e Ernesto Ferreira
Há causalidade entre as variáveis económicas e os indicadores de saúde? Uma
abordagem através de vectores autorregressivos com correcção de erros e
da causalidade multivariada à Granger . . . . . . . . . . . . . . . . . . . . 155
Luı́sa Carvalho, Paulo Infante e Anabela Afonso
Os Eborenses e a prática desportiva . . . . . . . . . . . . . . . . . . . . . . . . . 157
11:35 – 12:30 Sessão Plenária III
Sala Premium – Presidente: Ana M. Pires
Graciela Boente
Some recent results for functional data analysis . . . . . . . . . . . . 159
12:30 – 14:30 Pausa para Almoço
SPE 2011
xiv
Programa e Índice de Apresentações
14:30 – 15:30 Comunicações Orais – Estatı́sticas Oficiais
Sala Premium – Presidente: José Ramos Pires Manso
José A. Pinto Martins
Acesso à informação estatı́stica oficial para fins de investigação cientı́fica . . . . 163
Elizabeth Reis, Paula Vicente e Álvaro Rosa
Qualidade dos Censos 2011: Mapa de Alerta . . . . . . . . . . . . . . . . . . . . 165
João Farrajota
Censos 2011 - Inquérito de Qualidade . . . . . . . . . . . . . . . . . . . . . . . 167
14:30 – 15:30 Comunicações Orais – Aplicações III
Sala Dinastia – Presidente: Antónia Amaral Turkman
Luı́s Margalho, Raquel Menezes e Inês Sousa
Modelos Espaço-temporais. Aplicação à previsão da temperatura na superfı́cie
terrestre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Isabel Natário, Manuela M. Oliveira, M. Lucı́lia Carvalho, Susete Marques e José Borges
Modelação espaço-temporal de fogos florestais em Portugal . . . . . . . . . . . . 171
Thelma Sáfadi e Airlane P. Alencar
Volatilidade dos principais mercados mundiais . . . . . . . . . . . . . . . . . . . 173
14:30 – 15:30 Comunicações Orais – Inferência Estatı́stica III
Sala Caminho Real – Presidente: Carlos Tenreiro
Dulce Gamito Pereira, João Tiago Mexia e Victor Ramos Tavares
Intervalos de confiança para os nodos do contorno superior em análise conjunta
de regressões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Pedro Macedo, Elvira Silva e Manuel Scotto
Estimadores de máxima entropia em análise de eficiência . . . . . . . . . . . . . 177
Ana Isabel Carita e António Paulo Ferreira
Vencer um jogo de basquetebol: uma análise com probabilidades condicionais . . 179
14:30 – 15:30 Comunicações Orais – Variáveis Intervalares
Sala Atlântico – Presidente: Paula Brito
Paulo Teles e Paula Brito
Modelização de séries temporais intervalares por modelos espácio-temporais . . . 181
Sónia Dias e Paula Brito
Regresão linear com variáveis intervalares . . . . . . . . . . . . . . . . . . . . . 183
A. Pedro Duarte Silva e Paula Brito
MAINT.DATA: Um pacote de R para a análise paramétrica de dados intervalares 185
SPE 2011
xv
Programa e Índice de Apresentações
15:35 – 16:30 HOMENAGEM a FERNANDO ROSADO
Sala Premium – Presidente: Carlos A. Braumann
15:35 Tributo a Fernando Rosado
15:45 Sessão Plenária IV
Fernando Rosado
A Força dos menores . . . . . . . . . . . . . . . . . . . . . . . . . . 187
16:30 – 17:00 Pausa para Café e Posters
16:30 – 17:00 Sessão de POSTERS III
Anabela Afonso e Russell Alpizar-Jara
Amostragem em duas fases adaptativa para estimar a abundância de populações
raras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Conceição Amado
Medidas de centralidade, dispersão e simetria em variáveis categóricas ordinais . 191
Dário Ferreira, Sandra Ferreira, Célia Nunes e João Tiago Mexia
Normalidade aproximada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Adelaide Maria Sousa Figueiredo
Análise de variância robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Sónia Freitas, Maria Isabel Mendonça, Eva Henriques e Roberto Palma dos Reis
O genotipo CC do locus 9p21 apresenta risco acrescido de doença das artérias
coronárias perante valores elevados de PCR de alta sensibilidade . . . . . . 197
Vanda M. Lourenço e Ana M. Pires
Regressão-M em estudos de associação genéticos de caracterı́sticas quantitativas . 199
Francisco Macedo e Ana M. Pires
Leis da genética de Mendel: a enriquecedora controvérsia . . . . . . . . . . . . . 201
Pedro Macedo, Elvira Silva e Manuel Scotto
Funções distância direccionais: novas medidas de eficiência . . . . . . . . . . . . 203
Cristina Miranda, Manuela Souto de Miranda, Anabela Rocha e M. Ivette Gomes
Uma versão robusta para o estimador do ı́ndice extremal de Nandagopalan . . . . 205
Isabel Pereira e Marco Marto
Estimação simultânea da altura dominante, mortalidade e área basal no modelo
GLOBULUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Maria João Polidoro, Fernando Magalhães e Antónia Amaral Turkman
Métodos bayesianos de adequação de modelos estatı́sticos: um estudo de simulação209
SPE 2011
xvi
Programa e Índice de Apresentações
Isabel M. Rodrigues, Ana M. Bianco e Graciela Boente
Testes robustos para modelos lineares generalizados com respostas incompletas . 211
Natascha Almeida Marques da Silva, Ângela Maria Quintão Lana,
Fabyano Fonseca e Silva, Renato Ribeiro de Lima,
Martinho de Almeida e Silva e José Aurélio Garcia Bergmann
Utilização do algoritmo SAEM na análise genética de bovinos . . . . . . . . . . 213
17:00 – 18:00 Comunicações Orais – Análise Multivariada III
Sala Premium – Presidente: Isabel Rodrigues
Nuno Lavado e Teresa Calapez
Piecewise Loadings - indicadores clássicos adaptados às variantes não-lineares
da ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Armindo Carvalho e Francisco V. Martins
Informação estatı́stica e decisão empresarial: avaliação das escalas de medida de
um modelo estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Maria de Fátima Salgueiro
Modelos de análise factorial exploratória e confirmatória parameterizados como
modelos com grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
17:00 – 18:00 Comunicações Orais – Biostatı́stica III
Sala Dinastia – Presidente: Luzia Gonçalves
Conceição Rocha, Maria Eduarda Silva e Teresa Mendonça
Modelos de simulação para o bloqueio neuro-muscular: uma análise estatı́stica . 221
Lisandra Rocha, Inês Sousa e Raquel Menezes
Análise de dados longitudinais com as observações dependentes do tempo de
medição: uma revisão bibliográfica . . . . . . . . . . . . . . . . . . . . . . 223
Sónia Gouveia e Manuel Scotto
Predicting hypotension in intensive care monitoring:
an optimal alarm system approach . . . . . . . . . . . . . . . . . . . . . . 225
17:00 – 18:00 Comunicações Orais – Processos Estocásticos III
Sala Caminho Real – Presidente: Maria de Fátima Brilhante
Nuno Brites, Carlos A. Braumann, Clara Carlos e Patrı́cia A. Filipe
gSDE Software: tempos de primeira passagem em modelos estocásticos de crescimento individual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Patrı́cia A. Filipe, Carlos A. Braumann, Clara Carlos e Carlos J. Roquete
Crescimento individual em ambiente aleatório: um problema de optimização . . . 229
SPE 2011
xvii
Programa e Índice de Apresentações
Débora Ricardo e Cláudia Nunes
Processos de difusão com saltos correlacionados: Aplicação à polı́tica óptima de
investimento em linha de alta velocidade . . . . . . . . . . . . . . . . . . . 231
17:00 – 18:00 Comunicações Orais – Extremos III
Sala Atlântico – Presidente: M. Ivette Gomes
Isabel Fraga Alves e Paulo Araújo Santos
Quantis extremais, value-at-risk e método DPOT . . . . . . . . . . . . . . . . . 233
Frederico Caeiro e M. Ivette Gomes
Estimação de um parâmetro de forma de segunda ordem . . . . . . . . . . . . . 235
Miguel de Carvalho e Anthony Davison
Estimação não-paramétrica em extremos multivariados . . . . . . . . . . . . . . 237
18:00 – 18:20 Comunicações Orais – SAS
Sala Premium – Presidente: Isabel Rodrigues
Jos van der Velden
SAS no ensino superior: capacidades analı́ticas sem custos . . . . . . . . . . . . 239
19:00 JANTAR DO CONGRESSO
Sábado, 01/10/2011
08:30 Abertura do Secretariado do Congresso
09:00 – 10:20 Comunicações Orais – Séries Temporais II
Sala Premium – Presidente: Jorge Caiado
Clara Cordeiro e M. Manuela Neves
Intervalos de previsão usando o procedimento Boot.EXPOS . . . . . . . . . . . . 241
Sara Marques, Maria do Carmo Miranda Guedes, Maria Eduarda Silva e Nuno Carmona
Redes neuronais na previsão de séries temporais . . . . . . . . . . . . . . . . . . 243
Carla Bessa, Francisco Lage Calheiros e M. Manuela Neves
Análise de séries temporais multivariadas: desafios e perspectivas. Aplicações . . 245
Nélia Silva e Isabel Pereira
Previsão em modelos bilineares de valores inteiros . . . . . . . . . . . . . . . . . 247
SPE 2011
xviii
Programa e Índice de Apresentações
09:00 – 10:20 Comunicações Orais – Econometria
Sala Dinastia – Presidente: Isabel Fraga Alves
Bruno Pires
Cash-Flow at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Ana Almeida e Teresa Crespo
Estatı́sticas da titularização em Portugal – compilação de dados e avaliação de
resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
Ana Cláudia Gouveia e Sı́lvia Fonte Santa
Impacto dos sistemas de pensões ocupacionais na mobilidade do trabalho . . . . 253
Homero Alexandre Gonçalves
Como podem as bases de dados administrativas ajudar a compreender o comportamento financeiro das sociedades não financeiras? . . . . . . . . . . . . . 255
09:00 – 10:20 Comunicações Orais – Estatı́stica Bayesiana
Sala Caminho Real – Presidente: Kamil Feridun Turkman
Conceição Ribeiro, Antónia Amaral Turkman e João Lourenço Cardoso
Modelação de acidentes rodoviários . . . . . . . . . . . . . . . . . . . . . . . . 257
Raquel Nicolette, Isabel Pereira e Manuel Scotto
Inferência bayesiana em modelos auto-regressivos de valores inteiros com limiares auto-induzidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Leonel Vicente e Kamil F. Turkman
Estatı́stica bayesiana no planeamento de recursos humanos . . . . . . . . . . . . 261
Tufi Machado Soares, Neimar da Silva Fernandes e Sarah Martins Salomão Brodbeck
Novas estruturas muldimensionais da TRI para consideração do efeito da ansiedade na proficiência do aluno em avaliações de larga escala . . . . . . . . . 263
09:00 – 10:20 Comunicações Orais – Análise de Sobrevivência
Sala Atlântico – Presidente: Isabel Natário
Ana Moreira e Luı́s Machado
O estimador de Aalen-Johansen pré-suavizado . . . . . . . . . . . . . . . . . . . 265
Regina Bispo, Joana Bernardino e Tiago A. Marques
Estratégia de verificação de cadáveres de aves em testes de remoção nos estudos
de monitorização de parques eólicos . . . . . . . . . . . . . . . . . . . . . 267
Sara Simões Dias, Valeska Andreozzi e Rosário Oliveira Martins
Análise da duração dos internamentos por VIH/SIDA através de um modelo
hierárquico de misturas finitas . . . . . . . . . . . . . . . . . . . . . . . . 269
SPE 2011
xix
Programa e Índice de Apresentações
Luı́s Antunes, Maria José Bento e Denisa Mendonça
Imputação múltipla - Uma aplicação ao tratamento de dados omissos em análise
de sobrevivência de doentes oncológicos . . . . . . . . . . . . . . . . . . . 271
10:20 – 10:50 Pausa para Café e Posters
10:20 – 10:50 Sessão de POSTERS IV
Adriana Belo, Cristina Rocha e Pedro Monteiro
Factores de risco para a ocorrência de enfartes múltiplos decorrentes de uma
sı́ndrome coronária aguda . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Daniela Cunha, Luı́s Antunes, Maria José Bento e Luı́s Machado
Aplicação do algoritmo EM na modelação da sobrevivência relativa de doentes
oncológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Filipe Felisberto, Miguel Felgueiras, António Pereira e Alexandra Seco
Modelo logı́stico de detecção de quedas . . . . . . . . . . . . . . . . . . . . . . 277
Ana Cristina Moreira Freitas
Processo das excedências para sistemas dinâmicos . . . . . . . . . . . . . . . . . 279
Maria Conceição Manso, Sandra Gavinha e Patrı́cia Manarte Monteiro
Regressão logı́stica múltipla: previsão do estado de conservação de próteses
dentárias removı́veis em idosos institucionalizados . . . . . . . . . . . . . 281
Maria Alice Martins, Helena Ribeiro e Rui Santos
Estatı́stica no ensino secundário — um contributo para a clarificação do estudo
da regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Isabel Tiago de Oliveira, Sabu S. Padmadas e José G. Dias
Modelação do impacto da pobreza nas escolhas contraceptivas na Índia: uma
análise multinı́vel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
Rosa Oliveira e Armando Teixeira-Pinto
Métodos de regressão para observações repetidas em Saúde . . . . . . . . . . . . 287
Boris Oumow, Miguel de Carvalho e Anthony Davison
Modelo de mistura bayesiano para extremos não-estacionários . . . . . . . . . . 289
Salomé Pedro, Rui Santos e Luı́s Cotrim
Simulação – uma aplicação ao problema da ruı́na do jogador . . . . . . . . . . . 291
Alexandra Pinto, Fernando Bação e Victor Lobo
Visualização de dados multivariados: radar plot versus tabela-gráfico . . . . . . . 293
Ana Sousa, Zilda Mendes e Maria Antónia Turkman
Factores que influenciam a qualidade de vida dos doentes diabéticos . . . . . . . 295
Laetitia Teixeira, Anabela Rodrigues e Denisa Mendonça
Riscos competitivos em estudos de diálise peritoneal . . . . . . . . . . . . . . . 297
SPE 2011
xx
Programa e Índice de Apresentações
Estela Vilhena et al.
Preditores da qualidade de vida em pessoas com doenças crónicas . . . . . . . . 299
10:50 – 11:45 HOMENAGEM a M. IVETTE GOMES
Sala Premium – Presidente: João A. Branco
10:50 Tributo a M. Ivette Gomes
11:00 Sessão Plenária V
M. Ivette Gomes
A importância de métodos de re-amostragem
em Estatı́stica de Extremos . . . . . . . . . . . . . . . . . . . . . 301
11:45 – 12:10 Sessão de Entrega dos Prémios SPE JÚNIOR
12:10 – 12:30 SESSÃO DE ENCERRAMENTO DO CONGRESSO
12:30 Almoço de Despedida do Congresso
Índice de Autores
303
SPE 2011
xxi
Quarta, 28/09/2011
MINI-CURSO
Sala Atlântico, 09:00–16:30
Análise de Dados Longitudinais
M. Salomé Cabral1 e M. Helena Gonçalves2
1
CEAUL, Departamento de Estatı́stica e Investigação Operacional da Faculdade de Ciências da
Universidade de Lisboa, [email protected]
2 CEAUL, Departamento de Matemática da Faculdade de Ciências e Tecnologia da Universidade
do Algarve, [email protected]
Resumo: Os dados longitudinais surgem sempre que observações repetidas da variável resposta são
obtidas ao longo do tempo para cada indivı́duo, num ou mais grupos em estudo. As investigações
envolvendo este tipo de dados são referidas como estudos longitudinais e desempenham um papel
fundamental nas mais variadas áreas de conhecimento na medida em que é possı́vel caracterizar as
alterações dentro do indivı́duo e relacionar essas alterações com um conjunto de factores que não o
tempo. Os estudos longitudinais constituem, assim, uma importante estratégia na investigação em
várias áreas cientı́ficas.
Existe uma grande variedade de desafios na análise de dados longitudinais. Por um lado, devido à
sua natureza, as medições repetidas provenientes de estudos longitudinais são multivariadas e têm
uma estrutura complexa de autocorrelação cuja modelação desempenha um papel fundamental na
análise deste tipo de dados. Por outro, a natureza da variável resposta pode ser contı́nua ou discreta,
condicionando a metodologia a utilizar e, no caso discreto, obrigando a ter em conta os próprios
objectivos da inferência. Todos estes factores contribuem para a importância deste tema não só do
ponto de vista teórico mas também prático, tendo-se assistido nos últimos 20 anos a um grande
desenvolvimento das metodologias estatı́sticas para analisar dados longitudinais.
Neste curso serão apresentados os conceitos fundamentais da Análise de Dados Longitudinais assim
como os diferentes modelos e métodos de análise usados nos diversos tipos de dados longitudinais.
Exemplos das áreas da biologia e da medicina irão ilustrar estas metodologias, usando-se para o
efeito bibliotecas do programa R.
Palavras–chave: Dados longitudinais contı́nuos, dados longitudinais discretos, efeitos aleatórios,
heterocedasticidade, correlação, modelo marginal, modelo com efeitos aleatórios
SPE 2011
1
Quarta, 28/09/2011
Sessão Plenária I
Sala Premium, 17:30–18:25
O lado não matemático da Estatı́stica
João A. Branco
Departamento de Matemática e CEMAT, IST, UTL, [email protected]
Resumo: Um olhar, mesmo que despretencioso, para a história da Estatı́stica, só para recordar o
que é, quais os seus objectivos e métodos de trabalho, diz-nos que a presença da matemática é,
de um modo geral, uma presença constante e indispensável na actividade estatı́stica e no próprio
desenvolvimento da Estatı́stica. Mas, para existir e actuar, a Estatı́stica depende de vários outros
saberes que, aqui, colocamos num outro lado, o lado não matemático da Estatı́stica. A tradição,
dando ênfase aos aspectos matemáticos, tem levado a que seja dada uma atenção insuficiente ao
lado não matemático.
Nesta apresentação espreitamos o lado não matemático da Estatı́stica para ver e saborear, com exemplos de análises reais, alguns desses saberes indispensáveis, também eles, ao trabalho estatı́stico.
Concluı́mos deixando: (i) a certeza de que uma condição para o sucesso das boas análises está em
não esquecer qualquer dos dois lados que formam os pilares da Estatı́stica e (ii) a preocupação de
que um olhar demasiado enviesado, para um ou outro dos lados, não só empobrece a análise como
pode trazer consequências negativas para outros aspectos da actividade, como é o caso do ensino da
Estatı́stica.
Palavras–chave: Matemática, estatı́stica, ensino da estatı́stica
SPE 2011
Mesa: Fernando Rosado
3
Quinta, 29/09/2011
Análise Multivariada I
Sala Premium, 09:00–10:00
Coeficiente de concordância correlacional: use mas não abuse
Júlia Teles
CIPER e Secção de Métodos Matemáticos, Faculdade de Motricidade Humana, Universidade Técnica
de Lisboa, [email protected]
Resumo: Avaliar a reprodutibilidade de uma experiência, método ou instrumento, ou a fiabilidade
entre juı́zes é um assunto que tem interessado diversos investigadores, nomeadamente nas áreas da
Saúde e do Desporto. Lin (1989, 1992) desenvolveu um ı́ndice, o Coeficiente de Concordância
Correlacional, para quantificar a concordância entre duas avaliações. Lin (1989) e Barnhart et al.
(2002) apresentam uma generalização desta medida para mais de duas avaliações. Quando a variabilidade entre indivı́duos é substancialmente superior à variabilidade entre avaliações esta medida
sobrestima o verdadeiro valor da concordância. Alguns exemplos ilustrando esta situação, assim
como algumas soluções para identificar e ultrapassar este problema irão ser apresentados.
Palavras–chave: Reprodutibilidade, coeficiente de concordância correlacional
Introdução
Sejam X1 , . . . , Xm as variáveis aleatórias que representam as m avaliações de uma caracterı́stica
medida numa escala contı́nua, para um indivı́duo seleccionado aleatoriamente numa determinada
população. Lin (1989) expressa o grau de concordância entre as variáveis X j e Xk à custa do correspondente valor esperado do quadrado da diferença, i.e.,
E[(X j − Xk )2 ] = (µ j − µk )2 + (σ 2j + σk2 − 2σ jk ) ,
onde µ j = E(X j ), σ 2j = var(X j ) e σ jk = cov(X j ,Xk ), com j,k = 1,2, . . . , m e j 6= k. Se X j e Xk estiverem em concordância perfeita, então E[(X j − Xk )2 ] = 0. De modo a obter um ı́ndice no intervalo
[−1,1], Lin (1989) propôs o Coeficiente de Concordância Correlacional, ρ cjk , definido por
ρ cjk = 1 −
2σ jk
E[(X j − Xk )2 ]
=
.
2
E[(X j − Xk ) | X j ,Xk são não correlacionadas] (µ j − µk )2 + (σ 2j + σk2 )
Este coeficiente pode ser escrito como o produto de duas componentes, ρ cjk = ρ ×Cb , em que ρ , o
coeficiente de correlação linear de Pearson, é a componente de precisão, e Cb é a componente de
exactidão, que quantifica o desvio da recta de regressão linear relativamente à recta de concordância
(bissectriz dos quadrantes ı́mpares).
Coeficiente de Concordância Correlacional Global
Diversas generalizações deste coeficiente têm sido propostas para situações de múltiplas avaliações
(e.g., Lin, 1989; King e Chinchilli, 2001; Barnhart et al., 2002). Argumentando que, neste caso,
faz sentido usar a variabilidade inter-avaliações, V = ∑mj=1 (X j − X)2 /(m − 1), para descrever a discordância entre avaliadores, instrumentos, etc., Barnhart et al. (2002) apresentam o Coeficiente de
SPE 2011
Mesa: A. Pedro Duarte Silva
5
Quinta, 29/09/2011
Análise Multivariada I
Sala Premium, 09:00–10:00
Concordância Correlacional Global, ρoc , para quantificar a concordância entre múltiplas avaliações,
ρoc = 1 −
E(V )
.
E(V | X1 ,X2 . . . , Xm são não correlacionadas]
m
2
Como V = ∑m−1
j=1 ∑k= j+1 (X j − Xk ) /(m(m − 1)), então
ρoc
=
m
c
∑m−1
j=1 ∑k= j+1 w jk ρ jk
m
∑m−1
j=1 ∑k= j+1 w jk
,
sendo w jk = (µ j − µk )2 + (σ 2j + σk2 ). Este ı́ndice não é mais do que uma média dos Coeficientes
de Concordância Correlacional entre os diversos pares de variáveis, ρ cjk , ponderada por w jk . Representando por µ o valor médio global, ρoc pode ser escrito em função dos valores médios, variâncias
e covariâncias,
ρoc
=
m
2 ∑m−1
j=1 ∑k= j+1 σ jk
(m − 1) ∑mj=1 σ 2j + m ∑mj=1 (µ j − µ )2
=
m
2 ∑m−1
j=1 ∑k= j+1 σ jk
m
2
(m − 1) ∑mj=1 σ 2j + ∑m−1
j=1 ∑k= j+1 ( µ j − µk )
.
Utilizando o método dos momentos, obtém-se, para estimador de ρoc ,
ρ̂oc
=
m
2 ∑m−1
j=1 ∑k= j+1 S jk
(m − 1) ∑mj=1 S2j + m ∑mj=1 (Y j −Y )2
,
onde Y j , S2j e S jk são, respectivamente, a média, a variância e a covariância amostrais, e Y é a média
global. Várias abordagens têm sido propostas para a estimação do erro standard de ρ̂oc : aproximação
à distribuição normal com transformação-Z de Fisher (Lin, 1989), equações de estimação generalizadas (Barnhart e Williams, 2001), estatı́stica-U (King e Chinchilli, 2001) e bootstrap (e.g.,
Barnhart et al., 2002).
Nota Final
Quando a variabilidade entre indivı́duos é substancialmente superior à variabilidade entre avaliações
o Coeficiente de Concordância Correlacional sobrestima a concordância. Por isso, use mas não
abuse.
Bibliografia
[1] Barnhart, H.X., Haber, M. e Song, J.L. (2002). Overall concordance correlation coefficient for
evaluating agreement among multiple observers. Biometrics, 58, 1020–1027.
[2] Barnhart, H.X. e Williamson, J.M. (2001). Modeling concordance correlation via GEE to
evaluate reproducibility. Biometrics, 57, 931–940.
[3] King, T.S. e Chinchilli, V.M. (2001). A generalized concordance correlation coefficient for
continuous and categorical data. Statistics in Medicine, 20, 2131–2147.
[4] Lin, L.I.-K. (1989). A concordance correlation coefficient to evaluate reproducibility. Biometrics, 45, 255–268.
[5] Lin, L.I.-K. (1992). Assay validation using the concordance correlation coefficient. Biometrics, 48, 599–604.
SPE 2011
Mesa: A. Pedro Duarte Silva
6
Quinta, 29/09/2011
Análise Multivariada I
Sala Premium, 09:00–10:00
Early identification of students at risk of failure in the first
year of medical degree
Irina Kislaya1 , Miguel Portela2 , Patrı́cio Costa1 , Manuel João Costa1 e Maria Conceição Serra3
1
School of Health Sciences, University of Minho,
{irinakislaya,pcosta,mmcosta}@ecsaude.uminho.pt
2 School of Economics and Management, University of Minho, [email protected]
3 School of Science, Dep. Math. and Applications, University of Minho, [email protected]
Abstract: Academic failure is a frequent phenomena in medical education, with huge impact both
on students and medical school, and yet it is poorly understood. For the student, failure is a serious
source of distress and demotivation. For the medical schools, it is an issue of organizational, financial and academic accountability. Failure represents increased costs with students’ training and also
delays their entrance into the labor market.
The first year in the university is often daunting for students and rates of failure in this year are
often the highest. Several studies in the USA and UK indicate that medical students who start failing in first year courses continue to struggle along the degree and become poor doctors. The most
effective way of remediation of persistent failure is to ensure that “academically at risk” students
are identified very early in the degree allowing medical schools to take preventive measures and to
work out solutions for these students.
The main goal of this study is to develop a statistical model that flags, as early as possible, students
at risk of failure in the first year of medical degree. To achieve this goal, administrative data related
to first year students of the School of Health and Sciences of Minho University (3 entry cohort) is
analyzed. The data consists of individual measures of academic performance in first year courses,
high school grade point average, socio-demographic and personality variables collected annually
and thus available from of the School’s longitudinal database.
At Minho University, the first year study plan of the undergraduate medical program comprises
seven courses, organized sequentially along the academic year. In the ten years of existence of the
program, it became clear that “Functional and Organic Systems I”, course (FOSI, 25 ECTS) had
the highest rates of failure (greater than 25%). Furthermore, failure in FOSI results in a great cost
to students, once success in this course is essential for success in subsequent courses: “Functional
and Organic Systems II”, and “Functional and Organic Systems III”, taught at the second year of
the degree. Therefore, FOSI was chosen as criteria for failure in the analysis.
In order to determine which factors influence the academic performance in the first year course with
the highest failure rates, we have used several statistical tools, namely: multivariate logistic regression, discriminant analysis and classification trees.
Keywords: Logistic regression, discriminant analysis, medical students, academic performance
Acknowledgements: FCT - Fundação para a Ciência e Tecnologia (PT DC/ESC/65116/2006)
SPE 2011
Mesa: A. Pedro Duarte Silva
7
Quinta, 29/09/2011
Análise Multivariada I
Sala Premium, 09:00–10:00
Bibliography
[1] Challis, M., Fleet, A. and Basyone, G. (1999). An accident waiting to happen? A case for
medical education. Medical Teacher, 21, 582–585.
[2] Ferguson, E., James, D. and Madeley, L. (2002). Factors associated with success in medical
school and in a medical career: systematic review of the literature. BMJ, 324, 952–957.
[3] Hastie, T., Tibshirani, R. and Friedman, J. (2001). The Elements of Statistical Learning. Data
mining, Inference, and Prediction. Springer-Verlag.
[4] Hosmer, D.W. and Lemeshow, S. (2000). Applied Logistic Regression. 2nd ed., Wiley.
[5] Huberty, C.J. (1994). Applied Discriminant Analysis. Wiley.
[6] Lievens, F., Coetser, P., De Fruyt, F. and De Maeseneer, J. (2002). Medical Students’ personality characteristics and academic performance: a five-factor model perspective. Medical
Education, 36, 1050–1056.
SPE 2011
Mesa: A. Pedro Duarte Silva
8
Quinta, 29/09/2011
Análise Multivariada I
Sala Premium, 09:00–10:00
Estudo de outliers em dados forenses
Manuela Figueira Neves1 e Fernando Rosado2
1
2
Instituto Politécnico da Guarda, CEAUL e UDI/IPG , [email protected]
Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL, [email protected]
Resumo: A Estatı́stica Forense é um domı́nio muito recente inserido no âmbito da Ciência Estatı́stica. No último quarto do século passado tornou-se evidente a sua importância na ciência forense e na criminalı́stica, tendo já entrado nos temas de topo, quer no domı́nio cientı́fico quer no
campo profissional. Têm sido várias as contribuições para o estudo de observações outliers em
ambiente forense. Neste trabalho apresentamos diversas metodologias estatı́sticas para o estudo de
outliers assim como algumas aplicações a dados forenses.
Palavras–chave: Estatı́stica forense, outliers, análise bayesiana
Introdução
Em qualquer amostra ou conjunto de dados estatı́sticos é possı́vel a observação de valores discordantes. O estudo desse tipo de observação pode ser levado a cabo segundo duas abordagens distintas
e antagónicas: a tradicional e a generativa (Rosado, 1984). Na abordagem tradicional o objectivo
principal do estudo de outliers é testar uma observação como discordante. A observação a testar testada é previamente escolhida pelo analista. Esta é a primeira caracterı́stica de subjectividade desta
análise, dita tradicional. Pelo contrário, no estudo proposto em Rosado (1984, 2006) introduz-se objectividade na análise dos valores discordantes de uma amostra de dados estatı́sticos. A observação,
eventualmente, decidida como outlier não é fixada pelo analista a priori. A problemática do estudo
de observações discordantes será conduzida no ambiente da Estatı́stica Forense.
Outliers em Estatı́stica Forense
Na sequência dos primeiros resultados de Lindley (1977) e seguindo métodos de Aitken e Taroni
(2004), Aitken et al. (2007) usam a razão de vantagens em dois nı́veis para estudar a evidência. As
chances constituem um ponto de partida para a discussão na actividade forense. Mas, a comparação
de hipóteses é sempre apoiada e decidida com base em observações. Em qualquer amostra de dados
estatı́sticos, e de acordo com o ponto de vista bayesiano, nenhuma observação deve ser rejeitada.
Neste trabalho proceder-se-á à identificação de observações outliers de dados analisados em Aitken
e Lucy (2004). Estes dados referem-se a fragmentos de vidro de janelas partidas que foram analisados em relação à sua composição. Tais observações serão objecto de testes formais para aferir
da sua condição de outlier, assumindo a normalidade dos dados. Ainda na hipótese de normalidade
serão também objecto de estudo os dados construı́dos por Evett (1977).
Agradecimentos: Esta investigação é parcialmente financiada pela FCT/OE.
SPE 2011
Mesa: A. Pedro Duarte Silva
9
Quinta, 29/09/2011
Análise Multivariada I
Sala Premium, 09:00–10:00
Bibliografia
[1] Aitken, C.G.G. e Lucy, D. (2004). Evaluation of trace evidence in the form of multivariate
data. Applied Statistics, 53, 109–122.
[2] Aitken, C.G.G., Shen, Q., Jensen, R. e Hayes, B. (2007). The evaluation of evidence for
exponentially distributed data. Computational Statistics and Data Analysis, 51, 5682–5693.
[3] Aitken, C.G.G. e Taroni, F. (2004). Statistics and Evaluation of Evidence for Forensic Scientists. Wiley.
[4] Barnett, V. e Lewis, T. (1994). Outliers in Statistical Data. Wiley.
[5] Evett, I.W. (1977). The interpretation of refractive index measurements. Forensic Science,
209–217.
[6] Lindley, D.V. (1977). A problem in forensic science. Biometrika, 207–213.
[7] Paulino, D., Amaral-Turkman, A. e Murteira, B. (2003). Estatı́stica Bayesiana. Fundação Calouste Gulbenkian.
[8] Rosado, F. (1984). Existência e detecção de outliers - Uma abordagem metodológica. Tese de
Doutoramento, Universidade de Lisboa.
[9] Rosado, F. (2006). Outliers em Dados Estatı́sticos. Edições SPE.
[10] Taroni, F., Bozza, S., Biedermann, A., Garbolino, P. e Aitken, C.G.G. (2010). Data Analysis
in Forensic Science - a Bayesian Decision Perspective. Wiley.
SPE 2011
Mesa: A. Pedro Duarte Silva
10
Quinta, 29/09/2011
Biostatı́stica I
Sala Dinastia, 09:00–10:00
Comparação de intervalos de confiança para sensibilidades e
especificidades
Ana Subtil1 , M. Rosário de Oliveira1 e Luzia Gonçalves2
1
Departamento de Matemática e CEMAT, Instituto Superior Técnico, Universidade Técnica de
Lisboa, {asubtil,rsilva}@math.ist.utl.pt
2 Unidade de Saúde Pública Internacional e Bioestatı́stica, Instituto de Higiene e Medicina Tropical,
Universidade Nova de Lisboa e CEAUL, [email protected]
Resumo: A estimação intervalar de uma proporção é uma questão de grande relevância prática,
como demonstra a presença generalizada deste tópico no ensino introdutório da Estatı́stica. Embora
a divulgação e utilização do intervalo de confiança de Wald seja prevalecente, as suas limitações têm
sido apontadas por diversos autores [1, 2, 3, 4]. Estes trabalhos identificam e comparam métodos
alternativos de construção de intervalos de confiança com propriedades desejáveis e, deste modo,
fornecem orientações relativamente às escolhas mais adequadas a cada caso prático especı́fico.
A sistemática necessidade de avaliação do desempenho de testes de diagnóstico, nomeadamente motivada pelo permanente surgimento de novos testes, suscita a construção de intervalos de confiança
associados a indicadores de desempenho dos testes. A sensibilidade, que é a probabilidade do
resultado do teste ser positivo quando aplicado a um indivı́duo doente, e a especificidade, que corresponde à probabilidade do resultado ser negativo quando aplicado a um indivı́duo não doente, são
duas das medidas de desempenho mais utilizadas. A sensibilidade (especificidade) consiste numa
probabilidade condicional e o estimador de máxima verosimilhança desta probabilidade define-se
em função do número de doentes (não doentes) em estudo, que é uma variável aleatória dependente da prevalência da doença. Neste contexto, a probabilidade de cobertura e o valor esperado
do comprimento do intervalo de confiança, critérios utilizados de forma recorrente na apreciação
de diferentes métodos de estimação intervalar [3, 4], têm de ser redefinidos. Ignorando esta necessidade, as conclusões dos trabalhos que avaliam diferentes métodos de construção de intervalos de
confiança não são necessariamente válidas para a sensibilidade e a especificidade.
No presente trabalho, a probabilidade de cobertura e o valor esperado do comprimento do intervalo
de confiança são redefinidos e utilizados na comparação de métodos de construção de intervalos
de confiança para a sensibilidade e a especificidade de um teste de diagnóstico. A selecção dos
métodos teve em consideração trabalhos anteriores sobre o problema da estimação intervalar de uma
proporção binomial [1, 2, 3, 4] e recaiu sobre os seguintes métodos: Clopper-Pearson, bayesiano
com distribuição a priori uniforme e de Jeffreys, Wilson (ou Score), Wald, Anscombe, AgrestiCoull, mid-P e Wald. Os méritos e limitações de cada método são debatidos e, apesar da dificuldade
em identificar o melhor método de estimação intervalar em todas as circunstâncias, os métodos de
Wilson e Jeffreys conduzem a resultados promissores.
Palavras–chave: Intervalo de confiança, probabilidade de cobertura, sensibilidade, especificidade
Agradecimentos: Trabalho parcialmente financiado pela FCT através do projecto PTDC/SAUESA/81240/2006.
SPE 2011
Mesa: Manuel Scotto
11
Quinta, 29/09/2011
Biostatı́stica I
Sala Dinastia, 09:00–10:00
Bibliografia
[1] Agresti, A. e Coull, B.A. (1998). Approximate is better than “exact” for interval estimation of
binomial proportions. American Statistician, 52, 119–126.
[2] Brown, L.D., Cai, T.T. e Dasgupta, A. (2002). Confidence intervals for a binomial proportion
and asymptotic expansions. The Annals of Statistics, 30, 160–201.
[3] Newcombe, R. (1998). Two-sided confidence intervals for the single proportion: comparison
of seven methods. Statistics in Medicine, 17, 857–872.
[4] Pires, A.M. e Amado, C. (2008). Interval estimates for a Binomial proportion: comparison of
twenty methods. REVSTAT, 6, 165–197.
SPE 2011
Mesa: Manuel Scotto
12
Quinta, 29/09/2011
Biostatı́stica I
Sala Dinastia, 09:00–10:00
Estimador não paramétrico, condicional ao sexo, para a curva
ROC do CRIB
Filipa Mourão1 , Ana Braga2 e Pedro Oliveira3
1
Instituto Politécnico de Viana do Castelo, [email protected]
Universidade do Minho, [email protected]
3 Instituto de Ciências Biomédicas Abel Salazar, [email protected]
2
Resumo: Em investigação médica, a curva ROC (Receiver Operating Characteristic) é uma técnica
muito bem aceite para avaliar o desempenho de um teste de diagnóstico, sendo a AUC (Area Under
Curve) o ı́ndice mais usado para avaliar a qualidade desse desempenho. No entanto, em algumas
situações, o desempenho do teste de diagnóstico, a própria curva ROC e a AUC pode ser fortemente
influenciado pela presença de covariáveis, sejam elas contı́nuas ou categóricas (López-de-Ullibarri
et al., 2007). Por definição, a curva ROC é a representação gráfica, no plano unitário, dos pares de
valores sensibilidade ou Fracção de Verdadeiros Positivos (FVP) e 1-especificidade ou Fracção de
Falsos Positivos, ordenadas e abcissas, respectivamente, obtidos ao considerar todos os possı́veis
valores de corte da escala, proporcionando uma representação global da exactidão dessa escala.
Uma curva ROC é deste modo uma descrição empı́rica da capacidade da escala poder discriminar
entre dois estados (anormal, normal) na qual cada ponto traduz um compromisso diferente entre
FVP e FFP obtido, por exemplo, pela adopção de valores de corte diferentes (Metz, 1986). A escala
de gravidade clı́nica, CRIB - Clinical Risk Index for Babies, surgiu em 1993 para prever a mortalidade de recém-nascidos com menos de 32 semanas de gestação (Dorling et al., 2005). Em trabalhos
anteriores (Braga et al., 1997) este ı́ndice foi avaliado como apresentando um bom desempenho na
avaliação do risco de falecimento para recém-nascidos de muito baixo peso (peso inferior a 1500
gr). Ilustraremos, neste trabalho, aplicando o método kernel para obter uma curva ROC suavizada,
como o peso ao nascer pode influenciar a escala CRIB na discriminação entre bebés com risco de
falecimento (anormais) e de sobrevivência (normais).
Palavras–chave: ROC (Receiver Operating Characteristic), CRIB (Clinical Risk Index for Babies),
kernel
Bibliografia
[1] Braga, A.C., Oliveira, P., e Gomes, A. (1997). Avaliação do risco de morte em recém-nascidos
de muito baixo peso: uma comparação de ı́ndices de risco baseada em curvas ROC. IV Congresso Anual da Sociedade Portuguesa de Estatı́stica. Editores: Luı́sa Canto e Castro, Dinis
Pestana, Rita Vasconcelos e Isabel Fraga Alves. Edições Salamandra.
[2] Dorling, J.S., Field, D.J., e Manktelow, B. (2005). Neonatal disease severity scoring systems
Arch. Dis. Child. Fetal Neonatal, 90:F11-F16.
[3] López-de-Ullibarri, I., Cao, R., Cadarso-Suárez, C., Lado, M.J. (2007). Nonparametric estimation of conditional ROC curves: application to discrimination tasks in computerized detection
of early breast cancer. Preprint submitted to Elsevier.
[4] Metz, C.E. (1986). Statistical Analysis of ROC Data in Evaluating Diagnostic Performance.
Multiple Regression Analysis: Applications in the Health Sciences. American Institute of Physics, 13:365-384.
SPE 2011
Mesa: Manuel Scotto
13
Quinta, 29/09/2011
Biostatı́stica I
Sala Dinastia, 09:00–10:00
Diagnóstico de sı́ndrome Brugada: Uma lufada de ar fresco!
Carla Henriques1 , Ana Cristina Matos1 e Luı́s Ferreira dos Santos2
1
2
Escola Sup. Tecnologia e Gestão, Instituto Politécnico de Viseu, {carlahenriq,amatos}@estv.ipv.pt
Serviço de Cardiologia, Hospital São Teotónio de Viseu, [email protected]
Resumo: A Sı́ndrome Brugada (SB) é uma doença com carácter hereditário que predispõe à morte
súbita cardı́aca (MSC) indivı́duos sem cardiopatia estrutural. O seu diagnóstico é feito detetando
o padrão tı́pico no electrocardiograma, dito padrão Tipo 1 de Brugada, mas este nem sempre é
visı́vel, o que torna o diagnóstico difı́cil. Neste trabalho foram pesquisadas outras medidas electrocardiográficas, independentes do padrão tı́pico, que tivessem bom potencial para diferenciar os
portadores e não portadores da mutação genética responsável pela doença. A combinação destas
medidas através de modelos lineares permitiu potenciar a capacidade de discriminação entre os dois
grupos, obtendo-se soluções de combinação destas medidas cujas curvas ROC associadas têm AUC
(área sob a curva ROC) superior a 0.9, o que se traduz numa capacidade admirável para discriminar
os dois grupos. Assim, estas soluções afiguram-se alternativas eficazes no diagnóstico de SB que
poderão evitar a procura de um padrão Tipo 1 num electrocardiograma.
Palavras–chave: Curvas ROC, modelos de regressão, sensibilidade, especificidade
Apresentação do problema em estudo e soluções pesquisadas
A Sı́ndrome de Brugada (SB) é uma doença caracterizada por disfunção dos canais de sódio cardı́acos que resulta de uma mutação genética, na maioria dos casos herdada de um dos progenitores,
e que predispõe a arritmias cardı́acas malignas e a paragem cardı́aca súbita. Estima-se que esta
doença seja responsável por pelo menos 20% dos casos de morte súbita cardı́aca em indivı́duos com
coração estruturalmente normal e por pelo menos 4% de todos os casos de morte súbita cardı́aca
(MSC) (Antzelevitch et al., 2005), o que, claramente, explica o crescente interesse cientı́fico à sua
volta. Na verdade, ela é uma entidade clı́nica muito recente, já que foi documentada pela primeira
vez em 1992 por Brugada e Brugada (1992) e em Portugal em 1999 em Cavaco et al. (1999), mas o
número de publicações a seu respeito tem crescido consideravelmente nos últimos anos.
Os indivı́duos portadores da mutação genética podem nunca vir a ter sintomas, no entanto, o primeiro sintoma da doença pode ser a morte súbita cardı́aca, sendo por isso uma espécie de “ameaça”,
por vezes “silenciosa”, nos familiares de portadores da doença. A única forma de eliminar a ameaça
de morte súbita é a implantação de um cardioversor-desfibrilhador implantável (CDI), mas este
é muito caro, bastante desconfortável para o doente e pode levar a complicações, sendo por isso
aconselhável apenas a doentes de alto risco.
O diagnóstico da doença é usualmente feito através de um electrocardiograma (ECG) no qual se
detecta um padrão caracterı́stico, designado por padrão Tipo 1 ou ECG de Brugada, em associação
com outros critérios clı́nicos fáceis de identificar. Uma grande dificuldade associada a este meio
de diagnóstico é detectar o padrão Tipo 1 num electrocardiograma, pois este é frequentemente intermitente, isto é, indivı́duos doentes apresentam intermitentemente ECGs normais e ECGs com
SPE 2011
Mesa: Manuel Scotto
15
Quinta, 29/09/2011
Biostatı́stica I
Sala Dinastia, 09:00–10:00
algum padrão Brugada. Os testes genéticos também não são uma solução adequada, pois são muito
dispendiosos e por vezes é difı́cil detectar a mutação responsável. É neste contexto que se enquadra
o presente trabalho. A partir da análise de registos de 113 elementos de duas famı́lias portuguesas,
com 42 portadores de mutação genética, pesquisaram-se medidas electrocardiográficas que pudessem discriminar entre os portadores da mutação genética e não portadores, com vista a efectuar um
diagnóstico sem ter de recorrer à detecção do padrão Brugada. Através do recurso a curvas ROC,
e outras técnicas estatı́sticas, foi possı́vel identificar cinco medidas electrocardiográficas com bom
poder para discriminar entre os portadores e não portadores da mutação. A questão natural que se
seguiu foi a de combinar a informação destas medidas, da forma mais eficiente possı́vel, de modo a
aproveitar o potencial de cada uma para a discriminação entre os dois grupos. Para isso foram explorados modelos de análise univariada e multivarida, nomeadamente modelos de regressão logı́stica.
Como resultado deste esforço, perspectivam-se neste trabalho formas de combinar estas medidas,
que neste conjunto de dados se revelaram mais eficientes do que a detecção do padrão Brugada.
As análises feitas incluı́ram não só as cinco medidas per si, mas também possı́veis interacções entre elas, a avaliação do problema de escala das varáveis e avaliação do ajustamento dos modelos
de regressão logı́stica. Na avaliação destes modelos recorremos também à metodologia bootstrap.
Obtivemos soluções cujas curvas ROC apresentam uma área superior a 0.9, o que sugere uma capacidade notável para discriminar entre os dois grupos (Hosmer e Lemeshow, 2000). Pelo desempenho
admirável demonstrado nos dados disponı́veis, estas soluções motivam claramente a sua exploração
futura com dados de mais doentes e mais famı́lias.
Bibliografia
[1] Antzelevitch C., Brugada P., Borggrefe M., Brugada J., Brugada R., Corrado D., Gussak I.,
LeMarec H., Nademanee K., Perez Riera A.R., Shimizu W., Schulze-Bahr E., Tan H. e Wilde,
A. (2005). Brugada syndrome: report of the second consensus conference: endorsed by the
Heart Rhythm Society and the European Heart Rhythm Association. Circulation, 111, 659670.
[2] Brugada, P. e Brugada, J. (1992). Right bundle branch block, persistent ST segment elevation
and sudden cardiac death: a distinct clinical and electrocardiographic syndrome. A multicenter
report. J. Am. Coll. Cardiol., 20, 1391-1396.
[3] Cavaco, D., Adragão, P., Mendes, M., Morgado, F., Parreira, L., Bonhorst, D. e Seabra-Gomes,
R. (1999). The Brugada syndrome–a clinical case. Rev Port Cardiol., 18(2), 169-173.
[4] Hosmer, D.W., Lemeshow, S. (2000). Applied Logistic Regression (2nd Edition). John Wiley
and Sons, New York.
SPE 2011
Mesa: Manuel Scotto
16
Quinta, 29/09/2011
Processos Estocásticos I Sala Caminho Real, 09:00–10:00
Avaliação do desempenho de filas M X /G − G/1/n
Fátima Ferreira1 , António Pacheco2 e Helena Ribeiro3
1
Universidade de Trás-os-Montes e Alto Douro, CM–UTAD, [email protected]
IST, Universidade Técnica de Lisboa, CEMAT, [email protected]
3 ESTG, Instituto Politécnico de Leiria, CEMAT, [email protected]
2
Resumo: Neste trabalho, avaliamos o desempenho de filas M X /G − G/1/n em perı́odos de ocupação contı́nua, i.e., perı́odos ininterruptos iniciados no instante em que um cliente começa a ser
servido e terminados no subsequente instante em que o sistema fica vazio. Estas filas são dinâmicas
no sentido de serem capazes de adaptar o seu tipo de serviço em situações de congestionamento.
Palavras–chave: Filas M X /G − G/1/n, misturas de Poisson, perı́odos de ocupação contı́nua
Motivação e breve introdução aos sistemas oscilantes
Filas de espera modelam muitas situações da vida quotidiana. De facto, em qualquer situação
onde num dado momento existam clientes a requerer um serviço em número superior ao número
de servidores há formação de uma fila, fı́sica ou conceptual. Estas filas de espera cumprem uma
missão de organização social indispensável na vida actual, permitindo às entidades uma prestação
de serviços ordeira e mais justa. Nelas os clientes esperam pelo serviço de acordo com a disciplina
da fila, são servidos obedecendo à disciplina de serviço e, em seguida, deixam o sistema. Com
raı́zes associadas à modelação de redes telefónicas [4], as filas de espera encontram hoje em dia
aplicações nas mais diversas áreas e actividades (veja-se, e.g., [1, 3, 6]).
Desde os modelos clássicos de filas de espera – tradicionalmente com um único servidor, chegadas
individuais de clientes e capacidade infinita da fila de espera – inúmeras extensões têm sido propostas na literatura visando a incorporação de caracterı́sticas mais adequadas à modelação de situações
reais. Desde logo a consideração de sistemas com capacidade finita e chegadas em grupo, relevantes
para modelar, e.g., chegadas de clientes a um restaurante ou chegadas de cartas a um posto dos correios. A relevância dos sistemas com chegadas em grupo e capacidade finita (como os considerados
neste trabalho) está bem patente na quantidade de trabalhos apresentados na literatura respeitantes
a estes sistemas (veja-se, e.g., [3] e referências incluı́das).
Na perspectiva do cliente, a avaliação do desempenho das filas passa sobretudo pelo estudo (da
distribuição) do tamanho da fila e dos tempos de espera no sistema. Numa avaliação do desempenho
orientada para a perspectiva do servidor é relevante estudar-se, para além das medidas referidas, a
duração de perı́odos de ocupação contı́nua do sistema e os números de clientes servidos e de clientes
perdidos nesses mesmos perı́odos.
No dimensionamento de uma fila pretende-se que as probabilidades de perda de clientes e os tempos
de espera na fila sejam baixos e que a utilização dos servidores seja elevada. De facto, se por um lado
filas ou perı́odos de espera longos acarretam custos elevados, com inerente degradação do serviço e
consequente perda de clientes, do ponto de vista do sistema é dispendioso manter um servidor com
baixa utilização. Contudo, é bem conhecido que com filas de espera regulares é impossı́vel conciliar
os dois objectivos referidos, uma vez que não é possı́vel reduzir perdas de clientes e tempos de
SPE 2011
Mesa: Paula Milheiro de Oliveira
17
Quinta, 29/09/2011
Processos Estocásticos I Sala Caminho Real, 09:00–10:00
espera na fila sem que os servidores passem por perı́odos de fraca utilização (veja-se, e.g., [7, 8]).
Uma das formas de aumentar a utilização do servidor, mantendo as perdas e os tempos de espera
na fila controlados, é considerar filas de espera dinâmicas nas quais as caracterı́sticas de serviço
reagem à congestão do sistema, adaptando o tipo de serviço a situações de congestionamento ou de
rarefacção. Estas filas têm vindo a ser estudados por diversos autores (veja-se, e.g., [2, 5, 9]).
Neste trabalho, consideramos filas M X /G − G/1/n, com n = (n,a,b), no sentido da definição de
Chydzinski [2], com n, a e b inteiros tais que 0 ≤ a < b ≤ n. Estas são filas de capacidade finita, n,
às quais os clientes chegam em grupos segundo um processo de Poisson composto. Os clientes são
servidos por ordem de chegada por um único servidor, cujo mecanismo de serviço oscila entre duas
fases, 1 e 2, com diferentes distribuições de serviço, em função da evolução do número de clientes
no sistema. Especificamente, a evolução processa-se da seguinte forma: se num determinado instante o sistema está a operar na fase 1, o número de clientes no sistema é menor do que b e o sistema
permanece na fase 1 enquanto que o número de clientes no sistema se mantiver menor que b. No
preciso instante em que o número de clientes no sistema excede b − 1, o sistema passa a operar na
fase 2, permanecendo nesta fase até ao instante subsequente em que o número de clientes no sistema
passe a ser menor ou igual a a. Nesse instante o sistema passa de novo a operar na fase 1, e assim
sucessivamente.
Tirando partido da estrutura regenerativa markoviana destes sistemas, deduzimos neste trabalho um
procedimento recursivo na capacidade do sistema para o cálculo de medidas de desempenho de filas
M X /G − G/1/n em perı́odo de ocupação contı́nua, nomeadamente para o cálculo das distribuições
dos números de perdas de clientes e de clientes servidos nesses perı́odos. Computacionalmente, o
processo recursivo é de fácil implementação. Para ilustrar a sua eficácia, calculamos as medidas de
desempenho referidas para uma ampla variedade de filas com diferentes distribuições de serviço.
Bibliografia
[1] Boxma, O.J. e Syski, R. (1988). Queueing Theory and its Applications. Cwi Monographs,
North-Holland.
[2] Chydzinski A. (2003). The M − M/G/1-Type Oscillating Systems. Cybernetics and Systems
Analysis, 39(2), 316–324.
[3] Dshalalow, J.H.F. (1997). Frontiers in Queueing: Models and Applications in Science and
Engineering. Boca Raton, FL: CRC.
[4] Erlang, A.K. (1909). The Theory of Probabilities and Telephone Conversations. Nyt tidsskrift
for Matematik, B, 20, 33–39.
[5] Ferreira F., Pacheco A. e Ribeiro H. (2009). Analysis of Finite Oscillating GI X /M(n)/N Queueing Systems. Em Recent Advances in Stochastic Operations Research II (Editores, T. Dohi,
S. Osaki e K. Sawaki), 79–98.
[6] Golubchik, L. e Lui, J.C.S. (2002). Bounding of Performance Measures for Threshold-Based
Queuing Systems: Theory and Application to Dynamic Resource Management in Video-onDemand Servers. IEEE Transactions on Computers, 51(4), 353–372.
[7] Kleinrock, L. (1975). Queueing Systems. Volume I: Theory. Wiley.
[8] Medhi, J. (2003). Stochastic Models in Queueing Theory. Academic Press, Amsterdam.
[9] Takagi, H. (1985). Analysis of a finite-capacity M/G/1 queue with a resume level. Performance evaluation, 5(3), 197–203.
SPE 2011
Mesa: Paula Milheiro de Oliveira
18
Quinta, 29/09/2011
Processos Estocásticos I Sala Caminho Real, 09:00–10:00
Quantifying stochastic introgression processes with hazard
rates
Maria Conceição Serra1 , Atiyo Ghosh2 and Patsy Haccou3
1
Department of Mathematics and Applications, Minho University, [email protected]
Institute of Environmental Sciences, Leiden University, [email protected]
3 Mathematical Institute, Leiden University, [email protected]
2
Abstract: Introgression is the permanent incorporation of genes from one population into another
through hybridization and backcrossing. It is currently of particular concern as a possible mechanism for the spread of modified crop genes to wild populations. The hazard rate is the probability
per time unit that such an escape event takes place, given that it has not happened before. It is a
quantitative measure of introgression risk that takes the stochastic elements inherent in introgression
processes into account. We present a methodology, based on multitype Galton-Watson branching
processes, to calculate the hazard rate for situations with time-varying gene flow from a crop to
a large recipient wild population. Several types of time-inhomogeneity are examined, including
deterministic periodicity as well as random variation. Furthermore, we examine the effects of an
extended fitness bottleneck of hybrids and backcrosses in combination with time-varying gene flow.
We discuss the implications of our results for crop management and introgression risk assessment.
Keywords: Branching process, invasion, transgene, random environment
Bibliography
[1] Ghosh, A., Serra, M.C. and Haccou, P., Quantifying stochastic introgression processes with
hazard rates. Submitted for publication.
[2] Serra, M.C. and Haccou, P. (2007). Dynamics of escape mutants, Theoretical Population Biology, 72, 167-178.
SPE 2011
Mesa: Paula Milheiro de Oliveira
19
Quinta, 29/09/2011
Processos Estocásticos I Sala Caminho Real, 09:00–10:00
Conjuntos de Cantor com reparação aleatória
Maria de Fátima Brilhante1 , Dinis Pestana2 e Maria Luı́sa Rocha3
1
Universidade dos Açores e CEAUL, [email protected]
CEAUL, [email protected]
3 Universidade dos Açores, [email protected]
2
Resumo: Investigamos o efeito de reparações aleatórias, definidas como adjunção de um segmento
definido por mı́nimo e máximo de duas observações independentes de uma população com suporte
em [0,1], em cada etapa da construção iterativa de um conjunto aleatório de Cantor, admitindo independência das amostras usadas nas fases de supressão e reconstrução. A análise é feita em termos
do diâmetro esperado e do comprimento total esperado ao fim de um número fixo de ciclos do que
se obtém com e sem reparação.
Palavras–chave: Conjuntos de Cantor aleatórios, modelos beta, padrões de aleatoriedade em [0,1]
Introdução
Em importantes questões biológicas e industriais (treino de doentes com lesões cerebrais, recuperação de informação em unidades de armanazenamento danificadas por picos de corrente eléctrica),
quer a extensão dos estragos quer a capacidade de reparação são eventualmente aleatórios.
Aleixo e Pestana (2011) definiram extensões dos conjuntos de Cantor aleatórios, considerando que
em cada etapa a supressão de um conjunto (determinista ou aleatória, definida à custa de estatı́sticas
ordinais) é moderada por uma recuperação, eventualmente parcial, da zona destruı́da. Nesse estudo
inicial, a modelação quer do segmento que é suprimido quer do segmento que é recuperado foi feita
com betas com parâmetros escolhidos por conveniência de cálculo, e a avaliação dos benefı́cios de
reparar aleatoriamente foi feita em termos da dimensão de Hausdorff do fractal obtido como limite
da iteração do procedimento de destruição/reconstrução.
Em Aleixo et al. (2011) o estudo deste processo de random damage/repair foi orientado para a
avaliação do efeito de um número finito, em geral baixo, de ciclos de destruição/reconstrução.
Descrição de Fk no caso de destruição e reconstrução com o mesmo modelo
Partindo de F0 = [0,1], considerem-se ciclos de destruição/reconstrução com as seguintes regras:
1. Seja Fk =
Nk
[
Ci,k uma união de segmentos Ci,k , onde N1 =
i=1
Nk−1
independentes de N1 e Nk =
1 2 3
1
6
2
3
1
6
, N1,i são réplicas
∑ N1,i .
i=1
SPE 2011
Mesa: Paula Milheiro de Oliveira
21
Quinta, 29/09/2011
Processos Estocásticos I Sala Caminho Real, 09:00–10:00
2. Fase de destruição: Em cada segmento Ci,k elimina-se um segmento intermédio delimitado pelos mı́nimo e máximo de dois pontos (X1 ,X2 ) gerados em Ci,k , com uma distribuição
seleccionada.
3. Fase de reparação: Gera-se uma amostra de tamanho 2 (Y1 ,Y2 ), independente de (X1 ,X2 ), e
identicamente distribuı́da, e une-se (Y1:2 ,Y2:2 ) a Ci,k − (X1:2 ,X2:2 ).
Este procedimento é facilmente generalizável para o caso de (X1 ,X2 ) e (Y1 ,Y2 ) não serem identicamente distribuı́das, apenas se perde a simplicidade de poder considerar (X1 ,X2 ,Y1 ,Y2 ) uma amostra
de tamanho 4 de uma mesma população, o que tem consequências logo a nı́vel da distribuição das
variáveis aleatórias de contagem Nk .
Avaliação dos benefı́cios da reparação aleatória
Um efeito perverso da reparação aleatória é a possibilidade de se reparar o que não está danificado
— como afinal acontece no nosso quotidiano, por exemplo quando se leva o carro à revisão e o
protocolo seguido leva a substituir velas, correia da ventoı́nha, etc., estejam ou não funcionais.
No contexto de conjuntos de Cantor aleatórios, comparamos (com simulação quando a abordagem
analı́tica não é possı́vel) o diâmetro e soma dos comprimentos dos segmentos, para alguns valores
moderados do número de ciclos do que ocorre no Cantor determinista clássico, nos Cantor aleatórios
obtidos usando estatı́sticas ordinais, e na extensão usando reparação aleatória. Além de se explorar
a situação em que destruição e reconstrução são betas, eventualmente com diferentes parâmetros,
aborda-se também o caso de parentes betinhas (cf. Brilhante et al. [4]) ou BetaBoop (cf. Brilhante
et al. [3]).
Agradecimentos: Investigação financiada por FCT/OE.
Bibliografia
[1] Aleixo, S. e Pestana, D. (2011). Stuttering Cantor-Like Random Sets. Em Luzar-Stiffler, ed.
Proc. ITI 2011, 33rd Int. Conf. Information Technology Interfaces (em impressão).
[2] Aleixo, S., Brilhante, M.F. e Pestana, D. (2011). General stuttering Beta(p,q) Cantor-like
random sets. ISI 2011, 58th Session of the International Statistical Institute (em impressão).
[3] Brilhante, M.F., Gomes, M.I. e Pestana, D. (2011). BetaBoop Brings in Chaos Em Skiadas,
C. H., ed., Proc. Chaos 2011, 4th Chaotic Modeling and Simulation International Conference
(em impressão).
[4] Brilhante, M.F., Pestana, D. e Rocha, M.L. (2011). Betices, Bol. Soc. Port. Mat.. (em impressão).
SPE 2011
Mesa: Paula Milheiro de Oliveira
22
Quinta, 29/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
O problema do caixeiro viajante e a teoria de valores extremos
Manuel Cabral Morais1 e Tiago Salvador2
1
2
Departamento Matemática – CEMAT, Instituto Superior Técnico, [email protected]
Instituto Superior Técnico, [email protected]
Resumo: A simplicidade de definição, a diversidade de aplicações e a dificuldade de resolução do
problema do caixeiro viajante (PCV) constituem algumas das caracterı́sticas comuns à maior parte
dos problemas que têm vindo a atrair e intrigar os matemáticos. De facto, até hoje não é conhecido
nenhum algoritmo que consiga resolver este problema em tempo polinomial.
Neste trabalho as estimativas pontuais e intervalares do custo óptimo do PCV são calculadas com
base em custos mı́nimos obtidos em diversas execuções dos algoritmos 2 e 3-optimal e respectivas
variantes gananciosas. O modelo extremal considerado é o Weibull de mı́nimos tri-paramétrico,
cujo parâmetro de localização representa tal custo óptimo.
Palavras–chave: Problema do caixeiro viajante, algoritmo λ -optimal, Weibull de mı́nimos
O problema do caixeiro viajante
Considere-se um caixeiro viajante que pretende visitar uma única vez cada uma de N cidades de uma
dada lista, regressando à cidade donde partiu. Admita-se que ele conhece o custo da viagem entre
quaisquer duas cidades. O problema do caixeiro viajante (PCV) consiste em encontrar a sequência
de cidades tal que o custo total do percurso associado seja mı́nimo – percurso óptimo.
O PCV é um problema NP-difı́cil e como tal não é esperado encontrar nenhum algoritmo exacto que
resolva o PCV em tempo polinomial. Assim, foram propostos vários algoritmos que nem sempre
devolvem a solução óptima mas que permitem obter soluções razoáveis em tempo útil, constituindo
um compromisso entre a qualidade da solução obtida e o tempo que se demora a obtê-la. São disso
exemplo os algoritmos λ -optimais e respectivas variantes gananciosas.
O PCV e a teoria dos valores extremos
É também importante obter estimativas pontuais e intervalares para o custo da solução óptima baseado em resultados de n execuções de tais algoritmos. Este tipo de inferências requer a especificação
de um modelo probabilı́stico que caracterize o comportamento das observações recolhidas que neste
caso não passam de custos de soluções aproximadas do PCV. A ideia de usar o modelo extremal
Weibull de mı́nimos tri-paramétrico não é nova, tendo este modelo já sido utilizado por outros autores, dos quais se destacam Golden (1977), Golden e Alt (1979) e Los e Lardinois (1982). O custo
da solução óptima do PCV corresponderá ao parâmetro de localização desconhecido deste modelo
extremal.
SPE 2011
Mesa: Marta Ferreira
23
Quinta, 29/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
Quanto às estimativas pontuais, calculamos as estimativas de máxima verosimilhança e, visto que
surgem algumas dificuldades na sua obtenção, recorremos também às alternativas propostas por
Zanakis (1979) e Wyckoff et al. (1980). No que diz respeito à estimação intervalar, fizemos uso dos
intervalos de confiança propostos por Golden e Alt (1979) e Los e Lardinois (1982), tirando partido
das estimativas pontuais.
Complementarmente, foi efectuada uma análise descritiva dos dados, realizados o teste de Kolmogorov-Smirnov para avaliar a qualidade do modelo extremal utilizado e o teste de Mann-Whitney para
identificar o algoritmo λ -optimal (ou a sua variante) responsável pelas soluções com menor custo
esperado.
Agradecimentos: O segundo autor agradece o apoio financeiro concedido pelo Programa Novos
Talentos em Matemática (Fundação Calouste Gulbenkian).
Bibliografia
[1] Golden, B.L. (1977). A statistical approach to the TSP. Networks, 7, 209–225.
[2] Golden, B. e Alt, F. (1979) Interval estimation of a global optimum for large combinatorial
problems. Naval Research Logistics Quaterly, 26, 69–77
[3] Lawler, E., Lenstra, J., Rinnooy Kan, A. e Shmoys, D. - editores (1985). The Traveling Salesman Problem: A Guide Tour of Combinatorial Optimization. John Wiley & Sons.
[4] Los, M. e Lardinois, C. (1982). Combinatorial programming, statistical optimization and the
optimal transportation problem. Transportation Research Part B: Methodological, 16, 89–124.
[5] Wyckoff, J., Bain, L. e Engelhardt, M. (1980). Some complete and censored sampling results
for the three-parameter Weibull distribution. Journal of Statistical Computation and Simulation, 11, 139–151.
[6] Zanakis, S. (1979). A simulation study of some simple estimators for the three parameter
Weibull distribution. Journal of Statistical Computation and Simulation, 9, 101–116.
SPE 2011
Mesa: Marta Ferreira
24
Quinta, 29/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
Distribuição do máximo condicionada à soma aplicada em
testes quantitativos compostos
João Paulo Martins1 , Rui Santos1 e Ricardo Sousa2
1
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de
Estatı́stica e Aplicações da Universidade de Lisboa, {jpmartins, rui.santos}@estg.ipleiria.pt
2 Escola Superior de Tecnologia da Saúde de Lisboa do Instituto Politécnico de Lisboa, CEAUL —
Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
Resumo: Neste trabalho investigamos a distribuição do máximo, condicionada ao valor da soma,
em amostras conjuntas com o objectivo de definirmos limiares crı́ticos para testes quantitativos
compostos utilizando a metodologia de Dorfman (1943), considerando diferentes nı́veis de especificidade e de sensibilidade.
Palavras–chave: Teoria de Dorfman, distribuição de extremos condicionados a somas, sensibilidade, especificidade, variáveis quantitativas
A inspeção conjunta de unidades miscı́veis permite economizar substancialmente em áreas tais
como amostragem de aceitação ou análises clı́nicas conjuntas. As 50 páginas de bibliografia anotada, só na área de composite sampling, publicadas por Boswell et al (1996), evidenciam bem a
importância do tema.
A ideia original de Dorfman (1943), aplicada inicialmente a análises qualitativas conjuntas de sangue, é uma estratégia que se adequa apenas a casos em que se pretende determinar a presença
(positividade) ou ausência (negatividade) de determinada caracterı́stica nas unidades amostrais. A
extensão da metodologia de Dorfman não é porém imediata quando a positividade é determinada
por uma quantidade determinada na análise exceder um determinado patamar (ou, alternativamente,
ficar aquém de um limiar), um ponto de corte previamente determinado usando cohortes de doentes
e de não doentes para calibrar a análise por forma a ter valores aceitáveis de sensibilidade e de
especificidade. De facto, ao combinar várias amostras numa única para fazer uma análise conjunta,
estamos a somar quantidades, o que assintoticamente é modelável em termos de peso da soma das
caudas; por outro lado, assintoticamente o máximo e o mı́nimo dependem do peso de uma das caudas (direita e esquerda, respectivamente). Mas a velocidade de convergência quer da distribuição
da soma quer da distribuição de um extremo é frequentemente lenta, e a quantidade de unidades
amostrais que se devem combinar, que naturalmente depende da prevalência p da caracterı́stica que
se pretende detectar, é em geral pequeno. Assim, os resultados assintóticos — que começaram a
ser explorados por Chow e Teugels (1979), havendo actualmente uma vasta bibliografia sobre este
tema, veja-se de Haan e Ferreira (2006) — devem ser secundarizados relativamente a resultados
para miscigenação de um pequeno número de unidades amostrais, que em geral terão que ser tratados por Monte Carlo. Esta problemática tem vindo a ser tratada também por Sousa (2005, 2006,
2008).
Neste trabalho, investigamos os casos em que o resultado do teste pode ser modelado por uma
variável quantitativa X. A intenção de um teste individual é identificar se um determinado indivı́duo
possui uma quantidade dessa substância que ultrapasse um determinado limiar crı́tico l pré-fixado.
Neste quadro, tentamos estender a metodologia de Dorfman. Assim, considere-se a análise de uma
SPE 2011
Mesa: Marta Ferreira
25
Quinta, 29/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
amostra composta X1 ∪ · · · ∪ Xn de n unidades amostrais. Os problemas considerados consistem em
determinar qual o valor ótimo de n que maximiza a eficiência, isto é, o valor ótimo que minimiza
o número esperado de testes de laboratório a realizar. Outra importante questão relaciona-se com a
identificação de um limiar crı́tico l ∗ que permita concluir que, se a quantidade de substância total
nessas n amostras S = ∑ni=1 Xi ultrapassa l ∗ , (S > l ∗ ), então com probabilidade superior a um valor
fixado existe pelo menos uma amostra tal que Xi > l.
Admitindo que a mistura de amostras é perfeita, a utilização de amostragem composta permite conhecer a quantidade total de substância presente nas n amostras, isto é, permite conhecer S. Assim,
a distribuição do max (X1 , · · · ,Xn ) condicionado ao conhecimento de S (de Haan e Ferreira, 2006)
assume particular importância na definição de l ∗ . No caso da distribuição parente ser uma das leis
estáveis, nomeadamente a lei gaussiana ou a lei Cauchy, o conhecimento dessa distribuição é facilitado. Uma alternativa ao recurso à distribuição do máximo amostral é a utilização de testes de
hipóteses paramétricos quando possı́vel. Contudo, é imprescindı́vel acautelar a questão da potência
do teste. A solução na prática passará frequentemente por compatibilizar a eficiência da metodologia com a potência do teste.
A utilização de amostragem composta acarreta o problema dos resultados dos testes laboratoriais
não serem completamente fiáveis. A presença de uma substância está sujeita a eventuais erros de
deteção que são caracterizados através da sensibilidade e da especificidade. Esta questão é discutida,
quer assumindo que a miscigenação de unidades não altera as caracterı́sticas operacionais do teste,
quer admitindo que a sensibilidade e/ou a especificidade são afetadas por fenómenos associados a
ultradiluição e consequente rarefação.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Boswell, M.T., Gore, S.D., Lovison, G. e Patil, G.P. (1996). Annotated bibliography of composite sampling, Part A: 1936–92, Environmental and Ecological Statistics 3, pp. 1–50.
[2] Chow, T.L. e Teugels, J.L. (1979). The sum and the maximum of i.i.d. random variables. Em
Hradec Králové, ed., Proceedings of the Second Prague Symposium on Asymptotic Statistics,
pp. 81–92. North-Holland, Amsterdam.
[3] de Haan, L. e Ferreira, A. (2006). Extreme Value Theory – An Introduction, Springer, New
York.
[4] Dorfman, R. (1943). The detection of defective members in large populations, Ann. Math.
Statistics 14, pp. 436–440.
[5] Sousa, R. (2005). Análises ao sangue conjuntas. Uma estratégia para redução de custos. Actas
da IV Conferência Estatı́stica e Qualidade na Saúde, pp. 190–196.
[6] Sousa, R. (2006). Análises ao sangue conjuntas. Uma consideração mais realista. Actas da V
Conferência Estatı́stica e Qualidade na Saúde, pp. 129–133.
[7] Sousa, R. (2008). O Problema de Dorfman Revisitado - Análises Quantitativas, Actas da VI
Conferência Estatı́stica e Qualidade na Saúde, pp. 140–144.
SPE 2011
Mesa: Marta Ferreira
26
Quinta, 29/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
GEV Long-Short Strategy: uma nova modalidade quantitativa
Marco Aurélio Sanfins1 e Danilo Monte-Mor2
1
2
UFF - Universidade Federal Fluminense, [email protected]
IFES - Instituto Federal do Espı́rito Santo, [email protected]
Resumo: A participação no mercado de investimento de fundos de retorno absoluto (Hedge Funds)
tem crescido de forma expressiva. Dentre as principais estratégias de arbitragem utilizadas pelos
gestores desses fundos destaca-se a estratégia long-short, baseada no comportamento de curto prazo
desproporcional e até mesmo antagônico dos preços de ativos financeiros. A Teoria de Valores Extremos (TVE), um importante ramo da probabilidade, foi utilizada neste trabalho para que fossem
modeladas as séries da relação direta entre preços de ativos. A partir de tal modelagem foi criada
uma nova estratégia quantitativa long-short de arbitragem, a qual denominamos GEV Long-Short
Strategy.
Palavras–chave: Arbitragem, estratégias long-short, hedge funds, pair trading, teoria de valores
extremos
Introdução
Os Hedge Funds abrangem diversos fundos não tradicionais como, por exemplo, fundos que exploram ineficiências de mercado através de estratégias sofisticadas de arbitragem. Os fundos que
adotam a estratégia long-short são Hedge Funds que utilizam posições tanto compradas (long),
quanto vendidas (short), em ações de empresas e ı́ndices de ações, seja no mercado à vista ou de
derivativos, para rentabilizar e proteger suas carteiras.
As estratégias long-short compreendem a manutenção simultânea de posições compradas e vendidas
em ações e derivativos, ambos susceptı́veis a apreciação ou depreciação. Nesse tipo de estratégia,
mais importante que a valorização ou desvalorização das ações é o desempenho relativo entre as
posições compradas e vendidas, que se fundamenta nas inúmeras anomalias dos mercados e que é
reforçado em perı́odos de forte volatilidade. É o comportamento por vezes antagônico ou desproporcional dos ativos que permite aos players do mercado estruturar estratégias long-short para proteger
suas carteiras e gerar retornos adicionais, superiores aos custos de oportunidade e independentes ao
movimento do mercado.
Por muitos anos os gestores avaliaram os co-movimentos entre os mercados e construiram seus
portifólios a partir de análises como as que envolvem o conceito linear de correlação para modelar
as interdependências entre ativos financeiros e as que envolvem a distribuição normal. Percebe-se, entretanto, que a modelagem probabilı́stica das séries dos co-movimentos dos preços desses
ativos requer distribuições com caudas pesadas e que mesmo pares de ativos que apresentam forte
correlação podem por vezes oferecer no curto prazo oportunidades de arbitragem.
Nesse sentido, faz-se necessário o desenvolvimento de técnicas quantitativas long-short mais apro-
SPE 2011
Mesa: Marta Ferreira
27
Quinta, 29/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
priadas à análise dos co-movimentos extremos de pares de ativos e que estejam fora dos padrões
da normalidade. É nesse contexto que a Teoria dos Valores Extremos desempenha um papel fundamental, dada a sua grande capacidade de modelagem de dados extremos.
O principal objetivo deste trabalho é utilizar a Teoria de Valores Extremos para se estabelecer uma
nova modalidade quantitativa long-short, a qual denominamos GEV Long-Short Strategy, de modo
que os fundos tenham a capacidade de gerar ganhos positivos ao proverem retornos não necessariamente correlacionados com classes de ativos tradicionais e com redução dos riscos de investimento.
Nova proposta quantitativa long-short
Definição 1 (Quantil GEV Long-Short). Seja {X1 ,X2 ,...,Xn } um conjunto de variáveis aleatórias
que representam a razão de precificação entre ativos com mesma função de distribuição F. Denominamos Quantil GEV Long-Short o quantil 95% (ou 5%) obtido através da distribuição extrema
para o qual a distribuição dos máximos (ou mı́nimos) padronizados converge, respectivamente.
Os quantis GEV Long-Short, juntamente com os quantis fornecidos pela normal, serão superpostos
à série das razões para um perı́odo subsequente ao perı́odo analisado. Como inferências acerca
da verdadeira distribuição F da série podem ser feitas a partir da GEV ajustada, serão superpostos
também nesse gráfico os verdadeiros quantis da série, ambos obtidos a partir da GEV estimada. Esses quantis serão utilizados para que sejam verificados os momentos em que a razão de precificação
ocupe quantis extremos. A busca pelo timing de arbitragem mais oportuno nos leva a definir:
Definição 2 (Saturação relativa do desequilı́brio). Define-se por saturação relativa do desequilı́brio
o momento em que ativos encontram-se com relação de precificação fora do intervalo definido pelos
quantis GEV Long-Short.
Bibliografia
[1] Embrechts, P., Kluppelberg, C. e Mikosch, T. (1997). Modelling Extremal Events for Insurance
and Finance. Springer-Verlag: Berlin.
[2] Embrechts, P. (2000). Extreme Value Theory: Potential and Limitation as an Integrated Risk
Management Tool. Department of Mathematik, ETH, Zentrum, CH 8092, Zurich.
[3] Fisher, R.A. e Tippett, L.H.C. (1928). Limiting Forms of the Frequency Distribution of the
Largest or Smallest Member of a Sample. Proccedings of the Cambridge Philosophical Society, n.24, p.180-190.
[4] Liang, B. (1999). On the Performance of Hedge Funds.
[5] Mendes, B.V.M. (2004). Introdução à Análise de Eventos Extremos. E-papers Serviços Editoriais Ltda, Rio de Janeiro.
[6] Sanfins, M.A.S. (2009). Copulas para distribuições generalizadas de valores extremos multidimensionais. Rio de Janeiro: UFRJ/IM.
SPE 2011
Mesa: Marta Ferreira
28
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Cartas de controlo em saúde
Ana Cristina Casimiro1 e Paulo Infante2
1
2
Universidade de Évora - MMEAD, [email protected]
Universidade de Évora - DMAT, CIMA-UE, [email protected]
Resumo: O Controlo Estatı́stico de Qualidade tem vindo recentemente a assumir um papel importante na área da saúde, havendo registo de várias aplicações bem sucedidas como se pode ver,
por exemplo, nos artigos de revisão de Tennant et al.(2007) e Thor et al.(2007). Neste sector têm
merecido maior destaque a aplicação do controlo estatı́stico de qualidade à avaliação do desempenho hospitalar, monitorização de doenças e controlo de surtos infecciosos, nomeadamente após
intervenção cirúrgica. As múltiplas aplicações surgem nas diversas especialidades de medicina.
Neste trabalho pretende-se fundamentalmente mostrar como a utilização de metodologias do controlo estatı́stico da qualidade neste contexto especı́fico podem ser uma mais-valia na análise de
diversos dados que são diariamente produzidos por uma instituição hospitalar. Em particular, a
carta de controlo permite a distinção entre a variação natural do processo e outras formas de
variação e, consequentemente, a informação incorporada permite dar um feedback muito importante
aos serviços que resulte num apoio a todos os profissionais neles integrados, podendo conduzir à
implementação de acções que permitam melhorar a qualidade.
Com a colaboração do Hospital do Espı́rito Santo de Évora iremos considerar dados relativos ao
número de dias de internamento e proporção de readmissões. Por outro lado, mostramos a aplicação
das cartas de controlo com o intuito de realizar um controlo de qualidade eficaz e efectivo sobre
alguns Grupos de Diagnóstico Homogéneos (GDH) médicos e cirúrgicos. Para diferentes casos
abordados pretende-se seleccionar a melhor carta a utilizar em termos de desempenho estatı́stico e
aplicabilidade. Procuramos, ainda, formalizar algumas linhas gerais para uma correcta aplicação
desta ferramenta estatı́stica para ser utilizada dentro dos diversos serviços.
Palavras–chave: Cartas de controlo, estatı́stica e qualidade na saúde
Bibliografia
[1] Tennant, R.; Mohammed, M.A.; Coleman, J.J.; Martin, U. (2007). Monitoring Patientes using
Control Charts: a systematic review. International Journal for Quality in Health Care, 19,
187–194.
[2] Thor, J.; Lundberg, J.; Ask, J.; Olsson, J.; Carli, C.; Harenstam, K.P.; Brommels, M. (2007).
Application of statistical process control in healthcare improvement: systematic review. Quality and Safety in Health Care, 16, 387–399.
SPE 2011
29
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Prevalência, incidência e sobrevivência dos cancros do estômago
e mama na Região Norte de Portugal
Clara Castro1 , Maria José Bento1 , Andreia Pereira2 e Inês Sousa2
1
2
RORENO/IPO Porto, [email protected]
Departamento de Matemática e Aplicações, Universidade do Minho, [email protected]
Resumo: Neste trabalho, pretendemos comparar estimativas para a prevalência, obtidas através de
dois diferentes métodos de estimação: método directo [1] e método indirecto [2].
Palavras–chave: Prevalência, incidência, sobrevivência
Introdução
Neste trabalho, pretendemos comparar estimativas para a prevalência, obtidas através de dois diferentes métodos de estimação: método directo [1] e método indirecto [2]. Foram analisadas duas
bases de dados, ambas disponibilizadas pelo RORENO (Registo Oncológico Regional do Norte).
Foram considerados doentes, diagnosticados entre 2001 e 2005, residentes na Região Norte de Portugal, com cancro de estômago e cancro da mama feminina, com idades superiores ou iguais a 15
anos. Foram escolhidos estes dois tumores uma vez que estes têm padrões de sobrevivência muito
distintos. Enquanto no caso dos tumores do estômago a sobrevivência é reduzida (sobrevivência
relativa a 5 anos de cerca de 35%) e nos tumores da mama a sobrevivência é bastante elevada (cerca
de 86%). A prevalência tem como base compreender o impacto de um tumor na população, ou seja
o quanto comum ou rara esta doença é. O método directo estima a prevalência a partir da contagem
do número de casos incidentes que permanecem vivos no final do perı́odo de interesse. O método
indirecto baseia-se na modelação matemática para a estimação da prevalência, usando para isso
valores estimados da incidência e sobrevivência. Com este trabalho pretendemos comparar os resultados da aplicação dos diferentes métodos abordados na avaliação da prevalência de doentes com
cancro do estômago e da mama feminina. Os resultados obtidos da incidência e da sobrevivência
para cada um destes tumores também são apresentados. Todos os cálculos foram efectuados usando
o software R. Para a estimação da sobrevivência, foi utilizado o package relsurv [3].
Bibliografia
[1] Capocaccia R., Colonna M. e Corazziari I. (2002). Measuring cancer prevalence in Europe:
the EUROPREVAL Project. Annals of Oncology, 13, 831–839.
[2] Pisani P., Bray F. e Parkin M.D. (2002). Estimates of the world-wide prevalence of cancer for
25 sites in the adult population. Annals of Oncology, 97(1), 72–81.
[3] R Development Core Team (2009). R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria.
SPE 2011
31
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Estrutura de dependência e comportamento extremal de um
processo Pareto
Marta Ferreira
Departamento de Matemática, Universidade do Minho, Braga, Portugal,
[email protected]
Resumo: Os processos auto-regressivos de cauda pesada definidos com o operador “mı́nimo” ou
“máximo” podem ser usados como boas alternativas aos clássicos modelos lineares ARMA com
caudas pesadas, no que respeita à modelação de valores extremos de uma série temporal. Neste
artigo apresenta-se uma caracterização completa da estrutura de dependência e do comportamento
extremal do processo auto-regressivo de mı́nimos Yeh-Arnold-Robertson Pareto(III).
Palavras–chave: Condições de dependência, medidas de dependência de cauda, processos pareto,
teoria de valores extremos
Introdução
O objectivo principal de uma análise de valores extremos é a estimação da probabilidade de ocorrência de eventos mais extremos do que qualquer dos já observados. Como exemplo, suponhamos
que a projecção de um dique requer a defesa de uma zona costeira para todos os nı́veis do mar dos
próximos 100 anos. Os modelos extremais são ferramentas que permitem extrapolações deste tipo.
O resultado central na Teoria de Valores Extremos (TVE) clássica estabelece que, se numa dada
uma sucessão {Xn }n≥1 de v.a.’s i.i.d.’s, com função distribuição marginal F, existirem constantes
reais an > 0 e bn , tais que,
P(max(X1 ,...,Xn ) ≤ an x + bn ) −→n→∞ Gγ (x) ,
(1)
para uma função não degenerada Gγ , então esta será uma função Generalizada de Valores Extremos
(GVE), dada por
Gγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, γ ∈ R,
com G0 (x) = exp(−e−x ), e diz-se que F pertence ao domı́nio de atracção de Gγ , abreviadamente,
F ∈ D(Gγ ). O parâmetro γ , conhecido como ı́ndice de cauda, é um parâmetro de forma que determina o peso da cauda de F, sendo assim crucial na TVE. Se γ > 0 tem-se cauda pesada (domı́nio de
atracção Fréchet), γ = 0 significa cauda exponencial (domı́nio de atracção Gumbel) e γ < 0 indica
uma cauda leve (domı́nio de atracção Weibull).
Os primeiros resultados na TVE desenvolveram-se assumindo independência entre as v.a.’s mas,
mais recentemente, tem-se assistido a um desenvolvimento de modelos e ferramentas para a modelação de dependência, um pressuposto mais realista em muitas situações. Vários processos autoregressivos de máximos têm sido considerados na modelação de valores extremos como boas alternativas aos clássicos modelos lineares ARMA de cauda pesada (Davis e Resnick [4], Ferreira and
Canto e Castro [5]). Como Vito Pareto [6] observou, muitas variáveis económicas possuem caudas
SPE 2011
33
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
pesadas, não sendo bem modeladas pela curva normal. Assim, propôs um modelo, mais tarde designado “Pareto” em sua honra, cuja cauda decresce a uma potência negativa de x, quando x → ∞,
i.e., 1 − F(x) ∼ cx−α , quando x → ∞ . Generalizações da distribuição Pareto foram propostas para a
modelação de variáveis económicas (uma exposição do assunto pode ver-se em Arnold [2]). Qualquer processo estocástico cujas margens têm distribuição Pareto ou uma generalização da mesma
é designado um processo Pareto. Aqui considera-se o processo Yeh-Arnold-Robertson Pareto(III)
(Yeh et al. [7]), abreviadamente YARP(III)(1), dado por
Xn = min p−1/α Xn−1 ,
1
εn ,
1 −Un
(2)
onde as inovações {εn }n≥1 são v.a.’s i.i.d.’s com distribuição Pareto(III)(0,σ ,α ), i.e., uma generalizada Pareto de tipo III, tal que,
h
x − µ α i−1
, x > µ.
1 − Fε (x) = 1 +
σ
(3)
com σ ,α > 0, e {Un }n≥1 é uma sucessão de v.a.’s i.i.d.’s com distribuição Bernoulli(p) (independente das inovações). Por convenção, 1/0 interpreta-se como +∞. Condicionando em Un , facilmente se vê que o processo YARP(III)(1) tem distribuição marginal Pareto(III)(0,σ ,α ) e toma-se a
mesma distribuição para X0 para obter um processo completamente estacionário.
Neste trabalho apresenta-se uma caracterização da estrutura de dependência e do comportamento da
cauda direita (a mais utilizada em aplicações) do processo YARP(III)(1) definido em (2). Concluir-se-á que é similar ao processo ARMAX considerado em Alpuim [1], Davis e Resnick [4], Canto e
Castro [3], entre outros, fornecendo assim uma alternativa na modelação de valores extremos.
Bibliografia
[1] Alpuim, M.T. (1989). An extremal markovian sequence. J. Appl. Probab., 26, 219-232.
[2] Arnold, B.C. (1983). Pareto Distributions. International Cooperative Publishing House, Fairland, MD.
[3] Canto e Castro, L. (1992). Sobre a Teoria Assintótica de Extremos. Ph. D. Thesis, FCUL.
[4] Davis, R., Resnick, S. (1989). Basic properties and prediction of max-ARMA processes. Adv.
Appl. Probab., 21, 781-803.
[5] Ferreira, M., Canto e Castro, L. (2010). Modeling rare events through a pRARMAX process.
J. Statist. Plann. Inference, 140(11), 3552-3566.
[6] Pareto, V. (1897). Cours d’economie Politique. Vol.II. F. Rouge, Lausanne.
[7] Yeh, H.C., Arnold, B.C., Robertson, C.A. (1988). Pareto Processes. J. Appl. Probab., 25, 291301.
SPE 2011
34
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Carta de medianas com limites de controlo estimados
Fernanda Otı́lia Figueiredo1 e Philippe Castagliola2
1
2
Faculdade de Economia da Universidade do Porto e CEAUL, [email protected]
Université de Nantes & IRCCyN, [email protected]
Resumo: Neste trabalho é proposta uma carta de medianas para monitorização do valor médio
de um processo gaussiano como alternativa à carta de médias sempre que é necessário estimar
parâmetros do processo. Os resultados do estudo de simulação efectuado levam-nos a concluir que
a carta proposta quando comparada com a carta de medianas implementada com limites exactos
ou com a carta de médias com limites estimados possui propriedades mais robustas à estimação
de parâmetros do processo, nomeadamente no que respeita aos valores obtidos para os parâmetros
ARL e SDRL da distribuição do RL. Para facilitar a implementação da carta de medianas proposta
é disponibilizado o valor do parâmetro da carta usado na determinação dos limites de controlo que
permite obter um determinado valor ARL sob controlo, para várias combinações da dimensão das
amostras a recolher e do número de subgrupos usados na estimação de parâmetros do processo.
Palavras–chave: Cartas de controlo, RL e condicional RL
Carta de medianas com limites de controlo estimados
Para a monitorização do valor médio de um processo, ou mais geralmente da sua localização, apesar da carta de médias ser mais utilizada e apresentar melhor desempenho na detecção de alterações
no processo do que a carta de medianas, esta última é bastante popular devido essencialmente à
robustez da mediana amostral a outliers, a situações de contaminação ou a pequenos desvios da
distribuição subjacente aos dados relativamente à hipótese de normalidade, muitas vezes admitida
aquando da implementação de uma carta de controlo. Note-se que em aplicações práticas é usual
desconhecer-se o valor dos parâmetros da distribuição associada aos dados do processo, sendo
necessário estimá-los a partir de um conjunto de dados recolhidos previamente para esse efeito,
sabendo-se ainda que esta estimação tem um impacto mais ou menos significativo no desempenho
da carta. Assim parece-nos importante estudar as propriedades da carta de medianas com limites de
controlo estimados proposta neste trabalho para monitorizar o valor médio de um processo gaussiano, aqui denotada por carta Ỹ . Para uma revisão de literatura sobre cartas de controlo com limites
estimados ver [1].
Denotemos a i-ésima amostra retirada do processo por (Yi,1 , . . . ,Yi,n ), i = 1,2, . . . , constituı́da por n
variáveis aleatórias independentes com distribuição N(µ0 + δ σ0 ,σ0 ), onde µ0 e σ0 denotam o valor
médio e o desvio padrão do processo quando este se encontra sob controlo estatı́stico, respectivamente, e δ denota a magnitude da eventual alteração ocorrida no valor médio do processo medida
em unidades de σ0 . Seja Ỹi a mediana amostral do i-ésimo subgrupo, neste caso a estatı́stica de
controlo da carta Ỹ .
Os parâmetros µ0 e σ0 , que admitimos desconhecidos, são estimados a partir de m subgrupos
SPE 2011
35
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
(Xi,1 , . . . ,Xi,n ), i = 1, . . . ,m de dimensão n, admitindo-se independência entre as variáveis dentro
e entre subgrupos, e que Xi, j ∼ N(µ0 ,σ0 ).
Os limites de controlo estimados da carta Ỹ em estudo são do tipo
d = µ̂0′ − K σ̂0′ ,
LCI
d = µ̂0′ + K σ̂0′ ,
LCS
(1)
(2)
onde K é um parâmetro da carta obtido recorrendo à distribuição condicional do RL e de modo a
obter um valor ARL especı́fico sob controlo, µ̂0′ e σ̂0′ são os estimadores de µ0 e σ0 definidos por
µ̂0′ =
1 m
∑ X̃i ,
m i=1
(3)
σ̂0′
1
d2,n
(4)
=
!
1 m
∑ Ri ,
m i=1
X̃i e Ri denotam, respectivamente, a mediana e a amplitude do i-ésimo subgrupo e d2,n = E(Ri /σ0 )
é uma constante tabelada em modelo normal para os valores usuais de n.
Conclusões
A carta de medianas com limites estimados aqui proposta pode exibir propriedades distintas das
obtidas para a carta de medianas implementada com limites exactos em virtude da estimação de
parâmetros do processo, tal como acontece com outras cartas implementadas com limites estimados.
No entanto, se usarmos um número relativamente grande de subgrupos na estimação de parâmetros
do processo ou se determinarmos o parâmetro da carta recorrendo à distribuição condicional do RL,
conseguimos obter uma carta de medianas com um desempenho interessante em termos dos valores
obtidos para alguns parâmetros usuais da distribuição do RL. Atendendo a que do ponto de vista
prático a escolha de um número elevado de subgrupos para efectuar a estimação levanta em geral
problemas à implementação da carta, fornecemos, para algumas combinações de n e m, o valor do
parâmetro K que permite obter um valor ARL sob controlo de 370.4, o que facilita a utilização da
carta Ỹ .
Agradecimentos: Este trabalho foi parcialmente financiado pelo centro de investigação CEAUL,
FCT/OE.
Bibliografia
[1] Jensen, W., Jones-Farmer, L., Champ, C. e Woodall, W. (2006). Effects of Parameter Estimation on Control Chart Properties: A Literature Review. Journal of Quality Technology, 38(4),
349–364.
SPE 2011
36
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Controlo da tuberculose em Portugal: demora entre o inı́cio
dos primeiros sintomas e o diagnóstico da doença
Dulce Gomes1 , Carla Nunes2 , Patrı́cia A. Filipe1 e Teodoro Briz2
1
Escola de Ciência e Tecnologia, Universidade de Évora, CIMA/UE,
{dmog, pasf}@uevora.pt
2 Escola Nacional de Saúde Pública, Universidade Nova de Lisboa, CIESP e CMDT-LA,
{cnunes, tshb}@ensp.unl.pt
Resumo: Este trabalho visa uma melhor compreensão das dimensões que estejam explicativamente
associadas ao tempo decorrido desde o inı́cio dos primeiros sintomas e o diagnóstico da tuberculose
(“demora”) e do provável papel deste no nı́vel de incidência. Aplicar-se-á modelos de análise de
sobrevivência, com o objectivo de caracterizar a demora em causa. O evento de interesse aqui é
o diagnóstico da doença. Este perı́odo em análise é extremamente importante na disseminação da
tuberculose, pois é aquele em que o indivı́duo já infectado e doente circula livremente, sendo um
foco de infecção e constituindo um perigo para a saúde da população se for bacilı́fero (cerca de
60% dos casos pulmonares). Serão consideradas algumas variáveis explicativas da demora como:
a região de proveniência, a idade, o sexo e os factores de risco de adoecer conhecidos (e.g., HIV),
entre outros. Nesta fase não são estudadas as dimensões da demora relacionadas com os serviços
de saúde.
Palavras–chave: Tuberculose, análise de sobrevivência, aglomerações espácio-temporais
A tuberculose em Portugal é mencionada em diversos meios com alguma frequência e preocupação:
o nı́vel de endemia é de grau médio-baixo à escala mundial, tende a reduzir-se com lentidão e
encontra-se na situação menos favorável da Europa Ocidental. A actual disponibilidade de meios
eficazes de controlo sustém a expectativa de maior influência sobre a endemia: um programa de
intervenção bem fundamentado, com um sistema de vigilância da doença e um desempenho global
bastante razoável. A co-infecção pelo VIH em pelo menos 15% dos casos novos de tuberculose,
e alguma ineficiência na articulação entre serviços poderão explicar em parte esta dificuldade de
controlo. Assim, há ainda progressos importantes a promover, em particular nos concelhos com
maior risco de adoecer, dado que os factores que mais perpetuam a doença na população estarão
sobretudo relacionados com contextos sócio-económicos, culturais, comportamentais e organizacionais favoráveis à transmissão do bacilo, à não-detecção precoce de novos casos nem de situações
de doença latente, e à não-adesão à terapêutica em grupos especı́ficos (Briz, et al.[1]).
Estudos anteriores de Epidemiologia Espacial, e em particular de processos de clustering espaciotemporal, foram levados a cabo com o objectivo de caracterizar as taxas de incidência notificada em
Portugal (Nunes[2] e Nunes, et al.[3]). A partir deste estudo, verificou-se a existência de acentuada
heterogeneidade geográfica da incidência, com aglomeração espacio-temporal significativa.
Deste modo, e tendo em conta a dinâmica da endemia, serão aplicadas técnicas de análise de sobrevivência nas áreas de maior risco de tuberculose e também nas de risco menor, fazendo intervir no
modelo os factores determinantes presentes nessas áreas. A base de dados é constituı́da por todos
os casos de tuberculose diagnosticados e reportados no ano de 2009.
SPE 2011
37
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações
(CIMA-UE) e do Centro de Investigação e Estudos em Saúde Pública (CIESP-UNL) e do Centro
de Malária e Doenças Tropicais (CMDT-LA/UNL), a primeira e a última unidades financiadas pela
Fundação para a Ciência e Tecnologia.
Bibliografia
[1] Briz, T., Nunes, C., Alves, J. e Santos, O. (2009). O Controlo da Tuberculose em Portugal:
uma apreciação crı́tica epidemiológica global. Revista Portuguesa de Saúde Pública, no 1, 19–
54.
[2] Nunes C. (2007). Tuberculosis incidence in Portugal: spatiotemporal clustering. International
Journal of Health Geographics, 6–30.
[3] Nunes, C. e Gomes, D. (2009). Processo de detecção de aglomerações espácio-temporais:
alguns condicionantes. Estatı́stica. Arte de Explicar o Acaso. Actas do XVI Congresso da Sociedade Portuguesa de Estatı́stica. (I. Oliveira, E. Correia, F. Ferreira, S. Dias, C. Braumann,
eds.), 477–488, Edições SPE.
SPE 2011
38
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Aplicação da teoria dos extremos ao estudo da precipitação
na Ilha da Madeira
Délia Gouveia1 , Luiz Guerreiro Lopes2 e Sandra Mendonça3
1
Universidade da Madeira, Centro de Investigação de Montanha, Centro de Estatı́stica e Aplicações
da Universidade de Lisboa, [email protected]
2 Universidade da Madeira, Centro de Investigação de Montanha, Instituto de Ciências Agrárias e
Ambientais Mediterrânicas, [email protected]
3 Universidade da Madeira, Centro de Estatı́stica e Aplicações da Universidade de Lisboa,
[email protected]
Resumo: A análise de processos espaciais na perspectiva da teoria dos valores extremos tem tido
grandes desenvolvimentos na última década, veja-se, por exemplo, Buishand et al. [1] e De Haan e
Zhou [2]. No presente trabalho é apresentado o resultado da exploração, local e espacial, feita neste
contexto aos dados de precipitação provenientes de estações udométricas da Ilha da Madeira.
Palavras–chave: Estatı́stica de extremos, extremos espaciais, precipitação intensa
Bibliografia
[1] Buishand, T. A. , De Haan, L. e Zhou, C. (2008). On spatial extremes: with application to a
rainfall problem. Annals of Applied Statistics, 2(2), 624–642.
[2] De Haan, L. e Zhou, C. (2008). On extreme value analysis of a spatial process. REVSTAT –
Statistical Journal, 6(1), 71–81.
SPE 2011
39
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Análise da distribuição χ 2 não central na avaliação de Opções
Europeias num processo de difusão CIR
Manuela Larguinho1 , José Carlos Dias2 e Carlos A. Braumann3
1
Área de Matémática do ISCAC, [email protected]
Finance Research Center (UNIDE/ISCTE) e Área de Finanças do ISCAC, [email protected]
3 Centro de Investigação em Matemática e Aplicações - Universidade de Évora,
[email protected]
2
Resumo: Assumindo o processo de difusão de Cox-Ingersoll-Ross (CIR) o preço de uma opção
Europeia sobre obrigações de cupão zero requer o cálculo da função de distribuição qui-quadrado
não central. Neste trabalho comparamos o desempenho de alguns métodos alternativos no cálculo
desta distribuição de probabilidade e a respectiva eficiência na avaliação das opções.
Palavras–chave: Difusão CIR, distribuição qui-quadrado não central
Introdução
O modelo CIR, proposto por [2], é um modelo de equilı́brio intertemporal, sendo um dos mais
populares que tende a ultrapassar o problema das taxas de juro negativas. É utilizado para valorizar
obrigações de cupão zero e opções de compra e venda sobre este tipo de obrigações. A fórmula
de cálculo para os preços das opções pode apresentar alguma complexidade uma vez que envolve a
necessidade da função de distribuição qui-quadrado não central.
Difusão CIR e métodos alternativos para o cálculo da distribuição χ 2 não central
Sob o espaço de probabilidade de risco neutro (Ω, F , Q), [2] assumem que a dinâmica da taxa de
juro, rt , é dada pela seguinte equação diferencial estocástica (EDE):
√
drt = [κθ − (λ + κ )rt ]dt + σ rt dWtQ ,
(1)
onde WtQ é o movimento Browniano padrão sob Q, κ ,θ e σ são constantes positivas que representam
a taxa de reversão à média, a taxa média a longo prazo e a volatilidade da taxa de juro, respectivamente, e λ é o prémio de risco. De modo a assegurar que a taxa de juro permanece positiva temos
de impor que 2κθ > σ 2 .
Sob a difusão CIR, o preço no instante t de uma obrigação de cupão zero com maturidade em S,
Z(r,t,S), é dado por :
Z(r,t,S) = A(t,S)e−B(t,S)r ,
SPE 2011
(2)
41
Quinta, 29/09/2011
onde
A(t,S) =
2γ e
Sessão de POSTERS I
(κ +λ +γ )(S−t) /2
(κ +λ +γ ) eγ (S−t) −1 +2γ
2κθ2
σ
, B(t,S) =
2 eγ (S−t) −1
Átrio do Café, 10:00–10:30
(κ +λ +γ ) eγ (T −t) −1 +2γ
1/2
2
2
.
e γ = (κ + λ ) + 2σ
Denotemos por ZCcall (r,t,T,S,X), o preço no instante t de uma opção de compra Europeia de maturidade T > t, preço de exercı́cio X, subscrita sobre uma obrigação de cupão zero de maturidade
S > T e com a taxa de juro de juro instantânea no instante t dada por rt . O preço da opção é dado
por
"
4κθ 2φ 2 reγ (T −t)
ZCcall (r,t,T,S,X) = Z(r,t,S) χ 2r∗ [φ + ψ + B(T,S)]; 2 ,
σ φ + ψ + B(T,S)
"
#
2 reγ (T −t)
′2
κθ
φ
2
4
−X Z(r,t,T ) χ 2r∗ [φ + ψ ]; 2 ,
,
σ
φ +ψ
′2
onde ψ =
κ +λ +γ
,
σ2
φ=
2γ
σ 2 eγ (T −t) −1
#
(3)
′2
, r∗ = ln A(T,S)
/B(T,S) e χ (x; ν , δ ) é a função de distriX
buição qui-quadrado não central com ν graus de liberdade e parâmetro de não centralidade δ , r∗ é
a taxa de juro crı́tica, abaixo da qual pode ocorrer o exercı́cio da opção, isto é, X = P(r∗ , T, S).
Neste trabalho comparamos o desempenho dos algoritmos propostos por [1], [3] e [4] para o cálculo
da função de distribuição qui-quadrado não central.
Agradecimentos: Larguinho e Braumann são membros do Centro de Investigação em Matemática
e Aplicações (CIMA) da Universidade de Évora e Dias é membro do Finance Research Center do
ISCTE-IUL, ambos os centros financiados pela Fundação para a Ciência e Tecnologia (FCT).
Bibliografia
[1] Benton, D. e Krishnamoorthy, K. (2003). Computing discrete mixtures of continuous distributions: noncentral chisquare, noncentral t and the distribution of the square of the sample
multiple correlation coefficient. Computational Statistics and Data Analysis, 43, 249–267.
[2] Cox, J.C., Ingersoll, J.E. e Ross, S.A. (1985). A theory of the term structure of interest rates.
Econometrica, 53, 385–408.
[3] Ding, C.G. (1992). Algorithm AS 275: computing the non-central χ 2 distribution function.
Applied Statistics, 41, 478–482.
[4] Schroder, M. (1989). Computing the constant elasticity of variance option pricing formula.
Journal of Finance, 44, 211–219.
SPE 2011
42
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Sobre o efeito de Taylor em modelos bilineares
Cristina Martins1 , Esmeralda Gonçalves2 e Nazaré Mendes Lopes2
1
2
Departamento de Matemática da FCTUC, [email protected]
CMUC, Department of Mathematics, University of Coimbra, {esmerald, nazare}@mat.uc.pt
Resumo: Em 1986, Taylor observou, com base em várias séries financeiras analisadas, que a
autocorrelação empı́rica de determinada ordem da série em valor absoluto é superior à autocorrelação
empı́rica da mesma ordem do quadrado dessa série. Posteriormente, vários estudos têm sido levados
a cabo com o objectivo de analisar a presença deste facto em modelos de séries temporais, tanto a
nı́vel empı́rico (efeito de Taylor) como a nı́vel teórico (propriedade de Taylor). Com base num estudo de simulação, é analisada, neste trabalho, a presença do efeito de Taylor na classe dos modelos
bilineares simples.
Palavras–chave: Modelos bilineares, efeito de Taylor
Introdução
A procura de caracterı́sticas empı́ricas não triviais, ditas factos estilizados, em dados temporais,
nomeadamente financeiros, tem sido objecto de vários estudos com vista à identificação de modelos que melhor se adequem a tal tipo de dados. Um facto estilizado identificado por Taylor em
1986, a partir da análise estatı́stica de 40 séries, é o chamado efeito de Taylor. De facto, Taylor
constatou empiricamente que a autocorrelação empı́rica de ordem n, n ∈ {1, . . . ,30}, da série em
d t |,|Xt−n |), é maior do que a autocorrelação empı́rica da mesma orvalor absoluto, ρ̂n (1) = corr(|X
2 ), isto é, ρ̂ (1) > ρ̂ (2). A presença desta relação
d t2 ,Xt−n
dem do quadrado da série, ρ̂n (2) = corr(X
n
n
empı́rica em séries de valores reais tem sido explorada em diversos trabalhos, mas a verificação
de que os modelos para séries temporais satisfazem a relação teórica correspondente é ainda uma
área pouco estudada pelo facto das expressões destas autocorrelações não serem conhecidas para a
maior parte dos modelos. Nesta área, He e Teräsvirta (1999) analisam o efeito de Taylor no modelo AVGARCH(1,1) (modelo GARCH(1,1) em valor absoluto) usando as expressões analı́ticas das
autocorrelações teóricas por eles obtidas. He e Teräsvirta atribuem a designação propriedade de
Taylor à relação teórica ρn (1) > ρn (2), n ≥ 1, tendo concluı́do que, para n = 1, esta propriedade
é verificada pelo modelo AVGARCH(1,1). Gonçalves, Leite e Mendes-Lopes (2009) estudam a
presença da propriedade de Taylor nos modelos TARCH, concluindo que tal propriedade está presente para algumas parametrizações do modelo TARCH de primeira ordem.
Os modelos bilineares têm-se também revelado adequados na modelação de dados financeiros, pelo
que é de todo o interesse analisar a presença, nestes modelos, da referida propriedade de Taylor.
O presente trabalho pretende ser uma primeira abordagem deste estudo no modelo bilinear simples
(m.b.s.)
Xt = β Xt−k εt−l + εt , k > 0, l > 0,
onde β é um parâmetro real e (εt ,t ∈ Z) é um processo de erro. O modelo tem a designação de
superdiagonal se k > l, diagonal se k = l e subdiagonal se k < l.
SPE 2011
43
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Efeito de Taylor no modelo bilinear simples
Sob algumas hipóteses relativas ao processo (εt ,t ∈ Z), Martins (1997 e 1999) estabelece uma
condição necessária e suficiente para que o processo (Xt ,t ∈ Z) obedecendo à equação de evolução
do m.b.s. seja fortemente estacionário, ergódico e fracamente estacionário e obtém alguns momentos de Xt . Em particular, são apresentados os valores de ρn (2), n ∈ N, para os modelos superdiagonal e diagonal. Para o modelo subdiagonal, tais valores são estabelecidos nos casos l = 2k − p,
0 < p < k, e l = 2k. No entanto, a inexistência de resultados sobre as autocorrelações do modelo
(|Xt |,t ∈ Z), não permite ainda o estudo da propriedade de Taylor nos m.b.s.. Assim, a presença do
efeito de Taylor é analisada a partir de um estudo de simulação para tais modelos. Gera-se Xt considerando que (εt ,t ∈ Z) é uma sucessão de variáveis aleatórias reais independentes e identicamente
distribuı́das com uma lei normal ou com uma lei uniforme, ambas centradas, e β tal que |β | < σ12 ,
com σ 2 = E(εt2 ). As simulações efectuadas sugerem que existem valores de n para os quais a série
simulada apresenta o efeito de Taylor, mas, fixado n, o efeito não é verificado para todos os valores
de β acima referidos. Mais precisamente, parece evidente a existência de um valor m ∈ 0, σ12 ,
tal que o efeito é produzido para valores de β que verificam m < |β | < σ12 . Mais, a amplitude do
intervalo ]m, σ12 [ parece diminuir significativamente quando, em vez da distribuição normal centrada
com desvio padrão σ , se considera para εt a distribuição uniforme centrada com o mesmo desvio
padrão. Assim, a um aumento da curtose da distribuição de εt parece corresponder uma diminuição
do valor de m, pelo que será de esperar que, para valores suficientemente elevados da curtose da
distribuição de εt , o valor de m se aproxime de zero e a propriedade de Taylor seja verificada para
todas as possı́veis parametrizações. Esta influência da curtose da distribuição de εt na verificação
da propriedade de Taylor foi também observada por Gonçalves, Leite e Mendes-Lopes (2009) no
modelo TARCH(1). Para ilustrar estes factos, apresentam-se a seguir algumas das simulações efectuadas com o modelo diagonal de ordem 1 (k = 1), para n = 1 e σ = 1. Note-se que m parece
situar-se entre 0.5 e 0.6 no caso da lei normal e entre 0.8 e 0.85 no caso da lei uniforme.
√ √
εt ∼ N(0,1) (|β | < 1)
εt ∼ U([− 3, 3]) (|β | < 1)
β
ρ̂1 (1)
ρ̂1 (2) Ef. Taylor?
β
ρ̂1 (1)
ρ̂1 (2) Ef. Taylor?
0.2 0.1284 0.1784
Não
0.7
0.5184 0.5768
Não
0.5 0.4387 0.4595
Não
0.8
0.5981 0.6056
Não
0.6 0.4926 0.4672
Sim
0.85 0.6414 0.6167
Sim
0.7 0.5402 0.4722
Sim
0.9
0.6721 0.6211
Sim
0.8 0.5897 0.4860
Sim
0.99 0.7073 0.5911
Sim
Este estudo será complementado com a consideração de outras distribuições para o processo de erro,
cujo desempenho será comparado tendo em conta o peso das caudas, bem como de outros modelos
bilineares.
Bibliografia
[1] Gonçalves, E., Leite, J. e Mendes-Lopes, N. (2009). A mathematical approach to detect the
Taylor property in TARCH processes. Statistics and Probability Letters, 79, 602–610.
[2] He, C. e Teräsvirta, T. (1999). Properties of moments of a family of GARCH processes. J.
Econom. 92, 173–192.
[3] Martins, C.M. (1997) On the autocorrelations related to a bilinear model with non-independent
shocks. Statistics and Probability Letters, 36, 245–250.
[4] Martins, C.M. (1999) Higher order moments of bilinear subdiagonal models with nonindependent shocks. Annales de l’I.S.U.P., 43, 1, 29–42.
[5] Taylor, S. (1986). Modelling Financial Time Series. Wiley.
SPE 2011
44
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Dinâmica estocástica na difusão de tecnologias de banda larga
em Portugal
Rui Pascoal e Jorge Marques
Faculdade de Economia da Universidade de Coimbra, {ruiapsp, jmarques}@fe.uc.pt
Resumo: O propósito deste artigo é complementar um estudo efectuado anteriormente pelos mesmos autores sobre a evolução do número de subscritores de acesso fixo por banda larga em séries de
dados referente ao perı́odo de 2000 a 2009, introduzindo agora uma estrutura para a parte estocástica
nos modelos de crescimento: exponencial, logı́stico, Gompertz, Bass e Michaelis-Menten. Desta
forma, procura-se melhorar quer o ajustamento desses modelos às séries quer a sua capacidade de
previsão.
Palavras–chave: Modelos de difusão, banda larga, processos estocásticos
Introdução
Em [4] analisou-se o comportamento das séries do número de subscritores de Internet de Banda
Larga por cabo, recorrendo a diversos modelos de crescimento: exponencial, logı́stico, Gompertz,
Bass e Michaelis-Menten. Este último modelo revela uma melhor capacidade de previsão face às
novas observações, ajustando-se às caracterı́sticas de difusão das tecnologias de Banda Larga.
O propósito do presente estudo é a introdução duma versão mais geral destes modelos, que consiste
em acrescentar à função representativa do trend uma estrutura para a parte estocástica. Esta visa
melhorar o ajustamento dos modelos referidos e encontrar explicação para os resı́duos obtidos na
sua estimação.
A parte estocástica pode ser modelada através, por exemplo, de uma formulação ARFIMA para a
componente do erro que explique a estrutura de correlação dos resı́duos. Outra abordagem possı́vel
consiste em considerar uma equação diferencial estocástica que complemente a equação diferencial
determinı́stica que caracteriza os modelos de crescimento. Este tipo de abordagem é utilizada por
exemplo para modelar o crescimento individual de organismos [2].
Por fim, refira-se que as estimações são efectuadas recorrendo ao programa informático R e ao
software gSDE [1].
Bibliografia
[1] Brites, N.M., Braumann, C.A., Filipe, P.A. e Roquete, C.J. (2010). gSDE: Stochastic
Differential Equation Software for model growth: User guide Version 1.0 [Available at
http://home.uevora.pt/ braumann/project/projectoS.htm]
SPE 2011
45
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
[2] Filipe, P.A., Braumann, C.A., Brites, N.M. e Roquete, C.J. (2010). Modelling Animal Growth
in Random Environments: An Application Using Nonparametric Estimation. Biometrical
Journal, 52(5):653–666. DOI:10.1002/bimj.200900273
[3] Mahler, A. e Everett M. R. (1999). The Diffusion of Interactive Communication Innovations
and the Critical Mass: The Adoption of Telecommunications Services by German Banks.
Telecommunications Policy, 23 (10-11), 719–740.
[4] Pascoal, R. e Marques, J. (2011). Fitting Broadband Diffusion by Cable Modem in Portugal. [Submetido a sellected papers do XVIII Congresso Anual da Sociedade Portuguesa de
Estatı́stica]
[5] Pereira, P. e Pernı́as-Cerrillo J. C. (2005). The diffusion of cellular telephony in Portugal before
UMTS: a time series approach. CEPR Discussion Papers Number 2598
[6] Stremersch, S., Muller, M. e Peres, R. (2010). Does New Product Growth Accelerate across
Technology Generations? Marketing Letters, 21, pp. 103–120
[7] Tellis, Gerard J., Stremersch, S. e Yin, E. (2003). The International Takeoff of New Products:
The Role of Economics, Culture, and Country Innovativeness. Marketing Science, Vol. 22,
No. 2.
SPE 2011
46
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Testes não-paramétricos para validação de modelos extremais:
uma aplicação a dados de atletismo
Paulo Santos1 , M. Ivette Gomes2 e Patrı́cia de Zea Bermudez2
1
2
DEIO, FCUL, Universidade de Lisboa, paulopaulo [email protected]
DEIO, FCUL e CEAUL, Universidade de Lisboa, {ivette.gomes, patzea}@fc.ul.pt
Resumo: Os testes não-paramétricos de ajustamento são frequentemente usados em contexto paramétrico, com o objectivo de validar determinado modelo, como sendo o modelo subjacente aos
dados. Os pontos crı́ticos destes testes são facilmente acessı́veis em tabelas, válidas quando não
há necessidade de estimar parâmetros desconhecidos, uma situação totalmente irrealista na prática.
Procederemos à construção de tabelas de pontos crı́ticos das estatı́sticas de ajustamento mais usuais,
para serem usadas na validação de alguns dos modelos extremais mais relevantes. Essas tabelas só
podem ser construı́das através de simulações de Monte-Carlo, que serão delineadas em R. Procedemos ainda a uma aplicação a dados de atletismo.
Palavras–chave: Teoria de valores extremos, testes de ajustamento, pontos crı́ticos
Introdução e objectivos
Este artigo incide sobre testes não-paramétricos de ajustamento, de entre os quais destacamos os testes de Kolmogorov-Smirnov, de Stephens e de Cramér-von Mises. Face a uma amostra aleatória de
dimensão n, (X1 , X2 . . . . , Xn ) proveniente de um modelo desconhecido, com função de distribuição
(f.d.) F, denotemos por (X1:n ≤ X2:n ≤ · · · ≤ Xn:n ) a amostra de estatı́sticas ordinais ascendentes
associada à amostra (X1 , X2 . . . . , Xn ). Qualquer das estatı́sticas de teste atrás referidas são medidas
de distância entre a f.d. teórica, F, e a f.d. empı́rica, denotada por Fn∗ (x), imagem estatı́stica da
f.d. F(x) = P(X ≤ x), desconhecida. Na Secção 2, abordamos os testes de ajustamento a considerar
neste trabalho, e fazemos uma breve introdução a resultados limites em Teoria de Valores Extremos (TVE). Na Secção 3, referimos a obtenção de um conjunto de tabelas de pontos crı́ticos das
estatı́sticas apresentadas na Secção 2, para alguns dos modelos aı́ mencionados. Finalmente, na
Secção 4, procedemos a uma aplicação a dados de atletismo.
Breve referência aos testes de ajustamento em estudo e à Teoria de Valores Extremos
R
Qualquer estatı́stica da forma R G Fn∗ (x), F(x) dF(x) tem, se F for contı́nua, f.d. independente
de F, fornecendo pois um possı́vel teste de ajustamento. Os testes abordados neste artigo são
medidas de distância entre a f.d. F, desconhecida, e a f.d. empı́rica Fn∗ (x) associada à amostra
em estudo. Referimos
de Kolmogorov-Smirnov, Dn := supx∈R |Fn∗ (x) −RF(x)|, de CramérR o teste
∗
2
von Mises, Wn := n R (Fn (x) − F(x))2 dF(x), e o teste de Stephens, Un2 := n R (Fn∗ (x) − F(x) −
R
∗
2
R (Fn (y) − F(y))dF(y)) dF(x). É sobre este tipo de testes que nos iremos debruçar nas secções
seguintes. Procederemos à construção de tabelas assintóticas, quando não há necessidade de estimar
parâmetros. Na Secção 3, veremos como se podem construir tabelas para o caso em que temos que
proceder à estimação de parâmetros.
SPE 2011
47
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Referimos em seguida alguns dos modelos importantes em TVE. A distribuição limite não-degenerada
da sucessão de máximos parciais, {Xn:n := max(X1 , X2 , . . . , Xn )}n≥1 , é do tipo da chamada distribuição
de Valores Extremos, com a forma funcional Gγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0,
onde γ (∈ R)
é o ı́ndice de valores
extremos. Face ao facto de se ter X1:n := min X1 , X2 , . . . Xn = − max −
X1 , −X2 , . . . , −Xn as possı́veis distribuições limite para a sucessão de mı́nimos parciais, X1:n , são
então do tipo, G∗γ (x) = 1 − Gγ (−x). Quanto ao comportamento limite dos excessos acima de um
nı́vel elevado u, para u = un → +∞, quando n → ∞, obtemos distribuições do tipo da generalizada
1
de Pareto (GP), com a forma funcional, GPγ (x) = 1 + ln Gγ (x) = 1 − (1 + γ x)− γ , 1 + γ x > 0, x > 0.
Para mais detalhes, veja-se [1].
Construção de tabelas de pontos crı́ticos
As tabelas de pontos crı́ticos construı́das estão relacionadas com os três testes de ajustamento discutidos na Secção 2, e com os modelos aı́ referidos, bem como com as suas versões parciais, tais
como os modelos Gumbel, Fréchet, Weibull, Exponencial e Beta, e com a estimação de parâmetros
desconhecidos através dos estimadores de momentos, de momentos ponderados de probabilidade
(veja-se [2]) e de máxima verosimilhança (veja-se [3]). Para a construção destas tabelas, a técnica
das réplicas mostrou-se preferı́vel ao métodos dos quantis, quer em termos de precisão, quer em
termos de eficiência.
Uma aplicação a dados de atletismo
Nesta Secção estamos interessados na aplicação dos resultados obtidos a dados das melhores marcas pessoais em algumas modalidades do atletismo. Face à forma como os dados foram recolhidos,
justifica-se plenamente uma análise paramétrica quer do ı́ndice de valores extremos, quer do limite
superior do suporte, o possı́vel recorde mundial, dadas as condições vigentes. Os dados em análise
estão relacionados com os 60 Metros Barreiras (60MB) e os 1500 Metros, bem como o salto em altura e o salto em comprimento. As fontes foram http://www.iaaf.org/statistics/toplists/index.htmx e
http://hem.bredband.net/athletics/athletics all-time best.htm. Os dados foram coleccionados até ao
fim de 2010, e para qualquer atleta só se contabilizou a melhor marca. Devido ao nosso interesse em
modelos relacionados com a cauda direita F = 1 − F do modelo subjacente aos dados, convertemos
tempos de corrida em velocidades. Por exemplo, 10 segundos nos 60MB (igual a 0.06 quilómetros)
são transformados numa velocidade de 3600 × 0.06/10 = 21.6 km/h. Deste modo, quanto mais
elevada for a velocidade, melhor é o resultado. A mesma situação ocorre com as modalidades salto
em altura e salto em comprimento.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Embrechts, P., Klüppelberg, C. e Mikosch, T. (1997). Modelling Extremal Events for Insurance
and Finance. Springer, Berlin, Heidelberg.
[2] Hosking, J.R.M. e Wallis, J.R. (1987). Parameter and quantile estimation for the generalized
Pareto distribution. Technometrics 29, 339–349.
[3] Johnson, N.L., Kotz, S. e Balakrishnan, N. (1994; 1995). Continuous Univariate Distributions.
Volumes 1; 2. Wiley Series in Probability and Mathematical Statistics.
SPE 2011
48
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Múltiplos caminhos para a uniforme
Fernando Sequeira1 e Sı́lvio Velosa2
1
2
Faculdade de Ciências da Universidade de Lisboa, [email protected]
Universidade da Madeira, [email protected]
Resumo: Os resultados de Gomes et al. (2009) sugerem a conjectura de que, para X e Y variáveis
aleatórias (v.a.) independentes com suporte em [0,1], as transformações V = X + Y − [X + Y ] e
W = min{ YX , 1−X
1−Y } produzem v.a. com distribuições mais próximas da uniforme que a de X.
Seguindo Johnson (2004), procuramos formalizar e confirmar esta conjectura, traduzindo a aproximação à uniforme em termos de aumento de entropia e decréscimo da informação de Fisher.
Palavras–chave: Distribuição uniforme, entropia, informação de Fisher, transformações de variáveis
aleatórias
Introdução
Num estudo de simulação, Gomes et al. (2009) notaram que, para as v.a. independentes X e
Y com f.d.p. da famı́lia fXm (x) = (mx + 1 − m/2)I(0,1) (x), m ∈ [−2, 2] , as transformações V =
X + Y − [X + Y ] e W = min{ YX , 1−X
1−Y } parecem produzir v.a. com distribuições mais próximas da
uniforme que a de qualquer um dos termos .
Brilhante et al. (2010) observam que, para elementos independentes Xm e X p desta famı́lia, W =
min{Xm /X p , (1 − Xm )/(1 − X p )} tem a distribuição de Xmp/6 , donde é imediato que W é uniforme
se e só se Xm é uniforme ou Xp é uniforme (m = 0 ou p = 0). Notam também que a aproximação
de W à uniforme, na mesma famı́lia de v.a., se pode exprimir em termos da sua entropia: H(X0 ) ≥
H(W ) ≥ max{H(Xm ),H(X p )}.
Por outro lado, conforme Deng e George (1992), W = min{X/Y, (1 − X)/(1 −Y )}, onde X e Y são
v.a. independentes com suporte [0,1] arbitrárias, é uniforme desde que X o seja. Investigamos o
comportamento da entropia de W nesta situação mais geral.
No caso da transformação V = X + Y − [X + Y ], onde X e Y são v.a.’s independentes com suporte
[0,1], é imediato da forma da densidade,
fV (v) =
Z v
0
fX (x) fY (v − x)dx +
Z 1
v
fX (x) fY (1 + v − x)dx
que se obtém também uma uniforme desde que X ou Y o sejam. Para as variáveis da famı́lia Xm fica
fV (v) = (1 − mp/12 + mpv/2 − mpv2 /2)I (0,1) (v) e novamente se constata que a transformação
V aproxima as distribuições de partida da uniforme, na medida em que supv∈[0,1] | fV (v) − 1| <
supx∈[0,1] | fX (x) − 1|.
Seguindo Johnson (2004), procuramos formalizar e exprimir a aproximação à uniforme produzida
pelas transformações V e W em termos de aumento de entropia e decréscimo da informação de
SPE 2011
49
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Fisher. A convergência para a uniforme era expectável em virtude do facto bem conhecido de que
a densidade limite de convoluções num grupo topológico compacto G é uniforme relativamente
à medida de Haar em G, donde advém o princı́pio de entropia máxima H( f ) ≤ 0, f ∈ G, com
igualdade se e só se f é uniforme.
Bibliografia
[1] Brilhante, M. F., Mendonça, S., Pestana, D. e Sequeira, F. (2010). Using Powers of Products
to Test Uniformity. Notas e Comunicações do CEAUL, 02/2010.
[2] Deng, Y. e George, E. O. (1992). Some characterizations of the uniform distribution with
applications to random number generation. Em Ann. Instit. Statistical Mathematics (Editores,
eds.), 44, 379–385.
[3] Gomes, I., Pestana, D., Sequeira, F., Mendonça, S. e Velosa, S. (2009). Uniformity of offsprings from uniform and non-uniform parents. Proceedings of the ITI 2009, 31th International
Conference on Information Technology Interfaces 2009, (Luzar-Stiffler, V., Jarec, I. e Bekic,
Z., eds.), 243–248.
[4] Johnson, O. (2004). Information Theory and the Central Limit Theorem. London: Imperial
College Press.
SPE 2011
50
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Fatores associados ao abandono escolar no Ensino Médio
Público de Minas Gerais
Tufi Machado Soares1 , Neimar Fernandes da Silva1 , Mariana Calife Nóbrega1 e Alexandre
Nicolella2
1
2
CAED-UFJF, {tufi, neimar, calife}@caed.ufjf.br
USP/Campus Ribeirão Preto-Faculdade de Economia, [email protected]
Resumo: Este artigo tem como objetivo principal apontar quais são os principais fatores que influenciam o abandono escolar no Ensino Médio. Os dados utilizados se baseiam numa série histórica
construı́da a partir do levantamento das PNAD - Pesquisa Nacional por Amostra de Domicı́lios - e
uma ampla pesquisa realizada no estado de Minas Gerais, esta pesquisa culminou com a coleta de
diversas informações de um total de 3.418 entrevistados (entre alunos cursantes e não-cursantes).
Com base nesses dados, estimaram-se modelos de Regressão de Risco Proporcional de Cox, que
permitiram identificar a correlação entre fatores intra e extra-escolares com o abandono precoce.
Outro modelo desenvolvido utilizou as bases de dados da PNAD, em que um modelo Logito foi
estimado, permitindo verificar a taxa do não abandono na trajetória do Ensino Médio também para
Minas Gerais. Entre os resultados encontrados destacam-se alguns fatores expressivos na explicação
do abandono como: a dificuldade nas disciplinas, ansiar por uma escola diferente, perceber melhores oportunidades de trabalho com a continuidade dos estudos e a importância atribuı́da na escolha
da escola.
Palavras–chave: Abandono escolar, Ensino Médio, pesquisa nacional por amostra de domicı́lios,
pesquisa sobre abandono escolar
Introdução
Este artigo tem por objetivo apontar algumas caracterı́sticas associadas ao abandono escolar dificultando a conclusão do Ensino Médio pelos jovens com no mı́nimo oito anos de escolaridade nas
escolas públicas do Estado de Minas Gerais. Especificamente, para tal, pretende-se produzir conhecimento empregando dados secundários, por meio da utilização dos dados disponı́veis nas PNADs
(1987 a 1992) e dados primários, produzidos pela PSAE - Pesquisa Sobre Abandono Escolar. Com
a articulação destas formas de análise, será possı́vel checar a robustez dos resultados alcançados em
cada uma das abordagens.
Algumas pesquisas apontaram o abandono escolar do jovem no Ensino Médio influenciada pela
necessidade de entrar no mercado de trabalho, seja colaborando com o orçamento familiar, seja
para ter o próprio dinheiro. Esta visão pode estar ignorando diversos fatores que os jovens consideram ao decidir abandonar a escola. Outros fatores que podem ser listados como capazes de
afastarem os jovens dos bancos escolares, inclui-se a falta de interesse na/pela escola, seja, por
caracterı́sticas individuais, familiares, ou até mesmo da escola (qualidade ensino, infra-estrutura,
excesso de conteúdos), são questões que ainda pouco se compreende no Brasil.
O desinteresse também aparece como forte motivo que influencia a decisão de abandonar a escola
SPE 2011
51
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
e entendê-lo torna-se de suma importância tanto para melhor compreensão do estado de fragilidade
que esses jovens se encontram quanto um indicador importante na orientação de polı́ticas educacionais que visam reverter tal quadro. Na maioria dos estudos fica evidente uma dicotomia entre
fatores internos e fatores externos como causadores do abandono escolar.
Três modelos estatı́sticos foram desenvolvidos para explicar o abandono escolar, entre eles, dois
Modelos de Regressão de Risco Proporcional de Cox [2] que utilizaram dados da PSAE, que inovam
em técnicas de modelagens de eventos recorrentes, que para este caso foi o abandono, condicionado
as covariáveis ligadas a dados educacionais no Brasil. Para os dados da PNAD [1], estimou-se o
Modelo de Variáveis Dependentes Binárias (Logito) com dados empilhados (Pooling) com binárias
de coorte e ano.
Com os resultados dos modelos estatı́sticos foi possı́vel mensurar o impacto positivo e negativo dos
fatores ligados a abandono, tais como: condição socioeconômica, gênero, defasagem idade/série,
trabalho, dificuldade nas disciplinas, percepção de melhores oportunidades de trabalho com a continuidade dos estudos, o anseio por uma escola dinâmica, pretensão de cursar faculdade, interesse e
incentivo da famı́lia nos estudos, entre outros no abandono precoce.
Bibliografia
[1] Brasil. Ministério do Planejamento, Orçamento e Gestão. Instituto Brasileiro de Geografia e
Estatı́stica. Pesquisa Nacional por Amostra de Domicı́lios (PNAD). Rio de Janeiro: IBGE;
2001-2008.
[2] Colosimo, E.A. e Giolo, S.R. (2006). Análise de Sobrevivência Aplicada. 1a ed. Edgard
Blücher Ltda: São Paulo.
SPE 2011
52
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Análise de dados longitudinais com drop-out dependente da
variável resposta
Inês Sousa
Departamento de Matemática e Aplicações, Universidade do Minho, [email protected]
Resumo: Nesta apresentação proponho explorar as dificuldades dos modelos longitudinais quando
o processo de dados faltantes está dependente do processo de medida.
Palavras–chave: Análise de dados longitudinais, drop-out dependente da variável resposta
Introdução
Estudos longitudinais são desenvolvidos quando se pretende obter medidas repetidas para um mesmo
indivı́duo ou entidade. Usualmente, estes aparecem em contexto de bioestatı́stica quando o efeito
de um tratamento/droga/cirurgia quer ser estudado ao longo do tempo. Desta forma, os modelos
estatı́sticos longitudinais permitem distinguir variabilidade entre indivı́duos e dentro do indivı́duo
ao longo do tempo. Os modelos longitudinais combinam técnicas de séries temporais e análise
multivariada. No entanto, quando seguimos indivı́duos ao longo do tempo estes podem originar
séries temporais de diversas dimensões, devido ao facto de podermos perder indivı́duos ao longo
do estudo. Temos assim os chamados drop-out. O motivo pelo qual os indivı́duos saem do estudo, originando drop-out, pode ou não estar relacionado com a variável resposta de interesse. Por
exemplo, se um indivı́duo sai do estudo porque mudou de residência, não é esperado que esta causa
esteja relacionado com o objectivo do estudo. Por outro lado, se um indivı́duo decide sair do estudo
porque cada vez se sente pior, o facto de termos dados faltantes está fortemente associado com a
variável em estudo. Neste trabalho, pretendemos comparar diferentes modelos longitudinais que
consideram a associação entre os dois processos estocásticos, o de variável resposta e o do processo
de drop-out.
Bibliografia
[1] Sousa I. (2011). A review on joint modelling of longitudinal measurements and time-to-event.
REVSTAT, 9(1), 57–81.
SPE 2011
53
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
Periodic autoregressive model identification
using genetic algorithms
Eugen Ursu1 , Kamil Feridun Turkman1
1
CEAUL, {eugenursu,kfturkman}@fc.ul.pt
Abstract: A periodic autoregressive model (PAR) extends the classical autoregressive (AR) model
by allowing the parameters to vary with seasons. Selecting PAR time series models can be computationally expensive and the results are not always satisfactory. We propose a new automatic
procedure to the model selection problem by using the genetic algorithm. The Bayesian information criterion (BIC) is used as a tool to identify the order of the PAR model. The success of the
proposed procedure is illustrated in a small simulation study, and an application with monthly data
is presented.
Keywords: Periodic time series, identification, genetic algorithms
Periodic models
A periodic autoregressive (PAR) model extends the classical autoregressive (AR) model by allowing
the autoregressive parameters to vary with the seasons. Let Y = {Yt , t ∈ Z} be a periodic autoregressive (PAR) stochastic process:
p(ν )
Yns+ν =
∑ φk (ν )Yns+ν −k + εns+ν ;
(1)
k=1
for fixed ν and predetermined value s, the random variable Yns+ν denotes the realization during the
ν th season, with ν ∈ {1, . . . ,s}, at year n, n ∈ Z. The autoregressive model order at season ν is
given by p(ν ), and φk (ν ), k = 1, . . . ,p(ν ), are the autoregressive model coefficients during season
ν , ν = 1, . . . ,s. The error process ε = {εt , t ∈ Z} in (1) corresponds to a zero mean periodic white
noise, that is E(εt ) = 0 and Var(εns+ν ) = σ 2 (ν ) > 0, ν = 1, . . . ,s.
Various selection criteria using AIC or BIC can be employed for PAR model identification. One
possible way is to employ the BIC selection criteria separately for each of the seasonal components,
thus defining the overall BIC criterion as
s
BIC =
∑ BIC(ν ),
(2)
ν =1
with
log(N)
(3)
p(ν ),
N
where ε̂ns+ν , n = 0, . . . ,N − 1 denote the residuals of the adjustment, σ̂ (ν ) corresponds to the least
squares estimators of σ (ν ), and p(ν ) represents the number of autoregressive parameters in the
BIC(ν ) = log σ̂ 2 (ν ) +
SPE 2011
55
Quinta, 29/09/2011
Sessão de POSTERS I
Átrio do Café, 10:00–10:30
season ν . The problem with this piecewise identification method is that the number of possible
model may become excessively large especially for monthly or weekly data, so a random search
algorithm may have to be employed. We suggest the Genetic Algorithm (GA) as a possible solution
to this problem.
Applying GA to the identification problem
A large number of possible solutions of the periodic autoregressive identification problem suggests
that a GA will be useful in efficient examination of the space of solutions and select the combination
of parameters that corresponds to the best model.
While using GA approach, string representations for chromosomes have to be provided. Since the
identification will be made for each of the separate periods, one gene for each possible lag will
be reserved, filling it with 1 if the parameter is free, and with 0 if the parameter is constrained to
zero. The resulting string represents the chromosome. For example, if we take s = 4, ν = 1 and the
maximum order equal to 15, the following model
Y4n+1 = φ6 (1)Y4n + φ7 (1)Y4n−1 + ε4n+1
is represented in terms of the chromosome
000001100000000.
Upon deciding on encoding, a fitness function has to be specified. BIC for each period given in
equation (3) cannot be implemented directly as fitness function (which has to be maximized), as the
proposed criterion has to be minimized. However, a simple linear transformation (Goldberg, 1989;
Gaetan, 2000)
f j (ν ) = M + 1 − BIC j (ν ),
(4)
where BIC j (ν ) is the BIC(ν ) value for the jth chromosome in the current population and M is the
maximum value of the current BIC(ν ) in the current population, is a proper fitness function.
GA starts with an initial population of chromosomes generated at random. In this paper, the tournament selection method is used, since it is computationally more efficient (Mitchell, 1996). The
crossover probability Pc describes how often crossovers will be performed. The probability of a
crossover occurring in the interval (0.5, 0.9) is usually high. Hence, upon studying many variants
of the crossover method found in the literature, the uniform crossover with Pc = 0.8 was found to
be adequate. The probability of mutation Pm is usually assumed small, often taken in the interval
(0.001, 0.1). Larger values turn the GA to a random search. We chose Pm = 0.01.
Bibliography
[1] Gaetan, C. (2000). Subset ARMA model identification using genetic algorithms. Journal of
Time Series Analysis, 21, 559–570.
[2] Goldberg, D.E. (1989). Genetic Algorithms in Search, Optimization & Machine Learning,
Addison-Wesley.
[3] Mitchell, M. (1996). An Introduction to Genetic Algorithms. MIT Press.
SPE 2011
56
Quinta, 29/09/2011
Séries Temporais I
Sala Premium, 10:30–11:30
Músicos e crianças: Caracterização de séries de tapping bimanual
Ana Diniz1 , Inês Faria2 e João Barreiros1
1
2
CIPER, FMH, Universidade Técnica de Lisboa, {adiniz,jbarreiros}@fmh.utl.pt
Centro de Recursos para a Inclusão de Almeirim, [email protected]
Resumo: A percepção do tempo é um tema vital já que muitos movimentos humanos partilham o
objectivo de coordenar o movimento com o tempo. Este processo é influenciado por diversos factores tais como a idade, a experiência, etc. Um delineamento experimental usual consiste na produção
de movimentos rı́tmicos (tapping) com intervalos isócronos. O elemento de interesse é a série de
intervalos inter-resposta. Neste trabalho avaliou-se 5 adultos músicos e 23 crianças sem formação
musical numa tarefa rı́tmica e estudou-se as séries de intervalos entre respostas consecutivas.
Palavras–chave: Série temporal, processo estocástico, controlo motor, tarefa de tapping
Introdução
A percepção do tempo e a sua incorporação nos movimentos humanos é um processo fundamental
e que conjuga aspectos maturacionais e aspectos comportamentais. Este é um processo demorado
e que, em geral, só encontra pontos de estabilidade após as fases da infância. O sistema é também
sensı́vel à experiência, como se pode observar pela capacidade acrescida em músicos [3]. Os estudos
sobre este tema envolvendo crianças saudáveis são raros, em contraste com as investigações em
adultos que são vastas e variadas (e.g., [1], [2]).
Os delineamentos experimentais para medir a estabilidade temporal têm visado a produção de movimentos rı́tmicos com as mãos (tapping) com intervalos isócronos. Estas tarefas permitem o registo
de medidas precisas com instrumentos simples e têm sido utilizadas há mais de 100 anos [4]. As
tarefas rı́tmicas levam à produção de séries de intervalos inter-resposta cujo estudo é de grande interesse teórico e prático. Em particular, a modelação deste tipo de séries permite a caracterização
de populações especiais e a identificação de competências individuais com inúmeras finalidades.
Amostra e dados
Neste estudo considerou-se uma amostra de conveniência composta por 5 adultos, músicos percussionistas, com idade média de 28.0 anos e 23 crianças do 1o ano de escolaridade sem necessidades
educativas especiais, sem formação musical, com idade média de 6.8 anos.
A tarefa consistiu na percussão bimanual alternada numa superfı́cie lisa (tapping bimanual), com
captação do som de impacto por um microfone ligado a um computador. O procedimento foi o
de sincronização-continuação, isto é, cada participante foi instruı́do para bater na superfı́cie em
simultâneo com sinais sonoros (20 batimentos) e depois continuar a bater com o mesmo ritmo
SPE 2011
Mesa: M. Manuela Neves
57
Quinta, 29/09/2011
Séries Temporais I
Sala Premium, 10:30–11:30
sem referência sonora (130 batimentos). Os intervalos-alvo foram 300 ms e 600 ms e cada sujeito
realizou a tarefa com os dois intervalos numa ordem aleatória. Os valores registados foram os
intervalos de tempo It entre batimentos consecutivos.
Métodos e resultados
O estudo das séries temporais obtidas incidiu sobre as séries totais (direita-esquerda, esquerdadireita, ...) e sobre algumas séries parciais (direita-esquerda, direita-esquerda, ... e direita-direita,
direita-direita, ...) de cada indivı́duo. A análise começou pela representação gráfica das séries
individuais e pelo cálculo de caracterı́sticas amostrais. Em seguida efectuou-se a modelação das
séries individuais através de processos estacionários e não estacionários. Por fim procedeu-se à
identificação de padrões nas séries das crianças com base em medidas relevantes. Os resultados
sugerem diferenças comportamentais fortes entre adultos e crianças e entre crianças entre si.
A Figura 1 mostra as séries totais de intervalos inter-resposta de um adulto e de uma criança com
intervalos-alvo de 300 ms e de 600 ms.
700
Intervalo (ms)
Intervalo (ms)
400
(a)
350
300
250
200
0
20
40
60
80
Batimento
100
120
400
300
200
100
550
0
20
40
60
80
Batimento
100
120
140
800
Intervalo (ms)
Intervalo (ms)
500
(c)
600
500
140
(b)
650
0
20
40
60
80
Batimento
100
120
140
(d)
700
600
500
400
0
20
40
60
80
Batimento
100
120
140
Figura 1: (a) Série de intervalos do adulto A1 com intervalo-alvo de 300 ms; (b) Série de intervalos
do adulto A1 com intervalo-alvo de 600 ms; (c) Série de intervalos da criança C1 com intervalo-alvo
de 300 ms; (d) Série de intervalos da criança C1 com intervalo-alvo de 600 ms.
Bibliografia
[1] Delignières, D. e Torre, K. (2009). Vers une nécessaire prise en compte de la complexité:
variabilité et fractalité dans la motricité rythmique. Intellectica, 52, 41–54.
[2] Diniz, A., Barreiros, J. e Crato, N. (2010). Parameterized estimation of long-range correlation
and variance components in human serial interval production. Motor Control, 14, 26–43.
[3] Repp, B.H. (2010). Sensorimotor synchronization and perception of timing: effects of music
training and task experience. Human Movement Science, 29, 200–213.
[4] Stevens, L.T. (1886). On the time-sense. Mind, 11, 393–404.
SPE 2011
Mesa: M. Manuela Neves
58
Quinta, 29/09/2011
Séries Temporais I
Sala Premium, 10:30–11:30
Alterações dos padrões de sazonalidade ao longo do ciclo da
procura turı́stica
Pedro M.D.C.B. Gouveia
Universidade do Algarve - ESGHT, CIITT, CASEE, [email protected]
Resumo: Na última década, a literatura económica tem analisado a relação entre sazonalidade
e ciclo económico. Com efeito, tem sido possı́vel obter evidência de alterações nos padrões de
sazonalidade ao longo do ciclo económico em variáveis económicas como o Índice de Produção
Industrial (vide, inter alia, Matas Mir e Osborn, 2004). Este trabalho estende várias abordagens de
datação do ciclo económico (e.g. ciclo clássico, ciclo de desvio e ciclo em taxas de crescimento)
a variáveis da procura turı́stica em Portugal e é pioneiro no estudo da existência de interacção
entre os padrões de sazonalidade e o ciclo económico. Ou seja, este estudo procura evidência de
comportamento assimétrico na sazonalidade em função das fases do ciclo da procura turı́stica, sendo
espectável um efeito sazonal mais forte em perı́odos de recessão.
Neste artigo, para efeitos do tratamento de dados são utilizados dados com frequência mensal publicados pelo Instituto Nacional de Estatı́stica (INE) relativamente ao número de dormidas de hóspedes
na hotelaria e estabelecimentos similares entre 1968 e Fevereiro de 2011 para o Algarve, Madeira,
Lisboa, Total de Portugal, segundo os principais mercados emissores.
Em termos metodológicos, e no sentido de captar este tipo de não-linearidade nos coeficientes sazonais, são utilizados modelos autorregressivos de tipo Threshold (TAR - Threshold Autorregressive).
Os modelos não - lineares têm sido usados para caracterizar variáveis económicas ou séries financeiras que apresentam comportamentos assimétricos que, em muitos casos, estão associados às fases
de expansão e de recessão do ciclo. Os modelos Threshold introduzidos por Tong (1978) e Tong e
Lim (1980) e extendidos por Tong (1983, 1990) e Hansen (1997) constituem um tipo de modelos
não lineares que tem sido objecto de um interesse crescente na literatura (vide, inter alia, Hansen
1997, Caner e Hansen 2001, Fanses e van Dijk, 2005).
Os resultados obtidos permitem obter evidência de não linearidade no comportamento sazonal da
procura turı́stica, em função das fases do ciclo económico. Os padrões de não-linearidade diferem
de acordo com o tipo de ciclo considerado (ciclo clássico, de desvio ou em taxas de crescimento) e
da forma como é definida a função indicadora do ciclo económico, particularmente em termos do
desfasamento temporal considerado.
A abordagem proposta neste artigo pode constituir um instrumento de apoio à decisão de entidades públicas e privadas permitindo, em cada momento, um melhor ajustamento entre a procura e
a oferta turı́stica. De facto, esta metodologia permite estimar o efeito de um perı́odo de recessão
sobre o peso de cada mês, estação do ano ou época turı́stica no total de dormidas anuais.
Palavras–chave: Sazonalidade, ciclo económico, modelos TAR, não-linearidade
SPE 2011
Mesa: M. Manuela Neves
59
Quinta, 29/09/2011
Séries Temporais I
Sala Premium, 10:30–11:30
Bibliografia
[1] Caner, M e Hansen, B.E. (2001). Threshold autoregression with a unit root. Econometrica, 69,
1555-1596.
[2] Franses, P.H. e van Dijk, D. (2005). The forecasting performance of various models for seasonality and nonlinearity for quarternly. Production, International Journal of Forecasting, 21,
2005 87-102.
[3] Hansen, B.E. (1997). Threshold inference in TAR models. Studies in Non-linear Dynamics
and Econometrics, 2, 1-14.
[4] Matas-Mir, A. e Osborn, D.R. (2004). Does seasonality change over the business cycle? An
investigation using monthly industrial production series. European Economic Review, 48,
1309-1332.
[5] Tong, H. (1978), Pattern Recognition and Signal Processing. Amsterdam: Sijthoff & Noordhff.
[6] Tong, H. (1983). Threshold inference in TAR models. Springer and Verlag, Lectures Notes in
Statistics, 21.
[7] Tong, H. (1990), Linear Time Series: A Dynamical Systems Approach. Oxford: Oxford University Press.
[8] Tong, H. e Lim, K.S. (1980). Threshold autoregressions, limit cycles and data. Springer Journal of the Royal Statistical Society, B 42, 245-92.
SPE 2011
Mesa: M. Manuela Neves
60
Quinta, 29/09/2011
Séries Temporais I
Sala Premium, 10:30–11:30
Análise espectral singular no estudo do número de vı́timas
mortais em acidentes de viação em Portugal Continental
Fernando Sebastião1 , Irene Oliveira2
1
Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Leiria, CM-UTAD,
[email protected]
2 Universidade de Trás-os-Montes e Alto Douro, CM-UTAD, [email protected]
Resumo: A segurança rodoviária, nas últimas décadas, tem constituı́do matéria relevante para o
acompanhamento constante por parte das autoridades nacionais responsáveis, com vista a uma
redução permanente dos nı́veis de sinistralidade. Os números da mortalidade em acidentes de viação
representam um dos aspectos que tem merecido uma análise cuidada por parte das autoridades competentes.
Neste trabalho pretende-se explorar os valores mensais do número de vı́timas mortais resultantes
dos acidentes de viação ocorridos em Portugal Continental, obtidos nos últimos treze anos, através
da técnica da Análise Espectral Singular.
Palavras–chave: Acidentes de viação, análise espectral singular, componentes principais, mortalidade rodoviária, séries temporais
Descrição do trabalho
Uma extensão da Análise em Componentes Principais é a designada Análise Espectral Singular
(SSA), a qual geralmente apresenta resultados que são considerados muito satisfatórios na análise
de uma série temporal, nomeadamente nos casos em que os dados ostentam uma estrutura mais
complexa como por exemplo em séries com várias componentes sazonais. O principal objectivo da
SSA é decompor uma série de dados original num pequeno número de componentes de forma a que
seja possı́vel interpretar a tendência e as componentes oscilatórias, desprezando a estrutura de ruı́do
subjacente.
No ano de 2001, segundo a proposta da Comissão Europeia sobre a polı́tica europeia de transportes,
pretendia-se que a União Europeia tivesse como meta a redução para metade das vı́timas mortais nas
suas estradas até ao ano de 2010. Estas preocupações presentes na polı́tica de segurança rodoviária
nacional, nas últimas décadas, têm contribuı́do para que a sinistralidade rodoviária em Portugal
tenha cada vez menos impacto na sociedade e como consequência têm-se vindo a verificar uma
diminuição bastante significativa da mortalidade resultante dos acidentes de viação.
A análise do comportamento do número de vı́timas mortais provenientes dos acidentes de viação
permite uma melhor percepção da influência das polı́ticas adoptadas nos últimos anos, e pode contribuir para um planeamento de novas polı́ticas de sensibilização, de prevenção e de aplicação de
legislação.
Neste trabalho procederemos a uma breve descrição da técnica da SSA (Elsner e Tsonis, 1996;
Golyandina et al., 2001 e Hassani, 2007) e apresentaremos o estudo da série mensal do número
SPE 2011
Mesa: M. Manuela Neves
61
Quinta, 29/09/2011
Séries Temporais I
Sala Premium, 10:30–11:30
de vı́timas mortais em acidentes de viação ocorridos em Portugal Continental entre os anos de
1998 e 2010. As componentes essenciais para a reconstrução da série dos dados originais, que
permitem descrever o sinal através das componentes oscilatórias e da tendência, serão analisadas e
utilizadas posteriormente para prever valores da mortalidade rodoviária mensal através do algoritmo
de previsão recorrente descrito detalhadamente em Golyandina et al. (2001). Paralelamente, será
efectuada uma pequena abordagem às principais legislações nacionais introduzidas ultimamente em
matéria de segurança e prevenção rodoviárias, assim como uma comparação em termos de evolução
do número de vı́timas mortais em acidentes de viação com outros paı́ses europeus.
Bibliografia
[1] Elsner, J.B. e Tsonis, A.A. (1996). Singular Spectrum Analysis. A New Tool in Time Series
Analysis, New York, Plenum Press.
[2] Golyandina, N.E., Nekruktin, V.V. e Zhigljavsky, A.A. (2001). Analysis of Time Series Structure: SSA and Related Techniques. Chapman & Hall, Boca Raton.
[3] Hassani, H. (2007). Singular spectrum analysis: Methodology and comparison. Journal of
Data Science, 5, 239-257.
SPE 2011
Mesa: M. Manuela Neves
62
Quinta, 29/09/2011
Inferência Estatı́stica I
Sala Dinastia, 10:30–11:30
Uma avaliação experimental de diferentes metodologias estatı́sticas de dados de microarrays
Sara Roque1 , Adelaide Freitas1 e Laura Carreto2
1
2
Departamento de Matemática - Universidade de Aveiro, {a32958, adelaide}@ua.pt
Departamento de Biologia - Universidade de Aveiro, [email protected]
Resumo: Nos últimos anos têm sido desenvolvidas diversas técnicas estatı́sticas com vista à análise
de dados de microarrays. Considerando quatro diferentes metodologias estatı́sticas sobre cinco
bases de dados de microarrays, analisámos os resultados obtidos pelos métodos aplicados. Em
diversos casos, as diferentes metodologias forneceram proporções de genes diferencialmente expressos muitos semelhantes. No entanto, quando comparámos estes genes, um a um, apenas uma
menor parte destes genes são comuns entre metodologias.
Palavras–chave: Nı́vel de expressão genética, microarrays, SAM, modelos lineares, métodos
empı́ricos de Bayes, rank products
Introdução e Resultados
Nas últimas décadas, diversas metodologias estatı́sticas para a análise de genes diferencialmente
expressos têm vindo a ser desenvolvidas. No entanto, frequentemente na prática apenas uma metodologia é aplicada quando se pretende efectuar uma análise de dados de microarrays, não existindo, em grande parte dos casos, uma justificação estatı́stica para a aplicação do método escolhido.
Aplicámos 4 metodologias estatı́sticas a 5 bases de dados, validando os pressupostos. Para a análise
referida foram escolhidas metodologias com diferentes abordagens estatı́sticas: (1) a metodologia
SAM ([1], implementada no pacote ) que quantifica, para cada gene, a influência da(s) classe(s)
no nı́vel de expressão genética através do valor de uma estatı́stica de teste e estima a taxa das falsas
descobertas fazendo uso de repetidas permutações dos dados; (2) os modelos lineares para análise
de microarrays ([2], implementados no pacote limma) que assumem um modelo linear ajustado
a cada gene; (3) os métodos empı́ricos de Bayes paramétricos para análise de microarrays ([3, 4],
implementados no pacote EBarrays) os quais podemos tomar um de três modelos: Log-NormalNormal, Gamma-Gamma e Log-Normal-Normal com variância modificada, para cada gene; e, por
fim, (4) a metodologia Rank Products ([5], implementada no pacote RankProd) baseada nas ordens das fold changes. Todas estas metodologias estão implementadas na linguagem R e, à excepção
do pacote samr, todos os pacotes foram obtidos do Bioconductor.
Para o presente estudo experimental foram consideradas 4 bases de dados de microarrays conhecidas na literatura, de acesso livre na Internet, e uma base recentemente criada no Laboratório de
microarrays da Universidade de Aveiro contendo 14 microarrays com os nı́veis de expressão de
6388 genes. As primeiras 4 bases de dados foram: (1) a ApoAI [6], constituı́da por 16 microarrays
(8 obtidos de ratos cujo gene em causa está activo e 8 cujo gene não está activo) e 6382 genes; (2)
a base de dados de Golub [7], formada por 38 microarrays da Affymetrix obtidos de amostras de
medula óssea de pacientes com dois tipos de leucemia aguda (27 de um tipo e 11 de outro); (3) a
Lymphoma [8] tendo sido considerados os nı́veis de expressão de 7079 genes para 77 microarrays
(68 obtido de indivı́duos em condições normais e 9 obtidos de indivı́duos com diffuse large B-cell
lymphoma); e, por último, (4) a colonCA [9] que contém 62 microarrays da Affymetrix (40 obtidos
de indivı́duos com tumor no cólon e 22 de indivı́duos em condições normais) e 2000 genes.
SPE 2011
Mesa: Russel Alpizar-Jara
63
Quinta, 29/09/2011
Inferência Estatı́stica I
Sala Dinastia, 10:30–11:30
Verificou-se que apesar de, na maioria dos casos, o número de genes diferencialmente expressos
não sofrer grandes alterações entre metodologias, o número de genes comuns às metodologias, duas
a duas, sofre uma considerável redução, mesmo considerando uma taxa de falsas descobertas suficientemente baixa garantindo que as discrepâncias entre genes diferencialmente expressos e genes
diferencialmente expressos comuns não se devem ao nı́vel da taxa de falsas descobertas considerada.
Estas discrepâncias alertam para a necessidade de se estabelecer um procedimento que permita ao
biólogo identificar qual o método que conduz a resultados mais fiáveis para determinada base de
dados.
Agradecimentos: AF agradece à CIDMA (Universidade de Aveiro) o apoio financeiro concedido.
Bibliografia
[1] Alizadeh, A.A., Eisen, M.B. Davis, R.E. Ma, C. Lossos, I.S. Rosenwald, A. Boldrick, J.C.
Sabet, H., Tran, T., Yu, X. Powell, J.I., Yang, L., Marti, G.E., Moore, T., Hudson, J., Jr, Lu,
L. Lewis, D.B. Tibshirani, R., Sherlock, G. Chan, W.C., Greiner, T.C., Weisenburger, D.D.
Armitage, J.O., Warnke, R., Levy, R., Wilson, W., Grever, M.R., Byrd, J.C., Botstein, D.,
Brown, P.O. e Staudt, L.M. (2000). Distinct types of diffuse large B-cell lymphoma identified
by gene expression profiling, NATURE, 403, 503–511.
[2] Breitling R., Armengaud P., Amtmann A. e Herzyk P. (2004). Rank products: a simple, yet
powerful, new method to detect differentially regulated genes in replicated microarray experiments, FEBS Lett.,573(1–3), 83–92.
[3] Callow, M.J., Dudoit, S., Gong, E.L., Speed, T.P. e Rubin, E.M. (2000). Microarray expression
profiling identifies genes with altered expression in HDL deficient mice. Genome Research,
10, 2022–2029.
[4] Efron, B., Tibshirani, R., Storey, J.D. e Tusher, V. (2001). Empirical Bayes analysis of a
microarray experiment, J. Am. Stat. Assoc., 96, 1151–1160.
[5] Golub, R., Slonim, D.K. Tamayo, P. Huard, C. Gaasenbeek, M. Mesirov, J.P. Coller, H. Loh,
M.L. Downing, J.R. Caligiuri, M.A. Bloomfield, C.D. e Lander, E.S. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286, 531–537.
[6] Kendziorski, C.M., Newton, M.A., Lan, H. e Gould, M.N. (2003). On parametric empirical
Bayes methods for comparing multiple groups using replicated gene expression profiles. Statistics in Medicine, 22, 3899–3914.
[7] Smith, G.K. (2004). Linear models and empirical Bayes methods for assessing differential
expression in microarray experiments, Statistical Applications in Genetics and Molecular Biology 3, No.1, Article 3.
[8] Tusher, V.G., Tibshirani, R. e Chu, G. (2001). Significance analysis of microarrays applied to
the ionizing radiation response, Proc. Natl. Acad. Sci. USA, 98, 5116–5121.
[9] Alon, U., Barkai, N., Notterman, D.A., Gish, K., Ybarra, S., Mack, D. e Levine, A.J. (1999).
Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon
tissue probed by oligonucleotide arrays. Proc. Natl. Acad. Sci. USA 96, 6745–6750.
SPE 2011
Mesa: Russel Alpizar-Jara
64
Quinta, 29/09/2011
Inferência Estatı́stica I
Sala Dinastia, 10:30–11:30
Comparison of statistical methods for the identification of the
genetic basis of plant responses to stress
Paulo C. Rodrigues1,2 , Marcos Malosetti2 , Martin Boer2 , Hugh G. Gauch3 e Fred van Eeuwijk2
1
Faculdade de Ciências e Tecnologia, Universidade Nova de Lisboa, Portugal,
[email protected]
2 Biometris, Wageningen University, The Netherlands,
3 Crop and Soil Sciences, Cornell University, NY, USA,
Abstract: A different response of genotypes across environments (location by year combinations) is frequent in multi-environment trials and is known as genotype by environment interaction
(GEI). When the analysis is made in the whole genome, the interactions of interest are between
QTL (quantitative trait loci) and environment (QEI). The study and understanding of these interactions is a major challenge in plant breeding and genetics. Within the last years the mixed models
methodology has proven to be a powerful method to detect QTL and QEI, because of its ability to
account for heterogeneity of variance often present in multi-environment trials [1, 5].
In this paper we propose an alternative to this methodology which can be performed with standard
statistical software. The approach presented here is a generalization of the AQ analysis (AMMI
analysis followed by QTL scans) in [2], in which we now account for genetic and error variances. It
is based on weighted singular value decomposition (SVD) of the GEI data matrix and is conducted
in three stages: (i) compute the weights for each environment based on the error variances; (ii)
present and apply an adaptation of the additive main effects and multiplicative interaction (AMMI)
model where the SVD is replaced by a weighted low rank SVD; and (iii) perform a QTL scan
using the predictions from the weighted AMMI model as response. This approach can potentially
improve the power for QTL detection as it uses genotypic predictions as response variable. The
environments can then be ordered by AMMI parameters that summarize GEI and QEI information
in order to reveal consistent patterns and systematic trends that often can be explained in terms of
environmental conditions.
The proposed methodology is compared with the standard mixed models approach [1, 5] by using
two data sets. One about preharvest sprouting scores of a biparental wheat (Triticum aestivum L.)
population from 17 environments spread over six years [6], and other about yield for a doubled
haploid barley (Hordeum vulgare L.) population tested in 16 environments spread over two years,
and the first product of the North American Barley Genome Mapping Project [3, 4].
Keywords: Genotype by environment interactions, QTL by environment interactions, mixed models, AMMI models, low rank approximations
Bibliography
[1] Boer, M.P., Wright, D., Feng, L.Z., Podlich, D.W., Luo, L., Cooper, M. and van Eeuwijk, F.A.
(2007). A mixed-model quantitative trait loci (QTL) analysis for multiple-environment trial
SPE 2011
Mesa: Russel Alpizar-Jara
65
Quinta, 29/09/2011
Inferência Estatı́stica I
Sala Dinastia, 10:30–11:30
data using environmental covariables for QTL-by-environment interactions, with an example
in maize. Genetics, 177, 1801–1813.
[2] Gauch, H.G., Rodrigues, P.C., Munkvold, J.D., Heffner, E.L. and Sorrells, M. (2011). Two new
strategies for detecting and understanding QTL x Environment interactions. Crop Science, 51,
96–113.
[3] Hayes, P.M., Chen, F.Q., Kleinhofs, A., Kilian, A. and Mather, D.E. (1996). Barley genome
mapping and its applications. Em Method of Genome Analysis in Plants (Jauhar, P.P.,eds),
229–249, CRC press, Boca Raton, Florida.
[4] Hayes, P.M., Liu, B.H., Knapp, S.J., Chen, F., Jones, B., Blake, T., Franckowiak, J., Rasmusson, D., Sorrells, M., Ullrich, S.E., Wesenberg, D. and Kleinhofs, A. (1993). Quantitative
trait locus effects and environmental interaction in a sample of North-American Barley Germ
Plasm. Theoretical and Applied Genetics, 87, 392–401.
[5] Malosetti, M., Voltas, J., Romagosa, I., Ullrich, S.E. and van Eeuwijk, F.A. (2004). Mixed
models including environmental covariables for studying QTL by environment interaction.
Euphytica, 137, 139–145.
[6] Munkvold, J.D., Tanaka, J., Benscher, D. and Sorrells, M.E. (2009). Mapping quantitative trait
loci for preharvest sprouting resistance in white wheat. Theoretical and Applied Genetics, 119,
1223–1235.
SPE 2011
Mesa: Russel Alpizar-Jara
66
Quinta, 29/09/2011
Inferência Estatı́stica I
Sala Dinastia, 10:30–11:30
Testes à presença de autocorrelação usando a regressão de
Gauss-Newton
Efigénio Rebelo1 , Patrı́cia Oom do Valle1 e Rui Nunes1
1
Faculdade de Economia da Universidade do Algarve, {elrebelo, pvalle, rnunes}@ualg.pt
Resumo: Este trabalho deduz dois tipos de testes à autocorrelação tendo por base uma metodologia
assente numa regressão auxiliar, denominada de regressão de Gauss-Newton. Ambos os testes são
deduzidos em dois contextos particulares: no caso em que a função de regressão não contém valores
contemporâneos de variáveis endógenas, situação em que se recorre ao método dos mı́nimos quadrados não lineares (MMQNL); no caso em que a função de regressão contém valores contemporâneos
de variáveis endógenas, situação em que se utiliza o método das variáveis instrumentais. O primeiro
teste que se apresenta tem por objectivo identificar a presença de autocorrelação, seja ela genuı́na
ou não. O segundo teste apresentado visa distinguir a autocorrelação genuı́na da autocorrelação não
genuı́na, sendo esta última uma evidência de má especificação. O presente trabalho mostra também
que este segundo teste, designado por teste ao factor comum, pode ser deduzido como um teste do
χ 2 ou como um teste t.
Palavras–chave: Autocorrelação, regressão de Gauss-Newton.
SPE 2011
Mesa: Russel Alpizar-Jara
67
Quinta, 29/09/2011
Controlo de Qualidade
Sala Caminho Real, 10:30–11:30
Ordenação estocástica na avaliação qualitativa do desempenho de esquemas conjuntos para processos bivariados
Patrı́cia Ferreira Ramos1 , Manuel Cabral Morais2 , António Pacheco2 e Wolfgang Schmid3
1
CEMAT, IST, [email protected]
CEMAT e DM, IST, {maj, apacheco}@math.ist.utl.pt
3 Department of Statistics, European University Viadrina, [email protected]
2
Resumo: Ao utilizar um esquema conjunto para controlar o vector de médias µ e a matriz de
covariâncias Σ de um processo bivariado, é comum ocorrerem sinais erróneos. Estes correspondem a
sinais válidos que levam à interpretação errada de uma alteração em µ (resp. Σ) como uma alteração
em Σ (resp. µ ).
Na sequência de um trabalho anterior, que se centrou na avaliação quantitativa das probabilidades de
ocorrência de sinais erróneos em esquemas conjuntos para processos bivariados, fazemos agora uso
da ordenação estocástica para avaliar qualitativamente o impacto de alterações em µ ou Σ naquelas
probabilidades e outras medidas de desempenho.
Palavras–chave: Controlo estatı́stico de processos, sinais erróneos, processos bivariados, esquemas conjuntos
SPE 2011
Mesa: Paulo Infante
69
Quinta, 29/09/2011
Controlo de Qualidade
Sala Caminho Real, 10:30–11:30
O revisitar de um método adaptativo em controlo estatı́stico
da qualidade
Manuel do Carmo1 , Paulo Infante2 e Jorge Mendes3
1
ISLA Campus Lisboa, [email protected]
Universidade de Évora, CIMA–UE, [email protected]
3 ISEGI – UNL, CEGI, [email protected]
2
Resumo: Neste trabalho, propomo-nos revisitar um esquema adaptativo em controlo da qualidade,
que obtém os instantes de amostragem recorrendo à função densidade da distribuição normal padrão
calculados para os valores obtidos da média amostral. Para tal, propomos não só considerar outras cartas de controlo e/ou estatı́sticas amostrais, mas também analisar o desempenho deste esquema adaptativo quando se consideram outras funções densidade de probabilidade, como as das
distribuições de Laplace, t-Student e Logı́stica. Devido à forma das referidas distribuições e, em
particular, às suas caudas mais pesadas, o método pode ganhar em aplicabilidade e revelar-se mais
eficaz, para determinadas alterações da qualidade, quando comparado com o método de amostragem
clássico e com outros métodos de amostragem adaptativa e até mesmo quando se utiliza a função
densidade original.
Palavras–chave: Amostragem adaptativa, cartas de controlo, AATS
Introdução
A melhoria da qualidade de um qualquer produto ou serviço está sempre associada a uma redução
da variabilidade de caracterı́sticas da qualidade associadas a esse produto ou serviço. A carta de
controlo é a ferramenta estatı́stica de eleição para atingir este objectivo, pois permite a distinção
entre a variabilidade inerente ao processo e a variabilidade oriunda de algo externo. Consequentemente, a selecção do tipo de carta de controlo a utilizar num dado contexto e o subjacente processo
de amostragem, onde podemos incluir a determinação dos parâmetros associados a essa carta, assumem uma primordial importância. Nas cartas Shewhart clássicas, os instantes de amostragem,
os tamanhos das amostras e os limites de controlo são fixos durante todo o processo. Na literatura, a carta de controlo com este procedimento é usualmente designada por carta FSI (Fixed
Sampling Intervals). As cartas de controlo usando este esquema de amostragem são pouco eficazes
na detecção de alterações pequenas e moderadas. Reynolds et al. (1988) apresentaram um esquema
de amostragem adaptativo com dois intervalos de tempo para a recolha das amostras designado por
VSI (Variable Sampling Intervals). Vários foram os esquemas de controlo adaptativos que desde
então foram apresentados e analisados, uns com um, outros com dois e até mesmo um com os
três parâmetros adaptativos (instantes de amostragem, tamanho das amostras e múltiplo do desvio
padrão nos limites de controlo). Esta temática continua a merecer grande interesse por parte dos investigadores e recentemente Mahadik e Shirke (2009) apresentaram uma metodologia que usa dois
intervalos de amostragem e três dimensões amostrais designada por SVSSI (Special Variable Sample Size and Sampling Intervals). Rodrigues Dias (1999) apresenta uma metodologia recorrendo à
função densidade de probabilidade da variável normal reduzida para obter intervalos de amostragem
SPE 2011
Mesa: Paulo Infante
71
Quinta, 29/09/2011
Controlo de Qualidade
Sala Caminho Real, 10:30–11:30
(NSI – Normal Sampling Intervals), sendo as suas propriedades estatı́sticas e robustez estudadas em
Infante (2004), onde o desempenho deste esquema adaptativo é comparado com o de outros.
Metodologia
Sejam µ0 e σ0 , respectivamente, a média e o desvio padrão de uma caracterı́stica da qualidade
X. Designando por ti o instante de amostragem de ordem i e por x̄i o valor médio da amostra
correspondente, de acordo com este método, o próximo instante de amostragem (de ordem i+1) é
obtido através da expressão,
(1)
ti+1 = ti + φ (ui ),
com
ui =
x̄i − µ0
√ , t0 = 0, t1 = k.φ (0), x̄0 = µ0 ,
σ0 / n
(2)
onde n representa o tamanho fixo de cada amostra, k uma constante de escala conveniente e φ (u)
é a função densidade da distribuição normal reduzida. A metodologia NSI é simples, mas a sua
aplicação prática por vezes pode tornar-se complicada. Se por um lado podem ser obtidos infinitos intervalos de amostragem, por outro esses intervalos podem ser muito pequenos e de difı́cil
aplicação. Com base na ideia subjacente à metodologia NSI, propomos um método onde os intervalos de amostragem são obtidos através de uma função densidade de probabilidade com abas mais
pesadas. Um boa escolha da distribuição a usar pode aumentar a eficiência estatı́stica para pequenas
alterações da qualidade e também aumentar o menor intervalo de amostragem obtido, tornando mais
exequı́vel a sua aplicabilidade prática.
Bibliografia
[1] Infante, P. (2004). Métodos de Amostragem em Controlo de Qualidade. Universidade de
Évora. Tese de Doutoramento.
[2] Mahadik, S.B. e Shirke, D.T. (2009). A special variable sample size and sampling interval X̄
chart. Communications in Statistics - Theory and Methods, 38, 1284-1299.
[3] Reynolds, M.R., Jr, Amin, R.W.; Arnold, J.C. e Nachlas, J.A. (1988). X̄ charts with variables
sampling intervals. Technometrics 30(2): 181-192.
[4] Rodrigues Dias, J. (1999). Analysis of a new method to obtain different sampling intervals
in statistical quality control. Actas do IV Congresso Galego de Estadı́stica e Investigación de
Opéracions, Universidade de Santiago de Compostela, pp. 155-158.
SPE 2011
Mesa: Paulo Infante
72
Quinta, 29/09/2011
Controlo de Qualidade
Sala Caminho Real, 10:30–11:30
Estratégias de enchimento de sacos com itens de peso
aleatório e soma constrangida
Miguel Casquilho e Fátima C. Rosa
Departamento de Eng.a Quı́mica, Instituto Superior Técnico (UTL),
{mcasquilho,fatimacoelho}@ist.utl.pt
Resumo: É problemática a obtenção, dentro de especificações, do peso total dum conjunto de n
itens com pesos aleatórios, como um saco de frutos, com o resultante n uma variável dependente
dos pesos. Neste estudo, simulou-se o peso total, como soma, constrangida às especificações, das
n variáveis aleatórias, consideradas gaussianas truncadas, para comparar estratégias de enchimento,
clássica e FIFO, aplicáveis neste contexto. A estimativa das fracções “inaptas” (truncagem, desperdı́cio e rejeição) permite a minimização do custo operatório esperado.
Palavras–chave: soma constrangida de variáveis aleatórias, variáveis dependentes, Monte Carlo
Fundamento e escopo
Encontram-se inúmeros produtos, alimentares e outros, à venda em conjuntos de itens em embalagens (sacos, caixas) de certo peso “nominal”. Sempre que os itens (unidades, ou mesmo porções)
não se podem segmentar, é problemático obter o peso “certo”, mesmo se, necessariamente, o peso
tiver de se situar dentro dum intervalo, cujos extremos são estipulados. Este é um aspecto essencial
da Qualidade e seu controle estatı́stico. Os itens, “naturais” (v. g., frutos), ainda que calibrados, ou
“artificiais” (v. g., biscoitos, porções de peixe congelado), têm pesos aleatórios. Assim, em rigor,
nunca alguém compra um saco com 2 quilos de frutos, a menos que se enuncie um intervalo para
o peso, as especificações. O limite inferior, L, é imposto por lei e tipicamente coincide com o peso
nominal; e o superior, U, provém —desejavelmente !— de exame técnico-económico.
Considerou-se que os itens na embalagem, o saco, provêm duma só população, independentes e
identicamente distribuı́dos, com o peso total, W , sujeito aos limites L e U. O número de itens, n, é
também aleatório, discreto, dependente dos pesos. Não se tratou o caso simples de n fixado (v. g., 10
biscoitos), que dificulta a conformidade às especificações, mas torna trivial o problema estatı́stico.
A questão a tratar é: (tentar) obter sacos de peso constrangido a L < W < U, provindo cada item, de
peso w, duma população gaussiana (µ , σ ) sujeita a truncagem, i. é, wa < w < wb ; e adoptando uma
certa estratégia de enchimento. Ensaiaram-se: i) estratégia clássica, em que se enche, progressivamente, cada saco até que seja W > L, mesmo que daqui resulte W > U; e ii) estratégia FIFO (“first
in first out”), em que o último item a entrar pode “expulsar” o primeiro que existia no conjunto,
evitando-se uma situação irreversı́vel. Como variante ao caso clássico, vimos numa empresa, como
pequena melhoria, o uso de uma dezena de canais paralelos optativos.
No processo, geram-se três fracções “inaptas”, com custos dados: a) fTr , fracção truncada (fora
de (wa , wb )), custo cTr ; b) fWa , fracção desperdiçada (“oferecida” ao cliente), custo cWa ; e c) fRe ,
fracção rejeitada, desvalorizada por reciclagem, custo cRe . Nos custos: cTr é a compensação ao for-
SPE 2011
Mesa: Paulo Infante
73
Quinta, 29/09/2011
Controlo de Qualidade
Sala Caminho Real, 10:30–11:30
necedor por não escoar o produto truncado; cWa iguala o preço de venda; e cRe mede o prejuı́zo por
trabalho de reciclagem. O objectivo é, obviamente, minimizar o valor esperado do custo operatório,
z = ∑ c f , ou seja, [min] z = cTr fTr + cWa fWa + cRe fRe , em que, para (µ , σ ) e truncagem dados, z se
torna, mediante fWa e fRe (dependendo fTr só da truncagem), uma função de U, a regular pelo embalador, sendo as variações de fWa e fRe opostas. (Como cTr 6= 0 apenas soma uma constante, far-se-á
nulo.) Note-se que, se for σ diminuto, “más” combinações dos parâmetros originam exagerados
fWa e fRe , pelo que a variação (Deming in [2]) nem sempre “é o inimigo da Qualidade”.
Adiante, comparam-se as estratégias de enchimento: clássica e FIFO. Afigurando-se impraticável
a via analı́tica, usou-se a simulação por Monte Carlo, cuja exigência suscitou computação paralela.
Como previsto, obtém-se no 2.o caso melhoria sensı́vel, justificando a atenção à presente temática.
Ilustração
Simularam-se as duas estratégias para observar como o custo a minimizar varia com U: zC , clássica;
zF , FIFO. Usaram-se (µ , σ ) = (250, 20) g, (wa , wb ) = (210, 295) g, L = 2000 g e c = (0; 1; 0,08). As
estratégias ilustram-se na Fig. 1 (esquerda, clássica; direita, FIFO, mediante “tubo” aberto), com os
resultados —conforme [1]— na Tab. 1, com o melhor mı́nimo para U = 2050 g e FIFO.
Tabela 1: Custo, z, em função de U ( f em %)
U
2020
2050
2080
2110
2140
Estratégia clássica
fWa
fRe 100 zC
0,50 85,7
7,35
1,17 67,4
6,57
1,67 56,5
6,19
1,97 51,6
6,09
2,20 48,7
6,10
Estratégia FIFO
fWa
fRe 100 zF
0,49 48,0
4,33
1,07 32,9
3,70
1,36 29,4
3,71
1,52 27,6
3,73
1,81 23,9
3,72
Figura 1: Estratégias clássica e FIFO
Conclusões
O enchimento de itens de peso aleatório com soma constrangida, como num saco com frutos, tem
recebido escassa atenção. Na ausência de via analı́tica, a simulação, embora computacionalmente
exigente, permite a minimização do custo operatório esperado. As estratégias comentadas são simples mas realistas e ajustáveis, coadjuvando a Qualidade através do seu controle estatı́stico.
Agradecimentos: O estudo decorreu no “Centro de Processos Quı́micos”, IST (Instituto Superior
Técnico), Universidade Técnica de Lisboa, com computação nos “clusters”: Sigma, do Centro de
Informática do IST; e Milipeia, Laboratório de Computação Avançada, Universidade de Coimbra.
Bibliografia
[1] Casquilho, M. (2011). http://web.ist.utl.pt/∼mcasquilho/compute/qc/Fx-moretubefill.php (Abr.).
[2] Gordon, D. K. (2002). Where does Quality begin ? Quality Progress, 35(3), 103–107.
SPE 2011
Mesa: Paulo Infante
74
Quinta, 29/09/2011
Aplicações I
Sala Atlântico, 10:30–11:30
Dados omissos resultantes de planned missing designs: contributo para a análise do Inquérito às Condições de Vida e
Rendimento das Famı́lias (ICOR)
Paula C. R. Vicente1 e Maria de Fátima Salgueiro2
1
2
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa,Portugal, [email protected]
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa,Portugal, [email protected]
Resumo: O Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) foi implementado
com o objectivo de assegurar a participação portuguesa na base de dados europeia EU-SILC (Statistics on Income and Living Conditions). Sendo o ICOR um painel rotativo, com uma dinâmica de
rotatividade anual de 1/4 da amostra, configura uma situação de dados omissos por desenho. Neste
artigo é realizada uma sı́ntese de diferentes planned missing designs encontrados na literatura, sendo
debatido o seu contributo para a análise do ICOR.
Palavras–chave: Painel rotativo, dados omissos, planned missing designs, ICOR
Planned missing designs e tipos de dados omissos
Um dos problemas mais comuns em estudos longitudinais, nas mais variadas áreas do conhecimento, é a existência de dados omissos. Determinar a abordagem analı́tica adequada para conjuntos de dados com observações incompletas é uma questão bastante delicada, pois a utilização de
métodos inadequados pode levar a conclusões erradas.
As omissões que podem ser encontradas em estudos com dados longitudinais são de diferentes tipos:
item non response, unit non response ou simplesmente atrito ou drop-out, caso em que os indivı́duos
abandonam o estudo. Todavia as omissões podem também resultar do desenho do estudo [7].
Num planned missing design os dados omissos ocorrem de acordo com a vontade do investigador,
sendo que o objectivo da utilização de um desenho deste tipo prende-se com o propósito de aumentar
a qualidade dos dados [1, 2]. Uma técnica muito utilizada para diminuir o número de abandonos e
aumentar o número de respostas em inquéritos na área do marketing é designada por split questionnaire design [6]. Esta técnica permite dividir um questionário longo em várias componentes, todas
com o mesmo número de variáveis, e administrar aos respondentes somente uma destas fracções,
originando assim a obtenção de dados omissos. Esta abordagem é no fundo uma extensão de um
outro conceito designado por multiple matrix sampling design, o qual tem sido aplicado em estudos
na área da educação [8]. Basicamente, através desta técnica são criados subgrupos de variáveis
de forma aleatória, afectando do mesmo modo estes subgrupos a subgrupos de indivı́duos. Este
tipo de planeamento revela-se de grande utilidade na estimação de médias populacionais. Contudo,
porque algumas combinações de itens não são observadas conjuntamente, pode não ser possı́vel a
estimação de correlações entre alguns pares de variáveis [6]. Por outro lado, os split questionnaire
design impõem algumas restrições na afectação dos itens aos respondentes.
SPE 2011
Mesa: Conceição Amado
75
Quinta, 29/09/2011
Aplicações I
Sala Atlântico, 10:30–11:30
Existem ainda outras abordagens que resultam de algumas variações dos multiple matrix sampling,
nomeadamente: i) fractional block design [5], abordagem que apesar de permitir a estimação da
correlação entre alguns pares de variáveis, apresenta a limitação de necessitar de análises especı́ficas
na área dos modelos de equações estruturais; ii) balanced incomplete blocks spiral design [3], abordagem que assegura a estimação da correlação entre todos os pares de variáveis, bem como a média
de todas as variáveis; e iii) form design [1], que tem como objectivo aumentar o número de questões
que podem ser respondidas por um indivı́duo, permitindo a estimação de todas as correlações,
médias e variâncias.
Contributo para a análise do ICOR
O ICOR resulta da participação portuguesa no EU-SILC (European Statistics on Income and Living
Conditions), que é assegurada pelo INE desde 2004 com uma periodicidade anual. Este painel
apresenta a particularidade de ser um painel rotativo com uma dinâmica de rotatividade de 1/4 da
amostra [4]. Assim, este tipo de painel configura um caso de dados omissos por desenho, uma vez
que em cada ano sai uma fracção da amostra.
Neste trabalho é apresentada uma sı́ntese da revisão de literatura realizada em termos dos diferentes
tipos de planned missing designs que têm sido propostos e das abordagens que têm sido seguidas
para lidar com os dados omissos resultantes. É ainda discutido o contributo da aplicação destas
metodologias para a análise estatı́stica dos dados do ICOR, face à natureza rotativa do painel.
Bibliografia
[1] Graham, J., Hofer, S. e Mackinnon, D. (1996). Maximizing the usefulness of data obtained
with planned missing value patterns: An application of maximum likelihood procedures. Multivariate Behavioral Research, 31, 197–218.
[2] Graham, J., Taylor, B., Olchowski, A. e Cumsille, P. (2006). Planned missing data designs in
psychological research. Psychological Methods, 11, 323-343.
[3] INE (2009). Inquérito às Condições de Vida e ao Rendimento - ICOR. Documento Metodológico.
[4] Johnson, E. (1992). The design of the National Assessment of Educational Progress. Journal
of Educational Measurement, 29, 95-110.
[5] McArdle, J. (1994). Structural factor analysis experiments with incomplete data. Multivariate
Behavioral Research, 29, 409-454.
[6] Raghunathan, T. e Grizzle, J. (1995). A split questionnaire survey design. Journal of the American Statistical Association, 90, 429, 54-63.
[7] Schaffer, J. e Graham, J. (2002). Missing data: Our view of the state of the art. Psychological
Methods, 7, 2, 147-177.
[8] Shoemaker, D. (1973). Principles and procedures of multiple matrix sampling. Cambridge,
M.A.: Bellinger Publishing.
SPE 2011
Mesa: Conceição Amado
76
Quinta, 29/09/2011
Aplicações I
Sala Atlântico, 10:30–11:30
RiD – Uma medida para o cálculo do risco de insolvência
Marco Aurélio Sanfins1 , Camila Silva1 , Danilo Monte-Mor2 , Tiago Ribeiro3
1
UFF - Universidade Federal Fluminense, [email protected], [email protected]
IFES - Instituto Federal do Espı́rito Santo, [email protected]
3 UFRRJ - Universidade Federal Rural do Rio de Janeiro, [email protected]
2
Resumo: A insegurança quanto a solvência das instituições financeiras americanas desencadeou,
no ano de 2008, a procura por alternativas alocativas que estivessem menos associadas a riscos gerenciais. Contudo devido a dificuldade de discernimento por partes dos agentes e das instituições
financeiras, o horizonte de investimento e a possibilidade de diluição dos riscos inerentes a atividade, seguiram limitados. Mesmo com a injeção direta de recursos pelo Federal Reserve, o risco
de insolvência das instituições financeiras manteve-se em patamares elevados, e instaurou-se uma
crise de confiança no sistema financeiro. Este trabalho tem por objetivo criar uma nova medida com
base no descasamento entre ativos e passivos que indique, a valor presente, o risco de insolvência
a que determinada instituição está submetida. Tendo como principal objetivo, fornecer aos analistas de mercado uma ferramenta alternativa, para análise e mensuração do risco de insolvência das
instituições financeiras.
Palavras–chave: Ativo, descasamento, passivo, probabilidade, risco de insolvência, simulação
RiD
O risco de insolvência com relação ao descasamento (RiD) é uma função que indica o risco de insolvência de uma instituição a partir da magnitude do fluxo de passivos e das quantidades absolutas
e relativas da relação entre ativos e passivos.
Seja um espaço de probabilidade onde esta contida as seguintes variáveis: Pt : Ω → R+ é a variável
aleatória que assume o valor do passivo para uma certa maturidade, calculado a valor presente no
instante de tempo t, e At : Ω → R+ é a variável aleatória que assume o valor do ativo para uma
certa maturidade, calculado a valor presente no instante de tempo t. Onde {pt1 , pt2 , ..., ptn } ⊂ R+ e
{at1 , at2 , ..., atn } ⊂ R+ são os valores em unidades monetárias que Pt e At pode assumir em n perı́odos
com maturidades distintas, respectivamente.
Definição 1. O peso atribuı́do a ocorrência de descasamento para um determinado perı́odo k em um
instante de tempo t, será dado pela função Wt (k) que assume valor igual a ocorrência da variável
aleatória Pt , ou seja,
pt
Wt (k) = n k t ,
k = 1,...,n.
∑i=1 pi
Definição 2. Seja δt : R+ × R+ → R+ definida como a função indicadora do grau de insolvência
relativa à exposição dos ativos e passivos para um determinado perı́odo em um dado instante de
tempo t, onde:
SPE 2011
Mesa: Conceição Amado
77
Quinta, 29/09/2011
Aplicações I
δt (p,a) =
Sala Atlântico, 10:30–11:30
1,
p ≥ θa
exp(p − θ a), p < θ a
onde θ ∈ [0,1] é um coeficiente de ajuste de solvência com relação ao risco de crédito a que os
ativos estão expostos.
Definição 3. O risco de insolvência com base no descasamento entre ativos e passivos de uma
instituição financeira para um determinado perı́odo k em um instante de tempo t, definido por RDt
é dado pela seguinte expressão:
n
RDt = ∑ Wt (i) × δt (pti ,ati ). ft (pti ,ati ),
k = 1,...,n
i=1
onde pti e ati representam os totais de passivos e ativos de cada um dos n perı́odos considerados,
respectivamente.
Definição 4. O risco marginal de insolvência relativo com base no descasamento entre ativos e
passivos de uma instituição financeira para um determinado perı́odo k em um instante de tempo t,
que será denotado por Rt , é dado pela variável aleatória, definida em R+ → [0,1] onde sua função
de probabilidade é dada por:
rt (k|p, a) =
e e
Wt (k) × δt (ptk ,atk ). ft (ptk ,atk )
n
∑ Wt (i) × δt (pti ,ati ). ft (pti ,ati )
,
k = 1,...,n
i=1
onde p = (pt1 , pt2 ,...,ptn ) e a = (at1 , at2 ,...,atn ) representam o vetor de passivos e ativos respectivae
e
mente para todos os n perı́odos considerados.
Bibliografia
[1] Gonçalves, R.M.L. (2005) Condicionantes do Risco de Liquidez em Cooperativas de Economia e Crédito Mútuo do Estado de Minas Gerais. Disertação de Mestrado. Universidade
Federal de Viçosa, Viçosa.
[2] Janot, M.M. (1999) Modelos de Previsão de Insolvência Bancária no Brasil: Aplicação de
Diferentes Modelos entre 1995 e 1998. Dissertação de Mestrado. Pontifı́cia Universidade
Católica do Rio de Janeiro, Rio de Janeiro.
[3] Kanitz, S.C. (1976) Indicadores contáveis e financeiros de previsão de insolvência: a experiência da pequena e média empresa brasileira.Tese (Livre Docência) 1976. Faculdade de
Economia, Administração e Contabilidade, Universidade de São Paulo, São Paulo.
[4] Martins, M.S. (2003) A Previsão de Insolvência pelo Modelo de Cox: Uma Contribuição para
a Análise de Companhias Abertas Brasileiras. Dissertação de Mestrado. Universidade Federal
do Rio Grande do Sul, Porto Alegre.
SPE 2011
Mesa: Conceição Amado
78
Quinta, 29/09/2011
Aplicações I
Sala Atlântico, 10:30–11:30
Possibilistic downside risk measures and applications
Elena Almaraz Luengo1 , Eduardo Almaraz Luengo2 and Maribel Luengo y Dos Santos3
1
Fac. CC. Matemáticas, Universidad Complutense de Madrid, [email protected]
Sta. Ana y San Rafael, [email protected]
3 Ministerio de Educación, [email protected]
2
Abstract: We study classical model of portfolio diversification in fuzzy context. We propose generalizations of this model for particular cases of rates of return and we illustrate them with numerical
examples.
Markowitz’s mean-variance model has been one of the principal methods of financial theory and
assets allocation. This model presents the investor’s problem as a mathematical programming problem. On the other hand, fuzzy theory allows us to represent the investor’s preferences, in particular
it can be used in the portfolio selection problem. Many authors have integrated these techniques and
have proposed portfolio selection problems in fuzzy environments.
Though variance has been a popular risk measure it has some limitations, one of that is that variance
considers that deviations above the mean are equally undesirable than deviations below the mean,
but in economic context, since low part deviation from the expected value means possible loss of
wealth and high part deviation from the expected value means the existence of potential return of
the investment, it has shown that semivariance can be better, as a risk measure, than variance. Due
to this fact, a new approximation is proposed, introducing the crisp possibilistic semivariance of a
fuzzy number and defining the optimization problems for that risk measure.
Fundamental concepts about fuzzy numbers and the principal portfolio selection problems will be
described. Some mean-semivariance models are particularized in some specific cases and numerical
examples will be provided as an illustration.
Keywords: Fuzzy number, mean-variance model, portfolio selection, semi-variance
Bibliography
[1] Almaraz, E. (2010). Fuzzy Mean-Variance portfolio selection problems. Advanced Modelling
and Optimization, 12(3), 399–410.
[2] Carlsson, C. and Fuller, R.A. (2001). On possibilistic mean value and variance of fuzzy numbers. Fuzzy Sets and Systems, 122, 315–326.
[3] Chen, G., Chen, S., Fang, Y. and Wang, S. (2006). A possibilistic Mean VaR Model for Portfolio Selection. Advanced Modeling and Optimiza- tion, 8(1), 99–107.
[4] Huang, X. (2007). Portfolio selection with fuzzy returns. Journal of Intelligent and Fuzzy
Systems, 18, 383–390.
SPE 2011
Mesa: Conceição Amado
79
Quinta, 29/09/2011
Aplicações I
Sala Atlântico, 10:30–11:30
[5] Huang, X. (2008). Mean-semivariance models for fuzzy portfolio selection. Journal of Computational and Applied Mathematics, 217, 1–8.
SPE 2011
Mesa: Conceição Amado
80
Quinta, 29/09/2011
Sessão Plenária II
Sala Premium, 11:35–12:30
On the application of statistical process control in finance
Wolfgang Schmid
European University Frankfurt (Oder), Germany, [email protected]
Abstract: The aim of statistical process control is to detect deviations from a supposed target
process as soon as possible after its occurrence. Because the data are analyzed sequentially a change
in the parameters of the target process can be detected faster than by using conventional fixed-sample
tests.
The most important tool of statistical process control are control charts. The first control scheme
was proposed by Shewhart (1924). Shewhart control charts have gained widespread applications
in engineering. Because they are able to find an error in a production process at an early time
point their application allows the reduction of the production costs. The work of Shewhart was the
starting point of many new fruitful developments. Because these schemes make exclusively use of
the present sample, they are not effective for small and moderate changes. In such cases control
schemes with memory like, e.g. the cumulative sum chart of Page (1954) and the exponentially
weighted moving average scheme of Roberts (1959) provide better results. Many further schemes
have been introduced in literature (cf. Montgomery (2005), Schmid (2007)) for considering among
others autocorrelated processes and multivariate extensions.
In finance, we encounter many problems of that type. For instance, an analyst is interested to detect
quickly changes in the price-process of a stock in order to make no loss. In that context statements
about the monitoring of the related risk process are of importance as well. Furthermore, a portfolio
manager needs information about the optimal time points of adjusting his portfolio.
The application of statistical process control in finance turns out to be much more difficult than in
engineering. The target process is unknown and has to be estimated. Frequently, it is a multivariate,
sometimes a high-dimensional time series. Moreover, the parameters of interest have a more complex structure. Here it is of importance to monitor, e.g., multivariate quantities like the covariances
or cross-covariances of a financial time series, the parameters of a financial process like the CoxIngersoll-Ross process or composite parameters like the optimal portfolio weights. Additionally, a
financial process cannot be stopped and thus a problem is how to restart it.
In this talk an overview of this topic is given and new approaches are presented.
Keywords: Statistical process control, change point detection, control charts, time series analysis,
optimal portfolio weights
Bibliography
[1] Bodnar, O. and Schmid, W. (2007). Surveillance of the mean behavior of multivariate time
series. Statistica Neerlandica, 61, 383–406.
[2] Frisén, M. (2008). Financial Surveillance. Wiley, New York.
SPE 2011
Mesa: Manuel Cabral Morais
81
Quinta, 29/09/2011
Sessão Plenária II
Sala Premium, 11:35–12:30
[3] Golosnoy, V. and Schmid, W. (2007). EWMA control charts for monitoring optimal portfolio
weights. Sequential Analysis, 26, 195–224.
[4] Golosnoy, V., Okhrin, I. and Schmid, W. (2010). New characteristics for portfolio surveillance.
Statistics, 44, 303–321.
[5] RosoLebowski, M. and Schmid, W. (2006). EWMA charts for monitoring the mean and the
autocovariances of stationary processes. Statistical Papers, 47, 595–630.
[6] Schipper, S. and Schmid, W. (2001). Sequential methods for detecting changes in the variance
of economic time series. Sequential Analysis, 20, 235–262.
[7] Schmid, W. (2007). Eighty years of control charts. Sequential Analysis, 26, 117–122.
[8] Schmid, W. and Severin, T. (1998). Statistical process control and its application in finance. In:
Contributions to Economics: Risk Measurement, Econometrics and Neural Networks, Physica,
Heidelberg, 83–104.
[9] Schmid, W. and Severin, T. (1999). Monitoring changes in GARCH models. Allgemeines Statistisches Archiv, 83, 281–307.
[10] Śliwa, P. and Schmid, W. (2005). Monitoring the cross-covariances of a multivariate time
series. Metrika, 61, 89–115.
SPE 2011
Mesa: Manuel Cabral Morais
82
Sexta, 30/09/2011
Análise Multivariada II
Sala Premium, 09:00–10:00
A influência da orientação para o mercado na performance
de exportação: O estudo de efeitos de interacção e quadráticos
Catarina Marques e Jorge Lengler
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE-IUL, Lisboa,
{catarina.marques,jorge.lengler}@iscte.pt
Resumo: No presente estudo examina-se se a orientação para o mercado de empresas brasileiras têm uma relação linear ou quadrática com a performance de exportação. Para além disso,
investiga-se se a intensidade do contexto competitivo das empresas modera as relações quadráticas.
Os parâmetros do modelo são estimados por PLS Path Modelling (PLS-PM) e é utilizada uma
combinação de duas abordagens para a análise dos efeitos não lineares entre variáveis latentes.
Palavras–chave: Relações não lineares, efeitos de interacção, relações quadráticas, PLS path modelling, performance de exportação, orientação para o mercado
Introdução
Com a rápida expansão do comércio internacional, a exportação tornou-se cada vez mais importante
para a sobrevivência e crescimento das empresas. No entanto, o processo de internacionalização
traz novos desafios às empresas, exigindo melhorias nas suas estratégias e capacidades. Dado que
os mercados se tornaram mais competitivos, as empresas precisam criar posturas orientadas ao
mercado. Assim, o conceito de orientação para o mercado torna-se um elemento fundamental para
apoiar as acções das empresas em contextos estrangeiros quando procuram novas oportunidades e
maiores lucros. Nas últimas décadas, vários estudos têm mostrado que a orientação ao mercado é
um elemento central na explicação da performance da empresa.
No presente estudo analisa-se o papel da orientação para o mercado, mais precisamente de dois
dos seus componentes propostos no quadro teórico de Narver e Slater [6], orientação para os consumidores e orientação para a concorrência, como antecedentes na performance de exportação de
empresas brasileiras. A forma da relação entre os dois construtos e a performance de exportação
tem sido assumida na literatura como linear. No entanto, um estudo recente de Cadogan et al.
[1] sugere que esta relação é quadrática, o que pode explicar os resultados inconsistentes e contraditórios encontrados na literatura. Deste modo, é importante avaliar se esta relação é linear ou
quadrática. Adicionalmente, investiga-se os efeitos de moderação da intensidade do contexto competitivo sobre as relações quadráticas entre a orientação para o consumidor e concorrência e a performance de exportação. O modelo conceptual proposto é estimado por PLS-PM [7] sobre os dados
de uma amostra constituı́da por 197 empresas de exportação brasileiras. O construto performance
de exportação é estimado através de um modelo MIMIC, uma vez que é medido simultaneamente
por indicadores formativos e reflectivos.
Abordagem à análise de efeitos não lineares
Várias abordagens à análise de efeitos não lineares entre variáveis latentes têm sido apresentadas na
literatura de modelos de equações estruturais [5]. Neste estudo combinam-se duas frequentemente
usadas em modelos de estruturas de covariância e adaptadas ao quadro de referência de PLS-PM, as
SPE 2011
Mesa: Manuela Souto de Miranda
83
Sexta, 30/09/2011
Análise Multivariada II
Sala Premium, 09:00–10:00
abordagens Product Indicator (adaptada por [2]) e Latent variable scores. Os efeitos quadráticos da
orientação para o consumdor e da orientação para a concorrência sobre a performance de exportação
são obtidos através de um único indicador criado através do quadrado dos escores estandardizados
das variáveis latentes, estimados previamente num modelo sem termos quadráticos. Os efeitos de
interacção são criados por uma série de termos multiplicativos dos indicadores da variável moderadora, a intensidade competitiva, com os indicadores das variáveis predictoras. Usa-se o processo
residual centering [4] para evitar problemas de multicolinearidade, nomeadamente de instabilidade
das estimativas dos coeficientes de regressão.
Resultados
Os resultados revelam que ambas as relações entre os construtos de orientação para o mercado e
a performance de exportação são quadráticas. No entanto, enquanto que o coeficiente estimado
da relação quadrática entre a orientação para o consumidor e a performance de exportação é positivo, resultando numa curva convexa, a relação orientação para a concorrência - performance de
exportação possui um coeficiente negativo, pelo que é descrita por uma curva concava. Contrariamente ao esperado, os resultados indicam que nenhuma das relações quadráticas são moderadas
pela intensidade do contexto competitivo das empresas. O valor do R2 de 0,622 comprova o poder
explicativo do modelo.
Bibliografia
[1] Cadogan, J.W., Kuivalainen, O. e Sundqvist, S. (2009). Export market-oriented behavior and
export performance: Quadratic and moderating effects under differing degrees of market dynamism and internationalization. Journal of International Marketing, 17(4), 71–89.
[2] Chin, W.W., Marcolin, B.L. e Newsted, P.R. (2003). A partial least squares latent variable
modeling approach for measuring interaction effects: Results from a Monte Carlo simulation study and an electronic-mail emotion/adoption study. Information Systems Research, 14,
189.217.
[3] Little, T.D., Bovaird, J.A. e Widaman, K.F. (2008). On the merits of orthogonalizing powered
and product terms: Implications for modeling interactions among latent variables. Structural
Equation Modeling, 13(4), 497–519.
[4] Marsh, H.W., Wen, Z. e Hau, K.-T. (2004). Structural equation models of latent interactions: evaluation of alternative estimation strategies and indicator construction. Psychological
Methods, 9(3), 275-300.
[5] Narver, J.C. e Slater, S.F. (1990). The Effect of a market orientation on business profitability.
Journal of Marketing, 54(4), 20–35.
[6] Wold, H.O. (1974). Causal flows with latent variables: Partings of the ways in the light of
NIPALS modeling. European Economic Review, 5(1), 67–86.
SPE 2011
Mesa: Manuela Souto de Miranda
84
Sexta, 30/09/2011
Análise Multivariada II
Sala Premium, 09:00–10:00
Abordagem multivariada à trilogia solo-vinha-vinho. Caso
da casta Vinhão
Ana Rita Silva1 , Ana C. Braga2 , Isabel Araújo3 , Teresa Mota4 , José M. Oliveira5 e
Jorge Oliveira6
1
Universidade do Minho, [email protected]
DPS, Universidade do Minho, [email protected]
3 Vinalia - Soluções de Biotecnologia para a Vitivinicultura, Lda, [email protected]
4 Quinta Campos de Lima, [email protected]
5 IBB, Centre of Biological Engineering, [email protected]
6 Sinergeo - Soluções Aplicadas em Geologia, Hidrogeologia e Ambiente, Lda.,
[email protected]
2
Resumo: A sustentabilidade dos sistemas de produção agrı́cola é indissociável da sustentabilidade
do recurso solo. O conhecimento do solo é essencial para melhorar a rentabilização dos sistemas
produtivos e minimizar os processos de degradação deste recurso. A informação detalhada sobre
os solos de aptidão vitı́cola deve ser um instrumento de gestão essencial para a rentabilização dos
investimentos na produção vitivinı́cola. A ligação da geologia à viticultura surge da aplicação da
cartografia geológica e de solos, climatologia, hidrologia e medição de parâmetros pontuais e globais do solo. Pretende-se identificar e estudar múltiplas variáveis que determinam o comportamento
fı́sico e quı́mico dos solos, que por sua vez influenciará o crescimento da videira e a qualidade final da uva. Este conhecimento pode ser utilizado para optimizar a produção, de forma a conseguir
um produto com caracterı́sticas mais uniformes, em consonância com adequadas tecnologias de
vinificação. Este projecto tem com o objectivo global determinar os parâmetros do solo que influenciam o desenvolvimento da vinha, a qualidade das uvas e por conseguinte a qualidade dos vinhos.
A parcela em estudo situa-se na Quinta Campos de Lima, em Arcos de Valdevez, e está inserida na
região vitivinı́cola Minho, apta à produção do DOC Vinho Verde. A vinha em estudo compreende
apenas a casta tinta Vinhão, encontrando-se explorada em Modo de Produção Biológico (MPB),
certificada pela EcoCert Portugal. Recorrendo à análise multivariada de dados foi possı́vel reduzir
a dimensionalidade do problema no que concerne às variáveis provenientes do solo, da vinha e do
vinho e demonstrou-se graficamente, através da construção de biplots, as relações existentes entre
variáveis, entre observações e entre variáveis e observações. Procurou-se ainda estabelecer uma
relação entre as componentes resultantes desta análise.
Palavras–chave: Viticultura, solo, vinha, vinho, estatı́stica multivariada, biplots
SPE 2011
Mesa: Manuela Souto de Miranda
85
Sexta, 30/09/2011
Análise Multivariada II
Sala Premium, 09:00–10:00
Índices de informação mútua na avaliação de estabilidade de
agrupamentos
Maria José Amorim1 e Margarida Cardoso2
1
Área Departamental de Matemática, ISEL-Instituto Superior de Engenharia de Lisboa,
[email protected]
2 Departamento de Método Quantitativos e UNIDE, ISCTE-Instituto Universitário de Lisboa,
[email protected]
Resumo: Neste trabalho avalia-se o desempenho de diversos ı́ndices de informação mútua no papel de indicadores da estabilidade de partições. Nesta avaliação são determinadas estimativas dos
valores dos ı́ndices sob hipótese de independência restrita. A análise de dados é efectuada sobre
quatro bases de dados com estruturas de agrupamento conhecidas, às quais se associam partições
alternativas.
Palavras–chave: Avaliação de agrupamentos, estabilidade, informação mútua
Introdução
A estabilidade é reconhecida como uma propriedade desejável de uma solução de agrupamento, e.g.
Mirkin (1996). Na avaliação da estabilidade de resultados de agrupamento provenientes de amostras
diversas pode recorrer-se à utilização de validação cruzada. Os resultados de validação cruzada de
agrupamentos (partições, em particular) sintetizam-se em valores de ı́ndices de concordância entre
as partições produzidas sobre amostras diversas, entre os quais se contam os ı́ndices de informação
mútua. O principal objectivo do presente estudo é avaliar o desempenho de diversos ı́ndices de
informação mútua no papel de indicadores da estabilidade de partições, resultados de agrupamento.
Nesta avaliação são determinadas estimativas dos valores dos ı́ndices sob hipótese de independência
restrita (Amorim e Cardoso, 2010).
Índices de informação mútua
Na literatura encontram-se definidos múltiplos ı́ndices de concordância e, em particular, diversos
ı́ndices de informação mútua. Todos estes se baseiam no conceito fundamental de informação mútua
I(PK ,PQ ) =
K
Q
nkq
nkq
log( nk. n.q ),
k=1 q=1 n
n
∑∑
(1)
cujos cálculos se referem aos dados na tabela de contingência que associa as duas partições consideradas, ou tabela de classificação cruzada [nkq ] de frequências conjuntas observadas no grupo Ck de
partição PK e no grupo Cq e partição PQ com marginais nk. e n.q (k = 1, . . . ,K, q = 1, . . . ,Q). O valor
máximo de I é dado pelo mı́nimo entre as entropias- H- de cada partição, pelo que uma normalização
natural de I advém da divisão por esse mesmo mı́nimo. Uma medida alternativa de informação
mútua normalizada é proposta por (Strehl e Gohosh, 2002), que adoptam uma normalização que
SPE 2011
Mesa: Manuela Souto de Miranda
87
Sexta, 30/09/2011
Análise Multivariada II
Sala Premium, 09:00–10:00
resulta da divisão de I pela média geométrica das entropias. Na proposta de (Fred e Jain, 2003)
a normalização é efectuada considerando a média simples das entropias. Um ı́ndice alternativo,
proposto por (Meila, 2005) - Variação de Informação - pode ser equacionado como a soma das
entropias condicionadas de cada uma das partições pela outra. A divisão deste ı́ndice por log(n)
fá-lo variar, convenientemente, no intervalo [0,1]. Uma vez que este ı́ndice varia no sentido inverso
da força de associação pode considerar-se 1 −V I/log(n) como um indicador da concordância entre
partições.
Análise experimental
Para comparar o desempenho dos diversos ı́ndices de informação mútua na avaliação da estabilidade de agrupamentos consideram-se quatro bases de dados simulados. Geram-se então quatro
misturas de Normais diferenciadas pelos nı́veis de sobreposição dos grupos que as originam (com
recurso ao package MixSim do R, Maitra e Melnykov, 2010). Para cada base de dados são efectuadas análises de agrupamento alternativas, utilizando implementações dos algoritmos K-Médias e
EM-Expectation Maximation (e.g. Everitt et al., 2001). Para avaliar a estabilidade das partições resultantes, recorre-se ao procedimento de validação cruzada proposto em (Cardoso et al., 2009). Em
complemento, determina-se a concordância entre as soluções e a estrutura real dos dados. Os resultados obtidos são discutidos nas perspectivas descritiva simples e considerando as estimativas obtidas sob hipótese de concordância por acaso. Nas conclusões resumem-se as vantagens-desvantagens
dos ı́ndices que apresentam um comportamento muito diverso no contexto estudado.
Bibliografia
[1] Amorim, M.J.P.C. e Cardoso, M.G.M.S. (2010). Limites de concordância entre duas partições.
Livro de resumos, XVIII Congresso Anual da Sociedade Portuguesa de Estatı́stica, 1,47-48.
[2] Cardoso, M.G.M.S., Carvalho, A.P.L., e Faceli, K. (2009). Evaluation of clustering results:
the trade-off bias-variability. In Classification as a Tool for Research. Proceedings of the 11th
IFCS Biennial Conference. Dresden, March 13-18, 2009 Studies in Classification, Data Analysis, and Knowledge Organization Springer, Berlin-Heidelberg-New York, 201-208.
[3] Everit, B., Landau, S. e Morven, L. (2001). Cluster Analysis. 4th Ed. Arnold.
[4] Fred, A. e Jain, A.K. (2003). Robust data clustering. In Proceedings of the IEEE Computer
Society Conference on Computer Vision Pattern Recognition, 2003. CVPR .
[5] Maitra, R. e Melnykov, V. (2010). Simulating Data to Study Performance of Finite Mixture
Modeling and Clustering Algorithms. Journal of Computational and Graphical Statistics, 2,
354-376.
[6] Meilã, M.(2007). Comparing Clusterings - an information based distance. Journal of Multivariate Analysis, 98,873-895.
[7] Mirkin, B. (1996). Mathematical Classification and Clustering. Dordrecht/Boston/London,
Kluwer Academic Plublishers.
[8] Strehl, A. e Gohosh, J. (2002). Cluster ensembles - a knowledge reuse framework for combining partitions. Journal of Machine Learning Research,3,583-617.
SPE 2011
Mesa: Manuela Souto de Miranda
88
Sexta, 30/09/2011
Biostatı́stica II
Sala Dinastia, 09:00–10:00
Metodologia de captura-recaptura na vigilância epidemiológica da doença dos legionários
Joana Gomes Dias1 , Carlos Carvalho1 , Ana Filipa Ribeiro2 , Denisa Mendonça 3 e Susana Faria 4
1
Departamento de Saúde Pública - ARSNorte, IP, {jdias,ccarvalho}@arsnorte.min-saude.pt
Universidade do Minho, [email protected]
3 Instituto de Ciências Biomédicas Abel Salazar e Instituto de Saúde Pública da Universidade do
Porto, [email protected]
4 Universidade do Minho, [email protected]
2
Resumo: A doença dos legionários é uma pneumonia atı́pica grave, causada por bactérias do género
Legionella. Como todos os sistemas de informação, o sistema do Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários tem problemas de subnotificação. O objectivo do
estudo foi avaliar a exaustividade do sistema, usando métodos de captura-recaptura. A estimativa
do número de casos não detectados foi de 167. Assim, o número estimado de casos de doença na
região foi de 614.
Palavras–chave: Captura-recaptura, modelos log-lineares, doença dos legionários, tabelas de contingência
Introdução
A doença dos legionários (DL) é uma pneumonia atı́pica grave, causada por bactérias do género
Legionella [1]. A infecção transmite-se por via aérea (respiratória), através da inalação de gotı́culas
de água (aerossóis) ou mais raramente por aspiração de água contaminada com a bactéria [1]. A DL
foi descrita pela primeira vez em 1976, após um surto de pneumonia que ocorreu numa convenção
da Legião Americana, num hotel de Philadelphia [1]. Desde então a doença foi identificada em
todo o Mundo, em Portugal a DL foi descrita pela primeira vez em 1979 (publicação em boletim da
OMS). Na região Norte de Portugal (RN) o primeiro surto de doença foi registado em Agosto de
2000.
Em 2004 foi criado o Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários
(PVEIDL), através da Circular Normativa N.o 05/DEP de 22/02/2004 da Direcção-Geral da Saúde,
que prevê a notificação clı́nica dos casos às autoridades de saúde (DDO) e a notificação laboratorial
(LAB) ao Instituto Nacional de Saúde Dr. Ricardo Jorge.
Como todos os sistemas de informação, este sistema tem problemas de subnotificação, apesar de
esta não estar quantificada. Como em qualquer sistema de informação dependente de notificação,
a exaustividade dos registos não é completa. A subnotificação impede o conhecimento exacto da
incidência da doença e a implementação em tempo útil das medidas de interrupção da cadeia de
transmissão das doenças.
O objectivo do estudo foi avaliar a exaustividade do Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários, usando uma terceira fonte de informação - Grupos de Diagnóstico
Homogéneo (GDH).
SPE 2011
Mesa: Isabel Pereira
89
Sexta, 30/09/2011
Biostatı́stica II
Sala Dinastia, 09:00–10:00
Material e métodos
O número anual de casos de DL na região de Saúde do Norte no perı́odo entre 2004 e 2009 foi
obtido a partir das seguintes fontes de informação: DDO, LAB e GDH.
Para avaliar o grau de subnotificação de casos de DL na RN, no perı́odo de 2004 a 2009, utilizaram-se métodos de captura-recaptura [2, 3]. Esta metodologia tem sido cada vez mais usada por
epidemiologistas para analisar se os sistemas de informação são exaustivos e completos, tendo por
base a teoria de análise de tabelas de contingência incompletas e, na prática, implicando o uso de
modelos log-lineares [2, 3]. Depois de ajustados modelos log-lineares, estimou-se o número de
casos de DL que ocorreram no perı́odo em estudo, com os respectivos intervalos de confiança.
Os softwares estatı́sticos utilizados para o tratamento de dados foram o SPSS 18 para o Windows e
o Epidat 3.1.
Resultados
Durante o perı́odo em estudo registaram-se 447 casos de DL, dos quais 168 foram detectados pelo
sistema DDO, 127 pelo sistema LAB e 374 pelo sistema GDH. De salientar que 200 casos de
internamento por DL não foram detectados pelo Sistema de Vigilância Integrado da Doença dos
Legionários.
Após o ajuste por modelos log-lineares, o modelo escolhido para estimar o número de casos de
DL que não foi detectado por nenhuma fonte foi o que apresenta a independência entre o sistema
LAB e o sistema GDH. A estimativa do número de casos não detectados foi de 167. Assim, o
número estimado de casos de DL foi de 614 (IC a 95%: (533,696)). O PVEIDL apresentou uma
exaustividade de 60,8%.
Conclusões
O problema da subnotificação na DL dificulta o conhecimento da sua incidência na população.
A metodologia de captura-recaptura recorrendo aos modelos log-lineares, utilizando uma terceira
fonte de dados independente, poderá ser uma importante ferramenta não só para estimar o número
real de casos de doença mas também para monitorizar a performance do PVEIDL.
Bibliografia
[1] Brookmeyer R. e Stroup D. (2004). Monitoring the Health of Populations: Statistical Principles and Methods for Public Health, USA, Oxford University Press.
[2] Chin J. (2000). Control of Communicable Diseases Manual, 17th ed. Washington: American
Public Health Association.
[3] International Working Group for Disease Monitoring and Forecasting. (1995). CaptureRecapture and Multiple-Record Systems Estimation I: History and Theoretical Development.
American Journal of Epidemiology, 142 (10), 1047–1058
SPE 2011
Mesa: Isabel Pereira
90
Sexta, 30/09/2011
Biostatı́stica II
Sala Dinastia, 09:00–10:00
Spatially explicit capture-recapture minke whale density estimation
Tiago A. Marques1 , Steve W. Martin2 , Ronald P. Morrissey3 , Susan Jarvis3 ,
Nancy DiMarzio3 , David Moretti3 and David K. Mellinger4
1
Centre for Research into Ecological and Environmental Modeling, University of St Andrews,
Scotland; Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
2 Space and Naval Warfare Systems Center Pacific, U.S.A.,
3 Naval Undersea Warfare Center, U.S.A.,
4 Cooperative Institute for Marine Resources Studies, Oregon State University, U.S.A.,
Abstract: Density estimation for marine mammal species is performed primarily using visual distance sampling or capture-recapture. Recent advances in spatially explicit capture-recapture has
led data from multiple hydrophones over which sounds can be associated into capture histories to
be naturally suited to be used for density estimation. Here we review the use of spatially explicit
capture-recapture methods and present an application of these methods to the estimation of minke
whale density in Hawaiian waters.
Keywords: Cue count, passive acoustic density estimation, passive acoustic monitoring, boing vocalization, spatially explicit capture-recapture
Introduction
Estimating animal density is one of the fundamental steps for adequate conservation and management measures to be implemented. Therefore, reliable methods to estimate density are fundamental
to reach those goals. In recent years, spatially explicit capture-recapture has been developed and
implemented in both Bayesian (e.g. [5]) and likelihood frameworks (e.g. [1]).
Minke whales (Balaenoptera acutorostrata) are one of the smallest and most abundant baleen whales, and as with many other cetacean species, existing density and abundance estimates are largely
based on visual line transect surveys. However, in some areas, the animals appear to be extremely
cryptic to visual observation, making such methods inexact or infeasible.
A set of bottom mounted hydrophones at the US Navy Pacific Missile Range Facility (PMRF) north
of Kauai, Hawaii, has been detecting “boing”sounds which can be associted with minke whales.
In this work we illustrate how these sounds, associated into capture histories across the hydrophones,
can be used to estimate minke whale “boing”density using spatially explicit capture-recapture.
We used the freely available R package secr [2] to implement the methods in a likelihood framework.
Estimated boing density was 130 boings per hour per 10,000 km2 (95% CI 104-163). Converting
“boing”density into minke whale density comes at the expense of considering a cue production
rate. Little is known about the population’s acoustic behavior, so conversion from boing to animal
SPE 2011
Mesa: Isabel Pereira
91
Sexta, 30/09/2011
Biostatı́stica II
Sala Dinastia, 09:00–10:00
density is difficult. As a demonstration of the method, we used a tentative boing rate of 6.04 boings
per hour, from a single animal tracked in 2009, to give an estimate of 21.5 boing-calling minke
whales per 10,000 km2 .
A preliminary analysis of similar data in both a Bayesian and likelihood frameworks has been
presented at the 2009 SPE conference, and was later published in Marques et al. ([3]). The current
research has been submitted as an original paper to Marine Mammal Science, and is currently under
review [4].
Acknowledgements: SWM acknowledges the support of personnel at the Pacific Missile Range Facility, notably Jim Hager, Mike Dick, Eliseo Bolosan and Robin Higuchi, in collection of acoustic
data over several years. This work is an output of the NOPP-sponsored project Density Estimation
of Cetaceans from passive Acoustic Fixed sensors (DECAF), funded jointly by the Joint Industry
Program of the International Association of Oil and Gas Producers and the US National Marine
Fisheries Service. We thank other DECAF members for input, particularly David Borchers who
provided insightful comments regarding the SECR analysis. The minke whale data used are freely
available on the Ocean Biogeographic Information System (OBIS-SEAMAP) web site.
Bibliography
[1] Borchers, D.L. e Efford, M. (2008). Spatially explicit maximum likelihood methods for
capture-recapture studies. Biometrics, 64, 377–385.
[2] Efford, M. (2008). secr - Spatially Explicit Capture-Recapture in R, version 1.2.10. Department of Zoology, University of Otago, Dunedin, New Zealand
[3] Marques, T.A., Thomas, L., Martin, S.W., Mellinger, D.K., Jarvis, S., Morrissey, R.P., Ciminello, C.-A. e DiMarzio, N. (2011). Spatially explicit capture recapture methods to estimate
minke whale abundance from data collected at bottom mounted hydrophones. Journal of Ornithology. DOI:10.1007/s10336-010-0535-7.
[4] Martin, S.W., Marques, T.A., Thomas, L., Morrissey, R.P., Jarvis, S., DiMarzio, N., Moretti,
D. e Mellinger, D.K. (submitted). Estimating minke whale (Balaenoptera acutorostrata) boing
sound density using passive acoustic sensors. Marine Mammal Science.
[5] Royle, J.A. e Young, K.V. (2008). A hierarchical model for spatial capture-recapture data
Ecology, 89, 2281–2289.
SPE 2011
Mesa: Isabel Pereira
92
Sexta, 30/09/2011
Biostatı́stica II
Sala Dinastia, 09:00–10:00
O comprimento descritivo mı́nimo na amostragem por transectos pontuais
Fernando Ceia1 e Russell Alpizar-Jara2
1
2
Escola EB23 José Régio, CIMA, Universidade de Évora, [email protected]
Departamento de Matemática, CIMA, Universidade de Évora, [email protected]
Resumo: Os métodos de amostragem por distâncias, têm vindo a ser amplamente utilizados na
estimação da densidade de uma população de animais ou objectos numa determinada área de estudo.
Destes, destacam-se os transectos pontuais, nos quais o observador fixa-se num ponto à procura dos
indivı́duos da população em estudo. De forma a estimar a densidade de objectos é necessário ajustar
uma função densidade de probabilidade f (r|θ ), onde r representa o raio do cı́rculo onde o objecto
foi detectado e θ um vector de parâmetros. Em [1] é apresentada uma abordagem semi-paramétrica,
onde o objectivo principal é a obtenção dos estimadores de máxima verosimilhança de θ recorrendo
a uma função de detectabilidade ajustada por termos de uma expansão em série. Neste trabalho,
propõe-se uma abordagem não paramétrica para o cálculo da densidade populacional em transectos pontuais, baseada numa aplicação desenvolvida por [2] para transectos lineares. Esta recorre
ao princı́pio do Comprimento Descritivo Minimo proposto por [5], e a sua aplicação na estimação
de uma função densidade por um histograma [4], tendo-se efectuado uma transformação dos dados iniciais proposta em [3]. Para ilustrar a metodologia, analisam-se os dados resultantes de uma
simulação relativa a transectos pontuais do programa DISTANCE [6], e comparam-se as duas abordagens de estimação. Apesar dos resultados preliminares mostrarem uma ligeira vantagem para
a metodologia semi-paramétrica, a performance dos estimadores obtidos com ambas abordagens
estão bastante próximos dos valores reais.
Palavras–chave: Amostragem por distâncias, transectos pontuais, comprimento descritivo mı́nimo,
simulação por métodos de Monte Carlo
Bibliografia
[1] Buckland, S.T., Anderson, D.R., Burnham, K.P., Laake, J.L., Borchers, D.L. e Thomas, L.
(2001). Introduction to Distance Sampling. Oxford University Press, Oxford.
[2] Burnham, K.P., Anderson, D.R., e Laake, J.L. (1980). Estimation of Density from Line Transect Sampling of Biological Populations. Wildlife Monographs 72, 3-202.
[3] Ceia, F.J.M.F. (2009). O Comprimento Descritivo Mı́nimo na Amostragem por Transectos
Lineares. Dissertação de Mestrado. Universidade de Évora.
[4] Kontkanen, P. e Myllymäki, P. (2006). Information-Theoretically Optimal Histogram Density
Estimation. Helsinki Institute for Information Techonology.
[5] Rissanen, J. (1978). Modeling by shortest data description. Automatica 14, 465-471.
SPE 2011
Mesa: Isabel Pereira
93
Sexta, 30/09/2011
Biostatı́stica II
Sala Dinastia, 09:00–10:00
[6] Thomas, L., Buckland, S.T., Rexstad, E.A., Laake, J.L., Strindberg, S., Hedley, S.L., Bishop,
J.R.B., Marques, T.A. e Burnham, K.P. (2010). Distance software: design and analysis of
distance sampling surveys for estimating population size. Journal of Applied Ecology 47: 514. DOI: 10.1111/j.1365-2664.2009.01737.
SPE 2011
Mesa: Isabel Pereira
94
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
Estimação estatı́stica dos parâmetros do processo de OrnsteinUhlenbeck bidimensional
Ana Prior1 e Paula Milheiro de Oliveira2
1
2
Instituto Superior de Engenharia de Lisboa, [email protected]
Faculdade de Engenharia da Universidade do Porto, [email protected]
Resumo: O processo de Ornstein-Uhlenbeck tem sido utilizado na prática para modelar diversos
fenómenos fı́sicos, revestindo-se assim de particular importância a estimação estatı́stica dos seus
parâmetros. Trata-se de um processo estocástico que satisfaz a equação diferencial estocástica
1
dXt = AXt dt + B 2 dWt ,
(1)
1
onde {Wt ,t ≥ 0} é um processo de Wiener bidimensional e A e B 2 são matrizes quadradas de ordem
2. Este trabalho tem por objectivo o estudo do problema da estimação estatı́stica dos parâmetros A,
1
1
matriz de deriva, e B = B 2 B 2 T , matriz de difusão, do modelo (1) em tempo contı́nuo. Em tempo
contı́nuo, recorrendo à Formula de Itô, a estimação da matriz de difusão B não oferece dificuldade. Assim, apenas a estimação da matriz de deriva A constitui um problema que tem merecido a
atenção dos investigadores. Na utilização do método de máxima verosimilhança assume particular
importância a derivada de Radon-Nikodym da medida gerada pelo processo com respeito à medida
de Wiener. Uma revisão bibliográfica dos resultados obtidos no problema da estimação da matriz A
e em especial das condições impostas para a obtenção do estimador de máxima verosimilhança e a
verificação das suas propriedades mostra que o caso particular em que se tem
A=
0
− mk
1
− mc
1
e B2 =
0 0
0 σ
,
(2)
não fica coberta pela grande parte dos resultados teóricos conhecidos, não sendo sequer conhecido
o estimador de máxima verosimilhança de A e muito menos sendo garantidas suas propriedades. No
entanto a equação (1) nestas condições serve de modelo para o movimento vibratório de estruturas
sujeitas a acções aleatórias e daı́ o seu interesse prático. Consideramos portanto o problema de estimar k e c no modelo (1)-(2), com X0 = 0, sendo os processos Wti , com i = 1,2 processos de Wiener
independentes num espaço de probabilidade (Ω,̥,P). Admite-se que o processo (Xt )t>0 é observado no intervalo [0,T ] , sem perda de generalidade. A principal dificuldade deste problema reside
no facto de a matriz de difusão B ser uma matriz singular, uma vez que os resultados anteriormente
referidos requerem que a matriz B seja não singular. Propomos um estimador para o modelo (1)-(2)
e analisamos a sua consistência, centricidade e distribuição assimptótica.
Palavras–chave: Processo Ornstein-Uhlenbeck, modelo linear, estimador máxima verosimilhança,
derivada de Radon-Nikodym
SPE 2011
Mesa: Cláudia Nunes
95
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
Bibliografia
[1] Arato, M. (1982). Linear stochastic systems with constant coefficients. A statistical approach.
Lectures Notes in Control and Information Sciences, 45. Springer-Verlag, Berlin.
[2] Basak, G. e Lee, P. (2008). Asymptotic properties of an estimator of the drift coefficients of
multidimensional Ornstein-Uhlenbeck processes that are not necessarily stable. Electronic
Journal of Statistics, Vol.2, 1309-1344.
[3] Khasminskii, R.Z., Krylov, N. e Moshchuk, N. (1999). On the estimation of parameters for
linear stochastic differential equations. Probability Theory Related Fields, 113, 443-472.
[4] Prakasa Rao, B.L.S. (1999). Statistical inference for diffusion type process. Kendall´s Library
of Statistics, 8. Edward Arnold, London. Oxford University Press, New York.
[5] Rao, B. e Basawa, I.(1980). Statistical Inference for Stochastic Processes. London, Academic
Press.
SPE 2011
Mesa: Cláudia Nunes
96
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
O modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados: aplicação à evolução
temporal das taxas de mortalidade masculina e feminina
da população portuguesa
Sandra Lagarto e Carlos A. Braumann
CIMA, Universidade de Évora, {sdlagarto, braumann}@gmail.com
Resumo: Na análise transversal de dados demográficos, há que ter em conta as flutuações aleatórias
das condições “ambientais” (em sentido lato), pelo que utilizamos equações diferenciais estocásticas
(EDE). Fixada a idade de interesse, aplica-se o modelo de Gompertz bidimensional estocástico com
processos de Wiener correlacionados às Taxas Brutas de Mortalidade (TBM) da população masculina e feminina portuguesa (séries anuais entre 1940 e 2009). Compara-se o modelo completo, com
correlação entre os processos de Wiener unidimensionais relativos a cada sexo, e o modelo sem
correlação entre esses processos.
Palavras–chave: Modelo de Gompertz bidimensional estocástico, processos de Wiener correlacionados, taxas de mortalidade
Introdução
As séries temporais das TBM da população portuguesa caracterizam-se por uma forte tendência
decrescente, comum a todas as idades, e que se verifica em ambos os sexos. Há, no entanto, factores ambientais que variam aleatoriamente ao longo do tempo. Para tal, usamos como modelo de
evolução temporal das TBM de uma dada idade e sexo, um modelo de Gompertz estocástico. Contudo, os factores ambientais podem afectar os indivı́duos dos dois sexos de forma semelhante (por
exemplo, quando a taxa de mortalidade, de uma idade, cresce de um ano para o outro, nos indivı́duos
do sexo feminino, há uma forte tendência para as dos indivı́duos do sexo masculino terem idêntico
comportamento). Esta correlação, entre os efeitos dos factores ambientais nas taxas de mortalidade
dos dois sexos, implica que os processos de Wiener associados às EDE que as modelam devem estar
correlacionados.
Aplicação do modelo de Gompertz estocástico com processos de Wiener correlacionados
Consideremos uma determinada idade e sejam Xi (t) as TBM dessa idade no ano t, respectivamente
i = 1 para o sexo feminino e i = 2 para o sexo masculino. Seja Yi (t) = ln Xi (t). O modelo de
Gompertz estocástico com correlação pode escrever-se na forma do sistema de EDE autónomas
dY1 (t) = b1 (A1 −Y1 (t))dt+σ1 dW1∗ (t),
dY2 (t) = b2 (A2 −Y2 (t))dt+σ2 dW2∗ (t),
SPE 2011
Mesa: Cláudia Nunes
97
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
com Yi (t0 ) = yi,t0 suposto conhecido e os parâmetros Ai (taxas médias de mortalidade assintóticas,
em escala logarı́tmica), bi (velocidades de aproximação ao regime assintótico) e σi (intensidades
das flutuações ambientais) todos positivos. Supomos que W1∗ (t) e W2∗ (t) são processos de Wiener
padrão correlacionados com coeficiente de correlação ρ (outro parâmetro do modelo). Podemos
escrevê-los à custa de dois processos de Wiener padrão independentes W1 (t) e W2 (t):
W1∗ (t) = α W1 (t) + β W2 (t) e W2∗ (t) = β W1 (t) + α W2 (t),
com α = ((1 + (1 − ρ 2 )1/2 )/2)1/2 e β = sinal(ρ )((1 − (1 − ρ 2 )1/2 )/2)1/2 = sinal(ρ )(1 − α 2 )1/2 .
As soluções no instante t são dadas por
R
Y1 (t) = A1 + (y1,t0 − A1 )exp{−b1 (t − t0 )} + σ1 exp{−b1t} tt0 exp{b1 s} dW1∗ (s),
R
Y2 (t) = A2 + (y2,t0 − A2 )exp{−b2 (t − t0 )} + σ2 exp{−b2t} tt0 exp{b2 s} dW2∗ (s),
com distribuições marginais gaussianas com as médias e variâncias indicadas:
Y1 (t) ⌢ N (A1 + (y1,t0 − A1 )exp{−b1 (t − t0 )},σ12 (1 − exp{−2b1 (t − t0 )})/2b1 ),
Y2 (t) ⌢ N (A2 + (y2,t0 − A2 )exp{−b2 (t − t0 )},σ22 (1 − exp{−2b2 (t − t0 )})/2b2 ).
A distribuição conjunta é normal bivariada com coeficiente de correlação
1 +b2 )(t−t0 )})
ρ (1−exp{−2b(1−exp{−(b
(t−t )})1/2 (1−exp{−2b (t−t
1
0
2
0 )})
1/2
2(b1 b2 )1/2
b1 +b2 .
Podemos ainda obter Yi (t −1) condicionado a yi,t−1 (i = 1,2) no instante t −1 (a chamada distribuição
de transição) fazendo nas expressões anteriores t0 = t − 1. Devido à propriedade de Markov das
soluções, a verosimilhança das observações é dada pelo produto das densidades de transição.
O modelo sem correlação é idêntico ao anterior pondo ρ = 0. Os parâmetros são estimados pelo
método de máxima verosimilhança. Um teste de razão de verosimilhanças pode ser usado para comparar o modelo com correlação com o modelo sem correlação. Na comparação de modelos, serão
usadas medidas de performance, técnicas de validação cruzada e estudo da capacidade preditiva
(veja-se metodologia em [1, 2] e referências aı́ contidas).
Os resultados preliminares, em várias idades, sugerem quer menores erros de ajustamento, quer
previsões mais realı́sticas nos modelos em que foi considerada a correlação entre os sexos, com um
favorecimento deste efeito nos indivı́duos do sexo feminino relativamente aos do sexo masculino.
Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações
(CIMA), unidade financiada pela FCT.
Bibliografia
[1] Filipe, P.A., Braumann, C.A., Brites, N.M. e Roquete, C.J. (2010). Modelling animal growth
in random environments: An application using nonparametric estimation. Biometrical Journal
52, DOI 10.1002/bimj.200900273.
[2] Filipe, P.A., Braumann, C.A. e Roquete, C.J. (2010). Multiphasic Individual Growth Models in Random Environments. Methodology and Computing in Applied Probability, DOI
10.1007/s11009-010-9172-0.
SPE 2011
Mesa: Cláudia Nunes
98
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
Tempos de extinção para um modelo de crescimento
populacional aproximadamente logı́stico
Clara Carlos1,2 e Carlos A. Braumann2
1
Escola Superior de Tecnologia do Barreiro, Instituto Politécnico de Setúbal,
[email protected]
2 Centro de Investigação em Matemática e Aplicações, Universidade de Évora,
[email protected]
Resumo: Por vezes ao estudar o crescimento populacional considera-se o modelo logı́stico como
uma aproximação ao modelo real que se desconhece. No caso de populações crescendo em ambiente aleatório estudamos o efeito dessa aproximação nos tempos de extinção da população.
Palavras–chave: Crescimento populacional, ambiente aleatório, tempos de extinção
Consideramos o modelo determinı́stico de crescimento populacional, com a taxa de crescimento
per capita com a forma
1 dX
= f (X), X(0) = x,
(1)
X dt
onde X = X(t) representa o tamanho da população no instante t ≥ 0, f é uma função real definida
para X > 0 e suponhamos conhecida a população inicial X(0) = x > 0. Um dos modelos usados na
literatura é o modelo logı́stico ou de Pearl-Verhulst, onde a taxa decrescimento per capita decresce
linearmente com o tamanho da população, isto é, f (X) = r 1 − KX , com r > 0 a taxa intrı́nseca de
crescimento e K > 0 a capacidade de sustento do meio. No entanto, a verdadeira taxa de crescimento per capita pode afastar-se ligeiramente do modelo logı́stico e nada nos garante que o modelo
utilizado retrate o comportamento da população. Vejamos o que
sucede se o modelo correcto se
desviar do logı́stico, para o que consideramos f (X) = r 1 − KX + α (X), onde α , função de classe
C1 com |α (X)|
< δ , é uma espécie de erro relativo.
r
Suponhamos que o ambiente está sujeito a perturbações aleatórias e que os efeitos dessas perturbações
sobre a taxa de crescimento per capita da população é um ruı́do que pode ser aproximado por um
ruı́do branco padrão σ ε (t), onde σ > 0 é a intensidade do ruı́do e ε (t) é um ruı́do branco padrão.
Nesse caso, o modelo passa a ser uma equação diferencial estocástica
usualmente escrita na forma
1 dX
= f (X) + σ ε (t),
X dt
(2)
dX = f (X)Xdt + σ XdW (t),
(3)
onde W (t) é um processo de Wiener padrão. O modelo (2) tem solução única até um instante de
explosão e é um processo de difusão com coeficiente de tendência
σ2
X
a(X) = X r 1 −
+ α (X) +
(4)
K
2
e coeficiente de difusão
SPE 2011
b2 (X) = σ 2 X 2 ,
(5)
Mesa: Cláudia Nunes
99
Sexta, 30/09/2011
Processos Estocásticos II Sala Caminho Real, 09:00–10:00
usando o cálculo de Stratonovich. As fronteiras são X = 0 e X = +∞ e o espaço de estados é
(0, + ∞). Ambas as fronteiras são não-atractivas, o que implica que não existe extinção matemática
e não existem explosões, garantindo a existência e unicidade de (2) para todo o t > 0.
Existe densidade estacionária da forma
p(y) = Dy
R
2r
−1
σ2
Zy
α (θ )
2
2r
dθ ,
exp − 2 y exp
σ K
σ2 n θ
(6)
com D constante tal que 0+∞ p(y)dy = 1. O processo é ergódico e a distribuição de X(t) converge
para a distribuição estacionária.
O facto de não existir ”extinção matemática” (X(t) tornar-se nulo ou X(t) → 0 quando t → +∞)
para este modelo não significa que a população não esteja extinta no sentido biológico. Assim, para
estudar a extinção é preferı́vel usar o conceito de ”extinção realista”, em que se considera que a
população está extinta quando atinja um limiar positivo (a > 0) adequadamente escolhido. Supondo
que a população inicial é superior a essse limiar, apresentamos, para este modelo, expressões para a
média e a variância dos tempos de primeira passagem pelo limiar a (tempo de extinção),
Z +∞
Zθ
Z
2r
2r
2
2 x − 2r2 −1
2r
α (η )
2 −1
σ
σ
exp
exp
E[Ta |X(0) = x] = 2
ξ
ξ
θ
dη − 2 θ dθ dξ
σ a
σ 2K
σ2 ξ η
σ K
ξ
(7)
e
Z +∞
Z
8 x − 2r2 −1
2r
2r
− 2r2 −1
σ
σ
ζ
ζ
ξ
ξ
Var[Ta |X(0) = x] =
exp
exp
σ4 a
σ 2K
σ 2K
ζ
Z
Z +∞
2r
2 θ α (η )
2r
θ σ 2 −1 exp − 2 θ + 2
dη dθ
σ K
σ ζ η
ξ
Z
Z +∞
2r
2 θ α (η )
2r
2 −1
σ
θ
dη dθ dξ dζ ,
(8)
exp − 2 θ + 2
σ K
σ ξ η
ξ
respectivamente. Estudamos o efeito sobre a média e o desvio padrão do tempo de extinção dos
pequenos desvios do modelo em relação ao modelo logı́stico, já apresentado em trabalhos anteriores ([3, 4]). Finalmente ilustramos os resultados obtidos com alguns exemplos numéricos do
comportamento da média e do desvio padrão do tempo de extinção.
Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações
(CIMA) da Universidade de Évora, financiado pela Fundação para a Ciência e a Tecnologia (FCT).
Bibliografia
[1] Carlos, C. e Braumann, C.A. (2005). Tempos de extinção para populações em ambiente
aleatório. Em Estatı́stica Jubilar, Braumann, C.A., Infante, P., Oliveira, M., Alpı́zar-Jara,
R. e Rosado, F. (Eds.), 133–142, Edições SPE.
[2] Carlos, C. e Braumann, C.A. (2006). Tempos de extinção para populações em ambiente
aleatório e cálculos de Itô e Stratonovich. Em Ciência Estatı́stica, L. Canto e Castro, E.
G. Martins, C. Rocha, M. F. Oliveira, M. M. Leal e F. Rosado (Eds.), 229–238, Edições SPE.
SPE 2011
Mesa: Cláudia Nunes
100
Sexta, 30/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
Comparação assintótica de estimadores de um parâmetro de
forma de segunda-ordem em caudas pesadas
M. Ivette Gomes
DEIO and CEAUL, Universidade de Lisboa, [email protected]
Resumo: Em contexto de terceira-ordem, procedemos à comparação assintótica de dois estimadores alternativos do parâmetro de forma mais usual em contexto de cauda-direita pesada.
Palavras–chave:
paramétrica
Teoria de valores extremos, propriedades assintóticas, estimação semi-
Introdução e objectivos
Num contexto de caudas direitas pesadas, procederemos a uma comparação assintótica de dois
estimadores de um parâmetro de segunda-ordem ρ , o estimador implı́cito em [2] e uma das classes
de estimadores em [3]. Na área de Estatı́stica de Extremos, um modelo F diz-se de cauda direita
pesada sempre que F := 1 − F é uma função de variação regular (no infinito) com um ı́ndice de
variação regular negativo e igual a −1/γ , γ > 0, or equivalentemente, a função quantil recı́proca
U(t) := F ← (1 − 1/t), t ≥ 1, com F ← (x) := inf{y : F(y) ≥ x}, é de variação regular com ı́ndice γ ,
i.e., para qualquer x > 0, limt→∞ F(tx)/F(t) = x−1/γ ou equivalentemente limt→∞ U(tx)/U(t) = xγ .
O parâmetro de segunda-ordem ρ (≤ 0) rege a velocidade de convergência na condição de primeiraordem atrás referida, e é o parâmetro não-positivo que aparece na relação limite,
lim lnU(tx) − lnU(t) − γ ln x /A(t) = xρ − 1 /ρ ,
(1)
t→∞
x > 0, e onde |A| é então de variação regular com ı́ndice ρ . Este parâmetro de segunda-ordem ρ , que
admitimos ser negativo, é o parâmetro de interesse neste artigo. De forma a obter informação completa sobre o comportamento assintótico dos estimadores de ρ , é necessário admitir uma condição
de terceira-ordem, que rege a velocidade de convergência em (1), garantindo-se que para todo o
x > 0,
′
lim lnU(tx) − lnU(t) − γ ln x /A(t) − xρ − 1 /ρ /B(t) = xρ +ρ − 1 /(ρ + ρ ′ ),
(2)
t→∞
onde |B(t)| tem de ser de variação regular com ı́ndice ρ ′ . Aparece então este parâmetro de terceiraordem ρ ′ ≤ 0. Neste artigo consideramos uma classe de modelos
de tipo Pareto, com função de
cauda F(x) = 1 − F(x) = Cx−1/γ 1 + D1 xρ /γ + D2 x2ρ /γ + o x2ρ /γ quando x → ∞, com C > 0,
D1 , D2 6= 0, ρ < 0. Note-se que admitir este tipo de cauda direita é equivalente a dizer que se
verifica (2) com ρ = ρ ′ < 0 e que podemos escolher
A(t) = α t ρ =: γ β t ρ ,
B(t) = β ′ t ρ =
β ′ A(t)
ξ A(t)
β′
=:
, β , β ′ 6= 0, ξ = ,
βγ
γ
β
(3)
com β e β ′ parâmetros de “escala” de segunda e terceira-ordem, respectivamente.
Na Secção 2 deste artigo, introduzimos os estimadores em análise, e fornecemos, na Secção 3, uma
descrição breve do comportamento assintótico desses estimadores de ρ .
SPE 2011
Mesa: Luı́sa Canto e Castro de Loura
101
Sexta, 30/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
Os estimadores de ρ em análise
Face a uma amostra aleatória, (X1 , X2 , . . . , Xn ), usamos a notação (X1:n ≤ X2:n ≤ · · · ≤ Xn:n ) para a
amostra de estatı́sticas ordinais ascendentes associada. Uma das classes de estimadores de ρ em
análise é o mais simples estimador em [3]. Esta classe de estimadores pode ser parametrizada em
termos de um parâmetro de controlo τ ∈ R, e é definida do modo seguinte:
τ /2
τ
(2)
(1)
3(T (τ ) (k) − 1) Mn (k) − Mn (k)/2
n
(τ )
FAGH
FAGH
(k) ≡ ρbn
(k; τ ) := − (τ )
ρbn
, Tn (k) :=
τ /3 ,
τ /2
(3)
(2)
Tn (k) − 3 − Mn (k)/6
Mn (k)/2
para τ 6= 0 e com a continuação usual para τ = 0, onde, denotando Vik os excessos das log( j)
observações, Vik := ln Xn−i+1:n − ln Xn−k:n , 1 ≤ i ≤ k, Mn (k) := ∑ki=1 Vikj /k, j ≥ 1. A segunda classe,
baseada no facto de Ui = i(ln Xn−i+1:n − ln Xn−i:n ), 1 ≤ i ≤ k, serem aproximadamente exponenciais
−ρ
com valor médio µi = γ eβ (i/n) , 1 ≤ i ≤ k, é a classe de estimadores de ρ em [2], onde se considera a maximização conjunta, em γ , β e ρ , da log-verosimilhança, ln L(γ , β , ρ ;Ui , 1 ≤ i ≤ k) =
−k ln γ − β ∑ki=1 (i/n)−ρ − 1γ ∑ki=1 exp(−β (i/n)−ρ )Ui . Esse estimador será denotado ρbnFH (k).
Comportamento assintótico dos estimadores de ρ
Nas linhas de investigação em [3] e [1], mas com algumas indicações adicionais relacionadas com
o comportamento assintótico dos estimadores em análise, enunciamos o teorema seguinte:
Teorema 1. √Sob a validade da condição (1), com ρ < 0, e para k tal que k = kn → ∞,
k/n → 0 e k A(n/k) → ∞, quando n → ∞, ρbnFH (k) e ρ̂nFAGH (k) são consistentes para a
estimação de ρ . Se admitirmos adicionalmente a validade de (2), com A e B dados em
√
d
(3), podemos garantir que ρbn• (k) − ρ = σ• Uk• /( k A(n/k)) + b• A(n/k)(1 + √
o p (1)), onde
FH
FAGH
são
Uk e Uk
p variáveis aleatórias normal padrão, σFH = γ (1 − ρ )(1√− 2ρ ) 1 − 2ρ /ρ e
σFAGH√
= γ (1 − ρ )3 2ρ 2 − 2ρ + 1/ρ . Consequentemente, se admitirmos que kA2 (n/k) → λA , finito, k A(n/k) (ρbn• (k) − ρ ) é assintóticamente nomal com valor médio λA b• e σ•2 .
Procederemos a uma comparação assintótica de ρ̂nFH (k) e de ρ̂nFAGH (k), quer para um k genérico,
quer em nı́veis óptimos, i.e., nı́veis k = k0• em que o erro médio quadrático assintótico de ρ̂n• é
mı́nimo, referindo ainda a discrepância entre comportamento assintótico e em amostras finitas.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Caeiro, F. e Gomes, M.I. (2010). Asymptotic comparison at optimal levels of reduced-bias
extreme value index estimators. Notas e Comunicações CEAUL 24/2010.
[2] Feuerverger, A. e Hall, P. (1999) Estimating a tail exponent by modelling departure from a
Pareto distribution. Ann. Statist., 27, 760–781.
[3] Fraga Alves, M.I., Gomes, M.I. e de Haan, L. (2003). A new class of semi-parametric estimators of the second order parameter. Portugaliae Mathematica, 60:2, 193–213.
SPE 2011
Mesa: Luı́sa Canto e Castro de Loura
102
Sexta, 30/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
Uma generalização do estimador de Hill
M. Ivette Gomes e Dinis Pestana
DEIO e CEAUL, Universidade de Lisboa, {ivette.gomes,dinis.pestana}@fc.ul.pt
Resumo: Neste trabalho estamos interessados numa generalização simples do estimador de Hill,
baseada na média de ordem p de estatı́sticas fulcrais na construção do clássico estimador de Hill
para um ı́ndice de valores extremos positivo.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, caudas pesada
Introdução e objectivos
Face a uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), proveniente de uma população com
função de distribuição (f.d.) F, denotemos (X1:n ≤ · · · ≤ Xn:n ) a amostra associada das estatı́sticas
ordinais ascendentes. Admitamos ainda que é possı́vel normalizar a sucessão de máximos parciais, de modo a obtermos um limite não degenerado, necessariamente com f.d. do tipo EVγ (x) =
exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, γ ∈ R. Dizemos então que
F pertence ao domı́nio de atração
para máximos de EVγ , e usamos a notação F ∈ DM EVγ . O parâmetro γ é o ı́ndice de valores extremos (EVI, do Inglês extreme value index). Iremos aqui trabalhar com modelos de cauda
direita F := 1 − F pesada, i.e., com γ > 0. Com a notação U(t) := F ← (1 − 1/t), t ≥ 1, com
F ← (x) = inf{y : F(y) ≥ x},
+
F ∈ DM
≡ DM EVγ γ >0 ⇐⇒ lim U(tx)/U(t) = xγ ∀ x > 0,
(1)
t→∞
i.e., U(·) é uma função de variação regular no infinito, com um ı́ndice de variação regular γ (veja-se
+
[1]). Para modelos F ∈ DM
, os estimadores clássicos do EVI são os estimadores de Hill [5],
H(k) :=
1 k
∑ ln (Xn−i+1:n /Xn−k:n ) ,
k i=1
1 ≤ k < n.
Note-se que H(k) é o logaritmo da média geométrica de Uik := Xn−i+1:n /Xn−k:n :
!1/k
k
H(k) = ∑ ln (Xn−i+1:n /Xn−k:n )1/k = ln
i=1
(2)
k
∏ (Xn−i+1:n/Xn−k:n )
.
i=1
Mais geralmente, iremos agora considerar a média de ordem p ≥ 0 das estatı́sticas Uik , 1 ≤ i ≤ k < n,
dada por

p 1/p

se p > 0
 ∑ki=1 Uik /k
A p (k) =
(3)

1/k

k
se p = 0,
∏i=1 Uik
e o estimador do EVI,
Hp (k) :=
SPE 2011

 (1 − exp(−p ln A p (k))) /p se p > 0

ln A0 (k) = H(k)
(4)
se p = 0,
Mesa: Luı́sa Canto e Castro de Loura
103
Sexta, 30/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
dependente agora deste parâmetro de controlo p ≥ 0, e com H(k) e A p (k) definidos em (1) e (3),
respectivamente.
Para a derivação do comportamento não degenerado de estimadores do EVI, em contexto semiparamétrico, é usual restringir o domı́nio DM + , admitindo a validade de uma condição do tipo,
lim
t→∞
U(tx)/U(t) − xγ
xρ − 1
= xγ
A(t)
ρ
∀ x > 0,
(5)
e onde |A| tem então de ser de variação regular com ı́ndice ρ , necessariamente não-positivo [2]. É
então válido o teorema seguinte, generalização para p > 0 do resultado para p = 0 em [4].
Teorema 1. Sob a validade da condição de primeira-ordem, em (1), e para k = kn sucessão intermédia, i.e., se k = kn → ∞ e kn = o(n), quando n → ∞, a classe de estimadores Hp (k), em (4) é
consistente para a estimação de γ . Se além dissso admitirmos a validade da condição de segundaordem, em (5), temos a validade da representação assintótica
γ (1 − pγ ) Zk
1 − pγ
d
Hp (k) = γ + √ √
+
A(n/k) + o p (A(n/k)),
1
−
pγ − ρ
k 1 − 2pγ
com Zk assintoticamente normal padrão.
Com base em artigos variados, de entre os quais referimos [3], procederemos ainda à comparação,
em nı́veis óptimos, no sentido de erro quadrático médio mı́nimo, da nova classe Hp , p > 0, com
H0 , mostrando a existência de uma vasta região de valores de p onde Hp compara favoravelmente
com H0 ≡ H. Avançaremos ainda com um estudo de simulação, para comparação dos elementos da
classe de estimadores em (4), em amostras de dimensão finita.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Bingham, N., Goldie, C.M., e Teugels, J.L. (1987). Regular Variation. Cambridge Univ. Press,
Cambridge.
[2] Geluk, J., e Haan, L. de (1987). Regular Variation, Extensions and Tauberian Theorems. CWI
Tract 40, Center for Mathematics and Computer Science, Amsterdam, The Netherlands.
[3] Gomes, M.I. e Neves, C. (2008). Asymptotic comparison of the mixed moment and classical
extreme value index estimators. Statistics and Probability Letters 78:6, 643-653.
[4] Haan, L. de e Peng, L. (1998). Comparison of tail index estimators. Statistica Neerlandica 52,
60-70.
[5] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution.
Annals Statistics 3, 1163-1174.
SPE 2011
Mesa: Luı́sa Canto e Castro de Loura
104
Sexta, 30/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
Excessos acima de nı́veis aleatórios e estimação linear óptima
e centrada
Lı́gia Henriques-Rodrigues1 e M. Ivette Gomes2
1
CEAUL, Universidade de Lisboa, e Instituto Politécnico de Tomar,
[email protected]
2 DEIO, FCUL e CEAUL, Universidade de Lisboa, [email protected]
Resumo: Neste artigo abordamos um método de estimação, semi-paramétrico e invariante para
mudanças de localização e escala, de um ı́ndice de valores extremos (EVI, do inglês, extreme value
index) positivo. Tomando como base estimadores lineares centrados (BLUE, do Inglês best linear
unbiased estimators) do EVI, consideramos agora estimadores PORT-BLUE do EVI, propomos
um método heurı́stico de escolha adaptativa dos parâmetros de controlo, e aplicamos esse método à
análise de dados ambientais.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, estimadores lineares
centrados, excessos acima de nı́veis aleatórios
Introdução e objectivos
Em Estatı́stica, sempre que colocamos a questão de como combinar informação de modo a melhorar
o comportamento de um estimador, somos frequentemente levados a pensar em estimadores lineares
centrados e óptimos, i.e., em combinações lineares de um conjunto adequado de estatı́sticas, com
variância mı́nima na classe dessas combinações lineares. Na área de Estatı́stica de Extremos, e no
que concerne a estimação do ı́ndice de valores extremos, foi derivado e estudado em [2] o comportamento de estimadores BLUE assintoticamente centrados. Mas, tal como acontece com os estimadores clássicos de Hill ([5]), esses estimadores não são invariantes para mudanças de localização,
contrariamente aos estimadores PORT-Hill, introduzidos recentemente em [1], onde PORT é a sigla
para peaks over random threshold. Neste artigo consideramos estimadores PORT-BLUE do EVI, a
introduzir na Secção 2, e derivamos o seu comportamento assintótico. Na Secção 3, sugerimos uma
escolha adaptativa dos parâmetros de controlo em jogo e uma aplicação a dados ambientais.
Estimadores PORT-BLUE do EVI
Seja Xn = (X1 , . . . , Xn ), uma amostra aleatória de n variáveis aleatórias (v.a.’s) independentes e
identicamente distribuı́das com distribuição F, e denotemos Xi:n , 1 ≤ i ≤ n, a i-ésima estatı́stica
ordinal ascendentes associada. Se o máximo, Xn:n , linearmente normalizado, convergir para
uma v.a. não degenerada, então, para algum γ ∈ R, onde γ é o chamado EVI, essa v.a. limite
tem uma distribuição do tipo da distribuição de valores extremos (EV, do inglês extreme value),
então que F está no domı́nio de atração (para
EVγ (x) := exp − (1 + γ x)−1/γ , 1 + γ x > 0. Dizemos
máximos) de EVγ , e escrevemos F ∈ DM EVγ . O EVI está directamente relacionado com o peso
da cauda direita F := 1 − F, e iremos considerar caudas direitas pesadas, i.e. γ > 0. Então, com
SPE 2011
Mesa: Luı́sa Canto e Castro de Loura
105
Sexta, 30/09/2011
Extremos I
Sala Atlântico, 09:00–10:00
U(t) := F ← (1 − 1/t) := inf {x : F(x) ≥ 1 − 1/t}, e com a notação RVα para a classe de funções
de variação regular com ı́ndice de variação regular α , F ∈ DM (EVγ )γ >0 ⇐⇒ U ∈ RVγ ⇐⇒
F ∈ RV−1/γ . A consideração da contrapartida empı́rica de U(t) leva-nos então aos estimadores
de Hill, médias de k excessos das log-observações, com k = kn sucessão intermédia de inteiros
(k = kn → ∞ e k/n → 0, quando n → ∞), denotados Hn (k) ≡ Hn (k; Xn ). Face à não invariância
para a localização dos estimadores de Hill, podemos pensar na classe de estimadores PORT-Hill
baseados numa amostra de excessos acima de um nı́vel aleatório Xnq :n , nq := [nq] + 1, 0 < q < 1,
(q)
denotada Xn := Xn:n − X[nq]+1:n , . . . , X[nq]+2:n − X[nq]+1:n . Esses estimadores PORT-Hill do EVI
têm a mesma forma funcional dos estimadores de Hill, mas com a amostra inicial Xn substituı́da
(q)
(q)
(q)
por Xn , ou seja, Hn (k) ≡ Hn (k; Xn ). Em [2] consideraram-se combinações lineares assintoticamente centradas de estimadores de Hill (os chamados estimadores BLUE-H do EVI) calculados em nı́veis intermédios k − m + 1,k − m + 2, · · · ,k, i.e., combinações lineares baseadas no vector,
H ≡ (Hn (k − m + 1), · ·· , Hn (k)). Avançamos agora com
os estimadores PORT-BLUE-H do EVI,
(q)
(q)
(q)
(q)
baseados em H
≡ Hn (k − m + 1), · · · , Hn (k) , e denotados BLn (k). A normalidade assintótica destes estimadores é obtida face à validade de uma condição de segunda ordem adequada,
que rege a velocidade de convergência na condição de primeira ordem, U ∈ RVγ .
Escolha dos parâmetros de controlo e aplicação a dados ambientais
A escolha de k e q nos estimadores PORT-BLUE-H do EVI é feita com base num “bootstrap” duplo,
(q)
(q)
baseado na estatı́stica auxiliar, Tn (k) := BLn ([k/2]) − BLn (k), na linha de [3]. Procedemos ainda
à aplicação do algoritmo na análise de dados ambientais, relacionados com o número de hectares
ardidos em Portugal durante um perı́odo de 14 anos (1990-2003). A amostra, de dimensão n = 2627,
não parece ter uma estrutura temporal significativa, e usámos a amostra global, embora nos pareça
sensata a consideração de diferentes regiões, de modo a evitar heterogeneidade espacial. Fomos
conduzidos a q = 0, a uma escolha do nı́vel k̂0BL = 1319 e à estimativa PORT-BLUE-H dada por
BL∗ = 0.66, um valor consentâneo com valores anteriormente obtidos para estes dados.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Araújo Santos, P., Fraga Alves, M.I. e Gomes, M.I. (2006). Peaks over random threshold
methodology for tail index and quantile estimation. Revstat 4:3, 227–247 (2006)
[2] Gomes, M.I., Figueiredo, F. e Mendonça, S. (2005). Asymptotically best linear unbiased tail
estimators under a second order regular variation. J. Statist. Planning and Inference 134:2,
409–433.
[3] Gomes, M.I., Henriques-Rodrigues, L. e Miranda, C. (2011). Reduced-bias location-invariant
extreme value index estimation: a simulation study. Comm. in Statist. – Simul. & Comput.
40:3, 424–447. DOI: 10.1080/03610918.2010.543297
[4] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Ann.
Statist. 3, 1163–1174.
SPE 2011
Mesa: Luı́sa Canto e Castro de Loura
106
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Factores de risco para a detecção de Salmonella sp. em suı́nos
reprodutores em Portugal
Carla Correia-Gomes1 , Denisa Mendonça1 , Madalena Vieira-Pinto2 e João Niza-Ribeiro1
1
ICBAS-UP (Departamento de Estudos das Populações)/ISPUP, {cgomes, dvmendon}@icbas.up.pt,
[email protected]
2 UTAD, Departamento de Veterinária, Clı́nicas Veterinárias, [email protected]
Resumo: A Salmonela é uma das principais causas de doenças transmitidas pelos alimentos na
União Europeia. O conjunto de dados analisados neste trabalho refere-se a um estudo transversal
em suı́nos reprodutores em Portugal. O objectivo deste estudo foi a pesquisa de factores de risco
para a presença de Salmonela em suı́nos reprodutores. Foram recolhidas um total de 1.670 amostras
fecais, pertencentes a 167 explorações. Destas 170 amostras foram positivas para Salmonela. Foi,
também, aplicado um questionário para recolher informações sobre o maneio a nı́vel da exploração
e factores de risco potenciais para a Salmonela. Foi aplicada uma análise multinı́vel ao conjunto
dos dados. O primeiro nı́vel foi atribuı́do às amostras fecais e o segundo nı́vel foi atribuı́do as
explorações. Os resultados mostram associações significativas (p < 0.05) a nı́vel da exploração e a
nı́vel da amostra. Este estudo forneceu informações valiosas que devem ser incorporadas em futuros
planos de controlo deste agente na produção de suı́nos em Portugal.
Palavras–chave: Salmonela, análise multinı́vel
Introdução
Salmonela é uma das principais causas de doenças veiculadas pelos alimentos na União Europeia
(UE) nos últimos dez anos [1], sendo alguns casos associados a carne de porco. Nos suı́nos este
agente passa despercebido pois provoca geralmente infecções sub-clı́nicas. Para se reduzir a prevalência deste agente é necessário saber quais os factores de risco associados ao tipo de produção
existente. Alguns dos factores de risco conhecidos [2] estão ligados a: 1) medidas de biossegurança,
2) maneio da exploração, 3) a prática alimentares, e 4) estado de saúde dos animais relativamente a
outros agentes.
O objectivo do estudo foi a pesquisa de factores de risco para a presença de Salmonela em suı́nos
reprodutores.
Material e Métodos
Foi realizada uma amostragem representativa proporcional das explorações com porcos reprodutores em Portugal de acordo com as especificações da Decisão da Comissão 2008/55/EC. Em cada
exploração eram recolhidas 10 amostras compostas de fezes. As amostras foram enviadas para o
laboratório para detecção de Salmonela e cada amostra positiva foi serotipada. A informação refe-
SPE 2011
107
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
rente aos potenciais factores de risco foi recolhida através de um inquérito a todas as explorações
da amostra. Como os dados seguem uma estrutura multinı́vel, amostras fecais (primeiro nı́vel)
que pertencem a explorações (segundo nı́vel), foi considerada uma análise multinı́vel utilizando
um modelo misto generalizado [3], cuja variável dependente seguia uma distribuição de Bernoulli,
com a função de ligação logite. Foi utilizado o procedimento glmmPQL do pacote MASS [4] do
software R gratuito [5], que ajusta o modelo através de método de quase-verosimilhança penalizada. As variáveis com p ≤ 0.15, na análise univariável, foram selecionadas para entrar no modelo
multivariável. Os coeficientes de regressão, em seguida, foram convertidos para odds ratio (OR) e
calculados os intervalos de confiança a 95% para estes.
Resultados
Foram recolhidas um total de 1.670 amostras (nı́vel 1), pertencentes a 167 explorações (nı́vel 2) que
preencheram o questionário. De todas as amostras recolhidas 170 foram positivas para detecção
de Salmonela, correspondendo a 76 explorações infectadas. Resultados do modelo multinı́vel multivariável revelaram que as seguintes variáveis estão significativamente associadas à presença de
Salmonela (p < 0.05): região da exploração, tamanho da exploração, origem do sémen utilizado
na exploração, fase de produção, origem da dieta, controlo dos roedores, origem dos varrascos, e
número de animais nos parques amostrados.
Conclusão
Estes resultados são importantes para avaliar o risco das explorações relativamente à Salmonela e
podem ser utilizados em programas de controlo do agente e em sistemas de vigilância baseados no
perfil de risco das explorações.
Agradecimentos: Às autoridades veterinárias oficiais pela cedência dos dados. À FCT pela bolsa
de doutoramento.
Bibliografia
[1] EFSA (2011). The European Union Summary Report on Trends and Sources of Zoonoses,
Zoonotic Agents and Food-borne Outbreaks in 2009. EFSA Journal, 9(3), 2090.
[2] Fosse, J., Seegers, H. e Magras, C. (2009). Prevalence and risk factors for bacterial food-borne
zoonotic hazards in slaughter pigs: a review. Zoonoses and public health 2009, 56(8), 429–54.
[3] Goldstein, H. (2011). Multilevel Statistical Models. John Wiley&Sons.
[4] Venables, W.N. e Ripley, B.D. (2002). Modern Applied Statistics with S.. Springer.
[5] R Development Core Team (2010). R: A Language and Environment for Statistical Computing. http://www.R-project.org.
SPE 2011
108
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Modelos de resposta ao item: linking entre escalas de Matemática
Patrı́cia Costa1 , Maria Eugénia Ferrão2 e Pedro Oliveira3
1
Joint Research Centre - European Commission, [email protected]
Departamento de Matemática - Universidade da Beira Interior e CEMAPRE, [email protected]
3 Instituto de Ciências Biomédicas Abel Salazar - Universidade do Porto, [email protected]
2
Resumo: Linking define-se como sendo o procedimento estatı́stico usado para ajustar a classificação
dos examinandos em testes ou formas de teste com diferentes especificações (em termos de conteúdo
e/ou nı́vel de dificuldade e/ou na aferição de diferentes factores latentes) a uma escala única (Kolen
e Brennan [2]).
O linking entre as escalas obtidas pela aplicação da Prova de Aferição de Matemática do 6o ano
de escolaridade, do Ensino Básico, e do teste 3EMat (Costa, Oliveira e Ferrão [1]) foi efectuado pelo método linear e pelo método baseado na estimação conjunta dos parâmetros dos itens
e do factor latente, assumindo que cada um dos instrumentos é um subteste aplicado à mesma
amostra. A correlação entre a classificação obtida através da estimação conjunta e as restantes
classificações é forte, mostrando ser promissor o método aplicado para estabelecer a métrica na
perspectiva de comparação dos resultados escolares ao longo do tempo. A análise dos resultados,
do teste de hipóteses para amostras emparelhadas, permitiu verificar que não existem diferenças
estatı́sticamente significativas entre as classificações obtidas nos dois instrumentos.
Esta aplicação evidencia uma das vantagens da utilização da classe de Modelos de Resposta ao Item
que é a comparação entre examinandos da mesma população que foram submetidos a instrumentos
totalmente diferentes.
Palavras–chave: Modelos de resposta ao item, comparação de instrumentos, linking
Agradecimentos: Os autores agradecem ao Gabinete de Avaliação Educacional (GAVE) do Ministério da Educação pelos dados disponibilizados.
Bibliografia
[1] Costa, P., Oliveira, P. e Ferrão, M.E. (2008). Equalização de escalas com o modelo de resposta
ao item de dois parâmetros. Em Estatı́stica - da Teoria à Prática, Actas do XV Congresso
Anual da Sociedade Portuguesa de Estatı́stica (Hill, M.; Ferreira, M.; Dias, J.; Salgueiro, M.;
Carvalho, H.; Vicente, P. e Braumann, C., eds.), 155–166. Edições SPE.
[2] Kolen, M.J. e Brennan, R.L. (2004). Test Equating, Scaling, and Linking: Methods and Practices - 2nd ed. Springer.
SPE 2011
109
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Absentismo escolar - detecção precoce de epidemias
Joana Dias1 , Ana Rita Gonçalves2 , Ana Maria Correia1 e Emilia Athayde3
1
Departamento de Saúde Pública - ARSNorte, IP, {jdias, acorreia}@arsnorte.min-saude.pt
Universidade do Minho, [email protected]
3 Departamento de Matemática e Aplicações, Universidade do Minho, [email protected]
2
Resumo: Desde o ano lectivo 2006/2007 que o Departamento de Saúde Pública (DSP) tem em
funcionamento o Sistema de Monitorização do Absentismo Escolar na região Norte. Este trabalho
tem como objectivo propor um método estatı́stico para a detecção precoce de “picos” no absentismo
escolar na região Norte. Recomenda-se a implantação do método CUSUM e do método de Cullen
durante os dois próximos anos lectivos no Sistema de Monitorização do Absentismo Escolar na
região Norte.
Palavras–chave: Absentismo escolar, epidemias, detecção precoce
Introdução
Em 2005, o Departamento de Saúde Pública (DSP) da Administração Regional de Saúde do Norte,
I.P. desenvolveu um conjunto de actividades de preparação face à ameaça de pandemia de gripe.
Dentro dessas actividades, a implementação de um sistema de informação que forneça dados fiáveis
que permitam identificar com celeridade a ocorrência de surtos de gripe, foi considerada prioritária. Assim, desde o ano lectivo 2006/2007 que o DSP tem em funcionamento o Sistema de
Monitorização do Absentismo Escolar na região Norte. Na actual fase de desenvolvimento do projecto, é fundamental a identificação de um processo que permita validar “picos” de absentismo
escolar detectados pelo sistema.
Objectivo
Propor um método estatı́stico para a detecção precoce de “picos” no absentismo escolar na região
Norte.
Material e Métodos
O Sistema de Monitorização do Absentismo Escolar integra uma amostra de escolas do 1o , 2o e 3o
Ciclos do Ensino Básico da região e está activo entre a semana 40 de cada ano e a semana 20 do
ano seguinte, interrompendo-se durante os fins-de-semana e as férias escolares. Os dados utilizados
para este estudo abrangem os anos lectivos 2006/2007, 2007/2008, 2008/2009 e 2009/2010. Para a
caracterização do absentismo escolar, calculou-se o absentismo (%) semanal para a região em cada
um dos anos lectivos em estudo. Para a construção da área basal, testaram-se quatro métodos estatı́sticos: método de Cullen; método do 3o Quartil; método de Albuquerque; método CUSUM. Para
SPE 2011
111
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
a construção dos gráficos, utilizaram-se os dados semanais de absentismo escolar na região, nos três
primeiros anos lectivos. Os dados do ano lectivo 2009/2010 foram usados para teste. Em Portugal, a
vigilância epidemiológica da gripe é realizada pela Rede de Médicos-Sentinela em colaboração com
o Centro Nacional da Gripe. Semanalmente é elaborado um Boletim de Vigilância Epidemiológica
da gripe sazonal. Este boletim permitiu identificar as semanas epidémicas da gripe sazonal em Portugal, para posteriormente serem comparadas com as semanas epidémicas obtidas pelos métodos
referidos anteriormente.
Resultados
A análise das semanas epidémicas assinaladas pelos quatro métodos estatı́sticos utilizados (n = 33
semanas), mostrou que o método de Cullen detectou 10 semanas epidémicas, o método de Albuquerque detectou 10 semanas, o método do 3o Quartil detectou 14 e o método CUSUM detectou 12 semanas epidémicas. Comparando as semanas epidémicas detectadas por cada um dos métodos, com
as semanas epidémicas da gripe sazonal identificadas pela Rede de Médicos-Sentinela, verificou-se
que o método CUSUM foi o que melhor identificou as semanas epidémicas no absentismo escolar,
quando comparadas com a actividade gripal em Portugal. Os métodos de Cullen e de Albuquerque
também apresentaram valores elevados na proporção de verdadeiras semanas epidémicas identificadas.
Conclusão
O método CUSUM apresentou uma maior proporção de verdadeiras semanas epidémicas identificadas, seguido pelos métodos de Cullen e de Albuquerque. Portanto, recomenda-se a implantação
do método CUSUM e do método de Cullen durante os dois próximos anos lectivos no Sistema de
Monitorização do Absentismo Escolar na região Norte.
Bibliografia
[1] DSP - ARSNorte (2010). Vigilância do Absentismo Escolar na região Norte: 2009/2010.
Unidade de Vigilância Epidemiológica. Administração Regional de Saúde do Norte, I.P..
[2] Montgomery, D.C. (2008). Introduction to Statistical Quality Control. John Wiley & Sons.
[3] Schmidt, W.P., Pebody, R. e Mangtani, P. (2010). School absence data for influenza surveillance: a pilot study in the United Kingdom. Euro Surveill., 15(3):pii=19467.
SPE 2011
112
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Estudantes do Ensino Superior: Caminhos para o sucesso ou
insucesso
Otı́lia Dias1 , Isabel Pinto Doria2 e Ana Sousa Ferreira3
1
ESTBarreiro, Instituto Politécnico de Setúbal, CEAUL , [email protected]
LEAD, FP - Universidade de Lisboa, CEAUL, [email protected]
3 LEAD, FP - Universidade de Lisboa, UNIDE e CEAUL, [email protected]
2
Resumo: O insucesso escolar afecta muitos estudantes do ensino superior, conduzindo frequentemente ao abandono escolar e a profissões pouco diferenciadas e/ou mal remuneradas. Pretendendo
conhecer as variáveis que impactam o sucesso escolar, bem como indicadores de proximidade do
percurso académico, o Instituto Politécnico de Setúbal (IPS) desenhou um estudo com vista a identificar as variáveis predisponentes ao sucesso, insucesso e abandono escolares. Este trabalho incide
sobre o estudo piloto que decorreu na Escola Superior de Tecnologia do Barreiro (ESTBarreiro,
IPS) e procura compreender como é que as caracterı́sticas socio-demográficas dos estudantes, o seu
nı́vel de envolvimento com a escola e com a famı́lia e as notas de ingresso no ensino superior explicam o sucesso/insucesso.
Palavras–chave: Análise multivariada de dados, insucesso, sucesso
Introdução
O insucesso escolar afecta muitos estudantes do ensino superior, conduzindo frequentemente ao
abandono escolar e a profissões pouco diferenciadas e/ou mal remuneradas. O ensino superior em
Portugal tem vindo a viver profundas mudanças nos últimos anos. A generalização do acesso ao
ensino superior, as reestruturações dos planos curriculares em consequência do Processo de Bolonha e o aumento dos estudantes ao abrigo do acesso para Maiores de 23 anos, introduziram nas
instituições de ensino superior um corpo de estudantes bastante diferenciado relativamente às suas
competências, dificuldades e expectativas, que importa conhecer.
Em Portugal, o tema do insucesso e do abandono escolar tem sido objecto de numerosos estudos cientı́ficos procurando identificar os factores potencialmente relevantes para a sua compreensão
(Projectos inovadores no ensino superior - Programa de Intervenção Operacional Ciência e Inovação
2010). As publicações da OCDE e os resultados apresentados pelo Ministério da Ciência, Tecnologia e Ensino Superior [1] apontam para taxas de sobrevivência (rácio entre número de diplomados
e número de inscritos no 1o ano/1a vez) nas instituições do ensino superior portuguesas, na ordem
dos 67% registando-se contudo taxas mais elevadas de abandono e insucesso durante o 1o ano de
ingresso. Os ı́ndices de sobrevivência mais elevados foram observados nas áreas da Saúde e das
Ciências Sociais e Humanas, e os mais baixos nas áreas da Informática, Engenharia e Ciências
Exactas ou da Natureza.
Os nı́veis de insucesso no ensino superior constituem um problema que afecta o ambiente escolar e
acarretam diversas disfunções pessoais e sociais.
SPE 2011
113
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Procedimento e Resultados
Assumindo que a melhoria da qualidade necessita do conhecimento das variáveis que impactam
o sucesso escolar, bem como de indicadores do percurso académico, o Instituto Politécnico de
Setúbal (IPS) desenhou, através da UNIQUA (Unidade para a Qualidade e a Avaliação), um estudo
com vista a identificar os factores predisponentes ao sucesso, insucesso e abandono escolares. O
inquérito desenvolvido para os estudantes do 1o ano/1a vez, para além de conseguir identificar os
factores e processos potencialmente relevantes para a compreensão do sucesso e insucesso escolares, pretendeu também disponibilizar dados e informações sobre o perfil dos seus estudantes de
modo a contribuir para o planeamento das estratégias educativas a adoptar. Este inquérito incluiu
a informação solicitada pelo RAIDES (Inquérito ao Registo de Alunos Inscritos e Diplomados do
Ensino Superior) e a informação contida na ficha de candidatura.
A primeira aplicação piloto decorreu na Escola Superior de Tecnologia do Barreiro (ESTBarreiro,
IPS) relativa aos resultados académicos do 1o semestre do ano lectivo de 2010/2011 incidindo nas
três Licenciaturas de Engenharia Civil (LEC), Engenharia Quı́mica (LEQ) e Gestão da Construção
(LGC). No presente ano lectivo, o inquérito foi preenchido por todos os estudantes de 1a vez durante
o acto da matrı́cula. Dos 118 estudantes da ESTBarreiro/IPS que ingressaram pela 1a vez e para o
1o ano em 2010/2011 (78 em LEC, 10 em LEQ e 30 em LGC), apenas 27% são do sexo feminino,
75% são solteiros e 79% nasceram em Portugal. Estes estudantes são provenientes maioritariamente
do distrito de Setúbal (75%), vindo de Lisboa cerca de 18% e de Santarém cerca de 3%. A média das
idades destes estudantes que ingressaram na ESTBarreiro/IPS é de 26 anos (d.p. 9), sendo que 51%
dos estudantes têm uma idade inferior a 23 anos e 25% uma idade superior a 32 anos, observandose um máximo de 51 anos e um mı́nimo de 17 anos. Os estudantes com mais idade são em geral
os que procuraram os cursos de Mestrado e Pós-graduação, enquanto os mais novos visaram os
cursos de LEC e LEQ e entraram pelo Concurso Nacional de Acesso (CNA). A opção pelo curso
foi referida ser por vocação por 46% dos estudantes de LEC, 20% de LEQ e 27% LGC tendo todos
estes estudantes indicado grandes expectativas em relação ao curso: a maior parte destes estudantes
conta vir a ter sucesso a todas as unidades curriculares.
Dos alunos que entraram no 1o ano/1a vez pelo Concurso Nacional de Acesso observou-se uma
média do Ensino Secundário de 130 pontos (desvio padrão 11) e uma nota média de candidatura
de 123 pontos (desvio padrão 12), registando-se um máximo de 149 pontos e um mı́nimo de 105
pontos nesta candidatura.
À luz dos objectivos referidos, a análise dos dados obtidos neste estudo incide sobre o estudo da
relação entre as motivações, caracterı́sticas pessoais (ex: expectativas sobre o curso; idade; género;
experiências de trabalho social) e o sucesso académico recorrendo a métodos de análise multivariada
[2, 3]. Os principais resultados deste estudo são apresentados e discutidos, bem como algumas
conclusões preliminares.
Bibliografia
[1] CIES-ISCTE, ISFLUP (2009). Os Estudantes e os seus trajectos no Ensino Superior. Insucesso, Factores e Processos, Promoção de boas práticas. Projecto ETES.
[2] Pinto Doria, I. (2008). Representações Euclidianas de Dados - Uma Abordagem para
Variáveis Heterogéneas. Tese de Doutoramento, Universidade de Lisboa.
[3] Sousa Ferreira, A. (2000). Combinação de Modelos em Análise Discriminante sobre Variáveis
Qualitativas. Tese de Doutoramento, Universidade Nova de Lisboa.
SPE 2011
114
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
A satisfação e lealdade dos diplomados em turismo face às
instituições de ensino superior frequentadas. Uma aplicação
do método PLS-PM
Sofia Eurico1 , Patrı́cia Oom do Valle2 e João Albino Silva2
1
Instituto Politécnico de Leiria - Escola superior de Turismo e Tecnologia do Mar,
[email protected]
2 Faculdade de Economia da Universidade do Algarve, {pvalle, jsilva}@ualg.pt
Resumo: O presente trabalho descreve os resultados de um estudo que visa identificar os elementos
que influenciam o processo de formação da satisfação e da lealdade dos diplomados em Turismo
para com a Instituição de Ensino Superior (IES) frequentada. A metodologia do Índice Europeu
de Satisfação do Consumidor, ECSI, serviu de ponto de partida para a construção de um modelo
de investigação, norteado por um conjunto de construtos mensuráveis por meio de variáveis observáveis. O método PLS-PM foi utilizado para especificar, estimar, validar e representar o modelo
num diagrama de caminhos que permitiu espelhar as relações hipotéticas que se estabelecem entre
as diferentes variáveis. 166 diplomados em Turismo, já integrados no mercado de trabalho no sector
do Turismo, foram inquiridos e os resultados sugerem que a imagem institucional é o antecedente
mais significativo da satisfação. Esse resultado tem implicações para as IES, tendo em conta a competitividade existente e a necessidade de estratégias que actuem em conformidade com a situação.
Palavras–chave: Ensino Superior em Turismo, satisfação, ECSI, PLS-PM
SPE 2011
115
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Modelos de misturas na identificação de padrões de jardins
da cidade do Porto
A. Rita Gaio e Joaquim F. P. da Costa
Departamento de Matemática da Faculdade de Ciências da Universidade do Porto,
{argaio, jpcosta}@fc.up.pt
Resumo: Este trabalho enquadra-se na área de Análise Classificatória usando essencialmente modelos de misturas finitas. Mais concretamente, pretende-se agrupar um conjunto de 95 jardins e
praças da cidade do Porto, descritos por 3 variáveis discretas e 4 contı́nuas. É assumido que a componente contı́nua segue uma distribuição normal multivariada, a componente discreta segue uma
multinomial e que as duas componentes são independentes. No final procede-se à identificação dos
jardins tı́picos e respectivas caracterı́sticas.
Palavras–chave: Modelos de misturas finitas, análise em componentes principais
Introdução
Para K componentes, a equação genérica do modelo multivariado de misturas finitas é
h(yi |ϕ ) =
com
K
∑ πk = 1
e
K
∑ πk (wi , α ) fk (yi |θk )
(1)
k=1
πk > 0,
k = 1, . . . , K.
k=1
Aqui, h designa a função densidade de probabilidade total, yi = (yi1 , . . . ,yiJ ) é um vector de J
observações (categóricas ou contı́nuas) para a unidade i, ϕ = (α t , θ1t , . . . ,θKt ) é o conjunto dos
parâmetros do modelo a serem estimados, π1 . . . ,πK são as proporções da mistura, f1 , . . . , fK são
as densidades das componentes, e w é um vector de variáveis concomitantes, que influenciam as
proporções da mistura.
O modelo (1) resulta da composição de dois modelos: o modelo de variáveis concomitantes e o
modelo especı́fico das componentes.
O modelo de variáveis concomitantes determina as proporções da mistura em função das variáveis
concomitantes, através de um modelo de regressão logı́stica multinomial com parâmetros α i.e.,
para k ∈ {1,2, . . . ,K},
t
e(1,w )αk
πk (w,α ) = K (1,wt )α
k
∑k=1 e
t
t
t
com α = (α1 , . . . , αK ) e α1 = 0.
O modelo especı́fico das componentes modela as densidades fk (.|θk ), com parâmetros θk , k =
1, . . . ,K. Dentro da mistura k, assume-se que a densidade de cada yi j provém da famı́lia exponencial
(no nosso caso, distribuições Gaussianas e Multinomiais).
SPE 2011
117
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Os dados considerados foram recolhidos no âmbito do projecto “Biodiversity and Landscape Design” (http://bio-diver-city.fc.up.pt/), consistindo dos 95 jardins e praças existentes na cidade do
Porto. As variáveis y j consistem de 3 áreas (de coberto vegetal, de impermeabilidade e de plano de
água), da idade dos jardins, uso dominante para o qual os jardins foram concebidos, e o carácter do
espaço verde.
Após a formação dos grupos pretende-se, por um lado, identificar o jardim representativo de cada
grupo, e, por outro, descrever as caracterı́sticas de cada padrão encontrado. Esta última tarefa será
realizada através da análise em componentes principais.
Bibliografia
[1] Fahey, M.T., Thane, C.W., Bramwell, G.D. e Coward, W.A. (2007). Conditional Gaussian
mixture modelling for dietary pattern analysis. Journal of the Royal Statistical Society: Series
A, 170, Part 1, 149–166.
[2] Gruen, B. e Leisch, F. (2008). FlexMix Version 2: Finite mixtures with concomitant
variables and varying and constant parameters. Journal of Statistical Software, 28(4);
http://www.jstatsoft.org/v28/i04/
[3] McLachlan, G.J. e Peel, D. (2000). Finite Mixture Models. Wiley: New York.
SPE 2011
118
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Será possı́vel encontrar um próximo Cristiano Ronaldo?
João Neves1 , Cláudia Pascoal1 , M. Rosário de Oliveira1 , José Maia2 e Duarte Freitas3
1
CEMAT e Departamento de Matemática, Instituto Superior Técnico, Universidade Técnica de
Lisboa, {joao.d.neves, claudiapascoal}@ist.utl.pt, [email protected]
2 Faculdade de Desporto, Universidade do Porto, [email protected]
3 Departamento de Educação Fı́sica e Desporto, Universidade da Madeira, [email protected]
Resumo: O Futebol infanto-juvenil é caracterizado por um vasto quadro de exigências formais, funcionais, técnicas, tácticas e estratégicas. Uma das principais tarefas dos treinadores/seleccionadores
é tomar decisões de selecção, quase sempre de modo subjectivo, sobre os jovens que melhor configuram as exigências do treino e da competição. A avaliação objectiva das caracterı́sticas dos jovens
futebolistas e das suas aptidões permite tomar decisões mais acertadas. Um dos grandes desafios
na selecção refere-se, precisamente, à obtenção de perfis que permita diferenciar, com maior rigor
e segurança, classes de jovens seleccionados em diferentes escalões competitivos.
A abundância de informação, disponibilizada pelo crescente avanço tecnológico, tem tornado o
problema de identificar as variáveis relevantes na descrição de um dado fenómeno, de importância
capital em muitas áreas de conhecimento, que não apenas a Estatı́stica. Por exemplo, Blum e Langley [1] referem que o número de objectos necessário para obter uma dada precisão com o método
de classificação do vizinho mais próximo cresce exponencialmente com o número de variáveis irrelevantes consideradas. Assim, o estudo de um conjunto de dados é, por vezes, dividido em duas
fases: decidir quais as variáveis a usar na descrição do problema e como combinar essas variáveis
para efectivamente resolver o problema real.
Neste trabalho, considera-se um conjunto de dados formados por indicadores somáticos e motores
dos jogadores de futebol das camadas infanto-juvenis da Região Autónoma da Madeira [3] recolhidos com o objectivo de estudar o problema de selecção de jovens futebolistas. Identificam-se as
variáveis relevantes na escolha dos atletas seleccionados tendo em conta a informação mútua. Este
indicador mede a quantidade de informação que uma variável contém acerca da outra, sendo uma
medida de dependência linear e não linear entre variáveis [2]. Os resultados baseados nos estimadores clássicos de informação mútua são comparados com um novo método robusto de selecção de
variáveis, também ele construı́do a partir deste indicador. Uma vez que os critérios de selecção dos
treinadores parecem diferir entre os dois escalões de competição, os resultados obtidos são separados nos dois escalões analisados.
Palavras–chave: Informação mútua, selecção de variáveis, futebol
Bibliografia
[1] Blum, A.L. e Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, 245–271.
[2] Cover, T.M. e Thomas, J.A. (2007). Elements of information theory. 2a Edição. John Wiley
and Sons.
SPE 2011
119
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
[3] Quintal, A.J., Teixeira, A.L., Freitas, M.A., Maia, J.A., Freitas, D.L., Valdivia, A.B., Seabra, A.F., Garganta, R.M., Almeida, S.M., e Gouveia, E.R. (2007). O atleta infanto-juvenil
madeirense. Selecção, performance motora e morfológica externa. Faculdade de Desporto da
Universidade do Porto e Universidade da Madeira - Departamento de Educação Fı́sica e Desporto.
SPE 2011
120
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Modelação espacial de acidentes rodoviários em Lisboa
Ana Rita Nunes1 , Sı́lvia Shrubsall2 e Isabel Natário3
1
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, [email protected]
Centro de Sistemas Urbanos e Regionais (CESUR), Instituto Superior Técnico,
[email protected]
3 Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, Centro de Estatı́stica e
Aplicações da Universidade de Lisboa, [email protected]
2
Resumo: Os acidentes rodoviários em meio urbano contribuem para o decréscimo da qualidade
de vida e para a inequidade social das cidades. Em Portugal o número e gravidade dos acidentes
rodoviários decresceu muito nos últimos 20 anos, mas essa tendência não foi acompanhada em
meio urbano onde a situação se afasta inaceitavelmente da média europeia. Estudos noutros paı́ses
têm revelado a existência de relações entre as caracterı́sticas urbanas e a localização dos acidentes,
permitindo adequar polı́ticas e gerir recursos eficazmente. Em Portugal não são conhecidos estudos
sistemáticos neste âmbito.
Na cidade de Lisboa tem vindo a verificar-se um decréscimo no número e gravidade dos acidentes
rodoviários, mas a situação continua a ser preocupante. Deste modo, com base no conjunto de
todos os acidentes com vı́timas ocorridos na cidade de Lisboa entre 2004 e 2007, os dados são
tratados e analisados, na tentativa da caracterização do problema e, também, com vista a encontrar
factores que se mostrem mais importantes na explicação da gravidade dos acidentes. Esta análise
exploratória é feita recorrendo aos modelos lineares generalizados, nomeadamente ao modelo de
regressão logı́stica na análise da gravidade dos acidentes e ao modelo de Poisson na análise do
número de acidentes em cada freguesia da cidade de Lisboa.
Estes dados são, ainda, geo-referenciados, pelo que se pretende explorar a natureza espaço-temporal
dos mesmos, tentando perceber padrões geográficos e/ou temporais existentes, identificando factores de risco associados. Considerando a localização da ocorrência de cada acidente como aleatória
enquadra-se este problema na teoria dos processos pontuais espaciais, eventualmente com marcas
que podem traduzir a gravidade do referido acidente, permitindo a estimação da superfı́cie de risco
associada em função de factores extrı́nsecos ao acidente. Em alternativa o número de acidentes
pode, também, ser agregado em áreas, como sendo ruas, quarteirões ou freguesias.
Pretende-se assim identificar medidas mais eficientes, tendo em conta as condições prevalecentes
a nı́vel local, bem como realizar uma comparação com realidades internacionais no que respeita a
segurança rodoviária.
Palavras–chave: Acidentes rodoviários, modelos lineares generalizados, processos pontuais espaciais
Agradecimentos: Este trabalho é parcialmente suportado pelo projecto SACRA, Spatial Analysis
of Child Road Accidents, PTDC/TRA/66161/2006. Os dados utilizados no estudo foram cedidos
pela Autoridade Nacional de Segurança Rodoviária, e a sua geo-referenciação foi feita pelo Laboratório Nacional de Engenharia Civil.
SPE 2011
121
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Bibliografia
[1] Al-Ghamdi, A.S. (2002). Using logistic regression to estimate the influence of accident factors
on accident severity. Accident Analysis & Prevention, 34, 729–741.
[2] Baddeley, A. (2008). Analysing Spatial Point Patterns in R. Workshop notes, CSIRO, 2008.
http://www.csiro.au/resources/pf16h.html
[3] Baddeley, A., Bárány, I. e Schneider, R. (2007). Spatial Point Processes and their applications.
Lecture notes in mathematics. Springer.
[4] Carvalho, M.L. e Natário, I. (2008). Análise de Dados Espaciais. Sociedade Portuguesa de
Estatı́stica.
SPE 2011
122
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Participação no Allgarve, imagem do Allgarve e imagem do
Algarve: uma aplicação da análise de componentes principais não linear e da análise de correspondências
Patrı́cia Oom do Valle1 , Manuela Guerreiro1 e Júlio Mendes1
1
Faculdade de Economia da Universidade do Algarve, {pvalle, mmguerre, jmendes}@ualg.pt
Resumo: A imagem do Algarve enquanto destino turı́stico encontra-se fortemente ligada ao seu
produto turı́stico principal, o sol e o mar. Em 2007, o Governo português lançou o programa de
eventos Allgarve como os objectivos de aumentar a procura turı́stica e de reposicionar a imagem da
região enquanto destino igualmente atento e dinâmico no que respeita à oferta de produtos culturais.
Concebido na perspectiva dos turistas, o programa Allgarve não foi inicialmente bem recebido por
parte dos residentes na região. Três anos após o surgimento do programa, este estudo avalia o nı́vel
de participação dos residentes algarvios nos eventos do Allgarve e em que medida o seu grau de
envolvimento se traduz numa imagem diferente do programa mas também do próprio Algarve. O
interesse desta análise decorre do facto do Algarve ser o principal destino de férias dos algarvios
e estes representarem uma proporção muito importante do público dos eventos integrados no Allgarve. Os dados do estudo resultaram da aplicação de um questionário estruturado a uma amostra
de 241 residentes em Albufeira. A análise dos dados assenta no uso sequencial da Análise de Componentes Principais não Lineares e da Análise de Correspondências Múltiplas. O estudo evidencia
que os residentes participantes nos eventos têm uma imagem do Allgarve e do próprio Algarve diferente da partilhada pelos residentes não participantes. Os primeiros tendem a percepcionar mais
o Allgarve como um programa de eventos culturais e o Algarve como um destino de cultura e de
glamour. Os segundos revelam com uma maior frequência que o Allgarve é desporto, feiras e gastronomia e que o Algarve é um destino seguro e familiar. As conclusões deste estudo evidenciam a
relevância dos eventos enquanto instrumentos de reposicionamento de estratégias de imagem, dos
eventos e dos próprios destinos.
Palavras–chave: Análise de componentes principais não lineares, análise de correspondências
múltiplas, Allgarve, Algarve, imagem
SPE 2011
123
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Módulos interativos no ensino de Probabilidades e Estatı́stica
Rui Paiva
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria e Centro de Matemática
da Universidade do Porto, [email protected]
Resumo: O objectivo deste trabalho é apresentar o projeto MITO – “Módulos Interativos de Treino
Online” e descrever a experiência educativa de utilização de conteúdos interativos no ensino de
Probabilidades e Estatı́stica na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de
Leiria. A experiência centrou-se nas unidades curriculares de Estatı́stica dos cursos de licenciatura
em Contabilidade e Finanças e Engenharia Mecânica e fez uso de diversos tipos de componentes
interativas.
Palavras–chave: Ensino a distância, interativo, GeoGebra, Moodle, STACK
Introdução
No Espaço Europeu, a educação superior atravessa mudanças efetivas e significativas que tiveram
inı́cio há onze anos com a Declaração de Bolonha. O problema maior que estas mudanças colocam
às instituições de Ensino Superior é resolver a equação constituı́da pela necessidade de democratizar
o acesso ao seu ensino com a exigência, a profundidade e o rigor dos conhecimentos que ela tem
obrigação de produzir e de transmitir. Fomentar o estudo persistente, empenhado e continuado
ao longo do ano letivo e não apenas em momentos pontuais, que em pouco contribuem para a
consolidação dos saberes, está entre os principais objetivos da Declaração de Bolonha. Para que tal
aconteça, a avaliação, independentemente do formato que possa assumir - exames, testes, trabalhos
de casa individuais, trabalhos de grupo, etc. -, assume um papel fundamental. A revisão frequente
da matéria e a avaliação dos alunos ao longo do ano letivo implica um grande esforço por parte
do professor e, no caso do ensino da Matemática, é uma tarefa extremamente difı́cil com o atual
número de alunos existente no Ensino Superior. Neste sentido, a utilização de tecnologias tı́picas
do e-learning dentro e fora da sala de aula pode assumir um papel fundamental.
É neste contexto que surge o projeto MITO – “Módulos Interativos de Treino Online”, promovido
pelo Departamento de Matemática (DMAT) da Escola Superior de Tecnologia e Gestão (ESTG) do
Instituto Politécnico de Leiria (IPL). O principal objetivo é a construção de conteúdos interativos de
apoio às unidades curriculares do DMAT lecionadas no ensino presencial e no ensino à distância.
O projeto MITO (www.mito.ipleiria.pt/moodlemat) planeia converter-se num projeto
mais abrangente, integrando os outros Departamentos da ESTG, as outras Escolas e Unidades
Orgânicas do IPL, instituições de ensino superior nacionais e escolas do ensino básico e secundário.
Vamos apresentar o projeto MITO e o seu desenvolvimento na ESTG no ano letivo 2010/11 no
ensino de Probabilidades e Estatı́stica através das seis componentes de um módulo interativo do
MITO: perguntas de treino e de avaliação (com correção e resolução automáticas, comentário à
resposta errada e introdução da resposta sob a forma de expressão matemática), gráficos estáticos
SPE 2011
125
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
e aleatórios com elevado nı́vel de detalhes, gráficos interativos gerados pelo software GeoGebra
(www.geogebra.org), livros interativos do MITO, vı́deos tutoriais com elevada qualidade tipográfica
e slides interativos.
Bibliografia
[1] Damião, M.H., Belo, P. e Ribeiro, C. (2009). Reorganização curricular de Bolonha:
Percepções de alunos universitários. Centro de Psicopedagogia de Universidade de Coimbra.
[2] Sangwin, C. (2007). Assessing elementary algebra with STACK. International Journal for
Mathematical Education in Science and Technology, 8, 38, 987-1002.
[3] Wild, I. (2009). Moodle 1.9 Math, Packt Publishing.
SPE 2011
126
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Modelação Estatı́stica pela Teoria da Resposta ao Item
Cláudia Pereira1 , Paulo Infante2 e Gonçalo Jacinto2
1
2
ECT da Universidade de Évora, [email protected]
ECT da Universidade de Évora e CIMA-UE, {pinfante, gjcj}@uevora.pt
Resumo: A Teoria da Resposta ao Item (TRI) pretende encontrar soluções que a teoria clássica
dos testes não consegue dar resposta, nomeadamente, a de proporcionar medições que não dependam do instrumento de avaliação utilizado e conceber instrumentos de medida cujas propriedades
não dependam dos objectos medidos. O objectivo deste trabalho é modelar estatisticamente o grau
de dificuldade de provas de avaliação pela Teoria de Resposta ao Item. Pretende-se analisar os
graus de dificuldade das provas nacionais de Matemática do 3◦ ciclo do Ensino Básico e do Ensino
Secundário nos anos de 2008, 2009 e 2010, através da Teoria de Resposta ao item, de forma a correlacionar a dificuldade das provas e de algumas questões com os seus resultados finais e de modo
a avaliar comparativamente esta associação nos últimos 3 anos. Por outro lado, procuramos estudar
a influência do factor localização geográfica tomando como referência a divisão do paı́s em NUTS
II.
Palavras–chave: Teoria de Resposta ao Item, modelo logı́stico, correlação bisserial
SPE 2011
127
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Estatı́stica Forense com dados Normais — Uma abordagem
(bayesiana e frequencista) ao estudo de outliers
Fernando Rosado
Faculdade de Ciências da Universidade de Lisboa, Departamento de Estatı́stica e Investigação Operacional, Centro de Estatı́stica e Aplicações da Universidade de Lisboa,
[email protected]
Resumo: Recentemente, Rosado (2009), Rosado e Neves (2008a) e Rosado e Neves (2008b), apresentaram alguma reflexão sobre a problemática dos outliers bayesianos em geral e, mais especificamente, contribuições para o estudo de observações discordantes em dados de Estatı́stica Forense. Neste trabalho faz-se uma análise dos trabalhos pioneiros de Lindley e Evett e da respectiva
contribuição para o estudo de outliers bayesianos. Para além da perspectiva histórica concretiza-se
um estudo de outliers nos dados construı́dos por Evett (1977). A sı́ntese deste trabalho permite formular uma metodologia essencialmente prática para estudo de outliers em Estatı́stica Forense com
dados Normais.
Palavras–chave: Outliers, estatı́stica forense, razão das chances, análise bayesiana
Sobre o estudo de outliers numa perspectiva bayesiana
Em estudos da prática estatı́stica, principalmente na Estatı́stica Forense, “o ADN” e “os fragmentos
de vidro” são casos que requerem especial cuidado quer na interpretação dos dados quer no cálculo
ou valor de prova. É mais sobre os segundos que falaremos neste trabalho. Para uma análise de
outliers, através de dois exemplos, a seguir usaremos dados dos estudos pioneiros de Evett (1977) e
Lindley (1977).
Guttman (1973) é um trabalho de referência para a abordagem bayesiana no estudo de outliers. O
interesse desse estudo torna-se particularmente importante na Estatı́stica Forense, como veremos.
O modelo considerado por Guttman (1973) usa a Normalidade nos dados o que é particularmente
interessante para o estudo que pretendemos fazer neste trabalho. No entanto é limitativo pois apenas
considera observações discordantes por alterações no parâmetro de localização. Numa perspectiva
mais actual do estudo de outliers é mais importante a formalização da influência do parâmetro de
escala. É um trabalho que pode ser feito na continuação daquele que ora apresentamos.
Como habitualmente, dispomos de n observações x1 , . . . , xn . No modelo de discordância, seja considerada uma hipótese que admite aquelas observações geradas por uma normal N(µ ,σ ) e que, para
construir uma alternativa, também se supõe que uma delas possa ter sido gerada por uma normal
N(µ + m,σ ). Assim, com estes pressupostos, podemos prosseguir o estudo em diversas vertentes:
numa perspectiva de um Modelo Generativo com Alternativa Natural para estudo de outliers numa
amostra (método GAN, como é feito em Rosado (2006), cap. 4) ou, embora mais restritiva, numa
abordagem de deslizamento (como é feito em Barnett and Lewis (1994), p. 49 e p. 103) ou, ainda,
na abordagem bayesiana proposta, entre outros, por Guttman (1973). Porque desejamos prosseguir
para uma análise de observações discordantes em Estatı́stica Forense no que se segue optaremos
de perto pela última das metodologias referidas. O ponto teórico de partida é a consideração das
SPE 2011
129
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
distribuições a priori e a posteriori para os parâmetros envolvidos. Neste contexto é particularmente
relevante a influência de m que, de algum modo, é empiricamente considerada como uma medida
de contaminação dos dados o que pode ser usado para analisar a presença de um outlier na amostra.
Conclusão
Aqui chegados, várias questões são geradas pelo estudo prático que elaborámos. Para além do tema
teórico fundamental da problemática e da controvérsia “bayesianismo vs frequencismo” também
o modo como os métodos bayesianos investigam a presença (ou a ausência?) de observações discordantes numa amostra é questão que se deve aprofundar. Um outro tema - e este, se possı́vel,
ainda mais complexo e que exige pesquisa - envolve o número de contaminantes na amostra e toda
a problemática de contaminação “em bloco” ou “sequencial”; já um pouco estudada na estatı́stica
dita tradicional. Concordamos com Aitken and Taroni (2004) que, no prefácio das duas edições da
sua obra, registam e realçam o aumento da importância da Estatı́stica na Ciência Forense. Em dez
anos, dizem, foi enorme o avanço alcançado. Mas, muito há para fazer! E, quando tudo está dito
e feito, podemos continuar a citar Barnett and Lewis (1994, p. 459) para concluir que o principal
problema no estudo de outliers numa amostra continua a ser aquele que os primeiros investigadores
enfrentaram: O que é um outlier e o que fazer com essa observação?
Agradecimentos: Investigação parcialmente apoiada pela Fundação para a Ciência e Tecnologia
(FCT/OE)
Bibliografia
[1] Aitken, C. e Taroni, F. (2004). Statistics and Evaluation of Evidence for Forensic Scientists.2a
edição. Wiley.
[2] Barnett, V. e Lewis, T. (1994) - Outliers in Statistical Data. 3a edição. Wiley.
[3] Curran, J.M. (2003) - The Statistical Interpretation of Forensic Glass Evidence. International
Statistical Review 497-520.
[4] Evett, I.W. (1977) - The interpretation of refractive index measurements. Forensic Science,
209-217.
[5] Guttman, I. (1973) - Care and handling of univariate or multivariate outliers in detecting spuriosity - a Bayesian approach. Technometrics 723-8.
[6] Hawkins, D.H. (1980) - Identification of Outliers. Chapman and Hall.
[7] Lindley, D.V. (1977)- A problem in forensic science. Biometrika, 207-13.
[8] Rosado, F.(2006) - Outliers em Dados Estatı́sticos. Edições SPE.
[9] Rosado, F.(2009) - Outliers bayesianos em Estatı́stica Forense. TechnicalReport CEAUL
08/09.
[10] Rosado, F. e Neves, M. (2008a) - Sobre a Crescente Importância da Estatı́stica na Ciência
Forense. Technical Report CEAUL 1/2008.
[11] Rosado, F. e Neves, M. (2008b) - Notes on Forensic Statistics and Outlier Identification. Technical Report CEAUL 25/2008.
SPE 2011
130
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Análise prospectiva das condições de higiene e segurança alimentar na restauração
Jorge Santos1 , Raquel Menezes1 e Carlos Teixeira2
1
Departamento de Matemática e Aplicações, Universidade do Minho,
{jorge.mfd, rmenezes}@sapo.pt
2 Empresa Forvisão, Guimarães, [email protected]
Resumo: As condições de Higiene e Segurança Alimentar em estabelecimentos de Restauração são
de grande importância para todos nós. Numa primeira fase deste trabalho, analisam-se resultados
obtidos em 266 auditorias efectuadas na zona Norte de Portugal. Faz-se uma análise por Distrito,
Concelho e Lotação de cada restaurante, pretendendo-se por exemplo avaliar se o Distrito ou/e
Concelho de origem dos restaurantes afecta as classificações obtidas nos parâmetros avaliados pela
Lista de Verificação.
Outros objectivos primordiais deste trabalho passam pela identificação de pontos crı́ticos e possı́veis
intervenções. Procuram-se identificar responsabilidades dos resultados obtidos nas auditorias, se
são do pessoal ou do próprio empresário. Procura-se perceber se o tipo de investimento necessário
para melhorar as classificações são do tipo corpóreo ou não corpóreo, ou se serão requisitos de
projecto ou pós-arranque ao funcionamento do estabelecimento.
Por último, pretende-se avaliar a evolução entre 2 auditorias. Faz-se um estudo comparativo que
envolve, para além dos dados anteriores, os resultados obtidos numa segunda auditoria decorrida
sensivelmente 2 meses mais tarde. A segunda auditoria foi efectuada a 51 restaurantes, escolhidos
entre o total de 266 iniciais, tendo sido os restaurantes em questão previamente avisados.
Palavras–chave: Testes de associação, teste de McNemar, auditorias, restauração
Introdução
A base de dados fornecida é referente a auditorias executadas em estabelecimentos da Restauração
do Norte de Portugal, segundo uma Lista de Verificação para o Controlo da Higiene e Segurança Alimentar na Restauração, elaborada pela Forvisão seguindo a legislação Europeia, através da Directiva
93/43/CEE de 14 Junho e dos Regulamentos 852/2004 e 853/2004 de 29 de Abril, e a legislação
Nacional através dos DL 67/98 de 18 Março, DL 425/99 de 21 Outubro e o DL 113/2006 de 12 de
Junho.
Esta lista está dividida em oito áreas distintas de parâmetros controlados, nomeadamente as áreas:
“Higiene Pessoal”, “Instalações Sanitárias do Pessoal”, “Vestiários do Pessoal”, “Cozinha/Copa/
Balcão”, “Armazéns/Dispensas/Frigorı́ficos/Arcas Congeladoras”, “Sala de Refeições”, “Fornecedores”e ‘Condições Gerais”, em que cada parâmetro é classificado por um dos seguintes nı́veis “Não
Conforme”, “Conforme”, “Não Aplicável” ou “Não Observado”. Com o objectivo de avaliar as
condições de Higiene e Segurança Alimentar, tem-se então disponı́vel um total de 106 parâmetros,
todos eles auditados em cada um do total de 266 restaurantes, localizados em quatro distritos do
SPE 2011
131
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Norte de Portugal.
Inicializou-se este estudo com uma análise exploratória dos dados. Seguidamente, para verificar a
existência de associações entre algumas variáveis em estudo, recorreu-se ao Teste do Qui-Quadrado,
que como hipótese nula supõe a independência das variáveis, isto é a inexistência de associação entre elas. Quando os pressupostos deste teste não forem verificados, como por exemplo existirem
células com uma frequência esperada inferior a 5, recorremos ao teste exacto de Fisher para testar a existência de associação entre as variáveis. Para as variáveis em que se provou existir uma
associação estatisticamente significativa, utilizou-se o coeficiente V de Cramer para medir a força
dessa associação.
Na comparação entre as duas auditorias recorreu-se ao teste de McNemar para testar a significância
de mudança de estado entre niveis, tendo-se concluido que ocorreram diferenças significativas entre
auditorias, com melhorias na auditoria que ocorreu mais tarde. As áreas que mais melhoraram as
suas classificações foram a “Higiene Pessoal”, “Instalações Sanitárias” e “Vestiários do Pessoal”.
Bibliografia
[1] Baptista, P. e Antunes, C. (2005). Higiene e Segurança Alimentar na Restauração, Volume II
– Avançado, Forvisão - Consultadoria em Formação Integrada, S.A., Guimarães.
[2] Baptista, P. e Linhares, M. (2005). Higiene e Segurança Alimentar na Restauração, Volume I
– Iniciação, Forvisão - Consultadoria em Formação Integrada, S.A., Guimarães.
[3] Pereira, A. (2008). Guia Prático de Utilização do SPSS – Análise de Dados para Ciências
Sociais e Psicologia (7.a ed.), Edições Silabo, Lda, Lisboa.
[4] Pestana, M.H. e Gageiro, J.N. (2009). Análise Categórica, Árvores de Decisão e Análise de
Conteúdo – em Ciências Sociais e da Saúde com o SPSS, Lidel – Edições Técnicas, Lda,
Lisboa.
SPE 2011
132
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
Uma análise do fracasso escolar no Ensino Médio público de
Minas Gerais
Tufi Machado Soares1 , Neimar Fernandes da Silva1 , Mariana Calife Nóbrega1 e Alexandre
Nicolella2
1
2
CAED-UFJF, {tufi, neimar, calife}@caed.ufjf.br
USP/Campus Ribeirão Preto-Faculdade de Economia, [email protected]
Resumo: O artigo discute os determinantes do abandono escolar no Ensino Médio. Os dados utilizados se baseiam em uma ampla pesquisa realizada em seis pólos regionais de educação do estado
de Minas Gerais, que culminou com a coleta de diversas informações de um total de 3.418 entrevistados - entre alunos cursantes e não-cursantes. Com base nesses dados, estimaram-se dois modelos
de Regressão de Riscos Proporcionais de Cox, que permitiram identificar a correlação entre diversas variáveis e a chegada ao terceiro ano do Ensino Médio, e, o efeito sobre a Taxa de Abandono
condicionado às reprovações anteriores. O terceiro modelo desenvolvido utilizou as bases de dados
da PNAD - Pesquisa Nacional por Amostra de Domicı́lios - que estimou-se um modelo Logito, que
permitiu verificar a conclusão do Ensino Médio, para os jovens com 18 anos ou mais de idade por
coorte de nascimento. Os resultados encontrados vão ao encontro dos principais desenvolvimentos
da literatura, demonstrando a influência negativa, entre outros fatores, da gravidez na adolescência,
defasagem idade/série, repetência, pertencer ao gênero masculino, ı́ndice socioeconômico baixo e
necessidade de trabalhar para ajudar a famı́lia. No entanto, outros dois fatores foram medidos na
pesquisa a (falta de) qualidade do professor e a dificuldade nas disciplinas.
Palavras–chave: Fracasso escolar, Ensino Médio, modelo de regressão
Introdução
O fenômeno do abandono escolar é particularmente grave no sistema educacional público brasileiro. Sabe-se que os diferentes públicos que compõem este contingente encontram-se sujeitos a
diversas condições educacionais. Valle e Hasenbalg [3], destacam que a educação no Brasil é conhecida por apresentar distintas caracterı́sticas, como distribuição muito desigual da escolaridade
da população; ausência de igualdade de oportunidades educacionais, retratada pela alta correlação
entre o nı́vel educacional das crianças e o de seus pais e avós; profundas disparidades regionais nos
nı́veis educacionais; e nı́vel educacional médio demasiadamente baixo.
Este trabalho interpreta, porém, o efeito de variáveis ligadas aos alunos e suas trajetórias escolares,
destacando fatores que influenciam a permanência do aluno no sistema educacional. Este estudo
presta-se, portanto, a uma análise dos determinantes de chegada e de conclusão do Ensino Médio,
que de uma maneira geral, corroboram para o abandono precoce desses jovens.
Os resultados apresentados por este artigo se baseiam em duas amostras, sendo uma pesquisa realizada em 46 escolas do estado de Minas Gerais, ao final de 2009, intitulada de PSAE - Pesquisa
Sobre Abandono Escolar - e uma série histórica de dados da PNAD [1], coletadas nos anos de 2001
a 2008.
SPE 2011
133
Sexta, 30/09/2011
Sessão de POSTERS II
Átrio do Café, 10:00–10:30
A PSAE teve como população alvo os alunos cursantes do Ensino Médio das escolas públicas do
estado referido, no ano de 2009 e os alunos que abandonaram o mesmo sistema educacional antes
de sua conclusão nos anos de 2006, 2007, 2008 e 2009. No total, foram aplicados 3.418 questionários, o que permitiu delinear um panorama dos jovens que frequentam/frequentaram o sistema
educacional mineiro em suas particularidades como situação familiar, dificuldades enfrentadas dentro e fora da escola, expectativas para o futuro, entre outras. Com base nas respostas, estimaram-se
dois modelos estatı́sticos (Modelo de Regressão de COX [2]) que nos permitiu identificar os principais fatores associados à chegada ao 3o ano do Ensino Médio, e, o efeito da Taxa de Abandono
condicionado às reprovações e abandonos por essa população.
Enquanto, com a utilização das bases de dados da PNAD, foi possı́vel trabalhar com cerca de 380 mil
casos, devido o caráter nacional da pesquisa. Pelo fato de a PSAE ser uma pesquisa especı́fica para o
Ensino Médio, as informações nela contidas são muito mas ricas para a análise do abandono escolar
para esta etapa de escolaridade do que aquelas contidas na PNAD, no entanto, esta pode trazer
informações relevantes para o entendimento do abandono, por exemplo, sobre os determinantes da
conclusão do Ensino Médio por grupos de alunos nascidos nos mesmos anos. Dessa forma, com
base nas respostas, estimou-se outro modelo estatı́stico (Logito) que nos permitiu identificar outros
fatores determinantes na conclusão da etapa de escolaridade, para os jovens com 18 anos ou mais
de idade por coorte de nascimento.
Acredita-se que a análise das duas pesquisas de forma conjunta cooperem para um melhor entendimento do abandono escolar no Ensino Médio para o estado de Minas Gerais. Em especial,
percebeu-se que as caracterı́sticas mais marcantes em determinar a fuga da escola ou sua conclusão,
eram aquelas já apontadas pela literatura educacional, como dificuldade em conciliar trabalho com
os estudos, gravidez na adolescência, problemas familiares, excesso de matérias, falta de interesse,
defasagem idade/série. No entanto, outros dois fatores se sobressaı́ram nesta pesquisa à dificuldade
em aprender e a quando falta no trabalho do professor.
Bibliografia
[1] Brasil. Ministério do Planejamento, Orçamento e Gestão. Instituto Brasileiro de Geografia e
Estatı́stica. Pesquisa Nacional por Amostra de Domicı́lios (PNAD). Rio de Janeiro: IBGE;
2001-2008.
[2] Colosimo, E.A. e Giolo, S.R. (2006). Análise de Sobrevivência Aplicada. 1a ed. Edgard
Blücher Ltda: São Paulo.
[3] Valle, N. e Hansenbalg, C. (2000). Tendências da desigualdade educacional no Brasil. Dados,
Rio de Janeiro, V.43, n.3, p.423-445.
SPE 2011
134
Sexta, 30/09/2011
Inferência Estatı́stica II
Sala Premium, 10:30–11:30
Momentos de um novo estimador para o parâmetro de forma
da distribuição Weibull discreta
Paulo Araújo Santos1 , Isabel Fraga Alves2
1
2
Instituto Politécnico de Santarém e CEAUL, [email protected]
Faculdade de Ciências da Universidade de Lisboa e CEAUL, [email protected]
Resumo: Apresentamos expressões teóricas para os momentos do estimador das proporções de
Khan, Khalique e Abouammoh (1989), e para os momentos de um novo estimador proposto para
o parâmetro de forma da distribuição Weibull discreta. Mostramos que o novo estimador tem um
desempenho favorável comparativamente ao estimador das proporções, tanto em termos de viés,
como de erro quadrático médio.
Palavras–chave: Distribuição Weibull discreta, parâmetro de forma
Introdução
Em diversos campos de aplicação, modelamos os dados observados como uma amostra de um modelo contı́nuo. Em Grimshaw et al. (2005), um estudo é motivado pela prática comum de testar a
dependência com base em durações com dados económicos e financeiros, utilizando a distribuição
Weibull contı́nua quando os dados são na realidade de tipo discreto. Também em fiabilidade, vários
estudos envolvem variáveis aleatórias discretas, como o número de cópias tiradas por uma máquina,
o número de ciclos de uma máquina de lavar, entre outras. Devido a restricções práticas, com
frequência, materiais, equipamentos, dispositivos e estruturas, são monotorizados periodicamente e
não continuamente. Nestes casos, a distribuição Weibull discreta desempenha um papel importante.
Para uma resenha sobre distribuições discretas de tempos de vida, veja-se Bracquemond e Gaudoin
(2003). A distribuição Weibull discreta pode ser aplicada na análise de renovação polı́tica (Lin e
Guillén, 1998) ou em problemas económicos envolvendo dependência com base em durações, por
exemplo, o backtesting de modelos Value-at-Risk (Haas, 2005).
A distribuição Weibull discreta, versão de Nakagawa e Osaki (1975), também conhecida como
distribuição Weibull discreta tipo I, tem as seguintes função distribuição e função massa de probabilidade:
FD (d) =
θ
1 − qd , d = 1,2,3,... (pontos de salto)
,
0,
x<1
θ
θ
fD (d) = q(d−1) − qd , d = 1,2,3,...,
para 1 < q < 0 e θ > 0. Nesta distribuição, θ é o parâmetro de forma e o parâmetro q é a probabilidade de uma duração ser superior a 1. Se W é uma variável aleatória (v.a.) Weibull contı́nua,
SPE 2011
Mesa: Carla Henriques
135
Sexta, 30/09/2011
Inferência Estatı́stica II
Sala Premium, 10:30–11:30
então por discretização D = [W ] + 1, onde [W ] denota a parte inteira de W , obtemos uma v.a. Weibull discreta tipo I. Em 1984, Stein e Dattero (1984), introduziram a Weibull discreta tipo II. Em
1985, Padgett e Spurrier (1985) introduziram a Weibull discreta tipo III. A distribuição tipo II tem
uma desvantagem que decorre de ter um suporte limitado. A estimação de parâmetros é difı́cil na
distribuição tipo III. No estudo sobre distribuições discretas de tempos de vida, Bracquemond e
Gaudoin (2003), recomendam a utilização da distribuição tipo I.
Neste trabalho apresentamos expressões teóricas para os momentos do estimador das proporções de
Khan, et al. (1989), e para os momentos de um novo estimador proposto para o parâmetro de forma
θ . Mostramos que o novo estimador tem um desempenho muito superior em comparação com o
estimador das proporções, quer em termos de viés, quer em termos de erro quadrático médio.
Agradecimentos: Este trabalho é parcialmente financiado pela Fundação para a Ciência e Tecnologia (FCT/PROTEC e FCT/OE).
Bibliografia
[1] Bracquemond, C. e Gaudoin, O. (2003). A survey on discrete lifetime distributions. International Journal of Reliability, Quality and Safety Engineering, 10, 69–98.
[2] Grimshaw S.D., McDonaldb J., McQueenc G.R. e Thorleyc S. (2005). Estimating Hazard
Functions for Discrete Lifetimes Communications in Statistics - Simulation and Computation,
34(2), 451–463.
[3] Haas, M. (2005). Improved duration-based backtesting of Value-at-Risk, Journal of Risk, 8(2),
17–36.
[4] Khan, M.S.A., Khalique, A. e Abouammoh, A.M. (1989). On Estimating Parameters in a
Discrete Weibull Distribution. IEEE Transactions Reliability, 38, Aug., 348–350.
[5] Lin T. e Guillén M. (1998). The rising Hazards of Party Incumbency. A Discrete Renewal
Analysis. Political Analysis. An Annual Publication of the Methodology Section of the American Political Science Association. vol. 7, 31–57.
[6] Nakagawa T. e Osaki S., (1975). The discrete Weibull distribution. IEEE Transactions Reliability, vol 24, Dec., 300–301.
[7] Padgett W.J. e Spurrier J.D., (1985). Discrete failure models. IEEE Transactions Reliability,
vol. 34, no.3, 253–256.
[8] Stein W.E. e Dattero R., (1984). A new discrete Weibull distribution, IEEE Transactions Reliability, vol R-33, Jun., 196-197.
SPE 2011
Mesa: Carla Henriques
136
Sexta, 30/09/2011
Inferência Estatı́stica II
Sala Premium, 10:30–11:30
Núcleos de fronteira na estimação da função de distribuição
Carlos Tenreiro
CMUC, Departamento de Matemática, Universidade de Coimbra, [email protected]
Resumo: São bem conhecidos os efeitos de fronteira em estimadores do núcleos de curvas com suporte compacto, como a regressão ou a densidade de probabilidade. No contexto, menos estudado,
da estimação da função de distribuição, consideramos neste trabalho estimadores do núcleo com
correcção de fronteira e estabelecemos algumas das suas propriedades assintóticas. Os resultados
obtidos mostram a superioridade do estimador com correcção de fronteira relativamente ao estimador não corrigido do núcleo no caso da função de distribuição subjacente às observações não ser
suficientemente regular nos pontos extremos do suporte da distribuição.
Palavras–chave: Estimador do núcleo da função de distribuição, núcleos de fronteira, propriedade
de Chung-Smirnov, erro quadrático médio integrado
Introdução
Sendo X1 , . . . ,Xn cópias independentes duma variável aleatória real absolutamente contı́nua com
densidade de probabilidade f e função de distribuição F, desconhecidas, o estimador do núcleo de
F, introduzido por autores como Tiago de Oliveira [6], Watson e Leadbetter [7] ou Nadaraya [4],
surge como integral do estimador da densidade de Parzen-Rosenblatt, sendo definido, para x ∈ R,
por
1 n
x − Xi
F̄nh (x) = ∑ K̄
,
(1)
n i=1
h
R
onde K̄(u) = ]−∞,u] K(v)dv, para u ∈ R, com K um núcleo em R, isto é, uma densidade de probabilidade simétrica e limitada com suporte [−1,1], e h = hn uma sucessão de números reais estritamente
positivos que converge para zero quando n tende para infinito.
Com o objectivo de melhorar o desempenho do estimador (1) quando F não é suficientemente regular nos pontos extremos do suporte [a,b] da distribuição (suporte este que supomos conhecido),
consideramos neste estudo a utilização dos chamados núcleos de fronteira, propostos para os estimadores do núcleo da regressão e da densidade em [1], [2], [3] e [5]. O estimadorR do núcleo com
correcção de fronteira Fnh é definido por (1) sendo K̄ substituı́do por K̄x,h (u) = ]−∞,u] Kx,h (v)dv,
onde, para x ∈ ]a,b[ e 0 < h ≤ (b − a)/2, Kx,h toma a forma
 L
 K (u; (x − a)/h), a < x < a + h
K(u),
a+h ≤ x ≤ b−h
Kx,h (u) =
 R
K (u; (b − x)/h), b − h < x < b,
onde K L (·; α ) e K R (·; α ) são, para α ∈ ]0,1[, núcleos de segunda ordem com suportes contidos em
[−1,α ] e [−α ,1], respectivamente. Além disso, definimos Fnh (x) = 0 para x ≤ a e Fnh (x) = 1 para
x ≥ b.
SPE 2011
Mesa: Carla Henriques
137
Sexta, 30/09/2011
Inferência Estatı́stica II
Sala Premium, 10:30–11:30
Se, em particular, tomarmos K L (u; α ) = K(u/α )/α , verificamos que Fnh é, com probabilidade um,
uma função de distribuição contı́nua. Assim, no contexto da estimação da função de distribuição,
e contrariamente ao que acontece no caso da estimação da densidade de probabilidade, a vantagem teórica do estimador com correcção de fronteira que estabelecemos nos resultados seguintes, é
compatı́vel com a propriedade natural de obtermos um estimador próprio da função de distribuição.
Principais resultados
R
Teorema 1 (Convergênica uniforme). Para ℓ = L,R, seja K ℓ tal que supα ∈ ]0,1[ |K ℓ (u; α )| du < ∞.
Se h → 0, então
sup |Fnh (x) − F(x)| → 0 quase completamente.
x∈R
Teorema 2 (Propriedade de Chung-Smirnov). Nas condições do Teorema 1, se F é de Lipschitz e
(n/ log log n)1/2 h → 0, ou se F ′ é de Lipschitz em [a,b] e (n/ log log n)1/2 h2 → 0, então
lim sup (2n/ log log n)1/2 sup |Fnh (x) − F(x)| ≤ 1 quase certamente.
n→∞
x∈R
Teorema 3 (Desenvolvimento assintótico do erro quadrático médio integrado (EQMI)). Para ℓ =
é
tal
que
L,R,
se
Kℓ
2
R1 R ℓ
|K
(u;
α
)|du
d
α
<
∞
e
a
restrição
de
F
ao
intervalo
[a,b]
é
duas
vezes
continuamente
dife0
renciável, então
Z
Z
Z
1
h
E {Fnh (x) − F(x)}2 dx =
F(x)(1 − F(x))dx − 2
uK(u)K̄(u)du
n
n
Z
2 Z
h4
2
u K(u)du
F ′′ (x)2 dx + O n−1 h2 + o h4 .
+
4
Bibliografia
[1] Gasser, T. e Müller, H.-G. (1979). Kernel estimation of regression functions. In Smoothing
Techniques for Curve Estimation, Gasser, T., Rosenblatt, M. (Eds), Lecture Notes in Mathematics, 757, 23–68.
[2] Gasser, T., Müller, H.-G. e Mammitzsch, V. (1985). Kernels for nonparametric curve estimation. J.R. Stat. Soc. Ser. B Stat. Methodol., 47, 238–252.
[3] Müller, H.-G. (1991). Smooth optimum kernel estimators near endpoints. Biometrika, 78, 521–
530.
[4] Nadaraya, E.A. (1964). Some new estimates for distribution functions. Theory Probab. Appl.,
9, 497–500.
[5] Rice, J. (1984). Boundary modification for kernel regression. Comm. Statist. Theory Methods,
13, 893–900.
[6] Tiago de Oliveira, J. (1963). Estatı́stica de densidades: resultados assintóticos. Rev. Fac. Ciên.
Lisboa, 9, 111–206.
[7] Watson, G.S. e Leadbetter, M.R. (1963). On the estimation of the probability density. I. Ann.
Math. Statist., 34, 480–491.
[8] Yamato, H. (1973). Uniform convergence of an estimator of a distribution function. Bull. Math.
Statist., 15, 69–78.
SPE 2011
Mesa: Carla Henriques
138
Sexta, 30/09/2011
Inferência Estatı́stica II
Sala Premium, 10:30–11:30
O teste de independência de vários grupos de variáveis aleatórias
para várias amostras – Distribuições exacta e quase-exactas
da estatı́stica de razão de verosimilhanças
Filipe J. Marques e Carlos A. Coelho
1
Departamento de Matemática, Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, {fjm,cmac}@fct.unl.pt
Resumo: Neste trabalho, são desenvolvidas distribuições quase-exactas para a estatı́stica de razão
de verosimilhanças, λ , utilizada para testar a hipótese de independência de vários grupos de variáveis
para várias amostras. Utilizando uma decomposição da hipótese nula, em estudo, em duas hipóteses
nulas parciais, pode-se obter a expressão da estatı́stica de teste λ , bem como a expressão do seu
h-ésimo momento nulo e da função caracterı́stica da variável aleatória W = − log λ . Esta decomposição da hipótese nula induz uma factorização na função caracterı́stica de W que, juntamente
com resultados obtidos em [2] e [3], são a base para a obtenção das distribuições exactas de W
e λ sob uma forma adequada ao desenvolvimento de distribuições quase-exactas para estas estatı́sticas. As distribuições quase-exactas assim obtidas correspondem a uma distribuição Gama
Quase-Inteira Generalizada (GQIG, veja-se [2]) ou a misturas de distribuições GQIG. Os estudos
numéricos desenvolvidos mostram a qualidade das aproximações obtidas e as suas boas propriedades assimptóticas.
Palavras–chave: Distribuição gama inteira generalizada, independência de grupos de variáveis,
igualdade de matrizes de covariância
Distribuições exacta e quase-exactas para a estatı́stica de razão de verosimilhanças do teste de
independência de vários de grupos de variáveis aleatórias para várias amostras
O teste de independência de grupos de variáveis aleatórias para várias amostras é uma generalização
do usual teste de independência de grupos de variáveis aleatórias. No caso em estudo, consideramos
q amostras independentes, cada uma extraı́da de uma população multivariada normal, Np (µ j , Σ j )
com j = 1, . . . ,q . Estamos interessados em testar a hipótese nula


Σ11 0 . . . 0
 0 Σ22 . . . 0 


(1)
H0 : Σ1 = Σ2 = · · · = Σq =  ..
..
..
..  ( Σii não especificadas)
 .
.
.
. 
0
0
...
Σkk
onde Σii é de ordem pi × pi com i = 1, . . . ,k e p = p1 + · · · + pk . A hipótese nula em (1) pode ser
decomposta em duas hipóteses nulas parciais
onde
SPE 2011
H0 = H0b|0a ◦ H0a
(2)
H0a : Σ1 = Σ2 = · · · = Σq (= Σ) (Σ não especificada)
(3)
Mesa: Carla Henriques
139
Sexta, 30/09/2011
Inferência Estatı́stica II
Sala Premium, 10:30–11:30
é a hipótese nula de igualdade de q matrizes de covariância (veja-se [1]) e onde
H0b|0a : Σi j = 0 for i 6= j where i, j = 1, . . . ,k
assumindo que Σ1 = Σ2 = · · · = Σq (= Σ)
(4)
é a hipótese nula para testar a independência dos k grupos de variáveis (veja-se [1]).
A decomposição da hipótese nula, H0 , em (2) permite-nos obter a estatı́stica de teste, λ , como o
produto das estatı́sticas de razão de verosimilhanças, λa e λb|a , utilizadas para testar respectivamente H0|a e H0b|0a em (3) e (4). Dada a independência das estatı́sticas λa e λb|a sob H0 , a expressão
do h-ésimo momento nulo de λ pode ser obtido como o produto dos h-ésimos momentos nulos
de λa e λb|a . Esta decomposição da hipótese nula induz também uma factorização na função caracterı́stica da variável aleatória W = − log λ , a qual, juntamente com os resultados obtidos em
[2] e [3], é a base para o desenvolvimento de distribuições quase-exactas para W e para λ . As
distribuições quase-exactas assim obtidas correspondem a uma distribuição Gama Quase-Inteira
Generalizada (GQIG, veja-se [2]) ou misturas de distribuições GQIG. São apresentados gráficos
das funções densidade de probabilidade e distribuição quase-exactas de λ , para diferentes casos, e
realizados estudos numéricos, baseados numa medida de proximidade entre funções caracterı́sticas
que é também uma medida de proximidade entre funções distribuição, os quais mostram a qualidade
das aproximações desenvolvidas.
Agradecimentos: Este trabalho de investigação foi financiado pela Fundação para a Ciência e Tecnologia através do Centro de Matemática e Aplicações (CMA) da Universidade Nova de Lisboa
(Financiamento Base 2010 ISFL-1-297 de FCT/MCTES/PT).
Bibliografia
[1] Anderson, T.W. (2003). An Introduction to Multivariate Statistical Analysis. 3rd ed. New York,
J. Wiley & Sons.
[2] Coelho, C.A. (2004). The Generalized near-integer gamma distribution: a basis for “nearexact” approximations to the distributions of statistics which are the product of an odd number
of independent Beta random variables. Journal of Multivariate Analysis, 89, 191-218.
[3] Coelho, C.A. e Marques, F.J. (2011). Near-exact distributions for the likelihood ratio test statistic to test equality of several variance-covariance matrices in elliptically contoured distributions. Computational Statistics (aceite para publicação).
SPE 2011
Mesa: Carla Henriques
140
Sexta, 30/09/2011
Telecomunicações
Sala Dinastia, 10:30–11:30
Os Piratas da Internet II: O Cofre das Anomalias Mortas
Cláudia Pascoal1 , M. Rosário de Oliveira1 , Peter Filzmoser2 , António Pacheco1 e Rui Valadas3
1
CEMAT e Departamento de Matemática, Instituto Superior Técnico, Universidade Técnica de
Lisboa, [email protected], {rsilva,apacheco}@math.ist.utl.pt
2 Department of Statistics and Probability Theory, Vienna University of Technology,
[email protected]
3 Instituto de Telecomunicações, Instituto Superior Técnico, Universidade Técnica de Lisboa,
[email protected]
Resumo: Após o primeiro enredo cujo guião principal se centra no estudo de diversos métodos
de deteção de anomalias na transmissão de dados na Internet baseados em componentes principais
robustas, a ação desenvolve-se agora numa outra direção. Neste novo espisódio, as personagens
pretendem selecionar, de um vasto leque de variáveis, as mais promissoras na identificação destas
anomalias.
Em problemas reais, a existência de variáveis que não contribuem efectivamente para distinguir anomalias de tráfego regular, prejudica o desempenho dos métodos de deteção de anomalias. De modo
a minimizar este problema, sugere-se um novo método robusto de seleção de variáveis que se baseia
numa medida de associação entre variáveis, popular entre a comunidade da Teoria da Informação
[1], mas menos conhecido entre os estatı́sticos. Esta medida, denominada Informação Mútua, mede
associações lineares e não-lineares entre 2 variáveis e goza de um conjunto de propriedades teóricas
interessantes que a tornaram presença assı́dua em métodos de seleção de variáveis aplicados a diversas áreas. Blum e Langley [2] agrupam os métodos de seleção de variáveis em 3 categorias,
denominando por métodos de filtragem (filter methods) aqueles que realizam a seleção de variáveis
a priori ao método de análise que se pretende utilizar, que neste caso é: método de identificação de
outliers (ou anomalias) baseado em componentes principais robustas.
A Informação Mútua é calculada entre cada variável disponı́vel para caracterizar os objectos e a
variável (binária, no presente exemplo) que representa a classe a que cada objecto (fluxo) pertence
(assume o valor 1, se o fluxo é anómalo e 0 caso contrário). Para tal, utiliza-se um estimador robusto
da Informação Mútua, menos sensı́vel a classificações incorrectas dos fluxos como anómalos ou
regulares. Este facto é particularmente importante no caso do tráfego de Internet pois raramente há
certezas absolutas quanto à classe a que cada fluxo da amostra de treino efectivamente pertence [3].
As variáveis selecionadas como informativas na classificação das observações, são utilizadas na
estimação robusta de componentes principais. Cada nova observação será então projectada nestas
direções e classificada como anómala ou regular.
A avaliação dos novos métodos propostos é feita, não só através de um estudo de simulação, mas
também através de dados obtidos a partir de um emulador de redes, que reconstitui condições muito
próximas da realidade do funcionamento da Internet actual, e simultaneamente permite obter fluxos
em que se sabe exactamente qual a classe a que pertencem. Tal facto, permite avaliar de forma
efectiva o desempenho dos métodos de deteção de anomalias.
Palavras–chave: Seleção de variáveis, informação mútua, deteção de anomalias, análise em componentes principais
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
141
Sexta, 30/09/2011
Telecomunicações
Sala Dinastia, 10:30–11:30
Bibliografia
[1] Walters-Williams, J. e Li, Y. (2009). Estimation of mutual information: A survey. Proceedings
of the 4th International Conference on Rough Sets and Knowledge Technology, 5589/2009,
389–396.
[2] Blum, A.L. e Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, 245–271.
[3] Ringberg, H., Roughan, M. e Rexford, J. (2008). The need for simulation in evaluating anomaly detectors. SIGCOMM Comput. Commun. Rev., 38, 1, 55–59.
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
142
Sexta, 30/09/2011
Telecomunicações
Sala Dinastia, 10:30–11:30
Connectividade em Redes de Telecomunicações Ad Hoc
Gonçalo Jacinto1 , Nelson Antunes2 e António Pacheco3
1
ECT da Universidade de Évora e CIMA-UE, [email protected]
FCT da Universidade do Algarve e CEMAT, [email protected]
3 Instituto Superior Técnico, Universidade Técnica de Lisboa e CEMAT, [email protected]
2
Resumo: Uma rede de telecomunicações ad hoc é uma rede sem fios constituı́da por nós que se
organizam autonomamente e sem recurso a qualquer infra-estrutura e onde a comunicação entre dois
nós usualmente ocorre através de rotas com múltiplas ligações. Uma das medidas mais importantes
para avaliar o desempenho dos protocolos de selecção de rotas é o número de ligações necessárias
para construir uma rota, sendo que a criação dessa rota tem que ter em conta, além de outros factores,
a distribuição espacial dos nós, o alcance de transmissão de cada nó e o protocolo utilizado.
Neste trabalho é derivada a distribuição de probabilidade do número de ligações de uma rota numa
rede de telecomunicações ad hoc, quando o número de nós é fixo e uniformemente distribuı́do entre
o nó emissor e o nó destino. Esta distribuição é derivada usando o método de aleatorização de Poisson. As rotas seleccionadas usam os protocolos que seleccionam o nó mais afastado ou o nó mais
próximo do nó emissor. São obtidos resultados numéricos para comparar os protocolos de selecção
de rotas e avaliar o respectivo desempenho.
Palavras–chave: Redes de telecomunicações ad hoc, conectividade, rotas com múltiplas ligações
Introdução e Discussão
Uma das medidas mais importantes para avaliar o desempenho dos protocolos de selecção de rotas
é o número de saltos necessários para construir uma rota, sendo que a criação dessa rota tem que
ter em conta, além de outros factores, a distribuição espacial dos nós, o alcance de transmissão
de cada nó e o protocolo utilizado. A interacção destas caracterı́sticas torna bastante complexa a
tarefa de obter a distribuição de probabilidade do número de ligações necessárias para efectuar uma
comunicação entre o nó emissor e o nó destino. Por estas razões, e apesar da sua importância,
existem poucos resultados sobre este tópico e os resultados existentes consideram modelos com
rotas com apenas uma ligação ([4, 5]) e/ou resultados aproximados ([3, 2]). No artigo [1] é derivada
a distribuição de probabilidade do número de ligações duma rota numa rede unidimensional.
Neste trabalho, derivamos a distribuição de probabilidade do número de ligações quando os nós se
encontram uniformemente distribuı́dos numa área de interesse, utilizando o método de aleatorização
de Poisson. Esta distribuição de probabilidade é obtida para rotas que seleccionam o nó mais afastado ou o nó mais próximo do nó emissor.
No final do artigo são apresentados resultados numéricos para avaliar o desempenho da distribuição
de probabilidade do número de saltos e para comparar os dois métodos de selecção de rotas. Através
dos resultados obtidos concluı́mos que o protocolo que seleccciona o nó mais afastado é mais eficiente para encontrar uma rota entre o nó fonte e o nó destino.
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
143
Sexta, 30/09/2011
Telecomunicações
Sala Dinastia, 10:30–11:30
Bibliografia
[1] Antunes, N., Jacinto, G. e Pacheco, A. (2008). On the minimum hop count and connectivity
in one-dimensional Ad Hoc wireless networks. Telecommunication Systems 39 (2), 366-376.
[2] Dulman, S., Rossi, M., Havinga, P. e Zorzi, M. (2006). On the hop count statistics for randomly
deployed wireless sensor networks. International Journal of Sensor Network 1 (1), 89–102.
[3] Kuo, J.-C. e Liao, W. (2007). Hop count distribution of multihop paths in wireless networks
with arbitrary node density: Modeling and its applications. IEEE Transactions on Vehicular
Technology 4, 56, 2321 - 2331.
[4] Srinivasa, S. e Haenggi, M. (2009). Distance distributions in finite uniformly random
networks: Theory and applications. IEEE Transactions on Vehicular Technology, 59 (2), 940949.
[5] Vural, S. e Ekici, E. (2005). Analysis of hop distance relationship in spatially random sensor
networks. MobiHoc ’05: Proceedings of the 6th ACM international symposium on Mobile ad
hoc networking and computing. ACM, New York, USA.
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
144
Sexta, 30/09/2011
Telecomunicações
Sala Dinastia, 10:30–11:30
Problemas inversos em filas de espera e sua aplicação à monitorização da Internet
Gonçalo Jacinto1 e Nelson Antunes2
1
2
ECT da Universidade de Évora e CIMA-UE, [email protected]
FCT da Universidade do Algarve e CEMAT, [email protected]
Resumo: Na teoria de filas de espera, usualmente, os parâmetros do sistema são conhecidos e
pretende-se derivar as medidas de desempenho do sistema. O problema inverso consiste em observar
várias trajectórias do mesmo sistema e, utilizando as equações de evolução do sistema, deduzir os
parâmetros que deram origem a estas observações.
Este tipo de problemas inversos tem um papel fundamental na avaliação de desempenho e na
monitorização do tráfego na Internet e é usualmente denominado por medições activas. Para isso,
introduzem-se pacotes de teste da rede, chamados de sondas, e observa-se o seu desempenho. Estes
pacotes constituem uma amostra do sistema real, cuja análise permite reconstruir as caracterı́sticas
do tráfego original.
Neste trabalho, iremos abordar as diferentes metodologias utilizadas na literatura para monitorização
do tráfego na Internet através do envio de sondas e estudar o efeito da distribuição do intervalo de
tempo entre sondas. No final, iremos apresentar os desafios que ainda se colocam nos problemas
inversos em filas de espera e dos possı́veis caminhos para a sua solução.
Palavras–chave: Filas de espera, problemas inversos, medições activas
Introdução e Discussão
A enorme expansão da Internet associada com o aparecimento de novas aplicações multimédia,
colocam vários problemas no desempenho e controlo da rede. Torna-se, portanto, necessário monitorizar a rede de forma a que se consiga eficientemente medir a qualidade de serviço e construir
mecanismos de controlo da congestão da rede. É neste sentido que as medições activas têm sido
alvo de grande interesse por parte dos investigadores, pois permitem medir o desempenho do tráfego
da Internet, enviando sondas para a rede (pacotes de teste), cuja observação constitui uma amostra
do estado da rede. Este tipo de medições é realizada no inı́cio e no fim da rede, não havendo necessidade de ter acesso ao seu interior e podendo ser facilmente realizada por qualquer utilizador.
As medições activas da rede permitem estudar caracterı́sticas tão diversas da rede como perdas e
atrasos dos pacotes, a largura de banda disponı́vel, e até as caracterı́sticas do tráfego na rede.
Neste trabalho, iremos estudar os problemas inversos em filas de espera com aplicações à monitorização e análise de desempenho da Internet. Isto é, através do envio de sondas para a rede e das
suas observações, infere-se os parâmetros que descrevem a fila de espera, nomeadamente, qual a
taxa de entrada do tráfego e qual a taxa de serviço dos pacotes. Existem poucos resultados na literatura que estudam este tipo de problemas inversos e os principais são [1, 3, 5]. No entanto, como as
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
145
Sexta, 30/09/2011
Telecomunicações
Sala Dinastia, 10:30–11:30
sondas são processadas como pacotes da rede e têm um tamanho positivo, estas irão iteragir com o
tráfego real da rede e portanto são por inerência intrusivas. Como resultado desta intrusão, as medidas do sistema perturbado pelas sondas difere das medidas do sistema real, pelo que se levanta um
novo problema de determinar as caracterı́sticas do tráfego real através das caracterı́sticas do tráfego
perturbado.
Também a periodicidade do envio das sondas tem um papel fundamental na análise do sistema
real, pois, embora à partida o envio de sondas em intervalos de tempo determinı́sticos pareça ser
a forma mais simples, este envio periódico poderá sincronizar com o próprio sistema [4]. Para
evitar a sincronização, enviar as sondas segundo um processo de renovamento parece ser uma alternativa. Além disso, se o envio for efectudado segundo um processo de Poisson, um resultado
conhecido como PASTA (Poisson Arrivals See Time Averages), assegura que as médias observadas
pelas sondas convergem para o verdadeiro valor médio do sistema [2].
Neste trabalho, iremos percorrer as diversas metodologias utilizadas na monitorização do tráfego na
Internet através do envio de sondas e estudar o impacto da distribuição do intervalo de tempo entre
sondas. No final, iremos apresentar os desafios que ainda se colocam nos problemas inversos em
filas de espera e os possı́veis caminhos para a sua solução.
Bibliografia
[1] Alouf, S., Nain, P. e Towsley, D. F., R. (2001). Inferring network characteristics via momentbased estimators. INFOCOM, 1045-1054.
[2] Baccelli, F., Machiraju, S., Veitch, D. e Bolot, J. (2006). The role of PASTA in network measurement. In Proceedings of SIGCOMM ’06. ACM, New York, NY, USA, 231-242.
[3] Baccelli, F., Kauffmann, B. e Veitch, D. (2009). Inverse problems in queueing theory and
Internet probing. Queueing Systems 63, 59 - 107.
[4] Roughan, M. (2006). A comparison of poisson and uniform sampling for active measurements.
IEEE Journal on Selected Areas in Communication, 24 (2), 2299-2312.
[5] Sharma, V. e Mazumdar, R. (1998). Estimating traffic parameters in queueing systems with
local information. Performance Evaluation, 32, 217-230.
SPE 2011
Mesa: Fernanda Otı́lia Figueiredo
146
Sexta, 30/09/2011
Modelos Lineares
Sala Caminho Real, 10:30–11:30
Validação estocástica do algoritmo ziguezague na análise conjunta de regressões
Dulce Gamito Pereira1 , João Tiago Mexia2 e Victor Ramos Tavares3
1
Universidade de Évora, DMAT e CIMA, [email protected]
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, DMAT e CMA,
[email protected]
3 Doutorando do Programa de Doutoramento de Matemática, Universidade de Évora,
[email protected]
2
Resumo: A Análise Conjunta de Regressões (ACR), tem sido uma técnica bastante utilizada no
domı́nio da avaliação de genótipos/cultivares.
Mexia et al. (1999), introduziram os ı́ndices ambientais L2 que permitiram estender as técnicas de
ACR aos planos de melhoramento em blocos incompletos. Pereira (2004) desenvolveu de forma sistemática a ACR utilizando ı́ndices ambientais L2 . A aplicação destes ı́ndices aos blocos incompletos
é concretizada por um algoritmo iterativo - algoritmo ziguezague - e a sua utilização para além de
permitir obter estimadores de máxima verosimilhança dos ı́ndices ambientais, permite a obtenção
destes estimadores para outros parâmetros e a realização de testes de razão de verosimilhanças.
Desta forma consegue-se a integração da ACR na inferência estatı́stica. Embora funcionando bem
este algoritmo não dispõe de uma validação teórica para o caso geral em que não se assume trabalhar com blocos completos. Pretende-se agora obter uma validação estocástica do mesmo.
Palavras–chave: Análise Conjunta de Regressões, regressão linear, ı́ndices ambientais, validação
estocástica, algoritmo ziguezague
Bibliografia
[1] Mexia, J.T., Pereira, D.G. e Baeta, J. (1999). L2 environmental indexes. Biometrical Letters,
36, 137–143.
[2] Pereira, D.G. (2004). Conjunta Pesada de Regressões em Redes de Ensaios. Tese de Doutoramento Universidade de Évora.
[3] Pereira, D.G. e Mexia, J.T. (2009). Comparing double minimization and zigzag algorithms in
Joint Regression Analysis: the complete case. Journal of Statistical Computation and Simulation, Vol. 80, No.2 133–141.
SPE 2011
Mesa: Maria do Carmo Miranda Guedes
147
Sexta, 30/09/2011
Modelos Lineares
Sala Caminho Real, 10:30–11:30
Aplicação de modelos com dados em painel - estudo de caso
Conceição Rocha1 , Manuel Oliveira2 e Teresa Mendonça3
1
Faculdade de Economia, Universidade do Porto e CIDMA, [email protected]
Faculdade de Economia, Universidade do Porto, [email protected]
3 Departamento de Matemática, Faculdade de Ciências, U. do Porto e CIDMA, [email protected]
2
Resumo: Neste estudo de caso é feita uma análise do sinal Bispectral Index Score (BIS) em pacientes sedados por administração de propofol a partir da estimação de modelos com dados em
painel. Os dados clı́nicos foram recolhidos durante a monitorização de colonoscopias no Hospital
Universitário de Barcelona (84 casos reais). Neste trabalho explora-se a relação entre o sinal de BIS
e a quantidade de fármaco administrada, bem como as suas variações com os atributos fı́sicos do
paciente (peso, altura, sexo e LBM).
Palavras–chave: Dados em painel, regressão multivariada, modelos de efeitos fixos
A importância crescente que a medicina preventiva tem vindo actualmente a assumir, conduziu à
frequente realização de exames de diagnóstico ou apoio ao diagnóstico mais invasivos, aumentando
significativamente o uso de técnicas anestésicas (p.e. sedação). Essencialmente, existem três tipos
de fármacos para a anestesia: hipnóticos, opióides e bloqueadores neuromusculares. Os diferentes
fármacos visam diferentes objectivos. Os hipnóticos induzem a inconsciência, os opióides para
além de analgésicos são também protectores contra os reflexos autonómicos e os bloqueadores
neuromusculares são imobilizadores.
Com o aparecimento do propofol, usado pela primeira vez em 1977, a anestesia intravenosa sofreu
uma revolução, uma vez que é um agente hipnótico adequado para a indução e manutenção da anestesia, [1]. Nas últimas décadas, com a utilização de novos fármacos para administração intravenosa,
tais como o opióide remifentanil, bem como o recente desenvolvimento tecnológico a par de uma
melhor compreensão dos princı́pios farmacocinéticos levaram ao desenvolvimento de técnicas de
anestesia totalmente intravenosas.
Com a introdução na prática anestésica das bombas de perfusão TCI (Target Controlled Infusion),
[3], foi desencadeada investigação direccionada para o desenvolvimento de novos modelos para
fármacos, contribuindo para o avanço de sistemas robustos para previsão e infusão controlada. O
TCI para o propofol foi introduzido na prática clı́nica na Europa em 1996, [4], e tem despoletado
desde então um crescente interesse na investigação no sentido de optimizar a dose individualizada
a administrar.
É actualmente reconhecido que a modelação e os métodos de identificação dos sistemas devem
atender às caracterı́sticas evidenciadas pelos dados, contribuindo para o desenvolvimento e análise
de sistemas estocásticos. Um dos sinais fisiológicos analisados pelo clı́nico é o sinal Bispectral
Index Score (BIS) que é, de entre os sinais que medem o grau de hipnose, aquele que clinicamente
é mais utilizado. Este sinal, à semelhança dos outros, tem contaminações, o que significa que nem
sempre traduz de forma correcta o estado hipnótico do paciente.
Neste trabalho explora-se, por recurso à estimação de modelos com dados em painel, quer a relação
do sinal BIS com a quantidade de fármaco administrada, quer o modo como a sua variação depende
SPE 2011
Mesa: Maria do Carmo Miranda Guedes
149
Sexta, 30/09/2011
Modelos Lineares
Sala Caminho Real, 10:30–11:30
dos atributos fı́sicos do paciente. Este estudo de caso tem por base os dados, recolhidos em ambiente
clı́nico, de 84 pacientes sedados por administração do hipnótico propofol e do opióide remifentanil
que, de acordo com resultados clı́nicos reportados, potencia o efeito do propofol, [5]. Ambos os
fármacos foram administrados por recurso ao sistema TCI.
Agradecimentos: Conceição Rocha agradece a bolsa de doutoramento SFRH/BD/61781/2009 da
FCT/ESF. Os autores agradecem ao Dr. Pedro Gambús e ao Hospital Universitário de Barcelona a
base de dados utilizada neste estudo.
Bibliografia
[1] Absalom, A. e Struys, M. (2007). Overview of Target Controlled Infusions and Total Intravenous Anaesthesia. Academia Press.
[2] Anderson, R. E., Barr, G. e Jakobsson, J. G. (2002). Correlation Between AAI-Index and the
BIS-Index during propofol hypnosis: A clinical study. Journal of Clinical Monitoring and
Computing, 17, 325–329.
[3] Enlund, M. (2008). TCI: Target controlled infusion, or totally confused infusion? Call for an
optimised population based pharmacokinetic model for Propofol. Upsala J Med Sci, 113(2),
161–170.
[4] Russel, D., Wilkies, M., Hunter, S., Glen, J., Hutton, P. e Kenny, G. (1995). Manual compared
with target-controlled infusion of propofol. British Journal of Anaesthesia, 75, 562–566.
[5] Vuyk, J. (1997). Pharmacokinetic and pharmacodynamic interactions between opioids and
Propofol Jounal of Clinical Anesthesia, 9, 23S-26S.
SPE 2011
Mesa: Maria do Carmo Miranda Guedes
150
Sexta, 30/09/2011
Modelos Lineares
Sala Caminho Real, 10:30–11:30
Modelação da perda em empréstimos hipotecários:
Uma aplicação a um banco português
Luı́s Chorão e José G. Dias
ISCTE – Instituto Universitário de Lisboa, Lisboa, Portugal, [email protected],
[email protected]
Resumo: A perda em caso de incumprimento (LGD) é uma dimensão fundamental na quantificação
do risco de crédito das instituições financeiras. Este trabalho explora o uso de diferentes metodologias de análise de sobrevivência na modelação de LGD. Os resultados são ilustrados utilizando para
o efeito uma base de dados de crédito hipotecário de um Banco Português.
Palavras–chave: Perda em caso de incumprimento, empréstimos hipotecários, modelos de sobrevivência
O Acordo de Basileia permite às instituições financeiras a quantificação do risco de crédito e a consequente determinação dos nı́veis mı́nimos de capital necessário para assegurar um nı́vel mı́nimo de
solvabilidade. Existem duas possı́veis abordagens: a abordagem-padrão e a baseada em modelos internos. Sob a égide da primeira, os Bancos calculam os activos ponderados pelo risco de acordo com
os ratings externos apurados pelas agências de rating ou, na sua falta, será a entidade supervisora
(Banco de Portugal) a fornecer os ponderadores, nomeadamente a probabilidade de incumprimento
(PD), a perda em caso de incumprimento (LGD), o montante em default (EAD) e a maturidade
(M). Relativamente à segunda abordagem, duas variantes estão disponı́veis: a abordagem simples
do método de ratings internos (IRB Foundation) e a abordagem avançada (IRB Advanced). Na primeira, todos os componentes são disponibilizados pela entidade reguladora à excepção da PD que
é calculada internamente, mas validada pelo Banco Central; na segunda, todos os componentes são
determinados internamente. Como observado por Baesens e Tony em [1], quanto mais avançada é
a abordagem, maior a responsabilidade do Banco para determinar os parâmetros de risco. Um dos
grandes desafios actuais do sector bancário tem que ver com a adopção, ou não, destes métodos de
ratings internos avançados.
Durante décadas, o componente PD foi o foco de atenção em termos de modelação, tendo a modelação de LGD sido negligenciada. Os modelos LGD são difı́ceis de estimar e levará algum tempo até
que existam dados disponı́veis para construir modelos internos, devido à falta de observações de
recuperação e à complexidade do processo de recuperação. Tal como indica o Banco de Espanha
em [2], para as carteiras de empréstimo hipotecário, há um novo constrangimento resultante da falta
de dados históricos ilustrativos de novos segmentos de exposição (novos canais, novos produtos e
novos grupos de clientes).
Apesar de se tratar de uma tarefa bastante difı́cil, a modelação da LGD é importante por duas razões:
i) os bancos devem optimizar o seu processo de decisão relativamente às solicitações de crédito. No
passado, a concessão de um crédito era um processo baseado na observação da PD, i.e., rejeitar
clientes de maior risco e aceitar os mais promissores, ao preço mais adequado, permitindo aos
Bancos minimizar as perdas e maximizar os lucros esperados [3]. Com a introdução da dimensão
LGD, qualquer decisão deve ser baseada no EL (prejuizo esperado) causando uma redução no erro
SPE 2011
Mesa: Maria do Carmo Miranda Guedes
151
Sexta, 30/09/2011
Modelos Lineares
Sala Caminho Real, 10:30–11:30
do tipo II, também conhecido por risco comercial e proporcionando um aumento no volume de
negócios; ii) em conformidade com o Acordo de Basileia II, o cálculo do capital regulatório é
altamente sensı́vel à LGD, através do prejuı́zo esperado (EL), como ilustra o seguinte exemplo para
uma carteira de hipotecas (Tabela 1):
Tabela 1: EL = PD × LGD.
PD
LGD
EL
0.01
40.0
0.4
0.015
26.(6)
0.4
0.02
20.0
0.4
A escassez de soluções para a elaboração de modelos de LGD, quando comparado com a modelação
de PD, é por si só um desafio a considerar. Este trabalho explora o uso da análise de sobrevivência
na modelação de LGD. Assim, analisa-se o processo de recuperação (complementar da perda) por
meio do estimador de Kaplan-Meier, o modelo de Cox, Anderson-Gill, WLW e o modelo PWP [4].
O presente trabalho propõe-se analisar estes diferentes processos de modelação de LGD utilizando
para o efeito uma base de dados de crédito hipotecário de um Banco Português.
Bibliografia
[1] Banco de Espanha (2007). Loss given default estimates under downturn conditions (DLGD)
in mortgage loan portfolios in Spain. Validation Document 1 (pp. 10). Madrid: Banco de
Espanha.
[2] Box-Steffensmeier, J.M. e Zorn, C. (2002). Duration models for repeated events. The Journal
of Politics, 64(4), 1069–1094.
[3] Experı́an-SCOREX (2002). LGD Scoring Overview: Description, methods and application
(pp. 16).
[4] Gestel, T.V. e Baesens, B. (2009). Credit Risk Management. Oxford: Oxford University Press.
SPE 2011
Mesa: Maria do Carmo Miranda Guedes
152
Sexta, 30/09/2011
Aplicações II
Sala Atlântico, 10:30–11:30
Factores explicativos do nı́vel nutricional das mulheres indianas: Uma análise multinı́vel
José G. Dias1 e Sabu S. Padmadas2
1
ISCTE – Instituto Universitário de Lisboa, UNIDE, Lisboa, Portugal, [email protected]
Centre for Global Health, Population, Poverty & Policy, University of Southampton, United Kingdom, [email protected]
2
Resumo: Este trabalho explora os factores explicativos do nı́vel nutricional das mulheres indianas
medido simultaneamente por duas variáveis: o nı́vel de anemia e o ı́ndice de massa corporal. Para
o efeito, considera-se um modelo multinı́vel com três nı́veis de modo a permitir modelar simultaneamente a dependência entre as duas variáveis dependentes e controlar o efeito da comunidade. Os
resultados mostram que ambos os efeitos são significativos e não devem ser negligenciados neste
tipo de análises.
Palavras–chave: Nutrição, modelos multinı́vel, anemia, IMC
A Índia confronta-se actualmente com um enorme desafio de saúde pública derivado do seu perfil
nutricional. De forma persistente, existem elevados nı́veis de subnutrição, em particular do grupo
das mulheres e crianças. Estudos mostram que mais de 70% das mulheres grávidas que vivem em
meio rural são classificadas como anémicas [1]. Este problema está identificado em todo o sul da
Ásia, reflectindo problemas graves de nutrição [2].
Este estudo considera uma definição bidimensional de nutrição, assumindo que a utilização de apenas um indicador pode resultar num perfil incorrecto ou imperfeito de classificação e explicação.
Utilizaram-se dois biomarcadores que permitem uma medição mais rigorosa dos ı́ndices nutricionais: o ı́ndice de massa corporal (IMC) e o nı́vel de anemia. Os dados utilizados têm origem no
2005-06 National Family Health Surveys, em que 124385 mulheres de 109041 agregados familiares foram inquiridas em 29 estados indianos, cobrindo as 6 regiões da Índia. Este estudo baseia-se
na amostra de 87925 mulheres casadas no momento do inquérito e com idade entre os 15 e os 49
anos. Os nı́veis de anemia e de IMC estão disponı́veis em categorias ordinais para 67416 e 68671
mulheres, respectivamente. A amostra final considerada tem a dimensão de 67325 mulheres.
Entre as variáveis explicativas incluı́das no modelo consideraram-se variáveis de rendimento (ı́ndice
de riqueza do agregado familiar e a ocupação da inquirida), variáveis espaciais (local de residência
e região), a religião e a casta da inquirida, variáveis demográficas (a idade da inquirida, a idade
ao primeiro casamento, um indicador de nascimento de filho no último ano, o número de filhos
vivos), o nı́vel educacional da inquirida e do marido, a estrutura do agregado familiar e o sexo
do responsável pelo agregado, a exposição aos meios de comunicação e variáveis de medição da
autonomia feminina.
Este trabalho modela simultaneamente estas duas variáveis ordinais utilizando um modelo multinı́vel a três nı́veis, sendo o nı́vel um ocupado pelas variáveis dependentes. O nı́vel dois é ocupado
pela inquirida, definindo-se uma estrutura factorial para permitir a correlação entre os nı́veis de
resposta da inquirida às duas variáveis de nı́vel um. O nı́vel três controla o efeito da comunidade. Utiliza-se uma parametrização probit ordinal. Para além do efeito significativo das variáveis
SPE 2011
Mesa: Frederico Caeiro
153
Sexta, 30/09/2011
Aplicações II
Sala Atlântico, 10:30–11:30
independentes em pelo menos uma das variáveis dependentes, os resultados mostram, via efeitos
aleatórios, que as respostas estão associadas e existe o efeito do nı́vel comunidade (nı́vel três) que
deve ser tido em atenção na estimação e interpretação dos resultados.
Agradecimentos: Os autores agradecem o apoio financeiro da FCT – Fundação para a Ciência e a
Tecnologia (PTDC/CS-DEM/108033/2008).
Bibliografia
[1] Bentley, M.E. e Griffiths, P.L. (2003). The burden of anemia among women in India. European
Journal of Clinical Nutrition, 57(1), 52–60.
[2] Griffiths, P.L. e Bentley, M.E. (2001). The nutrition transition is underway in India. Journal of
Nutrition, 131(10), 2692–2700.
SPE 2011
Mesa: Frederico Caeiro
154
Sexta, 30/09/2011
Aplicações II
Sala Atlântico, 10:30–11:30
Há causalidade entre as variáveis económicas e os indicadores de saúde? Uma abordagem através de vectores autorregressivos com correcção de erros e da causalidade multivariada à Granger
José Ramos Pires Manso1 e Ernesto Ferreira2
1
2
Universidade da Beira Interior, [email protected]
Universidade da Beira Interior, [email protected]
Resumo: A esperança de vida à nascença (LEB) é geralmente apresentada como um indicador
de qualidade de vida de um paı́s e para a sua explicação têm sido seleccionados diversos factores,
nomeadamente alguns relacionados com as condições de saúde; mas estas condições dependem
de indicadores económicos como é o caso do PIB (GDP), as despesas pública (PubHe) e privada
(PrvHe) com a saúde, os três agregados expressos em valores constantes (dólares EUA de 2009),
per capita e em paridade de poder de compra para que se possam fazer comparações internacionais;
a estes acrescentamos ainda o número de médicos e uma trend (variável temporal), habitualmente
relacionada com o progresso técnico. O objectivo desta comunicação é assim testar se haverá algum nexo de causalidade multivariada nos termos definidos por Granger das variáveis económicas
para os indicadores ou variáveis de saúde (LEB - iniciais de life expectance when born) usando
dados da realidade portuguesa, à semelhança do que ocorre nalguns dos paı́ses do mundo ocidental
desenvolvido.
Com esta investigação esperamos identificar uma interessante rede (network) entre as variáveis
acima referidas - económicas e de saúde - usando em particular na análise vectores autorregressivos com correcção de erro (modelos VECM) quer para estudar a sensibilidade do indicador LEB
a alterações de alguns dos indicadores económicos e outros como o PIB per capita, as despesas
em saúde pública e privada, todas per capita, e ainda o número de médicos e o trend; esta abordagem entronca nas chamadas funções IR (Impulse-Response Functions); é também nossa intenção
quantificar a influência de cada uma dessas variáveis explicativas na explicação das variações da
esperança média de vida (a chamada Cholesky decomposition) e, acima de tudo, apreciar se existe
uma relação de causa e efeito no sentido grangeriano e multivariado do termo daquelas variáveis
sobre o indicador esperança de vida em Portugal.
Palavras–chave: Metodologia VAR, integração, cointegração, funções impulso-resposta, causalidade multivariada, indicadores de saúde, Portugal
SPE 2011
Mesa: Frederico Caeiro
155
Sexta, 30/09/2011
Aplicações II
Sala Atlântico, 10:30–11:30
Os Eborenses e a prática desportiva
Luı́sa Carvalho1 , Paulo Infante2 e Anabela Afonso2
1
Departamento de Matemática, Universidade de Évora, [email protected]
Departamento de Matemática e Centro de Investigação em Matemática e Aplicações, Universidade
de Évora, {pinfante, aafonso}@uevora.pt
2
Resumo: Os estilos de vida saudáveis são promovidos por práticas activas que diminuam e combatam o sedentarismo, reduzindo consideravelmente os riscos de várias doenças. A Organização
Mundial de Saúde reconhece a grande importância da actividade desportiva para a saúde fı́sica,
mental e social, e para o nosso bem-estar. Aponta para a necessidade de polı́ticas que levem em
conta as necessidades e possibilidades dos diferentes indivı́duos, procurando integrar a actividade
fı́sica no dia-a-dia de todas as faixas etárias em todos os sectores sociais. Neste contexto, diferentes municı́pios têm desenvolvido diversas iniciativas de promoção da prática desportiva procurando
também conceber infra-estruturas que tentem ir de encontro a este objectivo e às necessidades e
desejos dos seus munı́cipes. Numa colaboração entre a Universidade de Évora e a Câmara Municipal de Évora, desenvolveu-se um estudo tendo como objectivo principal a caracterização da prática
desportiva no Concelho de Évora com base nos seus hábitos desportivos, grau de satisfação com a
oferta desportiva e com os equipamentos desportivos municipais e perfil sociocultural.
Inicialmente foi concebido um questionário tendo em conta os objectivos definidos pela secção de
Desporto do Municı́pio de Évora, o qual, depois de validado, foi aplicado a uma amostra representativa dos munı́cipes deste Concelho (com base nos dados fornecidos pelo INE nos Censos 2001).
Neste trabalho efectua-se uma descrição das principais etapas do estudo e apresentam-se os resultados mais importantes que caracterizam a actividade fı́sica neste concelho. Além da estatı́stica descritiva e dos testes não paramétricos de associação, utilizam-se ferramentas estatı́sticas que permitem
traçar diferentes perfis de praticantes como é o caso da regressão logı́stica. Por fim, compararam-se
os resultados deste estudo com os obtidos em estudos desenvolvidos a nı́vel nacional e europeu.
A nı́vel nacional refira-se o estudo comparativo apresentado em [1], onde factores como a idade,
sexo, nı́vel de escolaridade e estatuto socioprofissional surgem associados à prática desportiva. A
nı́vel da União Europeia têm-se realizado alguns estudos relacionados com a temática, sendo o
mais recente efectuado pelo Eurobarómetro em 2010, com dados referentes a 2009 [2]. Este estudo indica-nos que Portugal é um dos piores paı́ses da União Europeia, com os menores ı́ndices
da prática desportiva (33%) à semelhança dos paı́ses mediterrânicos. Em contrapartida os paı́ses
nórdicos, tais como Suécia e Finlândia, apresentam um ı́ndice de prática desportiva de 72%.
Palavras–chave: Amostragem, análise exploratória de dados, inferência
Bibliografia
[1] Mariovet, S. (2000). Práticas Desportivas na Sociedade Portuguesa (1988-1998). Em Actas do IV Congresso Português de Sociologia: Passados Recentes, Futuros Próximos. APS
Publicações. Disponı́vel em:
SPE 2011
Mesa: Frederico Caeiro
157
Sexta, 30/09/2011
Aplicações II
Sala Atlântico, 10:30–11:30
http://www.aps.pt/cms/docs prv/docs/DPR462e088b86481 1.PDF.
Consultado a 10 de Abril de 2011.
[2] TNS Opinion & Social (2010). Sport and Physical Activity. Special Eurobarometer
334/Wave72.3. European Commission. Disponı́vel em:
http://ec.europa.eu/public opinion/archives/ebs/ebs 334 en.pdf.
Consultado a 10 de Abril de 2011.
SPE 2011
Mesa: Frederico Caeiro
158
Sexta, 30/09/2011
Sessão Plenária III
Sala Premium, 11:35–12:30
Some recent results for functional data analysis
Graciela Boente
Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires and CONICET, Argentina, [email protected]
Abstract: In many situations, when dealing with several populations equality of the covariance
operators is assumed. In this talk, we will briefly discuss the extension to the functional setting of
the common principal component model that has been widely studied when dealing with multivariate observations (see, Flury, [6]).
Keywords: Covariance operators, functional data, principal components, robust estimators
Introduction
Functional data analysis provides modern analytical tools for data that are recoded as images or as
a continuous phenomenon over a period of time. Because of the intrinsic nature of these data, they
can be viewed as realizations of random functions often assumed to be in L2 (I ), with I a real
interval or a finite dimensional Euclidean set.
On the other hand, when working with more than one population, as in the finite dimensional case,
a common assumption is to assume the equality of covariance operators. In the case of finitedimensional data, test for equality of covariance matrices have been extensively studied (see for
example Seber [11]), even when the sample size is greater than the size of the variables (see Ledoit
and Wolf [8] and Schott [10]). As in the multivariate setting, assuming equality of covariance
operators is not satisfactory since the covariance operators may exhibit some common structure.
During this talk we will briefly discuss the extension to the functional setting of the common principal component model and we will present estimators of the unknown parameters as well as a robust
approach for the common directions and their size related to the proposal given by Boente et al. [4].
If possible, we will present a proposal for testing the hypothesis that the covariance operators of k−
populations of random objects are equal based on the norm of the difference among estimates of the
operators.
Preliminaries and notation
Let us consider independent random elements X1,1 , . . . ,Xk,1 in a separable Hilbert space H (often
L2 (I )) with inner product h·,·i and norm kuk = hu,ui1/2 and assume that EkXi,1 k2 < ∞. Denote
by µi ∈ H the mean of Xi,1 , µi = E(Xi,1 ) and by Γi : H → H the covariance operator of Xi,1 .
Let ⊗ stand for the tensor product on H , e.g., for u, v ∈ H , the operator u ⊗ v : H → H is
defined as (u ⊗ v)w = hv,wiu. With this notation, the covariance operator Γi can be written as
Γi = E{(Xi,1 − µi ) ⊗ (Xi,1 − µi )}, which is just the functional version of the variance–covariance
SPE 2011
Mesa: Ana M. Pires
159
Sexta, 30/09/2011
Sessão Plenária III
Sala Premium, 11:35–12:30
matrix in the classical multivariate analysis. The operator Γi is linear, self-adjoint and continuous.
R
In particular, if H = L2 (I ) and hu, vi = I u(s)v(s)ds, the covariance operator isRdefined through
the covariance function of Xi , γi (s,t)R =RCOV(Xi,1 (s), Xi,1 (t)), s,t ∈ I as (Γi u)(t) = I γi (s,t)u(s)ds.
It is usually assumed that kγi k2 = I I γi2 (t,s)dtds < ∞ hence, Γi is a Hilbert-Schmidt operator.
Hilbert–Schmidt operators have a countable number of eigenvalues, all of them being real.
Let F denote the Hilbert space of Hilbert–Schmidt operators with inner product defined by
∞
hH1 , H2 iF = trace(H1 H2 ) =
∑ hH1 uℓ , H2 uℓ i
ℓ=1
2 1/2 , where {u : ℓ ≥ 1} is any orthonormal basis of
and norm kHkF = hH, HiF = {∑∞
ℓ
ℓ=1 kHuℓ k }
H , while H1 , H2 and H are Hilbert-Schmidt operators, i.e., such that kHkF < ∞. Choosing an
orthonormal basis {φi,ℓ : ℓ ≥ 1} of eigenfunctions of Γi related to the eigenvalues {λi,ℓ : ℓ ≥ 1} such
2
2
that λi,ℓ ≥ λi,ℓ+1 , we get kΓi k2F = ∑∞
ℓ=1 λi,ℓ . In particular, if H = L (I ), we have kΓi kF = kγi k.
1/2
The Karhunen-Loéve expansion for the process leads to
Xi,1 = µi +
∞
1
2
∑ λiℓ fiℓ φi,ℓ .
(1)
ℓ=1
The random variables fim are the standardized coordinates of Xi,1 − µi on the basis {φi,ℓ : ℓ ≥ 1},
1
2 ) = 1, E( f
that is, fim = hXi,1 − µi ,φi,m i/λim2 . Note that E( fim ) = 0, while E( fim
im f is ) = 0 for m 6= s,
since COV (hu, Xi,1 − µi i, hv, Xi,1 − µi i) = hu, Γi vi.
The problem
Let Xi,1 (t), · · · ,Xi,ni (t) for i = 1, . . . ,k be independent observations from k independent samples of
smooth random functions in a separable Hilbert space H with mean µi and covariance operator Γi .
An natural way to estimate the covariance operators
Γi for i =
1, . . . ,k is to consider the empirical
bi = ∑ni Xi, j − Xi ⊗ Xi, j − Xi /ni , where Xi = 1/ni ∑ni Xi, j . Daucovariance operator given by Γ
j=1
j=1
√ b
xois et al. [5] proved that n Γ
converges
in
distribution
to
a
zero
mean
gaussian
random
−
Γ
i
i
i
element Ui of F .
bsi of the covariance operators were studied in Boente and Fraiman [2] while the
Smooth estimators Γ
robust scatter estimators proposed by Locantore et al. [9] and further developed by Gervini [7] may
be considered, if one suspects that outliers may be present in the sample.
A natural extension to the functional setting of the common principal components model introduced by Flury [6] is to assume that the covariance operators Γi have common eigenfunctions φℓ (t)
but different eigenvalues λiℓ . In this sense, Karhunen-Loéve expansion (1) of the processes Xi,1 ,
1
2
1 ≤ i ≤ k, can be written as Xi,1 = µi + ∑∞
ℓ=1 λiℓ f iℓ φℓ , with λi1 ≥ λi2 ≥ · · · ≥ 0 and so, the common
eigenfunctions, as in the one–population setting, exhibit the same major modes of variation. We
will denote this model the functional common principal component (FCPC) model. As in principal component analysis, the FCPC model could be used to reduce the dimensionality of the data,
retaining as much as possible of the variability present in each of the populations. Besides, this
SPE 2011
Mesa: Ana M. Pires
160
Sexta, 30/09/2011
Sessão Plenária III
Sala Premium, 11:35–12:30
model provides a framework for analysing different population data that share their main modes of
variation φ1 , φ2 , . . . . A similar problem was recently studied by Benko et al. [1] who considered the
case of k = 2 populations and provide tests for equality of means and equality of a fixed number of
eigenfunctions.
The aim of this talk is to briefly introduce estimators of the common eigenfunctions under a FCPC
model and to describe their asymptotic behaviour, as well as to consider robust estimators based on
a projection–pursuit approach.
If possible, we will also consider tests for the equality of the covariance operators of k populations,
that is, we wish to test the null hypothesis H0 : Γ1 = · · · = Γk against H1 : ∃ i 6= j such that Γi 6= Γ j .
Let N = n1 + · · · + nk and assume that ni /N → τi . A natural test statistic is given by Tk,n =
bj −Γ
b1 k2 , where Γ
bi are, for instance, the empirical covariance operators of i−th popuN ∑kj=2 kΓ
F
lation. The asymptotic behaviour of Tk,n under the null and under contiguous alternatives related to
the functional common principal model will be described, as well as a bootstrap approach.
Acknowledgements: This talk is based on recent results with Lucas Bali, Daniela Rodriguez and
Mariela Sued from the University of Buenos Aires.
Bibliography
[1] Benko, M., Härdle, P. and Kneip, A. (2009). Common Functional Principal Components.
Annals of Statistics, 37, 1-34.
[2] Boente, G. and Fraiman, R. (2000). Kernel-based functional principal components. Statistics
and Probabability Letters, 48, 335-345.
[3] Boente, G., Rodriguez, D. and Sued, M. (2010). Inference under functional proportional and
common principal components models. Journal of Multivariate Analysis, 101, 464-475.
[4] Boente, G. Pires, A. M. and Rodrigues, I. (2006). General projection–pursuit estimators for
the common principal components model: Influence functions and Monte Carlo study. Journal
of Multivariate Analysis, 97, 124-147.
[5] Dauxois, J., Pousse, A. and Romain, Y. (1982). Asymptotic theory for the principal component
analysis of a vector random function: Some applications to statistical inference. Journal of
Multivariate Analysis, 12, 136-154.
[6] Flury, B. (1988). Common principal components and related multivariate models. New York:
John Wiley.
[7] Gervini, D. (2008). Robust functional estimation using the spatial median and spherical principal components. Biometrika, 95, 587-600.
[8] Ledoit, O. and Wolf, M. (2002). Some hypothesis tests for the covariance matrix when the
dimension is large compared to the sample size. Annals of Statistics, 30, 1081-1102.
[9] Locantore, N., Marron, J. S., Simpson, D. G., Tripoli, N., Zhang, J. T. and Cohen, K. L. (1999).
Robust principal components for functional data (with Discussion). Test, 8, 1-73.
SPE 2011
Mesa: Ana M. Pires
161
Sexta, 30/09/2011
Sessão Plenária III
Sala Premium, 11:35–12:30
[10] Schott, J. (2007). A test for the equality of covariance matrices when the dimension is large
relative to the sample sizes. Computational Statistics & Data Analysis, 51, 6535-6542.
[11] Seber, G. (1984). Multivariate Observations. John Wiley and Sons.
SPE 2011
Mesa: Ana M. Pires
162
Sexta, 30/09/2011
Estatı́sticas Oficiais
Sala Premium, 14:30–15:30
Acesso à informação estatı́stica oficial para fins de investigação
cientı́fica
José A. Pinto Martins
Instituto Nacional de Estatı́stica, [email protected]
Resumo: A comunidade académica apresenta necessidades especiais no tocante à informação estatı́stica, nomeadamente para o desenvolvimento de trabalhos de investigação e para a elaboração
de teses de Mestrado e Doutoramento.
Neste contexto, o Instituto Nacional de Estatı́stica (INE) estabeleceu um Protocolo com a Fundação
para a Ciência e a Tecnologia (FCT) e o Gabinete de Planeamento, Estratégia, Avaliação e Relações
Internacionais do ex–MCTES (GPEARI), com o objectivo de facilitar o acesso dos investigadores
(acreditados) à informação estatı́stica oficial de que necessitam para o exercı́cio da sua actividade.
Na apresentação serão explicados os procedimentos necessários à acreditação cientı́fica em sede do
GPEARI, bem como o conjunto de bases de dados já preparadas especificamente pelo INE para
utilização ao abrigo desta forma de acesso. O acesso a esta informação é gratuito para os investigadores.
Palavras–chave: Bases de dados do INE, acreditação de investigadores, dados estatı́sticos individuais anonimizados, estatı́sticas oficiais, acesso gratuito e privilegiado
SPE 2011
Mesa: José Ramos Pires Manso
163
Sexta, 30/09/2011
Estatı́sticas Oficiais
Sala Premium, 14:30–15:30
Qualidade dos Censos 2011: Mapa de Alerta
Elizabeth Reis, Paula Vicente e Álvaro Rosa
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE-IUL, Lisboa,
{ear,paula.vicente,alvaro.rosa}@iscte.pt
Resumo: No presente estudo desenha-se um Mapa de Alerta com três nı́veis de risco potencial para
as freguesias portuguesas com o principal objectivo de fornecer aos coordenadores de freguesia e
concelhios informação que lhes permita garantir elevada qualidade dos processos na Operação Censos 2011.
Palavras–chave: Censos, qualidade dos processos, análise de clusters, mapa de alerta
Introdução
Os recenseamentos da habitação e da população (censos) constituem a maior e mais dispendiosa
operação estatı́stica que um paı́s pode levar a cabo [1] e têm como principal objectivo fornecer
informação estatı́stica de elevada qualidade que responda às necessidades dos seus utilizadores.
Nas operações censitárias existe a possibilidade de erro a vários nı́veis e em diferentes etapas do
processo. Para os Censos 2011 o INE pretendia implementar mecanismos que permitissem detectar
falhas e sinalizar aspectos que pudessem ser melhorados no decorrer da própria operação, bem
como quantificar os diferentes tipos de erros [2]. Com esse objectivo foi criado um Sistema de
Indicadores de Alerta (SIA) para as unidades estatı́sticas (alojamentos e indivı́duos) a observar nos
Censos 2011. Com a sua implementação pretendia-se obter informação sobre potenciais desvios da
recolha e averiguar a sua provável causa, monitorizando em tempo real o processo de distribuição
e recolha de questionários, desencadeando acções de ajustamento ou correcção com vista a garantir
os princı́pios de qualidade que balizam a realização de uma operação censitária.
O SIA proposto inclui o desenho de um mapa com três nı́veis de alerta com base num conjunto
de indicadores que permitem identificar o grau de risco potencial de cada freguesia não garantir
elevada qualidade do produto final e ao qual corresponde um grau de acompanhamento da operação
por parte do coordenador concelhio da operação censitária.
Mapa de Alerta
Para a construção do Mapa de Alerta (MA) com três nı́veis de risco (Reduzido=Verde, Médio=Laranja, Elevado=Vermelho) propõe-se um conjunto de indicadores, que incluem as caracterı́sticas demográficas dos coordenadores ao nı́vel das freguesias (presidentes das Juntas), as suas competências
especı́ficas e experiência anterior para a realização deste tipo de tarefas. Esta informação foi recolhida através da realização de um inquérito aos Presidentes das 4260 Juntas de Freguesia (PJF)
do Continente e Ilhas com base num questionário estruturado que incluı́a ainda questões sobre a
percepção dos PJF em relação às caracterı́sticas da freguesia e dos recenseadores que pudessem
SPE 2011
Mesa: José Ramos Pires Manso
165
Sexta, 30/09/2011
Estatı́sticas Oficiais
Sala Premium, 14:30–15:30
dificultar o trabalho a desenvolver durante a operação Censos 2011: existência de população idosa,
analfabeta, residente em bairros sociais, emigrante, imigrante e sem abrigo; habitações em regime de
condomı́nio fechado e alojamentos de segunda habitação; áreas de construção habitacional recente,
de difı́cil acesso, com habitações muito dispersas e tipo dormitório; recrutamento de recenseadores
com competências e com disponibilidade.
Método
Para a construção do Mapa de Alerta definem-se os seguintes passos metodológicos:
(1) Análise em componentes principais sobre as variáveis recolhidas através do Inquérito aos PJF
para reduzir a informação disponı́vel (número de variáveis) e uniformizar as escalas de medida das
variáveis originais; (2) Estimação do número de grupos k através de modelos de mistura finita ou
segmentos latentes; (3) Classificação não hierárquica das freguesias para uma partição em k grupos
através da análise de clusters k-médias; (4) Validação do número de grupos k através da análise
discriminante com validação cruzada; (5) Caracterização da partição em k grupos de freguesias
com base na informação dos Censos 2001 e no nı́vel de risco potencial de cada agrupamento.
Resultados
Obtiveram-se 3855 respostas ao inquérito aos PJF num total de 4260 freguesias a quem foi enviado
o questionário correspondendo a uma taxa de resposta de 90,5%. Extraı́ram-se sete componentes
principais denominadas por “Competências do PJF”, “Experiência do PJF”, “População de difı́cil
contacto”, “Competências e disponibilidade dos recenseadores”, “População envelhecida”, “Zonas
(interior) desertificadas” e “Zonas com população ausente (recentes ou de 2a habitação)”. A escolha
do número de grupos foi previamente validada com a aplicação de modelos de mistura finita ou
segmentos latentes que apontaram para a existência de 7 grupos. O grau de risco potencial associado
aos sete grupos de freguesias encontra-se sumarizado no quadro seguinte.
Tabela 1: Distribuição das freguesias segundo o nı́vel de alerta.
No de fregueias (%)
População (Censos 2001) (%)
Vermelho
(risco elevado)
260 (6,7)
2 924 656 (30,1)
Laranja
(risco médio)
1826 (47,4)
3 778 541 (38,9)
Verde
(risco reduzido)
1769 (45,9)
3 003 706 (30,9)
Bibliografia
[1] Instituto Nacional de Estatı́stica (2007). Programa de Acção para os Censos 2011. INE, Gabinete dos Censos.
[2] Instituto Nacional de Estatı́stica (2010). Plano de Controlo e Avaliação da Qualidade Censos
2011 - Controlo do Processo Produtivo. INE, Gabinete dos Censos.
SPE 2011
Mesa: José Ramos Pires Manso
166
Sexta, 30/09/2011
Estatı́sticas Oficiais
Sala Premium, 14:30–15:30
Censos 2011 - Inquérito de Qualidade
João Farrajota
Instituto Nacional de Estatı́stica, [email protected]
Resumo: Após a conclusão dos Censos 2011, realizou-se o Inquérito de Qualidade dos Censos
2011 (IQ), o qual pretende constituir o instrumento de medida da qualidade final daquela operação
censitária. Este inquérito por amostragem tem como objectivos fundamentais a avaliação de duas
categorias de erros: os erros de cobertura e os erros de conteúdo. Neste trabalho são apresentados
aspectos operacionais e o plano de amostragem utilizado no IQ, bem como o processo de estimação.
Palavras–chave: Censos, inquérito de qualidade, erros de cobertura, erros de conteúdo
Introdução
O Inquérito de Qualidade dos Censos 2011 (IQ) tem como objectivo apoiar a aferição quantitativa
da qualidade da informação censitária. Serão disponibilizados indicadores sobre erros de cobertura
das unidades estatı́sticas observadas (edifı́cios, alojamentos, famı́lias, indivı́duos) e sobre erros de
conteúdo das variáveis e respectivas modalidades, incluı́das nos questionários. O projecto é realizado sob responsabilidade metodológica do agrupamento constituı́do pelo Instituto Superior de
Estatı́stica e Gestão de Informação da Universidade Nova de Lisboa e pela Qmetrics, SA. Esta entidade foi seleccionada através de concurso público, realizado em 2009. Para além da satisfação das
necessidades a nı́vel nacional, os indicadores a disponibilizar permitirão cumprir, na parte correspondente, o Regulamento (UE) n.o 1151/2010, da Comissão, de 08.12.2010.
Plano de amostragem
O IQ é um inquérito por amostragem que abrange todo o território nacional, sendo representativo
ao nı́vel II da Nomenclatura das Unidades Territoriais para fins Estatı́sticos (NUTSII), para o seguinte conjunto de variáveis: alojamento, famı́lia clássica, indivı́duo residente, população activa,
população empregada, população residente com 20 ou mais anos de idade, população residente por
grupo etário decenal entre os 20 e os 70 anos, nı́vel de instrução (1.o , 2.o e 3.o Ciclos) e sectores
de actividade (Secundário e Terciário). Na avaliação dos erros de cobertura dos Edifı́cios e Alojamentos é utilizada uma amostra de secções estatı́sticas, enquanto na avaliação dos erros de cobertura
das Famı́lias Clássicas e dos Indivı́duos, bem como na avaliação dos erros de conteúdo das variáveis
incluı́das nos questionários é utilizada uma amostra de alojamentos.
A amostra foi primeiramente estratificada por NUTSII, o que permite garantir a obtenção de resultados fiáveis, pelo menos para o nı́vel nacional e para as regiões NUTSII. Tendo em conta o duplo
objectivo de medição dos erros de cobertura e dos erros de conteúdo, a amostra foi seleccionada,
em cada estrato, através de um método multi-etápico, com selecção sistemática, de probabilidades
desiguais. Tendo em conta os objectivos definidos acima, na primeira etapa foram seleccionadas
SPE 2011
Mesa: José Ramos Pires Manso
167
Sexta, 30/09/2011
Estatı́sticas Oficiais
Sala Premium, 14:30–15:30
freguesias, na segunda etapa foram seleccionadas secções estatı́sticas e na terceira etapa foram seleccionados alojamentos.
As probabilidades de inclusão nas várias etapas de amostragem recorreram a estimativas da população residente, referentes ao momento da operação censitária, bem como a contagens do número
de alojamentos, efectuadas nas freguesias seleccionadas para amostra, na fase de distribuição dos
questionários da operação Censos 2011. A dimensão amostral global, bem como a sua repartição
pelos vários estratos, foi determinada através da resolução de um problema de optimização não
linear que teve como objectivo a minimização do custo total de amostragem, sujeito a um conjunto de restrições que contemplavam limites máximos para os coeficientes de variação dos totais
das variáveis seleccionadas ao nı́vel nacional e ao nı́vel de NUTSII. Foram efectuadas simulações
com os dados dos Censos 2001 de forma a se determinarem as dimensões amostrais em cada
subpopulação definida pelas NUTSII, garantindo-se um coeficiente de variação máximo de 5% ou
de 8%, para dois conjuntos de variáveis.
1. Questionários, procedimentos de recolha e meios envolvidos
No IQ foram utilizados 4 questionários: Capa de Edifı́cio, Alojamento Familiar, Famı́lia e Individual. Para maior eficácia da recolha de dados e menor sobrecarga dos inquiridos, foram incluı́das
no IQ apenas cerca de 50% das variáveis observadas nos Censos (mas com conceitos iguais), coincidindo com as de resposta obrigatória ao Eurostat. A capa de edifı́cio foi utilizada para novo
recenseamento (exaustivo) das secções estatı́sticas da amostra, nas quais se procedeu a nova contagem do número de edifı́cios e de alojamentos. A quantificação do número de edifı́cios foi efectuada
com apoio na cartografia utilizada nos Censos. Os questionários de alojamento, famı́lia e individual
foram aplicados, através de entrevista presencial, a uma sub-amostra de alojamentos, em cada uma
das secções da amostra.
Foram recenseados cerca de 90.000 alojamentos e entrevistadas cerca de 10.000 famı́lias. A amostra
de secções estatı́sticas do IQ permaneceu confidencial até à conclusão da recolha censitária em cada
área. A recolha de dados (com referência ao momento censitário, 21 de Março de 2011) iniciouse em meados de Maio, terminou em meados de Agosto e foi efectuada sob a responsabilidade
operacional do INE. Para além da coordenação nacional do projecto, estiveram envolvidos 8 coordenadores regionais, 34 técnicos de supervisão e acompanhamento e 233 entrevistadores. Toda a
estrutura utilizada foi independente da que esteve envolvida nos Censos.
Estimação e produção de indicadores
A identificação dos erros de cobertura e de conteúdo faz-se pela comparação dos dados recolhidos
nos Censos com os dados recolhidos no Inquérito de Qualidade, sobre a mesma unidade estatı́stica.
A metodologia de estimação dos totais populacionais usados para cálculo dos erros de cobertura
e conteúdo recorre a estimadores pela regressão que integram informação auxiliar proveniente do
recenseamento. Uma versão provisória dos indicadores de qualidade (nesta fase apenas indicadores
de cobertura) deverá ser disponibilizada até final de 2011.
SPE 2011
Mesa: José Ramos Pires Manso
168
Sexta, 30/09/2011
Aplicações III
Sala Dinastia, 14:30–15:30
Modelos Espaço-temporais. Aplicação à previsão da temperatura na superfı́cie terrestre
Luı́s Margalho1 , Raquel Menezes2 e Inês Sousa2
1
Departamento de Fı́sica e Matemática, Instituto Superior de Engenharia de Coimbra, [email protected]
Departamento de Matemática e Aplicações, Universidade do Minho,
{rmenezes, isousa}@math.uminho.pt
2
Resumo: Os modelos geoestatı́sticos espaço-temporais surgem com o registo de dados ao longo do
tempo bem como no espaço. Estes modelos têm sido utilizados em diversos contextos, de entre os
quais em problemas de observação ambiental, como por exemplo a monitorização da deposição de
metais pesados ou a variação da temperatura na superfı́cie terrestre.
O objectivo deste trabalho é fazer uma apresentação de modelos espaço-temporais já referidos na
literatura, ilustrando com a aplicação a uma base de dados de temperaturas diárias do ano de 2006.
Palavras–chave: Geoestatı́stica, modelos espaço-temporais, variograma, predição espaço-temporal
Introdução
Os modelos espaço-temporais pretendem representar o comportamento de dados recolhidos em
várias localizações do espaço, sendo que para cada localização é ainda observável uma dependência
temporal.
Supondo a observação de um processo Z(si ,t j ) nas localizações si , i = 1, · · · , n, e nos tempos t j , j =
1, · · · , T, o objectivo principal será construir um modelo para fazer previsões de Z(s0 ,t j ) em localizações não observadas s0 para um tempo particular t j .
A modelação espaço-temporal pode, então, ser efectuada segundo uma perspectiva temporal, recorrendo a modelos ARMA para analisar as estruturas espacial e temporal, ou recorrendo aos modelos
de geoestatı́stica para igualmente modelar as estruturas temporal e espacial. De entre os diversos
modelos existentes, podem ser referidos os modelos separáveis, caracterizados por englobarem uma
componente puramente espacial e uma componente puramente temporal.
Com este trabalho, pretende-se fazer uma compilação dos diversos modelos que são referidos na
literatura. Pretende-se ainda apresentar uma exemplificação para uma base de dados de temperatura
terrestre, da identificação de um modelo espaço-temporal que permita prever temperaturas para
localizações não observadas.
Bibliografia
[1] Elamtzoglou, I. (2006). Spatio-Temporal Geostatistical Models, with an application in fish
stocks. MSc Thesis. University of Lancaster.
SPE 2011
Mesa: Antónia Amaral Turkman
169
Sexta, 30/09/2011
Aplicações III
Sala Dinastia, 14:30–15:30
[2] Fernández-Casal, R., González-Manteiga, W. e Febrero-Bande, M. (2003). Flexible SpacioTemporal Stationary Variogram Models. Statistics and Computing, 13, 127–136.
[3] Gneiting, T., Genton, M.G. e Guttorp, P. (2005). Geostatistical Space-Time Models, Stationarity, Separability and Full Symmetry. Technical Report no. 475. Department of Statistics,
University of Washington.
[4] Hengl, T. (2009). A Practical Guide to Geostatistical Mapping. Office for Official Publications
of the European Communities, Luxembourg.
[5] Kyriakidis, P.C. e Journel, A.G. (1999). Geostatistical space-time models: A review. Mathematical Geology, vol. 31, 6, 651–684.
[6] Niu, X., McKeaque, I.W. e Elsner, J.B. (2003). Seasonal space-time models for climate systems. Statistical Inference for Stochastic Processes, 6, 111–133.
[7] Rouhani, S. e Myers, D.E. (1990). Problems in space-time kriging of geohydrological data.
Mathematical Geology, vol. 22, 5, 611–623.
SPE 2011
Mesa: Antónia Amaral Turkman
170
Sexta, 30/09/2011
Aplicações III
Sala Dinastia, 14:30–15:30
Modelação espaço-temporal de fogos florestais em Portugal
Isabel Natário1,2 , Manuela M. Oliveira3 , M. Lucı́lia Carvalho4,2 , Susete Marques 5 e José Borges5
1
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, [email protected]
Centro de Estatı́stica e Aplicações da Universidade de Lisboa,
3 Centro Investigação em Matemática Aplicada, Departamento de Matemática, Universidade de
Évora, [email protected]
4 Faculdade de Ciências da Universidade de Lisboa, [email protected]
5 Centro de Estudos Florestais, Instituto Superior de Agronomia da Universidade Técnica de Lisboa, {smarques,joseborges}@isa.utl.pt
2
Resumo: Os incêndios florestais são uma calamidade que tem aumentado consideravelmente nas
últimas décadas, também em Portugal, com consequências importantes ao nı́vel económico, social
e ambiental. É imprescindı́vel, para a escolha e aplicação de polı́ticas de intervenção efectivas neste
problema, que se consiga perceber quais os factores que mais contribuem para este fenómeno. A
utilização de sistemas de informação geográficos em conjunto com modelos estatı́sticos adequados
podem contribuir de forma importante para este objectivo.
Neste contexto, propomos-nos implementar um modelo hierárquico espaço-temporal introduzido
em [1], para o risco de incêndio florestal em Portugal, modelando conjuntamente a probabilidade
de ignição e o tamanho dos incêndios, numa moldura Bayesiana. Nesta modelação os dados são
tomados em pequenas áreas definidas numa grelha regular. Contudo, neste trabalho, consideraremos
as freguesias como sub-unidade de área (fronteiras irregulares).
Assim, o conjunto de dados em análise, referente ao perı́odo de 2002 a 2007, compreende a percentagem anual de área ardida em cada freguesia, bem como valores anuais de várias covariáveis, desde
condições atmosféricas, informação topográfica, proximidade a estradas e densidade populacional
Dado que o conjunto das freguesias que dividem Portugal Continental é muito grande (3424 freguesias), a estimação do modelo via técnicas MCMC (Markov Chain Monte Carlo), usual nos modelos
Bayesianos aplicados a dados espaço-temporais, fica computacionalmente muito pesada. De forma
a ultrapassar este problema, optou-se por fazer a estimação através do método de aproximações
de Laplace aninhadas e integradas, Integrated Nested Laplace Approximation (INLA), que apresenta significativas vantagens computacionais. Esta abordagem aproximada tem vindo a ganhar
relevância no âmbito dos problemas de estimação Bayesianos que se podem encaixar na sub-classe
dos modelos de regressão com estrutura aditiva, os modelos Gaussianos latentes.
Descrevemos detalhadamente a génese do procedimento inferencial decorrente do INLA, a sua
implementação para a estimação do modelo acima referido na aplicação dos fogos florestais em
Portugal, e apontaremos quais as vantagens/desvantagens concretas com que nos confrontámos, relativamente aos métodos de MCMC.
Palavras–chave: Risco de incêndio, modelos hierárquicos espaço-temporais, sistemas de informação
geográficos, integrated nested Laplace approximation
SPE 2011
Mesa: Antónia Amaral Turkman
171
Sexta, 30/09/2011
Aplicações III
Sala Dinastia, 14:30–15:30
Bibliografia
[1] Amaral-Turkman, M.A., Turkman, K.F., Le Page, Y e Pereira, J.M. (2010). Hierarchical
space-time models for fire ignition and percentage of land burned by wildfire. Environmental Ecological Statistics, 17. DOI 10.1007/s10651-010-0153-9.
[2] Marques, S., Borges, J., Garcia-Gonzalo, J., Moreira, F., Carreiras, B.M.J., Oliveira, M.M.,
Cantarinha, A., Botequim, B. e Pereira, J.M.C. (2010). Characterization of wildfires in Portugal. European Journal of Forest Research, DOI 10.1007/s10342-010-0470-4.
[3] Rue, H., Martino, S. e Chopin, N. (2009). Approximate bayesian inference for latent gaussian
models using integrated nested Laplace approximations (with discussion). Journal of the Royal
Statistical Society, Series B, 71, 319–392.
[4] Russel-Smith, J., Yates, P., Whitehead, P.J., Smith, R., Craig, R., Allan, G.E., Thackway, R.,
Frakes, I., Cridland, S., Meyer, C.P. e Malcom, A.M. (2007). International Journal of Wildland
Fires, 16, 361–377.
SPE 2011
Mesa: Antónia Amaral Turkman
172
Sexta, 30/09/2011
Aplicações III
Sala Dinastia, 14:30–15:30
Volatilidade dos principais mercados mundiais
Thelma Sáfadi1 e Airlane P. Alencar2
1
2
Universidade Federal de Lavras, Lavras, MG, Brasil, [email protected]
Universidade de São Paulo, São Paulo, Brasil, [email protected]
Resumo: Neste trabalho estudamos a associação entre as volatilidades estimada das principais bolsas de valores do mundo. As séries consideradas foram valores diários dos ı́ndices S&P500 (US),
Shanghai Comp Index (China), FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina), Nikkei 225 (Japan) durante o perı́odo de 04/01/2008
a 10/05/2010. Os retornos foram ajustados por meio do modelo AR-APARCH e a associação entre
as volatilidades estimadas foi obtida com a análise de agrupamento. Observamos essencialmente a
formação de três grupos, sendo o primeiro composto por Canadá, Brasil e Japão, o segundo por Estados Unidos, Reino Unido, França, Alemanha e Argentina e o terceiro composto apenas pela China.
Palavras–chave: Volatilidade, análise de agrupamento, bolsas de valores
Introdução
A associação entre os ı́ndices das principais bolsas de valores tem sido estudada por vários pesquisadores. [2] considerando as séries S&P500 (US), Shanghai Comp Index (China), FTSE100 (UK),
CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina) e
Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010 utilizaram o modelo fatorial
com três fatores. Eles observaram que o primeiro fator indicou que a crise financeira associada
principalmente aos US foi sentida por todas as outras bolsas do mundo. O segundo fator é associado
aos paı́ses asiáticos, China e Japão e o terceiro fator associado aos paı́ses europeus, principalmente
Inglaterra, França e Alemanha.
Neste trabalho estamos interessados em estudar a associação entre a volatilidade estimada das principais bolsas de valores do mundo e agrupá-las utilizando as medidas de correlação linear entre
elas. As séries consideradas foram valores diários de S&P500 (US), Shanghai Comp Index (China),
FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval
(Argentina), Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010.
Resultados e Discussão
O modelo AR(1)-APARCH(1,1) (para modelo APARCH ver [1]) foi ajustado para as séries de
retornos. O retorno foi obtido da maneira usual por rt = lnYt − lnYt−1 , em que Yt é o valor do
ı́ndice no tempo t. A Figura 1(a) apresenta as volatilidades estimadas. A China apresenta um
comportamento distinto das demais. Em geral, maiores volatilidades são observadas nos ı́ndices do
Canadá, Brasil e Japão.
O dendrograma da análise de agrupamentos é mostrado na Figura 1(b), onde observa-se a formação
SPE 2011
Mesa: Antónia Amaral Turkman
173
Sexta, 30/09/2011
Aplicações III
UK
0.6
300
400
0.25
similaridade
0.4
100
200
300
Argentina
Japão
300
400
Time
0.4
0.0
0.2
0.4
0.0
0.2
0.4
200
400
0.6
Brasil
0.6
Time
França
0
UK
400
US
300
Time
Argentina
200
Alemanha
100
Brasil
0
Canada
400
Time
Japão
300
0.0
0.2
0.4
0.0
0.2
0.4
0.2
200
400
0.6
Canada
0.2
100
300
Alemanha
0.0
0
200
França
0.0
100
100
Time
0.6
0
0
Time
0.20
200
0.15
100
China
0.4
0.0
0
0.10
400
0.05
300
Time
0.00
200
0.6
100
0.6
0
Agrupamento Completo, Coeficiente de Correlação
0.2
0.4
0.2
0.0
0.0
0.2
0.4
0.6
China
0.6
US
Sala Dinastia, 14:30–15:30
0
100
200
300
400
0
Time
100
200
300
400
Bolsas
Time
(a) Volatilidade estimada.
(b) Dendograma para a volatilidade.
Figura 1: Volatilidade estimada e Dendrograma.
de três grupos, sendo o primeiro composto por Canadá, Brasil e Japão, o segundo por Estados
Unidos, Reino Unido, França, Alemanha e Argentina e no terceiro apenas China.
Conclusões
Concluimos que o Canadá, Brasil e Japão apresentam em geral uma volatilidade estimada maior
durante todo o perı́odo analisado, indicando que esses paı́ses podem apresentar maior risco. Os Estados Unidos, Reino Unido e França apresentam volatilidades semelhantes e seguidas por volatilidades um pouco maiores na Argentina e Alemanha. A China, além de apresentar menor volatilidade,
apresenta muita estabilidade dos retornos, sem ser muito afetada pela crise do subprime.
Agradecimentos: As autoras agradecem o auxı́lio financeiro da FAPEMIG, FAPESP e CNPq.
Bibliografia
[1] Ding, Z., Engle, R.F. e Granger, C.W.J. (1993). A long memory property of stock market
returns and a new model. Journal of Empirical Finance, 1, 83-106.
[2] Safadi, T., Alencar, A.P. e Morettin, P.A. (2011). The dynamic factor model: an application to
stock market indexes. International Journal of Statistics & Economics, 7 (A11).
SPE 2011
Mesa: Antónia Amaral Turkman
174
Sexta, 30/09/2011
Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30
Intervalos de confiança para os nodos do contorno superior
em análise conjunta de regressões
Dulce Gamito Pereira1 , João Tiago Mexia2 e Victor Ramos Tavares3
1
Universidade de Évora, DMAT e CIMA, [email protected]
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, DMAT e CMA, [email protected]
3 Doutorando do Programa de Doutoramento de Matemática, Universidade de Évora,
[email protected]
2
Resumo: A Análise Conjunta de Regressões (ACR), é uma técnica muito utilizada para a avaliação
de genótipos/cultivares, integrando numa variável (o ı́ndice ambiental) a capacidade produtiva para
cada par (local, ano).
A ACR é uma técnica flexı́vel, já que para cada valor da produtividade, medida pelo ı́ndice ambiental, selecciona um ou mais genótipos/cultivares. O conjunto dos genótipos/cultivares seleccionados
variará, em geral, com o ı́ndice ambiental. O contorno superior definido pelas linhas das regressões
ajustadas pode ser usado para esta selecção. Quando se ajustam as regressões correspondentes
aos diferentes genótipos/cultivares obtêm-se como representação uma poligonal com a concavidade
voltada para cima, ver Mexia et al. (1997). Os genótipos/cultivares cujas regressões participam no
contorno superior são os genótipos/cultivares dominantes já que, para cada um deles, se tem um
intervalo de variação do ı́ndice ambiental (que mede a capacidade produtiva) que conduz a rendimentos mais elevados que os restantes. Os outros genótipos/cultivares terão de ser comparados
com os genótipos/cultivares dominantes. Aplica-se testes-t e métodos de comparação múltipla para
realizar a selecção de genótipos/cultivares. Pretende-se agora obter intervalos de confiança para as
abscissas dos vértices da poligonal.
Palavras–chave: Análise Conjunta de Regressões (ACR), ı́ndices ambientais, intervalos de confiança,
contorno superior
Bibliografia
[1] Mexia, J.T., Amaro, A.P., Gumão, L. e Baeta, J. (1997). Upper contour of a joint regression
analysis. J. Genet. & Breed., 51, 253–255.
[2] Pereira, D.G. e Mexia, J.T. (2004). Nodes of the upper contour in joint regression analysis,
Colloquium Biometryczne, 34, 267–277.
SPE 2011
Mesa: Carlos Tenreiro
175
Sexta, 30/09/2011
Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30
Estimadores de máxima entropia em análise de eficiência
Pedro Macedo1 , Elvira Silva2 e Manuel Scotto1
1
2
Departamento de Matemática, Universidade de Aveiro, {pmacedo, mscotto}@ua.pt
Faculdade de Economia, Universidade do Porto, [email protected]
Resumo: A abordagem de estados contingentes no estudo das fronteiras de produção enfrenta
algumas dificuldades, nomeadamente a possibilidade de um grande número de estados, poucas
observações por estado e colinearidade. Nesta apresentação ilustra-se o bom desempenho de alguns
estimadores de máxima entropia na análise de eficiência técnica com estas fronteiras de produção.
Palavras–chave: Máxima entropia, eficiência técnica, fronteiras de produção, abordagem de estados contingentes
Introdução
O trabalho de Chambers e Quiggin (2000) tem inspirado desenvolvimentos notáveis na literatura
sobre a teoria económica da produção. A teoria da produção condicionada a estados contingentes
permite uma representação mais realista dos problemas de produção com incerteza, uma vez que os
produtores podem alocar diferentes inputs a diferentes estados da natureza e, desta forma, melhor
gerir a incerteza. Em análise de eficiência, esta abordagem permite obter nı́veis de eficiência técnica
mais elevados quando comparados com os obtidos usando a análise tradicional com fronteiras de
produção estocásticas. As fronteiras de produção condicionadas a estados contingentes permitem
decompor os desvios à fronteira de produção em erro aleatório, ineficiência do produtor e risco.
Embora a teoria da produção condicionada a estados contingentes esteja bem desenvolvida, a sua
aplicação empı́rica encontra-se ainda numa fase embrionária e enfrenta algumas dificuldades: possibilidade de um grande número de estados, poucas observações por estado e colinearidade. Os
estimadores de máxima entropia generalizada (GME) e cross-entropy (GCE) desenvolvidos por
Golan et al. (1996), bem como os estimadores de máxima entropia de ordens superiores (GME-α )
propostos por Golan e Perloff (2002), sendo úteis em amostras de reduzida dimensão e robustos
perante colinearidade, são avaliados nesta apresentação através de um estudo de simulação.
Fronteira de produção e estimadores de máxima entropia
A fronteira de produção condicionada a estados contingentes usada no estudo de simulação é
S
ln q =
∑
P
S
∑ ds b−1
ps ln x ps − ∑
s=1 p=1
P
S
∑ ds b−1
ps ln as − ∑
s=1 p=1
P
K
∑ b−1
ps ∑ αk zk + v − u,
s=1 p=1
(1)
k=1
−1
com 0 < b−1
ps ≤ 1, as > 0 e 0 < ∑ p b ps ≤ P, ∀ s (s = 1,2, . . . ,S). O output é denotado por q, S é o
número de estados da natureza, P é o número de inputs especı́ficos de cada estado, K é o número de
SPE 2011
Mesa: Carlos Tenreiro
177
Sexta, 30/09/2011
Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30
variáveis exógenas, ds é uma variável dummy associada à escolha de estados, b ps são parâmetros que
representam a possibilidade de substituição de output entre estados, x ps são os inputs especı́ficos de
estados, as são parâmetros especı́ficos de produção, zk são as variáveis exógenas, αk os respectivos
parâmetros a estimar, v é a variável que representa o erro aleatório e u a variável que representa a
ineficiência técnica.
Considerando a fronteira de produção (1) na forma matricial
ln q = f (X; β ) + v − u,
(2)
os estimadores GME e GME-α , com as devidas adaptações, são definidos pela maximização de
H(p,w,ρ ) =
N
R
N
∑ Hαe (βr ) + ∑ Hαe (vn ) + ∑ Hαe (un ),
1
r=1
2
n=1
(3)
2
n=1
ou, de forma equivalente, pela maximização de
H(p,w,ρ ) = Hαe 1 (β ) + Hαe 2 (v) + Hαe 2 (u),
(4)
sujeitos às restrições de consistência e aditividade,
ln q = XZp + Aw − Bρ ,
1R = (IR ⊗ 1′M )p,
1N = (IN ⊗ 1′J )w,
1N = (IN ⊗ 1′L )ρ ,
(5)
onde ⊗ representa o produto de Kronecker, Hαe 1 (·) e Hαe 2 (·) são medidas de entropia (Shannon,
Rényi ou Tsallis), e α1 , α2 são as ordens de entropia usadas nas entropias de Rényi e Tsallis. O
estimador GCE é definido pela minimização de
H(p,w,ρ ,q3 ) = p′ ln p + w′ ln w + ρ ′ ln(ρ /q3 ),
(6)
sujeito às condições (5). O vector q3 representa informação sobre a componente de ineficiência.
Principais resultados
Com menor erro quadrático médio e menor diferença entre o valor de eficiência estimado e o
valor efectivo, estes estimadores possuem um melhor desempenho que o estimador de máxima
verosimilhança na maioria dos casos estudados (modelos com um grande número de estados da
natureza, com poucas observações por estado e modelos afectados por colinearidade).
Bibliografia
[1] Chambers, R.G. e Quiggin, J. (2000). Uncertainty, Production, Choice, and Agency: The
State-Contingent Approach. Cambridge University Press, Cambridge.
[2] Golan, A., Judge, G. e Miller, D. (1996). Maximum Entropy Econometrics: Robust Estimation
with Limited Data. John Wiley & Sons, Chichester.
[3] Golan, A. e Perloff, J.M. (2002). Comparison of maximum entropy and higher-order entropy
estimators. Journal of Econometrics, 107, 195–211.
SPE 2011
Mesa: Carlos Tenreiro
178
Sexta, 30/09/2011
Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30
Vencer um jogo de basquetebol:
uma análise com probabilidades condicionais
Ana Isabel Carita1 e António Paulo Ferreira2
1
CIPER e Secção de Métodos Matemáticos, Faculdade de Motricidade Humana, Universidade
Técnica de Lisboa, [email protected]
2 Laboratório de Perı́cia no Desporto, Faculdade de Motricidade Humana, Universidade Técnica de
Lisboa, [email protected]
Resumo: A predição do resultado em eventos desportivos é uma matéria que desde sempre tem
animado a investigação em desporto. Concretamente, a determinação da probabilidade de vitória
num jogo é um problema de investigação actual que envolve treinadores, analistas desportivos e
investigadores. No desporto anglo-saxónico, em particular no basquetebol, vários são os modelos
probabilı́sticos sugeridos para a predição dos resultados de jogos e de campeonatos, recorrendo a
informação de registos relativos a performances anteriores (Orendorff e Johnson, 2007; Ben–Naim
et al., 2006; Heit et al., 1994). Muito poucos estudos, porém, se têm dedicado à análise preditiva
do resultado do jogo utilizando registos da performance do decurso do próprio jogo (Burke, 2009).
Neste trabalho procura–se perceber se estar a ganhar em determinado momento é determinante para
vencer o jogo. A partir de uma amostra de 176 jogos da época 2007/08 da fase regular do campeonato da NBA (National Basketball Association), estima-se probabilidades de vitória, condicionais
ao resultado que se verifica em diferentes momentos ao longo do jogo. As probabilidades condicionais são calculadas para uma equipa em diferentes circunstâncias competitivas: em função do
local do jogo (casa vs fora), do nı́vel de oposição e em face do equilı́brio dos jogos. Para além do
estudo da probabilidade condicional de vencer ao longo do jogo, procurou-se igualmente modelar a
variável aleatória definida como o tempo de jogo em que ocorre a última alternância no marcador.
Palavras–chave: Probabilidade condicional, tempo de jogo, alternância no marcador
Bibliografia
[1] Ben-Naim, E., Vazquez, F. e Redner, S. (2006). Parity and predictability of competitions.
Journal of Quantitative Analysis in Sports, vol 2, Issue 4, Article 1.
[2] Burk, B. (2009). Modeling win probability for a college Basketball game. The Wages of Wins
Journal (jornal electrónico).
[3] Heit, E., Price, P. C. e Bower, G.H. (1994). A Model for predicting the outcomes of Basketball
games. Applied Cognitive Psychology, 8, 621–639.
[4] Orendorff, D. e Johnson, T. (2007). First-order probabilistic models for predicting the winners
of professional Basketball games. Project paper. Department of Computer Science, University
of California, Irvine.
SPE 2011
Mesa: Carlos Tenreiro
179
Sexta, 30/09/2011
Variáveis Intervalares
Sala Atlântico, 14:30–15:30
Modelização de séries temporais intervalares por modelos
espácio-temporais
Paulo Teles e Paula Brito
Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal,
{pteles, mpbrito}@fep.up.pt
Resumo: Neste trabalho é proposto e estudado um modelo espácio-temporal para modelizar séries
temporais intervalares, por forma a ter em conta a possı́vel correlação entre os extremos dos intervalos observados. Uma aplicação a dados reais ilustra a abordagem proposta.
Palavras–chave: Dados intervalares, séries temporais intervalares, modelo espácio-temporal autoregressivo
A Análise de Dados Simbólicos oferece um modelo de representação adequado a dados onde
possam ocorrer variabilidade e/ou incerteza em cada observação [3, 4]. Os dados designados
“simbólicos” generalizam o quadro clássico, no qual a cada indivı́duo corresponde a observação
de um único valor para cada variável, permitindo a presença de valores múltiplos, eventualmente
ponderados. Novos tipos de variáveis foram introduzidos, permitindo a representação de variabilidade e/ou incerteza eventualmente inerentes aos dados: variáveis a valores múltiplos, variáveis
intervalares e variáveis modais. Para uma exposição mais alargada sobre esta nova área, o leitor
poderá consultar [3, 6], ou, mais recentemente, [12]. Uma variável designa-se por intervalar se os
seus valores são intervalos de IR; pode ocorrer em múltiplas situações, que resultem de agregacão
temporal ou amostragem sistemática, tais como o registo de temperaturas mensais ou da velocidade
diária do vento em diferentes localizacões ou ainda retornos diários de accões. Outras fontes de
dados intervalares são a agregação de grandes bases de dados em grupos ou classes, onde os valores
reais individuais são generalizados por intervalos, ou situações onde existe alguma imprecisão ou
incerteza no registo do valor de uma variável clássica (e.g., devido a erros de medida). Os dados intervalares podem ser representados pelos limite inferior e superior de cada intervalo observado, ou,
alternativamente, pelo respectivo centro e raio. Quando dados simbólicos intervalares são registados
ao longo do tempo, ou outra dimensão, formam uma série temporal intervalar (STI).
Em [13], Teles e Brito apresentaram o primeiro modelo para séries temporais intervalares, baseado na estimação de processos ARIMA univariados para os limites dos intervalos. Em [1], [7],
[9] e [10] definem processo estocástico intervalar, série temporal intervalar, estacionaridade fraca
para processos intervalares e funções de autocovariância e autocorrelação para séries temporais intervalares. Em [1], [7] e [2] os autores focam-se na previsão baseando-se em modelos vectoriais
autoregressivos (VAR), modelos vectoriais de correcção de erro (VEC) e filtros de alisamento.
Neste trabalho é proposta uma nova abordagem para STI, usando Modelos Espácio-Temporais
Auto-Regressivos (modelos STAR), que permitem levar em conta a existência de correlação contemporânea ou dependência entre os limites inferior e superior (ou centro e raio) dos intervalos
observados. Começamos por estabelecer o modelo STAR bivariado para os limites da STI e por
deduzir o correspondente modelo bivariado para os centros e raios, que se verifica ser um modelo
vectorial auto-regressivo (SVAR) da mesma ordem. Os parâmetros deste último modelo são função
dos parâmetros do primeiro. Casos particulares importantes e respectivas consequências são ana-
SPE 2011
Mesa: Paula Brito
181
Sexta, 30/09/2011
Variáveis Intervalares
Sala Atlântico, 14:30–15:30
lisadas. Discutimos depois a previsão dos limites da STI a partir do respectivo modelo STAR e dos
centros e raios a partir do modelo SVAR correspondente.
Finalmente, é apresentada uma aplicação desta modelização a dados reais, (ver [11]), que consistem
na série temporal das velocidades mı́nima e máxima diárias do vento medidas em 5 estações metereológicas da Irlanda no perı́odo 1961-1978. O modelo STAR é estimado para os limites dos intervalos e é verificada a sua adequabilidade. O modelo correspondente para os centros e raios é depois
deduzido e as estimativas dos seus parâmetros calculadas a partir do modelo STAR. Seguidamente,
os valores da STI são previstos para vários perı́odos (previsões fora da amostra), evidenciando um
bom desempenho em termos de previsão. Mostra-se ainda a equivalência entre as previsões obtidas
a partir dos limites dos intervalos e dos centros e raios da STI.
Bibliografia
[1] Arroyo, J. (2008). Métodos de predicción para series temporales de intervalos e histogramas,
Unpublished Ph.D. Dissertation, Universidad Pontificia Comillas, Madrid.
[2] Arroyo, J., González-Rivera, G. e Maté, C. (2011). Forecasting with interval and histogram
data. Some financial applications. In: Ullah, A. et al, Eds. Handbook of Empirical Economics
and Finance. Chapman and Hall/CR, New York, pp. 247-280.
[3] Billard, L. e Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Analysis. John Wiley and Sons, Chichester.
[4] Bock, H.-H. e Diday, E. (Eds.) (2000). Analysis of Symbolic Data. Springer, Heidelberg.
[5] Cressie, N.A.C. (1993). Statistics for Spatial Data. John Wiley and Sons, New York.
[6] Diday, E. e Noirhomme, M. (Eds.) (2008). Symbolic Data and the SODAS Software. Wiley,
Chichester.
[7] Garcı́a-Ascanio, C. e Maté, C. (2009). Electric power demand forecasting using interval time
series: A comparison between VAR and iMLPC, Energy Policy 38, 715-725.
[8] Gneiting, T., Genton, M.G. e Guttorp, P. (2007). Geostatistical space-time models, stationarity,
separability, and full symmetry. In: Finkenstädt, B., Held, L. and Isham, V., eds. Statistical
Methods for Spatio-Temporal Systems. Chapman and Hall/CRC, London, 151-175.
[9] González-Rivera, G. e Arroyo, J. (2010). Time series modelling of histogram-valued data: The
daily histogram time series of S&P500 intradaily returns. Int. J. Forecasting (in press).
[10] Han, A., Hong, Y., Lai, K. e Wang, S. (2008). Interval time series analysis with an application
to the Sterling-Dollar exchange rate, J. Systems Science and Complexity 21, (4), 558-573.
[11] Haslett, J. e Raftery, A.E. (1989). Space-time modelling with long-memory dependence: assessing Ireland’s wind-power resource (with discussion). Applied Statistics 38, (1), 1-50.
[12] Noirhomme-Fraiture, M. e Brito, P. (2011). Far Beyond the Classical Data Models: Symbolic
Data Analysis. Statistical Analysis and Data Mining, Vol. 4, (2), 157-170.
[13] Teles, P. e Brito, P. (2005). Modelling interval time series data. Proceedings of the 3rd IASC
World Conference on Computational Statistics and Data Analysis. Limassol, Cyprus.
SPE 2011
Mesa: Paula Brito
182
Sexta, 30/09/2011
Variáveis Intervalares
Sala Atlântico, 14:30–15:30
Regressão linear com variáveis intervalares
Sónia Dias1 e Paula Brito2
1
Escola Superior Tecnologia e Gestão, Instituto Politécnico Viana do Castelo, Portugal,
[email protected]
2 Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, [email protected]
Resumo: Nesta comunicação é apresentado um modelo de regressão linear para variáveis intervalares. O modelo permite, para cada observação, estimar o intervalo de valores de uma variável
dependente em função dos intervalos observados nas variáveis independentes. Os parâmetros do
modelo são solução óptima de um problema de optimização quadrática, que usa a Distância de
Mallows entre as funções quantil associadas aos intervalos observados, assumindo uniformidade.
Palavras–chave: Dados simbólicos, variáveis intervalares, regressão linear
Nos últimos anos, têm-se desenvolvido diferentes abordagens para a modelização e análise de dados que ultrapassam o modelo usual, onde para cada variável, a cada observação corresponde um
único valor, numérico ou categórico. A Análise de Dados Simbólicos [1] generaliza este modelo
permitindo que a cada indivı́duo ou classe de indivı́duos observados esteja associado um conjunto
finito de valores (variáveis quantitativas a valores múltiplos); um conjunto de categorias (variáveis
qualitativas a valores múltiplos); um intervalo (variáveis intervalares) ou uma distribuição (variáveis
modais); no caso numérico das variáveis modais, a distribuição pode habitualmente ser representada
por um histograma, as variáveis designam-se neste caso por variáveis histograma. Nos últimos anos,
os conceitos e métodos da estatı́stica clássica têm vindo a ser adaptados a este tipos de variáveis
[1, 8]. De entre os vários tipos de variáveis simbólicas, as variáveis intervalares são as mais estudadas. É de salientar que as variáveis intervalares podem ser vistas como um caso particular das
variáveis histograma, quando temos apenas um intervalo com probabilidade igual a um.
O primeiro modelo de regressão linear para variáveis intervalares designa-se Método do Centro e
foi proposto por Billard e Diday em 2000 [1]. Análogos ao anterior, em 2002, os mesmos autores
[2] propõem uma série de modelos dos quais se destaca o Método MinMax. Estes modelos usam o
modelo de regressão linear clássico para estimar os centros e raios ou os extremos dos intervalos. Os
referidos modelos baseiam-se na diferença entre valores reais e não quantificam a aproximação entre
os elementos intervalos. Em 2008, Lima Neto e Carvalho [7] propõem um novo modelo, designado
Método do Centro e Amplitude que, tal como os anteriores, requer o ajuste de dois modelos de
regressão linear clássicos, um para estimar o centro e outro o raio dos intervalos. No modelo que
permite estimar os raios, se os coeficientes estimados forem negativos, poderemos obter valores
negativos para os raios. Esta limitação do modelo fez com que dois anos mais tarde, os mesmos
autores apresentassem uma nova proposta, o Método do Centro e Amplitude com restrições [6].
Neste novo método, ao modelo de regressão linear que permitia estimar os raios dos intervalos é
imposta uma restrição de não negatividade aos parâmetros. No entanto, esta restrição força a que a
relação linear entre os raios tenha que ser obrigatoriamente uma relação linear directa.
Dadas as limitações dos modelos apresentados e uma vez que as variáveis intervalares são um caso
particular das variáveis histograma, particularizamos para variáveis intervalares, o modelo proposto
para as variáveis histograma [4]. Este novo modelo irá permitir estimar os intervalos de valores
SPE 2011
Mesa: Paula Brito
183
Sexta, 30/09/2011
Variáveis Intervalares
Sala Atlântico, 14:30–15:30
para a variável dependente a partir dos intervalos de valores das variáveis independentes, usando
neste caso a função quantil para representar os valores que as variáveis intervalares podem tomar,
em cada observação. No entanto, o comportamento das funções quantil não permite que o modelo
de regressão linear para as variáveis intervalares seja apenas uma adaptação do modelo de regressão
linear clássico usando as funções quantil para representar os valores que as variáveis intervalares tomam para cada observação. O modelo proposto assenta em conceitos bem diferentes dos anteriores,
e tem como critério minimizar uma distância entre as funções quantil estimadas e observadas, relativas à variável dependente. No entanto, também neste caso se torna necessário impor aos parâmetros
restrições de não negatividade, para impedir a multiplicação de funções quantil (necessariamente
não decrescentes) por um número real negativo, pois nesta situação obterı́amos funções que não
são funções não decrescentes. Contudo, apesar de estarmos a incluir no modelo restrições de não
negatividade aos parâmetros, não estamos a impor que a relação linear seja directa, uma vez que
no modelo proposto incluı́mos não só as funções quantil que representam os intervalos de valores
que as variáveis independentes podem tomar em cada observação, mas também as funções quantil
referentes às respectivas variáveis intervalares simétricas. É de salientar, que se restringimos os
intervalos a um ponto, o modelo proposto coincide com o modelo de regressão linear clássico.
Os valores dos parâmetros do modelo são obtidos como solução óptima do problema de optimização
quadrática sujeito a restrições de não negatividade, que usa a distância de Mallows entre as funções
quantil associadas aos intervalos observados, sob hipótese de uniformidade. Analogamente ao
que acontece no modelo de regressão linear clássico, é então possı́vel deduzir um coeficiente de
determinação que permite medir a qualidade do ajuste do modelo. Esta medida é uma das vantagens do modelo proposto.
A análise dos resultados do modelo e a sua interpretação será apresentada com base em exemplos
já aplicados aos modelos anteriores e em resultados de simulação.
Bibliografia
[1] Billard, L. e Diday, E. (2000). Regression Analysis for Interval-Valued Data. Em: Data Analysis, Classification, and Related Methods. Proceedings of the Seventh Conference of the International Federation of Classification Societies (IFCS’00). Springer, 369-374.
[2] Billard, L. e Diday, E. (2002). Symbolic Regression Analysis. Em: Classification, Clustering
and Data Analysis. Proceedings of the Eighth Conference of the International Federation of
Classification Societies (IFCS’02). Springer, 281-288.
[3] Billard, L. e Diday, E. (2007). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester.
[4] Dias, S. e Brito, P. (2011). Linear Regression for Interval and Histogram Variables. Em:
Classificação e Análise de Dados, Programa e Resumos das XVIII Jornadas de Classificação
e Análise de Dados (JOCLAD’2011), 161-164.
[5] Lima Neto, E.A. e de Carvalho, F.A.T. (2008). Centre and Range Method for Fitting a Linear
Regression Model to Symbolic Intervalar Data. CSDA, 52, 1500-1515.
[6] Lima Neto, E.A. e de Carvalho, F.A.T. (2010). Constrained linear regression models for symbolic interval-valued. CSDA, 54, 333-347.
[7] Noirhomme-Fraiture, M. e Brito, P. (2011). Far Beyond the Classical Data Models: Symbolic
Data Analysis. Statistical Analysis and Data Mining, (in press).
SPE 2011
Mesa: Paula Brito
184
Sexta, 30/09/2011
Variáveis Intervalares
Sala Atlântico, 14:30–15:30
MAINT.DATA: Um pacote de R para a análise paramétrica
de dados intervalares
A. Pedro Duarte Silva1 e Paula Brito2
1
Faculdade de Economia e Gestão & CEGE, Univ. Católica Portuguesa, Porto, Portugal,
[email protected]
2 Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, [email protected]
Resumo: Neste trabalho é apresentado um pacote R concebido para modelizar dados intervalares
por modelos paramétricos e efectuar análises multivariadas dos dados a partir dessas modelizações.
Palavras–chave: Análise de Dados Simbólicos, dados intervalares, distribuição skew-normal, modelização paramétrica de dados intervalares, testes estatı́sticos para dados intervalares
A Análise de Dados Simbólicos fornece um quadro de representação onde novos tipos de variáveis
permitem considerar directamente a variabilidade e/ou incerteza associados a cada elemento individual do conjunto a analisar, podendo ser observados valores múltiplos, possivelmente ponderados,
em cada variável [2, 4, 5]. Interessamo-nos em particular pelo caso dos dados intervalares, isto é,
quando os elementos em análise são descritos por variáveis cujos valores são intervalos de IR.
Em [3] são desenvolvidas metodologias de inferência baseadas em modelos probabilı́sticos para
variáveis intervalares, onde cada intervalo é representado pelo seu centro e log-amplitude. Num
primeiro modelo, assume-se que a distribuição conjunta dos centros e das log-amplitudes é Normal
multivariada. Este modelo tem a vantagem de permitir a aplicação imediata de métodos inferenciais
clássicos. Se considerarmos os centros dos intervalos como indicadores de localização dos valores
das variáveis, assumir que seguem uma distribuição conjunta Normal corresponde à hipótese Gaussiana usual para dados clássicos. Ao considerar a log-transformação das amplitudes, ultrapassa-se
o problema levantado pelo seu domı́nio limitado. Uma implicação óbvia deste modelo é que as
distribuições marginais dos centros são Normais e as das amplitudes são Log-Normais. Consideraremos em seguida modelos mais gerais, com recurso à distribuição Skew-Normal [1], que permitem
de alguma forma ultrapassar as limitações da distribuição Normal.
A natureza intrı́nseca das variáveis intervalares conduz a estruturas particulares da matriz de variânciacovariância, representadas por cinco possı́veis configurações distintas. Numa formulação mais geral, permitem-se correlações não-nulas entre todos os centros e log-amplitudes; outros casos de
interesse são:
• Os centros (respectivamente, log-amplitudes) de diferentes variáveis podem ser correlacionados, o centro de cada variável pode ser correlacionado com a respectiva log-amplitude, mas
não é permitida correlação entre centros e log-amplitudes de variáveis distintas;
• As variáveis intervalares são não correlacionadas entre si, mas, para cada variável, o centro
pode ser correlacionado com a respectiva log-amplitude;
• Os centros (respectivamente log-amplitudes) de diferentes variáveis podem ser correlacionados, mas não é permitida correlação entre centros e log-amplitudes;
SPE 2011
Mesa: Paula Brito
185
Sexta, 30/09/2011
Variáveis Intervalares
Sala Atlântico, 14:30–15:30
• Todos os centros e log-amplitudes são não correlacionados entre si.
Neste trabalho, apresentamos o pacote MAINT.DATA, que implementa as metodologias propostas
no ambiente estatı́stico R [6]. É introduzida uma classe de dados especialmente concebida para representar dados intervalares. O pacote proposto inclui funções e métodos para a análise paramétrica
desta classe de dados. Em particular, MAINT.DATA efectua a estimação de máxima verosimilhança
assim como testes estatı́sticos para as diferentes configurações. (M)ANOVA e Análise Discriminante Linear e Quadrática são também implementadas para todas as configurações consideradas.
Bibliografia
[1] Azzalini, A. e Dalla Valle, A. (1996). The multivariate skew-normal distribution. Biometrika
83 (4), 715–726.
[2] Billard, L. e Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester.
[3] Brito, P. e Duarte Silva, A.P. (2011). Modelling interval data with normal and skew-normal
distributions. Journal of Applied Statistics, (in press).
[4] Diday, E. e Noirhomme-Fraiture, M. (Eds.) (2008). Symbolic Data Analysis and the SODAS
Software. Wiley, Chichester.
[5] Noirhomme-Fraiture, M. e Brito, P. (2011). Far beyond the classical data models: symbolic
data analysis. Statistical Analysis and Data Mining, (in press).
[6] R Development Core Team. R: A language and environment for statistical computing. R Fondation for statistical computing. Viena, Austria. ISBN 3-900051-07-0, URL http://www.Rproject.com, 2011.
SPE 2011
Mesa: Paula Brito
186
Sexta, 30/09/2011
Sessão Plenária IV
Sala Premium, 15:35–16:30
A Força dos menores
Fernando Rosado
Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL, [email protected]
Resumo: Pensemos, em particular, na Estatı́stica. A Estatı́stica, tão simplesmente, é a ciência
dos dados; também aplicada porque a pesquisa, muitas vezes, visa também uma aplicação. A
Estatı́stica é interessante e útil porque fornece estratégias e instrumentos para trabalhar os dados de
modo a melhor “entrar” em problemas reais. Dados são números (ou a falta deles) inseridos num
determinado contexto ou experiência. Determinar a média de 50 números é puro cálculo aritmético,
não é Estatı́stica. Discernir sobre aquele valor 50 e decidir se temos uma pequena ou grande amostra
e, em cada caso, concluir sobre a discrepância de determinado valor (mesmo que usando a média
atrás calculada!) já é Estatı́stica.
Mas, quais são os temas fundamentais da Estatı́stica para o século XXI? O que agora “é importante”
emerge do século passado? No recente congresso do ISI - International Statistical Institute o “tema
Água” foi eleito para todo um dia de comunicações cientı́ficas. Porquê?
Meditando sobre a investigação, introduza-se “quos fama obscura recondit”. Na dicotomia entre
a “razão menor” e uma “razão mais alta” deve o estatı́stico ter como objectivo (apenas) o conhecimento que lhe permite cobrir as suas necessidades cientı́ficas básicas? Em alternativa, esse deve
ser um estádio inicial tendo por objecto a sabedoria estatı́stica onde (ainda) admite a (enorme) importância dos “detalhes cientı́ficos” daqueles a quem uma obscura fama esconde - chamemos-lhes
outliers; que são estimuladores da investigação e podem ser originados pelos valores discordantes
de uma amostra. Uma minoria!
São esses “menores” que fazem avançar a ciência?! Neles está a força!
Palavras–chave: Estatı́stica, ciência estatı́stica, investigação cientı́fica, outliers
SPE 2011
Mesa: Carlos A. Braumann
187
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Amostragem em duas fases adaptativa para estimar a abundância de populações raras
Anabela Afonso e Russell Alpizar-Jara
Departamento de Matemática e Centro de Investigação em Matemática e Aplicações, Universidade
de Évora, {aafonso, alpizar}@uevora.pt
Resumo: Algumas populações são raras ou tendem a distribuir-se apenas em certas zonas. A amostragem adaptativa garante que uma maior parte do esforço seja gasto nas zonas com maior densidade
de animais, aumentando assim a dimensão da amostra. Recentemente foram propostos desenhos
em duas fases adaptativos para estimar a abundância de populações raras [2]. Nestes desenhos, a
região de estudo em dividida em secções. Numa primeira fase é estimada a taxa de ocupação nessas secções a partir da observação directa ou indirecta da presença dos indivı́duos nessas secções,
ou numa amostra aleatória dessas secções. Na segunda fase, e apenas nas secções que satisfazem
pelo menos um certo patamar de detecções, é realizada uma amostragem mais intensiva do tipo
captura-recaptura sendo a abundância estimada pelos processos habituais. Neste trabalho, propomos a utilização da amostragem por distâncias [1] na segunda fase de amostragem e estudamos as
propriedades deste modelo.
Palavras–chave: Abundância, amostragem adaptativa, amostragem em duas fases, amostragem por
distâncias
Bibliografia
[1] Buckland, S.T., Anderson, D.R., Burnham, K. P., Laake, J.L., Borchers, D.L. e Thomas, L.
(2001) Introduction to distance sampling. Oxford University Press, New York.
[2] Conroy, M.J., Runge, J.P., Barker, R.J., Schofield, M.R. e Fonnesbeck, C.J. (2008). Efficient
estimation of abundance for patchily distributed populations via two-phase, adaptive sampling.
Ecology, 89, 3362–3370.
SPE 2011
189
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Medidas de centralidade, dispersão e simetria em variáveis
categóricas ordinais
Conceição Amado
CEMAT, IST-TUL, [email protected]
Resumo: Neste trabalho discute-se o problema da definição de caracterı́sticas sumárias relativas a
variáveis categóricas ordinais.
Palavras–chave: Variáveis categóricas ordinais, medidas de centralidade, medidas de simetria
Introdução
Muitos problemas práticos envolvem variáveis categóricas ordinais. Estas variáveis caracterizam-se
pela existência de uma ordenação entre os seus possı́veis valores e podem provir da categorização
de uma variável contı́nua que é agrupada, ou de uma variável categórica naturalmente agrupada.
A noção de distância entre os possı́veis valores deste tipo de variáveis não é fácil de definir complicando o conceito da sua distribuição de probabilidades e, naturalmente, das suas caracterı́sticas
sumárias. Neste trabalho discute-se esta questão revendo-se algumas das propostas que têm sido
efectuadas na literatura. Por fim apresentam-se propostas de medidas de simetria e achatamento
para estas variáveis.
Bibliografia
[1] Agresti, A. (2010). Analysis of Ordinal Categorical Data. 2nd ed., Wiley.
[2] Anderson, J.A. e Philips, P.R. (1981). Regression, Discrimination and Measurement Models
for Ordered Categorical Variables. Journal of the Royal Statistical Society. Series C (Applied
Statistics), 30, 22–31.
[3] Franceschini, F., Galetto, M. e Varetto, M. (2004). Qualitative Ordinal Scales: The Concept of
Ordinal Range. Quality Engineering, 16, 515–524.
SPE 2011
191
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Normalidade aproximada
Dário Ferreira1 , Sandra Ferreira1 , Célia Nunes1 e João Tiago Mexia2
1
2
UBI, {dario, sandraf, celian}@ubi.pt
FCT-UNL, [email protected]
Resumo: Muitas estatı́sticas relevantes são polinómios de baixo grau em variáveis independentes. Se essas variáveis, para além de serem normais, tiverem um baixo coeficiente de variação, as
estatı́sticas seguirão uma distribuição aproximadamente normal.
Neste trabalho iremos realizar uma discussão do tema referido. A fim de consolidar os desenvolvimentos teóricos obtidos realizar-se-ão algumas simulações e será apresentada uma aplicação.
Na primeira parte mostraremos que polinómios de baixo grau em variáveis normais independentes,
com um baixo coeficiente de variação, seguem uma distribuição normal. Esse facto é importante
pois muitas estatı́sticas relevantes são polinómios de baixo grau e a assunção da normalidade irá
facilitar a inferência.
De seguida apresentaremos algumas simulações que confirmam os desenvolvimentos teóricos obtidos.
Por último será ainda apresentada uma aplicação utilizando a normalidade aproximada.
Palavras–chave: Normalidade aproximada, convergência quase certa, variáveis normais
Bibliografia
[1] Areias, A., Oliveira, M., M. e Mexia, J.T. (2008). Models for Series of Studies based on
Geometrical Representation. Statistical Methodology, 5, 3, 277–288.
[2] Ferreira, D., Ferreira, S., Ramos, L. e Mexia, J.T. (2008). Normal Approximation to the Product of a Non Central Chi-Square by an Independent Normal Variable. Journal of Applied
Mathematics, 1, 2, 185–192.
[3] Imhof, J.P. (1961). Computing the distribution of quadratic forms in normal variables. Biometrics 48, 3-4, 419–426.
[4] Mexia, J.T. e Oliveira, M. (2010). Asymptotic linearity and limit distributions, approximations,
Journal of Statistical Planning and Inference, 140, 2, 353–357
SPE 2011
193
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Análise de variância robusta
Adelaide Maria Sousa Figueiredo1
1
Faculdade de Economia e LIAAD-INESC Porto, Universidade do Porto, [email protected]
Resumo: Considere-se a abordagem dual da abordagem clássica de estatı́stica multivariada em que
os indivı́duos estão fixos e as variáveis são escolhidas aleatoriamente de uma população de variáveis.
Supondo que as variáveis estão centradas e reduzidas e que a amostra de variáveis é formada por
vários grupos de variáveis, sendo cada grupo de variáveis proveniente de uma população de Watson, pretende-se averiguar se os grupos de variáveis são distintos, usando a análise de variância
dual. Neste trabalho propõe-se uma versão robusta da estatı́stica de teste da análise de variância
dual; mostra-se, efectuando simulações, que na presença de outliers, o teste baseado na estatı́stica
robusta é mais potente que o teste de análise de variância, e apresenta-se uma aplicação desta metodologia a dados bancários.
Palavras–chave: Análise de variância dual, distribuição de Watson
Introdução
Considere-se o quadro de dados multivariado com n indivı́duos descritos por p variáveis. Na abordagem clássica as p variáveis estão fixas e os n indivı́duos são escolhidos aleatoriamente de uma
população de indivı́duos. Neste estudo considera-se a abordagem dual usada por Gomes [7] e Figueiredo [3], onde os n indivı́duos estão fixos e as p variáveis são escolhidas aleatoriamente de uma
população de variáveis. Supõe-se que as variáveis estão centradas e reduzidas, de modo que são
representadas por pontos da esfera n-dimensional. Admite-se que a amostra de variáveis é formada
por vários grupos de variáveis, sendo estes grupos obtidos através da identificação de uma mistura
de distribuições de Watson através do algoritmo EM proposto por Dempster, Laird e Rubin [2] e
aplicado neste contexto por Figueiredo e Gomes [5]. Na análise de variância multivariada clássica
pretende-se comparar várias subpopulações de indivı́duos e associa-se a cada subpopulação uma
distribuição multinormal. Neste trabalho considera-se a análise de variância dual para comparar
vários grupos de variáveis e associa-se a cada grupo de variáveis uma distribuição de Watson. Esta
abordagem foi proposta por Gomes e Figueiredo [8], Figueiredo [3] e Figueiredo e Gomes [4].
Análise de variância dual robusta
A estatı́stica do teste de análise de variância dual depende dos parâmetros das distribuições de
Watson, os quais são em geral desconhecidos e estimados com base nas amostras das populações
de Watson, através das estimativas de máxima verosimilhança. Como Fisher, Lewis e Embleton
([6], p. 176) referem para o caso da distribuição de Watson definida na esfera e também se mostra
para o caso da distribuição de Watson definida na hiperesfera, que a estimação do parâmetro de
concentração é bastante afectada pela presença de contaminantes na amostra, embora a estimação
SPE 2011
195
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
do parâmetro direccional já não seja afectada por contaminantes. Assim propõe-se que na estatı́stica
de teste usada na análise de variância dual, a estimação de cada parâmetro de concentração seja
efectuada através do estimador robusto proposto por Best e Fisher [1] em vez do estimador de
máxima verosimilhança usual.
Potência do teste proposto e aplicação a dados bancários
Efectua-se um estudo de simulação no caso de dois grupos de variáveis para comparar a potência
do teste de análise de variância robusta com o teste de análise de variância dual. Conclui-se que na
presença de contaminantes o teste robusto é mais potente que o teste usual e que a potência do teste
robusto aumenta com o número de contaminantes nas amostras. Na ausência de contaminantes nas
amostras, o teste robusto à presença de um ou dois contaminantes em cada amostra tem potência
semelhante à do teste usual.
Finalmente, apresenta-se uma aplicação onde se considera os bancos portugueses caracterizados por
variáveis tais como a ocupação, antiguidade dos trabalhadores e as suas condições salariais. Com
o objectivo de verificar se os grupos homogéneos de variáveis obtidos através da identificação de
uma mistura de distribuições de Watson são distintos, aplica-se ambas as abordagens de análise de
variância dual, usual e robusta, uma vez que se suspeita da existência de outliers nas amostras.
Bibliografia
[1] Best, D. e Fisher, N.I. (1986). Goodness-of-fit and discordancy tests for samples from the
Watson distribution on the sphere. Australian Journal of Statistics, 28 (1), 13-31.
[2] Dempster, A.P., Laird, N.M. e Rubin, D.B. (1977). Maximum likelihood from incomplete data
via the EM algorithm (with discussion). Journal of the Royal Statistical Society, series B, vol.
39, 1-38.
[3] Figueiredo, A. (2000). Classificação de variáveis no contexto de um modelo probabilı́stico
definido na n-esfera. Tese de Doutoramento, Universidade de Lisboa.
[4] Figueiredo, A. e Gomes, P. (2002). Comparação dos parâmetros direccionais de k populações
de Bingham. Em Novos rumos em Estatı́stica (Carvalho, L., Brilhante, F. & Rosado, F., eds.),
227-234, Edições SPE.
[5] Figueiredo, A. e Gomes, P. (2006). Performance of the EM algorithm on the identification of
a mixture of Watson distributions defined on the hypersphere. REVSTAT - Statistical Journal,
vol. 4, no 2, 19.
[6] Fisher, N.I.; Lewis, T. e Embleton, B.J.J. (1987). Statistical analysis of spherical data. Cambridge University Press.
[7] Gomes, P. (1987). Distribution de Bingham sur la n-sphere: une nouvelle approche de
l’Analyse Factorielle. Thèse de Doctorat D’État, Université de Montpellier.
[8] Gomes, P. e Figueiredo, A. (1999). A new probabilistic approach for the classification of
normalised variables. Bulletin of the International Statistical Institute,vol. LVIII, no 1, p. 403404.
SPE 2011
196
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
O genotipo CC do locus 9p21 apresenta risco acrescido de
doença das artérias coronárias perante valores elevados de
PCR de alta sensibilidade
Sónia Freitas1 , Maria Isabel Mendonça1 , Eva Henriques1 e Roberto Palma dos Reis2
1
Unidade de Investigação - Hospital Central do Funchal,
{soniafreitas, dep.card, evinha afonseca}@srs.pt
2 Faculdade de Medicina da Universidade Nova de Lisboa, [email protected]
Resumo: Estudos recentes de associação genómica em larga escala identificaram vários loci associados com maior risco de doença coronária (DC). De entre vários, a variante CC do SNP rs
1333049 no locus 9p21 tem demonstrado uma associação consistente com a DC que tem sido replicada com sucesso, em várias populações, nomeadamente na nossa. A Proteı́na C Reactiva de alta
sensibilidade (PCR-as) tem sido também associada à actividade inflamatória ligada ao fenómeno
aterosclerótico. Desconhece-se a eventual interacção entre estes dois marcadores de doença aterosclerótica. Objectivo: O objectivo deste trabalho é explorar a interacção entre este alelo mutado em
homozigotia (CC) e os nı́veis plasmáticos elevados de PCR-as no aparecimento da DC.
Métodos: Estudo de casos e controlos, que incluiu 1561 indivı́duos, 695 doentes coronários consecutivos (idade média de anos 53,9 ± 8,9 anos 78,8% do sexo masculino) e 838 controlos sem DC
(idade média de 52,0 ± 11,4 anos 71,0% do sexo masculino), seleccionados para não apresentar
diferenças significativas em relação ao sexo e idade.
As variantes G/C foram estudados de forma cega recorrendo a uma técnica combinada PCR e TaqMan. Analisou-se a distribuição de Hardy-Weiberg.
O risco de DC foi investigado por análise univariada (tabelas 4x2), calculando-se os OR e IC de
95%. Os valores de PCR-as foram repartidos por quartis sendo avaliado o superior, considerado o
de risco. Foram utilizadas medidas de sinergismo no modelo aditivo (SI) e multiplicativo (SIM) e
calculado o excesso de risco relativo (RERI). Limiar de significância valor de p < 0,05.
Resultados: A variante CC está associada à DC, de forma significativa, para toda a população
(OR=1,32; p=0,011). A presença isolada desta variante com valores normais de PCR-as apresentou,
no presente trabalho, risco de DC (Odds Ratio = 1,28). A associação desta variante com valores
elevados de PCR-as (quartil superior) mostrou um aumento do risco de DC (OR=1,7; p =0,007; SI
= 1,63; SIM = 1,15; RERI=0,27).
Conclusão: O presente trabalho revela-nos que o genótipo CC do locus 9p21 pode aumentar, globalmente, o risco de DC. Este pode ser acrescido em algumas circunstâncias, nomeadamente na
presença de valores elevados de PCR-as. Na presença destas duas entidades, verificou-se uma
interacção aditiva e multiplicativa no risco de DC. Este conceito permite-nos antever uma tentativa
de controlo do risco dos factores genéticos pelo controlo das circunstâncias que lhe estão associadas, se susceptı́veis de intervenção.
Palavras–chave: Doença coronária, PCR(as), equilı́brio de Hardy-Weiberg, locus 9p21, sinergismo
SPE 2011
197
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Regressão-M em estudos de associação genéticos de caracterı́sticas quantitativas
Vanda M. Lourenço1 e Ana M. Pires2
1
2
FCT/UNL, Dep. Matemática e IST/UTL, CEMAT, Portugal, [email protected]
IST/UTL, Dep. Matemática e CEMAT, Portugal, [email protected]
Resumo: O pressuposto da normalidade é uma conveniência matemática. Em geral, a distribuição
de caracterı́sticas quantitativas não é normal, apresentando caudas pesadas que por seu turno fazem
com que observações regulares sejam erradamente classificadas como outliers, sendo esta uma das
razões pela qual a não-normalidade e a presença de outliers estão habitualmente associadas. Entretanto, é também sabido que os métodos clássicos que se baseiam na verosimilhança têm um fraco
desempenho aquando da violação deste pressuposto. Tal é igualmente o caso do teste F da ANOVA
cuja potência fica comprometida nestas circunstâncias [3]. Os métodos robustos por seu lado, são
desenhados por forma a serem fiáveis mediante a violação de alguns dos pressupostos subjacentes aos métodos clássicos, em particular a violação da condição da normalidade dos erros (isto no
enquadramento de um modelo de regressão). Neste sentido, pretendemos comparar a abordagem
clássica com duas alternativas não paramétricas [6] e a regressão-M [5] no contexto dos estudos
de associação genéticos de caracterı́sticas quantitativas em que temos marcadores genéticos como
variáveis explicativas e onde se usam os modelos de regressão para aferir possı́veis associações
[1, 2]. Os resultados mostrarão a vantagem da metodologia robusta proposta bem como os perigos
que podem advir da utilização da abordagem clássica mesmo quando os resı́duos apresentam uma
distribuição aproximadamente normal [4].
Palavras–chave: Não-normalidade, estimação-M, estudos de associação, polimorfismo de nucleótido único (SNP)
Agradecimentos: V. M. Lourenço e A. M. Pires agradecem o apoio financeiro do CEMAT, Centro
de Matemática e Aplicações do Instituto Superior Técnico.
Bibliografia
[1] Balding, D.J. (2006). A tutorial on statistical methods for population association studies. Nature Reviews Genetics 7: 781-791.
[2] Chapman, J. e Whittaker, J. (2008). Analysis of multiple SNPs in candidate gene or region.
Genet. Epidemiol. 32(6), 560-566.
[3] Copt, S. e Heritier, S. (2007). Robust alternatives to the F-Test in mixed linear models based
on MM-estimates. Biometrics, 63, 1045–1052.
SPE 2011
199
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
[4] Lourenço, V.M., Pires, A.M. e Kirst, M. (2011). Robust linear regression methods in association studies. Bioinformatics.
[5] Maronna, R.A., Martin, D.R. e Yohai, V.J. (2006). Robust Statistics, Theory and Methods.
Chichester: Wiley.
[6] McKean, J.W. e Terpstra, J.T (2009). Computational rank-based statistics. Wiley Interdisciplinary Reviews: Computational Statistics 1, 132–140.
SPE 2011
200
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Leis da genética de Mendel: a enriquecedora controvérsia
Francisco Macedo e Ana M. Pires
Departamento de Matemática e CEMAT, IST-UTL, [email protected],[email protected]
Resumo: Em 1866 Gregor Mendel publicou as leis da genética, após milhares de experiências
realizadas sobre a reprodução das ervilheiras. Os resultados dessas experiências foram mais tarde
explorados exaustivamente pelo brilhante estatı́stico e geneticista Sir Ronald Fisher que, com o simples objectivo de homenagear um grande homem, acabou por ser surpreendido com a sua própria
análise. Terá Mendel realmente efectuado as experiências? Ou será que manipulou de alguma
forma os resultados, ciente do que pretendia obter? Neste trabalho discute-se a análise e os argumentos apresentados por Fisher. Em particular, analisa-se a combinação de testes do qui-quadrado
recorrendo a simulações de Monte Carlo para reproduzir a forma como as experiências podem ter
decorrido.
Palavras–chave: Genética, qui-quadrado, valor-p
Bibliografia
[1] Fisher, R.A. (1936). Has Mendel’s work been rediscovered? Annals of Science 1, 115–137.
[2] Franklin, A., Edwards, A.W.F., Fairbanks, D.J., Hartl, D.L. e Seidenfeld, T. (2008). Ending
the Mendel-Fisher Controversy. Univ. of Pittsburgh Press, Pittsburgh.
[3] Mendel, G. (1866). Experiments in Plant Hybridization. Verhandlungen des naturforschenden
Vereines in Brünn, Bd. IV für das Jahr, 1865, 3–47. (uma transcrição da primeira tradução em
inglês deste artigo encontra-se em Franklin et al., 2008, pp. 78–114)
[4] Pires, A.M. e Branco, J.A. (2010). A statistical model to explain the Mendel-Fisher controversy. Statistical Science 25, 545–565.
SPE 2011
201
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Funções distância direccionais: novas medidas de eficiência
Pedro Macedo1 , Elvira Silva2 e Manuel Scotto1
1
2
Departamento de Matemática, Universidade de Aveiro, {pmacedo, mscotto}@ua.pt
Faculdade de Economia, Universidade do Porto, [email protected]
Resumo: As funções distância direccionais têm um papel importante na teoria económica da
produção, nomeadamente na medição da eficiência e produtividade. A selecção do vector direccional é fulcral, pois condiciona a análise económica. Nesta apresentação são propostas duas novas
medidas de eficiência técnica, uma baseada na mediana de inputs e outputs, e outra baseada nas
funções distância de Shephard.
Palavras–chave: Mediana, eficiência técnica, funções distância direccionais
Introdução
As funções distância direccionais são uma representação completa da tecnologia de produção. Tal
como referido por Chambers, Chung e Färe [1], uma função distância direccional é definida pela
contracção de inputs e, simultaneamente, pela expansão de outputs numa determinada direcção
estabelecida. É importante notar que as funções distância direccionais oferecem uma medida natural
de eficiência, pelo que são apelativas em análise de eficiência. Nesta apresentação são propostas
duas novas medidas de eficiência técnica, uma baseada na mediana de inputs e outputs, e outra
baseada em dois vectores direccionais associados às funções distância de Shephard.
Função distância direccional e vector direccional
Considere-se a tecnologia de produção, T ⊆ RN+ × RM
+ , definida por
T = {(x,y) : x pode produzir y},
(1)
onde x = (x1 ,x2 , . . . ,xN ) ∈ RN+ é um vector de inputs e y = (y1 ,y2 , . . . ,yM ) ∈ RM
+ um vector de outputs. Assumindo que T satisfaz as condições de regularidade tradicionais, uma função distância
direccional pode ser definida por
~DT (x,y; gx ,gy ) = sup{β : (x − β gx ,y + β gy ) ∈ T },
(2)
onde g = (gx ,gy ) ∈ RN+ × RM
+ é um vector direccional que define a direcção na qual os inputs devem
ser contraı́dos e os outputs expandidos. Assim, a distância medida por (2) pode ser interpretada
como uma medida de eficiência técnica, ou seja, uma medida que define em quanto os outputs
podem ser aumentados e os inputs reduzidos, enquanto for tecnicamente possı́vel (e.g., Chambers,
Chung e Färe [1], Färe e Grosskopf [2]).
Uma questão inevitável é: como seleccionar o vector g? Em estudos empı́ricos, o vector direccional
é normalmente definido pela média das observações, isto é, gx = x e gy = y.
SPE 2011
203
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Novas propostas para medir a eficiência técnica
A primeira proposta consiste na distância medida pelo vector direccional g = (med x, med y), onde
med representa a mediana. Assim, neste caso, a direcção é determinada pela mediana dos dados
observados e a medida de ineficiência técnica é dada por
~DT (x,y; med x,med y).
(3)
Na presença de outliers, a medida (3) conduz a menores valores de ineficiência técnica quando
comparada com a medida baseada no vector direccional g = (x,y), cuja direcção é determinada pela
média das observações.
A segunda proposta consiste na medida
rh
i2
i2 h
~DT (x,y; x,0) + ~DT (x,y; 0,y) ,
(4)
que captura informação dos vectores direccionais g = (x,0) e g = (0,y), que estão associados
às funções distância de inputs e outputs de Shephard. Esta medida poderá contribuir para uma
avaliação mais equilibrada da eficiência técnica, uma vez que diferentes produtores com diferentes nı́veis de ineficiência, segundo diferentes vectores direccionais, podem, afinal, ser considerados
semelhantes em termos de ineficiência técnica.
Bibliografia
[1] Chambers, R.G., Chung, Y. e Färe, R. (1998). Profit, Directional Distance Functions, and
Nerlovian Efficiency. Journal of Optimization Theory and Applications, 98, 351–364.
[2] Färe, R. e Grosskopf, S. (2004). New Directions: Efficiency and Productivity. Kluwer Academic Publishers, Boston.
SPE 2011
204
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Uma versão robusta para o estimador do ı́ndice extremal de
Nandagopalan
Cristina Miranda1 , Manuela Souto de Miranda2 , Anabela Rocha3 e Ivette Gomes4
1
CEAUL e ISCA-Universidade de Aveiro, [email protected]
CIDMA e DMAT-Universidade de Aveiro, [email protected]
3 CIDMA e ISCA-Universidade de Aveiro, [email protected]
4 CEAUL e DEIO-Universidade de Lisboa, [email protected]
2
Resumo: Em muitas aplicações frequentes da Teoria de Valores Extremos somos confrontados com
a ocorrência de excedências de nı́veis elevados em grupos. Quando isto sucede, a distribuição de
valores extremos é afetada, havendo necessidade de estimar um outro parâmetro, designado por
ı́ndice extremal. Existem várias propostas na literatura para estimar este parâmetro, que pode ser
interpretado como o inverso da dimensão média dos grupos de excedências, mas os estimadores
mais divulgados não são robustos. Neste trabalho revisitamos o estimador de Nandagopalan, considerando um indicador robusto de localização em substituição da média amostral que o integra, de
modo a obter estimativa robustas do número de excedências que ocorrem em cada grupo.
Palavras–chave: Estimador de Nandagopalan, ı́ndice extremal, robustez
Em Teoria de Valores Extremos é conhecido o resultado que permite a identificação da distribuição
limite do máximo de uma sucessão, Mn = max{X1 ,X2 ,...,Xn }, devidamente normalizado, no caso de
uma amostra com observações independentes e identicamente distribuı́das (i.i.d.):
Seja {Xn } uma sucessão de variáveis aleatórias i.i.d. e admitamos que existem sucessões de constantes {an }, {bn }, com an > 0 e bn ∈ R, tais que
Mn − bn
≤x
P
an
→ G(x).
n→∞
Então, se G(x) é não-degenerada, sabemos que assume uma forma paramétrica especı́fica. Se, para
além disso, considerarmos uma sucessão estacionária, sob determinadas condições, é ainda possı́vel
obter a distribuição limite do máximo, diferindo esta de G(.) por conter um parâmetro θ , conhecido
por ı́ndice extremal. O valor do ı́ndice extremal traduz o grau de dependência de uma sucessão:
quando é zero, os termos da sucessão são fortemente dependentes e quando é 1, a sucessão é de
termos independentes ou assintoticamente independentes.
Na prática, é frequente observar sucessões dependentes em que a ocorrência de extremos se caracteriza pela sua multiplicidade, isto é, em que os extremos não ocorrem de forma isolada, mas em
grupos de valores elevados (ou baixos). São disso exemplo a forma como ocorrem as marés vivas
– há dias consecutivos com marés acima (abaixo) dos valores normais; picos de temperatura, etc..
Um dos estimadores propostos para o ı́ndice extremal é o estimador de Nandagopalan ou de cruzamentos ascendentes. Trata-se do inverso da média amostral da dimensão dos grupos de excedências
que se verificam acima de uma dado nı́vel definido, un .
Se uma sucessão estacionária {Xn } com ı́ndice extremal θ > 0 verifica determinadas condições,
SPE 2011
205
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
então o número médio de excedências e o número médio de cruzamentos ascendentes relacionam-se
através da razão constante 1/θ . Nesses casos, o estimador de Nandagopalan para o ı́ndice extremal,
é definido em [1] por:
1
∑n P [Xi > un (τ )]
,
= n−1 i=1
θ̂nN
∑i=1 P (Xi ≤ un (τ ) < Xi+1 )
(1)
onde os termos un (τ ) representam nı́veis não normalizados, tais que
nP [X1 > un (τ )] ∼ cn τ , com cn , kn → ∞ e
n→∞
cn
→ 0.
kn
Consequentemente,
θ̂nN =
número de cruzamentos ascendentes de un
1
=
.
número total de excedências de un
número médio de excedências em cada grupo
Trata-se de um estimador que converge em probabilidade para θ e que tem distribuição assintótica
Normal. No entanto, a expressão funcional que o define depende de uma média amostral, implicando que o estimador não seja robusto.
Neste trabalho propomos que se utilize um indicador robusto de localização para substituir a média
amostral em (1), obtendo assim, uma versão robusta do estimador de Nadagopalan.
A proposta consiste em estimar de forma robusta a tendência central do número de observações
que constituem os grupos de excedências. Com esse objectivo, estudamos a aplicação de diferentes
estimadores-M, os quais podem ser definidos, implicitamente, pela solução de equações do tipo
∑ ψ (xi ,θ ) = 0, para funções ψ adequadas. As propriedades do estimador, nomeadamente, no que
respeita à robustez, dependem das caracterı́sticas da função ψ escolhida (ver, p.ex., em [2]).
Para avaliar o desempenho da proposta, recorremos a estudos de simulação, comparando os resultados de diferentes versões robustas, com os obtidos pelo estimador de Nadagopalan. Em amostras
onde haja grupos de excedências de dimensão atipicamente elevada (ou pequena) é de esperar que
o estimador proposto supere o original.
Bibliografia
[1] Leadbetter, M.R. e Nandagopalan, S. (1989). On exceedance point processes for stationary
sequences under mild oscillation restrictions. Em Extreme Value Theory (Hüsler, J. and R.-D.
Reiss, eds.), 69–80, Springer-Verlag.
[2] Maronna, R. A., Martin, R. D. e Yohai, V. (2006). Robust Statistics, Theory and Methods. John
Wiley & Sons.
SPE 2011
206
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Estimação simultânea da altura dominante, mortalidade e
área basal no modelo GLOBULUS
Isabel Pereira1 e Marco Marto2
1
2
Universidade de Aveiro, CIDMA, [email protected]
Universidade de Aveiro, [email protected]
Resumo: Os modelos de crescimento florestal e produção são muitas vezes caracterizados por um
sistema de equações que explicitam a interdependência entre equações. Com o objetivo de se modelar o crescimento da espécie Eucalyptus globulus, Tomé et al [1] sugeriram o modelo, não linear,
GLOBULUS. Para se estimarem os parâmetros estruturais deste modelo de crescimento foram usados o método dos mı́nimos quadrados não lineares em três fases e o método NSUR (Nonlinear
Seemingly Unrelated Regression). Adicionalmente foi ainda implementada a metodologia bayesiana para estimar os parâmetros, após se ter feito a escolha do modelo com base no critério de
informação da deviance, vulgarmente designado por DIC. Foi implementado o algoritmo de Monte
Carlo baseado em cadeias de Markov, usando a priori´s não informativas.
Palavras–chave: Algoritmo MCMC, critério DIC, mı́nimos quadrados, modelo de equações simultâneas, NSUR
Introdução
Em Portugal têm sido feitos muitos estudos de modelação do crescimento da espécie Eucalyptus
globulus, mais conhecido correntemente por eucalipto desde a instalação das primeiras parcelas
permanentes, instaladas pela Celbi, em 1971. O modelo resultante dum projecto de colaboração
entre a indústria e a ISA foi o GLOBULUS, apresentado por Tomé et al. [1] e que tem vindo a ser
melhorado em sucessivas versões. O presente trabalho assenta versão GLOBULUS 2.1, Tomé et al.
[2]. O modelo que vai ser analisado segundo as metodologias clássica e bayesianas é um modelo
de povoamento que considera as seguintes variáveis de estado: altura dominante - representando a
altura das árvores dominantes na parcela florestal (em metros), mortalidade - indicando o número
de árvores vivas por hectare na parcela florestal e a área basal- que apresenta a soma das áreas das
árvores da parcela a 1,30m de altura, em m2 /ha. Para os estados mortalidade e área basal terão
de ser considerados dois módulos, o módulo de inicialização e o módulo da projecção, sendo este
último formulado através de equações ás diferenças.
Bibliografia
[1] Tomé, M., Ribeiro, F., Soares, P. (1998). Silvipastoral systems in Portugal. Em Modelling the
growth of tree plantations and agroforestry systems in south and east Africa (Pukkala,T. e
Eerikäinen, K., eds.), Tiedonantoja Research Notes, 80: 23–33.
SPE 2011
207
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
[2] Tomé, M., Ribeiro, F., Soares, P. (2001). O modelo Globulus 2.1. Relatórios TecnicoCientı́ficos do GIMREF no 1/2001. Centro de Estudos Florestais, Instituto Superior de Agronomia, Lisboa.
SPE 2011
208
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Métodos bayesianos de adequação de modelos estatı́sticos:
um estudo de simulação
Maria João Polidoro1 , Fernando Magalhães2 e Maria Antónia Turkman3
1
ESTGF - Instituto Politécnico do Porto, CEAUL, [email protected]
ISCAP - Instituto Politécnico do Porto, CEAUL, [email protected]
3 DEIO e CEAUL - Faculdade de Ciências da Universidade de Lisboa, [email protected]
2
Resumo: O processo de construção de um modelo estatı́stico pode ser visto como uma etapa da
análise estatı́stica que se pode dividir em duas fases: (i) selecção/comparação de modelos e (ii)
validação/adequação do modelo seleccionado. Cada uma destas fases dispõe de várias técnicas que
visam alcançar o melhor modelo, ou seja, aquele que melhor descreva o fenómeno aleatório em
estudo, e que, simultaneamente, seja adequado para produzir inferências úteis à tomada de decisão.
Na abordagem clássica, o estudo da adequação de um modelo aos dados passa pela formulação
de um teste de ajustamento, em que a hipótese nula consiste no modelo proposto. Na abordagem
bayesiana, o modelo inclui, além da distribuição amostral condicional ao vector de parâmetros,
a especificação de uma famı́lia de distribuições a priori para o vector de parâmetros. Há várias
propostas apresentadas na literatura para o estudo da adequabilidade de um modelo segundo a abordagem bayesiana, nomeadamente: (i) métodos baseados em medidas de diagnóstico; (ii) métodos
baseados em medidas de surpresa; (iii) teste do qui-quadrado bayesiano; e (iv) testes de ajustamento
bayesianos não paramétricos.
Neste trabalho apresenta-se um estudo de simulação em que se comparam os métodos bayesianos
de adequação de modelos referidos anteriormente, sugerindo-se ainda, em algumas situações, propostas alternativas.
Palavras–chave: Adequação de modelos, medidas de diagnóstico, medidas de surpresa, qui-quadrado bayesiano, testes de ajustamento não paramétricos
Agradecimentos: Este trabalho é suportado por uma bolsa da FCT - Bolsa SFRH/BD/36869/2007,
pelo CEAUL e pelo PFAD.IPP.
SPE 2011
209
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Testes robustos para modelos lineares generalizados com respostas incompletas
Isabel M. Rodrigues1 , Ana M. Bianco2 e Graciela Boente2
1
2
Instituto Superior Técnico, UTL (TULisbon) e CEMAT, Portugal, [email protected]
Universidad de Buenos Aires e CONICET, Argentina, {abianco, gboente}@dm.uba.ar
Resumo: Em muitas situações em que os dados seguem um modelo linear generalizado a média
das respostas é bem modelada considerando uma função (de ligação) linear das covariáveis. Com
o objectivo de construir testes de hipóteses robustos para os parâmetros de regressão, neste trabalho são estudados novos estimadores robustos desses parâmetros, para conjuntos de dados com
respostas completas ou incompletas. O comportamento assimptótico dos estimadores robustos foi
estudado sob a hipótese nula e sob alternativas contı́guas, o que permitiu obter uma versão robusta
da estatı́stica de Wald. O grau de robustez desta estatı́stica foi estudado através da função de influência do funcional correspondente. O comportamento da nova estatı́stica, para amostra finitas,
foi analisado num estudo de simulação de Monte Carlo.
Palavras–chave: Dados incompletos, estimação robusta, funções de influência, modelos lineares
generalizados, testes robustos
Introdução
Os modelos lineares generalizados (MLG) são uma técnica popular para a modelação de uma vasta
variedade de dados. Assumem que as observações (yi ,xi ), para i = 1, . . . , n, com xi ∈ R p , são independentes com a mesma distribuição de (y,x) ∈ R p+1 , e a distribuição condicional de y|x pertence à
famı́lia exponencial canónica
exp {[yθ (x) − B (θ (x))] /A(τ ) +C(y,τ )} ,
onde A, B e C são funções conhecidas. Nesta situação, se denotarmos por B′ a derivada de B, a
média µ (x) = E(y|(x)) = B′ (θ (x)) é modelada lineramente com uma função de ligação conhecida, g, i.e., g(µ (x)) = θ (x) = xT β . Procedimentos robustos para modelos lineares generalizados
foram considerados, entre outros, por Stephanski, Carroll e Ruppert [7], Künsch, Stefanski e Carroll [6], Bianco e Yohai [3], Cantoni e Ronchetti [4], Croux e Haesbroeck [5] e Bianco, Garcı́a Ben
e Yohai [1]. Recentemente, testes robustos para os parâmetros de regressão do modelo logı́stico
foram estudados por Bianco e Martı́nez [2].
Na prática, pode ocorrer que algumas variáveis resposta sejam incompletas e os métodos anteriormente referidos, delineados para conjuntos de dados completos, são inadequados. Neste trabalho
desenvolvemos procedimentos inferenciais robustos para conjuntos de dados com observações incompletas da variável resposta mas com a covariável x completamente observada. São introduzidos
procedimentos robustos para estimar o parâmetro β , sob o MLG, o qual inclui, no caso de dados
completos, a famı́lia de estimadores anteriormente referida. Mostrou-se√que o estimador robusto de
β é consistente e assimpoticamente normal (com taxa de covergência n). Um teste de hipóteses
SPE 2011
211
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
robusto, do tipo Wald, para testar H0 : β = β 0 foi também estudado. Foi deduzida a função de
influência para o funcional relacionado com a estatı́stica de teste, o que permitiu avaliar o seu grau
de robustez. Um estudo de simulação de Monte Carlo, com diferentes esquemas de contaminação,
permitiu comparar o comportamento da nova estatı́stica de teste, para amostras finitas, com o de
outras estatı́sticas robustas e o da estatı́stica clássica de Wald.
Bibliografia
[1] Bianco, A., Garcı́a Ben, M. e Yohai, V. (2005). Robust estimation for linear regression with
asymmetric errors. Canad. J. Statist., 33, 511-528.
[2] Bianco, A. e Martı́nez, E. (2009). Robust testing in the logistic regression model. Comp. Statist. Data Anal., 53, 4095-4105.
[3] Bianco, A. e Yohai, V. (1995). Robust estimation in the logistic regression model. Lecture
Notes in Statistics, 109, 17-34. Springer-Verlag, New York.
[4] Cantoni, E. e Ronchetti, E. (2001). Robust Inference for Generalized Linear Models. Journal
of the American Statistical Association, 96, 1022-1030.
[5] Croux, C. e Haesbroeck, G. (2003). Implementing the Bianco and Yohai estimator for logistic
regression. Comp. Statist. Data Anal., 44, 273-295.
[6] Künsch, H., Stefanski, L. e Carroll, R. (1989). Conditionally unbiased bounded influence estimation in general regression models with applications to generalized linear models. J. Amer.
Assoc., 84, 460-466.
[7] Stefanski, L., Carroll, R. e Ruppert, D. (1986). Bounded score functions for generalized linear
models. Biometrika, 73, 413-424.
SPE 2011
212
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
Utilização do algoritmo SAEM na análise genética de bovinos
Natascha Almeida Marques da Silva1 , Ângela Maria Quintão Lana2 , Fabyano Fonseca e Silva3
Renato Ribeiro de Lima4 , Martinho de Almeida e Silva2 e José Aurélio Garcia Bergmann2
1
Universidade Federal de Uberlândia, [email protected]
Universidade Federal de Minas Gerais, {lana, martinho, bergmann}@vet.ufmg.br
3 Universidade Federal de Viçosa, [email protected]
4 Universidade Federal de Lavras, [email protected]
2
Resumo: O objetivo do trabalho foi comparar duas diferentes metodologias na avaliação genética de
curvas de crescimento de animais Nelore: o algoritmo SAEM e o método Two Step. A diferença entre eles é que o algoritmo SAEM estima simultaneamente parâmetros do modelo e efeitos genéticos
e ambientais e o método Two Step faz esse processo de estimação em duas etapas distintas, além
do algoritmo SAEM utilizar o método de máxima verossilhança (ML) e do Two-step o de máxima
verossimilhança restrita (REML) .O algoritmo SAEM se mostrou consistente na estimação dos
efeitos fixos e predição dos aleatórios, se apresentando como uma alternativa viável para avaliação
genética.
Palavras–chave: Componentes de (co)variância, algoritmo SAEM, Nelore
Introdução
As estimativas dos parâmetros dos modelos de crescimento em programas de seleção, normalmente,
são obtidas por meio de uma metodologia frequentista (método Two-Step), que considera duas
fases distintas. No entanto, segundo [1] métodos de estimação simultânea de efeitos genéticos e
ambientais são mais eficientes na avaliação genética de animais. [2] sugerem como alternativa
de estimação simultânea uma extensão do algoritmo EM com o uso de um processo estocástico,
denominado algoritmo SAEM (Stochastic Approximation EM algorithm) para se obter estimativas
pelo método da Máxima Verossimilhança. Os objetivos da realização deste trabalho foram: Obter
a partir da utilização do algoritmo SAEM e do método Two Step, os componentes de variância
e os parâmetros genéticos dos parâmetros com interpretação biológica do modelo não linear de
crescimento de Brody modificado.
Metodologia
Foram utilizados dados de 410 bovinos cedidos pela ABCZ. O modelo de crescimento não linear utilizado para avaliar o crescimento, foi o modelo de Brody Modificado conforme [2], para a avaliação
genética dos animais utilizou-se o modelo touro . Para a obtenção dos componentes de variância
provenientes do ajuste do modelo touro, os dados de bovinos Nelore foram analisados por meio
de duas metodologias: SAEM e Two-Step. A forma de aplicação dos métodos SAEM e Two-Step
SPE 2011
213
Sexta, 30/09/2011
Sessão de POSTERS III
Átrio do Café, 16:30–17:00
se deu de quatro maneiras distintas: 1a ) SAEM 1 (S1) - Os dados dos 410 animais Nelore, foram
analisados a partir do algoritmo SAEM. 2a ) Two- Step 1 (TS1)- Dos 410 animais utilizados na primeira etapa de ajuste deste método, apenas 326 que obtiveram convergência para os parâmetros do
modelo foram utilizados. 3a ) SAEM2 (S2)- o algoritmo SAEM foi utilizado para analisar apenas os
dados dos mesmos 326 animais que convergiram no TS1. 4a ) Two- Step 2 (TS2)- Os parâmetros do
modelo estimados pelo SAEM 1, foram utilizados como as variáveis dependentes no modelo touro.
Resultados e discussão
A partir dos resultados obtidos de componentes de variância, observou-se que o S1 apresentou menores valores em relação ao TS1, principalmente em relação aos componentes residuais. Isso se
deve provavelmente pelo fato do TS1 ser executado em duas etapas distintas, assim os erros provenientes do ajuste do modelo de crescimento na primeira etapa não são considerados na estimação
dos componentes de variância na segunda etapa. Como no S1 a estimação é simultânea, há uma
correção nas estimativas dos componentes de variância, diminuindo a variação residual. O mesmo
comportamento é observado quando compara-se TS1 e S2. Quando compara-se o S1 com o TS2, as
estimativas dos componentes de variância obtidas se aproximaram. Esse fato elucida que a diferença
na estimação dos componentes de variância é realmente proveniente do erro de ajuste da primeira
etapa, já que o TS2 utiliza as estimativas de A e K do S1 para estimar os componentes de variância.
No entanto é importante também considerar que outro fator que pode estar elevando as diferenças
entre os componentes de variância estimados, é o fato do SAEM e TS considerarem metodologias diferentes para estimação desses componentes. O SAEM utiliza o método de ML e o TS o
de REML. Por esse motivo as estimativas do SAEM podem estar sendo subestimadas, pois esse já
um comportamento esperado quando se utiliza a ML. [3] comprovam esse fato em um estudo de
simulação de dados, onde estes autores compararam estimativas de componentes de (co)variância
dos parâmetros da curva de crescimento de Gompertz pelos métodos ML e REML.
Conclusões
Pode-se concluir que o algoritmo SAEM mostrou um indicativo de ser adequado para a avaliação
genética de bovinos, pois apresentou estimativas mais estáveis quando comparadas ao TS.
Agradecimentos: Apoio da FAPEMIG e CNPq.
Bibliografia
[1] Blasco A., Piles M. e Varona L. (2003). A Bayesian analysis of the effect of selection for
growth rate on growth curves in rabbits, Genetic Selection Evolution v.35, p. 21–41.
[2] Jaffrézic, F., Meza, C., Lavielle, M. e Foulley, J.L. (2006). Genetic analysis of growth curve
using the SAEM algorithm. Genetic Selection Evolution, v.38, p. 583–600.
[3] Meza, C. Jaffrézic, F. e Foulley, J.L. (2007). REML Estimation of Variance Parameters in
Nonlinear Mixed Effects Models Using the SAEM Algorithm. Biometrical Journal, v. 49, n.6,
p. 876–888.
SPE 2011
214
Sexta, 30/09/2011
Análise Multivariada III
Sala Premium, 17:00–18:00
Piecewise Loadings - indicadores clássicos adaptados às variantes não-lineares da ACP
Nuno Lavado1 e Teresa Calapez2
1
Instituto Superior de Engenharia de Coimbra (ISEC), Unidade de Investigação em Desenvolvimento Empresarial (Unide-IUL), [email protected]
2 Instituto Universitário de Lisboa (ISCTE-IUL), Unidade de Investigação em Desenvolvimento
Empresarial (Unide-IUL), [email protected]
Resumo: As variantes não-lineares da Análise em Componentes Principais (ACPNL) abordam o
problema da não-linearidade relaxando as restrições lineares da ACP clássica [2]. Um novo algoritmo para esse efeito, designado quasi-linear PCA (qlPCA), foi recentemente proposto pelos
autores [3]. Este é uma adaptação do algoritmo CATPCA [5] concebido para variáveis categoriais
por forma a incorporar directamente variáveis contı́nuas sem necessidade prévia dum processo de
discretização. O algoritmo da qlPCA assenta no processo de Alternating Least Squares [4] associado a transformações spline [1, 6] de ordem inferior a três sem limitações quanto ao número de nós.
Esta comunicação tem dois objectivos: apresentar a qlPCA e exemplificar uma das suas potencialidades - a tradução da informação associada às componentes principais não-lineares em termos das
variáveis originais naquilo que designamos de piecewise loadings.
Palavras–chave: Análise em componentes principais não-linear, quasi-linear PCA, piecewise loadings
Bibliografia
[1] Boor, C. (1978). A Practical Guide to Splines. Springer.
[2] Calapez, T. e Lavado, N. (2005). Um enquadramento das variantes não-lineares da ACP via
transformações spline. Em Estatı́stica Jubilar. Actas do XII Congresso da Sociedade Portuguesa de Estatı́stica (Carlos A. Braumann, Paulo Infante, Manuela M. Oliveira, Russell
Alpı́zar-Jar, Fernando Rosado, eds.), 391–402. Edições SPE.
[3] Calapez, T. e Lavado, N. (2011). Quasi-linear PCA: Low order spline’s approach to non-linear
principal components. Aceite para publicação pela IAENG.
[4] Gifi, A. (1991). Nonlinear Multivariate Analysis. Wiley.
[5] Meulman, J., Kooij, A. e Heiser, W. (2004). Principal components analysis with nonlinear
optimal scaling transformations for ordinal and nominal data. Em The Sage Handbook of
Quantitative Methodology for the Social Sciences, 49–70, Sage.
[6] Winsberg, S. e Ramsay, J. (1983). Monotone spline transformations for dimension reduction.
Psychometrika, 48, 575–595.
SPE 2011
Mesa: Isabel Rodrigues
215
Sexta, 30/09/2011
Análise Multivariada III
Sala Premium, 17:00–18:00
Informação estatı́stica e decisão empresarial: avaliação das
escalas de medida de um modelo estrutural
Armindo Carvalho e Francisco V. Martins
Faculdade de Economia do Porto, {amsc,vmartins}@fep.up.pt
Resumo: Neste estudo é desenvolvido um modelo de medida do desempenho de sistemas de
informação baseado nos conceitos de usabilidade e actuabilidade. Para o efeito, é definido um
modelo de equações estruturais, através do qual se pretende determinar os factores que contribuem para explicar a utilidade das estatı́sticas oficiais nos processos de decisão dos operadores
turı́sticos portugueses. Tais factores explicativos constituem variáveis latentes (constructos) não observáveis cuja quantificação terá de ser assegurada por meio de medidas apropriadas. O objectivo
desta apresentação é de discutir os resultados da análise factorial confirmatória aplicada para testar
a validade das variáveis de medida usadas como representações dos constructos teóricos do modelo
estrutural.
Palavras–chave: Sistemas de informação, estatı́sticas oficiais, tomada de decisão, modelos de
equações estruturais, análise factorial confirmatória
Problemática
A complexidade crescente das organizações modernas é acompanhada de necessidades acrescidas em informação de qualidade, devidamente sistematizada para responder atempadamente às
exigências de gestão de processos de decisão. Os progressos alcançados nas tecnologias de informação permitiram ampliar o potencial dos meios de acesso à informação, tornando-os mais flexı́veis e
fáceis de utilizar, acrescentando-lhes valor.
A competitividade das empresas é por sua vez tributária da capacidade de aproveitar convenientemente as oportunidades abertas por este recurso fundamental para a eficiência dos processos de
gestão, determinante para o sucesso empresarial. O investimento neste recurso e a forma como é
gerido e aproveitado, são factores que condicionam as possibilidades de diferenciação e de melhoria
do seu posicionamento e vantagens de competitividade.
A captura de dados pertinentes para a gestão organizacional baseia-se no acesso a um conjunto
de fontes de informação, incluindo os sistemas de operações internas e de clientes, de fornecedores, de concorrentes, de mercados de produtos e serviços e de outras entidades externas como
as organizações produtoras de sondagens e previsões ou os organismos produtores de estatı́sticas
oficiais.
A informação e, de um ponto de vista mais amplo, os sistemas de informação, enquanto factores
de qualificação de processos de decisão devem assim ser avaliados de uma dupla perspectiva: a da
capacidade de acesso e utilização adequada da informação disponı́vel e a da utilidade em processos
de decisão. Dimensões que Beynon-Davies (2002) define como efeitos de primeira ordem e de
segunda ordem dos sistemas de informação.
SPE 2011
Mesa: Isabel Rodrigues
217
Sexta, 30/09/2011
Análise Multivariada III
Sala Premium, 17:00–18:00
Os efeitos de primeira ordem referem-se a questões de uso, e portanto à problemática da usabilidade
em sistemas de informação. Os efeitos de segunda ordem respeitam ao impacto dos sistemas de
informação na actividade das organizações, facto que remete para a problemática do seu potencial
acção e a avaliação da sua actuabilidade.
A usabilidade é uma caracterı́stica que reflecte o quanto amigável é um sistema de informação. Expressa a facilidade de aprendizagem para novos utilizadores e a facilidade de uso para utilizadores
habituais. Sendo a informação cada vez mais um elemento crucial do processo de decisão, a usabilidade da informação e dos sistemas de informação é um factor crı́tico para a efectiva integração
entre informação e decisão.
Goldkuhl e Ågerfalk (2002) define a actuabilidade de um sistema de informação como a aptidão
desse sistema de informação para realizar, promover e facilitar a realização de acções concretas
pelos utilizadores, através do sistema e na base de informação do sistema, num dado contexto organizacional.
Partindo dos dois conceitos de usabilidade e actuabilidade pretende-se estudar as práticas e os factores condicionantes do uso de sistemas de informação, e em particular dos sistemas de informação
estatı́stica oficial no contexto do processo de decisão empresarial no sector do Turismo. Para o efeito
foi definido um quadro conceptual alicerçado num modelo de equações estruturais, na base do qual
foi estabelecido um instrumento de avaliação empı́rica e aplicado a uma amostra de operadores
turı́sticos.
O instrumento de avaliação operacionaliza um conjunto de escalas de medida usadas como quantificações empı́ricas representativas dos constructos teóricos envolvidos no sistema de inter-relações
definido pelo modelo estrutural adoptado. O objectivo desta apresentação é de discutir os resultados da análise factorial confirmatória aplicada para efeitos de avaliação da validade das medidas de
quantificação enquanto representações empı́ricas dos constructos teóricos do modelo.
Bibliografia
[1] Beynon-Davies, P. (2002). Information Systems. Palgrave, New York.
[2] Goldkuhl, G. e Ågerfalk, P.J. (2002). Actability: A Way to Understand Information Systems
Pragmatics, In Coordination and Communication Using Signs: Studies in Organisational Semiotics 2, (Eds, K. Liu, et al.) Boston: Kluwer Academic Publishers.
SPE 2011
Mesa: Isabel Rodrigues
218
Sexta, 30/09/2011
Análise Multivariada III
Sala Premium, 17:00–18:00
Modelos de análise factorial exploratória e confirmatória parameterizados como modelos com grafos
Maria de Fátima Salgueiro
Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa, Portugal,
[email protected]
Resumo: Nesta apresentação o modelo clássico de análise factorial e o modelo de análise factorial
confirmatória, com mais de um factor, são parameterizados como modelos com grafos com estruturas em cadeia, usando correlações parciais. São apresentadas expressões para as relações entre
i) correlações parciais entre variáveis manifestas, ii) correlações parciais entre variáveis manifestas
e factores latentes e iii) pesos factoriais. Os resultados propostos são ilustrados recorrendo a um
modelo com dois factores de bem-estar, usando dados do British Household Panel Survey.
Palavras–chave: Análise factorial exploratória, análise factorial confirmatória, correlação parcial,
modelos com grafos com estrutura em cadeia
Modelos com grafos e modelos de análise factorial
A modelação com grafos (graphical modelling) é uma técnica de análise estatı́stica multivariada,
baseada no conceito de independência condicionada, que usa grafos para representar modelos. O
grafo é uma representação da estrutura de independências condicionadas das variáveis: vértices
representam variáveis; arestas representam associações entre variáveis. A interpretação da estrutura
de associações é feita directamente a partir do grafo, com recurso às propriedades de Markov. Para
uma introdução a estes modelos ver Whittaker (1990); para uma exposição mais matemática ver
Lauritzen (1996).
O modelo clássico de análise factorial postula que os factores latentes reproduzem a estrutura de
variâncias/covariâncias (ou de correlações) das variáveis manifestas, sendo as variáveis manifestas
condicionalmente independentes dado os factores latentes (Bartholomew e Knott, 1999).
Num modelo de análise factorial confirmatória a estrutura dos pesos factoriais é definida à priori, dependendo de que variáveis manifestas se supõem medir os factores latentes no modelo em
estudo. Os factores latentes assumem-se correlacionados entre si, podendo o modelo de análise factorial confirmatória ser considerado a componente de medida de um modelo de equações estruturais
(Bollen, 1989).
Parameterização de um modelo de análise factorial com mais de um factor como um modelo
com grafos
Salgueiro et al., (2008) mostraram como parameterizar um modelo de análise factorial com um
factor como um modelo Gaussiano com grafos, usando correlações parciais, tendo enfatizado o
SPE 2011
Mesa: Isabel Rodrigues
219
Sexta, 30/09/2011
Análise Multivariada III
Sala Premium, 17:00–18:00
contributo da parameterização proposta para uma melhor compreensão deste tipo de modelos, designadamente no que à estrutura de associações entre variáveis manifestas diz respeito.
Salgueiro et al. (2010) exploraram as relações entre a parameterização clássica e a parameterização
como um modelo Gaussiano com grafos do modelo de análise factorial com um factor, e derivaram
expressões matemáticas para as relações entre manifest partial correlations (correlações parciais entre variáveis manifestas), factor partial correlations (correlações parciais entre variáveis manifestas
e factores latentes) e factor loadings (pesos factoriais).
O presente trabalho ilustra como parameterizar o modelo clássico de análise factorial e o modelo de
análise factorial confirmatória como graphical chain models (modelos com grafos com estrutura em
cadeia). São usadas correlações parciais para investigar a estrutura de associações entre variáveis
manifestas no modelo.
São extendidos resultados anteriormente obtidos por Salgueiro et al. (2008) e (2010). São considerados o modelo clássico de análise factorial e o modelo de análise factorial confirmatória, com dois
factores latentes, e apresentadas expressões matemáticas para as relações entre i) correlações parciais entre variáveis manifestas, ii) correlações parciais entre variáveis manifestas e factores latentes
e iii) pesos factoriais.
Os resultados obtidos são ilustrados com dados do British Household Panel Survey, sendo considerados dois factores latentes de bem-estar percepcionado, cada um deles medido por três variáveis
manifestas.
Agradecimentos: A investigação desenvolvida teve o apoio da Fundação para a Ciência e a Tecnologia, Bolsa SFRH/BSAB/981/2010.
Bibliografia
[1] Bartholomew, D.J. e Knott, M. (1999). Latent Variable Models and Factor Analysis. 2a ed.
London: Arnold Publishers.
[2] Bollen, K.A. (1989). Structural Equations with Latent Variables. John Wiley & Sons.
[3] Lauritzen, S. L. (1996). Graphical Models. Oxford: Oxford University Press.
[4] Salgueiro, M.F., Smith, P.W.F. e McDonald, J.W. (2008). The manifest association structure
of the single-factor model: insights from partial correlations. Psychometrika, 73 (4), 665–670.
[5] Salgueiro, M.F., Smith, P.W.F. e McDonald, J.W. (2010). Connections between graphical gaussian models and factor analysis. Multivariate Behavioral Research, 45, 135–152.
[6] Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics. Chichester: John
Wiley & Sons.
SPE 2011
Mesa: Isabel Rodrigues
220
Sexta, 30/09/2011
Biostatı́stica III
Sala Dinastia, 17:00–18:00
Modelos de simulação para o bloqueio neuro-muscular: uma
análise estatı́stica
Conceição Rocha, Maria Eduarda Silva e Teresa Mendonça
Departamento de Matemática, Faculdade de Ciências, U. Porto e CIDMA, {[email protected],
[email protected],tmendo}@fc.up.pt
Resumo: O desenvolvimento de sistemas para administração de fármacos por via endovenosa em
anestesia requer a integração da informação extraı́da dos dados recolhidos em ambiente clı́nico nos
modelos baseados nas leis fı́sicas, quı́micas e biológicas, de forma a representar adequadamente
a variabilidade interindividual observada. Neste trabalho propõe-se e valida-se um modelo para o
relaxamento muscular induzido pela administração do fármaco atracurium que será usado como
modelo de simulação para determinar a dose individualizada de fármaco a administrar em modo
contı́nuo.
Palavras–chave: Modelo de simulação, dados longitudinais
Na anestesia moderna, a utilização de infusões endovenosas de fármacos têm tido uma evolução
continuada, no sentido de induzir no paciente um estado estável num nı́vel de anestesia desejado. A relação entre a dose de fármaco administrada e o efeito fisiológico induzido é determinada pelas caracterı́sticas farmacocinéticas e farmacodinâmicas, PK/PD, do fármaco. O modelo
farmacocinético-farmocodinâmico, PK/PD, de um fármaco descreve quer a evolução temporal da
concentração plasmática do fármaco quer a relação entre a concentração plasmática de fármaco e o
efeito fisiológico induzido. Os parâmetros dos modelos PK/PD dependem das caracterı́sticas individuais dos pacientes e a sua determinação requer medições da concentração plasmática do fármaco
em instantes diferentes ao longo da sua acção o que é impraticável.
No caso particular do fármaco atracurium que provoca relaxamento muscular, Lago [1] propõe
um modelo populacional, doravante referido como M , que tem sido usado extensivamente em
simulações com vista ao desenho de controladores automáticos. As caracterı́sticas populacionais
deste modelo foram estabelecidas com base nos parâmetros farmacocinéticos/farmacodinâmicos
(PK/PD) de 12 pacientes submetidos a pequenas cirurgia publicados por Ward [4] e Weatherley [5].
No entanto, trabalho recente, Rocha [2], sugere que o modelo M para o relaxamento muscular induzido pelo atracurium não representa adequadamente o relaxamento muscular observado em bloco
operatório de um conjunto de 84 pacientes submetidos a anestesia geral. Mais, a recalibração do modelo M com base nos dados actualmente disponı́veis não é possı́vel uma vez que as concentrações
plasmáticas dos pacientes não estão disponı́veis.
Em alternativa ao modelo PK/PD, é proposto em [3] um modelo para o relaxamento muscular
induzido pelo atracurium, aqui designado por N BR . Este modelo é um modelo reduzido que
contém apenas dois parâmetros que dependem das caracterı́sticas individuais do paciente, sendo os
outros parâmetros dependentes do modo de administração do fármaco. Neste trabalho considera-se
então o problema de estabelecer um modelo populacional para o relaxamento muscular induzido
pelo atracurium com base no modelo N BR . O modelo depois de validado, será usado como
modelo de simulação para determinar a dose individualizada de fármaco a administrar em modo
contı́nuo.
SPE 2011
Mesa: Luzia Gonçalves
221
Sexta, 30/09/2011
Biostatı́stica III
Sala Dinastia, 17:00–18:00
Agradecimentos: Conceição Rocha agradece a bolsa de doutoramento SFRH/BD/61781/2009 da
FCT/ESF.
Bibliografia
[1] Lago, P., Mendonça, T. e Gonçalves, L. (1989). On-line autocalibration of a PID controller
of neuromuscular blockade. Em Proceedings IEEE Int. Conference on Control Applications,
363–367.
[2] Rocha, C., Mendonça, T. e Silva, M.E. (2009). Online individualized dose estimation.
Em Proceedings of the 6th IEEE International Symposium on Intelligent Signal Processing
(WISP2009), 26–28.
[3] Silva, M.M., Wigren, T. e Mendonça, T. (2011). Nonlinear identification of a minimal NeuroMuscular Blockade model in anesthesia. IEEE Trans. Contr. Sys. Tech., aceite para publicação.
[4] Ward, S., Neil, A., Weatherley, B. e Corall, M.(1983). Pharmacokinetics of Atracurium Besylate in Healthy Patients (after a single i.v. bolus dose). British Journal of Anaesthesia, 55,
113–116.
[5] Weatherley, B., Williams, S. e Neill, S. (1983). Pharmacokinetics, Pharmacodynamics and
Dose-Response Relationships of Atracurium Administered i.v.. British Journal of Anaesthesia,
55, 39–45.
SPE 2011
Mesa: Luzia Gonçalves
222
Sexta, 30/09/2011
Biostatı́stica III
Sala Dinastia, 17:00–18:00
Análise de dados longitudinais com as observações dependentes do tempo de medição: uma revisão bibliográfica
Lisandra Rocha, Inês Sousa e Raquel Menezes
Departamento de Matemática e Aplicações, Universidade do Minho, [email protected],
{isousa,rmenezes}@math.uminho.pt
Resumo: Os estudos longitudinais caracterizam-se por acompanhar a evolução dos indivı́duos,
medindo-os várias vezes ao longo do tempo. Em muitos estudos longitudinais, os indivı́duos não
são necessariamente sempre medidos no mesmo intervalo de tempo, nem com a mesma frequência
e nem medidos em tempos igualmente espaçados.
Considera-se que, neste tipo de estudos existem dois importantes processos a modelar: processos do
tempo de medição e o processo de respostas. O processo de tempo de medição pode ser deterministico ou estocástico e o processo de respostas é estocástico. Por exemplo, num estudo clı́nico, não só
as medições observadas longitudinalmente podem dar informações sobre um estado de doença, mas
também o acompanhamento pode dar informações sobre o estado de saúde dos pacientes. Neste
caso, o acompanhamento não pode ser considerado fixo pelo planeamento de estudo, mas o modelo
deve considerá-lo dependente das medições longitudinais anteriores.
Neste trabalho, é apresentada uma revisão bibliográfica nos estudos que existem sobre dados longitudinais com as observações dependentes do tempo de medição. A pesquisa concentrou-se na
análise de três artigos sobre o tema: Lipsitz et al. (2002), Lin et al. (2004) e Fitzmaurice et al.
(2006). Nestes artigos são propostos vários modelos para analisar a dependênncia entre o processo
de respostas e o processo de tempo de medição.
O objectivo deste trabalho é reunir e analisar a informação existente sobre este tema e perceber a
abordagem utilizada em estudos anteriores.
Palavras–chave: Dados longitudinais, processo de medição, processo de respostas
Agradecimentos: Os autores agradecem à FCT pelo projecto PTDC/MAT/104879/2008. A autora
Lisandra Rocha possui uma bolsa de doutoramento da FCT SFRH/BD/61368/2009.
Bibliografia
[1] Crawley M.J. (2007). The R Book. John Wiley and Sons, Ltd.
[2] Diggle, P.J., Heagerty, P., Liang K-Y. e Zeger, S.L. (2002). Analysis of Longitudinal Data
(second edition). Oxford: Oxford University Press.
[3] Fitzmaurice, G.M., Lipsitz, S.R., Ibrahim, J.G., Gelber, R. e Lipshultz, S. (2006). Estimation
in regression models for longitudinal binary data with outcome-dependent follow-up. Biostatistics , 7, 3, pp. 469–485.
SPE 2011
Mesa: Luzia Gonçalves
223
Sexta, 30/09/2011
Biostatı́stica III
Sala Dinastia, 17:00–18:00
[4] Lin, H., Scharfstein, O.D. e Rosenheck, R.A. (2004). Analysis of longitudinal data with irregular, outcome-dependent follow-up. Royal Statistical Society 66, Part 3, pp. 791–813.
[5] Lipsitz, S.R., Fitzmaurice, G.M., Ibrahim, J.G., Gelber, R. e Lipshultz, S. (2002). Parameter
estimation in longitudinal studies with outcome-dependent follow-up. Biometrics 58, 50–59.
[6] Pinheiro J. e Bates, D. (2002). Mixed-Effects Models in S ans S-PLUS. Springer
SPE 2011
Mesa: Luzia Gonçalves
224
Sexta, 30/09/2011
Biostatı́stica III
Sala Dinastia, 17:00–18:00
Predicting hypotension in intensive care monitoring:
an optimal alarm system approach
Sónia Gouveia1 e Manuel Scotto2
1
Centro de Matemática da Universidade do Porto e Departamento de Matemática da Universidade
de Aveiro, Portugal, [email protected], [email protected]
2 Departamento de Matemática da Universidade de Aveiro (UA) e Centro de I&D em Matemática e
Aplicações (CIDMA-UA), Portugal, [email protected]
Abstract: The purpose of this talk is to introduce a suitable framework for constructing optimal
alarm systems based on excursions of an alarm process in time, to predict whether a temporal process will enter a catastrophic situation in later time. The alarm system is developed bearing in mind
the prediction of acute hypotensive episodes using mean arterial pressure time series acquired from
patients staying at Intensive Care Units. The methods are illustrated and validated using experimental data from the MIMIC II dataset.
Keywords: Optimal alarm system, prediction, hypotension
Introduction
Improving patients survival in intensive care units (ICU) demands for early identification of imminent risk of abnormally low blood pressure, i.e., acute hypotensive episodes (AHE). An AHE can
deprive the brain and other vital organs of oxygen and nutrients, leading to a life-threatening condition and irreversible organ damages [8]. These episodes are defined as a sustained downcrossing
of the mean arterial pressure (MAP) time series for a fixed threshold value (see Fig. 1). Typically,
150
MAP (mmHg)
120
90
60
30
140
145
150
155
160
Elapsed time since ICU admission (hours)
165
170
Figura 1: Mean arterial blood pressure (MAP) at one-minute intervals. The dashed lines
delimitate the one-hour length forecast window, where an AHE occurs, i.e., a period longer
than 30 minutes during which at least 90% of the MAP values are lower than 60 mmHg.
SPE 2011
Mesa: Luzia Gonçalves
225
Sexta, 30/09/2011
Biostatı́stica III
Sala Dinastia, 17:00–18:00
AHE are predicted based on conventional linear forecasting. One of the major drawbacks of this
approach, however, is that it fails to provide the probability of future downcrossings. It is in this
context that the implementation of an optimal alarm system reveals to be useful for AHE prediction.
Optimal Alarm Systems (hereafter OAS) are developed to predict potential catastrophes based on
level crossings for a random process over time. One set of principles for OAS construction OAS in
the continuous time-domain has been described, and basic results considering Gaussian processes
were obtained ([3, 4, 6]). Results for discrete-time processes have also been reported ([1, 2]). The
purpose of this work is to introduce a suitable framework for constructing OAS based on excursions
of an alarm process in time, to predict whether a temporal process will enter a catastrophic situation
in later time. Once this framework has been developed, general results which incorporate appropriate definitions of an alarm event and a catastrophe event are presented. In particular, the goal of
this work is to use MAP information to predict if the patient will have an AHE that begins during a
given forecast window (see Fig. 1).
It is worth noting that as the alarm framework needs to be cost effective in the sense of not providing
too many false alarms, concepts from reliability and risk analysis need to be incorporated into it.
In this context, the performance of the methods is evaluated on experimental data from the MIMIC
II database [7], a representative sample of physiologic time series from patients in ICU of a major
teaching hospital. A set of 60 train and 50 test cases were included into the study, each case being a
MAP series at one-minute samples. Also, AHE/nonAHE classifications and timing of the forecast
window were available.
The spectrum of OAS applications is wide and yet to be explored. One major area of applications is
in environmental statistics, e.g., to investigate the occurrence of future rare events which can have
catastrophic consequences for human activities, through their impacts on the natural and constructed
environments. Another area of OAS application is econometrics, e.g. in risk management, with the
implementation of probabilistic models for the assessment of market/credit risks.
Bibliography
[1] Amaral-Turkman, M.A. e Turkman, K.F. (1990). Optimal alarm systems for autoregressive
processes; a Bayesian approach. Computational Statistics and Data Analysis, 10, 307–314.
[2] Antunes, M., Amaral-Turkman, M.A. e Turkman, K.F. (2003). A Bayesian approach to event
prediction intervals. Journal of Time Series Analysis, 24, 631–646.
[3] de Maré, J. (1980). Optimal prediction of catastrophes with application to Gaussian process.
Annals of Probability, 8, 841–850.
[4] Lindgren, G. (1975). Prediction for a random point time. Annals of Probability, 3, 412–423.
[5] Lindgren, G. (1975). Prediction of catastrophes and high level crossings. Bulletin of the International Statistical Institute, 46, 225–240.
[6] Moody, G.B. e Lehman L.H. (2009). Predicting Acute Hypotensive Episodes: The 10th Annual PhysioNet/Computers in Cardiology Challenge. Computers in Cardiology, 36, 541–544.
[7] Saeed, M., Lieu, C., Raber, G. e Mark, R.G. (2002). MIMIC II: A massive temporal ICU patient database to support research in intelligent patient monitoring. Computers in Cardiology,
29, 641–644.
SPE 2011
Mesa: Luzia Gonçalves
226
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
gSDE Software: tempos de primeira passagem em modelos
estocásticos de crescimento individual
Nuno Brites1 , Carlos A. Braumann1 , Clara Carlos1,2 e Patrı́cia A. Filipe1
1
Universidade de Évora - Centro de Investigação em Matemática e Aplicações,
[email protected], [email protected], [email protected]
2 Instituto Politécnico de Setúbal - Escola Superior de Tecnologia do Barreiro,
[email protected]
Resumo: Em trabalhos anteriores estudámos vários modelos de crescimento individual em ambiente aleatório. Problemas de ajustamento e previsão foram também estudados tanto para modelos
estocásticos como para modelos clássicos de regressão. Para a estimação dos parâmetros destes
modelos criámos um conjunto de algoritmos e desenvolvemos um novo software (chamado gSDE
Software) que incorpora esses algoritmos. Apresentamos aqui um novo módulo para o software
gSDE que permite o cálculo da média e variância de tempos de primeira passagem para os modelos
estudados.
Palavras–chave: gSDE, equações diferenciais estocásticas, crescimento individual, tempos de primeira passagem
Em [1] foram utilizados modelos do tipo
dY (t) = b(A −Y (t))dt + σ dW (t), Y (t0 ) = y0 ,
(1)
para modelar o crescimento de animais em ambiente aleatório, onde Y (t) = g(X(t)), com g uma
função (conhecida) estritamente crescente e continuamente diferenciável; y(0) = g(x(0)), com x(0)
a representar o tamanho à nascença; A = g(a), com a a representar o tamanho na maturidade;
b > 0 é o coeficiente de crescimento ou a taxa de aproximação à maturidade; σ mede a intensidade das flutuações aleatórias do ambiente sobre o crescimento e W (t) é o processo de Wiener padrão. A função g pode assumir várias formas, por exemplo g(x) = xc , c > 0 que corresponde ao modelo de Bertalanffy-Richards estocástico ou g(x) = ln(X(t)) que representa o modelo de Gompertz estocástico. A solução de (1) é um processo de difusão ergódico com coeficientes de tendência e difusão dados por µ (y) = b(AR− y) e σ 2 (y) = σ 2 , respectivamente, cuja
−bt
−bt t ebs dW (s). Sabemos ainda que (ver [2])
forma é dada
0
+ σe
por: Y (t) = A + e (y0 − A)
Y (t) ∼ N A + e−bt (y0 − A), σ2b (1 − e−2bt ) e Y (+∞) ∼ N A, σ2b , com Y (+∞) a representar a
variável aleatória cuja distribuição é a distribuição assintótica de Y (t). Estes resultados permitiramnos obter as estimativas de máxima verosimilhança dos parâmetros (A,b,σ ). Considerámos ainda
modelos multifásicos, isto é, modelos em que a taxa de aproximação à maturidade tem diferentes valores em diferentes instantes e ainda modelos cujo tamanho na maturidade difere de animal
para animal (ver [1] e [2]). Um resumo destes modelos, técnicas de cálculo das estimativas dos
parâmetros e o manual do software gSDE podem ser consultados em [2].
2
2
Pretendemos agora estudar, para este tipo de modelos, os tempos de primeira passagem por limiares
superiores ao tamanho inicial. Assim, seja Q∗ um limiar superior para o tamanho do animal X(t).
O nosso objectivo é determinar o tempo que um animal demora a alcançar o tamanho Q∗ , pela
primeira vez. Considerar o tempo que demora até um animal atingir um determinado tamanho Q∗
é equivalente a considerar o tempo de primeira passagem de Yt por Q = g(Q∗ ). Denotemos esse
SPE 2011
Mesa: Maria de Fátima Brilhante
227
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
tempo por TQ = inf{t > 0 : Y (t) = Q} e assuma-se que y0 < Q < +∞ com Q no interior do espaço
de estados de Y .
Os resultados explı́citos sobre a média e a variância de tempos de primeira passagem para soluções
ergódicas de equações diferenciais estocásticas autónomas com densidade estacionária em condições
de regularidade adequadas podem encontrar-se em [1], [3] e [4], tendo-se aı́ obtido, para o caso
particular dos modelos do tipo (1), as seguintes expressões explı́citas para a média e variância de
TQ :
E[TQ |Y (0) = y0 ] =
√
1
b
Z η
Φ(z)
ζ
√
φ (z)
dz e Var[TQ |Y (0) = y0 ] =
2
b2
Z η
ζ
1
φ (z)
Z z
Φ2 (y)
−∞
φ (y)
dydz,
(2)
onde ζ = σ2b (y0 − A), η = σ2b (Q − A), Φ e φ são a função distribuição e a função densidade de
probabilidade de uma variável aleatória Gaussiana estandardizada.
O novo módulo do software gSDE desenvolvido pretende, possibilitar o cálculo da média e variância
do tempo que um animal demora até atingir determinado tamanho pela primeira vez. Permite esse
cálculo para vários modelos (várias funções g). O novo módulo utiliza as expressões (2) resolvendo
alguns problemas de instabilidade nos métodos numéricos de quadratura utilizados tradicionalmente
para calcular os integrais.
Para ilustração dos resultados utilizamos dados de bovinos mertolengos. Para os criadores de bovinos pode ser de interesse económico o estudo do tempo que um animal demora a atingir determinado
peso, que poderá ser o peso exigido pelo mercado. Para tal, caracterizamos o tempo que o animal
leva a atingir esse peso pela primeira vez. Podemos aplicar estes resultados, por exemplo, com o
objectivo de optimizar o lucro de venda do animal.
Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações
da Universidade de Évora, unidade apoiada pela Fundação para a Ciência e Tecnologia. Agradecemos ao Professor Dr. Carlos Roquete (ICAAM-Universidade de Évora) a cedência dos dados.
Bibliografia
[1] Braumann, C.A., Filipe, P.A., Carlos C. e Roquete, C.J. (2009). Growth of individuals in
randomly fluctuating environments. Proceedings of the International Conference in Computational and Mathematical Methods in Science e Engineering, Vigo-Aguiar, J., Alonso, P.,
Oharu, S., Venturino, E. and Wade, B. (Eds.), Gijon, p. 201–212.
[2] Brites, N.M. (2010). Modelos estocásticos de crescimento individual e desenvolvimento de
software de estimação e previsão. Tese de Mestrado - Mestrado em Matemática e Aplicações,
Universidade de Évora.
[3] Carlos, C. e Braumann, C.A. (2006). Tempos de extinção para populações em ambiente
aleatório e cálculos de Itô e Stratonovich. Ciência Estatı́stica, L. Canto e Castro, E. G. Martins, C. Rocha, M. F. Oliveira, M. M. Leal e F. Rosado (Eds.), Edições SPE, p. 229–238.
[4] Carlos, C. e Braumann, C.A. (2005). Tempos de extinção para populações em ambiente
aleatório. Estatı́stica Jubilar, Braumann, C.A., Infante, P., Oliveira, M., Alpı́zar-Jara, R. e
Rosado, F. (Eds.), Edições SPE, p. 133–142.
SPE 2011
Mesa: Maria de Fátima Brilhante
228
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
Crescimento individual em ambiente aleatório: um problema
de optimização
Patrı́cia A. Filipe1 , Carlos A. Braumann1 , Clara Carlos2 e Carlos J. Roquete3
1
Centro de Investigação em Matemática e Aplicações, Universidade de Évora,
{pasf, braumann}@uevora.pt
2 Centro de Investigação em Matemática e Aplicações, Universidade de Évora; Escola Superior de
Tecnologia do Barreiro, Instituto Politécnico de Setúbal, [email protected]
3 Instituto de Ciências Agrárias e Ambientais Mediterrânicas, Universidade de Évora,
[email protected]
Resumo: Com base numa classe de modelos de crescimento individual em ambiente aleatório aplicada ao crescimento de bovinos mertolengos, calculamos o lucro esperado com a venda do animal
para diferentes idades, e em particular, determinamos qual a idade óptima de venda. Por outro
lado, podemos estar interessados no tempo que um animal demora a atingir determinado peso, que
poderá ser o peso exigido pelo mercado. Para tal, caracterizamos o tempo que o animal leva a atingir determinado peso pela primeira vez. São apresentadas expressões para a média e desvio padrão
destes tempos. Aplicamos estes resultados com o objectivo de optimizar o lucro de venda do animal.
Palavras–chave: Equações diferenciais estocásticas, crescimento individual de bovinos, optimização do lucro
Em trabalhos anteriores (ver, por exemplo, Filipe et al. 2007, 2010) apresentamos uma classe de
modelos de crescimento individual em ambiente aleatório e a sua aplicação à evolução do peso
de bovinos mertolengos. São casos particulares desta classe de modelos o modelo de Gompertz
estocástico e o modelo de Bertalanffy-Richards estocástico. A aplicação deste tipo de modelos pode
ser de extrema utilidade no contexto económico. Este trabalho é dedicado à questão de optimização
do lucro médio de venda de um animal.
Por um lado, com base nos nossos modelos, podemos calcular o lucro esperado para diferentes
idades do animal, e em particular, podemos determinar a idade óptima de venda do animal de forma
a que esse lucro seja máximo. Podemos também obter a distribuição de probabilidade do lucro
de venda e calcular probabilidades envolvendo esse lucro. Por outro lado, sabendo qual o peso
do animal exigido pelo mercado, podemos estudar as propriedades do tempo que o animal demora
a atingir esse peso pela primeira vez. Apresentamos expressões para a média e variância destes
tempos (tempos de primeira passagem Braumann et al., 2009), assim como expressões para a sua
função densidade de probabilidade e função distribuição. Com base nestes resultados podemos
determinar qual o peso óptimo de venda do animal em termos de maximização do lucro médio de
venda.
Foi feita a comparação entre as duas metodologias, uma consistindo em vender o animal numa
idade fixa (escolhida de forma a optimizar o lucro médio de venda) independentemente do seu
peso e a outra consistindo em vender o animal quando atinja pela primeira vez um peso fixo (escolhido de forma a optimizar o lucro médio) independentemente da idade. Verificou-se que a segunda
metodologia, para valores tı́picos do mercado, era preferı́vel pois permitirá um lucro óptimo mais
elevado do que a primeira até, no caso do modelo de Gompertz estocástico, com um menor desvio-
SPE 2011
Mesa: Maria de Fátima Brilhante
229
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
padrão desse lucro óptimo (para o modelo de Bertalanffy-Richards estocástico o desvio-padrão era
maior na segunda metodologia mas só ligeiramente).
Agradecimentos: Os três primeiros autores são membros do Centro de Investigação em Matemática
e Aplicações (CIMA) e o quarto autor é membro do Instituto de Ciências Agrárias e Ambientais Mediterrânicas (ICAAM), unidades financiadas pela FCT.
Bibliografia
[1] Braumann, C.A., Carlos, C., Filipe, P.A. e Roquete, C.J. (2009). Growth of individuals in
randomly fluctuating environments, Em Proceedings of the 2009 International Conference in
Computational and Mathematical Methods in Science e Engineering, (Vigo-Aguiar J., Alonso
P., Oharu S., Venturino E. e Wade B., eds), Gijón, 201-212.
[2] Filipe, P.A., Braumann C.A. e Roquete, C.J. (2007). Modelos de crescimento de animais em
ambiente aleatório, Em Estatı́stica: Ciência Interdisciplinar, Actas do XV Congresso Anual
da Sociedade Portuguesa de Estatı́stica, (Ferrão, M.E., Nunes, C. e Braumann, C.A., eds.),
Edições SPE, 401-410.
[3] Filipe, P.A., Braumann, C.A. e Roquete, C.J. (2010). Multiphasic individual growth
models in random environments. Methodology and Computing in Applied Probability,
DOI:10.1007/s11009-010-9172-0.
SPE 2011
Mesa: Maria de Fátima Brilhante
230
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
Processos de difusão com saltos correlacionados:
Aplicação à polı́tica óptima de investimento em linha de alta
velocidade
Débora Ricardo1 e Cláudia Nunes2
1
2
Departamento de Matemática, IST, [email protected]
Departamento de Matemática, IST e CEMAT, [email protected]
Resumo: É usual em problemas de finanças e de fı́sica considerar um movimento geométrico browniano com saltos regidos por um processo de Poisson independente do movimento browniano que
modela o ruı́do. Neste trabalho propõe-se a generalização de alguns resultados sobre estes processos mas assumindo agora que o processo de saltos e o próprio movimento browniano podem ter
uma estrutura de dependência (fixa ou temporal). Os resultados que são derivados têm em mente
a aplicação a polı́ticas óptimas de investimento, nomeadamente em linhas de serviço ferroviário de
alta velocidade.
Palavras–chave: Movimento geométrico browniano, processo de Poisson, opções reais
Introdução
No projecto como o investimento na linha ferroviária de alta velocidade (vulgo TGV), o nı́vel de
procura do serviço é o principal factor de incerteza no projecto. Adicionalmente, podem ocorrer
choques conjecturais que levam a uma alteração mais ou menos drástica no nı́vel da dita procura. Por
exemplo, a crise vulcânica registada no ano passado alterou, embora que pontualmente, a procura
de serviços ferroviários, tendo o nı́vel subido de forma drástica.
Geralmente estes choques conjecturais são externos ao próprio processo de procura, que formalmente se traduz pela independência dos dois processos. Mas o que acontecerá se tal pressuposto
não for certo? Isto é, como se pode formalmente derivar os resultados necessários sob hipótese de
não-independência?
Neste trabalho assume-se que o nı́vel de procura, doravante designado por {Xt ,t ≥ 0}, obedece à
seguinte equação diferencial estocástica:
dXt = µ Xt dt + σ Xt dWt + Xt dNt
(1)
onde {Wt ,t ≥ 0} é um movimento browniano padrão e {Nt ,t ≥ 0} é um processo de Poisson de taxa
λ , tal que
dNt = Ut
(2)
com probabilidade λ dt, com {Ut ,t ≥ 0} designando o salto que ocorre no instante t.
O problema de polı́tica óptima de investimento (seja no TGV quer seja noutro enquadramento) é
um problema de paragem óptima, com recurso ao princı́pio de programação dinâmica de Bellman.
Como se verá neste trabalho no caso concreto, para deduzir a dita polı́tica óptima de paragem, será
SPE 2011
Mesa: Maria de Fátima Brilhante
231
Sexta, 30/09/2011
Processos Estocásticos III Sala Caminho Real, 17:00–18:00
necessário calcular integrais envolvendo a variável de estado Xt , que na verdade são relacionados
com a função geradora de momentos.
Assumindo uma particular estrutura de dependência, deduziremos o nı́vel de procura do serviço que
justifica a decisão de investimento. Ilustraremos os resultados algébricos com situações numéricas
particulares, e veremos qual a influência do papel da correlação dos processos na tomada de decisão.
SPE 2011
Mesa: Maria de Fátima Brilhante
232
Sexta, 30/09/2011
Extremos III
Sala Atlântico, 17:00–18:00
Quantis extremais, value-at-risk e método DPOT
Isabel Fraga Alves1 e Paulo Araújo Santos2
1
2
Faculdade de Ciências da Universidade de Lisboa e CEAUL, [email protected]
Instituto Politécnico de Santarém e CEAUL, [email protected]
Resumo: Neste trabalho utilizamos o método DPOT (Duration based Peaks Over Threshold) na
previsão de quantis elevados no contexto de séries financeiras e previsão do VaR (Value-at-Risk).
Comparamos este método com outros métodos de previsão de quantis elevados utilizando ı́ndices
de acções e testes para a avaliação de modelos que produzem previsões intervalares.
Palavras–chave: Teoria de valores extremos, gestão quantitativa do risco
Introdução
Em teoria de valores extremos (EVT), o método designado por POT (Peaks Over Threshold) considera os excessos acima de um certo nı́vel “threshold”. Após a publicação do teorema limite da
distribuição dos excessos (Balkema e de Haan, 1974 e Pikands, 1975), foram deduzidos desenvolvimentos do método POT baseados no ajustamento de uma distribuição generalizada de Pareto
(GPD), com função distribuição,
GP(x; δ , γ ) = 1 − 1 + γ
x −1/γ
x
, 1 + γ > 0, δ ∈ R+ , γ ∈ R.
δ
δ
Para γ = 0 a expressão é interpretada como o limite quando γ → 0, i.e., como a função distribuição
exponencial F(x) = 1 − exp(−x/δ ).
Um tema relevante em estatı́stica é a descrição da variação de uma variável resposta em termos
de covariáveis. Uma vez que cada excesso está associado a um evento especı́fico, é possivel fazer
os parâmetos de forma e escala, da distribuição GPD, dependerem de variáveis explicativas. A
consideração na distribuição GPD, dos parâmetros de forma e escala como funções de covariáveis
e parâmetros de regressão foi estudada por Davison (1990).
Num trabalho recente, Araújo Santos e Fraga Alves (2011) propuseram um método POT com base
em durações, designado por DPOT. O desempenho deste método foi comparado com outros métodos
na previsão do VaR a um dia e com a probabilidade igual a 0.01, que é a utilizada para cálculo dos
requisitos de capital no contexto dos Acordos de Basileia. Com esta probabilidade e utilizando todos
os retornos históricos dos ı́ndices S & P 500, DAX 30 e FTSE 100, o modelo DPOT apresentou um
desempenho superior aos outros modelos de previsão do VaR e em particular muito superior ao
popular modelo RiskMetrics (1996).
Neste trabalho, comparamos o desempenho do modelo DPOT com outros modelos, considerando
probabilidades inferiores a 0.01 e por isso num contexto de quantis extremais. Este contexto, de
probabilidades baixas, como por exemplo 0.001, pode ter interesse na elaboração dos testes de
SPE 2011
Mesa: M. Ivette Gomes
233
Sexta, 30/09/2011
Extremos III
Sala Atlântico, 17:00–18:00
stress (Tsay, 2010). No estudo comparativo, utilizamos testes clássicos de cobertura condicional
e independência, bem como um novo teste de independência para avaliação da previsão intervalar
(Araújo Santos e Fraga Alves, 2010).
Agradecimentos: Este trabalho é parcialmente financiado pela Fundação para a Ciência e Tecnologia (FCT/PROTEC e FCT/OE).
Bibliografia
[1] Araújo Santos, P. e Fraga Alves, M.I. (2011). Forecasting Value-at-Risk with a Duration Based
POT Method. CEAUL. Technical Report 8/2011.
[2] Araújo Santos, P. e Fraga Alves, M.I. (2010). A new class of independence tests
for interval forecasts evaluation. Computational Statistics and Data Analysis. In press.
doi:10.1016/j.csda2010.10.002.
[3] Balkema, A.A. e de Haan, L. (1974). Residual Life Time at Great Age. Ann. Probab., 2,792–
804.
[4] Davison, A.C.(1990). Models for Exceedances over High Thresholds. Journal of Royal Statist.
Soc. B, 52, 393–442.
[5] Pickands III, J. (1975). Statistical Inference using Extreme value Order Statistics, Ann. Statist.,
3, 119–131.
[6] RiskMetrics (1996), J.P. Morgan Technical Document, 4th Edition, New York, J.P. Morgan.
[7] Tsay, R. (2010). Analysis of Financial Time Series. Wiley Series in Probability and Statistics.
SPE 2011
Mesa: M. Ivette Gomes
234
Sexta, 30/09/2011
Extremos III
Sala Atlântico, 17:00–18:00
Estimação de um parâmetro de forma de segunda ordem
Frederico Caeiro1 e M. Ivette Gomes2
1
2
DM–FCT e CMA, Universidade Nova de Lisboa, [email protected]
DEIO e CEAUL, Universidade de Lisboa, [email protected]
Resumo: Neste artigo procedemos ao estudo de uma classe de estimadores de um parâmetro de
forma de segunda ordem, estimadores esses semi-paramétricos, explı́citos e válidos para uma classe
vasta de modelos com cauda direita pesada.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, caudas pesadas, nı́veis
óptimos
Introdução e objectivos
Consideremos uma amostra de dimensão n de variáveis aleatórias (v.a.’s) independentes e identicamente distribuı́das, (X1 , . . . , Xn ), provenientes de um modelo F. Seja (X1:n ≤ · · · ≤ Xn:n ) a amostra das estatı́sticas ordinais ascendentes associada, e admitamos que existem sucessões {an > 0} e
{bn ∈ R} tais que o máximo linearmente normalizado, i.e., (Xn:n − bn ) /an , converge em distribuição
para uma v.a. não-degenerada, com distribuição necessariamente do tipo da distribuição de valores
extremos, com a forma funcional
exp(−(1 + γ x)−1/γ ), 1 + γ x > 0 se γ 6= 0
Gγ (x) =
exp(− exp(−x)), x ∈ R
se γ = 0.
Dizemos então
que F pertence ao domı́nio de atração para máximos de Gγ , e escrevemos
F ∈ DM Gγ . O parâmetro γ é o ı́ndice de valores extremos (EVI, do Inglês extreme value index). Este ı́ndice mede o peso da função de cauda direita, F := 1 − F, sendo essa cauda tanto mais
pesada quanto mais elevado for γ . Iremos aqui considerar modelos de cauda direita pesada, i.e.,
modelos de tipo Pareto, frequentes em telecomunicações, finanças e seguros, com função quantil do
tipo
U(t) := inf{x : F(x) ≥ 1 − 1/t} = Ct γ (1 + Dt ρ + o p (t ρ )), C > 0,
D = γβ /ρ , ρ < 0, β 6= 0. (1)
+
Para estes modelos, em DM
≡ DM EVγ γ >0 , o estimador clássico do EVI é o estimador de Hill
(1975). Este estimador é dados pela média dos excessos das log-observações,
Vik := ln Xn−i+1:n − ln Xn−k:n , 1 ≤ i ≤ k < n,
(2)
ou equivalentemente, dos espaçamentos escalados das log-observações,
Ui := i {ln Xn−i+1:n − ln Xn−i:n } , 1 ≤ i ≤ k < n,
(3)
i.e., H(k) = 1k ∑ki=1 Ui = 1k ∑ki=1 Vik , 1 ≤ k < n. Mas estes estimadores do EVI têm frequentemente
um viés elevado para valores de k moderados, incluindo o próprio nı́vel óptimo, no sentido de
SPE 2011
Mesa: M. Ivette Gomes
235
Sexta, 30/09/2011
Extremos III
Sala Atlântico, 17:00–18:00
erro quadrático médio mı́nimo em k. Consequentemente, a escolha adaptativa do nı́vel óptimo e
a estimação adequada do viés do estimador de Hill têm sido tópicos recentes e recorrentes. Estes
tópicos requerem a estimação adequada dos parâmetros de forma e “escala” de segunda ordem, ρ e
β , respectivamente, introduzidos em (1).
Relativamente à estimação do parâmetro ρ , mencionamos os artigos pioneiros de Gomes et al.
(2002) e Fraga Alves et al. (2003). Mais recentemente Ciuperca e Mercadier (2010) e Goegebeur
et al. (2010) estudaram classes genéricas de estimadores semi-paramétricos de ρ , baseados nas
estatı́sticas Vik e Ui , em (2) e (3), respectivamente. Apesar destes resultados recentes, o estimador
de Fraga Alves et al. (2003) continua a ser um dos mais simples e um dos melhores em aplicações
práticas.
Considerando a classe de estimadores estudada de Goegebeur et al. (2010), estudamos neste trabalho o estimador do parâmetro de forma de segunda ordem, ρ , definido por
(θ )
ρn (k) := 1 +
(θ )
Tn (k)
com
:=











1
(θ )
1 − Tn (k)
,
θ ∈ R,
θ θ
(3/2)
− Nn (k)
θ ,
θ (2)
(3/2)
Nn (k) − Nn (k)
(1)
(3/2)
ln Nn (k) −ln Nn (k)
,
(3/2)
(2)
ln Nn (k) −ln Nn (k)
(α )
(4)
(1)
Nn (k)
Nn (k) :=
se θ 6= 0
,
se θ = 0
α k i α −1
Ui .
∑ k
k i=1
Estudamos as propriedades assintóticas para amostras de dimensão finita. Segue-se o estudo da
escolha adequada do parâmetro de controlo, θ ∈ R, de forma a reduzir o termo dominante de viés
(θ )
assintótico de ρn (k), em (4), e consequentemente o respectivo erro quadrático médio.
Bibliografia
[1] Ciuperca, G. e Mercadier, C. (2010). Semi-parametric estimation for heavy tailed distributions.
Extremes 13, 55–87.
[2] Fraga Alves, M.I., Gomes, M.I. e Haan, L. de (2003). A new class of semi-parametric estimators of the second order parameter, Portugaliae Mathematica, 60(2), 193–213.
[3] Goegebeur, Y., Beirlant, J. e de Wet, T. (2010). Kernel estimators for the second order parameter in extreme value statistics. Journal of Statistical Planning and Inference, 140, 2632–2652.
[4] Gomes, M.I., de Haan, L. e Peng, L. (2002). Semi-parametric estimation of the second order
parameter in statistics of extremes. Extremes 5, 387–414.
[5] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution.
Annals Statistics 3, 1163–1174.
SPE 2011
Mesa: M. Ivette Gomes
236
Sexta, 30/09/2011
Extremos III
Sala Atlântico, 17:00–18:00
Estimação não-paramétrica em extremos multivariados
Miguel de Carvalho e Anthony Davison
Ecole Polytechnique Fédérale de Lausanne, {Miguel.Carvalho, Anthony.Davison}@epfl.ch
Resumo: O modelo Ramos–Ledford tem recebido grande atenção na modelação de extremos multivariados [1]. O modelo apresenta inúmeras vantagens na modelação de dependência extremal e permite unificar numa só abordagem os casos de dependência e independência assintóticas. Apesar das
suas potenciais vantagens na modelação de uma vasta possibilidade de estruturas de associação entre variáveis aleatórias, para efeitos de estimação apenas existem actualmente na literatura modelos
paramétricos, o que restringe o domı́nio das suas aplicações. Neste trabalho propomos técnicas nãoparamétricas de estimação e inferência para complementar a análise do modelo Ramos–Ledford. As
técnicas propostas são desenvolvidas usando métodos de verosimilhança empı́rica [2] sendo obtidos
os teoremas de Wilks correspondentes.
Palavras–chave: Coeficiente de dependência das caudas, dependência assintótica, extremos multivariados, independência assintótica, verosimilhança empı́rica
Bibliografia
[1] A. Owen (2001). Empirical likelihood. Boca Raton: Chapman and Hall.
[2] Ramos, A. e Ledford, A. (2009). A new class of models for bivariate joint tails. Journal of the
Royal Statistical Society, Ser. B, 71, 219–241.
SPE 2011
Mesa: M. Ivette Gomes
237
Sexta, 30/09/2011
SAS
Sala Premium, 18:00–18:20
SAS no ensino superior: capacidades analı́ticas sem custos
Jos van der Velden
SAS Institute, Software Lda. - Portugal, [email protected]
Resumo: A compreensão de analı́ticas avançadas, exploração e mineração de dados é cada vez
mais importante para a economia, o negócio e o mundo académico, já que permite ganhar vantagens competitivas num mercado de trabalho exigente. Mas para incorporar estas disciplinas com
sucesso, professores precisam de ferramentas de ensino económicas e simples.
Palavras–chave: Ferramentas estatı́sticas, advanced analytics, data mining, previsão, SAS, Academic Program
Introdução ao SAS, uma multinacional que nasceu no mundo académico
O SAS é uma das maiores empresas de software a nı́vel mundial. Desde 1976 o SAS apresenta
um crescimento contı́nuo de proveitos e uma rentabilidade sustentável. Num ambiente económicofinanceiro global incerto, caracterizado por fusões, mudança de proprietário ou simplesmente desaparecimento do mercado de muitos concorrentes, o SAS permaneceu focado na sua missão principal
- entregar software de qualidade superior desenvolvido em colaboração com os clientes, parceiros e
o mundo académico.
SAS OnDemand for Academics, tecnologia cloud para apoiar o ensino superior
A busca por conhecimento é a força que alavanca o ensino. Desde 1976, ano da fundação, um
dos objectivos do SAS tem sido dar suporte ao ensino. Através do programa académico o SAS
permanece fiel a este objectivo, oferecendo suporte ao mundo académico a uma escala global. Tendo
uma posição privilegiada, com raı́zes no mundo académico, o SAS está disposto a colaborar com as
organizações de ensino superior para que estes conseguem concretizar os seus objectivos no âmbito
do ensino, aprendizagem e investigação.
O em SAS OnDemand for Academics implementa um modelo de utilização online para o ensino e
aprendizagem de gestão de dados e analı́tica avançada. Através de uma ligação via internet à infraestrutura do SAS os utilizadores recorram à capacidade analı́tica do SAS instalado nos servidores
utilizando um interface gráfico simples do tipo “point-and-click”. Neste momento os componentes
disponı́veis são:
c OnDemand for Academics: Enterprise Guide
R
• SAS
c OnDemand for Academics: Enterprise Miner?
• SAS
c OnDemand for Academics: Forecast Server (Beta stage)
• SAS
SPE 2011
Mesa: Isabel Rodrigues
239
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
Intervalos de previsão usando o procedimento Boot.EXPOS
Clara Cordeiro1 e M. Manuela Neves2
1
2
FCT/ Universidade do Algarve, [email protected]
ISA/ Universidade Técnica Lisboa e CEAUL, [email protected]
Resumo: O procedimento automático Boot.EXPOS foi desenvolvido pelas autoras em ambiente
e tem como objectivo prever valores futuros de uma série temporal. Este junta duas metodologias:
métodos de alisamento exponencial e Bootstrap. Devido aos resultados encorajadores obtidos em
competições como “M3 competition” e “NNGC1 competition”, este foi aplicado também no contexto de observações omissas. Agora propomo-nos a aplicar este procedimento na construção de
intervalos de previsão.
Palavras–chave: bootstrap, intervalos de previsão, métodos de alisamento exponencial, séries temporais
Introdução
Uma série temporal poderá ser encarada como o resultado da combinação (aditiva ou multiplicativa)
de componentes associados a diferentes caracterı́sticas. Estas caracterı́sticas manifestam-se com
maior ou menor intensidade em cada série, sendo possı́vel, portanto, identificar as caracterı́sticas
mais marcantes em cada caso. Ao construir um modelo, o objectivo é explicar da melhor forma
possı́vel cada uma das caracterı́sticas, ou pelo menos as mais marcantes, da série de interesse. Existem modelos que fazem a combinação destas componentes e a sua identificação irá ser importante
na escolha de um modelo de previsão. O modelo obtido é então validado por meio de testes apropriados. Se o modelo obtido é considerado válido então podemos entrar na fase da previsão de valores
futuros para a série e posteriormente obter intervalos de previsão.
Os métodos de alisamento exponencial
Os métodos de alisamento exponential designam um conjunto de métodos de previsão que são dos
mais eficientes quando aplicados a séries que apresentam tendência e sazonalidade. Esta técnica
vai actualizando as previsões atribuı́ndo um “peso” maior às observações mais recentes, isto é,
utiliza ponderadores exponentialmente decrescentes com a antiguidade das observações. A sua
classificação, atendendo à tendência e sazonalidade, foi inicialmente proposta por Pegels (1969).
Desde então vários autores investigaram e desenvolveram estes métodos. Hoje em dia estes podem
ser classificados em quinze métodos distintos, se a componente do erro for ignorado [3]. A Tabela 1
mostra a taxonomia para os quinze métodos de alisamento exponencial possı́veis. Se considerarmos
o factor erro como aditivo e multiplicativo então estamos a referir-nos a um total de trinta métodos.
SPE 2011
Mesa: Jorge Caiado
241
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
Tabela 1: Classificação dos modelos de alisamento exponencial.
Componente Tendência
N (Nenhuma)
A (Aditivo)
Ad (Aditivo amortecido)
M (Multiplicativo)
Md (Multiplicative amortecido)
Componente Sazonalidade
N
A
M
(Nenhuma) (Aditivo) (Multiplicativo)
N,N
N,A
N,M
A,N
A,A
A,M
Ad,N
Ad,A
Ad,M
M,N
M,A
M,M
Md,N
Md,A
Md,M
O procedimento
O ponto de partida para o procedimento Boot.EXPOS é o ajustamento inicial através da escolha
do melhor modelo de acordo com a Tabela 1 com base no critério de AIC. Desde modo pretendese captar caracterı́sticas tais como a sazonalidade e/ou tendência com o propósito de isolar estas
componentes com interpretação directa. O nosso objectivo é estimar e retirar as componentes determinı́sticas (tendência e/ou sazonalidade) e trabalhar a componente estocástica, no caso de ser
estacionária, com técnicas lineares, como por exemplo os processos autoregressivos. Devido à
natureza i.i.d. dos resı́duos do processo AR, o bootstrap clássico de Efron pode facilmente ser aplicado neste caso. Uma nova série de erros autoregressivos é reconstruı́da usando a amostra bootstrap.
Uma réplica da série inicial é obtida usando as componentes do ajustamento inicial e a nova série
autoregressiva. Posteriormente e usando de novo os parâmetros do ajustamento inicial, as previsões
são obtidas.
Este procedimento tem sido estudado, desenvolvido e aperfeiçoado pelas autoras em diversos trabalhos, como por exemplo [1, 2]. Observou-se que o procedimento Boot.EXPOS é uma boa opção na
determinação de previsões, traduzido em melhores resultados das medidas de exactidão adoptadas.
Neste trabalho, as previsões são apresentadas sob a forma de intervalos de previsão, também caracterizados pela estimação da probilidade de cobertura. Os intervalos gerados são obtidos usando
os métodos dos percentis e o “bias-corrected bootstrap”, e também usando intervalos paramétricos
no caso de se verificar a hipótese de normalidade na distribuição das previsões. Várias medidas de
precisão são utilizadas na comparação dos intervalos de previsão. Os procedimentos implementados foram aplicados a um vasto conjunto de séries observadas. Todo o trabalho computacional foi
realizado com o .
Bibliografia
[1] Cordeiro, C. e Neves, M. (2008). Bootstrap and exponential smoothing working together in
forecasting time series. Em Proceedings in Computational Statistics (Paula Brito, editor), 891–
899 in CD-ROM, Physica-Verlag.
[2] Cordeiro, C. e Neves, M. (2009). Forecasting time series with Boot.EXPOS procedure. REVSTAT, 7 (2), 135–149.
[3] Hyndman, R., Koehler, A., Ord, J. e Snyder, R. (2008). Forecasting with Exponential Smoothing: The State Space Approach, Springer-Verlag.
SPE 2011
Mesa: Jorge Caiado
242
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
Redes neuronais na previsão de séries temporais
Sara Marques1 , Maria do Carmo Miranda Guedes1 , Maria Eduarda Silva2 e Nuno Carmona3
1
Departamento de Matemática, Faculdade de Ciências, U. Porto, [email protected],
[email protected]
2 Departamento de Matemática, Faculdade de Ciências, U. Porto e CIDMA, [email protected]
3 REN – sector Modelos de Previsão, [email protected]
Resumo: Avaliação do impacto de variáveis explicativas usando redes neuronais, de modo a obter
uma arquitectura de rede adequada à obtenção de previsões de séries temporais.
Palavras–chave: Previsão, co-integração, rede neuronal, séries temporais múltiplas
Introdução
A previsão de séries temporais é, actualmente, um instrumento indispensável na tomada de decisão
em muitas áreas de interesse prático. A complexidade crescente dos processos em análise e a influência de múltiplos factores (variáveis explicativas) tem intensificado o uso de redes neuronais na
obtenção de previsões. De facto, muitas vezes, os métodos tradicionais não conseguem captar certos comportamentos observados nas séries temporais, enquanto que os modelos baseados em redes
neuronais têm tido sucesso nessa tarefa. No entanto, devido à natureza desta metodologia, não é
possı́vel aferir a significância das variáveis explicativas usando métodos tradicionais, nem avaliar a
qualidade da previsão obtida.
Neste trabalho, pretende-se avaliar o impacto das variáveis explicativas na previsão de séries temporais usando redes neuronais, de modo a obter um modelo adequado à obtenção de previsões.
Uma rede neuronal consiste num conjunto de nós interligados. A informação proveniente das
variáveis explicativas concentra-se nos diversos nós da rede, sendo processada por cada um deles.
Isto permite a captação de eventuais interacções entre as variáveis na modelação do comportamento
das variáveis dependentes. Pretende-se estudar a sensibilidade das variáveis explicativas no modelo,
[2], decidir sobre a escolha dos parâmetros que podem influenciar a performance da rede neuronal
e aferir sobre a existência de cointegração entre uma ou mais variáveis explicativas e as variáveis
dependentes. Para tal usam-se indicadores como AIC, BIC ou SBC baseados nos erros de previsão
dos modelos construı́dos e testes de rácio de verosimilhança, de modo a escolher o modelo mais
adequado, [1]. Pretende-se também obter intervalos de confiança para as previsões. Neste estudo,
aplicam-se as metodologias seleccionadas a um conjunto de dados reais.
Bibliografia
[1] Medeiros, M.C. (2006). Building neural network models for time series: A statistical approach. Journal of Forecasting, 25, pp 49-75.
SPE 2011
Mesa: Jorge Caiado
243
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
[2] Raudys, T.C. (1996). Variable Selection with Neural Networks. Neurocomputing, 12, pp 223248.
[3] Zhang, G., Patuwo, B.E. e Hu, M.Y. (1998). Forecasting with artificial neural networks: The
state of the art. International Journal of Forecasting, 14, pp 35-62.
SPE 2011
Mesa: Jorge Caiado
244
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
Análise de séries temporais multivariadas: desafios e perspectivas. Aplicações
Carla Bessa1 , Francisco Lage Calheiros1 e M. Manuela Neves2
1
2
FEUP e ENEAS, {dma09033,xico}@fe.up.pt
ISA/UTL e CEAUL, [email protected]
Resumo: A análise de séries temporais tem um papel cada vez mais importante na modelação e
previsão nas áreas mais diversas. Muitos fenómenos de interesse dependem de várias variáveis
e, nestas condições, uma análise univariada pode conduzir a previsões incorrectas, pelo que é necessário recorrer a procedimentos adequados de análise de séries multivariadas. O objectivo deste
trabalho é a recolha e comparação de procedimentos actualmente existentes de análise de séries temporais multivariadas. Será considerada a aplicação na análise de séries climáticas/meteorológicas e
a modelação e previsão pretende explorar os desenvolvimentos mais recentes do software R e outros. Não deixamos de abordar séries unidimensionais que continuam a resistir à modelação.
Palavras–chave: Séries temporais multivariadas, sistemas dinâmicos, modelação, previsão
Introdução
A necessidade de modelar dados de natureza temporal surge nas áreas mais variadas, como medicina, meteorologia, climatologia, finanças, sociologia, para citar apenas algumas delas. A caracterı́stica mais importante deste tipo de dados é que as observações vizinhas são dependentes e
o objectivo é analisar e modelar utilizando esta dependência. Muitos dos fenómenos em estudo
nalguns daqueles domı́nios dependem de várias variáveis. A utilização de procedimentos de análise
multivariada será então um caminho a explorar.
A análise de séries temporais univariadas tem sido objecto de grande investigação e muitos modelos
e métodos existem na literatura. Menos exploradas têm sido as combinações de métodos estatı́sticos
com métodos de sistemas dinâmicos. No caso das séries temporais multivariadas os estudos não são
tão extensos e os procedimentos constituem investigação recente. Neste trabalho fazemos uma revisão de procedimentos existentes, sua comparação e levantamento das dificuldades. Não deixamos
de referir a escolha dos intervalos inter-observações.
Serão estudadas as seguintes séries: Southern Oscillation Index, cujos dados são relativos a medições
(valores médios mensais) das oscilações da pressão do ar ao nı́vel do mar entre Tahiti e Darwin entre 1876 e 2010; série de dados climatológicos referentes a quatro variáveis medidas através da
liquidificação de núcleos de gelo no North Greenland Ice core Project e uma série de dados meteorológicos de medições diárias de várias variáveis em Pedras Rubras-Porto.
Abordagens na análise de séries temporais
A abordagem estatı́stica no estudo de uma série temporal considera fundamentalmente as seguintes
etapas: estudo do cronograma - gráfico da função de autocorrelação (FAC) e de autocorrelação par-
SPE 2011
Mesa: Jorge Caiado
245
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
cial (FACP); análise das componentes da série temporal, nomeadamente, tendência, sazonalidade,
movimentos cı́clicos e flutuações aleatórias ou ruı́do; selecção e comparação de modelos (ARIMA,
GARCH, etc); análise da adequação de modelos. Nos métodos de previsão podemos indicar: alisamento exponencial; método de Holt-Winters e ainda métodos não paramétricos - estimação da
densidade pelo método do núcleo, técnicas de regressão, métodos locais polinomiais, modelação
por Splines, métodos de séries ortogonais e reamostragem Bootstrap e Jackknife.
Mas a abordagem por Sistemas Dinâmicos é uma alternativa na análise de séries temporais que considera o recurso a: espaço de estados; modelação de sistemas dinâmicos não lineares; representação
da dinâmica dos sistemas no espaço de fases; reconstrução do espaço de fases (teorema de RuelleTakens, escolha do desfasamento temporal, escolha da dimensão de imersão,...); determinação dos
expoentes de Lyapunov; análise das secções de Poincaré e métodos baseados na análise de Fourier
(espectro).
Na análise de uma série temporal multivariada encontramos basicamente modelos que fazem a
análise sem redução da dimensão: VARMA, ARMAX e MGARCH e ainda modelos não paramétricos como a regressão polinomial multivariada local. Dos modelos que têm sido frequentemente utilizados para baixar a dimensionalidade referimos a utilização de Análise em Componentes
Principais, “Singular Spectrum Analysis” e o recurso a técnicas de mineração (data mining).
Recentemente têm surgido procedimentos de análise de séries temporais multivariadas implementados no software R. Peng (2008) criou um método de visualização de uma série temporal multivariada, útil para análise exploratória, package mvtsplot; Gilbert (2009) implementou no package
DSE funções para modelação de séries temporais lineares, multivariadas e estacionárias e Holmes
e Ward (2010) apresentam no package MARSS um modelo linear com erros gaussianos. Também
Pinto (2009) desenvolveu um software aberto, com recurso ao Matlab, para o tratamento de séries
temporais via sistemas dinâmicos e que se tem mostrado muito eficaz.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PPCDT/FEDER.
Bibliografia
[1] Gilbert, P. (2009). Brief User’s Guide: Dynamic Systems Estimation (DSE). Bank of Canada.
[2] Holmes, E.E. e Ward, E.J. (2010). Analysis of Multivariate Time-Series using the MARSS
Package. Mathematical Biology Program.
[3] Peng, R.D. (2008). A Method for visualizing multivariate time series data. Journal of Statistical Software, 25, in http://www.jstatsoft.org/ .
[4] Pinto, R. (2009). Análise de séries temporais através de representações do espaço de fases.
Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores, FEUP,
com software disponı́vel em http://paginas.fe.up.pt/ ee02208/dissertacao.html.
SPE 2011
Mesa: Jorge Caiado
246
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
Previsão em modelos bilineares de valores inteiros
Nélia Silva1 e Isabel Pereira1
1
Universidade de Aveiro, CIDMA, {neliasilva,isabel.pereira}@ua.pt
Resumo: Os modelos bilineares de valores inteiros não negativos foram introduzidos por Doukhan
et al. (2006) e mais tarde desenvolvidos por Drost et al. (2008). Neste trabalho considera-se o
modelo bilinear de valores inteiros de primeira ordem, INBL (1,0,1,1) e estuda-se o problema da
predição de futuras observações, considerando previsão linear e não linear. Ambas as abordagens
são analisadas segundo as metodologias clássica e bayesiana e o seu desempenho é comparado
através de um estudo de simulação.
Palavras–chave: Análise bayesina, modelo bilinear, processo de valores inteiros
Introdução
Em muitas ciências encontramos observações constituı́das por valores não negativos que correspondem a processos de contagem em instantes consecutivos no tempo. Nestas duas últimas décadas
tem havido um grande desenvolvimento na literatura no estudo de séries de valores temporais de
valores inteiros. Muitos destes modelos são baseados em operadores de filtragem, e em particular
no operador de filtragem Steutel e van Harn (1979), para definir os processos de filtragem similares aos modelos econométricos clássicos. Os modelos bilineares de valores inteiros não negativos
foram introduzidos por Doukhan et al. (2006) e mais tarde desenvolvidos por Drost et al. (2008).
Formalmente, um modelo bilinear de valores inteiros, INBL(p,q,m,n), é definido por:
p
q
i=1
j=1
l
Xt = ∑ ai ◦ Xt−i + ∑ c j ◦ εt− j ∑
n
∑ blk ◦ (εt−l Xt−k ) + εt ,
k=1 l=1
onde os operadores de filtragem ai ◦, i = 1, . . . ,p, c j ◦, j = 1, . . . ,q e bkl ◦ , k = 1, . . . ,m, l = 1, . . . ,n,
são mutuamente independentes e {εt }t∈Z é uma sucessão de v.a.´s de valores inteiros não negativos i.i.d. com valor médio e variância finitos, e independente dos operadores. Usualmente, estes
modelos são utilizados para analisar sistemas que apresentam fenómenos de salto, que ocorrem em
instantes aleatórios, apresentando alterações bruscas de grande amplitude - comportamento análogo
ao correspondente no modelo bilinear de valores reais introduzido por Granger e Andersen (1978).
Considerando o modelo bilinear de primeira ordem, INBL (1,0,1,1), Doukhan et al. (2006) determinaram condições suficientes para que o processo fosse estritamente estacionário as quais foram posteriormente estendidas por Drost et al. [2] para a classe superdiagonal do processo INBL(p,q,m,n).
Considerando o modelo mais simples, Drost et al. (2006) provaram também a consistência e a normalidade assintótica dos estimadores obtidos pelo método dos momentos. Tendo em conta que, de
uma forma geral, a previsão linear pontual de futuras observaçoes não fornece bons resultados, neste
trabalho pretende-se desenvolver métodos de previsão não linear, considerando o modelo bilinear
de primeira ordem, BL (1,0,1,1), dado por:
Xt = a ◦ Xt−1 + b ◦ (εt−1 Xt−1 ) + εt .
SPE 2011
Mesa: Jorge Caiado
247
Sábado, 01/10/2011
Séries Temporais II
Sala Premium, 09:00–10:20
Bibliografia
[1] Doukhan, P., Latour, A. e Oraichi, D. (2006). A simple integer-valued bilinear time series
model. Adv. Appl. Prob., 38, 559-578.
[2] Drost, F.C., Akker, R. e Werker, B.J.M. (2008). Note on integer-valued bilinear time series
models. Stat. Prob. Letters, 78, 992-996.
[3] Granger, C.W.J. e Andersen, A.P. (1978). An introduction to bilinear series model. Vandenhoeck & Ruprecht, Gottingen.
[4] Steutel, E. e van Harn, K. (1979). Discrete analogues of self-decomposability and stability.
Ann. Prob., 7, 893-899.
SPE 2011
Mesa: Jorge Caiado
248
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
Cash-Flow at Risk
Bruno Pires
Instituto Superior de Ciências do Trabalho e da Empresa e Banco de Portugal, [email protected]
Resumo: O presente trabalho pretende avaliar em que medida os capitais próprios das empresas
não financeiras portuguesas são suficientes, para fazer face ao aparecimento de cash-flows negativos (CFaR, Cash-Flow at Risk), tema actual sobretudo em momentos de turbulência económicofinanceira como os que temos vivido nos últimos anos.
A desagregação da análise por sector de actividade e classe de dimensão permite identificar as PME
(que têm um elevado peso no total), bem como as “actividades de informação e de comunicação”,
os “outros serviços” e o “comércio” como os agregados com maior fragilidade da estrutura de
capitais. Pelo contrário, as grandes empresas e sectores como os “transportes e armazenagem” e
a “electricidade e água” são os que têm maior peso de empresas com uma “almofada” de capitais
próprios adequada para fazer face ao aparecimento de perdas. Não se confirma a suposição que os
sectores com maior volume de perdas correspondam aos de maior autonomia financeira.
O recurso ao capital permanente (em vez do capital próprio) e o recurso ao Resultado Lı́quido do
Exercı́cio (RLE), em vez do cash-flow, confirmam o posicionamento relativo dos agregados analisados, apesar dos capitais permanentes serem superiores aos próprios e de os RLE serem mais
gravosos que os cash-flows. Os sectores com maior investimento em capital fixo são os mais afectados por este agravamento, devido ao elevado nı́vel das amortizações.
A segregação dentro de cada sector do efeito das PME e das grandes permite concluir que em todos
os sectores, com intensidades distintas e a excepção das empresas transportadoras (que beneficiam
do comportamento das PME), as PME mostram geralmente uma maior insuficiência de capitais
próprios para fazer face ao CFaR.
Uma breve análise das cessações de empresas confirma o posicionamento relativo dos vários agregados atrás referidos, mostrando que os mais frágeis são naturalmente os que originam mais cessações
(em termos relativos).
Palavras–chave: Cash-Flow at Risk, Net Worth at Risk, autonomia financeira, estrutura financeira
SPE 2011
Mesa: Isabel Fraga Alves
249
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
Estatı́sticas da titularização em Portugal – compilação de dados e avaliação de resultados
Ana Almeida e Teresa Crespo
Departamento de Estatı́stica do Banco de Portugal, {ammalmeida, mtcrespo}@bportugal.pt
Resumo: Esta comunicação descreve, de forma sucinta, o processo da titularização em Portugal ao
longo da década de 2000 e a sua incidência em termos da compilação de estatı́sticas pelo Banco
de Portugal. O enquadramento legal é apresentado, com indicação dos principais diplomas que
estabelecem o quadro jurı́dico português para este tipo de operações.
Descreve-se, seguidamente, o sector da titularização, sendo identificados os dois tipos de entidades
que titularizam créditos em Portugal: as Sociedades de Titularização Crédito (STC) e os Fundos
de Titularização de Crédito (FTC), assinalando as principais diferenças existentes nas operações
realizadas por cada uma destas entidades. São, igualmente, apresentadas as principais caracterı́sticas
das operações de titularização em função do respectivo desreconhecimento, ou não, no balanço da
entidade originadora da operação, com as devidas implicações estatı́sticas.
O processo que permite a compilação das estatı́sticas de titularização é subsequentemente relatado, com identificação da informação de base proveniente dos dados contabilı́sticos remetidos à
Comissão do Mercado de Valores Mobiliários para efeitos de supervisão, os quais são complementados com informação proveniente de diversas fontes de natureza administrativa e dados estatı́sticos
disponı́veis no Banco de Portugal.
Alguns resultados estatı́sticos para os anos mais recentes são também evidenciados, sendo de assinalar diferentes fases identificadas ao longo dos últimos dez anos no sector da titularização em
Portugal, em particular como reflexo de diversos acontecimentos verificados nos mercados financeiros internacionais. É ainda de referir a preponderância crescente da titularização no balanço do
sector financeiro português, representando, no final de 2010, 8% do total do mesmo.
O documento termina com uma referência aos diversos suportes através dos quais é divulgada a
informação estatı́stica das STC e FTC pelo Banco de Portugal, bem como à disponibilização de
informação pelo Banco Central Europeu relativa à dimensão deste fenómeno na União Monetária
Europeia.
Palavras–chave: Titularização, fundos de titularização de créditos, sociedades de titularização de
créditos, informação estatı́stica
Bibliografia
[1] Campos, A. (2005). Titularização de Créditos, algumas notas sobre titularização sintética.
Revista da Banca, 60, 77–92.
[2] Decreto -Lei n.o 453/1999, de 5 de Novembro - Lei da Titularização.
[3] Decreto -Lei n.o 219/2001, de 4 de Agosto - Regime fiscal da Titularização.
SPE 2011
Mesa: Isabel Fraga Alves
251
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
[4] Decreto -Lei n.o 303/2003, de 5 de Dezembro - Alargamento do tipo de activos passı́veis de
serem titularizados.
[5] Moreira, T. e Moura, R. M. (2004). Titularização de Créditos - Algumas reflexões e propostas.
Revista de Fiscalidade, Outubro de 2004, 1–11.
[6] Orientação (CE) N.o 160/2009 do Banco Central Europeu, de 19 de Dezembro de 2008
(BCE/2008/31).
[7] Pinto, J. e Marques, M. (2007). O movimento de Titularização de Activos em Portugal. Cadernos do Mercado de Valores Mobiliários, 26, 8–45.
[8] Regulamento (CE) N.o 24/2009 do Banco Central Europeu, de 19 de Dezembro de 2008
(BCE/2008/30), relativo às estatı́sticas dos activos e passivos das sociedades de titularização
envolvidas em operações de titularização.
[9] Securitisation in the Euro Area. ECB Monthly Bulletin, Fevereiro de 2008, 81–91.
SPE 2011
Mesa: Isabel Fraga Alves
252
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
Impacto dos sistemas de pensões ocupacionais na mobilidade
do trabalho
Ana Cláudia Gouveia1 e Sı́lvia Fonte Santa2
1
2
Universidade Nova de Lisboa, ana [email protected]
Banco de Portugal, [email protected]
Resumo: No actual contexto de discussão do futuro dos sistemas de pensões, este estudo pretende
avaliar o potencial impacto da existência de fundos de pensões ocupacionais nas taxas de mobilidade
do mercado de trabalho em Portugal. A não portabilidade destes planos é vista como a principal
razão para os portadores de planos ocupacionais apresentarem uma mobilidade 60% inferior à dos
trabalhadores não cobertos. No entanto, a literatura existente, focada sobretudo nos Estados Unidos
e Reino Unido, avança outros factores explicativos como o prémio salarial dos empregados com
pensão ocupacional e a auto-selecção de trabalhadores menos móveis. Os resultados encontrados
para Portugal quanto ao efeito dos fundos de pensões demonstram que a portabilidade tem peso na
decisão de mobilidade mas é apenas parte da explicação.
Palavras–chave: Mobilidade do trabalho, fundos de pensões ocupacionais, portabilidade
Na Estratégia de Lisboa e na Estratégia Europeia de Emprego “foi oficialmente reconhecido que
uma maior mobilidade geográfica e profissional constituı́a um factor de adaptação essencial no contexto de mercados do trabalho em mutação rápida.” Adicionalmente, foi estabelecido que uma das
medidas para promover essa mobilidade passaria por aumentar a transferibilidade dos direitos a
pensões ocupacionais. Efectivamente, no contexto das pensões ocupacionais, a mudança de emprego encontra-se, em geral, associada à perda de benefı́cios no momento da reforma, associada
à não portabilidade dos planos. Esta portabilidade dos direitos com pensões é definida como a
capacidade de um trabalhador mudar de empregador mantendo o valor actuarial das suas pensões
futuras.
A literatura existente sobre este assunto evidencia a presença de taxas de mobilidade significativamente mais baixas para os trabalhadores abrangidos por esquemas de pensões ocupacionais. Este
facto é geralmente associado às perdas de mobilidade e, por isso, a transferibilidade das pensões
aparece como prioridade na agenda polı́tica. No entanto, a literatura tem avançado com explicações
adicionais que vão para além da portabilidade. O estudo da relação negativa entre mobilidade do
trabalho e sistema de pensões tem inı́cio no final de 1970 e inı́cio de 1980, sendo que as primeiras
investigações sobre esta matéria centram-se na não portabilidade como factor explicativo.
Estudos recentes salientam a importância de outras explicações. Allen, Clark e McDermed [1] apontam os prémios salariais associados às pensões e a auto-selecção dos trabalhadores menos móveis
como factores que contribuem para a baixa mobilidade dos trabalhadores dos EUA, mas destacando
as perdas de portabilidade como factor principal. Gustman e Steinmeier [3], novamente para os EUA
argumentam que o prémio salarial ocupa um papel central na explicação das taxas de mobilidade
dos trabalhadores, não encontrando diferenças de comportamento entre os trabalhadores cobertos
com planos de pensão de benefı́cio definido e de contribuição definida (nos quais não existe o problema da portabilidade). Andrietti [2], com base na análise de quatro paı́ses europeus (Dinamarca,
Irlanda, Holanda e Reino Unido) reforça as conclusões de [3]. Outras análises sugerem que a auto
SPE 2011
Mesa: Isabel Fraga Alves
253
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
selecção de trabalhadores menos móveis em empregos cobertos com pensões ocupacionais explica
a baixa rotatividade destes trabalhadores.
Na presença de explicações alternativas à questão da portabilidade, é necessário ter presente que
medidas como as avançadas na Estratégia de Lisboa e na Estratégia Europeia de Emprego no sentido de reforçar a transferabilidade podem não ter o efeito desejado na mobilidade do trabalho e
consequentemente na eficiência da economia. Neste sentido, este estudo pretende avaliar o potencial impacto da existência de fundos de pensões ocupacionais nas taxas de mobilidade do mercado
de trabalho em Portugal e avaliar o impacto dos diferentes factores explicativos. Esta análise tem
especial interesse no actual contexto em que se debate o futuro dos sistemas de pensões e numa
altura em que as potenciais reformas dos sistemas de pensões públicos podem vir a conduzir a um
aumento da importância dos sistemas de pensões privados.
Este trabalho tem como ponto de partida a informação do mercado de trabalho presente nos Quadros de Pessoal, complementada com informação da Central de Balanços do Banco de Portugal.
Os Quadros de Pessoal é uma base de dados do Ministério do Emprego e da Segurança Social com
informação anual sobre todos os trabalhadores do sector privado residentes em Portugal (idade,
educação, tenure, salários, horas trabalhadas, remunerações extra, entidade empregadora, etc.) e
respectivas entidades empregadoras (localização, dimensão, sector de actividade, etc.). Relativamente à informação da Central de Balanços do Banco de Portugal, é de destacar a importância da
informação disponibilizada pelo novo sistema de reporte simplificado de informação anual de base
contabilı́stica, designado por IES- Informação Empresarial Simplificada (ver Suplemento 1/2008 ao
Boletim Estatı́stico).
Com base na informação disponibilizada pela Central de Balanços do Banco de Portugal, na lista
de entidades para fins estatı́sticos publicada pelo Banco de Portugal e na lista de fundos de pensões
autónomos fechados disponibilizada pelo Instituto de Seguros de Portugal foi possı́vel classificar as
diferentes entidades empregadoras quanto à existência, ou não, de fundos de pensões ocupacionais.
Os resultados obtidos confirmam a menor mobilidade dos trabalhadores com fundos de pensões
ocupacionais, com taxas cerca de 60% inferiores aos trabalhadores não cobertos. A portabilidade
é um factor explicativo, no entanto está longe de ser o único. O simples facto do trabalhador
estar coberto, mesmo depois de controlar para as perdas de portabilidade, é um factor relevante
para explicar a menor rotatividade destes trabalhadores. Aumentar a portabilidade, por exemplo
impondo um vesting period de apenas um ano, não se irá traduzir, de acordo com o nosso estudo,
em melhorias significativas em termos de mobilidade dos trabalhadores.
Bibliografia
[1] Allen, S., Clark, R. e McDermed, A. (1993). Pensions, Bonding, and Lifetime Jobs. The
Journal of Human Resources, 28(3), 463–481.
[2] Andrietti, V. (2001). Occupational Pensions and Interfirm Job Mobility in the European Union
– Evidence from the ECHP Survey. CeRP Working Paper 5/01.
[3] Gustmam, A. and Steinmeier, T. (1993). Pension Portability and Labor Mobility – Evidence
from the Survey on Income and Program Participation. Journal of Public Economics, 50, 299–
323.
SPE 2011
Mesa: Isabel Fraga Alves
254
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
Como podem as bases de dados administrativas ajudar a compreender o comportamento financeiro das sociedades não financeiras?
Homero Alexandre Gonçalves
Banco de Portugal, [email protected]
Resumo: Esta comunicação demonstra que as bases de dados administrativas constituem instrumentos muito úteis para a obtenção de informação, evitando a sobrecarga dos agentes económicos
com novas solicitações. De facto, o elevado nı́vel de detalhe da informação constante nestas bases de dados permite efectuar uma análise económica muito diversificada e aprofundar aspectos
relevantes à melhor compreensão da situação e evolução do sector das sociedades não financeiras.
Neste estudo foram utilizados os dados individuais de quase todas as sociedades não financeiras
existentes em Portugal (mais de 350 mil empresas) para avaliar a saúde financeira deste sector institucional. Em concreto, recorreu-se a duas bases de dados geridas pelo Departamento de Estatı́stica
do Banco de Portugal, designadamente a Central de Balanços (CB) e a Central de Responsabilidades de Crédito (CRC). A CB contém informação anual das empresas, essencialmente de base
contabilı́stica, e a CRC contém informação sobre crédito, efectivo e potencial, obtido pelas empresas junto do sistema financeiro residente. Esta informação sobre crédito tem natureza positiva
(quando as obrigações contratuais são cumpridas) e negativa (quando existe incumprimento).
A partir daquelas duas bases de dados foi efectuada uma análise muito completa do comportamento
financeiro do sector, tendo em conta as caracterı́sticas das empresas, nomeadamente a actividade
económica e a dimensão. Neste domı́nio, foi possı́vel identificar padrões de financiamento distintos
ao nı́vel da classe das microempresas, por comparação com as empresas de grande dimensão, bem
como entre as empresas do sector da Construção face aos restantes sectores de actividade. Adicionalmente, foram analisados os resultados de diversos indicadores económicos e financeiros por
sectores de actividade e classes de dimensão, os quais permitiram complementar a caracterização
dos comportamentos e justificar as diferenças encontradas.
Os resultados deste trabalho podem também ser utilizados para efeitos de apuramento de estatı́sticas
macroeconómicas, designadamente as contas nacionais e as estatı́sticas monetárias e financeiras.
Palavras–chave: Base de dados administrativa, microdados, sociedades não financeiras, comportamento financeiro, central de balanços, central de responsabilidades de crédito, sectores de actividade
económica, classes de dimensão das empresas
Agradecimentos: Luı́s Sarmento, Margarida Brites, Mário Lourenço e Vı́tor Silveira.
SPE 2011
Mesa: Isabel Fraga Alves
255
Sábado, 01/10/2011
Econometria
Sala Dinastia, 09:00–10:20
Bibliografia
[1] Banco de España (2010). El endeudamiento de las sociedades no financieras españolas. Evolución temporal y comparación con el área del euro. Boletı́n Económico, Maio 2010.
[2] Banco de Portugal (2005). Utilização da Central de Responsabilidades de Crédito no âmbito
das Estatı́sticas Monetárias e Financeiras. Suplemento ao Boletim Estatı́stico.
[3] Banco de Portugal (2008). Reporte Simplificado: incorporação da Informação Empresarial
Simplificada nas Estatı́sticas das Empresas não Financeiras da Central de Balanços. Suplemento ao Boletim Estatı́stico.
[4] Banco de Portugal (2010). Relatório de Estabilidade Financeira.
[5] Banque de France (2009). The position of firms in France at end 2008 - Recent developments.
Quarterly Selection of Articles, 14.
[6] Baugnet, Z. (2007). Belgian corporate finance in a European perspective National Bank of
Belgium Economic Review.
[7] Custodio C. e Gomes A. (2009). Finanças da Empresa. Booknomics.
[8] European Central Bank (2007). Corporate Finance in the Euro Area. Structural Issues Report,
Maio 2007.
[9] European Commission (2005). SME access to finance. Flash Eurobarometer, 174.
[10] European Commission (2009). Survey access to finance analytical report.
SPE 2011
Mesa: Isabel Fraga Alves
256
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
Modelação de acidentes rodoviários
Conceição Ribeiro1 , Antónia Amaral Turkman2 e João Lourenço Cardoso3
1
Instituto Superior de Engenharia da Universidade do Algarve e CEAUL, [email protected]
Departamento de Estatı́stica e Investigação Operacional e CEAUL, Faculdade de Ciências da
Universidade de Lisboa, [email protected]
3 Laboratório Nacional de Engenharia Civil, [email protected]
2
Resumo: Este trabalho consiste na aplicação de modelos bayesianos hierárquicos espaço-temporais
a dados de acidentes rodoviários em Portugal, por concelho, de 2000 a 2007.
Palavras–chave: Modelos bayesianos hierárquicos, segurança rodoviária, pequenas áreas
Introdução
Os dados de acidentes rodoviários em Portugal, por concelho, de 2000 a 2007, revelam valores
baixos de contagem de ocorrências e até mesmo zeros. Para além disso, os concelhos não têm
a mesma área geográfica, nem o mesmo número de habitantes, nem o mesmo número de veı́culos
seguros, nem o mesmo número de quilómetros de estradas, o que acrescenta complexidade à análise
dos dados.
Neste trabalho iremos analisar estes dados usando modelos bayesianos hierárquicos espaço-temporais.
Em particular, iremos usar modelos generalizados de Poisson com efeitos aleatórios espaciais e
temporais. A utilização destes modelos permite captar a variabilidade das estimativas em pequenas
áreas, revelar tendências e padrões espaciais e temporais e incorporar informação de covariáveis,
[1], [4], [7], [8].
Com esta aplicação pretende-se alcançar dois objectivos distintos. Por um lado, a construção de
mapas de risco, a fim de se obter estimativas do risco relativo para cada área, e, por outro lado, a
análise da associação entre acidentes rodoviários e potenciais factores de risco, [2], [3], [6].
Para além dos objectivos referidos, com a aplicação destes modelos pretende-se também fazer a
comparação entre os métodos MCMC, através do GeoBUGS do WinBUGS, e a integração aproximada de Laplace, através do programa INLA do R, [9], [10], [11].
Agradecimentos: Este trabalho é financiado por FCT/OE e por SFRH/PROTEC/49226/2008.
Bibliografia
[1] Aguero-Valverde, J. e Jovanis, P.P. (2006). Spatial analysis of fatal and injury crashes in
Pennsylvania. Accident Analysis & Prevention, 38(3):618 – 625.
SPE 2011
Mesa: Kamil Feridun Turkman
257
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
[2] Bernardinelli, L., Clayton, D., Pascutto, C., Montomoli, C., Ghislandi, M. e Songini, M.
(1995). Bayesian analysis of space-time variation in disease risk. Statist. Med., 14(2122):2433–2443.
[3] Besag, J., York, J., e Mollié, A. (1991). Bayesian image restoration, with two applications in spatial statistics. Annals of the Institute of Statistical Mathematics, 43:1–20.
10.1007/BF00116466.
[4] Eksler, V. (2008). Exploring spatial structure behind the road mortality of regions in Europe.
Applied Spatial Analysis, 1:133–150.
[5] Ghosh, M., Natarajan, K., Waller, L.A. e Kim, D. (1999). Hierarchical Bayes GLMs for the
analysis of spatial data: An application to disease mapping. Journal of Statistical Planning
and Inference, 75(2):305 – 318.
[6] Knorr-Held, L. (2000). Bayesian modelling of inseparable space-time variation in disease risk.
Statistics In Medicine, 19(17-18):2555–2567.
[7] MacNab, Y.C. (2004). Bayesian spatial and ecological models for small-area accident and
injury analysis. Accident Analysis & Prevention, 36(6):1019 – 1028.
[8] Miaou, S.-P., Song, J.J. e Mallick, B.K. (2003). Roadway traffic crash mapping: A space-time
modeling approach. Journal of Transport Stat., 6:33–57.
[9] Rue, H. e Martino, S. (2009). Approximate bayesian inference for latent gaussian models by
using integrated nested laplace approximations. Journal of the Royal Statistical Society B, 71
(2):319–392.
[10] Spiegelhalter, D.J., Thomas, A., e Best, N.G. (1999). WinBUGS Version 1.2 User Manual.
Technical report, MRC Biostatistics Unit.
[11] Thomas, A., Best, N., Lunn, D., Arnold, R. e Spiegelhalter, D. (2004). GeoBUGS User
Manual Version 1.2. Technical report, Department of Epidemiology and Public Health of
Imperial College at St Mary’s Hospital London.
SPE 2011
Mesa: Kamil Feridun Turkman
258
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
Inferência bayesiana em modelos auto-regressivos de valores
inteiros com limiares auto-induzidos
Raquel Nicolette1 , Isabel Pereira1 e Manuel Scotto1
1
Universidade de Aveiro, CIDMA, {nicolette, isabel.pereira, mscotto}@ua.pt
Resumo: Neste trabalho considera-se o modelo auto-regressivo de valores inteiros com limiares
auto-induzidos, denotado por SETINAR (Self-Excited Threshold Integer-Valued Autoregressive),
com inovações de Poisson. Considerando dois regimes, um dos objetivos consiste em estimar os
parâmetros no modelo SETINAR (p1 ,p2 ;2) na perspectiva bayesiana, implementando o algoritmo
de Monte Carlo baseado em cadeias de Markov. Seguidamente analisa-se o problema da seleção
das ordens p1 e p2 dos processos auto-regressivos de cada um dos troços. Consequentemente é
desenvolvido um método de Monte Carlo baseado em cadeias de Markov com saltos reversı́veis
(RJMCMC) para permitir movimentos entre os processos SETINAR de diferentes ordens. Por fim,
faz-se um estudo de simulação para comparar o desempenho das metodologias propostas para estimar os parâmetros e seleccionar as ordens.
Palavras–chave: Algoritmo MCMC, modelo limiar, processo de contagem, saltos reversı́veis entre
modelos
Introdução
Considerando modelos auto-regressivos de valores inteiros com médias móveis, INARMA(p,q),
Neal e Subba Rao (2007) apresentaram um algoritmo eficiente de Monte Carlo via cadeias de Markov (MCMC) para estimar parâmetros numa abordagem bayesiana quando as ordens p e q são
conhecidas e baseando-se numa ampliação de dados. Neste trabalho, considera-se a classe de modelos auto-regressivos de valores inteiros com dois regimes, designado por SETINAR (p1 ,p2 ;2),
com inovações independentes e identicamente distribuı́das de uma distribuição de Poisson.
Tendo por objetivo estimar as ordens p1 e p2 do modelo SETINAR é necessário que o algoritmo
MCMC seja capaz de mover-se entre diferentes espaços de parâmetros. Green (1995) introduziu
um algoritmo de Monte Carlo baseado em cadeias de Markov com saltos reversı́veis (do inglês Reversible Jump Monte Carlo Markov Chain), denotado por RJMCMC, que permite ao amostrador
efetuar saltos entre os diferentes espaços e ainda manter a equação de equilı́brio por forma a garantir a irreversibilidade da cadeia. Note-se que este algoritmo é uma “variação” do algoritmo de
Metropolis-Hastings (MH), através da inclusão do Jacobiano da transformação no cálculo da probabilidade de aceitação do algoritmo MH por forma a considerar a diferença existente na dimensão
dos espaços paramétricos envolvidos no movimento. Têm sido apresentados na literatura alguns
algoritmos eficientes para determinar ordens de séries temporais com estrutura auto-regressiva. Em
particular, Enciso-Mora et al. (2007) sugeriram um algoritmo eficiente RJMCMC para determinar
as ordens de um modelo INARMA(p, q), usando a metodologia da ampliação de dados.
Neste trabalho, além de se estimarem os parâmetros segundo a perspetiva bayesiana, estende-se a
SPE 2011
Mesa: Kamil Feridun Turkman
259
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
metodologia introduzida por Neal e Subba Rao (2007) e extendida por Enciso-Mora et al. (2007)
para a determinação das ordens desconhecidas dos diferentes regimes do modelo SETINAR(p1 ,p2 ;2)
proposto.
Bibliografia
[1] Enciso-Mora, V., Neal, P.J. e Subba Rao, T. (2007). Efficient order selection algorithms for
integer-valued ARMA processes. Journal of Time Series Analysis, 30, 1–18.
[2] Green, P. (1995). Reversible jump Markov chain Monte Carlo computation and Bayesian model determination. Biometrika, 82, 711–732.
[3] Neal, P.J. e Subba Rao, T. (2007). MCMC for integer valued ARMA processes. Journal of
Time Series Analysis, 28, 92–110.
SPE 2011
Mesa: Kamil Feridun Turkman
260
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
Estatı́stica bayesiana no planeamento de recursos humanos
Leonel Vicente1 e Kamil F. Turkman2
1
2
ESTG – Instituto Politécnico de Leiria/CEAUL, [email protected]
DEIO – Faculdade de Ciências da Universidade de Lisboa/CEAUL, [email protected]
Resumo: O planeamento de recursos humanos (PRH) tem sido tradicionalmente utilizado pelas
organizações para garantir que dispõem do número certo de pessoas, no lugar e no tempo certo [3].
Do ponto de vista da metodologia estatı́stica, uma estrutura de recursos humanos (RH) pode ser descrita como um sistema dinâmico aleatório de stocks e fluxos. Uma das propriedades dos modelos
de PRH que emerge como atraente para os decisores é a possibilidade de simular o comportamento
do sistema no futuro, o que permite avaliar as consequências da adopção de certas polı́ticas ou estratégias. Uma grande variedade dos modelos estocásticos propostos podem ser classificados em
dois tipos: modelos markovianos e modelos de renovamento [1]. Nestes modelos, em geral, o erro
nas previsões não é quantificado sendo apenas estudada a dinâmica temporal dos valores esperados dos stocks e fluxos. Os modelos bayesianos hierárquicos e os métodos de inferência baseados
na simulação são muito úteis para modelar e fazer inferência sobre sistemas estocásticos de elevada complexidade que envolvem dinâmicas temporais tal como sucede nos sistemas de recursos
humanos. As inferências são efectuadas usualmente usando métodos dinâmicos de simulação, nomeadamente os métodos de Monte Carlo via cadeias de Markov [2, 4].
Nos últimos anos, muitas Instituições de Ensino Superior reduziram drasticamente as contratações
de funcionários docentes e não docentes havendo mesmo algumas que praticamente congelaram
as contratações. Esta forma de agir levou a uma redução óbvia do número total de funcionários
com consequências difı́ceis de prever. A falta de um estudo sobre os cenários possı́veis para o
futuro torna o planeamento difı́cil para as Instituições de Ensino Superior, fazendo com que a carreira docente e consequentemente a carreira não docente tenham perspectivas pouco definidas. Em
[5] considerou-se os modelos markovianos e modelos de renovamento para obter predições para a
evolução, em média, dos stocks e fluxos do sistema de RH da Faculdade de Ciências da Universidade de Lisboa (FCUL).
Os sistemas de RH de Instituições de Ensino Superior podem ser caracterizados como processos
de contagem multidimensionais. Para fazer inferências sobre a dinâmica temporal da estrutura de
probabilidade desta cadeia de Markov multidimensional, esta cadeia é tratada como não homogénea
e os fluxos, bem como os stocks, como processos aleatórios, captando a dinâmica temporal através
de um modelo bayesiano hierárquico. A flexibilidade destes modelos e a capacidade do WinBUGS
em ajustar uma gama considerável de modelos, permite obter predições pontuais e intervalos de
credibilidade, a médio e a longo prazo, para os stocks das categorias, as promoções, os recrutamentos e as saı́das, considerando vários cenários. Adicionalmente, permite analisar as polı́ticas a ser
implementadas de forma que a evolução dos RH seja a pretendida. A modelação, usando a abordagem bayesiana, foi aplicada à carreira docente da FCUL, podendo os procedimentos adoptados ser
extendidos, com as devidas adaptações, à carreira não docente.
Palavras–chave: PRH, modelos bayesianos hierárquicos, MCMC, WinBUGS, modelos markovianos
Trabalho parcialmente financiado por FCT/PTDC/MAT/64353/2006 e FCT/POCI/2010.
SPE 2011
Mesa: Kamil Feridun Turkman
261
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
Bibliografia
[1] Bartholomew, D.J. e Forbes, A.F. (1991). Statistical techniques for manpower planning. John
Wiley.
[2] Gamerman, D. (1997). Markov Chain Monte Carlo: Stochastic Simulation for Bayesian Inference. Chapamn & Hall, London.
[3] Jackson, S.E. e Schuler, R.S. (1990). Human resource planning: Challenges for industrial/organizational psychologists. American Psychologist, 45(2), 223-239.
[4] Paulino, C.D., Turkman, M.A.A. e Murteira, B. (2003). Estatı́stica Bayesiana. Fundação Calouste Gulbenkian.
[5] Vicente, L. e Turkman, K.F. (2008). Recursos Humanos da FCUL: Presente e Futuro. Notas e
Comunicações do Centro de Estatı́stica e Aplicações da Universidade de Lisboa, 05/08.
SPE 2011
Mesa: Kamil Feridun Turkman
262
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
Novas estruturas muldimensionais da TRI para consideração
do efeito da ansiedade na proficiência do aluno em avaliações
de larga escala
Tufi Machado Soares, Neimar da Silva Fernandes e Sarah Martins Salomão Brodbeck
CAED-UFJF, {tufi, neimar, sarah}@caed.ufjf.br
Resumo: Este artigo se propõe a mostrar o efeito da ansiedade sobre o desempenho do aluno
nos testes cognitivos. É sugerido um modelo multidimensional que simultaneamente considera no
cálculo de proficiência, o nı́vel de ansiedade apresentado pelos alunos, tendo a medida de ansiedade
extraı́da de um instrumento em separado. Foi constatado que a ansiedade realmente afeta a proficiência, e quando adequadamente modelada o seu efeito tende a diminuir.
Palavras–chave: Teoria da Resposta ao Item, modelos multidimensionais, ansiedade
Introdução
O Brasil, desde 1992, vem utilizando avaliações em larga escala como forma de planejar, gerenciar
e avaliar polı́ticas educacionais. Devido à necessidade de equalização, isso é, de comparação dos
resultados obtidos a partir de diferentes formas de teste aplicadas ao longo das avaliações, utilizase a Teoria de Resposta ao Item (Lord et al [2]) para a correção dos testes (Klein [3]). Assim
como diversos estados do Brasil, o estado de Minas Gerais tem seu programa de avaliação da Rede
Pública. Conjuntamente com o teste cognitivo, são aplicados questionários que avaliam fatores
associados à proficiência do aluno, como o Índice Sócio Econômico, a escolaridade dos pais, o
ambiente em sala de aula, entre outros.
No ano de 2009, juntamente com os testes de Lı́ngua Portuguesa e Matemática, foi aplicado um
questionário com trinta e quatro assertivas, as quais os alunos deveriam responder através de uma
escala de Likert de quatro nı́veis. Dentre essas assertivas, havia uma escala, extraı́da de um teste
psicológico (Bandura et al [5]), com a finalidade de medir a ansiedade do aluno. Para mensurar tal
constructo latente, foi utilizado o modelo de respostas graduadas da TRI de Samejima (Samejima
[4]), muito adequado para a aplicação em itens politômicos. A fim de se realizar comparações, a
escala de ansiedade foi dividida em três faixas com base nos quartis, sendo essas: ansiedade baixa,
média e alta. Desta avaliação, feita no 5◦ ano de escolaridade, participaram mais de 500.000 alunos
respondido à diversos testes que eram constituı́dos, ao todo, 169 itens.
Uma série de estudos aponta para uma relação entre o desempenho do aluno no teste e seu nı́vel
de ansiedade (Bandura [5]). Pode-se constatar empiricamente que o aluno mais ansioso tende a
ter uma proficiência menor. Modelos de Regressão Hierárquica Multinı́vel (Lee [1]) realizados
com a base da avaliação revelaram que a um aumento da ansiedade do aluno está associado uma
menor proficiência, gerando, portanto, a necessidade de um estudo mais aprofundado acerca da
relação entre o desempenho do aluno no teste e seu nı́vel de ansiedade.A seguinte pergunta necessita
ser respondida nesta etapa de estudo: a ansiedade afeta o desempenho como um todo ou há um
SPE 2011
Mesa: Kamil Feridun Turkman
263
Sábado, 01/10/2011
Estatı́stica Bayesiana
Sala Caminho Real, 09:00–10:20
subconjunto de itens mais afetados pela ansiedade do aluno?
Sabe-se que alguns itens podem apresentar comportamento diferente para determinados subgrupos
dentro de uma população. Este fenômeno é denominado DIF (Differential Item Functioning) (Soares [6]). Uma análise de DIF preliminar, baseada no método de Mantel-Haenszel, diagnosticou
que alguns itens da Avaliação se comportaram diferentemente para grupos de alunos com diferentes
nı́veis de ansiedade. Essa análise mostrou, também, que esse DIF provavelmente é influenciado pela
maior dificuldade da questão e por sua posição no teste.
Dessa forma, este trabalho propõe um modelo de Teoria de Resposta ao Item que leva em consideração
o impacto do nı́vel de ansiedade do aluno. O modelo proposto consiste em uma estrutura multidimensional não compensatória para acomodar o efeito da ansiedade. Assim, a função de ligação da
resposta do item com a proficiência (ICC) sofreu o acréscimo de mais parâmetros, segundo uma
estrutura multidimensional, além dos três tradicionais da TRI (o parâmetro de discriminação (a),
parâmetro de dificuldade (b) e parâmetro relacionado ao acerto ao acaso (c)).
A fim de se estimar esta estrutura, foram utilizadas técnicas de MCMC (Gamerman [7]) utilizandose as priores tradicionais para os parâmetros a, b e c: lognormal para o parâmetro a, normal para o
parâmetro b e beta para o parâmetro c. Quanto aos novos parâmetros propostos no modelo, foi feito
um estudo da eficácia de diversas priores.
Para a realização dessas estimativas, utilizou-se o software livre de estatı́stica bayesiana WinBUGS.
Esse programa, a partir do modelo proposto, das priores e dos dados, realiza a estimativa dos
parâmetros pelo método do algoritmo de Gibbs. Nesse presente trabalho, foram consideradas 40.000
iterações, utilizando-se das 10.000 últimas com intervalos de amostragem de 5, restando 2000 elementos na amostra para análise e inferência.
Bibliografia
[1] Lee, V.L. (2001). What are multilevel questions, and how might we explore them with quantitative methods? Estudos em Avaliação Educacional, 24, 31–68.
[2] Lord, F. (1980). Applications of item response theory to practical testing problems. Hillsdale:
Lawrence Erlbaum.
[3] Klein, R. (1997). Indicadores educacionais e disparidades regionais e socioeconômicas no
Brasil. Em H. Bomeny (Org.), Avaliação e determinação de padrões na educação latinoamericana, 47–86, Rio de Janeiro: Fundação Getúlio Vargas.
[4] Samejima, F.A. Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, n. 17.
[5] Bandura, A., Schwarzer, R. e Wicklund,R. (1991). Anxiety and self-focused attention, 89–110.
New York: Harwood.
[6] Soares, T.M., Gamerman, D. e Gonsalves, F.B. (2007). Análise Bayesiana do Funcionamento
Diferencial do Item. Pesquisa Operacional, v 27, n. 2, 271–291.
[7] Gamerman, D. (1997). Markhov Chain Monte Carlo: Stochastic Simulation. Chapman & Hall,
pp119–189. New York.
SPE 2011
Mesa: Kamil Feridun Turkman
264
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
O estimador de Aalen-Johansen pré-suavizado
Ana Moreira1 e Luı́s Machado1
1
Universidade do Minho, Dep. Matemática e Aplicações, {id2809,lmachado}@alunos.uminho.pt
Resumo: Em estudos longitudinais médicos, os doentes podem experimentar vários eventos num
determinado perı́odo de acompanhamento. A análise destes estudos pode ser realizada com sucesso
pelos modelos multiestado. A análise de sobrevivência pode ser descrita pelo processo de Markov
com dois estados, ’vivo’ e ’morto’ e uma única transição entre eles. Em alguns estudos, o estado
representando os pacientes ’vivos’ pode ser subdividido em dois ou mais estados intermédios, cada
um correspondendo a um estado particular no desenvolvimento normal da doença. Um desses modelos é o modelo de doença-morte (illness-death) que é totalmente caracterizado por três estados
e três transições entre eles. Um dos objectivos principais em aplicações clı́nicas de modelos de
multiestados é a estimação de probabilidades de transição. Estas quantidades têm proporcionado
um crescente interesse pois elas permitem efectuar previsões a longo prazo do processo. Aalen e
Johansen (1978) introduziram um estimador não paramétrico das probabilidades de transição para
os modelos Markovianos. Neste trabalho, apresentamos novas contribuições para este tópico e investigamos o desempenho dos vários estimadores através de estudos de simulação, comparando os
novos métodos com os concorrentes. As metodologias propostas são ilustradas recorrendo a dados
reais.
Palavras–chave: Kaplan-Meier, modelos multiestado, pré-suavização, probabilidades de transição
Agradecimentos: Os autores agradecem a recepção de apoio financeiro do Ministério Português
da Ciência, Tecnologia e Ensino Superior sob a forma de subvenções PTDC/MAT/104879/2008 e
SFRH/BD/62284/2009. A investigação também foi parcialmente financiada pela FCT e CMAT sob
o programa POCI 2010.
Bibliografia
[1] Aalen, O. (1978). Nonparametric estimation of partial transition probabilities in multiple decrement models. Annals of Statistics, 6, 534–545.
[2] Dikta, G. (1998). On semiparametric random censorship models. Journal of Statistical Planning and Inference, 66, 253–279.
[3] Meira Machado, L., de Uña-Álvarez, J. e Cadarso-Suárez, C. (2006). Nonparametric estimation of transition probabilities in a non-Markov illness-death model. Lifetime Data Analysis,
12, 325–344.
SPE 2011
Mesa: Isabel Natário
265
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
Estratégia de verificação de cadáveres de aves em testes de
remoção nos estudos de monitorização de parques eólicos
Regina Bispo1 , Joana Bernardino2 e Tiago A. Marques3
1
Departamento de Estatı́stica, ISPA - IU, Departamento de Estatı́stica e Investigação Operacional,
FCUL e Centro de Aplicações e Estatı́stica da Universidade de Lisboa, [email protected]
2 Bio3 - Estudos e Projectos em Biologia e Valorização de Recursos Naturais,
[email protected]
3 Center for Research into Ecological and Environmental Modeling, Scotland UK e Centro de
Aplicações e Estatı́stica da Universidade de Lisboa, [email protected]
Resumo: Uma questão central no âmbito dos estudos de monitorização de parques eólicos prendese com a quantificação da mortalidade de aves e quirópteros causada por colisão com os aerogeradores. Tal quantificação implica a realização de testes de remoção de cadáveres que visam estimar
a taxa de permanência das aves mortas em campo para efeitos de “correcção”, da mortalidade observada. Dadas as frequentes limitações financeiras torna-se necessário desenvolver metodologias
que minimizem os custos associados à monitorização mas que não comprometam a fiabilidade da
estimação da probabilidade de permanência das aves mortas em campo. No contexto da realização
dos testes de remoção, os custos associados ao processo dependem da estratégia experimental usada,
nomeadamente, no que diz respeito ao número de deslocações ao parque e ao perı́odo de tempo
máximo de realização dos testes. Neste estudo apresentam-se os resultados relativos à avaliação do
impacto das diferentes estratégias experimentais na estimação dos parâmetros dos modelos de sobrevivência paramétricos ajustados aos tempos de remoção e na estimação da taxa de permanência
de cadáveres de aves nos parques eólicos. O estudo conclui com a formulação de recomendações relativas à estratégia de verificação de cadáveres de aves a adoptar em futuros planos de monitorização
de parques eólicos.
Palavras–chave: Análise de sobrevivência, modelação paramétrica, parques eólicos
Introdução
No processo de quantificação da mortalidade de aves e quirópteros causada por colisão com os
aerogeradores em parques eólicos é amplamente reconhecido que a mortalidade observada pode
diferir substancialmente da mortalidade real, nomeadamente, porque os cadáveres podem ser removidos por predadores e/ou por decomposição. No âmbito dos planos de monitorização em parques
eólicos está, por isso, contemplada a realização de testes de remoção que visam estimar a taxa de
permanência das aves mortas em campo para efeitos de “correção” da mortalidade observada.
Dados os custos, frequentemente avultados, associados aos processos de monitorização torna-se
necessário adoptar metodologias experimentais eficientes, que permitam minimizar os custos associados à monitorização sem, no entanto, comprometer a fiabilidade dos resultados.
Neste estudo foram analisadas diferentes estratégias experimentais de condução dos testes de remoção.
A definição das estratégias de verificação da remoção de cadáveres de aves teve por base modelos
SPE 2011
Mesa: Isabel Natário
267
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
de sobrevivência paramétricos ajustados aos tempos de remoção observados em parques eólicos nacionais [2]. Foi tido em conta que no processo de remoção de cadáveres de aves, a função hazard é
tipicamente uma função monótona decrescente ou unimodal com assimetria positiva marcada, com
maiores taxas de remoção na fase inicial (após a chegada do cadáver ao solo) e menores taxas de
remoção numa fase avançada (depois de decorrido algum tempo após a chegada do cadáver ao solo).
Por outro lado, atendeu-se ao facto da taxa de decaimento da função de sobrevivência (velocidade
de remoção) poder variar marcadamente (e.g. diferentes velocidades de remoção para aves de pequeno e grande porte). Em situações onde a velocidade de remoção é elevada, porque a função de
sobrevivência rapidamente atinge a respectiva assimptota horizontal, é esperado que o processo de
verificação possa ser encurtado mas que os intervalos entre verificações não possam ser aumentados,
sem que se comprometa a fiabilidade dos resultados. Pelo contrário, em situações onde o decaimento
da função de sobrevivência é lento, pode ser necessário aumentar o tempo máximo de verificação
de cadáveres compensando esse aumento com uma diminuição do número de deslocações ao parque, por aumento do espaçamento entre verificações, para controlar os custos financeiros e não
comprometer a qualidade dos resultados.
Assim, as estratégias de verificação consideradas foram definidas por variação do tempo máximo
de verificação da remoção [1, 5, 3] e variação dos intervalos entre verificações (espaçamentos constantes e irregulares) [4]. As estratégias experimentais foram analisadas em função do seu impacto
nos parâmetros dos modelos de sobrevivência paramétricos ajustados aos tempos de remoção e na
estimação da taxa de permanência de cadáveres de aves. Conclui-se formulando recomendações
relativas à estratégia de verificação de cadáveres de aves a adoptar em testes de remoção futuros.
Agradecimentos: O presente estudo foi realizado em colaboração com a empresa Bio3 - Estudos e
Projectos em Biologia e Valorização de Recursos Naturais, Lda.
Bibliografia
[1] Bernardino, J., Bispo, R., Torres, P., Mascarenhas, M. Costa, H. M. e Rebelo, R. (2009).
Enhancing of carcass removal trials at three wind energy facilities in Portugal. Wildlife Biology
in Practice (in press)
[2] Bispo, R., Bernardino, J., Marques, T.A. e Pestana, D. (2010). Modeling carcass removal time
and estimation of a scavenging correction factor for avian mortality assessment in wind farms
using parametric survival analysis, 10/10, Notas e Comunicações do CEAUL.
[3] Brown, W.K. e Hamilton, B.L. (2006). Monitoring of bird and bat collisions with wind turbines at the Summerview Wind Power Project, Alberta. Terrestrial & Aquatic Environmental
Managers ltd.
[4] Erickson, W., Johnson, G., Strickland, M.D. e Kronner, K. (2000). Avian and bat mortality
associated with the Vansycle Wind Project. Umatilla County, Oregon. Western EcoSystems
Technology, Inc.
[5] Higgins, K.F., Osborn, R.G. e Naugle, D.E. (2007). Effects of wind turbines on birds and bats
in Southwestern Minnessota, USA. Em Birds and wind farms (Lucas, M., Janss, G.F.E. and
Ferrer, M., eds), 153–175, Servicios Informativos Ambientales/Quercus, Madrid, Spain.
SPE 2011
Mesa: Isabel Natário
268
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
Análise da duração dos internamentos por VIH/SIDA através
de um modelo hierárquico de misturas finitas
Sara Simões Dias1 , Valeska Andreozzi2 e Rosário Oliveira Martins3
1
Departamento Universitário de Saúde Pública, Faculdade de Ciências Médicas, Universidade
Nova de Lisboa & Instituto Superior de Estatı́stica e Gestão de Informação, Universidade Nova
de Lisboa, [email protected]
2 Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
3 Unidade de Parasitologia e Microbiologia Médicas, Instituto de Higiene e Medicina Tropical,
Universidade Nova de Lisboa, [email protected]
Resumo: Neste estudo propõe-se identificar factores associados à duração dos internamentos por
VIH/SIDA através de um modelo hierárquico de misturas.
Palavras–chave: Modelo hierárquico de misturas, duração do internamento
Introdução
A duração dos internamentos dos doentes é uma medida importante de actividade hospitalar, mas a
sua distribuição empı́rica é, com frequência muito assimétrica. Recentemente, vários modelos foram propostos para modelar a duração dos internamentos, já que estes têm implicações importantes
nos estudos sobre cuidados de saúde. Leung et al. (1998) para atingirem a normalidade modelaram
o logaritmo da duração dos internamentos através de um modelo de regressão linear, contudo não
tiveram em conta a heterogeneidade da duração dos internamentos. O presente trabalho tem como
objectivo preencher esta lacuna e para além disso tem em conta a natureza hierárquica dos dados.
Métodos
Dados
Os dados foram fornecidos pela Administração Central dos Serviços de Saúde (ACSS) e constitutem a base nacional portuguesa dos grupos de diagnóstico homogéneo (GDH). Neste trabalho
analisaram-se os dados de duração dos internamentos de adultos ocorridos em 2008 por VIH/SIDA
referente ao GDH 714 (VIH com condição significativa associada), que representa um volume de
dias de internamento elevado, tendo um grande impacto no orçamento e financiamento dos hospitais
públicos.
*Modelo
Modelou-se a distribuição da duração dos internamentos em escala logaritmica, tendo por base a
mistura de duas distribuições normais. Tendo em conta que os internamentos dentro do mesmo
hospital são geralmente correlacionadas, aplicou-se um modelo hierárquico de misturas com efeitos
aleatórios. Para o modelo hierárquico de misturas seja Yi j (i = 1,...,m, j = 1,...,ni ) o logaritmo da
duração dos internamentos para o j-ésimo indivı́duo no i-ésimo hospital, onde m é o número de
SPE 2011
Mesa: Isabel Natário
269
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
hospitais e ni é o número de internamentos que ocorrem no hospital i. Um modelo hierárquico de
misturas finitas para a densidade de probabilidade de Y , assume a seguinte forma (McLachlan e
Basford, 1988):
c
f (yi j |x j ,Θk ) = ∑ πk fk (yi j |x j ,βk ,φk ),
(1)
i=1
onde πk é a proporção de doentes pertencentes à k-ésima componente, c é o número de componentes,
e fk descreve a k-ésima distribuição de componentes com um vector de parâmetros Θk . O modelo
é estimado pelo método de máxima verosimilhança baseado no algoritmo EM. Para determinar o
número adequado de componentes, a mistura é ajustada com diferentes números de componentes
e utilizaram-se os critérios de informaçãoo AIC e BIC para seleccionar o modelo mais apropriado.
Para estimar os modelos utilizou-se a library flexmix (Grun e Leisch, 2007) do software R.
Resultados
Foi seleccionado o modelo com mistura de duas componentes. Os pesos estimados das componentes, π̂g , foram 0.44 e 0.56. O modelo ajustado sugere que o efeito de algumas covariáveis varia entre
componentes. Dos 23 hospitais analisados, existe um hospital cujos efeitos aleatórios de ambas as
componentes são significativamente abaixo de zero, sendo este o hospital mais eficiente; e existem
três hospitais que apresentam os efeitos aleatórios das duas componentes significativamente maiores
que zero, estes hospitais prolongam a duração do internamento.
Conclusões
A mistura de duas componentes parece ser uma alternativa adequada para analisar dados de duração
de internamento. A vantagem desta abordagem sobre o modelo de regressão linear apoia-se no facto
de que diferentes covariáveis influenciam o grupo de doentes de curta e longa duração de forma distinta. Além disso, teve-se em conta a natureza hierárquica dos dados, fornecendo inferências correctas sobre os coeficientes de regressão (β ). Para futuros desenvolvimentos serão testados modelos
de mistura de outras distribuições com estrutura hierárquica.
Bibliografia
[1] Grun, B. e Leisch, F. (2007). Fitting finite mixtures of generalizaed linear regressions in R.
Computational Statistics & Data Analysis. 51(11), 5247–5252.
[2] Leung, K.M., Elashoff, R.M., Rees, K.S., Hasan, M.M. e Legorreta, A.P. (1998). Hospital- and
Patient-Related Characteristics Determining Maternity Length of Stay: A Hierarchical Linear
Model Approach. American Journal of Public Health, 88 (3), 377–381.
[3] McLachlan, G.J. e Basford, K.E. (1988). Mixture Models. Inference and applications to clustering. Marcel Dekker, New York.
SPE 2011
Mesa: Isabel Natário
270
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
Imputação múltipla - Uma aplicação ao tratamento de dados
omissos em análise de sobrevivência de doentes oncológicos
Luı́s Antunes1 , Maria José Bento1 e Denisa Mendonça2
1
RORENO - Registo Oncológico Regional do Norte, {luis.antunes, mjbento}@ipoporto.minsaude.pt
2 ICBAS/ISPUP - Universidade do Porto, [email protected]
Resumo: A existência de informação incompleta é um problema comum em muitos estudos na
área da saúde. A forma mais comum de lidar com a ocorrência de dados omissos consiste em não
considerar na análise os registos com informação incompleta. Esta restrição na análise pode levar a
inferências com diferenças substanciais daquelas que seriam obtidas se não houvesse dados omissos. A imputação múltipla tem sido uma das formas de lidar com dados omissos no pressuposto
que os dados em falta dependam apenas de informação observada. Neste trabalho apresenta-se uma
aplicação da imputação múltipla a um problema de análise de sobrevivência de doentes com cancro
do pulmão.
Palavras–chave: Imputação múltipla, análise de sobrevivência, cancro do pulmão
Introdução
A existência de variáveis com informação incompleta é um problema recorrente em registos oncológicos de base populacional. A extensão da doença à data de diagnóstico, factor de prognóstico
de maior importância, é uma variável para a qual a percentagem de casos sem informação tende
a ser elevada. Numa análise de sobrevivência, a consideração apenas dos casos para os quais
existe informação completa, pode introduzir enviesamentos nas conclusões que se retiram dessa
mesma análise, especialmente se o mecanismo de omissão não for completamente aleatório. No
pressuposto de que a falta de informação depende apenas de informação observada, a imputação
múltipla é uma das formas propostas para lidar com este problema em estudos de sobrevivência
com informação incompleta nas covariáveis [2].
Métodos
Aplicou-se a imputação múltipla por equações em cadeia [3] para gerar as observações das variáveis
em falta, iterativamente, a partir da distribuição de cada uma dessas variáveis condicionada aos dados observados para outras variáveis. Vários conjuntos de dados completados foram gerados. Para
cada um destes conjuntos foi ajustado um modelo de sobrevivência relativa. Neste modelo, com
estrutura de modelo linear generalizado com erro de Poisson, considera-se que o risco de morte de
cada paciente resulta da soma de duas componentes: uma relacionada com o risco esperado (estimado a partir de tábuas de mortalidade para a população em geral) e uma componente de excesso de
risco relacionado com a doença [1]. O resultado do modelo são estimativas para razões de excesso
de risco para cada covariável, ajustadas para as restantes. Os resultados obtidos para cada conjunto
SPE 2011
Mesa: Isabel Natário
271
Sábado, 01/10/2011
Análise de Sobrevivência
Sala Atlântico, 09:00–10:20
completado são combinados para produzir as estimativas finais. Na variância final das estimativas
dos coeficientes do modelo, é tida em conta a incerteza associada aos valores estimados no processo
de imputação [2].
Aplicação
Pretendeu-se estudar os factores de prognóstico mais importantes na sobrevivência de doentes de
cancro do pulmão. Consideraram-se os pacientes diagnosticados no perı́odo 2000 a 2006, com
idade igual ou superior a 15 anos, residentes na região Norte de Portugal à data de diagnóstico e
registados no RORENO (Registo Oncológico Regional do Norte). O estadio da doença à data do
diagnóstico não era conhecido em cerca de metade dos casos e a morfologia do tumor encontrava-se
mal especificada em cerca de 26% dos casos. Neste trabalho, apresentam-se os resultados obtidos na
modelação da sobrevivência, tendo sido usada a imputação múltipla para completar a informação
nas covariáveis com informação em falta. Variáveis como estado vital, tempo de sobrevivência,
idade, sexo, fonte de informação, ano de diagnóstico, base de diagnóstico, entre outras, foram usadas
nos modelos de imputação. Foi efectuada uma análise comparativa entre os resultados obtidos e
aqueles que se obtiveram usando apenas os casos completos.
Bibliografia
[1] Dickman, P.W., Sloggett, A., Hills, M. e Hakulinen, T (2004). Regression models for relative
survival. Statistics in Medicine, 23, 51-64.
[2] Nur, U., Shack, L.G., Rachet, B., Carpenter, J.R. e Coleman, M.P. (2010). Modelling relative
survival in the presence of incomplete data: a tutorial. Int. J. Epidemiol, 39(1), 118-28.
[3] Van Buuren, S., Boshuizen, H.C. e Knook, D.L. (1999). Multiple Imputation of missing blood
pressure covariates in survival analysis. Statist. Med., 18, 681-694.
SPE 2011
Mesa: Isabel Natário
272
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Factores de risco para a ocorrência de enfartes múltiplos decorrentes de uma sı́ndrome coronária aguda
Adriana Belo1 , Cristina Rocha2 e Pedro Monteiro3
1
Faculdade de Ciências da Universidade de Lisboa - DEIO, [email protected]
Faculdade de Ciências da Universidade de Lisboa - CEAUL, [email protected]
3 Hospitais da Universidade de Coimbra, [email protected]
2
Resumo: O enfarte agudo do miocárdio (EAM) constitui actualmente uma das principais causas
de morte nos paı́ses desenvolvidos. O enfarte resulta geralmente da lesão do músculo cardı́aco por
obstrução de uma artéria coronária e consequente privação de oxigénio e nutrientes. O prognóstico é
favorecido por uma menor área de enfarte e uma maior rapidez na obtenção de tratamento adequado.
O acompanhamento do doente é fundamental para evitar complicações potencialmente mortais.
O tempo médio de internamento de um enfarte não complicado é de 5 a 7 dias. Este perı́odo é
importante para proporcionar um tratamento eficaz que apenas pode ser conseguido em ambiente
hospitalar. Após a alta, a mudança do estilo de vida e uma medicação adequada são importantes
para evitar a ocorrência de morte ou novo enfarte.
Neste estudo observacional prospectivo foram incluı́dos 378 doentes admitidos na Unidade de Cuidados Intensivos de Cardiologia dos Hospitais da Universidade de Coimbra, entre janeiro de 2004
e dezembro de 2006, com diagnóstico de sı́ndrome coronária aguda (EAM e Angina Instável). Para
cada doente foi recolhida informação referente aos dados demográficos, antecedentes cardiovasculares, factores de risco cardiovascular, medicação anterior ao internamento, parâmetros laboratoriais, tratamento intra-hospitalar, medicação administrada durante o internamento e complicações
intra-hospitalares. Após a alta os doentes foram seguidos durante um perı́odo de 5 anos a fim de
determinar a ocorrência de complicações tais como, novo enfarte, morte, acidente vascular cerebral
e insuficiência cardı́aca. Este trabalho tem como objectivo a modelação do tempo até à ocorrência
de múltiplos enfartes como complicações de uma sı́ndrome coronária aguda e a determinação dos
seus factores de risco.
Podendo existir, neste caso, várias ocorrências do mesmo acontecimento (EAM) para o mesmo indivı́duo, a utilização do modelo de Cox não é adequada. De entre diversos modelos de sobrevivência
para acontecimentos múltiplos, optou-se por considerar o modelo de regressão PWP desenvolvido
por Prentice, Williams e Peterson (1981) para a avaliação da influência dos diversos factores no
tempo de sobrevivência dos indivı́duos. Este modelo revelou-se o mais adequado nesta situação de
acontecimentos ordenados com risco condicional, uma vez que o risco de sofrer cada novo enfarte é
diferente do risco associado ao enfarte anterior, sendo assumido que o doente apenas está em risco
de sofrer o enfarte de ordem k quando já sofreu o enfarte de ordem k-1.
Palavras–chave: Análise de sobrevivência, acontecimentos múltiplos, modelo PWP
SPE 2011
273
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Bibliografia
[1] Prentice, R.L., Williams, J. e Peterson, A.V. (1981). On the regression analysis of multivariate
failure time data. Biometrika, 68, 373–379.
SPE 2011
274
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Aplicação do algoritmo EM na modelação da sobrevivência
relativa de doentes oncológicos
Daniela Cunha1 , Luı́s Antunes2 , Maria José Bento2 e Luı́s Machado1
1
Escola de Ciências - Universidade do Minho, fifida [email protected], [email protected]
RORENO - Registo Oncológico Regional do Norte,
{luis.antunes, mjbento}@ipoporto.min-saude.pt
2
Resumo: Na modelação da sobrevivência relativa é normalmente considerado um modelo de riscos
aditivo. Considera-se que o risco de morte de cada indivı́duo é a soma de duas componentes: o
risco relacionado com a sua idade e sexo, obtido a partir das tábuas de mortalidade populacionais,
e o excesso de risco atribuı́vel à doença em estudo. A estimação do modelo tem sido efectuada no
âmbito dos modelos lineares generalizados ou por maximização directa da verosimilhança. Perme
et al. [2] propuseram um procedimento alternativo baseado no algoritmo EM. Contrariamente aos
métodos usuais, neste procedimento nenhuma forma paramétrica é assumida para a função de excesso de risco de referência. Com este trabalho pretendeu-se comparar os resultados da aplicação
das diferentes abordagens na modelação da sobrevivência de doentes com cancro do pulmão e da
mama.
Palavras–chave: Sobrevivência relativa, algoritmo EM, cancro
Introdução
O uso da sobrevivência por causa especı́fica em estudos de base populacional de sobrevivência de
doentes de cancro é limitado pelo desconhecimento, para a maioria dos casos, da causa de morte.
O uso da sobrevivência relativa tem como objectivo resolver esse desconhecimento, comparando a
sobrevivência observada na coorte de doentes, com aquela que se esperaria encontrar num grupo de
indivı́duos com as mesmas caracterı́sticas, mas livres da doença. Os modelos de regressão usualmente empregues neste contexto, consideram que o risco de morte de cada indivı́duo resulta da soma
de duas componentes, nomeadamente, o risco da população em geral e uma componente de excesso
de risco causado pela doença. A primeira componente é estimada a partir das tábuas de mortalidade
e a segunda é modelada como função de um conjunto de covariáveis de interesse, considerando
normalmente, riscos proporcionais com uma função de excesso de risco de referência modelada
parametricamente [1]. Recentemente, foi proposta [2] uma forma não paramétrica de estimar esta
linha de base, permitindo evitar problemas inerentes à má especificação da forma desta função.
Métodos
Designando por SO (t) e SP (t) as funções de sobrevivência observada e da população, respectivamente, a sobrevivência relativa é definida como sendo o quociente das duas funções SR (t) =
SPE 2011
275
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
SO (t)/SP (t). Considerando a relação entre a função de risco e a função de sobrevivência:
Zt
S(t) = exp − λ (u)du ,
(1)
0
o modelo de sobrevivência relativa pressupõe um modelo de riscos aditivo, em que λO = λP + λE .
λO representa o risco observado, λP o risco da população e λE , o excesso de risco atribuı́vel à
doença. O excesso de risco é modelado como função de um vector de covariáveis de interesse Z:
λE (t,Z) = λ0 (t)eβ Z ,
(2)
em que λ0 (t) representa a função excesso de risco de referência. Esta é, usualmente, considerada
como sendo constante em intervalos de tempo pré-especificados, ou outras funções paramétricas.
No método proposto por Perme et al. [2], nenhum pressuposto é necessário relativamente à forma
desta função. O método generaliza o modelo de Cox, tratando a causa de morte como dado omisso.
No algoritmo, esta é estimada conjuntamente com os parâmetros do modelo.
Todos os cálculos foram efectuados usando o software R. Para a modelação da sobreviência, foi
utilizada a package relsurv descrita em [3].
Aplicação
Neste trabalho, pretendeu-se comparar as estimativas das razões de excesso de risco num modelo
de riscos aditivos, considerando diferentes formas de estimar o modelo: máxima verosimilhança
e algoritmo EM, como proposto por Perme et al. [2]. Foram analisados dois conjuntos de dados,
ambos disponibilizados pelo RORENO (Registo Oncológico Regional do Norte). Correspondem a
doentes diagnosticados com cancro de pulmão e mulheres diagnosticadas com cancro da mama, no
perı́odo 2000 a 2006, com idade igual ou superior a 15 anos, residentes na região Norte de Portugal
à data de diagnóstico. Escolheram-se dois tumores com padrões de sobrevivência muito distintos.
Enquanto no caso dos tumores do pulmão a sobrevivência é muito reduzida (sobrevivência relativa
a 5 anos de cerca de 11%), os tumores da mama têm uma sobrevivência bastante elevada (cerca de
85%).
Bibliografia
[1] Dickman, P.W., Sloggett, A., Hills, M. e Hakulinen, T. (2004). Regression models for relative
survival. Statistics in Medicine, 23, 51-64.
[2] Perme, M.P., Henderson, R. e Stare, J. (2009). An approach to estimation in relative survival
regression. Biostatistics, 10, 136-146.
[3] Pohar, M. e Stare, J. (2006). Relative survival in R. Computer Methods and Programs in
Biomedicine, 81, 272-278.
SPE 2011
276
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Modelo logı́stico de detecção de quedas
Filipe Felisberto1 , Miguel Felgueiras2 , António Pereira3 e Alexandra Seco4
1
CIIC do Instituto Politécnico de Leiria, [email protected]
CEAUL e CIIC do Instituto Politécnico de Leiria, [email protected]
3 INOV e CIIC do Instituto Politécnico de Leiria, [email protected]
4 ESTG do Instituto Politécnico de Leiria, [email protected]
2
Resumo: Estudo da aplicação de Regressão Logı́stica para minimizar os falsos positivos, inerentes
à utilização de acelerómetros, na detecção de quedas em idosos.
Palavras–chave: regressão logı́stica, detecção de quedas, redes de sensores sem fios, envelhecimento
Introdução
As quedas são a principal causa de hospitalização e morte em pessoas com mais de 65 anos. Procurando obviar este problema, o nosso grupo de investigação tem vindo a desenvolver um sistema de
detecção de quedas, através da utilização da Rede de Sensores Sem Fios [3].
Algumas Noções sobre Detecção de Quedas
Qualquer modelo de detecção de quedas deve atender quer a questões de sensibilidade, quer a
questões de especificidade. Naturalmente que um sistema que não detecte correctamente quedas é
ineficaz, mas é igualmente importante que este distinga acções do dia-a-dia similares a quedas de
verdadeiras quedas. Falsos positivos são altamente nefastos para o sistema já que destroem a credibilidade do mesmo, para além de ocuparem recursos que podem ser necessários para um problema
real. Numa primeira análise [2], ficou claro que recorrer apenas a dados não tratados de aceleração,
forma tradicional de abordar este problema, não seria suficiente para distinguir correctamente uma
queda de outras actividades do dia-a-dia de aceleração similar, como o acto de sentar mais violento.
A solução que apresenta melhores resultados [1], baseia-se em utilizar sensores externos para realizar um estudo continuo do movimento do idoso. O problema advém do facto dos sensores externos
limitarem o sistema a uma área de utilização muito restrita. Ao utilizarmos sensores internos (acelerómetros) na nossa abordagem, temos a vantagem de não restringir a movimentação do utilizador.
Ainda assim, novos problemas emergem, pois por questões de energia e erro não é possı́vel realizar
uma análise contı́nua do movimento.
Modelo Proposto
Para testar a solução por nós proposta, que recorre a um acelerómetro no processo de detecção de
quedas, foi realizado um conjunto de simulações. Destas, 150 foram simulações de quedas e 110
simulações do acto de sentar bruscamente. Caso se utilizasse o modelo tradicional de classificação
ajustado aos dados, o qual apenas recorre a um limiar da aceleração resultante para destinguir um
queda de um acto do dia-a-dia, 92 das simulações de sentar seriam consideradas como quedas,
SPE 2011
277
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
originando uma precisão de apenas 16%. Isto pois várias simulações do acto de sentar têm uma
aceleração observada superior a simulações de quedas.
Recorrendo à análise dos dados através da Regressão Logı́stica [4] e utilizando apenas os valores
da aceleração resultante, conseguiu-se obter uma redução do número de falsos positivos, passando
estes de 84% para 55%. Mas por outro lado, 27% das quedas passaram a ser detectadas como actos
de sentar.
Decidiu-se então passar a utilizar também os valores de aceleração de cada eixo. Com as novas
covariáveis a precisão passou a ser superior a 90%, tanto na detecção de quedas como na distinção
dos actos de sentar. Por outro lado, 5,5% de quedas ficam por detectar, o que continua a ser um
valor muito elevado. Decidimos então recorrer ao estudo da diferença em valores beta (DfBeta) e
após um processo iterativo, foram detectados um total de 6 valores influentes. Já sem estes valores,
a precisão passou a ser de aproximadamente 99% na detecção de quedas e obtivemos apenas 3% de
falsos positivos.
Resultados finais
Assim, para a matriz de valores contendo a aceleração de cada eixo e a aceleração resultante
(X,Y,Z,Acel), obtemos a seguinte a função logit, onde π̂ representa o estimador da probabilidade de
queda
π̂
ln
= 5.479 + 11.905X + 12.622Y + 4.081Z + 21.556Ace,
(1)
1 − π̂
sendo a probabilidade de ocorrer uma queda estimada por
π̂ =
e11.905X+12.622Y +4.081Z+21.556Acel
.
0.0041735 + e11.905X+12.622Y +4.081Z+21.556Acel
(2)
Bibliografia
[1] Bourke, A.K., O’Donovan, K.J., Nelson, J. e OLaighin, G.M. (2008). Fall-detection through
vertical velocity thresholding using a tri-axial accelerometer characterized using an optical
motion-capture system, Engineering in Medicine and Biology Society, 2832 -2835.
[2] Felisberto, F., Moreira, N., Marcelino, I., Fdez-Riverola, F. e Pereira, A. (2011). Elder Care’s
Fall Detection System, Proceedings of the PAAMS11 - 9th International Conference on Practical Applications of Agents and Multi-Agent Systems, España.
[3] Marcelino, I., Barroso, J., Bulas Cruz, J. e Pereira, A. (2008). Elder Care Architecture, Proceedings of the 2008 Third International Conference on Systems and Networks Communications,
349-354.
[4] Seco, A., Felgueiras, M., Fdez-Riverola, F. e Pereira, A. (2011). Elder Care Alert
Management-Decision Support by a Logistic Regression Model, Trends in Practical Applications of Agents and Multiagent Systems, 9–16.
SPE 2011
278
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Processo das excedências para sistemas dinâmicos
Ana Cristina Moreira Freitas
CMUP & FEP, [email protected]
Resumo: Neste trabalho reformulamos as condições usuais que nos permitem concluir que o processo das excedências, quando propriamente normalizado, converge em distribuição para um processo de Poisson. Essencialmente, enfraquecemos a condição de mistura de forma a que, no contexto dos sistemas dinâmicos, decorra do decaimento de correlações.
Palavras–chave: Teoria de valores extremos, processo de excedências, sistemas dinâmicos
Leis de valores extremos para sistemas dinâmicos
Consideremos um sistema dinâmico discreto (X, B,µ , f ), em que X é uma variedade Riemanniana
de dimensão d, B é a σ -algebra de Borel, f : X → X é uma aplicação mensurável e µ uma medida de
probabilidade f -invariante, absolutamente contı́nua com respeito à medida de Lebesgue (acip), com
dµ
densidade denotada por ρ = dLeb
. Consideremos um observável ϕ : X → R ∪ {±∞} que atinge um
máximo global em ζ ∈ X e o processo estocástico estacionário X0 , X1 , . . . dado por
Xn = ϕ ◦ f n ,
para cada n ∈ N.
(1)
Definamos o máximo parcial Mn := max{X0 , . . . ,Xn−1 }. Seja un uma sucessão de nı́veis tal que
nµ (X0 > un ) → τ , quando n → ∞,
(2)
para algum τ ≥ 0. A Teoria Clássica de Valores Extremos estabelece que existem apenas três tipos de distribuições assimptóticas não-degeneradas para o máximo de uma amostra de variáveis
aleatórias (v.a.) independentes e identicamente distribuı́das (i.i.d.) sob normalização linear. O
mesmo tipo de leis aplicam-se a processos estocásticos estacionários, sob certas condições na estrutura de dependência, o que permite a redução ao caso independente. A um processo estocástico
dado X0 ,X1 , . . . associamos uma sucessão de v.a. i.i.d. Y0 ,Y1 , . . ., cuja f.d. é a mesma de X0 , e cujo
máximo parcial definimos como M̂n := max{Y0 , . . . ,Yn−1 }. Denotando as condições de dependência
usuais por D(un ) e D′ (un ), onde un é uma sucessão de nı́veis que satisfaz (2), num trabalho anterior
propusemos uma versão mais fraca de D(un ), que denotamos por D2 (un ), e que é consequência
imediata do decaimento de correlações suficientemente rápido para observáveis que são de variação
limitada ou Hölder contı́nuos.
Estabelecemos que, se D2 (un ) e D′ (un ) se verificam para o processo X0 , X1 , . . . e para uma sucessão
de nı́veis que satisfazem (2), então o seguinte limite existe, e
lim µ (M̂n ≤ un ) = lim µ (Mn ≤ un ).
n→∞
SPE 2011
n→∞
279
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Processo pontual das excedências
Neste trabalho estamos interessados na ocorrência de excedências do nı́vel un para o processo estocástico X0 ,X1 , . . ..
Definamos então o Processo Pontual das Excedências (PPE) do nı́vel un , contando o número de
excedências durante o intervalo de tempo [0,t). Reescalonemos o tempo usando o factor vn :=
1/µ (X > un ) dado pelo Teorema de Kac. Então, para qualquer x ∈ X e todo t ≥ 0, seja
Nn (t) = Nn ([0,t),x) :=
⌊vn t⌋
∑ 1X >u .
j
n
(3)
j=0
Sabe-se que sob D(un ) e D′ (un ), o PPE Nn , quando convenientemente normalizado, converge em
distribuição para um processo de Poisson.
O nosso objectivo aqui é estabelecer que ainda obtemos um limite Poisson se relaxarmos a condição
D(un ) de forma a que seja suficiente termos decaimento de correlações suficientemente rápido dos
sistemas dinâmicos que geram o processo estocástico. Contudo, com esse objectivo, precisamos de
uma condição mais forte do que D2 (un ) de modo a lidar com acontecimentos múltiplos. Por isso
introduzimos a condição D3 (un ) abaixo, que é também consequência do decaimento de correlações
suficientemente rápido, tal como D2 (un ) era.
Seja S o semi-anel de subconjuntos de R+
0 cujos elementos são intervalos do tipo [a,b), para
a,b ∈ R+
.
Denotemos
por
R
o
anel
gerado
por S . Relembremos que para todo A ∈ R existem
0
k ∈ N e k intervalos I1 , . . . ,Ik ∈ S tais que A = ∪ki=1 I j . De forma a fixar uma notação, sejam
a j ,b j ∈ R+
0 tais que I j = [a j ,b j ) ∈ S .Para I = [a,b) ∈ S e α ∈ R, denotamos α I := [α a,α b) e
I + α := [a + α ,b + α ). De forma análoga, para A ∈ R definimos α A := α I1 ∪ · · · ∪ α Ik e A + α :=
(I1 + α ) ∪ · · · ∪ (Ik + α ). Para todo A ∈ R seja M(A) := max{Xi : i ∈ A ∩ Z}. No caso particular em
que A = [0,n) escrevemos simplesmente, como anteriormente, Mn = M[0,n).
Propomos então a seguinte condição:
Condição D3 (un ). Sejam A ∈ R e t ∈ N. Dizemos que D3 (un ) se verifica para a sucessão X0 ,X1 , . . .
se
µ ({X0 > un } ∩ {M(A + t) ≤ un }) − µ ({X0 > un })µ ({M(A) ≤ un }) ≤ γ (n,t),
onde γ (n,t) é não-crescente em t para cada n e nγ (n,tn ) → 0 quando n → ∞ para alguma sucessão
tn = o(n).
Antes de estabelecermos o resultado que nos dá estatı́sticas de Poisson como limite para o PPE sob
D3 (un ) and D′ (un ), apresentemos a condição D′ (un ) já referida anteriormente.
Condição D′ (un ). Dizemos que D′ (un ) se verifica para a sucessão X0 ,X1 , . . . se
lim lim sup n
k→∞ n→∞
⌊n/k⌋
∑
j=1
µ ({X0 > un } ∩ {X j > un }) = 0.
Teorema 1. Seja X1 , X2 , . . . um processo estocástico estacionário para o qual as condições D3 (un )
and D′ (un ) se verificam para uma sucessão de nı́veis un que satisfaz (2). Então, o PPE Nn definido
d
em (3) é tal que Nn →
− N, quando n → ∞, onde N denota um processo de Poisson de média 1.
SPE 2011
280
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Regressão logı́stica múltipla: previsão do estado de conservação de próteses dentárias removı́veis em idosos institucionalizados
Maria Conceição Manso1 , Sandra Gavinha2 e Patrı́cia Manarte Monteiro2
1
Faculdade de Ciências da Saúde, Universidade Fernando Pessoa, Porto REQUIMTE-UP, Portugal, [email protected]
2 Departamento de Medicina Dentária, Faculdade de Ciências da Saúde, Universidade Fernando
Pessoa, Porto, Portugal, {sgavinha, patmon}@ufp.edu.pt
Resumo: A reabilitação protética removı́vel tem a capacidade de reduzir/eliminar as deficiências
atribuı́das a dentes perdidos. Contudo, a sua manutenção/conservação é uma necessidade pois permite prevenir alterações que estas possam provocar nas estruturas remanescentes da cavidade oral.
Este trabalho teve como objectivo avaliar o efeito de variáveis associadas ao mau estado conservação
de próteses dentárias removı́veis (acrı́licas e esqueléticas), por utilização de uma regressão logı́stica
múltipla. O género, o grau de independência, a higiene da prótese, o tipo de prótese removı́vel
e a sua idade foram os factores retidos pelo modelo de regressão logı́stica para explicar a má
conservação da prótese.
Palavras–chave: Regressão logı́stica múltipla, próteses dentárias removı́veis, idosos institucionalisados, dentária
Os dados foram recolhidos através de um estudo observacional, transversal e descritivo (Janeiro a
Junho de 2008), com 372 indivı́duos com 60 ou mais anos e residentes em 22 dos 158 lares do Distrito do Porto, fazendo uma avaliação da condição oral dos indivı́duos e um inquérito relativo a dados
socio-demográficos e de hábitos relacionados com a sua saúde oral. A avaliação da conservação das
próteses removı́veis deu origem a uma variável dependente dicotómica (0- bom estado, 1- mau estado). Das 194 próteses avaliadas no maxilar superior e 151 no maxilar inferior, apenas 42 (21,6%)
e 34 (22,5%) apresentaram bom estado de conservação. As variáveis candidatas a variáveis explicativas são quantitativas (idade (anos)-I, idade da prótese (anos)-IP e há quanto tempo não vai ao
médico dentista (anos)-TDent), qualitativas com três categorias de resposta (grau de escolaridadeGE: sem escolaridade, primeiro ciclo, mais do que o primeiro ciclo), tipo de prótese-TP (Portador de
prótese parcial acrı́lica (PPPA), Portador de prótese parcial esquelética (PPPE) e Portador de prótese
total acrı́lica (PPTA)), quem fez a prótese e quem consertou a prótese (médico dentista, protésico,
não sabe)) e dicotómicas (género (feminino (F), masculino (M)), grau de independência (GI) para
tarefas de higiene oral diária (independente (I), dependente (D)) e higiene da prótese (ausência de
placa bacteriana (APB), presença de placa (PP))).
Realizou-se análise descritiva e inferencial (alfa=0,05) e regressão logı́stica múltipla (método passo
a passo regressivo, p=0,05 para inclusão de factores e p=0,10 para exclusão) utilizando SPSS vs17.0
recorrendo ao adicional complex samples. O processo de selecção das covariáveis começou pela
análise univariada de cada variável candidata a variável explicativa (regressão logı́stica simples).
Todas as variáveis apresentaram valores inferiores a 0,010, com excepção da variável quem consertou a prótese (inf. a 0,250). Na tabela 1 resume-se a informação do modelo de previsão de má
SPE 2011
281
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
conservação das próteses, apresentando-se as estimativas para os coeficientes do modelo e do erro
padrão dos coeficientes estimados, os valores observados da E.T. dos parâmetros estimados (teste
de Wald), os graus de liberdade, os valores p (teste de Wald), as estimativas das razões de chances
(OR) e correspondentes intervalos de confiança a 95% de confiança.
Tabela 1: Resultados do modelo de regressão logı́stica múltipla ajustado.
Variável
Género (x1 )
GI (x2 )
HP (x3 )
TP (x4 )
IP (x5 )
Categoria
M (x1 = 1)
D (x2 = 1)
PP (x3 = 1)
PPPA (x41 = 1)
PPPE (x42 = 1)
PPTA (x43 = 1)
+1ano
Constante
B
-1,071
0,375
1,668
E.P.
0,092
0,125
0,088
-1,614
-0,599
0,103
1,185
0,130
0,102
0,006
0,097
W
136,271
9,047
358,094
154,731
154,550
34,683
340,153
149,650
g.l.
1
1
1
2
1
1
1
1
valor p
< 0,001
0,003
< 0,001
< 0,001
< 0,001
< 0,001
< 0,001
< 0,001
Exp(B) ou OR
0,343 (0,286 - 0,410)
1,455 (1,140 - 1,857)
5,299 (4,459 - 6,298)
1
0,199 (0,154 - 0,257)
0,550 (0,450 - 0,671)
1,108 (1,096 - 1,121)
3,271
A área abaixo da curva ROC foi 0,859 (IC95%: 0,845-0,873), correspondendo a uma boa discriminação
(Hanley and McNeil, 1982; Hosmer and Lemeshow, 1989), a percentagem de classificação correcta
obtida foi de 85,7%, a sensibilidade de 49,3% e a especificidade de 95,3%.
O modelo obtido deve ser visto com alguma reserva se se pretender aplicar à conservação de próteses
de indivı́duos não institucionalizados ou fora do intervalo de idades considerado, mas é certamente
útil para dar algumas indicações sobre a questão em estudo neste trabalho.
Bibliografia
[1] Hanley, J.A. e McNeil, B.J. (1982). The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology, 143, 29–36.
[2] Hosmer, D.W. e Lemeshow, S. (1989). Applied Logistic Regression. John Wiley & Sons, New
York.
SPE 2011
282
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Estatı́stica no ensino secundário — um contributo para a
clarificação do estudo da regressão linear simples
Maria Alice Martins1 , Helena Ribeiro2 e Rui Santos3
1
Agrupamento de Escolas Artur Gonçalves de Torres Novas, [email protected]
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEMAT — Centro de
Matemática e Aplicações, [email protected]
3 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de
Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
2
Resumo: A Estatı́stica tem vindo a ocupar, cada vez mais, um lugar de destaque no ensino da
Matemática quer ao nı́vel do ensino básico quer ao nı́vel do ensino secundário, consequência da
crescente utilidade que esta área da Matemática tem vindo a desempenhar no nosso quotidiano.
Contudo, os materiais disponı́veis para o ensino e compreensão dos conceitos mais elementares de
Estatı́stica, que são igualmente os mais fundamentais, nem sempre são os mais adequados (apesar
de contributos bem sucedidos pela literacia estatı́stica, como ilustra o projecto ALEA – Acção
Local Estatı́stica Aplicada – http://www.alea.pt). Pretendemos, neste trabalho, dar o nosso
contributo para a melhoria do ensino da Estatı́stica em Portugal apresentando algumas incorrecções,
gralhas e/ou erros que frequentemente aparecem nos materiais utilizados neste nı́vel de ensino,
bem como apresentando algumas propostas de clarificação (destinada quer a professores quer a
estudantes destes nı́veis de ensino). Neste sentido, iremos focar a atenção no erro mais comum que
detectamos nos manuais por nós consultados, a de utilização da mesma recta de regressão, obtida
pelo método dos mı́nimos quadrados, para estimar um valor de x condicionado a um dado valor
de y bem como para estimar um valor de y condicionado a um valor de x quando, correctamente,
dever-se-iam utilizar duas rectas distintas (excepto em alguns casos muito particulares onde as
duas rectas são análogas). Este erro será exemplificado utilizando um software (que é freeware)
frequentemente utilizado no ensino da geometria no ensino básico e secundário, o GeoGebra.
Palavras–chave: Ensino de Estatı́stica, regressão linear simples, método dos mı́nimos quadrados
Introdução
No 10.o ano de escolaridade é transmitida uma ideia intuitiva de recta de regressão, explorando a
sua interpretação e as suas limitações. Apesar de não ser objectivo explicar formalmente a recta
obtida, é transmitida a ideia pela qual ela é determinada — corresponde à recta que faz com que a
soma dos quadrados das distâncias de cada ponto da nuvem à recta seja mı́nima; sendo esta recta
unicamente determinada recorrendo a uma calculadora. Contudo, em muitos manuais utilizados no
ensino secundário, a mesma recta é utilizada para efectuar uma previsão para a variável y quando
conhecemos um valor de x (condicionada a x = x0 ) quer para efectuar previsões para x quando
conhecemos um valor especı́fico da variável y (y = y0 ) o que não deveria ocorrer. Notemos que
caso utilizemos uma regressão de y em função de x, determinando os parâmetros α0 e α1 da recta
ŷt = α0 + α1 xt que minimizam ∑ (yt − yˆt )2 , a recta será (excepto em alguns caso muito especı́ficos)
distinta da recta obtida quando efectuamos uma regressão de x em função de y, determinando os
parâmetros β0 e β1 da recta x̂t = β0 + β1 yt que minimizam ∑ (xt − xˆt )2 . Esta diferença resulta da
SPE 2011
283
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
forma como definimos os erros nas duas regressões, pois enquanto na primeira os erros são medidos
paralelamente ao eixo das ordenadas (o erro é definido pela diferença entre o valor observado de
y e o seu valor estimado condicionalmente a x, εt = yt − yˆt ), na segunda os erros são medidos
paralelamente ao eixo das abcissas (o erro é definido pela diferença entre o valor observado x e o
seu valor estimado pela regressão em função de y, εt = xt − xˆt ). Desta forma, será erróneo1 utilizar
a regressão de y em função de x para efectuar previsões para x quando conhecemos um determinado
valor para y (y = y0 ) e, apesar de em algumas aplicações a diferença das duas rectas poder ser
diminuta, existem outras situações em que o erro pode assumir valores elevados.
Figura 1: Regressão de y condicionada a x versus de x condicionada a y
Conforme claramente ilustram os dois exemplos representados na Figura 1 onde estão representadas
as duas rectas obtidas utilizando dois conjuntos distintos de 10 observações (recorrendo ao software
GeoGebra), podemos constatar a distinção entre as duas rectas bem como a diferença no valor
estimado de y obtido pelas duas rectas quando x assume o valor 5.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Montgomery, D.C., Peck, E.A. e Vining, G.G. (2006). Introduction to Linear Regression
Analysis, 4th Ed., Wiley Series in Probability and Statistics, John Wiley & Sons.
[2] Murteira, B. (1993). Análise exploratória de dados - Estatı́stica Descritiva, McGraw-Hill,
Lisboa.
[3] Osborne, C. (1991). Statistical Calibration: A Review, International Statistical Review 59, n.o
3, pp. 309–336.
[4] Pestana, D.D. e Velosa, S.F. (2009). Introdução à Probabilidade e à Estatı́stica, Vol. 1, 3.a ed.,
Fundação Calouste Gulbenkian, Lisboa.
1
Há, contudo, determinadas situações especı́ficas para as quais se justifica a necessidade de utilização
de regressão inversa, como ilustram alguns modelos de calibração [3].
SPE 2011
284
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Modelação do impacto da pobreza nas escolhas contraceptivas na Índia: uma análise multinı́vel
Isabel Tiago de Oliveira1 , Sabu S. Padmadas2 e José G. Dias3
1
ISCTE – Instituto Universitário de Lisboa, CIES, Lisboa, Portugal, [email protected]
Centre for Global Health, Population, Poverty & Policy, University of Southampton, United Kingdom, [email protected]
3 ISCTE – Instituto Universitário de Lisboa, UNIDE, Lisboa, Portugal, [email protected]
2
Resumo: Esta investigação discute o efeito dos nı́veis de pobreza-riqueza sobre as escolhas contraceptivas das mulheres indianas. Os programas de planeamento familiar indianos têm favorecido
a esterilização feminina como método contraceptivo dominante. Nesta situação, a opção por outros métodos contraceptivos em alternativa à esterilização está associada às caracterı́sticas sociodemográficas, em particular o nı́vel de riqueza do agregado familiar e a escolaridade do casal.
Palavras–chave: Métodos de contracepção, demografia, modelos de escolha discreta, modelos
multinı́vel
A relação existente entre a pobreza e a escolha de métodos de contracepção é mediada por factores
ao nı́vel individual e do agregado familiar. Na Índia, 56.3% das mulheres casadas utilizam actualmente contracepção, principalmente através de esterilização feminina (37.3%), todos os outros
métodos (modernos e tradicionais) correspondem a 19.9% (11.1% para os métodos femininos modernos; 7.8% para os métodos tradicionais; e 1% para esterilização masculina) [1]. A importância
da esterilização feminina na Índia é muito elevada em resultado de programas de planeamento familiar orientados para este método contraceptivo [3]. A esterilização está associada a uma estratégia
de paragem reprodutiva versus uma opção pelo espaçamento entre os nascimentos. Este tipo de
escolha contraceptiva tem consequências significativas na saúde materna e infantil e resulta num
padrão etário de fecundidade muito jovem, com importantes consequências no crescimento populacional [2]. A escolha entre esterilização feminina e os métodos modernos de espaçamento (e.g.,
pı́lula) estão claramente associada à condição sócio-económica das mulheres.
Quer o ı́ndice de riqueza do agregado familiar quer o nı́vel de escolaridade feminina estão associados
com as escolhas de método de contracepção pelas mulheres. Das mulheres indianas que actualmente
utilizam métodos de contracepção, cerca de 70% preferem esterilização feminina nos primeiros
quatro quintis, mas no mais elevado esta preferência decresce para metade das que usam outro tipo
de método de contracepção. Em termos de nı́vel educacional, o gradiente é ainda mais forte do
que no caso do ı́ndice de riqueza do agregado familiar. A esterilização feminina é o método mais
importante de contracepção para nı́veis educacionais mais reduzidos e a sua importância relativa
reduz-se (de 76% para 33%) com o aumento no nı́vel educacional. Por outro lado, a percentagem de
mulheres que utiliza métodos modernos de espaçamento (entre todas as mulheres casadas que usam
métodos de contracepção) aumenta substancialmente com o nı́vel educacional (de 9% para 46%).
As mulheres com nı́vel educacional mais elevado preferem métodos modernos de espaçamento a
esterilização, tornando-se uma situação única no contexto da Índia.
Tendo por base dados do 2005-06 National Family Health Surveys, este estudo analisa de forma sistemática o impacto da pobreza em termos de escolhas das mulheres indianas. Modelos com classes
SPE 2011
285
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
latentes são aplicados para classificar os agregados familiares em termos de ı́ndice de riqueza. A
interacção entre a riqueza do agregado e outros factores determinantes da escolha contraceptiva das
mulheres é modelada utilizando um modelo multinı́vel multinomial logit, controlando os factores
individuais, do agregado familiar e da comunidade relevantes ao modelo de escolha de contracepção.
Agradecimentos: Os autores agradecem o apoio financeiro da FCT – Fundação para a Ciência e a
Tecnologia (PTDC/CS-DEM/108033/2008).
Bibliografia
[1] International Institute for Population Sciences (IIPS) e Macro International (2007). National
Family Health Survey (NFHS-3), 2005-06: India: Volume I. Mumbai: IIPS.
[2] Matthews, Z., Padmadas, S.S., Hutter, I., McEachran, J. e Brown, J.J. (2009). Does early childbearing and a sterilization-focused family planning program in India fuel population growth?,
Demographic Research, 20 (28), 693–720.
[3] Visaria, L., Jejeebhoy, S. e Merrick, T. (1999). From family planning to reproductive health:
Challenges facing India. International Family Planning Perspectives, 25 (Supplement), 44–49.
SPE 2011
286
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Métodos de regressão para observações repetidas em Saúde
Rosa Oliveira e Armando Teixeira-Pinto
Faculdade de Medicina - Universidade do Porto, {rcoliveira,tpinto}@med.up.pt
Resumo: Estudam-se os ganhos de eficiência da regressão multivariada comparada a múltiplas regressões univariadas quando o conjunto de covariáveis são especı́ficas das observações individuais.
Em particular, analisamos a situação em que as observações partilham algumas das covariáveis, enquanto que outras covariáveis são especı́ficas de sub-conjuntos de observações. Demonstramos que
para os coeficientes associados com covariáveis partilhados, existem ganhos de eficiência, enquanto
que para as covariáveis especı́ficas de sub-conjuntos de observações, os ganhos de eficiência dependem da correlação entre os resultados associados às observações.
Palavras–chave: Estatı́stica, análise multivariada, análise de dados, aplicações à biologia e ciências
médicas
SPE 2011
287
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Modelo de mistura bayesiano para extremos não-estacionários
Boris Oumow, Miguel de Carvalho, Anthony Davison
Ecole Polytechnique Fédérale de Lausanne, [email protected]
Resumo: Os modelos de estatı́sticas de valores extremos desempenham um papel fundamental na
modelação de acontecimentos catastróficos. Para medir o risco desses acontecimentos necessitamos de extrapolar para as caudas da distribuição, sendo necessário desenvolver métodos para a
inferência de valores superiores aos observados. Um trabalho importante na modelação de extremos não-estacionários é devido a [2], mas a pesquisa de modelos alternativos continua a ser um
tópico de interesse actual [1, 3]. Neste trabalho propomos um modelo de mistura para o centro da
distribuição e para as caudas, como alternativa ao modelo introduzido em [5]. A nossa abordagem
envolve a modelação do centro da distribuição e dos parâmetros do processo pontual que caracteriza
as caudas através de modelos bayesianos aditivos generalizados com B-splines e penalizações [4].
Os efeitos não-lineares dos regressores na intensidade do processo de Poisson limite são utilizados
para induzir a não-estacionariedade no processo gerador de extremos.
Palavras–chave: Estatı́sticas de valores extremos, extremos não-estacionários, modelos aditivos
generalizados, modelos de mistura, P-splines bayesianos
Bibliografia
[1] Carvalho, M. de, Turkman, K.F. e Rua, A. (2010). Nonstationary extremes and the US business
cycle. Working Paper—Banco de Portugal, ISBN 978-989-678-013-5.
[2] Chavez-Demoulin, V. e Davison, A.C. (2005). Generalized additive modelling of sample
extremes. Journal of the Royal Statistical Society, Ser. C, 54, 207–222.
[3] Davison, A.C. e Ramesh, N.I. (2000). Local likelihood smoothing of sample extremes. Journal
of the Royal Statistical Society, Ser. B, 62, 191–208.
[4] Lang, S. e Brezger, A. (2004). Bayesian P-splines. Journal of Computational and Graphical
Statistics, 13, 183–212.
[5] Mendes, B.V.M. e Lopes, H.F. (2004). Data driven estimates for mixtures. Computational
Statistics and Data Analysis, 47, 583–598.
SPE 2011
289
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Simulação – uma aplicação ao problema da ruı́na do jogador
Salomé Pedro1 , Rui Santos2 e Luı́s Cotrim3
1
Agrupamento de Escolas de Pataias, [email protected]
Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de
Estatı́stica e Aplicações da Universidade de Lisboa, [email protected]
3 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, LSRE — Laboratório de Processos de Separação e Reacção da Faculdade de Engenharia da Universidade do
Porto, [email protected]
2
Resumo: Em 1657 é publicado o primeiro livro sobre cálculo de probabilidades, de Huygens.
Esta pequena colectânea de problemas relativos a jogos de azar, baseada na correspondência entre
Pascal e Fermat em 1654, permitiu despertar a atenção de numerosos matemáticos durante os
séculos XVII, XVIII e XIX para esta temática, razão pela qual surgiram variadas generalizações
de alguns dos problemas propostos. O último desafio apresentado neste opúsculo de Huygens, e
porventura um dos mais célebres problemas em probabilidades, é o problema da ruı́na do jogador.
Neste trabalho serão apresentadas algumas soluções exactas para algumas variantes, com recurso
à modelação do problema através de equações às diferenças, bem como soluções aproximadas
recorrendo à simulação Monte Carlo (via software R) e à Lei dos Grandes Números. Por fim,
far-se-á uma análise crı́tica à possibilidade de utilização deste problema (e outros semelhantes) na
disciplina de Matemática no ensino secundário, nomeadamente no que se refere à utilização de
simulação no ensino das probabilidades.
Palavras–chave: Simulação, história da probabilidade, ensino de probabilidades
O Problema da ruı́na do jogador
Consideremos um jogo entre dois jogadores (A e B) dividido em partidas, onde em cada partida o
jogador A ganha com probabilidade p, recebendo um euro do jogador B, e perde com probabilidade
q = 1 − p pagando um euro ao jogador B. O jogo acaba quando um dos jogadores for à ruı́na (ficar
sem dinheiro). A probabilidade Pa do jogador A ganhar o jogo tendo a e (estando em jogo n = a + b
euros, onde b é o montante em posse do jogador B) pode ser modelada pela equação às diferenças
Pa = p Pa+1 + (1 − p) Pa−1 , 0 < a < n,
(1)
com P0 = 0 e Pn = 1 como condições de fronteira (consultar, por exemplo, [1] ou [2]). Assim,
conclui-se

a
 a+b
se p = 21
.
(2)
Pa =
 qa pb −pn se p 6= 1
qn −pn
2
Este resultado permite deduzir diversas probabilidades associadas ao jogo, como por exemplo
quando uma das fortunas é ilimitada (b → ∞) ou a probabilidade de um jogo nunca terminar, entre
outras. Por outro lado, o número esperado de partidas até o jogo acabar quando o jogador A tem
SPE 2011
291
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
a e, representado por Ea , é modelado pela equação
p Ea+1 − Ea + (1 − p) Ea−1 = −1, 0 < a < n,
com E0 = En = 0 como condições de fronteira. Deste modo obtemos, como solução,

ab
se p = 21


a
.
Ea =
( 1−p
p ) −1
n
a

− 1−2p
se p 6= 21
 1−2p
1−p n
( p ) −1
(3)
(4)
Simulação
Apesar de ser possı́vel deduzir diversas caracterı́sticas do jogo da ruı́na do jogador de forma exacta
através das equações às diferenças, conforme as equações (1) e (3) ilustram, podemos igualmente
obter resultados aproximados destas caracterı́sticas recorrendo a simulação. Há igualmente especificidades do jogo que dificilmente se consegue obter de forma analı́tica (sendo, em alguns casos,
provavelmente impossı́vel) e que a simulação nos permite obter uma caracterização aproximada.
Por outro lado, o ensino das probabilidades no ensino secundário, muitas vezes dedicado quase
exclusivamente ao cálculo combinatório, pouco intuitivo e de difı́cil compreensão, pode ser bastante enriquecido com a inclusão de problemas para os quais, apesar de existirem soluções exactas
analiticamente difı́ceis para alunos deste nı́vel de ensino, podem ser obtidas soluções aproximadas
recorrendo a simulações, que permitem igualmente ilustrar, de forma intuitiva e esclarecedora, o
comportamento dos fenómenos aleatórios (consultar [3], [4] ou outros exemplos disponı́veis no site
do projecto ALEA — http://www.alea.pt). Desta forma, quer no ensino secundário quer
no ensino superior a simulação é uma ferramenta extremamente eficaz para ilustrar o comportamento dos fenómenos não determinı́sticos, nomeadamente dos resultados assimtópticos, fundamentais para a compreensão do aleatório, como por exemplo a Lei dos Grandes Números, o Teorema
Limite Central ou o Teorema de Glivenko-Cantelli.
Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER.
Bibliografia
[1] Edwards, A.W.F. (1983). Pascal’s Problem: The ’Gambler’s Ruin’, International Statistical
Review 51 n.o 1, 73–79.
[2] Feller, W. (1967). Introduction to Probability Theory, vol.1, John Wiley & Sons.
[3] Martins, M.E.G. e Ponte, J.P. (2010). Organização e tratamento de dados, Ministério
da Educação, Direcção-Geral de Inovação e de Desenvolvimento Curricular (disponı́vel
em http://area.dgidc.min-edu.pt/materiais_NPMEB/matematicaOTD_
Final.pdf).
[4] Ross, S.M (2006). Simulation, 4th edition, Elsevier Academic Press.
SPE 2011
292
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Visualização de dados multivariados: radar plot versus
tabela-gráfico
Alexandra Pinto1 , Fernando Bação2 e Victor Lobo3
1
Faculdade de Medicina de Lisboa, Laboratório de Biomatemática, apinto.fm.ul.pt
ISEGI-UNL, [email protected]
3 Escola Naval, [email protected]
2
Resumo: A visualização de dados resulta do processo de converter dados em imagens. Com a
evolução dos computadores, assistiu-se ao aumento, quer da capacidade de armazenamento, quer
do processamento, tendo-se criado condições para a recolha e o tratamento de dados de elevada
dimensão.
Há diversas representações bi-dimensionais usadas para visualizar dados multivariados. Neste trabalho propõe-se a tabela-gráfico, uma representação gráfica adequada e alternativa aos radar plot
quando o número de variáveis é elevado. A tabela-gráfico demonstrou ser uma técnica importante na visualização de dados e pode ser utilizada como complemento do radar plot. Neste estudo
usaram-se os dados do 4o Inquérito Nacional de Saúde e a tabela-gráfico foi implementada em Matlab.
Palavras–chave: Visualização de dados multivariados, tabela-gráfico, radar plot
Introdução e Objectivos
A visualização de dados é uma tecnologia emergente que está a beneficiar com a crescente capacidade dos computadores e técnicas de data mining, para extrair informação útil dos dados. Esta
tecnologia é apropriada para a análise de grandes bases de dados e de dados multivariados.
A visualização é um poderoso meio de análise que ajuda a descobrir padrões e tendências escondidos nos dados. No entanto, um gráfico também pode tornar-se visualmente difı́cil de compreender
se o número de variáveis e de grupos a representar for elevado, ou ainda se as escalas de medidas
são diferentes [3].
Um dos principais problemas da visualização de dados consiste na escolha de uma representação
gráfica adequada à informação a tratar [1].
O radar plot é uma representação gráfica bi-dimensional de dados multivariados e é largamente utilizada para três ou mais variáveis quantitativas. O radar plot não é uma ferramenta muito útil quando
se pretendem representar muitas variáveis. Por exemplo, se tentarmos construir um radar plot com
mais de oito variáveis, o gráfico tornar-se-à confuso, sobretudo se não houver uma relação de ordem
simples entre essas variáveis, e for necessário colocar legendas (labeling). Nestas situações deverá
implementar-se um novo algoritmo que melhore a colocação dessas legendas.
O objectivo deste estudo é encontrar uma representação alternativa à técnica clássica do radarplot,
quando o número de variáveis é elevado. Posteriormente, pretende-se também fazer a sua implementação em Matlab.
SPE 2011
293
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Tabela-gráfico
Neste trabalho sugerimos uma abordagem, a tabela-gráfico, citada por Tufte [4]. Esta é uma
representação de dados multivariados que permite visualizar cada elemento do gráfico sem perda
de informação. A tabela-gráfico apresenta todos os valores de cada variável ligados por uma linha
(horizontal, ascendente ou descendente), tal como num comum gráfico de linhas.
Aplicação e Resultados
Antes de proceder à aplicação da tabela-gráfico a um caso de estudo, foi necessário implementá-la
em Matlab, versão 7.
Neste estudo aplicámos ambos os métodos, de um modo complementar, para dados sobre medicação,
provenientes do 4o Inquérito Nacional de Saúde - 2005/06 [2]. Os radar plots foram construı́dos para
representar apenas os cinco medicamentos mais consumidos em cada uma das sete regiões da NUTS
II, enquanto que com a tabela-gráfico representaram-se todos (dezoito) os medicamentos referidos
no inquérito.
A tabela-gráfico permitiu-nos, na mesma representação, facilmente fazer comparações transversais
entre e dentro das regiões.
Ambos os gráficos foram utilizados para extrair conclusões acerca da polimedicação e foi possı́vel
mostrar que, neste caso, a tabela-gráfico constitui uma mais valia ao apresentar os dados com maior
clareza do que com múltiplos radar plots.
Bibliografia
[1] Carmo, M.B. (2003). Visualização de Informação. Modelo Integrado para o Tratamento de
Filtragem e Múltiplas Representações. Universidade de Lisboa.
[2] Pinto, A., Rodrigues, T., Bação, F. e Lobo, V. (submetido). Medication and Polymedication in
Portugal.
[3] Saary, M.J. (2008). Radar plots: a useful way for presenting multivariate health care data.
Journal of Clinical Epidemiology, 60, 311–317.
[4] Tufte, E. (2006). Beautiful Evidence. Graphics Press.
SPE 2011
294
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Factores que influenciam a qualidade de vida dos doentes
diabéticos
Ana Sousa1 , Zilda Mendes1 e Maria Antónia Turkman2
1
2
CEFAR, ANF, {ana.sousa, zilda.mendes}@anf.pt
DEIO (FCUL) e CEAUL, [email protected]
Resumo: Em 2007, o Centro de Estudos e Avaliação em Saúde (CEFAR) da Associação Nacional
das Farmácias promoveu um estudo sobre a Qualidade de Vida dos Doentes Diabéticos em Portugal,
numa amostra de 1.479 doentes diabéticos. Dos doentes inquiridos, 53,7% eram do sexo feminino,
tinham idade média de 64 anos e apenas 19% apresentavam ı́ndice de massa corporal inferior a 25
kg/m2 . Relativamente à medicação, 80,2% dos doentes estavam apenas a fazer terapêutica oral,
10,4% insulina e 9,4% ambas as terapêuticas. Alguns doentes já apresentavam complicações como:
neuropatia (27,3%), retinopatia (22,4%) e nefropatia (11,9%). Neste questionário foi também avaliada a frequência de utilização dos cuidados de saúde por parte destes doentes.
A qualidade de vida foi avaliada através de um questionário especı́fico para esta patologia “Audit
of Diabetes Dependent Quality of Life (ADDQoL)” (Portuguese version 6.6.02). O ADDQoL é
composto por 2 questões gerais sobre o impacto da doença, pontuados entre -3 (muito mau) e
3 (excelente) e mais 18 itens subdivididos em domı́nios especı́ficos pontuados entre -9 (máximo
impacto negativo) e 9 (máximo impacto positivo). A pontuação global (average weight impact AWI) e por item é efectuado através de uma média ponderada. Nesta amostra o AWI encontrado
foi negativo (-1,88), com um intervalo de confiança a 95% para a média de [−1,96; −1,79], e uma
mediana de -1,56.
Neste trabalho pretende-se avaliar a influência de alguns factores, na qualidade de vida dos doentes
diabéticos através de duas metodologias: 1) Avaliação dos Odds Ratio obtidos através Regressão
Logı́stica Multipla e 2) Utilização adicional de Propensity Scores para minimizar a influência de
potenciais variáveis de confundimento no modelo de Regressão Logı́stica.
Palavras–chave: Diabetes, Propensity Scores
SPE 2011
295
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Riscos competitivos em estudos de diálise peritoneal
Laetitia Teixeira1 , Anabela Rodrigues2 e Denisa Mendonça3
1
PDMA/FCUP, [email protected]
CHPHSA/ICBAS, [email protected]
3 ICBAS/ISPUP, [email protected]
2
Resumo: Doentes em diálise peritoneal estão sujeitos a múltiplos eventos. Quando o interesse é
analisar a sobrevivência do doente para um evento especı́fico, a abordagem adequada é a utilização
de métodos que têm em conta riscos competitivos. Neste trabalho pretende-se apresentar uma
aplicação de riscos competitivos a um problema de análise de sobrevivência de doentes em diálise
peritoneal.
Palavras–chave: Riscos competitivos, análise de sobrevivência, diálise peritoneal
Introdução
A utilização do método de Kaplan-Meier na estimação da função de incidência cumulativa é prática
comum na análise de sobrevivência em estudos de Nefrologia, nomeadamente na diálise peritoneal.
Doentes em diálise peritoneal estão sujeitos a múltiplos eventos. Quando o interesse é analisar a
sobrevivência do doente para um evento especı́fico, a abordagem adequada é a utilização de métodos
que têm em conta riscos competitivos [1]. Tendo como objectivo a avaliação da sobrevivência do
doente, o evento de interesse é ‘morte em diálise peritoneal’, enquanto que ‘transplante de um
doente em diálise peritoneal’ e ‘transferência para hemodiálise’ são outros eventos possı́veis. Estes
dois últimos eventos são denominados competitivos, dado que a ocorrência de um anula a ocorrência
do evento de interesse [2]. A abordagem correcta nesta análise de sobrevivência na presença de
riscos competitivos, é a estimação da função de incidência cumulativa (FIC) para cada evento [1].
Objectivos
Estimação da FIC, tendo em conta riscos competitivos, na análise de sobrevivência de doentes em
diálise peritoneal (global e por caracterı́sticas do doente) e comparação com os resultados obtidos
por métodos que não consideram riscos competitivos.
Métodos
Os dados deste estudo provêm da Unidade de Diálise Peritoneal do Departamento de Nefrologia
do Hospital Geral de Santo António. Todos os pacientes que iniciaram tratamento com diálise peritoneal entre Outubro de 1985 e Junho de 2010 foram considerados no estudo (n=427). Doentes
que apresentaram recuperação da função renal (n=11) e pacientes como valores desconhecidos para
as variáveis diabetes (n=6) e idade (n=1) foram excluı́dos da análise. Na análise tendo em conta
SPE 2011
297
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
os eventos competitivos, o evento ‘morte em diálise peritoneal’ corresponde ao evento de interesse,
sendo os eventos ‘transferência para hemodiálise’ e ‘transplante’ os eventos competitivos. Doentes que não apresentem nenhum destes eventos foram censurados à data da última visita ou do fim
do perı́odo do estudo. Na análise ignorando os eventos competitivos, usou-se o método de KaplanMeier e o evento de interesse considerado foi ‘morte em diálise peritoneal’, sendo todos os restantes
censurados. Variáveis demográficas (sexo e idade) e clı́nicas (diabetes e proveniência) foram consideradas para análise de subgrupos. A variável proveniência refere o método de substituição da
função renal utilizado anteriormente à diálise peritoneal, caso exista. Esta variável é classificada
segundo três categorias: diálise peritoneal, hemodiálise ou doente transplantado. Foi utilizado a
software R e o pacote cmprsk para a estimação da função de incidência cumulativa, utilizando os
métodos propostos por J.P. Fine e R.J. Gray (ver [2]).
Resultados
O valor de FIC obtido aos 5 anos é duas vezes inferior ao calculado caso se tivesse utilizado o
método de Kaplan-Meier, ignorando a existência de riscos competitivos. Os resultados da análise
por subgrupo utilizando os testes de Gray e log-rank são notoriamente diferentes pois estes transmitem diferentes tipos de informação. O teste de Gray sugere que os três grupos definidos pela sua
proveniência são similares relativamente à sobrevivência do doente.
Conclusão
A estimação da incidência cumulativa ignorando a existência de riscos competitivos pode produzir resultados erróneos. Neste estudo, verificou-se uma elevada sobrestimação da incidência de
morte em diálise peritoneal se o método de Kaplan-Meier tivesse sido considerado, revelando a
importância dos riscos competitivos na análise de sobrevivência.
Bibliografia
[1] Pintilie, M. (2006). Competing Risks: A Practical Perspective. John Wiley & Sons: New York.
[2] Scrucca, L., Santucci, A. e Aversa, F. (2007). Competing risk analysis using R: an easy guide
for clinicians. Bone Marrow Transplant, 40, 381-387.
SPE 2011
298
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Preditores da qualidade de vida em pessoas com doenças crónicas
Estela Vilhena1 , José Pais-Ribeiro2 , Isabel Silva3 , Luı́sa Pedro4 ,
Rute Meneses5 , Helena Cardoso6 , Madalena Abreu7 , Vera Melo8
Ana Silva9 , António Martins da Silva10 , Denisa Mendonça11
1
Instituto Politécnico do Cávado e do Ave, Barcelos; ICBAS, Universidade do Porto,
[email protected]
2 FPCE, Universidade do Porto; UIPES, [email protected]
3 Universidade Fernando Pessoa, [email protected]
4 UIPES; ESTeSL IP, Lisboa, [email protected]
5 Universidade Fernando Pessoa, [email protected]
6 ICBAS, Universidade do Porto; HGSA Centro Hospitalar do Porto, [email protected]
7 FPCE, Universidade do Porto, [email protected]
8 FPCE, Universidade do Porto, [email protected]
9 HGSA Centro Hospitalar do Porto, [email protected]
10 ICBAS, Universidade do Porto; HGSA Centro Hospitalar do Porto, [email protected]
11 ICBAS, ISPUP , Universidade do Porto, [email protected]
Resumo: O presente trabalho teve como objectivo identificar preditores psicossociais da qualidade
de vida, em pessoas com doenças crónicas. Aplicando modelos de Análise de Covariância Multivariada, e controlando para um conjunto de factores sócio-demográficos e clı́nicos, verificou-se
que, de forma geral, o afecto positivo, a adesão aos tratamentos, o optimismo, a espiritualidade e o
suporte social contribuem para uma melhor qualidade de vida.
Palavras–chave: Doença crónica, preditores, qualidade de vida, MANCOVA
Introdução
A qualidade de vida é um conceito que envolve todas as componentes essenciais da condição humana, quer seja fı́sicas, psicológicas, sociais, culturais ou espirituais. Uma doença crónica tem
o papel de induzir alterações profundas na vida das pessoas, que são confrontadas com um conjunto de factores que exercem um impacto negativo na sua qualidade de vida. Como tal, após o
diagnóstico, muitos dos doentes tentam encontrar novas formas de lidar com a doença e com a vida.
O estudo teve como objectivo identificar preditores psicossociais da qualidade de vida em pessoas
com doenças crónicas.
Métodos
Estudo transversal que envolveu uma amostra de 774 indivı́duos com doença crónica (cancro, diabetes, epilepsia, esclerose múltipla, miastenia gravis e obesidade), dos quais 546 mulheres, com
idade compreendida entre os 17 e 67 anos e que após o diagnóstico, retomaram a sua vida normal.
SPE 2011
299
Sábado, 01/10/2011
Sessão de POSTERS IV
Átrio do Café, 10:20–10:50
Foi aplicado um questionário que incluı́a variáveis sócio-económicas e clı́nicas, percepção da saúde
e qualidade de vida. O modelo de Análise de Covariância Multivariada (MANCOVA) foi aplicado
para identificar factores psicossociais (afecto positivo/negativo, adesão aos tratamentos, optimismo,
espiritualidade e suporte social) preditores da qualidade de vida (bem-estar geral, saúde fı́sica, saúde
mental e bem-estar subjectivo), ajustando para um conjunto de variáveis sócio-económicas e clı́nicas
(sexo, idade, escolaridade, anos de diagnóstico e classificação da doença). De forma a não violar os
pressupostos de aplicabilidade da MANCOVA foram aplicadas transformações às variáveis saúde
fı́sica e saúde mental.
Resultados
Os resultados da MANCOVA permitiram identificar as variáveis psicossociais associadas à qualidade de vida, ajustando para as variáveis sócio-demográficas e clı́nicas. O afecto positivo e negativo, adesão aos tratamentos, optimismo e espiritualidade estão associados ao bem-estar geral
(todos p<0.01); o afecto positivo e negativo, adesão aos tratamentos e o suporte social associados
à saúde fı́sica (todos p<0.01); o afecto positivo e negativo, adesão aos tratamentos, optimismo e o
suporte social associados à saúde mental (todos p<0.05); o afecto positivo e negativo, adesão aos
tratamentos, optimismo, espiritualidade e o suporte social associados ao bem-estar subjectivo (todos p<0.05). Doentes com mais afecto positivo e uma melhor adesão aos tratamentos, apresentam
melhor bem-estar geral, uma melhor saúde fı́sica, uma melhor saúde mental e um melhor bem-estar
subjectivo. Já o afecto negativo comporta-se como um preditor negativo destas componentes. O
optimismo e a espiritualidade contribuem para um melhor bem-estar geral e um melhor bem-estar
subjectivo; verifica-se também que o optimismo exerce um efeito positivo, estatisticamente significativo na saúde mental; um bom suporte social contribui para uma melhor saúde fı́sica, uma melhor
saúde mental e um melhor bem-estar subjectivo.
Conclusões
No presente estudo verificou-se, aplicando Análise de Covariância Multivariada, que o afecto positivo, a adesão aos tratamentos, o optimismo, a espiritualidade e o suporte social são preditores que
contribuem para uma melhor qualidade de vida, em pessoas com doenças crónicas. Estas conclusões
sugerem que, uma terapia multidisciplinar pode ajudar a uma melhor adaptação dos protocolos de
tratamento, para atender às necessidades especiais dos doentes.
SPE 2011
300
Sábado, 01/10/2011
Sessão Plenária V
Sala Premium, 10:50–11:45
A importância de métodos de re-amostragem em Estatı́stica
de Extremos
M. Ivette Gomes
DEIO and CEAUL, Faculdade de Ciências, Universidade de Lisboa, [email protected]
Resumo: Neste artigo, realçamos a importância de métodos de re-amostragem, tais como o jackknife generalizado e o bootstrap, na obtenção de estimativas semi-paramétricas fiáveis de qualquer
parâmetro de acontecimentos extremos ou raros. Para ilustrar essas metodologias, consideraremos
não só os clássicos estimadores de Hill mas também uma classe de estimadores de viés-corrigido
de um ı́ndice de valores extremos positivo, o parâmetro fundamental em estatı́stica de extremos.
Procederemos ainda à aplicação destes métodos a dados reais e simulados.
Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, bootstrap, jackknife
Introdução e preliminares
Na área de estatı́stica de extremos, as metodologias jackknife e bootstrap têm-se revelado de grande
importância na estimação adequada de parâmetros de acontecimentos raros, tais como um quantil
elevado, o perı́odo de retorno de um nı́vel elevado ou o parâmetro primordial de acontecimentos
extremos, o ı́ndice de valores extremos (EVI, do Inglês extreme value index).
+
Trabalharemos na área de modelos F, com cauda direita pesada, i.e. admitiremos que F ∈ DM
≡
DM (EVγ )γ >0 , o domı́nio de atração para máximos de EVγ (·), γ > 0, em que EVγ (·) denota a função
de distribuição de valores extremos, dada neste caso particular por EVγ (x) = exp −(1 + γ x)−1/γ ,
x > −1/γ , γ > 0. Para estes modelos de caudas pesadas, e face a uma amostra aleatória Xn e
à amostra associada de estatı́sticas ordinais (e.o.’s) ascendentes, (X1:n ≤ · · · ≤ Xn:n ), o estimador
clássico do EVI é o estimador de Hill (Hill, 1975), definido como
H(k) ≡ H(k; Xn ) :=
1
k
k
∑ {ln Xn−i+1:n − ln Xn−k:n },
i=1
k = 1, 2, . . . , n − 1.
(1)
Os estimadores em (1) são consistentes desde que Xn−k:n seja uma e.o. intermédia, i.e., desde que
k = kn → ∞ e k/n → 0, quando n → ∞.
Devido ao elevado viés assintótico do estimador de Hill, em (1), para valores de k moderados a
elevados, vários autores têm abordado o problema de redução de viés na área de extremos. Uma
das classes mais simples de estimadores do EVI com viés-corrigido é a introduzida em Caeiro et
al. (2005). Essa classe depende da estimação adequada, feita através de (β̂ , ρ̂ ), de um vector de
parâmetros de segunda-ordem, (β , ρ ), e com H(k) definido em (1), tem a forma funcional
H(k) ≡ H(k; Xn ) ≡ H β̂ ,ρ̂ (k) := H(k) 1 − β̂ (n/k)ρ̂ /(1 − ρ̂ ) .
(2)
O jackknife generalizado (Gray and Schucany, 1972) e o bootstrap (Efron, 1979) gozam de papel
fundamental na redução de viés e na escolha de k, respectivamente, permitem a obtenção de estima-
SPE 2011
Mesa: João A. Branco
301
Sábado, 01/10/2011
Sessão Plenária V
Sala Premium, 10:50–11:45
tivas semi-paramétricas fiáveis de qualquer parâmetro de acontecimentos raros, e serão abordados
em seguida.
A metodologia bootstrap na estimação do nı́vel óptimo
Quando consideramos a melhor forma de escolher o parâmetro de controlo k, na estimação de γ ,
quer através de H(k), em (1), ou através de H(k), em (2), queremos usualmente estimar k0H :=
arg mink MSE(H(k)) ou k0H = arg mink MSE(H(k)), onde MSE (do Inglês mean square error) denota o erro médio quadrático. Podemos então usar um bootstrap duplo aplicado a uma estatı́stica
auxiliar, que tende para zero, e que tem um comportamento assintótico semelhante ao de H(k) (vejase Gomes and Oliveira, 2001, entre outros) ou de H(k) (veja-se Gomes et al., 2011), o estimador a
ser considerado em paralelo com a estatı́stica auxiliar T (k) := H(k) − H([k/2]), onde [x] denota a
parte inteira de x.
Redução de viés e a metodologia jackknife
Mas nos nı́veis óptimos referidos na Secção 2, ainda temos um viés assintótico não-nulo. Se quisermos remover esse viés, podemos usar o jackknife generalizado (GJ, do Inglês generalized jackknife).
É então suficiente considerar um par adequado de estimadores do parâmetro de acontecimentos extremos em estudo, e construir combinações afins de viés-reduzido desses estimadores (veja-se Gomes et al., 2000, também entre outros, para a aplicação desta técnica ao estimador de Hill). Para
ilustrar esta metodologia, consideraremos mais uma vez os estimadores H(k), em (2), e o novo
estimador
GJ
H (k) := H(k) − 2−2ρ̂ H([k/2]) /(1 − 2−2ρ̂ ).
(3)
Agradecimentos: Investigação parcialmente financiada através dos Fundos Nacionais, FCT —
Fundação para a Ciência e a Tecnologia, projecto PEst-OE/MAT/UI0006/2011, e PTDC / FEDER.
Bibliografia
[1] Caeiro, F., Gomes, M.I. e Pestana, D. (2005). Direct reduction of bias of the classical Hill
estimator. Revstat, 3, 113–136.
[2] Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of Statistics,
7, 1–26.
[3] Gomes, M.I., Martins, M.J. e Neves, M.M. (2000). Alternatives to a semi-parametric estimator
of parameters of rare events – the jackknife methodology. Extremes, 3, 207–229.
[4] Gomes, M.I. e Oliveira, O. (2001). The bootstrap methodology in statistical extremes — the
choice of the optimal sample fraction. Extremes, 4, 331–358.
[5] Gomes, M.I., Mendonça, S. e Pestana, D. (2011). Adaptive reduced-bias tail index and VaR
estimation via the bootstrap methodology. Comm. in Statistics – Theory and Methods, 40,
2946–2968.
[6] Gray, H.L. e Schucany, W.R. (1972). The Generalized Jackknife Statistic. Marcel Dekker.
[7] Hill, B. (1975). A simple general approach to inference about the tail of a distribution. Ann.
Statist., 3, 1163–1174.
SPE 2011
Mesa: João A. Branco
302
Índice de Autores
Índice de Autores
Madalena Abreu, 299
Anabela Afonso, 157, 189
Airlane P. Alencar, 173
Eduardo Almaraz-Luengo, 79
Elena Almaraz-Luengo, 79
Ana Almeida, 251
Russell Alpizar-Jara, 93, 189
Conceição Amado, 191
Maria José Amorim, 87
Valeska Andreozzi, 269
Luı́s Antunes, 271, 275
Nelson Antunes, 143, 145
Isabel Araújo, 85
Paulo Araújo Santos, 135, 233
Emilia Athayde, 111
Fernando Bação, 293
João Barreiros, 57
Adriana Belo, 273
Maria José Bento, 31, 271, 275
José Aurélio Garcia Bergmann, 213
Patrı́cia de Zea Bermudez, 47
Joana Bernardino, 267
Carla Bessa, 245
Ana M. Bianco, 211
Regina Bispo, 267
Graciela Boente, 159, 211
Martin Boer, 65
José Borges, 171
Ana Braga, 13, 85
João A. Branco, 3
Carlos A. Braumann, 41, 97, 99, 227, 229
Maria de Fátima Brilhante, 21
Nuno Brites, 227
Paula Brito, 181, 183, 185
Teodoro Briz, 37
Sarah Martins Salomão Brodbeck, 263
M. Salomé Cabral, 1
Frederico Caeiro, 235
Teresa Calapez, 215
Francisco Lage Calheiros, 245
Helena Cardoso, 299
João Lourenço Cardoso, 257
Margarida Cardoso, 87
SPE 2011 – Programa e Resumos
Ana Isabel Carita, 179
Clara Carlos, 99, 227, 229
Manuel do Carmo, 71
Nuno Carmona, 243
Laura Carreto, 63
Armindo Carvalho, 217
Carlos Carvalho, 89
Luı́sa Carvalho, 157
M. Lucı́lia Carvalho, 171
Miguel de Carvalho, 237, 289
Ana Cristina Casimiro, 29
Miguel Casquilho, 73
Philippe Castagliola, 35
Clara Castro, 31
Fernando Ceia, 93
Luı́s Chorão, 151
Carlos A. Coelho, 139
Clara Cordeiro, 241
Ana Maria Correia, 111
Carla Correia-Gomes, 107
Joaquim F.P. da Costa, 117
Manuel João Costa, 7
Patrı́cia Costa, 109
Patrı́cio Costa, 7
Luı́s Cotrim, 291
Teresa Crespo, 251
Daniela Cunha, 275
Anthony Davison, 237, 289
Joana Dias, 89, 111
José Carlos Dias, 41
José G. Dias, 151, 153, 285
Otı́lia Dias, 113
Sónia Dias, 183
Sara Simões Dias, 269
Nancy DiMarzio, 91
Ana Diniz, 57
Isabel Pinto Doria, 113
Fred van Eeuwijk, 65
Sofia Eurico, 115
Inês Faria, 57
Susana Faria, 89
João Farrajota, 167
Miguel Felgueiras, 277
303
Índice de Autores
Filipe Felisberto, 277
Neimar da Silva Fernandes, 263
Maria Eugénia Ferrão, 109
Ana Sousa Ferreira, 113
António Paulo Ferreira, 179
Dário Ferreira, 193
Ernesto Ferreira, 155
Fátima Ferreira, 17
Marta Ferreira, 33
Sandra Ferreira, 193
Adelaide Sousa Figueiredo, 195
Fernanda Otı́lia Figueiredo, 35
Patrı́cia A. Filipe, 37, 227, 229
Peter Filzmoser, 141
Sı́lvia Fonte Santa, 253
Isabel Fraga Alves, 135, 233
Adelaide Freitas, 63
Ana Cristina Moreira Freitas, 279
Duarte Freitas, 119
Sónia Freitas, 197
A. Rita Gaio, 117
Hugh G. Gauch, 65
Sandra Gavinha, 281
Atiyo Ghosh, 19
Dulce Gomes, 37
M. Ivette Gomes, 47, 101, 103, 105, 205, 235,
301
Ana Rita Gonçalves, 111
Esmeralda Gonçalves, 43
Homero Alexandre Gonçalves, 255
Luzia Gonçalves, 11
M. Helena Gonçalves, 1
Ana Cláudia Gouveia, 253
Délia Gouveia, 39
Pedro M.D.C.B. Gouveia, 59
Sónia Gouveia, 225
Maria do Carmo Miranda Guedes, 243
Manuela Guerreiro, 123
Patsy Haccou, 19
Carla Henriques, 15
Eva Henriques, 197
Lı́gia Henriques-Rodrigues, 105
Paulo Infante, 29, 71, 127, 157
Gonçalo Jacinto, 127, 143, 145
Susan Jarvis, 91
SPE 2011 – Programa e Resumos
Irina Kislaya, 7
Sandra Lagarto, 97
Ângela Maria Quintão Lana, 213
Manuela Larguinho, 41
Nuno Lavado, 215
Jorge Lengler, 83
Renato Ribeiro de Lima, 213
Victor Lobo, 293
Luiz Guerreiro Lopes, 39
Vanda M. Lourenço, 199
Francisco Macedo, 201
Pedro Macedo, 177, 203
Luı́s Machado, 265, 275
Fernando Magalhães, 209
José Maia, 119
Marcos Malosetti, 65
José Ramos Pires Manso, 155
Maria Conceição Manso, 281
Luı́s Margalho, 169
Catarina Marques, 83
Filipe J. Marques, 139
Jorge Marques, 45
Sara Marques, 243
Susete Marques, 171
Tiago A. Marques, 91, 267
Steve W. Martin, 91
Cristina Martins, 43
Francisco V. Martins, 217
João Paulo Martins, 25
José A. Pinto Martins, 163
Maria Alice Martins, 283
Rosário Oliveira Martins, 269
Marco Marto, 207
Ana Cristina Matos, 15
David K. Mellinger, 91
Vera Melo, 299
Júlio Mendes, 123
Jorge Mendes, 71
Nazaré Mendes Lopes, 43
Zilda Mendes, 295
Denisa Mendonça, 89, 107, 271, 297, 299
Maria Isabel Mendonça, 197
Sandra Mendonça, 39
Teresa Mendonça, 149, 221
Rute Meneses, 299
Raquel Menezes, 131, 169, 223
João Tiago Mexia, 147, 175, 193
304
Índice de Autores
Cristina Miranda, 205
Danilo Monte-Mor, 27, 77
Patrı́cia Manarte Monteiro, 281
Pedro Monteiro, 273
Manuel Cabral Morais, 23, 69
Ana Moreira, 265
David Moretti, 91
Ronald P. Morrissey, 91
Teresa Mota, 85
Filipa Mourão, 13
Cláudia Pereira, 127
Dulce Gamito Pereira, 147, 175
Isabel Pereira, 207, 247, 259
Dinis Pestana, 21, 103
Alexandra Pinto, 293
Ana M. Pires, 199, 201
Bruno Pires, 249
Maria João Polidoro, 209
Miguel Portela, 7
Ana Prior, 95
Isabel Natário, 121, 171
João Neves, 119
M. Manuela Neves, 241, 245
Manuela Figueira Neves, 9
Alexandre Nicolella, 51, 133
Raquel Nicolette, 259
João Niza-Ribeiro, 107
Mariana Calife Nóbrega, 51, 133
Ana Rita Nunes, 121
Célia Nunes, 193
Carla Nunes, 37
Cláudia Nunes, 231
Rui Nunes, 67
Patrı́cia Ferreira Ramos, 69
Efigénio Rebelo, 67
Elizabeth Reis, 165
Ana Filipa Ribeiro, 89
Conceição Ribeiro, 257
Helena Ribeiro, 17, 283
Tiago Ribeiro, 77
Débora Ricardo, 231
Anabela Rocha, 205
Conceição Rocha, 149, 221
Cristina Rocha, 273
Lisandra Rocha, 223
Maria Luı́sa Rocha, 21
Anabela Rodrigues, 297
Isabel M. Rodrigues, 211
Paulo C. Rodrigues, 65
Sara Roque, 63
Carlos J. Roquete, 229
Álvaro Rosa, 165
Fátima C. Rosa, 73
Fernando Rosado, 9, 129, 187
Irene Oliveira, 61
Isabel Tiago de Oliveira, 285
Jorge Oliveira, 85
José M. Oliveira, 85
M. Rosário de Oliveira, 11, 119, 141
Manuel Oliveira, 149
Manuela M. Oliveira, 171
Paula Milheiro de Oliveira, 95
Pedro Oliveira, 13, 109
Rosa Oliveira, 287
Patrı́cia Oom do Valle, 67, 115, 123
Boris Oumow, 289
António Pacheco, 17, 69, 141, 143
Sabu S. Padmadas, 153, 285
José Pais-Ribeiro, 299
Rui Paiva, 125
Roberto Palma dos Reis, 197
Cláudia Pascoal, 119, 141
Rui Pascoal, 45
Luı́sa Pedro, 299
Salomé Pedro, 291
Andreia Pereira, 31
António Pereira, 277
SPE 2011 – Programa e Resumos
Thelma Sáfadi, 173
Maria de Fátima Salgueiro, 75, 219
Tiago Salvador, 23
Marco Aurélio Sanfins, 27, 77
Jorge Santos, 131
Luı́s Ferreira dos Santos, 15
Maribel Luengo y Dos Santos, 79
Paulo Santos, 47
Rui Santos, 25, 283, 291
Wolfgang Schmid, 69, 81
Manuel Scotto, 177, 203, 225, 259
Fernando Sebastião, 61
Alexandra Seco, 277
Fernando Sequeira, 49
Maria Conceição Serra, 7, 19
Sı́lvia Shrubsall, 121
305
Índice de Autores
A. Pedro Duarte Silva, 185
Ana Rita Silva, 85
Ana Silva, 299
António Martins da Silva, 299
Camila Silva, 77
Elvira Silva, 177, 203
Fabyano Fonseca e Silva, 213
Isabel Silva, 299
João Albino Silva, 115
Maria Eduarda Silva, 221, 243
Martinho de Almeida e Silva, 213
Nélia Silva, 247
Natascha Almeida Marques da Silva, 213
Neimar Fernandes da Silva, 51, 133
Tufi Machado Soares, 51, 133, 263
Ana Sousa, 295
Inês Sousa, 31, 53, 169, 223
Ricardo Sousa, 25
Manuela Souto de Miranda, 205
Ana Subtil, 11
Victor Ramos Tavares, 147, 175
Carlos Teixeira, 131
Laetitia Teixeira, 297
Armando Teixeira-Pinto, 287
Júlia Teles, 5
Paulo Teles, 181
Carlos Tenreiro, 137
Kamil Feridun Turkman, 55, 261
M. Antónia Amaral Turkman, 209, 257, 295
Eugen Ursu, 55
Rui Valadas, 141
Jos van der Velden, 239
Sı́lvio Velosa, 49
Leonel Vicente, 261
Paula C. R. Vicente, 75
Paula Vicente, 165
Madalena Vieira-Pinto, 107
Estela Vilhena, 299
SPE 2011 – Programa e Resumos
306