Classificação Regionalizada
Transcrição
Classificação Regionalizada
Uma das mais importantes tarefas em modelagem é resolver problemas por medição de atributos regionalizados. A classificação multivariada de unidades estratigráficas, perfis de poços ou amostras petrográficas combinada com o conceito de variáveis regionalizadas podem fornecer procedimentos para uma identificação de regiões geográficas homogêneas. Classificação Regionalizada Os resultados podem, então, serem usados para a formulação de hipóteses de trabalho que procurarão explicar os processos que levaram à formação do fenômeno em estudo. Como os processos na natureza são bastante complexos e a amostragem geralmente não é suficiente, a simplificação da realidade se impõe por meio de modelos. Classificação regionalizada de amostras geológicas em grupos é um desses modelos simplificadores, segundo o qual os resultados de análises de dados multidimensionais georreferenciados podem ser transferidos para o espaço geográfico real possibilitando mapeamentos. Classificação regionalizada (CR) em termos probabilísticos, amostras multivariadas e georreferenciadas à grupos previamente determinados Primeiro, e fundamental, passo é a definição dos grupos o que pode ser feito por uma manipulação matemática usando, por exemplo, análise de agrupamentos ou por um conhecimento específico “a priori”. Definido os grupos, as amostras serão submetidas a uma análise discriminante multigrupos e com o auxílio de medidas, como a distância generalizada de Mahalanobis associada à krigagem, verificar a respectiva atribuição para os grupos considerados. 2 CR: principais problemas Procura-se atribuir, Interpretação física (geológica) dos grupos e se os mesmos são espacialmente autocorrelacionados ou não Atribuição de amostras que não apresentam probabilidades bem definidas de pertencer a um determinado grupo. 3 APLICAÇÃO DA ANÁLISE DISCRIMINANTE À DADOS MULTIVARIADOS REGIONALIZADOS 4 Fundão/Portugal: amostragem (PACHECO & LANDIM(2005) – TWO-WAY REGIONALIZED CLASSIFICATION OF MULTIVARIATE DATASETS AND ITS APPLICATION TO THE ASSESSMENT OF HYDRODYNAMIC DISPERSON: MATH.GEOLOGY, 37(4):393-417) Matriz de dados composta por 160 análises geoquímicas de águas subterrâneas, provenientes de Fundão/Portugal com teores em mmol/L dos maiores anions e sílica dissolvida: Cl ,SO42-, NO3-, HCO3- e SiO2. Dados já analisados por Pacheco (1998). Segundo esse estudo, que conseguiu identificar águas poluídas e não poluídas, três seriam os fatores controladores: alteração por intemperismo, contaminação agrícola e contaminação doméstica 5 6 1 Matriz de dados Fundão: áreas contaminadas 7 8 9 10 Método aglomerativo: Ward 160000 140000 100000 80000 60000 40000 20000 0 446 271 540 439 260 273 440 277 408 523 530 259 228 452 442 279 406 224 211 447 575 67 453 216 522 425 441 524 86 217 261 28 30 77 205 203 231 76 90 430 215 230 535 574 229 276 71 35 222 245 250 214 84 247 209 244 207 223 248 31 66 32 264 239 268 51 39 237 591 206 99 539 232 272 274 234 212 227 79 210 204 534 257 253 254 278 255 432 235 275 265 458 589 87 96 415 249 226 238 221 525 280 435 427 438 246 60 514 443 61 92 457 74 85 258 573 402 411 242 252 72 251 256 433 434 241 410 420 421 423 463 75 536 41 208 225 404 444 42 424 220 407 243 45 267 59 218 269 262 263 233 236 202 266 219 63 213 583 78 270 Distância euclidiana 120000 Como os grupos estão discriminados, as amostras pertencentes a cada um deles são dispostas de maneira a indicar a que distâncias estão do seu respectivo centróide. Para cada caso são utilizadas as funções discriminantes calculadas e em seguida verificado se as classificações originais estavam corretas ou não. Esse resultado é apresentado em termos probabilísticos. Como se tem à disposição a coordenada geográfica de cada uma das amostras foram construídos três mapas de probabilidade de ocorrência 11 12 2 Grupo 2: Probabilidades de distribuição das águas com composição química controlada por efluente domésticos Grupo 1: Probabilidades de distribuição das águas com composição química controlada por fertilizantes agrícolas 13 14 Grupo 3: Probabilidades de distribuição das águas com composição química controlada pelo intemperismo Esses resultados mostram a aplicação da análise discriminante em dados multivariados georreferenciados, porém, são apresentados três mapas em separados, quando o ideal seria os resultados num único mapa. Para tanto: aplicação da Classificação Regionalizada. 15 16 A definição inicial dos agrupamentos, denominado natural, foi feita baseada na análise de correspondências, sendo os grupos interpretados em termos de processos e/ou fontes controladores. Num segundo momento foi feita uma classificação baseada na análise de agrupamentos, com o método de Ward como critério de aglomeração. Ambos 17 os resultados foram submetidos a uma análise discriminante multigrupos que forneceu a probabilidade de cada amostra pertencer a um dos três grupos considerados 18 3 diferentes metodologias para separar os grupos espera-se que as amostras que forem mantidas nos mesmos grupos, independentemente do método, estejam realmente bem classificadas dentro de um certo espaço geográfico. Como os dados são geo-referenciados o produto de ambas as Classificações Regionalizadas originam arranjos reticulares regulares com o auxilio de algoritmos estimadores como a krigagem. Nos nós desses retículos estarão distribuídos espacialmente as amostras identificadas pelos agrupamentos encontrados. Desse modo pela comparação entre ambos os retículos encontrados faz-se uma análise dos nós. Havendo coincidência de identificação as amostras permanecem no grupo em questão. Caso contrario passam a pertencer a um grupo hibrido, ou de 20 transição entre grupos bem caracterizados. Escolhendo duas Aquelas, porem, que mudarem de grupo, conforme o método aplicado, são consideradas como pertencentes a regiões hibridas. 19 Análise de Agrupamentos, otimizada pela Análise Discriminante, apresentou uma distribuição alternativa dessas mesmas amostras, também em três grupos. Análise de Correspondências, otimizada pela Análise Discriminante, revelou tres agrupamentos naturais com geoquimismo controlado por: intemperismo; efluentes domésticos e fertilizantes. 21 Empregando a análise dos nós dos retículos, ou seja, combinando essas duas figuras anteriores obteve-se o resultado final. O recadastramento dos nós foram obtidos da seguinte maneira: 1) quando os nós da Classificação Regionalizada/primeiro modo apresentaram os mesmos valores (1, 2 e 3, indicando os grupos 1/A, 2/C e 3/B) que os da Classificação Regionalizada/segundo modo esses valores foram mantidos; 2) quando o valor 3 não coincidia, recebia o valor 4 e passou a ser interpretado como mistura entre fertilizante e outras influências; 3) em todos os outros casos o valor passou a 0 e interpretado como mistura de intemperismo e efluentes domésticos. 23 22 A B C Total w%-Poluição w%-Agricultura 1 88 0 36 124 29.0 35.6 2 1 7 5 13 74.2 36.1 63.3 64.4 3 12 5 6 23 Total 101 12 47 160 w%-Poluição 30.5 78.4 40.8 w%-Agricultura 37.5 56.7 38.7 24 4 Análise estatística multivariada com enfoque espacial Resultado da análise dos nós do reticulado, pela Classificação Regionalizada A planilha de dados contem valores de 8 variáveis agrícolas (densidade por milha quadrada) obtidas em 73 Municípios de Porto Rico •Número de fazendas (DFRM). •“cuerdas” (1 milha quadrada = 658,94 cuuerdas) de terras ocupadas por fazendas, apresentadas em unidades de 10 (DCD). •Quartos de galão de leite vendido, apresentados em unidades de 4.000 quartos de galão (DMLK). •Toneladas de cana de açúcar colhidas, aparesentadas em unidades de 200 toneladas (DSGR). •Libras de café colhidas (DCF) •Libras de tabaco colhidas, apresentadas em unidades de 200 libras (DTB) •Centenas de bananas colhidas, apresentadas em unidades de 1.000 (DBN). •Famílias vivendo em fazendas (DFAM). 25 Alem disso são fornecidas as seguintes informações: •Nomes dos Municípios •Classificação administrativa: ADM 1 (Região de San Juan); ADM 2 (Região de Arecibo); ADM 3 (Região de Mayaguez); ADM 4 (Região de Ponce); ADM 5 (Região de Caguas). •Classificação geomorflógica (LND): 0 (Município localizado em terras baixas, litorâneas); 1 (Município localizado em terras altas, no interior). •Classificação urbana (RU): 0 (Município com população <=50% urbana); 1 (Município com população > 50% urbana) •Área do Município •Coordenadas u (=X) e v (=Y) da sede do Município. • U.S. Census of Agriculture and Commonwealth of Puerto Rico (1974-75), Facts and Figures on Puerto Rico's Agriculture (Daniel A. Griffith & Carl G. Amrhein (1997): Multivariate Statistical Analysis for Geographers – Prentice Hall) 30 5 Adotada a classificação administrativa: ADM 1 (Região de San Juan); ADM 2 (Região de Arecibo); ADM 3 (Região de Mayaguez); ADM 4 (Região de Ponce); ADM 5 (Região de Caguas) foi efetuada uma Análise discriminante entre os 5 grupos considerados. 31 32 San Juan, Caguas e Arecibo são considerados como grupos não discriminados. Mayaguez e Ponce são grupos discriminados 33 Mayagues e Ponce produzem mais cana e mais café; produzem menos leite e tabaco 34 Análise de Correspondências Múltiplas para verificar as associações entre as regiões e a geomorfologia e as zonas urbanas 35 36 6 37 Associações entre San Juan e zonas urbanas; Mayaguez e zonas rurais; Arecibo e terras litorâneas e Caguas e regiões altas do interior 38 Pela Análise discriminante San Juan, Caguas e Arecibo foram consideradas um único grupo (SCA). Nova análise discriminante entre os 3 grupos 39 40 Mayaguez e Ponce produzem mais cana e mais café e menos tabaco 41 Na nova Análise de Correspondências, SCA esta associada à terras baixas e zona urbana 42 7 Calvin e Haroldo Teria o Calvin razão? Os métodos multivariados são um milagre? Ao aplica-los a uma matriz de dados surge um resultado. Os fenômenos naturais não podem ser explicados por crenças. Por magia? A Matemática não é uma crença. A Matemática pode ser usada para explicar os fenômenos naturais. 43 44 45 46 47 48 Dados granulométricos provenientes de sedimentos de fundo da região de Baratara Bay/Delta do Mississipi, Lousiana/EUA (Krumbein & Aberdeen, 1937). 1. 2. 3. 4. 5. arenitos praiais arenitos siltosos de canais arenitos siltosos de margem de canais siltitos orgânicos basais lamitos orgânicos AM: areia média AF: areia fina AMF: areia muito fina SG: silte grosso SM: silte médio SF: silte fino SMF: silte muito fino 8 49 50 Os dados são do trabalho clássico de “Fisher, M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7:179 -188”. e correspondem à 150 flores de Iris. Foram medidas quatro variáveis (comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala) em tres espécies Setosa, Versicolor e Virginica. 1) Aplicar a análise de agrupamentos e a análise de componentes principais considerando todas as tres espécies como um único grupo e verificar se ocorre separação, ou não, entre as tres espécies tendo como base as variáveis medidas. 2) Aplicar análise discriminante para verificar se ocorrem 51 tres grupos discriminados segundo Fisher 52 Exercício 5: análise multivariada 53 9