Classificação Regionalizada

Transcrição

Classificação Regionalizada
Uma das mais importantes tarefas em modelagem é resolver
problemas por medição de atributos regionalizados.
A classificação multivariada de unidades estratigráficas, perfis de
poços ou amostras petrográficas combinada com o conceito de
variáveis regionalizadas podem fornecer procedimentos para uma
identificação de regiões geográficas homogêneas.
Classificação
Regionalizada
Os resultados podem, então, serem usados para a formulação de
hipóteses de trabalho que procurarão explicar os processos que
levaram à formação do fenômeno em estudo.
Como os processos na natureza são bastante complexos e a
amostragem geralmente não é suficiente, a simplificação da realidade
se impõe por meio de modelos.
Classificação regionalizada de amostras geológicas em grupos é um
desses modelos simplificadores, segundo o qual os resultados de
análises de dados multidimensionais georreferenciados podem ser
transferidos para o espaço geográfico real possibilitando
mapeamentos.
Classificação regionalizada (CR)
em termos probabilísticos,
amostras multivariadas e georreferenciadas à grupos
previamente determinados
 Primeiro, e fundamental, passo é a definição dos
grupos o que pode ser feito por uma manipulação
matemática usando, por exemplo, análise de
agrupamentos ou por um conhecimento específico “a
priori”.
 Definido os grupos, as amostras serão submetidas a
uma análise discriminante multigrupos e com o
auxílio de medidas, como a distância generalizada de
Mahalanobis associada à krigagem, verificar a
respectiva atribuição para os grupos considerados.
2
CR: principais problemas
 Procura-se atribuir,
 Interpretação
física (geológica) dos grupos e se os
mesmos são espacialmente autocorrelacionados ou não
 Atribuição
de amostras que não apresentam
probabilidades bem definidas de pertencer a um
determinado grupo.
3
APLICAÇÃO DA ANÁLISE DISCRIMINANTE À DADOS
MULTIVARIADOS REGIONALIZADOS
4
Fundão/Portugal: amostragem
(PACHECO & LANDIM(2005) – TWO-WAY REGIONALIZED CLASSIFICATION OF MULTIVARIATE DATASETS
AND ITS APPLICATION TO THE ASSESSMENT OF HYDRODYNAMIC DISPERSON: MATH.GEOLOGY,
37(4):393-417)

Matriz de dados composta por 160 análises geoquímicas de
águas subterrâneas, provenientes de Fundão/Portugal com
teores em mmol/L dos maiores anions e sílica dissolvida: Cl ,SO42-, NO3-, HCO3- e SiO2.

Dados já analisados por Pacheco (1998). Segundo esse estudo,
que conseguiu identificar águas poluídas e não poluídas, três
seriam os fatores controladores: alteração por intemperismo,
contaminação agrícola e contaminação doméstica
5
6
1
Matriz de dados
Fundão: áreas contaminadas
7
8
9
10
Método aglomerativo: Ward
160000
140000
100000
80000
60000
40000
20000
0
446
271
540
439
260
273
440
277
408
523
530
259
228
452
442
279
406
224
211
447
575
67
453
216
522
425
441
524
86
217
261
28
30
77
205
203
231
76
90
430
215
230
535
574
229
276
71
35
222
245
250
214
84
247
209
244
207
223
248
31
66
32
264
239
268
51
39
237
591
206
99
539
232
272
274
234
212
227
79
210
204
534
257
253
254
278
255
432
235
275
265
458
589
87
96
415
249
226
238
221
525
280
435
427
438
246
60
514
443
61
92
457
74
85
258
573
402
411
242
252
72
251
256
433
434
241
410
420
421
423
463
75
536
41
208
225
404
444
42
424
220
407
243
45
267
59
218
269
262
263
233
236
202
266
219
63
213
583
78
270
Distância euclidiana
120000
Como os grupos estão discriminados, as amostras
pertencentes a cada um deles são dispostas de maneira a
indicar a que distâncias estão do seu respectivo
centróide.
Para cada caso são utilizadas as funções discriminantes
calculadas e em seguida verificado se as classificações
originais estavam corretas ou não.
Esse resultado é apresentado em termos probabilísticos.
Como se tem à disposição a coordenada geográfica de
cada uma das amostras foram construídos três mapas de
probabilidade de ocorrência
11
12
2
Grupo 2: Probabilidades de distribuição das águas com
composição química controlada por efluente domésticos
Grupo 1: Probabilidades de distribuição das águas com
composição química controlada por fertilizantes agrícolas
13
14
Grupo 3: Probabilidades de distribuição das águas com
composição química controlada pelo intemperismo
 Esses resultados
mostram a aplicação da
análise discriminante em dados multivariados
georreferenciados, porém, são apresentados
três mapas em separados, quando o ideal seria
os resultados num único mapa.
 Para
tanto: aplicação da Classificação
Regionalizada.
15
16
A
definição inicial dos agrupamentos,
denominado natural, foi feita baseada na
análise de correspondências, sendo os grupos
interpretados em termos de processos e/ou
fontes controladores.
 Num
segundo momento foi feita uma
classificação baseada na análise de
agrupamentos, com o método de Ward como
critério de aglomeração.
 Ambos
17
os resultados foram submetidos a uma
análise discriminante multigrupos que
forneceu a probabilidade de cada amostra
pertencer a um dos três grupos considerados
18
3
diferentes metodologias para
separar os grupos espera-se que as amostras
que forem mantidas nos mesmos grupos,
independentemente do método, estejam
realmente bem classificadas dentro de um
certo espaço geográfico.

Como os dados são geo-referenciados o produto de ambas as
Classificações Regionalizadas originam arranjos reticulares
regulares com o auxilio de algoritmos estimadores como a
krigagem.

Nos nós desses retículos estarão distribuídos espacialmente
as amostras identificadas pelos agrupamentos encontrados.

Desse modo pela comparação entre ambos os retículos
encontrados faz-se uma análise dos nós.

Havendo coincidência de identificação as amostras
permanecem no grupo em questão.

Caso contrario passam a pertencer a um grupo hibrido, ou de
20
transição entre grupos bem caracterizados.
 Escolhendo duas
 Aquelas,
porem, que mudarem de grupo,
conforme o método aplicado, são consideradas
como pertencentes a regiões hibridas.
19
Análise de Agrupamentos, otimizada pela Análise
Discriminante, apresentou uma distribuição alternativa
dessas mesmas amostras, também em três grupos.
Análise de Correspondências, otimizada pela Análise Discriminante,
revelou tres agrupamentos naturais com geoquimismo controlado
por: intemperismo; efluentes domésticos e fertilizantes.
21

Empregando a análise dos nós dos retículos, ou seja,
combinando essas duas figuras anteriores obteve-se o
resultado final.

O recadastramento dos nós foram obtidos da seguinte
maneira:
1) quando os nós da Classificação Regionalizada/primeiro
modo apresentaram os mesmos valores (1, 2 e 3, indicando
os grupos 1/A, 2/C e 3/B) que os da Classificação
Regionalizada/segundo modo esses valores foram mantidos;
2) quando o valor 3 não coincidia, recebia o valor 4 e passou
a ser interpretado como mistura entre fertilizante e outras
influências;
3) em todos os outros casos o valor passou a 0 e
interpretado como mistura de intemperismo e efluentes
domésticos.



23
22
A
B
C
Total
w%-Poluição
w%-Agricultura
1
88
0
36
124
29.0
35.6
2
1
7
5
13
74.2
36.1
63.3
64.4
3
12
5
6
23
Total
101
12
47
160
w%-Poluição
30.5
78.4
40.8
w%-Agricultura
37.5
56.7
38.7
24
4
Análise estatística multivariada com enfoque espacial
Resultado da análise dos nós do reticulado, pela
Classificação Regionalizada
A planilha de dados contem valores de 8 variáveis agrícolas (densidade por
milha quadrada) obtidas em 73 Municípios de Porto Rico
•Número de fazendas (DFRM).
•“cuerdas” (1 milha quadrada = 658,94 cuuerdas) de terras ocupadas por
fazendas, apresentadas em unidades de 10 (DCD).
•Quartos de galão de leite vendido, apresentados em unidades de 4.000
quartos de galão (DMLK).
•Toneladas de cana de açúcar colhidas, aparesentadas em unidades de 200
toneladas (DSGR).
•Libras de café colhidas (DCF)
•Libras de tabaco colhidas, apresentadas em unidades de 200 libras (DTB)
•Centenas de bananas colhidas, apresentadas em unidades de 1.000 (DBN).
•Famílias vivendo em fazendas (DFAM).
25
Alem disso são fornecidas as seguintes informações:
•Nomes dos Municípios
•Classificação administrativa: ADM 1 (Região de San Juan); ADM 2 (Região
de Arecibo); ADM 3 (Região de Mayaguez); ADM 4 (Região de Ponce);
ADM 5 (Região de Caguas).
•Classificação geomorflógica (LND): 0 (Município localizado em terras
baixas, litorâneas); 1 (Município localizado em terras altas, no interior).
•Classificação urbana (RU): 0 (Município com população <=50% urbana); 1
(Município com população > 50% urbana)
•Área do Município
•Coordenadas u (=X) e v (=Y) da sede do Município.
• U.S. Census of Agriculture and Commonwealth of Puerto Rico (1974-75), Facts
and Figures on Puerto Rico's Agriculture (Daniel A. Griffith & Carl G. Amrhein
(1997): Multivariate Statistical Analysis for Geographers – Prentice Hall)
30
5
Adotada a classificação administrativa: ADM 1 (Região de San Juan);
ADM 2 (Região de Arecibo); ADM 3 (Região de Mayaguez); ADM 4
(Região de Ponce); ADM 5 (Região de Caguas) foi efetuada uma Análise
discriminante entre os 5 grupos considerados.
31
32
San Juan, Caguas e Arecibo são considerados como
grupos não discriminados. Mayaguez e Ponce são
grupos discriminados
33
Mayagues e Ponce produzem mais cana e mais café;
produzem menos leite e tabaco
34
Análise de Correspondências Múltiplas para
verificar as associações entre as regiões e a
geomorfologia e as zonas urbanas
35
36
6
37
Associações entre San Juan e zonas urbanas; Mayaguez e
zonas rurais; Arecibo e terras litorâneas e Caguas e regiões
altas do interior
38
Pela Análise discriminante San Juan, Caguas e Arecibo foram
consideradas um único grupo (SCA).
Nova análise discriminante entre os 3 grupos
39
40
Mayaguez e Ponce produzem mais cana e mais café e
menos tabaco
41
Na nova Análise de Correspondências, SCA esta associada à
terras baixas e zona urbana
42
7
Calvin e Haroldo
Teria o Calvin razão?
Os métodos multivariados são um milagre?
Ao aplica-los a uma matriz de dados surge
um resultado.
Os fenômenos naturais não podem ser explicados por crenças.
Por magia?
A Matemática não é uma crença.
A Matemática pode ser usada para explicar os fenômenos
naturais.
43
44
45
46
47
48
Dados granulométricos
provenientes de sedimentos de
fundo da região de Baratara
Bay/Delta do Mississipi,
Lousiana/EUA (Krumbein &
Aberdeen, 1937).
1.
2.
3.
4.
5.
arenitos praiais
arenitos siltosos de canais
arenitos siltosos de margem de canais
siltitos orgânicos basais
lamitos orgânicos
AM: areia média
AF: areia fina
AMF: areia muito fina
SG: silte grosso
SM: silte médio
SF: silte fino
SMF: silte muito fino
8
49
50
Os dados são do trabalho clássico de “Fisher, M. (1936).
The Use of Multiple Measurements in Taxonomic
Problems. Annals of Eugenics, 7:179 -188”. e
correspondem à 150 flores de Iris. Foram medidas quatro
variáveis ​(comprimento da sépala, largura da sépala,
comprimento da pétala, largura da pétala) em tres
espécies Setosa, Versicolor e Virginica.
1) Aplicar a análise de agrupamentos e a análise de
componentes principais considerando todas as tres
espécies como um único grupo e verificar se ocorre
separação, ou não, entre as tres espécies tendo como
base as variáveis medidas.
2) Aplicar análise discriminante para verificar se ocorrem
51
tres grupos discriminados segundo Fisher
52
Exercício 5: análise multivariada
53
9