Slides

Transcrição

Slides
III – Variáveis Estatísticas
Unidimensionais
3. Medidas de Concentração
Tratamento de Dados
2º Semestre 2005/2006
Curva de Lorenz
Abcissas = pi
= frequências relativas
acumuladas do atributo
0.9
0.8
0.7
0.6
qi
0 ≤ pi ≤ 1
1
0.5
0.4
Ordenadas = qi
= valores relativos
acumulados do atributo
0.3
0.2
0.1
0
0
0.4
0.6
pi
0 ≤ qi ≤ 1
Tratamento de Dados
0.2
2º Semestre 2005/2006
0.8
1
Quadro III.1 - Distribuição dos salários mensais
dos trabalhadores da empresa A (euros)
Classes
xj
nj
nj x j
pi
qi
450-750
750-1,050
1,050-1,350
1,350-1,650
1,650-2,150
2,150-2,650
2,650-3,950
3,950-6,050
(8 classes)
600
900
1,200
1,500
1,900
2,400
3,300
5,000
120
100
70
30
20
10
6
3
359
72,000
90,000
84,000
45,000
38,000
24,000
19,800
15,000
387,800
0.334
0.613
0.808
0.891
0.947
0.975
0.992
1.000
-
0.186
0.418
0.634
0.750
0.848
0.910
0.961
1.000
-
∑=
xj: ponto médio da classe. nj: no de valores pertencentes à classe
Tratamento de Dados
2º Semestre 2005/2006
Freq. relativas
acumuladas
i
pi =
∑n
j =1
j
N
Val. relativos
acumulados
i
qi =
∑n
j =1
j
xj
j
xj
k
∑n
j =1
Curva de Lorenz
100%
90%
% Total de Salários (q i)
80%
70%
60%
50%
40%
30%
20%
10%
0%
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
% Trabalhadores (pi)
Tratamento de Dados
2º Semestre 2005/2006
Relação entre pi e qi
Quando a variável de interesse x é positiva tem-se:
pi ≥ qi
(Freq. rel. acum. ≥ Val rel. acum.)
Dem.
m
Temos N = ∑ n j
j =1
e
i
m
⎡
⎤
1
1
x = ∑ n j x j = ⎢∑ n j x j + ∑ n j x j ⎥
N j =1
N ⎣ j =1
j =i +1
⎦
m
Tratamento de Dados
2º Semestre 2005/2006
Relação entre pi e qi (cont. 1)
pi < qi
Se por hipótese fosse
então
i
[1]
∑n
j =1
N
i
j
<
∑n
j =1
∑n
xj
=
m
j =1
Tratamento de Dados
j
m
j
∑n
j =1
xj
2º Semestre 2005/2006
j
m
∑n
xj −
j = i +1
m
∑n
j =1
j
xj
j
xj
Relação entre pi e qi (cont. 2)
i
[2]
⇒
∑n
j =1
N
m
∑n
j
j =i +1
< 1−
∑n
xj
= 1−
m
j =1
Como
j
m
j
xj
0 < x1 < x 2 < ... < x k
então
m
[3]
Tratamento de Dados
∑n
j =i +1
m
j
xj > x ∑nj
j =i +1
2º Semestre 2005/2006
∑n
j =i +1
j
Nx
xj
Relação entre pi e qi (cont. 3)
m
m
∑n
j =i +1
m
j
xj > x ∑nj ⇒
∑n
j =i +1
j
Nx
j =i +1
m
xj
>
∑n
j =i +1
j
N
De [2] temos
i
pi < qi ⇒
Tratamento de Dados
∑n
j =1
N
m
j
< 1−
∑n x
j =i +1
j
Nx
2º Semestre 2005/2006
m
j
< 1−
∑n
j = i +1
N
j
Relação entre pi e qi (cont. 4)
Mas a expressão
i
∑n
j =1
é absurda porque
m
i
∑n
N
j
N
m
j
+
∑n
j = i +1
e portanto não pode ser pi< qi
Tratamento de Dados
j = i +1
< 1−
N
j =1
∑n
j
2º Semestre 2005/2006
N
j
=1
c.q.d.
Índice de Gini
m −1
G =
∑ (p
j =1
− qi )
i
m −1
∑
j =1
=
pi
m −1
=1−
∑
j =1
m −1
∑
j =1
pi-qi
qi
qi
pi
Tratamento de Dados
qi
2º Semestre 2005/2006
pi
Valores do índice de Gini
0 ≤ G
≤ 1
m−1
pi= qi
⇒
G = 1−
∑q
j =1
m−1
i
= 1−1 = 0
∑p
j =1
Concentração
mínima
i
m−1
m −1
∑ qi = 0
j =1
⇒
G = 1−
∑q
j =1
m−1
∑p
j =1
Tratamento de Dados
i
2º Semestre 2005/2006
i
= 1− 0 = 1
Concentração
máxima
Valores do índice de Gini (cont.)
Se os somatórios fossem de j=1, ...,m
então no caso de máxima concentração
m
∑q
i
j =1
m
∑p
j =1
i
=1
=1
Tratamento de Dados
⇒
1
G = 1−
≠ 1
1
2º Semestre 2005/2006
Exemplo Slide 3
Classes
xj
450-750
750-1050
1050-1350
1350-1650
1650-2150
2150-2650
2650-3950
3950-6050
600
900
1,200
1,500
1,900
2,400
3,300
5,000
Sum
nj
xj*nj
120
100
70
30
20
10
6
3
359
Acum. nj Acum. xj*nj
72,000
90,000
84,000
45,000
38,000
24,000
19,800
15,000
387,800
120
220
290
320
340
350
356
359
72,000
162,000
246,000
291,000
329,000
353,000
372,800
387,800
sum 1...m-1
0.852
4.71
G=
= 1−
= 0.153
5.56
5.56
Tratamento de Dados
2º Semestre 2005/2006
pi
0.0%
33.4%
61.3%
80.8%
89.1%
94.7%
97.5%
99.2%
100.0%
5.56
Gini
qi
0.0%
18.6%
41.8%
63.4%
75.0%
84.8%
91.0%
96.1%
100.0%
4.71
0.153
pi - qi
0.149
0.195
0.173
0.141
0.099
0.065
0.030
0.852
0.153
Ex.: Pop. com Distribuição Uniforme
Classes
xj
0-100
100-200
200-300
300-400
400-500
500-600
600-700
700-800
800-900
900-1000
nj
50
150
250
350
450
550
650
750
850
950
Sum
xj*nj
Acum. nj Acum. xj*nj
200
10,000
200
30,000
200
50,000
200
70,000
200
90,000
200 110,000
200 130,000
200 150,000
200 170,000
200 190,000
2,000 1,000,000
200
400
600
800
1,000
1,200
1,400
1,600
1,800
2,000
10,000
40,000
90,000
160,000
250,000
360,000
490,000
640,000
810,000
1,000,000
sum 1...m-1
pi
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
4.50
qi
0.0%
1.0%
4.0%
9.0%
16.0%
25.0%
36.0%
49.0%
64.0%
81.0%
100.0%
Gini
Tratamento de Dados
2º Semestre 2005/2006
pi - qi
0.090
0.160
0.210
0.240
0.250
0.240
0.210
0.160
0.090
1.650
0.367
Distribuição Uniforme (cont)
100%
90%
% Total de Salários (q i)
80%
250
200
150
70%
60%
50%
40%
30%
20%
100
10%
50
0%
0%
0
0-100
100200
200300
300400
Tratamento de Dados
400500
500600
600700
700800
800900
9001000
2º Semestre 2005/2006
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
% Trabalhadores (p i)
Ex.: Pop. com Distribuição Normal
Normal (500, Desv Pad)
Classes
xj
nj
0-100
100-200
200-300
300-400
400-500
500-600
600-700
700-800
800-900
900-1000
50
150
250
350
450
550
650
750
850
950
Sum
Media
xj*nj
500 Desv Pad
Acum. nj Acum. xj*nj
7.66
383
37.84
5,676
136.92
34,231
322.56 112,897
495.01 222,757
495.01 272,258
322.56 209,666
136.92 102,692
37.84
32,164
7.66
7,278
2,000 1,000,000
8
46
182
505
1,000
1,495
1,818
1,954
1,992
2,000
383
6,059
40,290
153,186
375,943
648,201
857,867
960,559
992,722
1,000,000
sum 1...m-1
150
pi
0.0%
0.4%
2.3%
9.1%
25.2%
50.0%
74.8%
90.9%
97.7%
99.6%
100.0%
4.50
qi
0.0%
0.0%
0.6%
4.0%
15.3%
37.6%
64.8%
85.8%
96.1%
99.3%
100.0%
Gini
Tratamento de Dados
2º Semestre 2005/2006
pi - qi
0.003
0.017
0.051
0.099
0.124
0.099
0.051
0.017
0.003
0.465
0.103
Distribuição Normal (cont)
100%
90%
% Total de Salários (q i)
80%
600
500
400
70%
60%
50%
40%
30%
300
20%
200
10%
100
0%
0%
0
0-100
100200
200300
300400
Tratamento de Dados
400500
500600
600700
700800
800900
9001000
2º Semestre 2005/2006
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
% Trabalhadores (p i)
Ex.: Pop. com Distribuição LogNormal
LogNormal (miu, sigma)
Classes
xj
nj
0-100
100-200
200-300
300-400
400-500
500-600
600-700
700-800
800-900
900-1000
50
150
250
350
450
550
650
750
850
950
Sum
0.00
3.67
116.51
431.59
566.44
432.41
245.40
117.71
51.24
35.03
2,000
miu
Media
xj*nj
6.17 sigma
500.2 Desv Pad
Acum. nj Acum. xj*nj
0
550
29,126
151,058
254,898
237,823
159,511
88,284
43,558
33,281
998,088
0
4
120
552
1,118
1,551
1,796
1,914
1,965
2,000
0
550
29,676
180,734
435,632
673,455
832,965
921,250
964,807
998,088
sum 1...m-1
0.3
153.5
pi
0.0%
0.0%
0.2%
6.0%
27.6%
55.9%
77.5%
89.8%
95.7%
98.2%
100.0%
4.51
qi
0.0%
0.0%
0.1%
3.0%
18.1%
43.6%
67.5%
83.5%
92.3%
96.7%
100.0%
Gini
Tratamento de Dados
2º Semestre 2005/2006
pi - qi
0.000
0.001
0.030
0.095
0.123
0.101
0.063
0.034
0.016
0.463
0.103
Distribuição LogNormal (cont)
100%
90%
% Total de Salários (q i)
80%
600
500
400
300
70%
60%
50%
40%
30%
20%
200
10%
100
0%
0%
0
0-100
100200
200300
300400
Tratamento de Dados
400500
500600
600700
700800
800900
9001000
2º Semestre 2005/2006
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
% Trabalhadores (pi)

Documentos relacionados