treinamento sistema - sas

Transcrição

treinamento sistema - sas
MINISTÉRIO DE EDUCAÇÃO E DESPORTOS
UNIVERSIDADE FEDERAL DE SANTA MARIA
CENTRO DE CIÊNCIAS NATURAIS E EXATAS
DEPARTAMENTO DE ESTATÍSTICA
LABORATÓRIO - S.A.S.
TREINAMENTO SISTEMA - S.A.S.
Prof. Dr. Luis Felipe Lopes
SANTA MARIA – RS
2006
SUMÁRIO
1 INTRODUÇÃO
1
2 LIMITAÇÕES
1
3 O QUE É O SISTEMA SAS?
3.1 O SAS/BASE
3.2 Tópicos gerais
1
2
3
4 ARQUIVOS SAS
3
5 COMANDOS DE PROGRAMAÇÃO
5.1 Comandos de controle de arquivos
5.2 Comandos que lêem e gravam arquivos de dados
5.3 Comandos que lêem e gravam arquivos SAS
5.4 Comandos que atuam sobre valores de dados
5.5 Comandos de informação
5.6 Comandos que controlam o fluxo lógico de programação
3
4
6
10
13
15
17
6 PRINCIPAIS “PROCEDURES” – PROCs
6.1 PROC SORT
6.2 PROC PRINT
6.3 PROC FORMAT
6.4 PROC FREQ
6.5 PROC MEANS
20
20
21
22
23
24
7 ESTATÍSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE
7.1 Introdução
7.2 Testes de Normalidade (PROC UNIVARIATE)
27
27
27
8 ANÁLISE DE CORRELAÇÃO E REGRESSÃO
8.1 Introdução
8.2 Correlação de Pearson (PROC CORR)
8.3 Regressão (PROC REG)
8.4 Inferência na regressão
8.5 Resíduos
32
32
33
39
41
41
9 INFERÊNCIA ESTATÍSTICA
9.1 Testes para igualdade de duas medias (PROC TTEST)
9.2 Teste para dados pareados
55
54
59
10 MÉTODOS NÃO PARAMÉTRICOS
10.1 Testes para igualdade de duas medias (PROC NPAR1WAY)
64
64
Treinamento Sistema – SAS
i
Prof. Luis Felipe Lopes
11 ANÁLISE DE VARIÂNCIA
11.1 Dados balanceados (PROC ANOVA)
11.1.1 Experimento Completamente Casualizado
11.1.2 Experimento com Blocos Aleatorizados
11.1.3 Experimento com Quadrado Latino
68
68
73
75
77
12 EXERCÍCIOS RESOLVIDOS E COMENTADOS
79
13 EXEMPLO PRÁTICO
13.1 Banco de dados
13.2 Análise dos dados
127
127
128
REFERÊNCIAS BIBLIOGRÁFICAS
139
ANEXOS
140
ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis
141
Treinamento Sistema – SAS
ii
Prof. Luis Felipe Lopes
TREINAMENTO SISTEMA - S.A.S. – Statistical Analisys System
1 INTRODUÇÃO
O Objetivo deste Curso é ajudar o usuário a conhecer os comandos
básicos do Sistema SAS de modo que possa obter as respostas a
problemas práticos de uma maneira rápida e objetiva.
2 LIMITAÇÕES
Este curso é apenas uma introdução ao SAS, contendo uma pequena
fração de informação que você encontrará no SAS USER’S GUIDE: BASIC e SAS
USER’S GUIDE STATISTICS.
3 O QUE É O SISTEMA SAS ?
É um sistema de aplicação integrada, que consiste em vários produtos
que tem por função: acesso, gerenciamento, análise estatística e apresentação de
dados, somada a uma linguagem poderosa de programação e geração de
relatórios.
Acesso
Gerenciamento
DADOS
Apresentação
Análise
Acesso aos dados - o sistema SAS possui ferramentas para acessar os
bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS.
Gerenciamento de dados - com o SAS é possível editar, selecionar,
ordenar, concatenar e margear os arquivos.
Treinamento Sistema – SAS
1
Prof. Luis Felipe Lopes
Análise de dados - o SAS possui rotinas estatísticas para análises de
regressão, análise de variância, de componentes principais, discriminante,
modelos lineares, análise fatorial, previsões, controle de qualidade, cálculos
matriciais, etc. .
Apresentação de informações - a geração de relatórios é fácil e flexível.
Eles podem ser listados, tabulados e gráficos.
O SAS por ser um sistema integrado, ele é composto por módulos para
comercialização.
Principais módulos:
SAS/BASE → contém uma linguagem de Quarta geração, com
procedimentos para estatística básica e gráficos de baixa resolução.
SAS/STAT → este módulo é composto de procedimentos para estatística
avançada, como análise de variância, análise de regressão, multivariada, fatorial,
discriminante, outras.
SAS/GRAPH → gera gráficos de alta resolução: barras verticais ou
horizontais, setoriais, cartesianos, mapas e superfícies tridimensionais.
SAS/ETS → ferramenta de previsão e análise de séries temporais.
SAS/OR → Procedimentos para Pesquisa Operacional, programação
linear, gerenciamento de projetos e apoio à tomada de decisões.
SAS/IML → linguagem para operação com matrizes.
SAS/QC → ferramenta para controle estatístico de qualidade e
delineamentos experimentais.
Existem outros módulos, mas que não são de interesse para a estatística.
3.1 O SAS/BASE
É o instrumento principal do Sistema SAS. Ele permite ao usuários:
- Criar, montar e acessar qualquer tipo de dado;
- Produzir relatórios e gráficos simples;
- Atualizar estatisticamente os dados;
- Utilizar a linguagem de programação SAS.
Treinamento Sistema – SAS
2
Prof. Luis Felipe Lopes
3.2 Tópicos gerais
- Todo os comandos do SAS terminam em (;).
- Os comandos iniciam e terminam em qualquer posição.
- Vários comandos poderá estar numa mesma linha.
- Um comando poderá ser escrito em várias linhas.
- Palavras serão separadas por um mais espaços.
- O comando INPUT é obrigatório não interessando onde os dados estão
armazenados.
- Arquivos SAS são armazenados em tabelas retangulares.
- Referenciam-se arquivos e variáveis pelos nomes.
- Nomes de arquivos ou variáveis poderá ter no máximo 8 caracteres,
iniciando obrigatoriamente por letras (A-Z), podendo ter associado número e/ou
caracteres especiais com ( - ‘quebra’).
4 ARQUIVO SAS
Um arquivo SAS é uma coleção de valores de dados arrumados em uma
tabela retangular.
Ex.:
Variáveis
→
OBSERVAÇÕES
.
.
CULTURA
ALTURA1
ALTURA2
arroz
feijão
soja
0.35
0.25
0.15
0.39
0.30
0.17
• As colunas da tabela são chamadas de VARIÁVEIS
- Variáveis corresponde a campos de dados.
- Cada variável tem um nome.
- Há três tipos de variáveis: caracter, numérica e data.
• As linhas são chamadas de OBSERVAÇÕES
- Não há limite para o número de observações.
5 COMANDOS DE PROGRAMAÇÃO
Os seguintes comandos são básicos para a programação em SAS:
- Comandos de controle de arquivos.
- DATA
- CARDS
Treinamento Sistema – SAS
- INFILE
- FILE
3
Prof. Luis Felipe Lopes
- Comandos que lêem e gravam arquivos de dados.
- INPUT
- PUT
- LIST
- Comandos que lêem e gravam arquivos SAS.
- SET
- MERGE
- UPDATE
- OUTPUT
- Comandos que atuam sobre valores de dados.
- FUNÇÕES e EXPRESSÕES
- Comandos de informação.
- DROP
- RENAME
- LABEL
- FORMAT
- TITLE
- Comandos que controlam o fluxo lógico de programação.
- IF (THEN / ELSE)
- DELETE
5.1 Comando de controle de arquivos
- DATA
O primeiro comando em um programa SAS, geralmente é um DATA. O
comando DATA diz ao SAS que se quer criar um arquivo SAS.
Você poderá escolher qualquer nome para esse arquivo, desde que tenha
até 8 caracteres ou menos e comece por uma letra (A-Z).
Ex.:
DATA TESTE;
INPUT . . .
.
.
Treinamento Sistema – SAS
4
Prof. Luis Felipe Lopes
• A palavra TESTE é o nome do arquivo SAS.
• Se o nome for omitido pelo usuário, o SAS se encarrega de nomeá-lo.
Dando o nome de DATAn (n → número de DATAS criados).
• O comando DATA pode aparecer em outros lugares dentro do arquivo
SAS quando se quer fazer referências a outros arquivos.
- CARDS
É um comando dado logo após o comando DATA. O comando CARDS
indica ao SAS que os registros de dados seguem imediatamente abaixo no texto
até o ponto e virgula ‘; ‘ do último dado.
Ex.:
DATA A1;
INPUT IDADE 1–2 ALTURA 5-8 1 PESO 10–14 1;
CARDS;
21 180 75.2
18 170 65.3
25 175 80.3
:
:
:
:
:
:
;
- INFILE
Também vem a ser um comando logo após o comando DATA, só que os
valores de dados estão em disco (na forma de arquivo), logo deve-se incluir o
comando INFILE. Ele deve conter um nome com no máximo 8 caracteres e
deverá ser lido com o código ASCII.
Características do INFILE:
• Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados
estão armazenados.
• Os dados estão armazenados em disco no arquivo chamado ARQUIVO.
Ex.:
DATA A1;
INFILE ‘ARQUIVO DADOS’;
INPUT NOME $10. @30 NOTA1 30 – 32 1
NOTA2 33 – 35 1 MEDIA 37 – 39 1;
PROC PRINT;
Treinamento Sistema – SAS
5
Prof. Luis Felipe Lopes
Obs.: Este dois comandos CARDS e INFILE especificam de onde serão lidos
os dados. O INFILE indica que serão lidos de um arquivo externo (banco de
dados – ASCII) e o CARDS indica que os dados estão no programa logo
abaixo deste comando.
5.2 Comandos que lêem e gravam arquivos de dados
- INPUT
A função do comando INPUT é descrever para o sistema SAS como são,
quais os nomes, e em que posição se encontra as VARIÁVEIS no arquivo de
dados.
O comando INPUT geralmente segue o comando DATA.
Ex.:
DATA TESTE;
INPUT
A 1-3
Y
5-6;
Obs.: Lembre-se das regras para nomes (no máximo 8 caracteres).
a) Tipos de INPUT
a.1) INPUT COLUNADO
Especifica onde encontrar os valores pela posição da coluna.
Ex.:
INPUT NOME $ 1–8 SEXO $ 10 IDADE 12-13
ALTURA 15–19 PESO 21–26;
Restrições:
• As posições dos campos são fixas.
• O ‘$’ é usado para indicar variável alfanumérica.
Características do INPUT COLUNADO:
• Os campos (variáveis) podem ser lidos em qualquer ordem.
Ex.:
INPUT SEXO $ 10 IDADE 12–13 NOME $ 1–8
PESO 21–26 ALTURA 15–19;
Treinamento Sistema – SAS
6
Prof. Luis Felipe Lopes
• Campos em brancos são considerados não informados.
(posições 9, 11, 14, 20).
• Caracteres em branco só serão permitidos em variáveis alfanuméricas.
Ex.: ‘JOSE CARLOS’
• Campos ou partes de campos podem ser relidos como uma nova
variável;
Ex.:
INPUT NOME $ 1-8 ININOME $ 1;
• Valores numéricos podem aparecer em qualquer posição do campo,
podendo ser especificado sinais decimais ou ponto decimais.
Ex.:
INPUT PESO $ 1–6;
1
1
2
3
4
5
2
2
C A M P O S
3
4
2
5
2
5
5
5
2
.
6
5
.
.
5
Obs.: 1 - Não se usa ‘ , ’ (virgula) para separar a parte decimal e sim
‘ . ‘ (ponto). Ex.: linhas 2 e 4
2 - Um campo em branco deverá ser representado por um ‘ . ‘
ponto (missing). Ex.: linha 5
a.2) INPUT LISTADO
O SAS procura pelos campos brancos até encontrar um caracter, então lê
o campo até o próximo branco.
Forma geral → INPUT lista de variáveis;
Ex.:
INPUT SEXO $ IDADE NOME $ PESO ALTURA;
Restrições:
• Todo o campo (var.) deve ser especificado em
ordem.
• Campos devem ser separados por brancos.
• Não é permitido campos em branco e sim ‘ . ‘ .
Treinamento Sistema – SAS
7
Prof. Luis Felipe Lopes
Ex.:
04
DATA CLASSE;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
01
02
03
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
C
J
A
P
A
O
N
A
R L O S
M
2 0
1 8 0 . 5
7 8 . 5
S E
M
1 8
1 7 5
7 0 . 8
A
F
1 7
1 6 5 . 6
6 2 . 5
U L A
F
2 1
1 6 8
5 5
a.3) INPUT FORMATADO
Especifica a posição e o tamanho do campo.
Formato de Entrada:
W
W.d
→ Largura do campo numérico
→ Numérica com decimal
Controle de posição:
→ Vai para a coluna ‘n’.
→ Move a posição ‘n’ posições.
@n
+n
01
02
03
04
J
J
A
A
O
O
N
N
S E
S E
L U I S
A
A
P A U L A
Ex.:
05
06
07
08
09
10
11
M
M
F
F
12
13
14
2
1
1
2
0
8
7
1
15
16
17
18
19
1
1
1
1
8
7
6
6
0 .
5
5 .
8
20
5
6
21
22
23
24
7
7
6
5
8 .
0 .
2 .
5
25
5
8
5
INFILE ‘BANCO DADOS’;
INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1
ALTURA 5. +1 PESO 4.;
Características do INPUT FORMATADO:
• Variáveis e formatos de entrada podem ser agrupados separadamente
com parênteses.
Ex.:
INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.);
ou
INPUT (JAN FEV MAR ABR MAI) (3.);
• Variáveis numeradas podem ser usadas para abreviar diversas variáveis
relacionadas.
Treinamento Sistema – SAS
8
Prof. Luis Felipe Lopes
Ex.:
INPUT (MES1 MES2 MES3 MES4 MES5) (3.);
ou
INPUT (MES1-MES5) (3.);
a.4) MISTURANDO TIPOS DE INPUT
Os três tipos de INPUT vistos podem ser combinados (LISTADO,
COLUNADO e FORMATADO) em um único comando INPUT.
Ex.:
DATA CLASSE;
INPUT NOME $ @11 SEXO $ 1. IDADE 13-14
ALTURA 16–19 @21 PESO 5.;
a.5) OUTROS CONTROLADORES DE POSIÇÃO
‘/‘e‘#‘
1
2
3
4
Ex.:
01
02
03
04
J
1
J
1
A
1
A
1
O
8
O
7
N
6
N
6
S
0
S
5
A
5
A
8
E
.
E
.
05
06
5
L
6
P
A
07
08
09
7
U
7
8
I
0
.
S
.
6
U
5
2
L
5
.
A
10
11
13
14
M
12
2
0
M
1
8
F
1
7
F
2
1
15
5
8
5
DATA CLASSE;
INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. /
ALTURA 5. PESO 7-10;
ou
DATA CLASSE;
INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2.
#2 ALTURA 1-5. PESO 7-10;
Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicação ‘#‘
sempre precederá o nome da variável, logo dispensa-se informar
a próxima linha, ou seja, a partir da variável altura as demais
variáveis o SAS entende que pertencem ao segundo cartão do
registro.
2 - Quando estivermos nos referindo a uma data devemos após a
variável colocar sua formatação (DT_NASC DDMMYY8. ).
Treinamento Sistema – SAS
9
Prof. Luis Felipe Lopes
5.3 Comandos que lêem e gravam arquivos SAS
- SET
O comando SET é usado para transferir dados de um arquivo SAS
existente para um novo arquivo SAS.
Todas as variáveis do arquivo SAS são passadas automaticamente para o
novo arquivo SAS (a não ser que sejam direcionadas de outra maneira com
comandos de programação).
• Novas variáveis que se queira criar devem ser adicionadas com
comandos de atribuição.
Ex.:
DATA NOVACLAS;
SET CLASSES;
ANO_NASC=91-IDADE;
PROC PRINT DATA=NOVACLAS;
Obs.: No arquivo criado pelo comando SET possui uma variável nova
ANO_NASC.
• Como criamos uma variável nova ao gerar o arquivo NOVACLAS,
podemos também excluir variáveis, com o comando DROP associado ao
comando SET;
Ex.:
DATA NOVACLAS;
SET CLASSES;
DROP NOME SEXO;
PROC PRINT DATA=NOVACLAS;
• O campo (variável) NOME é através dessa variável referenciada com o
BY que fará a junção dos dois arquivos num só. Obviamente que os
dois arquivos deverão estar em ordem por NOME.
Ex.:
DATA AMBOS;
SET HOMENS MULHERES;
BY NOME;
PROC PRINT;
TITLE ´RESULTADO DA CONCATENACAO´;
Treinamento Sistema – SAS
10
Prof. Luis Felipe Lopes
HOMENS
OBS
1
2
3
4
DEPT
213
917
916
914
NOME
Alvaro
Otto
Ricardo
Vitor
MULHERES
SEXO
m
m
m
m
OBS
1
2
3
DEPT
914
918
917
NOME
Eliane
Lorena
Sonia
SEXO
f
f
f
Resultado da Concatenação (SET)
HOMENS+MULHERES
OBS
1
2
3
4
5
6
7
DEPT
213
914
918
917
916
917
914
NOME
Alvaro
Eliane
Lorena
Otto
Ricardo
Sonia
Vitor
SEXO
m
f
f
m
m
f
m
⇒ Outra observação que se faz necessária para usar este comando com
a finalidade de juntar (concatenando) dois ou mais arquivos, é que a
estrutura dos arquivos sejam idênticas, ou seja, com mesmas variáveis.
Podemos também selecionar observações na criação de um novo
arquivo com o comando IF
- MERGE
O comando MERGE é usado para juntar observações de dois ou mais
arquivos, colocando os mesmos um ao lado do outro.
Algumas considerações:
- Até 50 arquivos pode ser “mergeados” em um procedimento.
- Os arquivos de entrada devem estar ordenados pela variável(eis) chaves
se um comando BY é utilizado.
-
O arquivo resultante (saída) conterá todas as variáveis presentes nos
arquivos de entrada a menos que o comando DROP ou qualquer outro
de seleção tenha sido utilizado.
-
Treinamento Sistema – SAS
11
Prof. Luis Felipe Lopes
Ex.:
DATA JUNTA;
MERGE GERAL SALARIO;
PROC PRINT;
TITLE ´ARQUIVO MERGEADO´;
GERAL
OBS
1
2
3
4
5
DEPT
917
918
917
914
916
SALÁRIO
NOME
Sonia
Alvaro
Otto
Eliane
Lorena
SEXO
f
m
m
f
f
OBS
1
2
3
4
5
NOME
Sonia
Alvaro
Otto
Eliane
Lorena
SAL_LIQ
169.10
223.00
329.05
650.70
380.95
SAL_BRU
279.10
310.05
410.75
715.12
470.30
“MERGEADO”
OBS
1
2
3
4
5
DEPT
917
918
917
914
916
NOME
Sonia
Alvaro
Otto
Eliane
Lorena
SEXO
f
m
m
f
f
SAL_LIQ
169.10
223.00
329.05
650.70
380.95
SAL_BRU
279.10
310.05
410.75
715.12
470.30
Obs.: O comando BY não foi necessário ao “mergear” os arquivos porque
a chave principal NOME nos dois arquivos estão na mesma ordem.
Se não estivessem o comando BY seria necessário, assim como
teríamos que classificar os arquivos através do comando SORT.
- OUTPUT
O comando OUTPUT pode ser usado para:
→ Criar duas ou mais observações para cada linha de entrada.
→ Combinar diversas observações a partir de uma única observação.
→ Criar um arquivo SAS sem nenhum dado de entrada.
Treinamento Sistema – SAS
12
Prof. Luis Felipe Lopes
Ex.: Criando quatro observações SAS de cada linha de entrada
DATA RECEITA;
INPUT ANO
TRIM1
TRIM2
TRIMESTRE=1; VENDAS=TRIM1;
TRIMESTRE=2; VENDAS=TRIM2;
TRIMESTRE=3; VENDAS=TRIM3;
TRIMESTRE=4; VENDAS=TRIM4;
CARDS;
1996 1.2 0.9 1.1 1.5
1997 1.7 1.9 2.4 2.5;
PROC PRINT;
TITLE ´RESULTADO DA EXECUCAO
RUN;
TRIM3
TRIM4;
OUTPUT;
OUTPUT;
OUTPUT;
OUTPUT;
DO ARQUIVO RECEITA´;
SAÍDA
ANO
1996
1996
1996
1996
1997
1997
1997
1997
TRIM1
1.2
1.2
1.2
1.2
1.7
1.7
1.7
1.7
TRIM2
0.9
0.9
0.9
0.9
1.9
1.9
1.9
1.9
TRIM3
1.1
1.1
1.1
1.1
2.4
2.4
2.4
2.4
TRIM4
1.5
1.5
1.5
1.5
2.5
2.5
2.5
2.5
TRIMESTRE
1
2
3
4
1
2
3
4
VENDAS
1.2
0.9
1.1
1.5
1.7
1.9
2.4
2.5
5.4 Comandos que atuam sobre valores de dados
- Criando variáveis
Quando se cria nova variável, se está adicionando um novo grupo de
valores de dados ao arquivo.
Por exemplo, supondo que temos um arquivo com as seguintes variáveis:
ALUNO NOTA1 NOTA2 NOTA3
se quisermos criar uma nova variável chamada MEDIA devemos:
MEDIA = (NOTA1 + NOTA2 + NOTA3)/3;
Este comando informa para o SAS:
• O sinal ‘ = ‘ significa atribua ao valor da esquerda o que se refere à esquerda.
• Para cada observação (linha) do arquivo, some as três notas (variáveis)
e divida por 3;
13
Treinamento Sistema – SAS
Prof. Luis Felipe Lopes
• De o nome ao resultado obtido de MEDIA (nova variável).
Obs.: As demais variáveis continuam disponíveis para posteriores
cálculos.
- Funções e expressões
Operações aritméticas mais conhecidas:
SÍMBOLO
]]
]
/
+
-
OPERAÇÃO
exponenciação
multiplicação
divisão
adição
subtração
EXEMPLO
Y = X2
A=BxC
A=H/I
R=S+T
X=Z-W
NO SAS
Y = X ** 2
A=B*C
A=H/I
R=S+T
X=Z-W
Outras funções numéricas:
FUNÇÃO
ABS
SQRT
COS
SIN
ARCOS
LOG
LOG10
SUM
MEAN
VAR
MIN
MAX
STD
ROUD
Ex.:
O que faz
Valor absoluto
Raiz quadrada
Cosseno
Seno
Arcosseno
Logaritmo neperiano (base e)
Logaritmo base 10
Soma
Média aritmética
Variância
Valor mínimo
Valor máximo
Desvio padrão
Valor arredondado
X = 326.25;
Y = ROUND (X); RESULTADO ⇒ Y = 327
(não está nas normas brasileiras)
Z = MIN (Y);
Z = MIN (of L – Y);
W = SQRT (A + B/C);
K = MEAN (IDADE);
K = MEAN (of V1 – V7);
SOMA= SUM (of V1 – V10);
5.5 Comandos de Informação
Treinamento Sistema – SAS
14
Prof. Luis Felipe Lopes
- DROP
O comando DROP exclui a variável ou variáveis indicadas, da análise em
questão;
O comando DROP é válido no DATA e nas PROCs. Não é um comando
executável, fornece a informação ao SAS quando o comando é compilado.
O comando DROP poderá ser escrito em qualquer posição.
Ex.: DROP IDADE SEXO;
⇒ O comando DROP retira a variável, portanto, todos os valores de
IDADE e SEXO são desconsiderados (coluna).
- TITLE
O comando TITLE define cabeçalhos a serem impressos no topo das
páginas de saída. Até dez títulos poderão ser especificados.
Forma Geral → TITLEn ´t i t u
l o´;
n = número da linhas do título.
Ex.: TITLE1 ´
Levantamento Sócio-econômico;
TITLE2 ´
da´;
TITLE3 ´Populacao Periferica de Santa Maria´;
- FOOTNOTE
Define o texto a ser impresso no rodapé das páginas de saída. A sintaxe é
a mesma do comando TITLE.
Ex.: FOOTNOTE ´Departamento de Estatística - UFSM´;
- LABEL
O comando LABEL é usado para atribuir rótulos (nomes) descritivos de
até 40 caracteres.
Rótulos podem ser atribuídos temporariamente para a duração de apenas
um processamento, ou permanente definido no primeiro DATA.
Treinamento Sistema – SAS
15
Prof. Luis Felipe Lopes
Ex1.:
DATA CLASSES;
INPUT NOME $ 8. SEXO $ 11 IDADE 13-14
ALT 13-19 PESO 21-25;
CARDS;
Linha de Dados;
PROC MEANS;
VAR ALT PESO;
LABEL ALT=’ALTURA EM POLEGADAS’
PESO=’PESO EM LIBRAS’;
TITLE ‘ESTATISTICAS DAS ALTURAS E DOS PESOS’;
RUN;
Ex2.:
DATA CLASSES;
INPUT V1 – V3;
LABEL V1=’NÚMERO DE ALUNOS’
V2=’CURSO’
V3=’SEXO’;
CARDS;
- COMMENT
O comando COMMENT serve para documentar. Pode ser usado em
qualquer parte do programa.
Início (/*)
Fim (*/)
Ex.: DATA EMPREGO;
INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29;
/* CALCULO DO INSS */
INPS = SAL * .12;
IF DEPTO=201 THEN
DO;
DEPTO=´VENDA´;
COM=VENDA*.10;
/* CALCULO DO SALARIO BRUTO*/
SAL_BRUTO=COM+SAL;
/* CALCULO DO DESCONTO */
DESC=INPS + SEG;
/* CALCULO DO SALARIO LIQUIDO */
SAL_LIQ=SAL_BRUTO - DESC;
END;
CARDS;
Obs.: Este comando também poderá cancelar uma determinada operação
temporariamente;
Treinamento Sistema – SAS
16
Prof. Luis Felipe Lopes
- FORMAT
O comando FORMAT é usado para especificar os formatos para valores
dos dados.
Os formatos podem ser definidos apenas para a apuração de uma
“procedure – PROC”.
Ex.: DATA CLASSE;
INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO;
CARDS;
...
...
;
PROC FORMAT;
VALUE SEX 1 = ‘MASCULINO’;
2 = ‘FEMININO’;
PROC PRINT;
FORMAT SEXO SEX.;
TITLE ’USANDO O COMANDO FORMAT’;
RUN;
5.6 Comandos que controlam o fluxo lógico de programação
- IF (THEN / ELSE)
Algumas vezes necessita-se trabalhar com parte dos dados, não todos.
Por exemplo suponhamos que se queira analisar somente o sexo masculino. O
comando IF pode ser usado para esta seleção.
Ex.: DATA A1;
INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO;
IF SEXO=M;
CARDS;
Linha de Dados;
O SAS lê cada observação e verifica se o SEXO é “M” (masculino), caso
contrário nova observação será lida.
⇒ A condição IF poderá ser Verdadeira (THEN) ou Falsa (ELSE).
⇒ A condição IF também pode ser uma simples comparação de uma
variável ou valor.
Treinamento Sistema – SAS
17
Prof. Luis Felipe Lopes
Ex.: IF ALTURA < 172 THEN DELETE;
IF PRETEST < TESTE
ELSE RESULT=´NÃO´;
THEN RESULT=´SIM´;
Principais operadores de comparação:
Símbolo
<
≤
>
≥
=
≠
Abreviatura
LT
LE
GT
GE
EQ
NE
Comparação
Menor que
Menor que ou igual a
Maior que
Maior que ou igual a
Igual
Diferente
Principais operadores lógicos:
Símbolo
OR
AND
NOT
Comparação
Um ou outro
E, ambos
Não, negação
⇒ A condição IF pode envolver comparações de ANDs e de ORs.
Ex.: IF ESTADO=´RS´ AND CIDADE=´SANTA_MARIA’
THEN REGIAO=´SUL´;
IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50
THEN LIST;
IF RESULT=68 THEN RESP=´CERTO´;
ELSE RESP=´ERRADO´;
• Usando o comando IF com melhor aproveitamento:
IF CODIGO=1 THEN RESPOSTA=´BOM´;
ELSE
IF CODIGO=2 THEN RESPOSTA=´REGULAR´;
ELSE
IF CODIGO=3 THEN RESPOSTA=´RUIM´;
• Uso do comando DO e END associado ao comando IF:
Treinamento Sistema – SAS
18
Prof. Luis Felipe Lopes
O comando DO especifica que todos os comandos entre ele e o comando
END devem ser executados;
Ex.:
DATA EMPREGO;
INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23
VENDA 25-29;
INPS = SAL * .12;
IF DEPTO=201 THEN
DO;
DEPTO=´VENDA´;
COM=VENDA*.10;
SAL_BRUTO=COM+SAL;
SEG=SAL_BRUTO*.001;
DESC=INPS + SEG;
SAL_LIQ=SAL_BRUTO - DESC;
END;
ELSE DO;
DPTO=´ADMIN´;
SAL_LIQ=SAL - INPS;
CARDS;
Linha de Dados;
- DELETE
Quando se quer descartar uma observação., por ela conter um valor não
válido para a análise que se esta tratando usa-se o comando DELETE;
Quando este comando é carregado o SAS para de trabalhar na
observação corrente, não adicionando ao arquivo SAS que esta sendo criado, e
começa imediatamente na observação seguinte.
O comando DELETE normalmente aparece com parte de um comando IF.
Ex.: IF SEXO=´F´ THEN DELETE;
IF
SEXO=´F´ THEN IDADE LE 14 THEN DELETE;
⇒ O comando DELETE retira toda a observação do arquivo, logo
aconselha-se colocá-lo dentro de uma rotina “DATA SET”;
Ex.: DATA A1; SET A;
Treinamento Sistema – SAS
19
Prof. Luis Felipe Lopes
6 PRINCIPAIS “PROCEDURES” - PROCs
6.1 PROC SORT
Função: Quando se precisa ordenar os dados.
A ordem das observações não importa muito para o processamento
estatístico, por exemplo para calcular a média da ALTURA dos alunos por SEXO,
a ordem como estão as observações não importa. Porém necessita-se LISTAR as
observações por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por
SET, as observações terão que estar ordenadas (SORT). Por exemplo se
quisermos combinar as informações do estudo de ALTURA e PESO deste ano
com as dos anos anteriores ambos os arquivos deverão ser ordenados.
• A ordenação é a arrumação das observações de um arquivo em ordem
determinada pelos valores de uma ou mais variáveis indicados no
comando BY (POR).
• Para ordenar-se um arquivo usa-se a “procedure” PROC SORT seguida
do comando BY que indicará a variável pela qual o arquivo será
ordenado.
Ex.:
PROC SORT DATA=TESTE;
BY NOME;
Suponha que temos um arquivo chamado PESQUISA e que queremos
ordená-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente
por NOME de cada cidade.
Ex.:
PROC SORT; BY PESQUISA;
BY ESTADO CIDADE NOME;
Obs.: A ordenação vista até aqui foi feita em cima do próprio arquivo
(PESQUISA). Se não desejar que isso aconteça use o comando
OUT.
Ex.:
PROC SORT; BY PESQUISA;
OUT = NOVO;
BY ESTADO CIDADE NOME;
Treinamento Sistema – SAS
20
Prof. Luis Felipe Lopes
• Os registros após a ordenação estarão gravados no arquivo chamado
NOVO e no arquivo PESQUISA continuam desordenados.
Obs.: Existem outros tipos de rotinas de programação usando o PROC
SORT, onde poderemos incluir outras PROCs dentro dela.
Ex.:
PROC SORT; BY SEXO;
PROC FREQ;
TABLES V1 V2 V3 /LIST;
PROC UNIVARIATE;
VAR V1 V2 V3;
PROC COR;
VAR V1;
WITH V2 V3;
6.2 PROC PRINT
Este “procedure” serve para imprimir (listar) seus dados no relatório.
Ex.: Listar ALTURA e PESO dos homens separado das mulheres
INPUT SEXO $ ALTURA PESO;
CARDS;
Linha de Dados;
PROC PRINT; BY SEXO;
Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar
o DATA, a impressão será do último DATA referenciado.
2 - O PROC PRINT imprime todos os dados, se for seguido do
comando VAR imprimirá somente as variáveis selecionadas no
comando VAR.
Ex.:
PROC PRINT DATA=TESTE;
VAR NOME IDADE ALTURA;
3 – O comando PROC PRINT poderá listar em função de um valor
de uma determinada variável
Ex.:
PROC PRINT DATA=TESTE;
VAR NOME IDADE ALTURA;
WHERE SEXO=M;
Treinamento Sistema – SAS
21
Prof. Luis Felipe Lopes
6.3 PROC FORMAT
O procedimento FORMAT é usado para criar formatos definidos pelos
usuários.
Comando usado no PROC FORMAT → VALUE
VALUE NOME VALOR = ´DESCRIÇÃO´;
O NOME obedece as mesmas regras usadas para variáveis (8
caracteres), pois não deixa de ser uma nova variável selecionada.
A DESCRIÇÃO terá tamanho máximo de 40 caracteres e deverá ser
incluída entre aspas (´ ´).
Ex.: PROC FORMAT;
VALUE FAIXAS
VALUE $SEX
Obs.:
LOW-12 = ´CRIANCA´
13-19
= ´JOVEM´
20-HIGH = ´ADULTO´;
F = ‘FEMININO’
M = ‘MASCULINO’;
LOW = Lowest → (do menor valor)
HIGH = Highest → (ao maior valor)
Ex.: DATA A1;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
...
...
PROC FORMAT;
VALUE FAIXAS
LOW-12 = ´CRIANCA´
13-19
= ´JOVEM´
20-HIGH = ´ADULTO´;
VALUE $SEX
F = ‘FEMININO’
M = ‘MASCULINO’;
PROC PRINT;
FORMAT IDADE FAIXAS. SEXO $SEX.;
RUN;
Treinamento Sistema – SAS
22
Prof. Luis Felipe Lopes
6.4 PROC FREQ
O procedimento FREQ será útil para variáveis discretas e qualitativas.
Para as variáveis contínuas aconselha-se usar o PROC UNIVARIATE ou PROC
MEANS, pois este tipo de variável possui muitos valores diferentes.
Outro benefício que a tabela de freqüência ou tabulação cruzada oferece
é poder sumarizar variáveis caracteres, porque somente variáveis numéricas
podem ser sumarizadas por estatísticas como média e desvio padrão.
- Tabelas de Freqüência Simples
Este tipo de tabela poderá ajudar a sumarização dos dados. Mostrar as
distribuição dos valores das variáveis, podendo-se verificar quantas observações
tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19
anos e assim por diante.
Para obter as Tabelas de Freqüências Simples das variáveis que
interessam usa-se o comando TABLES com a relação das mesmas.
Ex.: PROC
FREQ;
TABLES IDADE PESO ALTURA;
ou
PROC FREQ;
TABLES
IDADE PESO ALTURA /LIST;
Podemos utilizar o comando FORMAT:
Ex.: PROC
FREQ;
TABLES
FORMAT
TABLES
FORMAT
IDADE /LIST;
IDADE FAIXAS.;
SEXO /LIST;
SEXO SEXOV.;
Com o uso do comando FORMAT na tabela de freqüência para as
variáveis IDADE e SEXO teremos no relatório a DESCRIÇÃO para cada valor.
- Tabelas de Freqüência Cruzada
A tabela de freqüência cruzada mostra a união da distribuição de valores
de duas ou mais variáveis. Por exemplo, queremos saber quantas mulheres com
19 anos temos no arquivo estudado.
Treinamento Sistema – SAS
23
Prof. Luis Felipe Lopes
Para obter-mos a resposta devemos cruzar as duas variáveis: IDADE e
SEXO.
Ex.: PROC
ou
PROC
FREQ;
TABLES
FREQ;
TABLES
FORMAT
IDADE*SEXO /LIST;
IDADE*SEXO /LIST;
IDADE FAIXAS. SEXO
SEXOV.;
Aconselha-se usar o comando /LIST para facilitar a visualização da tabela
cruzada. Este comando também será aconselhado quando quisermos cruzar mais
de duas variáveis.
Ex.: PROC
FREQ;
TABLES SEXO*IDADE*PESO /LIST;
Ex.:
DATA A1;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
...
PROC FREQ;
TABLES SEXO*(IDADE--PESO) /LIST /*(I até P)*/
TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/
RUN;
6.5 PROC MEANS
Suponhamos que no arquivo que se está estudando possua valores para
a variável PESO. Pode-se obter um quadro completo desses pesos pela simples
listagem dos mesmos (PROC FREQ). Mas isso significa que teríamos que olhar e
analisar todos os valores.
O PROC MEANS sumariza todos os valores para computar a média.
Então teremos como resultado um único valor representativo para todo o grupo.
O PROC MEANS fornece outras estatísticas como:
- Número de Observações
- Média
- Desvio Padrão
- Valor Mínimo e Máximo
Treinamento Sistema – SAS
- Erro padrão
- Variância
- Coeficiente de variação
24
Prof. Luis Felipe Lopes
Ex.: DATA A1;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
PROC MEANS;
VAR IDADE
ALTURA
PESO;
RUN;
Usando o comando BY
Podemos obter estatísticas sumarizadas por grupos de dados associados
ao comando BY. Por exemplo queremos calcular as estatísticas para as mesmas
variáveis do exemplo acima só que por SEXO.
Obs.: Antes de usar o comando BY para qualquer “procedure” SAS, o arquivo
deverá ser ordenado pelas variáveis a serem usadas pelo comando BY.
Ex.: DATA A1;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
PROC SORT; BY SEXO;
PROC MEANS; BY SEXO;
VAR IDADE ALTURA PESO;
RUN;
Obs.: Valores não informados (representados por um ponto ‘ . ‘) não serão
incluídos no cálculo da PROC MEANS.
Treinamento Sistema – SAS
25
Prof. Luis Felipe Lopes
SAS/STAT
Pré requisito:
Ter conhecimento de Estatística Básica.
Ter conhecimento do SAS/BASIC;
Objetivo:
Este curso tem por objetivo expor alguns conceitos estatísticos e
interpretá-los através da utilização de procedimentos do Sistema SAS. Os
exemplos apresentados ilustram características da “release” 6.08 do SAS/STAT e
orientam o usuário na sua programação quando seu interesse for:
Obter estatísticas descritivas elementares;
9 Desempenhar testes estatísticos de significância para verificar a
normalidade da distribuição de seus dados;
9 Testar a igualdade de médias entre grupos de observações;
9 Encontrar um modelo que explique o comportamento de seus dados e,
através deste modelo, fazer previsões e calcular intervalos de
confiança para parâmetros da população em estudo.
9 Analisar a variabilidade de uma série de dados através do Método de
Análise de Variância (ANOVA), critério de tomada de decisões
estatisticamente formulado para detectar qualquer diferença no
desempenho médio de um ensaio experimental.
Os conceitos básicos serão abordados a medida que os procedimentos
forem sendo utilizados, assim como a interpretação das principais saídas.
Treinamento Sistema – SAS
26
Prof. Luis Felipe Lopes
7 ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE
7.1 Introdução
Depois que o usuário cria seu arquivo de dados ele pode desejar
sumarizar estes dados através de medidas que descrevam seu comportamento.
Estas medidas incluem parâmetros de posição como médias, modas, medianas,
quartis e percentis, parâmetros de dispersão, como variâncias, desvios padrões,
amplitude (range), e parâmetros que auxiliam na descrição da forma dos dados,
como assimetria e curtose (ver anexo 2).
Nos problemas que envolvem a Estatística Indutiva, os conjuntos de
dados analisados são representados por amostras retiradas das populações de
interesse. Sendo as amostras aleatórias, todos os seus elementos fornecerão
valores aleatórios da variável em análise. Para caracterizar a distribuição dos
diversos valores assumidos por uma variável aleatória, o conceito de distribuição
de probabilidades deve ser utilizado e estendido às populações, ou seja, cada
valor da amostra deve ser considerado como valor de uma variável aleatória cuja
distribuição de probabilidade é a mesma da população no instante da retirada
desse elemento da amostra. Os valores calculados em função dos elementos da
amostra, denominam-se estatísticas. Se estas estatísticas forem utilizadas para
inferir informações a respeito de uma população, elas são consideradas como
variáveis aleatórias, e terão, portanto uma distribuição de probabilidades, com
uma média, uma variância, etc. Muitos métodos da análise estatística assumem
que os dados da amostra provém de uma população com distribuição normal. A
distribuição normal tem uma definição matemática precisa, com as seguintes
características:
- ser completamente definida por sua média e seu desvio padrão.
- ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que
por sua vez coincide com sua mediana.
- ser uma distribuição regular. Do seu ponto central mais alto até suas
extremidades não existe padrões irregulares.
- ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição).
7.2 Teste de normalidade
Nos testes de normalidade é estabelecida a idéia de que uma amostra
provém de uma distribuição normal. Através da amostra uma estatística é
calculada e testada para checar essa idéia. Uma comparação é feita entre a
forma da distribuição da amostra, com a forma de uma distribuição normal. Se
não for encontrada nenhuma evidência para rejeitar a hipótese de normalidade,
prossegue-se as análises baseando-se na suposição de que os dados da amostra
são normalmente distribuídos (análise paramétrica). Quando os dados não são
gerados por uma distribuição normal, a análise deve ser baseada em métodos
Treinamento Sistema – SAS
27
Prof. Luis Felipe Lopes
não paramétricos. A distribuição normal é simétrica, com os valores distribuídos
em forma de sino.
Ao desempenhar um teste de hipótese tem-se sempre uma hipótese
nula que descreve uma idéia sobre a população, e uma hipótese alternativa, que
descreve uma idéia alternativa sobre a população.
Nos testes para a normalidade, a hipótese nula é que os dados da
amostra são gerados por uma distribuição normal. A hipótese alternativa é que
eles são gerados por uma distribuição não normal. O método utilizado para testar
hipóteses consiste num conteúdo de decisão onde a probabilidade de rejeitar a
hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um valor préfixado chamado de nível de significância α do teste. Ao menor nível de
significância para o qual a hipótese nula é rejeitada denominamos probabilidade
de significância (p-valor). Se p-valor > α há evidências de que a hipótese nula é
verdadeira.
A PROC UNIVARIATE é utilizada para a obtenção de estatísticas
descritivas. Ela difere de outros procedimentos SAS por fornecer maiores
detalhes das variáveis, tais como plots das distribuições, tabelas de freqüência e
testes estatísticos para a normalidade.
FORMA GERAL:
PROC UNIVARIATE DATA = arquivo de dados opções;
VAR variáveis;
BY variáveis;
FREQ variável;
ID variáveis;
OUTPUT OUT = arquivo de dados palavra-chave = nomes;
OPÇÕES DISPONÍVEIS:
FREQ
gera uma tabela de freqüência com valores de freqüência,
percentagens e percentagens acumuladas.
NOPRINT
suprime toda a informação do OUTPUT. Esta opção é utilizada
geralmente na criação de um arquivo de dados de saída.
NORMAL
desempenha um teste para a hipótese nula de que os dados provém
de uma distribuição normal. Dependendo do tamanho da amostra, o
teste utilizado será baseado na estatística de Shapiro-Wilk (N<2000)
ou na estatística de Kolmogorov’s D. (N>2000).
Treinamento Sistema – SAS
28
Prof. Luis Felipe Lopes
PLOT
produz plotes de probabilidade da distribuição normal e plotes em
“box” que auxiliam na determinação da forma da distribuição dos
dados investigados.
COMANDOS SELECIONADOS:
VAR
lista as variáveis a serem sumarizadas no arquivo de dados.
BY
especifica subgrupos onde as estatísticas devem ser obtidas. Para
usar este comando o arquivo já deverá estar ordenado pela variável
de subgrupo .
FREQ
especifica variáveis de freqüência.
ID
especifica as variáveis que irão identificar os valores extremos.
OUTPUT OUT
cria arquivo de saída que irá gravar as estatísticas geradas.
Estatísticas reservadas utilizadas na criação de um arquivo de saída:
N
MEAN
STDMEAN
SUM
STD
NMISS
VAR
CV
RANGE
SKEWNESS
Prob T
KURTOSIS
MEDIAN
Ex1.: Resultados obtidos de uma distribuição aproximadamente Normal.
Para ilustrar, suponha que estejamos analisando uma amostra. No
programa SAS abaixo, a idade de cada pessoa está sendo representada pela
variável IDADE, e sua identificação pela variável IDENT.
OPTIONS FORMDLIM='*' LS=80;
DATA NORM A;
/* EXEMPL01 SAS */
INPUT IDENT IDADE @@;
CARDS;
1
72
2
69
3
75
4
71
5
71
6
73
7
70
8
67
9
71
10
72
11
73
12
68
13
69
14
70
15
70
16
71
17
74
18
72
;
PROC UNIVARIATE NORMAL PLOT FREQ;
VAR IDADE;
ID IDENT;
RUN;
Treinamento Sistema – SAS
29
Prof. Luis Felipe Lopes
ANÁLISE DOS RESULTADOS:
Univariate Procedure
Variable=IDADE
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
18
71
2.057983
0
90810
2.898568
146.3702
18
9
85.5
0.98356
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
18
1278
4.235294
-0.13576
72
0.485071
0.0001
18
0.0001
0.0001
0.9666
A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste
para normalidade. O valor zero de assimetria traduz a forma simétrica da
distribuição. A estatística de curtose de -0.13576 significa que a distribuição de
valores é relativamente achatada. O alto p-valor associado ao teste de
normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se
obtenha este mesmo resultado se os dados fossem oriundos de uma população
Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em
geral, rejeita-se a hipótese nula de normalidade dos dados somente quando o pvalor for menor que 0.05 .
Os quartis, percentis, a moda da distribuição, e os valores extremos estão
relacionados a seguir:
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
75
72
71
70
67
Range
Q3-Q1
Mode
99%
95%
90%
10%
5%
1%
75
75
74
68
67
67
8
2
71
Extremes
Lowest
67(
68(
69(
69(
70(
ID
8)
12)
13)
2)
15)
Highest
72(
73(
73(
74(
75(
ID
18)
6)
11)
17)
3)
O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados.
Entre estes plotes e o ‘boxplot’, há uma coluna que fornece a freqüência de
observações em cada barra. O box plote indica o 25o e 75o percentil. A linha
Treinamento Sistema – SAS
30
Prof. Luis Felipe Lopes
central indica a mediana (50o percentil). O sinal de (+) indica a média da
distribuição, que está coincidindo com a mediana.
Stem
75
74
73
72
71
70
69
68
67
Leaf
0
0
00
000
0000
000
00
0
0
----+----+----+----+
#
1
1
2
3
4
3
2
1
1
Boxplot
|
|
|
+-----+
*--+--*
+-----+
|
|
|
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+)
formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra é
gerada por uma distribuição normal, os asteriscos devem formar uma linha reta e
cobrir a maioria dos sinais positivos. A distribuição amostral aproxima-se da
normalidade.
Univariate Procedure
Variable=IDADE
Normal Probability Plot
75.5+
* +++++
|
* +++++
|
* +*+++
|
**+*++
71.5+
**+**++
|
* **+++
|
* +*+++
|
+*+++
67.5+
+*+++
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2
f(+) = 71 + 2.05 IDADE
A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de
distribuição de freqüência onde o número de ocorrências de cada valor da variável
IDADE é contabilizado juntamente com os percentuais e percentuais acumulados
de ocorrência em cada categoria.
Frequency Table
Value Count
67
1
68
1
69
2
70
3
71
4
Treinamento Sistema – SAS
Percents
Cell
Cum
5.6
5.6
5.6 11.1
11.1 22.2
16.7 38.9
22.2 61.1
31
Value Count
72
3
73
2
74
1
75
1
Percents
Cell
Cum
16.7 77.8
11.1 88.9
5.6 94.4
5.6 100.0
Prof. Luis Felipe Lopes
8 - ANÁLISE DE CORRELAÇÃO E REGRESSÃO
8.1 Introdução
Existem numerosos procedimentos estatísticos para investigar
relacionamentos bivariados (entre somente duas variáveis). Estes procedimentos
podem fornecer um teste estatístico de significância, uma medida de associação,
ou ambos. O teste estatístico objetiva testar hipóteses sobre o grau de
relacionamento entre variáveis na população. Por exemplo, o coeficiente de
correlação de Pearson. Num estudo para se testar a hipótese nula de que a
correlação entre duas variáveis é zero na população, uma amostra de 200
observações determinou um coeficiente de correlação entre duas variáveis de
0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade
de significância de 0.001. Este p-valor sugere que existe menos que uma chance
em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral,
se a hipótese nula fosse verdadeira. Rejeita-se portanto a hipótese nula,
concluindo-se que a correlação é significativamente diferente de zero na
população.
A escolha apropriada da estatística a ser usada no estudo do
relacionamento entre duas variável irá depender da natureza delas. Atenção
particular deve ser dada aos níveis de medidas usados para avaliar as duas
variáveis. Uma breve discussão à este respeito é feita a seguir.
Uma variável medida numa escala nominal representa classes que
indicam o grupo ao qual pertence uma determinada observação. Por exemplo,
SEXO é uma variável que está numa escala nominal. Uma observação pode ser
classificada como sendo da classe "masculino" ou da classe "feminino".
Uma variável medida numa escala ordinal representa valores num “rank”
ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma
fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado
com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este “rank” de
valores são ditos ordinais. Escalas ordinais de valores porém possuem uma
limitação: iguais diferenças na escala de valores não tem necessariamente o
mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade
verbal entre um aluno com grau 1 e um aluno com grau 2 não é necessariamente
a mesma diferença existente entre as habilidades de um aluno com grau 2 e um
com grau 3.
Uma variável medida numa escala de intervalo significa que iguais
diferenças entre valores da escala tem igual significado quantitativo. Um exemplo
é a escala Fahrenheit de medição de temperatura. A diferença entre 70 e 75
graus é igual a diferença entre 75 e 80 graus. As unidades de medidas são iguais
através de todo o range da escala. A limitação existente nesta escala é que não
existe um ponto zero real, ou seja, o zero da distribuição de temperaturas não
indica que não haja nenhum calor presente no ambiente.
Treinamento Sistema – SAS
32
Prof. Luis Felipe Lopes
Uma variável medida numa escala de razão é aquela que iguais
diferenças entre valores da escala tem igual significado quantitativo. Neste caso,
além deste fato, é possível interpretar a razão entre os valores da escala. Um
valor para peso igual à zero indica nenhum peso corporal. Com isto, é possível
estabelecer que o peso de uma criança com 20 Kg é o dobro de peso de uma
criança com 10 kg .
A tabela a seguir identifica as estatísticas apropriadas para avaliar o
relacionamento de pares de variáveis nos seus respectivos níveis de medida.
TABELA COM ESTATÍSTICAS APROPRIADAS
R
E
S
P
O
S
T
A
Razão
Intervalo
Ordinal
Nominal
PREDITORA (INDEPENDENTE) – Xi
Nominal
Ordinal
Intervalo
ANOVA
Spearman Pearson ou
Spearman
ANOVA
Spearman Pearson ou
Spearman
Kruskal
Spearman
--------Wallis
Chi-quadrado
-----------------
Razão
Pearson ou
Spearman
----------------------
8.2 Correlação de Pearson (PROC CORR)
O estudo de medidas de associação reflete o grau da intensidade da
relação entre variáveis. Se X e Y representam duas variáveis, ambas acessadas
na escala de intervalo ou de razão, o diagrama de dispersão irá mostrar a
localização dos pontos (x , y) em um sistema de coordenadas retangulares. Se os
pontos desse diagrama se distribuírem nas proximidades de uma reta, como nas
figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os pontos
se distribuírem próximos de alguma curva, a correlação é denominada não linear,
como pode ser visto na figura (C). Quando os pontos não apresentam nenhuma
forma definida, figura (D), diz-se que as variáveis x e y são não correlacionadas.
Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento
entre duas variáveis com relacionamento não linear, ele normalmente subestima o
verdadeiro valor. Por esta razão é sempre prudente avaliar primeiro o diagrama
de dispersão para as variáveis, usando para isso a PROC PLOT, que tem a
seguinte forma geral:
PROC PLOT DATA= ARQSAS;
PLOT Y*X;
RUN;
Treinamento Sistema – SAS
33
Prof. Luis Felipe Lopes
Para o tratamento quantitativo do problema da dispersão dos dados
amostrais é necessário estabelecer medidas de correlação. O coeficiente de
correlação de Pearson, simbolizado por “r”, será utilizado para medir o
relacionamento entre duas variáveis que estejam na escala de intervalo ou de
razão. Outra consideração a ser feita ao usar esta medida de associação, é que
ambas as amostras tenham sido retiradas de uma população Normal. Caso
contrário, uma medida de associação não paramétrica deverá ser usada, tal como
o coeficiente de correlação de Spearman.
O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa
que as duas variáveis são correlacionadas positivamente, se for próximo de -1,
significa que as variáveis são correlacionadas negativamente. Valores de “r”
próximos de zero correspondem a uma dispersão de pontos que não mostra nem
uma tendência crescente, nem decrescente, indicando uma baixa correlação
entre as variáveis.
PROC CORR
A “procedure” CORR é utilizada para gerar coeficientes de correlação.
Quando é utilizada sozinha, ela obtém coeficientes de Pearson para todas as
variáveis numéricas do arquivo, além de estatísticas básicas como médias e
desvios padrões da distribuição de dados.
Treinamento Sistema – SAS
34
Prof. Luis Felipe Lopes
Outros coeficientes de correlacão podem ser obtidos como opção da
PROC CORR. São eles: Kendall, Hoeffding e Spearman, que são medidas não
paramétricas de associação .
FORMA GERAL:
PROC CORR opções;
VAR variáveis;
WITH variáveis;
FREQ variáveis;
BY variáveis;
RUN;
OPÇÕES DISPONÍVEIS:
DATA= arquivo.sas
arquivo com os dados a serem analisados.
OUTP= arquivo.sas
arquivo de saída - Pearson
OUTS= arquivo.sas
arquivo de saída - Sperman
OUTK= arquivo.sas
arquivo de saída - Kendall
OUTH = arquivo.sas
arquivo de saída - Hoeffding
NOSIMPLE
suprime a impressão das estatísticas descritivas
básicas.
COMANDOS DISPONÍVEIS:
VAR variáveis
especifica as variáveis a serem correlacionadas
WITH variáveis
especifica as variáveis que devem aparecer na lateral
da matriz de correlação.
FREQ variável
especifica variáveis de freqüência
BY variáveis
especifica subgrupos onde a correlação deve ser
obtida. Para usar o comando BY, o arquivo já deve
estar ordenado pela variável de subgrupo.
Ex2.: O tempo necessário para um trem parar depois que percebe um perigo é
composto de tempo de reação e tempo de freagem. A variável DIST
representa a distância de parada de um trem que está a uma velocidade
VELOC no instante que o perigo é avistado. Analise o diagrama de
dispersão e determine o coeficiente de correlação entre as duas variáveis.
Treinamento Sistema – SAS
35
Prof. Luis Felipe Lopes
OPTIONS FORMDLIM='*' LS=80;
DATA PERIGO A; /* EXEMPL02 SAS */
INPUT VELOC DIST @@;
CARDS;
20
54
30
90
40
138
50
206
60
292
70
396
;
PROC PLOT;
PLOT DIST*VELOC;
PROC CORR;
VAR VELOC DIST;
TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA';
RUN;
ANÁLISE DOS RESULTADOS:
Plot of DIST*VELOC.
Legend: A = 1 obs, B = 2 obs, etc.
DIST |
|
400 +
A
|
|
|
A
|
|
200 +
A
|
|
A
|
A
| A
|
0 +
--+-------------+-------------+-------------+-------------+-------20
30
40
50
60
70
VELOC
O diagrama de dispersão ostra claramente uma tendência crescente da
distribuição dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a distância de parada.
CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA
Correlation Analysis
2 'VAR' Variables:
VELOC
DIST
Simple Statistics
Variable
N
Mean
Std Dev
Sum
Minimum
Maximum
VELOC
6
45.00000
18.70829 270.00000
20.00000
70.00000
DIST
6 196.00000 129.67652
1176
54.00000 396.00000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6
VELOC
Treinamento Sistema – SAS
36
DIST
Prof. Luis Felipe Lopes
VELOC
1.00000
0.0
0.98268
0.0004
DIST
0.98268
0.0004
1.00000
0.0
O valor de 0.98268 mede o coeficiente de correlação entre as variáveis VELOC e
DIST. Um p-valor de 0.0004 indica uma forte evidência que a correlação é não
nula. O p-valor é a probabilidade de significância para se testar a hipótese de que
a verdadeira correlação da população em questão é zero.
Ex3.: Determinar o coeficiente de correlação entre as alturas e os pesos de 300
homens nos EUA, constantes da seguinte tabela de freqüências:
Altura (metros)
P
E
S
O
(kg)
45 a 54.5
55 a 64.5
65 a 74.5
75 a 84.5
85 a 94.5
95 a 104.5
105 a 114.5
1.5 a 1.58
2
7
5
2
0
0
0
1.6 a 1.68
1
8
15
12
7
2
0
1.7 a 1.78
0
4
22
63
28
10
1
1.8 a 1.88
0
2
7
19
32
20
4
1.9 a 1.98
0
0
1
5
12
7
2
OPTIONS FORMDLIM='*' LS=80;
DATA
AGRUPA A;
/* EXEMPL03 SAS */
DO MEDPES = 49.75 T0 109.75 BY 10;
DO MEDALT = 1.54 TO 1.94
BY 0.10;
INPUT N_OBS @@;
OUTPUT;
END;
END;
CARDS;
2
1
0
0
0
7
8
4
2
0
5
15
22
7
1
2
12
63
19
5
0
7
28
32
12
0
2
10
20
7
0
0
1
4
2;
;
PROC PRINT;
PROC CORR;
VAR MEDPES MEDALT;
FREQ N_OBS;
TITLE 'CORRELACAO PARA DADOS AGRUPADOS';
RUN;
Treinamento Sistema – SAS
37
Prof. Luis Felipe Lopes
ANÁLISE DOS RESULTADOS:
OBS
MEDPES
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
MEDALT
49.75
49.75
49.75
49.75
49.75
59.75
59.75
59.75
59.75
59.75
69.75
69.75
69.75
69.75
69.75
79.75
79.75
79.75
79.75
79.75
89.75
89.75
89.75
89.75
89.75
99.75
99.75
99.75
99.75
99.75
109.75
109.75
109.75
109.75
109.75
N_OBS
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
2
1
0
0
0
7
8
4
2
0
5
15
22
7
1
2
12
63
19
5
0
7
28
32
12
0
2
10
20
7
0
0
1
4
2
CORRELACAO PARA DADOS AGRUPADOS
Correlation Analysis
2 'VAR' Variables:
MEDPES
MEDALT
Simple Statistics
Variable
MEDPES
MEDALT
N
Mean
Std Dev
Sum
Minimum
Maximum
300
300
82.31667
1.76033
12.12031
0.09824
24695
528.10000
49.75000
1.54000
109.75000
1.94000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300
/ FREQ Var = N_OBS
MEDPES
MEDALT
MEDPES
1.00000
0.0
0.54023
0.0001
MEDALT
0.54023
0.0001
1.00000
0.0
Treinamento Sistema – SAS
38
Prof. Luis Felipe Lopes
O coeficiente de correlação é de 0.54023. Um p-valor de 0.0001 reflete uma forte
evidência de que a correlação entre altura e o peso difere de zero.
8.3 Regressão (PROC REG)
Os coeficientes de correlação indicam somente a existência ou não de
algum tipo de relacionamento entre variáveis. Para investigar a forma desse
relacionamento, o método mais apropriado é a análise de regressão, onde a
relação pode ser expressa sob forma matemática, por meio de uma equação que
interligue as variáveis.
Através do diagrama de dispersão é possível visualizar uma curva que se
aproxime dos dados. Essa curva é denominada curva de ajustamento.
Para fins de referência, a seguir encontram-se relacionados vários tipos
comuns de curvas de ajustamento e suas equações. As variáveis independentes
estão representadas pela letra X e as variáveis dependentes pela letra Y. As
demais letras representam constantes.
Função Linear
→ Y = a0 + a1 X
Função Quadrática
→ Y = a0 + a1 X + a2 X2
Função Cúbica
→ Y = a0 +a1 x + a2 x2 + a3 x3
Função Exponencial
→ Y = a bx
→ log y = Ioga + (log b) x = a0 +a1 x
Para evitar o critério individual na construção de funções que se adaptem
ao conjunto de dados, é necessário instituir uma definição da "melhor função de
ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados
(aderência) é proporcionada a partir da distância dos pontos observados até a
equação de regressão. De todas as equações que podem ser traçadas através do
grupo de pontos no diagrama de dispersão, a função que melhor se ajusta é
aquela com a menor soma dos quadrados das distâncias (Método dos Mínimos
Quadrados).
Estas distâncias são designadas como desvios, erros ou resíduos, e
podem ser positivas, negativas ou nulas, como é apresentado na figura a seguir:
Treinamento Sistema – SAS
39
Prof. Luis Felipe Lopes
O modelo linear:
Yj = β0 + β1 Xj + εj
Suas suposições:
- Xj são fixos;
- β0 e β1 são parâmetros fixos desconhecidos;
- εj ~ N id (0 , σ2) .
Considere a regressão como um particionamento da Soma Total dos
Quadrados:
∑ ( Yj − Y )
2
(
$ −Y
=∑ Y
j
) + ∑ ( Y − Y$ )
2
j
2
j
SST = SSM + SSE
onde:
SST - é a soma total dos quadrados.
SSM - é a soma dos quadrados devido ao modelo (soma dos quadrados devido à
regressão ).
SSE - é a soma dos quadrados devido ao erro , ou resíduo.
Num modelo de regressão é preciso:
• Estimar:
- σ2, ou seja, o erro médio quadrático;
- β0 e β1.
Treinamento Sistema – SAS
40
Prof. Luis Felipe Lopes
• Testaras Hipóteses :
H0: β1 = 0
β0 = 0
• Obter valores preditos e limites de predição.
• Estimar a média da variável resposta Y, dado um valor fixo X,
determinando tanto as estimativas por ponto como por intervalo.
8.4 Inferência na regressão
Estatísticas usadas na Análise de Regressão:
- valor estimado de σ2 =MSE, Média quadrática para o erro
= SSE/ df(erro)
= Soma dos Quadrados devido ao erro / df(erro)
- estimativas de mínimos quadrados de β0 e β1, que minimize SSE.
min
∑ (Y j − Y )
2
- teste de β0 = 0 e β1 = 0 com a estatística t de Student ou teste de β0 no modelo /
β1 = 0 com a estatística F.
8.5 Resíduos
Os resíduos representam o comportamento de Y (variável resposta), do
qual as variáveis independentes não fazem a estimativa. Se for suposto que o
modelo é correto, que não se tenha omitido nenhuma variável independente, e
também que os resíduos são normais e independentemente distribuídos, com
média zero e variância constante, pode-se provar hipóteses, assinalar limites de
confiança, predizer valores da variável dependente a partir das variáveis
independentes e computar probabilidades de significância .
Um plote dos resíduos sobres as variáveis independentes ou sobre os
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo
necessitar de algum outro termo, o plote dos resíduos sugere que tipo de termo
pode ser adicionado ao modelo. Alguns modelos são mostrados a seguir:
Treinamento Sistema – SAS
41
Prof. Luis Felipe Lopes
PROC REG
A “procedure” REG é o procedimento SAS mais comum para análise da
regressão. É um procedimento interativo, ou seja, o usuário pode dispor de seus
comandos básicos para ajustar uma função, verificar a saída das estatísticas, e
posteriormente adicionar mais comandos dando continuidade à suas análises sem
necessidade de reinicializar o comando da PROC. Quando usado interativamente,
o comando RUN não finaliza o procedimento. Para finalizá-lo o usuário deve
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que
nunca deve ser acessado quando o procedimento estiver em curso.
FORMA GERAL:
PROC REG DATA = arquivo SAS opções;
MODEL dependente = independente / opções;
VAR variável;
ID variável;
OUTPUT OUT = novo arquivo
P = nova variável
R = nova variável
U95 = nova variável
L95 = nova variável
U95M = nova variável
L95M = nova variável;
PLOT variável Y * variável X = 'símbolo';
PRINT opções;
RUN;
OPÇÕES DISPONÍVEIS NA PROC REG:
Treinamento Sistema – SAS
42
Prof. Luis Felipe Lopes
SIMPLE
Lista estatísticas descritiva para cada variável.
OUTEST
Cria um data set contendo as estimativas dos parâmetros do
modelo de regressão.
OPÇÕES DISPONÍVEIS NO COMANDO
CLI
Fornece limites de confiança superior e inferior a 95% para um
valor particular predito da variável dependente.
CLM
Fornece limites de confiança superior e inferior a 95% para a
média da variável dependente nos níveis da(s) variável(is)
independentes para cada observação.
P
Fornece valores preditos a partir do modelo estimado para cada
observação do arquivo a de entrada.
R
Fornece valores residuais (REAL-PREDITO)
observação e uma análise dos resíduos.
para
cada
SELECTION = método
Especifica o método usado para seleção do modelo (Backward, Stepwise,
MAXR, ADJRSQ, por exemplo). O default é NONE (usa o modelo
completo).
ADJRSQ
Fornece o R-Square ajustado para o grau de liberdade, para cada
modelo selecionado.
AIC
Fornece o Critério de Informação de Akaike's.
BIC
Fornece o Critério de Informação Bayesiano de Sawa .
MSE
Fornece o erro médio quadrático para cada modelo.
COMANDOS DISPONÍVEIS:
MODEL
especifica as variáveis dependentes e independentes.
VAR
lista a variável (ou variáveis) que possam vir a ser adicionadas no
modelo durante o processo de análise. Este comando deve
aparecer antes do primeiro comando RUN.
ID
especifica a variável que identifica as observações na saída do
relatório, quando são solicitadas estimativas de valores individuais
de uma variável independente ( valores preditos ), valores
residuais, etc.
Treinamento Sistema – SAS
43
Prof. Luis Felipe Lopes
OUTPUT
especifica o arquivo de saída e os nomes das variáveis que irão
conter os valores previstos, residuais , etc.
PLOT
gera plotes de dispersão com a variável y representando o eixo
vertical e a variável x o eixo horizontal. Para plotar estatísticas
utiliza-se as palavras chave (nomes reservados) disponíveis no
comando OUTPUT. (Ex: plot y.*p;)
PRINT
Lista as opções disponíveis.
Os seguintes nomes reservados são utilizados para especificar as
estatísticas desejadas. Eles devem ser seguidos por um nome de variável:
P (ou PREDICTED)
representa os valores preditos.
R (ou RESIDUAL)
representa os valores residuais para cada observação.
U95, L95
representam, respectivamente, os limites superior e
inferior de predição para os valores observados.
U95M, L95M
representam, respectivamente os limites superior e
inferior de confiança para a média da população.
Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de
uma máquina industrial. O experimento utilizou uma mistura de óleo diesel e
gás, derivados de materiais destilados orgânicos. O valor da capacidade da
máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas
em rotações por minuto (rpm X 100). Analisar o diagrama de dispersão e
encontrar um modelo de regressão que se ajuste aos dados.
OPTIONS FORMDLIM='*' LS=80;
DATA MAQUINA1 A;
/* EXEMPL04
INPUT VELOC CAPAC @@;
CARDS;
22.0 64.03 20.0 62.47 18.0
12.0 37.48 15.0 46.85 17.0
22.0 64.03 20.0 62.63 18.0
12.0 36.63 10.5 32.05 13.0
19.0 56.65 21.0 62.61 23.0
;
PROC PLOT;
PLOT CAPAC * VELOC = '0';
TITLE 'DIAGRAMA DE DISPERSAO';
RUN;
Treinamento Sistema – SAS
44
SAS */
54.94
51.17
52.90
39.68
65.31
16.0
19.0
16.0
15.0
24.0
48.84
58.00
48.84
45.79
63.89
14.0
21.0
14.0
17.0
43.73
63.21
42.74
51.17
Prof. Luis Felipe Lopes
PROC
REG;
MODEL CAPAC = VELOC;
OUTPUT OUT= RESIDl
P=PREVISTO
R=RESIDUAL;
TITLE 'AJUSTE DA FUNCAO LINEAR';
RUN;
PROC GPLOT;
PLOT RESIDUAL* VELOC /VREF = 0;
TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR';
RUN;
PROC UNIVARIATE DATA= RESIDl
NORMAL
PLOT;
VAR
RESIDUAL;
TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS';
RUN;
ANÁLISE DOS RESULTADOS:
DIAGRAMA DE DISPERSAO
Plot of CAPAC*VELOC.
Symbol used is '0'.
CAPAC |
|
65 +
0
|
0
0
|
0
|
0
0
60 +
|
|
0
|
0
55 +
0
|
|
0
|
0
50 +
|
0
|
0
|
0
45 +
|
0
|
0
|
40 +
0
|
|
0
|
0
35 +
|
|
| 0
30 +
|
--+-------+--------+--------+---------+-------+--------+--------+10
12
14
16
18
20
22
24
VELOC
NOTE: 4 obs hidden.
Treinamento Sistema – SAS
45
Prof. Luis Felipe Lopes
O diagrama de dispersão mostra uma tendência crescente da capacidade da
máquina em função da velocidade utilizada. Os dados observados serão
ajustados inicialmente por uma função linear. o relatório de saída consta de duas
seções, Análise da Variância e Estimativas dos Parâmetros, apresentadas a
seguir:
AJUSTE DA FUNCAO LINEAR
Model: MODEL1
Dependent Variable: CAPAC
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
Model
Error
C Total
1
22
23
2294.80982
76.08652
2370.89633
2294.80982
3.45848
1.85970
52.31833
3.55458
R-square
Adj R-sq
Root MSE
Dep Mean
C.V.
F Value
Prob>F
663.532
0.0001
0.9679
0.9664
Parameter Estimates
Variable
INTERCEP
VELOC
DF
1
1
Parameter
Estimate
6.100234
2.650500
Standard
Error
1.83396047
0.10289565
T for H0:
Parameter=0
Prob > |T|
3.326
25.759
0.0031
0.0001
A seção de Análise de Variância contém informações sobre a qualidade do
ajuste. São elas:
- DF
Identifica as fontes de variações dos dados e os respectivos graus de liberdade.
- SOMA DOS QUADRADOS (SS):
Separam a variação dos dados em porções que podem ser tanto atribuídas ao
modelo como ao erro. Parte da variação total da capacidade da máquina se deve
à velocidade utilizada e outra parte se deve a erros aleatórios ou outros fatores
independentes da velocidade.
SS total = SS models + SS erro
Observando os valores da variável Capacidade da Máquina quando o valor da
velocidade é de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta
variação se deve ao erro do experimento ou a fatores outros que não a
velocidade.
Treinamento Sistema – SAS
46
Prof. Luis Felipe Lopes
- MÉDIA QUADRÁTICA (MS): SS/DF
MS erro = 3.45848 estima a variância da população dos valores da capacidade da
máquina para valores determinados da velocidade.
- F, PROB > F:
Fornece o valor da estatística teste e o p-valor associado ao teste de hipótese de
que o modelo explica uma parte significante da variação dos dados.
- R_SQUARE : SS modelo / SS Total
R_Square é a fração da variação total devida às variáveis do modelo. Seu valor
varia dentro do intervalo [0,1], sendo que quanto mais próximo de 1, melhor o
modelo explica a variação dos dados. Neste caso o modelo proposto explica 96%
da variabilidade total. implicando um alto grau de aderência dos valores
observados à reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square
não a explica sozinho. Recomenda-se também uma Análise dos Resíduos.
- Adj R_SQUARE
É uma estatística alternativa ao R-Square. É utilizada em REGRESSÃO
MÚLTIPLA.
A seção Estimativas dos Parâmetros provê coeficientes para a linha de
regressão e testes para determinar se estes coeficientes são significativamente
diferentes de zero. O modelo de ajuste, neste caso, é representado por:
CAPAC = 6.10 + 2.65 VELOC
O valor de INTERCEP = 6.10 não tem uma interpretação específica no modelo.
Para VELOC = 0, a capacidade predita pelo modelo é de 6.10 HP. O coeficiente
2.65 pode ser interpretado como o acréscimo da capacidade esperada para cada
unidade adicional da velocidade.
Para verificar a suposição de que os coeficientes são não nulos, tem-se:
- DF
Fornece o grau de liberdade para os parâmetros estimados. Para cada parâmetro
estimado DF= 1.
- Erro Padrão:
Mede o quanto cada parâmetro estimado poderia vaiar de um conjunto de dados
para outro. Eles são utilizados na construção de intervalos de confiança.
Treinamento Sistema – SAS
47
Prof. Luis Felipe Lopes
- T para H0 : Parâmetro = 0:
Estatística para testar a hipótese que o parâmetro é igual a zero. Seu valor é dado
por:
Valor Estimado do Parâmetro / Erro Padrão
- PROB > T:
Fornece o p-valor para a estatística teste T. Para o parâmetro VELOC, o p-valor é
de 0.0001, evidenciando que o grau de inclinação da reta ajustada é diferente de
zero. O intercepto também difere de zero.
A análise dos resíduos ei= Yi - Ŷ i = Yi - 6.10 - 2.65 VELOC é importante para
avaliar se a escolha do modelo é apropriada para o conjunto de dados
apresentado. Pelo comportamento da distribuição dos resíduos (PROC GPLOT)
sugere-se a utilização de um termo quadrático.
A validade dos testes de significância dependem da suposição de que os resíduos
são normalmente distribuídos. Para se verificar essa suposição basta utilizar a
PROC UNIVARIATE com as opções NORMAL e PLOT, o que gera as seguintes
saídas:
Treinamento Sistema – SAS
48
Prof. Luis Felipe Lopes
TESTE DE NORMALIDADE DOS RESIDUOS
Univariate Procedure
Variable=RESIDUAL
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
24
0
1.818821
-0.95935
76.08652
.
0
24
1
4
0.896308
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
24
0
3.308109
4.145739
76.08652
0.371265
1.0000
13
0.8388
0.9119
0.0170
Quantiles(Def=5)
100% Max
75% Q3
50% Med
25% Q1
0% Min
3.51976
0.92076
0.011261
-0.67199
-5.82224
Range
Q3-Q1
Mode
9.342001
1.592748
-0.38124
99%
95%
90%
10%
5%
1%
3.51976
3.35976
1.54026
-1.75174
-1.88049
-5.82224
Extremes
Lowest
-5.82224(
-1.88049(
-1.75174(
-1.27624(
-0.90924(
Obs
Highest
24) 1.13076(
17) 1.449259(
23) 1.54026(
16) 3.35976(
13) 3.51976(
Obs
3)
10)
9)
2)
12)
A estatística W de Shapiro – WIL indica que os dados não são normalmente
distribuídos. O valor da assimetria é de –0.9593, encontrando-se fora do intervalo
(-0.87 , 0.87), e o valor da curtoze é de 4.1457, que está fora do intervalo(1.20,2.30). Estes são os intervalos a 95% de confiança para a assimetria e
curtoze, referentes a um tamanho de amostra n=24, retirada de uma população
normalmente distribuída. (Ver ANEXO 2).
Stem
3
2
1
0
-0
-1
-2
-3
-4
-5
Leaf
45
#
2
Boxplot
0
0145
0023358
9954441
983
4
7
7
3
|
+--+--+
+-----+
|
8
----+----+----+----+
1
*
TESTE DE NORMALIDADE DOS RESIDUOS
Treinamento Sistema – SAS
49
Prof. Luis Felipe Lopes
Univariate Procedure
Variable=RESIDUAL
Residual
Normal Probability Plot
3.5+
* ++*++
|
++++++
|
+++** *
0.5+
*+***+***
|
* ****+*+
|
* * *++++
-2.5+
++++++
|
+++++
|++++
-5.5+
*
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2
Observa-se pelo histograma dos resíduos que a distribuição é assimétrica a
esquerda. Os asteriscos (*) no plote acima representam os resíduos observados,
e os sinais de (+) são utilizados para prover uma linha de referência baseada na
média e no desvio padrão amostral, que são indicadores do intercepto e do grau
de inclinação da linha, respectivamente. Se os dados são normais, eles tendem a
acompanhar a disposição da linha de referência indicada pelos sinais (+). Quando
isto acontece somente os asteriscos (*) são amostrados. No caso em questão, a
disposição dos resíduos não se ajusta a linha de referência, colocando em
cheque a suposição de normalidade dos resíduos. Mais uma vez fica comprovada
a necessidade de uma nova tentativa de ajuste dos dados analisados.
FUNÇÃO QUADRÁTICA
Os comandos a seguir ajustam uma função quadrática aos dados do
arquivo MÁQUINA1. Além de gerar um plote para os resíduos do ajuste,
intervalos de confiança para a média da capacidade da população e uma curva de
previsão para os dados, com a opção “r” o programa também gera resíduos
padronizados que permitem verificar se pontos fora do padrão ('outliers') se
devem a causas aleatórias ou a causas especiais de variação. Um teste para a
normalidade dos resíduos também é efetuado para o ajuste quadrático.
OPTIONS FORMDLIM='*' LS=80;
DATA MAQUINA2 SAS;
/* EXEMPL05 SAS */
INPUT VELOC CAPAC @@;
VELOC2 = VELOC*VELOC;
CARDS;
22.0 64.03 20.0 62.47 18.0
54.94 16.0 48.84 14.0 43.73
12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21
22.0 64.03 20.0 62.63 18.0
52.90 16.0 48.84 14.0 42.74
12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17
19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89
;
PROC REG;
MODEL CAPAC=VELOC VELOC2 / CLM R;
ID VELOC;
OUTPUT OUT=RESlD2
P=PREVISTO R=RESIDUAL;
TITLE 'AJUSTE DE FUNCAO QUADRATICA';
PROC GPLOT;
Treinamento Sistema – SAS
50
Prof. Luis Felipe Lopes
PLOT RESIDUAL * VELOC / VREF=0;
TITLE 'PLOT DE RESIDUOS P/ AJUSTE QUADRATICO';
RUN;
PROC UNIVARIATE NORMAL;
VAR RESIDUAL;
TITLE 'TESTE PARA NORMALIDADE DOS RESIDUOS';
PROC GPLOT;
PLOT PREVISTO*VELOC;
TITLE 'CURVA DE PREVISAO';
RUN;
ANÁLISE DOS RESULTADOS:
AJUSTE DA FUNCAO QUADRATICA
Model: MODEL1
Dependent Variable: CAPAC
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
Model
Error
C Total
2
21
23
2329.52618
41.37016
2370.89633
1164.76309
1.97001
1.40357
52.31833
2.68275
R-square
Adj R-sq
Root MSE
Dep Mean
C.V.
F Value
Prob>F
591.248
0.0001
0.9826
0.9809
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
VELOC
VELOC2
1
1
1
-19.184839
5.710855
-0.088391
6.18024426
0.73314324
0.02105601
-3.104
7.790
-4.198
0.0054
0.0001
0.0004
O modelo do ajuste quadrático é dado por:
CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2
O teste de significância dos coeficientes indica que para o coeficiente -0.08 de
VELOC2 :
t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81
A probabilidade de significância para esta estatística é 0.0004, ou seja, existe
somente quatro chances em dez mil de se encontrar uma estatística t tão grande
quanto a calculada acima. O desvio padrão da estimativa do coeficiente de
VELOC2 é tão pequeno que pode-se afirmar que seu valor é estatisticamente
diferente de zero. O modelo quadrático, portanto, está representando melhor o
relacionamento entre a velocidade da máquina e sua capacidade de produção,
quando comparado ao modelo linear.
Treinamento Sistema – SAS
51
Prof. Luis Felipe Lopes
Os valores preditos e os limites de confiança para a média da população obtidos
com o ajuste quadrático estão relacionados a seguir:
AJUSTE DA FUNCAO QUADRATICA
Obs
VELOC
1
22
2
20
3
18
4
16
5
14
6
12
7
15
8
17
9
19
10
21
11
22
12
20
13
18
14
16
15
14
16
12
17
10.5
18
13
continuação ...
19
20
21
22
23
24
15
17
19
21
23
24
Dep Var
CAPAC
Predict
Value
Std Err
Predict
Lower95%
Mean
Upper95%
Mean
Residual
64.0300
62.4700
54.9400
48.8400
43.7300
37.4800
46.8500
51.1700
58.0000
63.2100
64.0300
62.6300
52.9000
48.8400
42.7400
36.6300
32.0500
39.6800
63.6726
59.6758
54.9718
49.5607
43.4425
36.6171
46.5900
52.3546
57.4122
61.7626
63.6726
59.6758
54.9718
49.5607
43.4425
36.6171
31.0340
40.1182
0.488
0.374
0.401
0.397
0.396
0.596
0.385
0.405
0.385
0.398
0.488
0.374
0.401
0.397
0.396
0.596
0.921
0.460
62.6568
58.8981
54.1382
48.7356
42.6198
35.3785
45.7890
51.5114
56.6114
60.9343
62.6568
58.8981
54.1382
48.7356
42.6198
35.3785
29.1185
39.1612
64.6884
60.4534
55.8054
50.3858
44.2651
37.8556
47.3909
53.1978
58.2130
62.5909
64.6884
60.4534
55.8054
50.3858
44.2651
37.8556
32.9495
41.0751
0.3574
2.7942
-0.0318
-0.7207
0.2875
0.8629
0.2600
-1.1846
0.5878
1.4474
0.3574
2.9542
-2.0718
-0.7207
-0.7025
0.0129
1.0160
-0.4382
45.7900
51.1700
56.6500
62.6100
65.3100
63.8900
46.5900
52.3546
57.4122
61.7626
65.4059
66.9623
0.385
0.405
0.385
0.398
0.651
0.878
45.7890
51.5114
56.6114
60.9343
64.0513
65.1364
47.3909
53.1978
58.2130
62.5909
66.7605
68.7883
-0.8000
-1.1846
-0.7622
0.8474
-0.0959
-3.0723
O plote dos resíduos studentizados pode indicar a ocorrência de pontos
discrepantes. Cada asterisco corresponde à metade de uma unidade.
Observações com quatro ou cinco asteriscos tem resíduos studentizados entre
2.0 e 3.0, e estão num range suspeito. Observações com seis ou mais asteriscos
provavelmente são “outliers”. No plote a seguir, as observações 2 e 12
(VELOC=20), e a 24 estão num range suspeito. O gráfico dos reíduos mostrado
ao fim deste exemplo confirma estas suposições. O próximo passo seria reavaliar
a fonte de dados e identificar alguma razão peculiar para a ocorrência destes
valores.
Obs
1
2
3
4
5
6
7
8
9
10
11
12
VELOC
22
20
18
16
14
12
15
17
19
21
22
20
Std Err
Residual
Student
Residual
1.316
1.353
1.345
1.346
1.347
1.271
1.350
1.344
1.350
1.346
1.316
1.353
0.272
2.065
-0.024
-0.535
0.214
0.679
0.193
-0.882
0.436
1.075
0.272
2.184
Treinamento Sistema – SAS
52
Cook's
D
-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
|****
|
*|
|
|*
|
*|
|
|**
|
|****
|
|
|
|
|
|
|
|
|
|
|
|
0.003
0.109
0.000
0.008
0.001
0.034
0.001
0.024
0.005
0.034
0.003
0.121
Prof. Luis Felipe Lopes
13
14
15
16
17
18
19
20
21
22
23
24
18
16
14
12
10.5
13
15
17
19
21
23
24
1.345
1.346
1.347
1.271
1.059
1.326
1.350
1.344
1.350
1.346
1.243
1.095
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
-1.540
-0.535
-0.522
0.010
0.959
-0.330
-0.593
-0.882
-0.565
0.630
-0.077
-2.806
|
***|
|
*|
|
*|
|
|
|
|*
|
|
|
*|
|
*|
|
*|
|
|*
|
|
| *****|
|
|
|
|
|
|
|
|
|
|
|
|
0.070
0.008
0.008
0.000
0.232
0.004
0.010
0.024
0.009
0.012
0.001
1.687
0
41.3702
65.0917
Através do gráfico dos resíduos (PROC GPLOT) observa-se que nem toda as
observações seguem a mesma forma geral. O ponto onde VELOC=24 encontrase abaixo dos demais, e os dois pontos próximos à VELOC=20 estão acima dos
demais. Isto pode se dever à causas especiais ou simplesmente ao acaso, e
precisa ser verificado. Os demais pontos estão bem distribuídos ao longo do
gráfico, podendo ser admitida a suposição de variância da distribuição dos
resíduos.
Treinamento Sistema – SAS
53
Prof. Luis Felipe Lopes
TESTE DE NORMALIDADE DOS RESIDUOS
Univariate Procedure
Variable=RESIDUAL
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
24
0
1.341157
0.194918
41.37016
.
0
24
0
-5
0.961296
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
24
0
1.798702
1.047599
41.37016
0.273763
1.0000
12
1.0000
0.8899
0.4711
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
2.954224
0.717615
-0.00944
-0.74144
-3.07234
99%
95%
90%
10%
5%
1%
2.954224
2.794224
1.447409
-1.18464
-2.0718
-3.07234
6.026565
1.45905
-1.18464
Extremes
Lowest
Obs
Highest
Obs
-3.07234(
24) 0.862912(
6)
-2.0718(
13) 1.015991(
17)
-1.18464(
20) 1.447409(
10)
-1.18464(
8) 2.794224(
2)
-0.79996(
19) 2.954224(
12)
O p-valor associado ao teste de normalidade dos resíduos é de 0.47. A hipótese
de normalidade dos resíduos do Ajuste Quadrático não pode ser rejeitada aos
níveis usuais de significância. A curva de previsão baseada no modelo ajustado é
mostrado no (PLOT GPLOT).
Treinamento Sistema – SAS
54
Prof. Luis Felipe Lopes
9 INFERÊNCIA ESTATÍSTICA
9.1 Testes para igualdade de duas médias (PROC TTEST)
Na prática freqüentemente nos vemos diante de situações onde uma
decisão deva ser tomada acerca de populações, baseadas nas informações
obtidas a partir das amostras. Este capítulo abordará testes de hipóteses, para o
caso em que duas amostras são consideradas, em princípio de populações
distintas, Com base nestas amostras, as médias equivalentes às populações
envolvidas são comparadas. O teste t é apropriado quando a análise envolve uma
única variável independente (preditora), medida na escala nominal e assumindo
somente dois valores, e uma única variável resposta, medida na escala de razão
ou de intervalo. O teste t é usualmente conhecido como teste de diferenças de
grupos.
Dois casos típicos serão considerados neste tipo de experimento. O
primeiro é o teste para dados não pareados, ou seja, amostras independentes
(populações não correlacionadas). O segundo, para dados pareados, (populações
correlacionadas). O que diferencia os dois testes é a forma do cálculo da
estatística t. Hipóteses adicionais devem ser atendidas para a validação destes
testes.
Treinamento Sistema – SAS
55
Prof. Luis Felipe Lopes
- AMOSTRAS INDEPENDENTES:
- Nível de Medida: A variável resposta deve ser acessada na escala de razão ou
de intervalo. A variável independente deve estar na escala
nominal e assumir somente dois níveis.
- Observações Independentes: Uma dada observação não pode depender de
qualquer outra entre os dois grupos.
- Amostras Aleatórias: Os valores da variável resposta devem representar uma
amostra aleatória oriunda de uma população normal. Se
cada amostra contiver cerca de 30 observações, o teste
é considerado robusto no que diz respeito à
normalidade.
- Homogeneidade de Variâncias: O teste t exato é utilizado quando o teste F
para igualdade de variâncias leva a não
rejeição da hipótese nula de igualdade de
variâncias na população.
PROC TTEST
A PROC TTEST desempenha um teste de hipótese para checar se a
média de duas populações são iguais. Uma estatística t para o teste é calculada,
assumindo que as variâncias são iguais para os dois grupos. Uma estatística T
aproximada é calculada, assumindo que as variâncias são diferentes. Para testar
a igualdade das variâncias é calculada uma estatística F. Para cada uma das
estatísticas T e F são associados os respectivos graus de liberdade e
probabilidades de significância (p-valor). Se o p-valor é menor que o nível de
significância associado ao teste, o resultado é estatisticamente significante, e a
hipótese nula é rejeitada, ou seja, as médias para os dois grupos são
significativamente diferentes.
Treinamento Sistema – SAS
56
Prof. Luis Felipe Lopes
Os testes paramétricos que envolvem observações pareadas serão
abordados no item 9.2. Os testes não paramétricos serão assunto do próximo
capítulo.
FORMA GERAL:
PROC TTEST DATA = arquivo de dados;
CLASS variável;
VAR variável;
RUN;
COMANDOS DISPONÍVEIS:
CLASS
VAR
nomeia a variável que forma os grupos. Estes grupos podem
assumir somente dois valores distintos, uma vez que o teste utilizado
é para comparação de duas médias.
nomeia a variável cuja média será comparada. Se o comando
VAR for omitido, todas as variáveis numéricas contidas no
arquivo de entrada (exceto as que aparecem no comando
CLASS) serão incluídas na análise.
Ex6.: Dados não pareados com variâncias desconhecidas e supostamente iguais.
Sejam amostras obtidas de dois tipos de cabo de aço em relação à carga de
ruptura. Ao nível de significância de 5% pode-se concluir que o cabo do tipo l
seja mais resistente que o do tipo 2 ?
Carga de Ruptura (Kgf)
Tipo 1
760
755
758
761
755
Tipo 2
758
748
757
753
755
OPTIONS FORMDLIM='*' LS=80;
DATA CABO A;
/* EXEMPL06 SAS */
INPUT TIPO $ CARGA
@@;
CARDS;
Tl
760
T2
758
Tl
755
T2
748
Tl
758
T2
757
Tl
761
T2
753
Tl
755
T2
755
;
PROC TTEST;
CLASS
TIPO;
VAR
CARGA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;
Treinamento Sistema – SAS
57
Prof. Luis Felipe Lopes
ANÁLISE DOS RESULTADOS:
TESTE PARA IGUALDADE DE MEDIAS
TTEST PROCEDURE
Variable: CARGA
TIPO
N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------T1
5 757.8000000 2.77488739
1.24096736 755.0000000 761.0000000
T2
5 754.2000000 3.96232255
1.77200451 748.0000000 758.0000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
1.6641
7.2
0.1392
Equal
1.6641
8.0
0.1347
For H0: Variances are equal, F' = 2.04
DF = (4,4)
Prob>F' = 0.5072
Para comparar dois grupos independentes observa-se primeiramente a linha que
testa a igualdade de variâncias. O p-valor para este teste é dado por
PROB>F'=0.5072 que é maior que 0.10, indicando que as variâncias não são
significantemente diferentes a um nível de 10% de significância.
Utiliza-se então o t-test exato. Para o teste da igualdade de médias, a linha
denominada UNEQUAL dá o resultado de um t-test aproximado, que é utilizado
quando não se pode assumir a igualdade das variâncias os dois grupos de
observações.
O p-valor para o t-test é PROB > ITI = 0.1347 que é maior que 0.05, indicando
que ambas as médias para o cabo do tipo 1 e tipo 2 não são significativamente
diferentes ao nível de 5% de significância. Valores altos para estatística T indicam
diferenças significativas entre as médias. Para o teste exato, o grau de liberdade
DF é calculado como a soma dos tamanhos das amostras dos dois grupos menos
dois (8 = 5 + 5 - 2).
Ex7.: Dados não pareados com variâncias desconhecidas e supostamente
diferentes.
Deseja-se saber se duas máquinas de empacotar café estão fornecendo o
mesmo peso médio por pacote, tanto como uma das máquinas é nova e a
outra velha, é razoável supor-se que trabalhem com diferentes
variabilidades dos pesos colocados nos pacotes. As amostras disponíveis
constam de seis pacotes produzidos pela máquina nova e nove produzidos
pela máquina velha. Os pesos em quilogramas desses pacotes são:
máquina nova
máquina velha
0,82 0,83 0,79 0,81 0,81 0,80
0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78
Qual a conclusão, ao nível de 5% de significância ?
OPTIONS FORMDLIM='*' LS=80;
DATA
CAFÉ
A;
/* EXEMPL07
Treinamento Sistema – SAS
58
SAS */
Prof. Luis Felipe Lopes
INPUT
MAQUINA $ PESO @@,
CARDS;
NOVA
0.82
NOVA
0.83
NOVA
0.79
NOVA
0.81
NOVA
0.81
NOVA
0.80
VELHA 0.79
VELHA 0.82
VELHA 0.73
VELHA 0.74
VELHA 0.80
VELHA 0.77
VELHA 0.75
VELHA 0.84
VELHA 0.78
;
PROC TTEST DATA=CAFE,
CLASS MAQUINA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS – DADOS NÃO PAREADOS';
RUN;
ANÁLISE DOS RESULTADOS:
TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS
TTEST PROCEDURE
Variable: PESO
MAQUINA
N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------NOVA
6 0.81000000 0.01414214 0.00577350
0.79000000 0.83000000
VELHA
9
0.78000000 0.03674235
0.01224745 0.73000000 0.84000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
2.2156
11.1
0.0486
Equal
1.8893
13.0
0.0814
For H0: Variances are equal, F' = 6.75
DF = (8,5)
Prob>F' = 0.0501
O p-valor para o teste de igualdade de variâncias é dado por PROB >F'=0.0501
que é menor que 0.10, indicando que as variâncias são significativamente
diferentes a um nível de 10% de significância. Para o teste de igualdade de
médias, a linha denominada UNEQUAL deve ser utilizada. A um nível de 5% de
significância há diferença significativa entre as médias dos pesos dos pacotes,
pois PROB > ITI = 0.0486 < 0.05.
9.2 Testes para dados pareados
Os resultados de duas amostras constituem dados emparelhados (ou
pareados) quando estão relacionados dois a dois segundo algum critério que
introduz uma influência mercante entre os diversos pares. Esta influência incide
igualmente sobre os valores de cada par.
Treinamento Sistema – SAS
59
Prof. Luis Felipe Lopes
Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante
uma semana a uma dieta com certo tipo de ração. Os pesos das cobaias são
medidos no início e no fim do tratamento, e deseja-se tirar conclusões sobre o
aumento médio do peso verificado. Se os animais forem perfeitamente
identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os
dados serão pareados, pois cada valor da palmeira amostra estará perfeitamente
associado ao respectivo valor da segunda amostra. O critério que garante o
emparelhamento é a identidade de cada cobaia. É razoável esperar que a
identidade de cada animal tenha influência nos valores observados de seu peso,
porém essa influência deve exercer-se de forma aproximadamente igual dentro de
cada para de valores 'antes e depois', logo, ao se tomarem as diferenças entre
vários pares de valores, a influência individual de cada animal tende a
desaparecer, restando apenas os efeitos produzidos pela ração.
No mesmo exemplo, se os animais não fossem identificados, não haveria
como associar os valores das duas amostras, e os dados seriam nãoemparelhados.
Se os dados de duas amostras são emparelhados tem sentido calcular as
diferenças “di” correspondentes a cada par de valores, reduzindo assim os dados
a uma única amostra de n diferenças. Testa-se então a hipótese de que a
diferença entre as médias das populações emparelhadas seja igual a um certo
valor, reduzindo o problema ao teste de uma única média. As hipóteses a serem
atendidas para validação deste teste são listadas baixo:
- AMOSTRAS PAREADAS:
Nível de medida: A variável resposta deve estar na escala de intervalo ou de
razão. A variável independente deve estar na escala nominal
e assumir somente duas categorias.
Observações pareadas: Uma dada observação que aparece em uma condição
tem que estar de algum moda associada à uma
observação correspondente na outra condição.
Observações Independentes: Um valor de dado em uma condição não pode ser
afetado por qualquer outro valor de dado em
ambas condições.
Amostras Aleatórias: Os valores da variável resposta devem representar uma
amostra aleatória oriunda de uma população de interesse.
Distribuição Normal para a diferença de Scores:
As diferenças de scores entre os pares de valores devem ser
normalmente distribuídas. Não há necessidade que a variável resposta seja
normalmente distribuída.
Treinamento Sistema – SAS
60
Prof. Luis Felipe Lopes
Homogeneidade de Variâncias: As populações representadas pelas duas
condições devem ter iguais variâncias .
PROC UNIVARIATE
Para observações pareadas, o primeiro passo é encontrar as diferenças
para cada observação na amostra. O segundo é sumarizar estas diferenças. Para
calcular estas diferenças, pode-se criar uma nova variável no DATA STEP, cuja
média será sumarizada através da PROC UNIVARIATE. Outro caminho para
sumarizar os dados amostrais é produzir gráficos que mostrem a distribuição dos
valores.
Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa ração
durante uma semana. Os animais foram perfeitamente identificados, tendo
sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no
princípio e no fim da semana, são designados respectivamente por peso 1
e peso 2. Ao nível de 5% de significância pode-se concluir que o uso da
ração contribuiu para o aumento do peso médio dos animais? O programa
a seguir provê um teste de hipótese para checar se a diferença média de
pesos é significativamente diferente de zero.
OPTIONS FORMDLIM='*' LS=80;
DATA TRAT A;
/* EXEMPL08 SAS */
INPUT COBAIA
PESO1
PESO2 @@;
DIF= PESO2-PESO1;
CARDS;
1
635
640
2
704
712
3
662
681
4
560
558
5
603
610
6
745
740
7
698
707
8
575
585
9
633
635
10
669
682
;
PROC PRINT;
TITLE 'LISTA DAS DIFERENCAS PAREADAS';
RUN;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS';
PROC CHART;
VBAR DIF;
TITLE 'CARTA PARA DIFERENCAS PAREADAS';
RUN;
Treinamento Sistema – SAS
61
Prof. Luis Felipe Lopes
ANÁLISE DOS RESULTADOS:
LISTA DAS DIFERENCAS PAREADAS
OBS
COBAIA
PESO1
PESO2
DIF
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
635
704
662
560
603
745
698
575
633
669
640
712
681
558
610
740
707
585
635
682
5
8
19
-2
7
-5
9
10
2
13
TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS
Univariate Procedure
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
10
6.6
7.042727
-0.0293
882
106.708
2.963487
10
3
22.5
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
10
66
49.6
0.054015
446.4
2.227106
0.0159
8
0.1094
0.0215
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
19
10
7.5
2
-5
99%
95%
90%
10%
5%
1%
19
19
16
-3.5
-5
-5
24
8
-5
Extremes
Lowest
-5(
-2(
2(
5(
7(
Treinamento Sistema – SAS
Obs
6)
4)
9)
1)
5)
62
Highest
8(
9(
10(
13(
19(
Obs
2)
7)
8)
10)
3)
Prof. Luis Felipe Lopes
O relatório parcial da PROC UNIVARIATE mostra na linha denominada
T:MEAN=0 o valor da estatística de teste T (T=2.9635) e o p-valor associado ao
teste PROB > |T| = 0,0159. O p-valor é menor que 0.05, donde se conclui que a
diferença média dos pesos das cobaias com a utilização da ração é
significativamente diferente de zero. A um nível de 5% de significância o uso da
ração contribui para o aumento do peso médio dos animais.
CARTA PARA DIFERENCAS PAREADAS
Frequency
4 +
*****
|
*****
|
*****
|
*****
|
*****
|
*****
|
*****
3 +
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
2 +
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
1 +
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
--------------------------------------------------------4
4
12
20
DIF Midpoint
O gráfico com a distribuição dos valores das diferenças é obtido através da PROC
CHART. As barras verticais mostram que a mais alta freqüência ocorre para
valores entre 8 e 16, próximo a 12, indicando mais uma vez que a variação média
das diferenças é estatisticamente significante.
Treinamento Sistema – SAS
63
Prof. Luis Felipe Lopes
10 MÉTODOS NÃO PARAMÉTRICOS
10.1 Testes para igualdade de duas médias (PROC NPAR1WAY)
Os testes não paramétricos utilizam-se de poucas suposições a respeito
da distribuição de habilidade dos dados. Ele é indicado quando o tamanho das
amostras analisadas é muito pequeno para validar a suposição de normalidade
dos dados.
PROC NPAR1WAY
A PROC NPARLWAY é um procedimento não paramétrico para testar se
a distribuição de uma variável tem o mesmo parâmetro de locação sobre
diferentes grupos. Ela trabalha com grupos independentes, dados não pareados.
Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o
teste dos ranks de Wilcoxon.
FORMA GERAL:
PROC NPARLWAY DATA= arquivo de dados opções;
VAR variáveis;
CLASS variável;
BY variáveis;
COMANDOS DISPONÍVEIS:
VAR
nomeia variáveis a serem analisadas para a comparação dos dois
grupos. (comando opcional). Uma vez omitido , as análises são
feitas sobre todas as variáveis numéricas do arquivo de dados.
CLASS
nomeia somente uma variável de classificação de grupo. O
comando CLASS é obrigatório. A variável que identifica os grupos
podem ser caracteres ou numéricas.
BY
separa a análise em observações definidas pelas variáveis do
comando BY. Os dados precisam estar ordenados antes de se
utilizar este comando.
OPÇÕES DISPONÍVEIS:
WILCOXON
desempenha o teste da Soma dos Ranks de Wilcoxon para uma
variável de dois níveis. Ele se baseia na soma dos ranks dos
valores observados. Este rank irá indicar a posição de um
determinado valor no conjunto ordenado (crescente ou
decrescentemente), do primeiro ao último elemento Valores iguais
são considerados com um rank médio de modo a não afetar os
rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16,
considerados numa ordem crescente, terão os seguintes ranks: 2,
Treinamento Sistema – SAS
64
Prof. Luis Felipe Lopes
1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo válida a hipótese
nula de identicidade entre as populações, a soma dos postos nas
amostras deveriam fornecer valores intermediários compatíveis
com cada amostra. Com base nessa idéia, determina-se quais os
limites para a soma dos ranks nas amostras, além dos quais
deve-se rejeitar a hipótese nula.
Para uma variável de
classificação que assuma mais que dois níveis, esta opção
corresponde ao Teste de Kruskal- Wallis.
MEDIAN
requisita uma análise dos escores das medianas. Se as
populações são idênticas, a mediana do conjunto formado pelas
duas amostras fornece uma boa estimativa da mediana da
distribuição comum. A proporção de valores abaixo da mediana
geral deve tender a ser a mesma nas duas amostras. O escore da
mediana é 1 para pontos abaixo da mediana geral, e 0 caso
contrário. Para mais que duas amostras, esta opção produz o
Teste de Brown- Mood.
Ex9.: Cólica é um distúrbio comum em cavalos e freqüentemente é fatal. Em
casos extremos uma cirurgia é o único recurso. Pesquisadores estudam
novas técnicas de cirurgia para reduzir os períodos sob anestesia a que
são submetidos os animais. Nove cavalos que se submeteram à cirurgia
foram aleatoriamente assinalados para uma dentre as duas técnicas
utilizadas. A técnica A envolve a suspensão da anestesia depois da sutura
da incisão, e a técnica B envolve a suspensão da anestesia durante a
sutura. O tempo de recuperação da anestesia foi medido em minutos a
partir do final da cirurgia até o momento que o cavalo levanta. Determinar
se os tempos de recuperação diferem para as duas técnicas cirúrgicas
utilizadas.
OPTIONS FORMDLIM='*' LS=80;
DATA ANEST1
A;
/* EXEMPL09 SAS */
INPUT
CAVALO
TECN $ TEMREC @@;
CARDS;
l
A
47
2
A
34
3
A
44
4
A
16
5
A
53
6
B
79
7
B
42
8
B
14
9
B
11
;
PROC NPAR1WAY WILCOXON MEDIAN;
VAR
TEMREC;
CLASS
TECN;
TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA';
RUN;
Treinamento Sistema – SAS
65
Prof. Luis Felipe Lopes
ANÁLISE DOS RESULTADOS:
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable TEMREC
Classified by Variable TECN
TECN
N
Sum of
Scores
Expected
Under H0
Std Dev
Under H0
Mean
Score
A
B
5
4
28.0
17.0
25.0
20.0
4.08248290
4.08248290
5.60000000
4.25000000
Wilcoxon 2-Sample Test (Normal Approximation)
(with Continuity Correction of .5)
S=
17.0000
Z= -.612372
Prob > |Z| =
T-Test approx. Significance =
0.5403
0.5573
Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ= 0.54000
DF= 1
Prob > CHISQ=
0.4624
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
N P A R 1 W A Y
P R O C E D U R E
Median Scores (Number of Points above Median)
for Variable TEMREC
Classified by Variable TECN
TECN
A
B
N
5
4
Sum of
Scores
3.0
1.0
Expected
Under H0
2.22222222
1.77777778
Std Dev
Under H0
0.785674201
0.785674201
Mean
Score
0.600000000
0.250000000
Median 2-Sample Test (Normal Approximation)
S=
1.00000
Z= -.989949
Prob > |Z| =
0.3222
Median 1-Way Analysis (Chi-Square Approximation)
CHISQ= 0.98000
DF=
1
Prob > CHISQ=
0.3222
O p-valor para o teste de Wilcoxon é dado por Prob > |Z|= 0.5403 que é
superior a 0.05. Conclui-se, portanto, que as médias dos tempos de recuperação
não são significativamente diferentes ao nível de 5% de significância.
O p-valor para o teste de medianas é dado por Prob > |Z| = O.3222 que é
maior que 0.05, ou seja, a um nível de 5% de significância não há diferença
significativa entre os tempos de recuperação referentes as duas técnicas
utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximação
de Chi-quadrado.
Treinamento Sistema – SAS
66
Prof. Luis Felipe Lopes
Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo,
Por exemplo feita no sentido de verificar a existência de diferença entre os
tempos de recuperação dentro de cada grupo. O programa a seguir mostra
como desempenhar esta análise.
OPTIONS FORMDLIM='*' LS=80;
DATA ANEST2
A;
/* EXEMP10 SAS */
INPUT CAVALO SEXO $ TECN $ TEMPREC;
CARDS;
l
M
A
47
2
M A
34
3
F
A
44
4
F
A
16
5
F
A
53
6
M B
79
7
M B
42
8
M B
14
9
F
B
11;
PROC SORT; BY SEXO;
PROC NPAR1WAY WILCOXON;
VAR TEMPREC;
CLASS TECN;
BY SEXO;
RUN;
ANÁLISE DOS RESULTADOS:
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
--------------------------------- SEXO=F -------------------------------N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable TEMREC
Classified by Variable TECN
TECN
N
Sum of
Scores
Expected
Under H0
Std Dev
Under H0
Mean
Score
A
B
3
1
9.0
1.0
7.50000000
2.50000000
1.11803399
1.11803399
3.0
1.0
Wilcoxon 2-Sample Test (Normal Approximation)
(with Continuity Correction of .5)
S=
1.00000
Z= -.894427
T-Test approx. Significance =
Prob > |Z| =
0.4370
Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ= 1.8000
DF= 1
Prob > CHISQ=
Treinamento Sistema – SAS
67
0.3711
0.1797
Prof. Luis Felipe Lopes
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
--------------------------------- SEXO=M -------------------------------N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable TEMREC
Classified by Variable TECN
TECN
N
Sum of
Scores
Expected
Under H0
Std Dev
Under H0
Mean
Score
A
B
2
3
6.0
9.0
6.0
9.0
1.73205081
1.73205081
3.0
3.0
Wilcoxon 2-Sample Test (Normal Approximation)
(with Continuity Correction of .5)
S=
6.00000
Z=
0
T-Test approx. Significance =
Prob > |Z| =
0.9999
0.9999
Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ=
0
DF= 1
Prob > CHISQ=
0.9999
O p-valor de 0.3711 é superior a 0.05, ou seja, para o grupo de fêmeas não há
diferença significativa os tempos de recuperação referentes as duas técnicas
utilizadas Prob > |Z| = 0.3711, à um nível de 5% de significância. Para o grupo de
machos, PROB>|Z|=0.9999 também é superior à 0.05, donde se conclui que não
há diferença significativa entre os tempos de recuperação dentro deste subgrupo,
a um nível de 5% de significância.
11 ANÁLISE DE VARIÂNCIA
11.1 Dados balanceados (PROC ANOVA)
Quando se deseja fazer inferências sobre um conjunto de mais que duas
médias, utiliza-se a Análise de Variância.
A Análise da Variância se resume na aplicação de um teste de hipóteses
sobre um experimento projetado estatisticamente. Esta análise permite saber se
há efeitos significativos de determinadas variáveis agindo sobre os resultados
além do erro experimental. Neste capítulo, o termo ANOVA refere-se
especificamente a uma análise paramétrica da variância, que é utilizada se
algumas suposições sobre os dados observados forem atendidas.
As suposições que envolvem uma análise da variância são:
- as observações devem ser independentes: a medida para determinada
observação não afeta a medida de outra observação.
Treinamento Sistema – SAS
68
Prof. Luis Felipe Lopes
- as observações são geradas por uma distribuição normal. Se existe uma
diferença entre os grupos, talvez exista uma distribuição normal específica para
cada grupo.
- as variâncias dos grupos são iguais.
Quando o experimento consiste na análise de uma única variável (ou
fator), com vários níveis, a análise é dita ANOVA a fator único. Para este tipo de
análise, os procedimentos SAS não fazem distinção quanto ao tipo de dados
utilizados: se balanceados ou não. Dados balanceados são aqueles cujos grupos
experimentais tem o mesmo tamanho de amostra. Dados não balanceados, o
tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e
ANOVA, tratam estes dados na devida situação.
PROC ANOVA
A PROC ANOVA para análise da variância a fator único pode ser
utilizada, como visto anteriormente, para ambos dados balanceados e não
balanceados. Em geral, entretanto, não se utiliza a PROC ANOVA para dados
não alanceados. Ela é utilizada para:
- Blocos aleatorizados
- Quadrados latinos
Projetos com Blocos Aleatorizados assumem que uma população de
unidades experimentais pode ser dividida em um número relativamente
homogêneo de subpopulações ou blocos. Os tratamentos são aleatoriamente
atribuídos às unidades experimentais dentro de cada bloco. Se todos os
tratamentos são atribuídos em cada bloco, o projeto é denominado Projeto com
Blocos Completamente Aleatorizados.
Para exemplificar, suponha um experimento que, em função da duração
do mesmo, sejam efetuadas edições pela manhã e outra à tarde. Se a
temperatura influir na variável resposta, a variabilidade do experimento cresce, e a
sensibilidade dos efeitos do fator em análise será prejudicada. Em outras
palavras, entre ma medida feita pela manhã e a outra à tarde, tem-se as
variabilidades devidas ao erro experimental da edição em si, ao efeito do fator (se
houver) e à variação da temperatura. Como a temperatura não é um fator de
interesse no experimento, pode-se dizer que ela aumentou o erro experimental.
Uma maneira de quantificar e isolar esta influência consiste em efetuar um grupo
completo de medições, que inclua todos os níveis do fator pela manhã e outro à
tarde. Cada grupo será homogêneo em relação à temperatura e recebe a
designação de bloco aleatorizado. Quando o projeto envolve a blocagem de mais
de um fator no experimento, ele é denominado de quadrado latino, e é
representado por uma forma quadrada (4 X 4) tendo o fator em estudo
representado por letras latinas.
Treinamento Sistema – SAS
69
Prof. Luis Felipe Lopes
Os aspectos acima descritos dizem respeito ao controle do erro
experimental. Outro aspecto a ser considerado na Análise de Variância seria a
estrutura de tratamento fatorial, que pode ser aplicada à qualquer esquema de
aleatorização. Um experimento fatorial balanceado consiste de todas as possíveis
combinações dos níveis de duas ou mais variáveis. Estes níveis podem se referir
à quantidades numéricas das variáveis, tais como graus de temperatura,
quantidade de fertilizantes, ou à variáveis que definam categorias qualitativas, tais
como tipos de fertilizantes, condições operacionais (Temperatura: baixa, média ou
alta). Um exemplo de experimento fatorial é o estudo envolvendo o uso de
nitrogênio, fósforo e potássio, cada um à três níveis. Este experimento possui 3
**3 = 27 combinações de tratamento. Experimentos fatoriais são utilizados para
investigar não somente todas as diferenças entre os níveis de cada fator (efeitos
principais), como também como os níveis de um fator afetam a variável resposta,
em combinação com os níveis dos demais fatores (interações).
A PROC ANOVA pode ser utilizada interativamente. Uma vez
especificado um modelo com o comando MODEL, que será visto a seguir, e rodar
o procedimento com o comando RUN, outra variedade de comandos poderá ser
executada sem que o procedimento recalcule as estatísticas do modelo geradas
inicialmente.
FORMA GERAL:
PROC ANOVA DATA = arquivo SAS;
CLASS variáveis; /*tratamentos*/
MODEL dependente = efeitos / opções;
MANOVA H = variável / opções;
MEANS efeitos / opções;
OUTPUT OUT = arquivo SAS
P= nova variável
R = nova variável
L95 = nova variável
U95 = nova variável
L95M = nova variável
U95M=nova variável;
RUN;
COMANDOS DISPONÍVEIS:
CLASS
nomeia as variáveis de classificação utilizadas para identificar os
grupos para análise. Este comando tem que aparecer antes do
comando MODEL.
MODEL
nomeia as variáveis dependentes e independentes do modelo.
MANOVA
se o comando MODEL inclui mais que uma variável dependente,
este comando fornece estatísticas multivariadas.
MEANS
gera médias para cada nível das variáveis independentes e para a
interação dos níveis, quando existir.
Treinamento Sistema – SAS
70
Prof. Luis Felipe Lopes
OUTPUT
gera arquivo de saída com as variáveis que irão conter os valores
previstos, residuais, intervalos de confiança para um valor
individual da variável dependente, e intervalos de confiança para
o valor esperado ( média ) da variável dependente.
OPÇÕES DISPONIVEIS NO COMANDO MODEL:
INT
requisita teste associado ao intercepto como parâmetro do
modelo. Por “default”, ele é incluído no modelo, mas o teste
associado não é listado. Com esta opção o teste associado é
listado.
NOINT
requisita que o intercepto não seja usado no modelo.
NOUNI
suprimi estatísticas univariadas.
OPÇÕES DISPONÍVEIS NO COMANDO MANOVA:
H
especifica efeitos no modelo para usar como matriz de hipóteses.
PRINTH
lista a matriz de hipóteses SSCP e a matriz de erro. A opção
PRINTE também lista uma matriz de coeficientes de correlação
parcial e é derivada da matiz de erros SSCP. Esta matriz de
correlação representa a correlação das variáveis dependentes
corrigidas para todos os fatores independentes definidos no
comando MODEL.
OPÇÕES DISPONÍVEIS NO COMANDO MEANS:
As opções especificam os testes utilizados para comparação múltipla e
são aplicadas somente para os termos de efeitos principais .
DUNCAN
desempenha teste de múltiplos ranges para todas as médias dos
efeitos principais especificados no comando MEANS.
TUKEY
desempenha teste de ranges de Student para todas as médias
dos efeitos principais especificados no comando MEANS.
ALPHA
dá os níveis de significância para a comparação entre as médias.
Por “default” Alpha=0.05. Para a opção DUNCAN, somente os
valores 0.01, 0.05 ou 0.1 são válidos. Nas demais opções que
desempenham testes de comparação múltipla, valores entre
0.0001 e 0.9999 são válidos.
Treinamento Sistema – SAS
71
Prof. Luis Felipe Lopes
Teste de Duncan
O teste de Duncan é usado na análise de variância para comparar todo
e qualquer contraste entre duas médias de tratamentos. É menos rigoroso que o
Teste de Tukey, pois detecta diferença significativa entre duas médias quando o o
teste de Tukey não o faz. É um teste bastante usado em trabalhos de
laboratórios, pode ser usado tanto para tratamentos com o mesmo número de
repetições, quanto tratamentos com parcelas perdidas.
Teste de Tukey
O teste de Tukey é usado na análise de variância para comparar todo e
qualquer contraste entre duas médias de tratamentos. É o teste de comparação
de médias mais usado em experimentação, por ser bastante rigoroso e de fácil
aplicação. Ele é mais exato quando os números de repetições das médias dos
tratamentos forem iguais.
Quando o Teste Tukey não der diferença significativa e o teste F for
significativo, o mesmo poderá ser substituído pelo Teste de Duncan, por ser
menos rigoroso, ou trocar o nível de significância para 10%, ou simplesmente
aceitar a análise encontrada.
Teste de Scheffé
O teste de Schfeé é usado na análise de variância numa forma mais
abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer
constraste, pode ser usado tanto para duas médias (contraste simples) como para
mais de duas médias (contraste múltiplo), na qual ele é o mais indicado, por ser
mais rigoroso que o Teste de Tukey.
Análise dos Três Testes
Quando o teste F da análise de variância não for significativo os três
testes acima não terão efeito de aplicação (só se o teste F estiver próximo da
significância). Para melhor visualizar a análise comparativa das médias, as
médias dos tratamentos são colocadas em ordem crescente e para cada conjunto
de médias que não diferem estatisticamente é atribuída uma mesma letra, ou
seja, para letras iguais médias estatisticamente iguais, para letras diferentes
médias estatisticamente diferentes. Para a análise usa-se um nível de
significância de 5%.
Treinamento Sistema – SAS
72
Prof. Luis Felipe Lopes
ESTUDO DE CASO
11.1.1 Experimento Completamente Casualizado
Suponha que os pesquisadores de uma linha de produção automobilística
queiram comparar o desgaste de 4 tipos de pneus.
Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente
os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm
após 10.000 Km rodados pelos 4 carros em condições idênticas de direção.
Considere as seguintes questões:
1 - As unidades experimentais deste experimento são os pneus.
2 - As suposições para análise consistem em tratamentos aleatoriamente
atribuídos para as 16 posições nos 4 carros, com o desgaste por marca de
pneu sendo normalmente distribuído, com variância comum.
3 - O modelo experimental é representado por:
DESGASTE = CTE + efeito TIPO + erro
A hipótese a ser testada é:
Ho: As médias do desgaste para os 4 tipos de pneus são iguais
Leia os dados em um arquivo SAS e análise com a PROC ANOVA a
hipótese testada.
Treinamento Sistema – SAS
73
Prof. Luis Felipe Lopes
OPTIONS FORMDLIM='*' LS=80;
DATA PNEU1 A;
/* EXEMP11 SAS */
INPUT
TIPOS $ DESGASTE @@;
CARDS;
1
1.83
2
2.42
3
1.98
4
1.83
1
1.88
2
2.05
3
1,86
4
1.81
1
1.86
2
2.10
3
2.30
4
1.75
1
1.77
2
2.61
3
2.31
4
1.92
;
PROC ANOVA;
CLASS
TIPO;
MODEL
DESGASTE = TIPO;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;
ANÁLISE DOS RESULTADOS:
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Class Level Information
Class
Levels
TIPO
4
Values
1 2 3 4
Number of observations in data set = 16
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Dependent Variable: DESGASTE
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
3
0.62175000
0.20725000
6.37
0.0079
Error
12
0.39015000
0.03251250
Corrected Total
15
1.01190000
Source
TIPO
R-Square
C.V.
Root MSE
DESGASTE Mean
0.614438
8.937409
0.1803122
2.0175000
DF
3
Anova SS
0.62175000
Mean Square
F Value
Pr > F
0.20725000
6.37
0.0079
A estimativa da variância do erro da população é dada por MSE (Error) = 0.032;
O R_Square descreve a quantidade de variação nos dados que se deve a
diferença existente entre os Grupos. Logo, 61% da variabilidade do modelo é
explicada pela diferença entre os tipos dos pneus.
Treinamento Sistema – SAS
74
Prof. Luis Felipe Lopes
O p-valor dado por Pr > F = 0.0079 é inferior ao nível de significância de 0.10,
donde se conclui que a média do desgaste é significativamente diferente para os
diferentes tipos de pneus.
A Soma dos Quadrados (SS) mede a quantidade de variação atribuída a uma
dada fonte. Note que Model SS e Error SS somam a variação total do modelo.
A média global do desgaste dos pneus é dada por DESGASTE Mean.
O coeficiente de variação CV é calculado multiplicando o desvio padrão por 100 e
dividindo pela média, ou seja. 100 (std/mean).
11.1.2 Experimento com Blocos Aleatorizados
A fim de controlar a influência do fator tipo de carro no desgaste dos
pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu
aparecesse em cada carro, Logo, cada carro consiste num bloco de edições, o
que permite:
- O controle da variação que se deve aos diferentes tipos de carro.
- A eliminação da variação de cada carro em relação aos tipos de pneus
utilizados.
- A obtenção de uma precisão maior do erro do experimento.
O modelo experimental em questão é dado por:
DESGASTE = CTE + efeito TIPO + efeito CARRO + erro
Os efeitos dos blocos são aditivos, ou seja, não existe interação entre o
tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:
Treinamento Sistema – SAS
75
Prof. Luis Felipe Lopes
OPTIONS FORMDLIM='*' LS=80;
DATA PNEU2 A;
/* EXEMP12 SAS */
INPUT TIPO $ CARRO DESGASTE @@;
CARDS;
A
l
1.51
A
2
1.71
A
3
1.78
A
B
l
2.36
B
2
2.45
B
3
2.24
B
C
l
2.20
C
2
2.05
C
3
2.01
C
D
l
1.51
D
2
2.22
D
3
1.73
D
;
PROC ANOVA;
CLASS
TIPO
CARRO;
MODEL DESGASTE = TIPO CARRO;
TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS';
RUN;
4
4
4
4
1.80
2.41
2.01
1.80
ANÁLISE DOS RESULTADOS:
EXPERIMENTO COM BLOCOS ALEATORIZADOS
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
TIPO
4
A B C D
CARRO
4
1 2 3 4
Number of observations in data set = 16
*************************************************************************
EXPERIMENTO COM BLOCOS ALEATORIZADOS
Analysis of Variance Procedure
Dependent Variable: DESGASTE
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
6
1.14733750
0.19122292
6.51
0.0068
Error
9
0.26440625
0.02937847
15
1.41174375
R-Square
C.V.
Root MSE
DESGASTE Mean
0.812709
8.626687
0.1714015
1.9868750
Source
DF
Anova SS
Mean Square
F Value
Pr > F
TIPO
CARRO
3
3
1.04526875
0.10206875
0.34842292
0.03402292
11.86
1.16
0.0018
0.3780
Corrected Total
Treinamento Sistema – SAS
76
Prof. Luis Felipe Lopes
Pode-se notar que estimativa da variância do erro deste experimento é inferior a
vista anteriormente. O fator de blocagem CARRO poderia ser retirado do
experimento, uma vez que ele não é significativo.
11.1.3 Experimento com Quadrado Latino
A localização do pneu no carro pode ter algum efeito sobre o resultado do
desgaste.
Se o interesse for controlar o efeito da localização do pneu a fim de se
obter uma idéia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser
posicionados da seguinte maneira:
Nesse experimento cada tipo de pneu aparece em cada carro, todos os
tipos em diferentes posições.
O modelo experimental é dado por:
DESGASTE = CTE + TIPO + CARRO + POS + ERRO
Os efeitos dos blocos (carro e posição do pneu) são aditivos. Analise a
variância do experimento apresentado.
OPTIONS FORMDLIM='*' LS=80;
DATA PNEU3 A;
/* EXEMP13 SAS */
INPUT CARRO POS
TIPO $ DESGASTE
CARDS;
1 l B 2.23 2 l C 2.31 3 l D 2.07
l 2 C 2.04 2 2 D 1.97 3 2 A 1.69
1 3 D 1.78 2 3 A 1.73 3 3 B 2.20
1 4 A 1.64 2 4 B 2.22 3 4 C 1.80
;
PROC ANOVA;
CLASS CARRO POS TIPO;
MODEL DESGASTE = CARRO POS TIPO;
TITLE 'EXPERIMENTO COM QUADRADO LATINO';
RUN;
4
4
4
4
1
2
3
4
A
B
C
D
1.97
2.59
2.25
1.86
ANÁLISE DOS RESULTADOS:
Treinamento Sistema – SAS
77
Prof. Luis Felipe Lopes
EXPERIMENTO COM QUADRADO LATINO
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
CARRO
4
1 2 3 4
POS
4
1 2 3 4
TIPO
4
A B C D
Number of observations in data set = 16
*************************************************************************
EXPERIMENTO COM QUADRADO LATINO
Analysis of Variance Procedure
Dependent Variable: DESGASTE
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
9
0.98925625
0.10991736
9.99
0.0055
Error
6
0.06598750
0.01099792
15
1.05524375
Corrected Total
R-Square
C.V.
Root MSE
DESGASTE Mean
0.937467
5.186817
0.1048710
2.0218750
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CARRO
POS
TIPO
3
3
3
0.15621875
0.15546875
0.67756875
0.05207292
0.05182292
0.22585625
4.73
4.71
20.54
0.0505
0.0510
0.0015
Observa-se uma redução na variância do erro experimental MS(ERROR) = 0.010.
O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de
pneu é um fator significativo para o modelo, pois Pr > F = 0.0055 é inferior ao
nível de significância de 0.10.
Treinamento Sistema – SAS
78
Prof. Luis Felipe Lopes
12 EXERCÍCIOS RESOLVIDOS E COMENTADOS
1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento
entre o número de atendentes no balcão self-service e as vendas de café.
Quatorze lanchonetes foram escolhidas para teste por serem similares em
alguns aspectos tais como: volume total de negócios, tipo de clientela e
localização. O número de atendentes que são colocados nas lanchonetes-teste
varia de zero a sete (o café é servido numa linha de atendimento), e é
distribuído aleatoriamente em cada lanchonete, como mostra os dados abaixo:
No de
Atendentes
5
1
0
7
5
2
0
6
4
1
6
7
2
4
Vendas
729,1
568,2
508,1
854,7
787,6
651,7
498,4
841,4
755,3
577,3
831,8
871,4
657,0
758,9
Crie um arquivo LANCHE.SAS para:
A) Criar uma tabela das vendas de café X número de atendentes e plote o gráfico.
B) Ajustar um modelo linear de regressão das vendas em função do número de
atendentes. Verifique a existência de pontos fora do padrão, e, através da
PROC UNIVARIATE, verifique a qualidade do ajuste.
C) Idem para o modelo quadrático.
D) Caso seja identificado algum “outlier”, elimine-o da análise e verifique
novamente a qualidade dos resíduos.
OPTIONS FORMDLIM='*' LS=80;
DATA LANCHES A;
INPUT NO_AT VENDAS @@;
NUM2=NO_AT*NO_AT;
CARDS;
5 729.1 1 568.2 0 508.1 7 854.7 5 787.6
2 651.7 0 498.4 6 841.4 4 755.3 1 577.3
6 831.8 7 871.4 2 657.0 4 758.9
;
/* #############( A )################## */
PROC FREQ;
TABLES NO_AT*VENDAS /LIST;
TITLE 'TABELA NO ATENDENTES * VENDAS';
Treinamento Sistema – SAS
79
Prof. Luis Felipe Lopes
RUN;
PROC PLOT;
PLOT VENDAS*NO_AT='*';
TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES';
RUN;
/* #############( B )################## */
PROC REG;
MODEL VENDAS=NO_AT /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO1 R=RESID1;
TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO1 NORMAL;
VAR RESID1;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR';
RUN;
/* #############( C )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO2 R=RESID2;
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO2 NORMAL;
VAR RESID2;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO';
RUN;
/* #############( D )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
WHERE NO_AT NE 5 OR VENDAS NE 729.1;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO3 R=RESID3;
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS';
PROC UNIVARIATE DATA=RESIDUO3 NORMAL;
VAR RESID3;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS';
RUN;
A)
TABELA NO ATENDENTES * VENDAS
Cumulative Cumulative
NO_AT VENDAS
Frequency Percent
Frequency
Percent
---------------------------------------------------------0
498.4
1
7.1
1
7.1
0
508.1
1
7.1
2
14.3
1
568.2
1
7.1
3
21.4
1
577.3
1
7.1
4
28.6
2
651.7
1
7.1
5
35.7
2
657.0
1
7.1
6
42.9
4
755.3
1
7.1
7
50.0
4
758.9
1
7.1
8
57.1
5
729.1
1
7.1
9
64.3
5
787.6
1
7.1
10
71.4
6
831.8
1
7.1
11
78.6
6
841.4
1
7.1
12
85.7
7
854.7
1
7.1
13
92.9
7
871.4
1
7.1
14
100.0
Treinamento Sistema – SAS
80
Prof. Luis Felipe Lopes
DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES
Plot of VENDAS*NO_AT.
Symbol used is '*'.
900 +
|
|
*
|
*
850 +
|
*
|
*
|
800 +
V
|
*
E
|
N
|
*
D750 +
A
|
S
|
|
*
700 +
|
|
|
*
650 +
*
|
|
|
600 +
|
|
*
|
*
550 +
|
|
|*
500 +*
-+--------+--------+--------+--------+--------+--------+--------+0
1
2
3
4
5
6
7
NO_AT
NOTE: 1 obs hidden.
B)
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES
Model: MODEL1
Dependent Variable: VENDAS
Analysis of Variance
Source
DF
Model
Error
C Total
1
12
13
Root MSE
Dep Mean
C.V.
Sum of
Squares
211484.38607
7725.12322
219209.50929
25.37243
706.49286
3.59132
Mean
Square
211484.38607
643.76027
R-square
Adj R-sq
F Value
Prob>F
328.514
0.0001
0.9648
0.9618
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_AT
1
1
526.678767
50.347945
12.01686851
2.77782371
43.828
18.125
0.0001
0.0001
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES
Treinamento Sistema – SAS
81
Prof. Luis Felipe Lopes
Obs
Dep Var
VENDAS
Predict
Value
Std Err
Predict
Residual
Std Err
Residual
Student
Residual
1
2
3
4
5
6
7
8
9
10
11
12
13
14
729.1
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9
778.4
577.0
526.7
879.1
778.4
627.4
526.7
828.8
728.1
577.0
828.8
879.1
627.4
728.1
7.857
9.849
12.017
11.691
7.857
8.065
12.017
9.565
6.885
9.849
9.565
11.691
8.065
6.885
-49.3185
-8.8267
-18.5788
-24.4144
9.1815
24.3253
-28.2788
12.6336
27.2295
0.2733
3.0336
-7.7144
29.6253
30.8295
24.125
23.383
22.346
22.518
24.125
24.057
22.346
23.500
24.420
23.383
23.500
22.518
24.057
24.420
-2.044
-0.377
-0.831
-1.084
0.381
1.011
-1.265
0.538
1.115
0.012
0.129
-0.343
1.231
1.262
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Cook's
D
-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
****|
|
*|
**|
|
|**
**|
|*
|**
|
|
|
|**
|**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
Treinamento Sistema – SAS
0.222
0.013
0.100
0.158
0.008
0.057
0.232
0.024
0.049
0.000
0.001
0.016
0.085
0.063
0
7725.1232
10165.3789
82
Prof. Luis Felipe Lopes
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES
RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----|
|
40 +
+
|
*
|
|
*
|
|
*
|
|
*
|
20 +
+
|
*
|
|
*
|
|
|
|
*
|
0 +
*
+
|
*
|
|
*
|
|
|
|
*
|
-20+
+
|
*
|
|
|
|
*
|
|
|
-40+
+
|
|
|
|
|
*
|
|
|
-60+
+
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR
Univariate Procedure
Variable=RESID1
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
14
0
24.37704
-0.44594
7725.123
.
0
14
1
4.5
0.952408
Treinamento Sistema – SAS
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
83
14
0
594.2402
-0.49803
7725.123
6.515039
1.0000
8
0.7905
0.8077
0.5667
Prof. Luis Felipe Lopes
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
30.82945
24.32534
1.653425
-18.5788
-49.3185
99%
95%
90%
10%
5%
1%
80.14795
42.90411
-49.3185
30.82945
30.82945
29.62534
-28.2788
-49.3185
-49.3185
Extremes
Lowest
-49.3185(
-28.2788(
-24.4144(
-18.5788(
-8.82671(
Obs
1)
7)
4)
3)
2)
Highest
12.63356(
24.32534(
27.22945(
29.62534(
30.82945(
Obs
8)
6)
9)
13)
14)
COMENTÁRIO:
O modelo de regressão linear explica 96.48% da variabilidade das vendas de
café. Tanto o intercepto quanto o parâmetro relativo ao número de atendentes são
significativos para o modelo (p-valor=0.0001).O plote dos resíduos de Student
indica que a 1a observação do arquivo está num range suspeito. O plote dos
resíduos sugere a necessidade de um termo quadrático. No teste de normalidade
obtido com a PROC UNIVARIATE, há indicação de normalidade dos resíduos. Um
termo quadrático deve ser considerado nas análises.
C)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES
Model: MODEL1
Dependent Variable: VENDAS
Analysis of Variance
Source
DF
Model
Error
C Total
2
11
13
Root MSE
Dep Mean
C.V.
Sum of
Squares
Mean
Square
F Value
Prob>F
214249.72406
4959.78522
219209.50929
107124.86203
450.88957
237.586
0.0001
21.23416
706.49286
3.00557
R-square
Adj R-sq
0.9774
0.9733
Parameter Estimates
Variable
DF
INTERCEP
NO_AT
NUM2
1
1
1
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
507.641529
12.65833646
40.103
0.0001
72.191126
9.12139574
7.914
0.0001
-3.151289
1.27247482
-2.477
0.0308
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES
Dep Var
Predict
Treinamento Sistema – SAS
Std Err
Std Err
84
Student
Prof. Luis Felipe Lopes
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
VENDAS
729.1
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9
Value
Predict
Residual
Residual
Residual
789.8
576.7
507.6
858.6
789.8
639.4
507.6
827.3
746.0
576.7
827.3
858.6
639.4
746.0
8.026
8.244
12.658
12.829
8.026
8.319
12.658
8.026
9.248
8.244
8.026
12.829
8.319
9.248
-60.7149
-8.4814
0.4585
-3.8663
-2.2149
12.2814
-9.2415
14.0581
9.3146
0.6186
4.4581
12.8337
17.5814
12.9146
19.659
19.569
17.049
16.921
19.659
19.537
17.049
19.659
19.114
19.569
19.659
16.921
19.537
19.114
-3.088
-0.433
0.027
-0.228
-0.113
0.629
-0.542
0.715
0.487
0.032
0.227
0.758
0.900
0.676
Cook's
D
-2-1-0 1 2
|******|
|
|
|
|
|
|
|
|
|
|*
|
*|
|
|*
|
|
|
|
|
|
|
|*
|
|*
|
|*
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
Treinamento Sistema – SAS
0.530
0.011
0.000
0.010
0.001
0.024
0.054
0.028
0.019
0.000
0.003
0.110
0.049
0.036
0
4959.7852
7100.0421
85
Prof. Luis Felipe Lopes
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES
RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----20 +
+
|
*
|
|
*
*
*
|
|
*
|
10 +
*
+
|
|
|
*
|
|
|
0 +
*
*
+
|
*
|
|
*
|
|
*
|
-10 +
*
+
|
|
|
|
|
|
-20 +
+
|
|
|
|
|
|
-30 +
+
|
|
|
|
|
|
-40 +
+
|
|
|
|
|
|
-50 +
+
|
|
|
|
|
|
-60 +
*
+
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO
Univariate Procedure
Variable=RESID2
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
14
0
19.53259
-2.52959
4959.785
.
0
14
2
18.5
0.714683
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
14
0
381.5219
7.77964
4959.785
5.220303
1.0000
9
0.4240
0.2676
0.0004
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
17.58138
12.83375
2.538376
-3.86625
-60.7149
99%
95%
90%
10%
5%
1%
17.58138
17.58138
14.05812
-9.24153
-60.7149
-60.7149
78.29631
16.7
Treinamento Sistema – SAS
86
Prof. Luis Felipe Lopes
Mode
-60.7149
Extremes
Lowest
-60.7149(
-9.24153(
-8.48137(
-3.86625(
-2.21494(
Obs
1)
7)
2)
4)
5)
Highest
12.28138(
12.83375(
12.91459(
14.05812(
17.58138(
Obs
6)
12)
14)
8)
13)
COMENTÁRIO:
No ajuste quadrático observa-se que a soma dos quadrados devido ao erro da
regressão diminuiu relativamente à regressão linear, e o R-square aumentou para
97.74%. Todos os parâmetros relativos ao ajuste quadrático são significativos
para o modelo ao nível de 5%. Os resíduos indicam aleatoriedade (alternância
homogênea de pontos positivos e negativos). Com o plote dos resíduos de
Student, pode-se verificar a existência de um ponto fora do padrão. Para verificar
a qualidade do ajuste, indica-se o teste para a normalidade dos resíduos. Ao nível
de α = 5% de significância, Prob<W=0.0004<α, indicando a não normalidade dos
resíduos. Considerando a 1a observação como um 'outlier', ela pode estar
influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta
observação.
D)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS
Model: MODEL1
Dependent Variable: VENDAS
Analysis of Variance
Sum of
Squares
Source
DF
Model
Error
C Total
2 218000.01432
10
659.09799
12 218659.11231
Root MSE
Dep Mean
C.V.
8.11849
704.75385
1.15196
Treinamento Sistema – SAS
Mean
Square
109000.00716
65.90980
R-square
Adj R-sq
87
F Value
Prob>F
1653.775
0.0001
0.9970
0.9964
Prof. Luis Felipe Lopes
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_AT
NUM2
1
1
1
502.811932
79.780492
-4.071212
4.87646962
3.61173750
0.49965821
103.110
22.089
-8.148
0.0001
0.0001
0.0001
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS
Obs
Dep Var
VENDAS
Predict
Value
Std Err
Predict
Residual
Std Err
Residual
Student
Residual
1
2
3
4
5
6
7
8
9
10
11
12
13
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9
578.5
502.8
861.8
799.9
646.1
502.8
834.9
756.8
578.5
834.9
861.8
646.1
756.8
3.160
4.876
4.921
3.314
3.286
4.876
3.209
3.781
3.160
3.209
4.921
3.286
3.781
-10.3212
5.2881
-7.0860
-12.3341
5.6119
-4.4119
6.4688
-1.4945
-1.2212
-3.1312
9.6140
10.9119
2.1055
7.478
6.491
6.457
7.411
7.424
6.491
7.457
7.184
7.478
7.457
6.457
7.424
7.184
-1.380
0.815
-1.097
-1.664
0.756
-0.680
0.867
-0.208
-0.163
-0.420
1.489
1.470
0.293
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
Cook's
D
-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
**|
|*
**|
***|
|*
*|
|*
|
|
|
|**
|**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
Treinamento Sistema – SAS
0.113
0.125
0.233
0.185
0.037
0.087
0.046
0.004
0.002
0.011
0.429
0.141
0.008
0
659.0980
1140.4168
88
Prof. Luis Felipe Lopes
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS
RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----|
|
15 +
+
|
|
|
|
|
*
|
10 +
+
|
*
|
|
*
|
|
*
|
5 +
*
+
|
|
|
*
|
|
|
0 +
+
|
*
*
|
|
*
|
|
*
|
-5 +
+
|
|
|
*
|
|
|
-10 +
*
+
|
*
|
|
|
|
|
-15 +
+
|
|
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS
Univariate Procedure
Variable=RESID3
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
13
0
7.411129
-0.1599
659.098
.
0
13
-0.5
0.5
0.965059
Treinamento Sistema – SAS
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
89
13
0
54.92483
-1.01313
659.098
2.055477
1.0000
6
1.0000
1.0000
0.7796
Prof. Luis Felipe Lopes
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
10.91193
5.611932
-1.22121
-4.41193
-12.3341
99%
95%
90%
10%
5%
1%
23.24602
10.02386
-12.3341
10.91193
10.91193
9.614015
-10.3212
-12.3341
-12.3341
Extremes
Lowest
-12.3341(
-10.3212(
-7.08598(
-4.41193(
-3.13125(
Obs
4)
1)
3)
6)
10)
Highest
5.288068(
5.611932(
6.46875(
9.614015(
10.91193(
Obs
2)
5)
7)
11)
12)
COMENTÁRIO:
O coeficiente de determinação para este ajuste é de 99,70%. A soma dos
quadrados devido ao erro da regressão caiu de 4959,78 para 659,09, e no teste
da normalidade de resíduos o p-valor associado é Pr<W=0.77>α, indicando a
normalidade dos resíduos.
2) Três testes foram aplicados para a admissão de crianças em uma escola. São
eles: Inteligência, Psicomotricidade e Motivação. Os coeficientes de rendimento
são guardados em uma variável chamada CR. As notas e o CR obtidos por
cada criança são mostrados a seguir. Criar um arquivo TESTE.SAS para
resolver este problema.
QI
80
75
71
71
71
65
60
60
59
57
65
PSICO
36
35
34
33
30
35
20
25
31
31
35
MOTIVA
10
10
9
9
10
9
7
7
9
9
9
CR
10
10
9
9
8
7
7
7
7
7
8
A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem
importância significativa no processo de seleção da escola? Use a PROC
CORR para verificar o grau de associação de cada teste com o coeficiente de
rendimento dos alunos.
Treinamento Sistema – SAS
90
Prof. Luis Felipe Lopes
B) A variável CR depende das notas obtidas pelas crianças nos três
testes. Supondo que o CR vai linearmente de acordo com as notas, testar
pela análise da variância, a significância da equação de regressão.
Primeiramente ajuste um modelo de regressão múltipla aos dados e,
passo a passo, identifique as variáveis mais significativas para o modelo.
OPTIONS FORMDLIM='*' LS=80;
DATA TESTE A;
INPUT QI PSICO MOTIVA CR @@;
CARDS;
80 36 10 10 75 35 10 10
71 34 9 9 71 33 9 9
71 30 10 8 65 35 9 7
60 20 7 7 60 25 7 7
59 31 9 7 57 31 9 7
65 35 9 8
;
/* #############( A )################## */
PROC CORR;
VAR QI PSICO MOTIVA;
WITH CR;
TITLE 'ANALISE DE CORRELACAO';
RUN;
/* #############( B.1 )################ */
PROC REG;
MODEL CR = QI PSICO MOTIVA;
OUTPUT OUT=RESID1 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
RUN;
/* #############( B.2 )################ */
PROC REG;
MODEL CR = QI /NOINT;
OUTPUT OUT=RESID2 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
PROC UNIVARIATE NORMAL PLOT;
VAR RESIDUAL;
TITLE 'ANALISE DOS RESIDUOS';
RUN;
A)
ANALISE DE CORRELACAO
Correlation Analysis
3 'VAR'
1 'WITH' Variables: CR
Variables: QI
PSICO
MOTIVA
Simple Statistics
Variable
CR
QI
PSICO
MOTIVA
N
Mean
Std Dev
Sum
Minimum
Maximum
11 8.09091
11 66.72727
11 31.36364
11 8.90909
1.22103
7.41742
4.92489
1.04447
89.00000
734.00000
345.00000
98.00000
7.00000
57.00000
20.00000
7.00000
10.00000
80.00000
36.00000
10.00000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 11
CR
QI
PSICO
MOTIVA
0.93048
0.0001
0.59261
0.0547
0.63442
0.0360
COMENTÁRIO:
Treinamento Sistema – SAS
91
Prof. Luis Felipe Lopes
QI é um fator significativamente importante dentro do processo de seleção dos
alunos: Coef. Corr. Pearson (QI) = 0.93 e p-valor = 0.00001 < α, para níveis de
1%, 5% e 10%. O p-valor associado ao teste de correlação nula para PSICO
supera os níveis usuais de significância, evidenciando a hipótese nula, ou seja, a
correlação é baixa entre a variável PSICO e o CR do aluno. Ao nível de 1% de
significância há evidência de H0. Já aos níveis de 5% e 10% há indicações que a
verdadeira correlação entre CR e MOTIVA difere de zero.
B.1)
ANALISE DE REGRESSAO MULTIPLA
Model: MODEL1
Dependent Variable: CR
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
F Value
Prob>F
Model
Error
C Total
3
7
10
12.97836
1.93073
14.90909
4.32612
0.27582
15.685
0.0017
Root MSE
Dep Mean
C.V.
0.52518
8.09091
6.49104
R-square
Adj R-sq
0.8705
0.8150
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
QI
PSICO
MOTIVA
1
1
1
1
-2.009199
0.151679
0.030064
-0.108196
1.61813951
0.03066149
0.05964986
0.30874764
-1.242
4.947
0.504
-0.350
0.2543
0.0017
0.6297
0.7363
Treinamento Sistema – SAS
92
Prof. Luis Felipe Lopes
ANALISE DE REGRESSAO MULTIPLA
RESIDUAL
------+------+------+------+------+------+------+------+------+-----0.8 +
+
|
|
|
*
|
|
|
0.6 +
+
|
|
|
|
0.4 +
*
+
|
|
|
*
|
0.2 +
*
+
|
*
|
|
*
*
|
|
|
0.0 +
+
|
*
|
|
*
|
|
|
-0.2+
+
|
|
|
|
|
|
-0.4+
+
|
|
|
|
|
*
|
-0.6+
+
|
|
|
|
|
|
-0.8+
+
|
|
|
*
|
|
|
-1.0+
+
------+------+------+------+------+------+------+------+------+-----6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
10.5
Predicted Value of CR
PRED
COMENTÁRIO:
O modelo obtido para CR, com a Regressão Múltipla é dados por:
CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA
Pode-se notar que o erro padrão relativo à estimativa do parâmetro de QI é bem
pequeno (Standard Error=0.03). Este modelo explica 87% da variação de CR.
Como Prob>F=0.0017 é 'fechado' em zero, há evidências da hipótese nula, isto é,
ao menos 1 parâmetro do modelo deve ser diferente de zero. O p-valor para o
intercepto, PSICO e MOTIVA são altos, havendo grandes chances dos
parâmetros relativos à estas variáveis serem iguais a zero. Já o parâmetro relativo
à variável QI (pvalor = 0.0015), existe forte evidência que seja significativamente
diferente de zero. Podemos testar portanto, um novo modelo de regressão, porém
sem o intercepto e apenas com a variável QI.
A rotina (B.2) desempenham esta tarefa.
ANALISE DE REGRESSAO MULTIPLA
Model: MODEL1
NOTE: No intercept in model. R-square is redefined.
Treinamento Sistema – SAS
93
Prof. Luis Felipe Lopes
Dependent Variable: CR
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
F Value
Prob>F
Model
Error
U Total
1
10
11
732.44486
2.55514
735.00000
732.44486
0.25551
2866.554
0.0001
Root MSE
Dep Mean
C.V.
0.50548
8.09091
6.24755
R-square
Adj R-sq
0.9965
0.9962
Parameter Estimates
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
1
0.121608
0.00227134
53.540
0.0001
Treinamento Sistema – SAS
94
Variable
QI
Prof. Luis Felipe Lopes
ANALISE DE REGRESSAO MULTIPLA
RESIDUAL
----+----+----+----+----+----+----+----+----+----+----+----+----+---|
|
1.0 +
+
|
|
|
*
|
0.8 +
+
|
|
|
|
0.6 +
+
|
|
|
|
0.4 +
+
|
*
|
|
*
|
0.2 +
+
|
*
|
|
*
|
0.0 +
+
|
|
|
*
|
-0.2+
+
|
|
|
*
|
-0.4+
+
|
|
|
|
-0.6+
+
|
*
|
|
|
-0.8+
+
|
|
|
*
|
-1.0+
+
|
|
----+----+----+----+----+----+----+----+----+----+----+----+----+---6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75
Predicted Value of CR
PRED
ANALISE DOS RESIDUOS
Univariate Procedure
Variable=RESIDUAL
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
11 Sum Wgts
11
0 Sum
0
0.4394 Variance
0.193073
-0.89363 Kurtosis
1.147284
1.930728 CSS
1.930728
. Std Mean
0.132484
0 Pr>|T|
1.0000
11 Num > 0
7
1.5 Pr>=|M|
0.5488
5 Pr>=|S|
0.7002
0.925844 Pr<W
0.3534
Quantiles(Def=5)
0.663001
0.221649
0.071596
-0.12546
-0.9284
99%
95%
90%
10%
5%
1%
1.591405
0.347107
-0.9284
0.663001
0.663001
0.405283
-0.57997
-0.9284
-0.9284
Extremes
Lowest
-0.9284(
Treinamento Sistema – SAS
Obs
Highest
6) 0.101925(
95
Obs
9)
Prof. Luis Felipe Lopes
-0.57997(
-0.12546(
-0.08576(
0.064553(
Stem
6
4
2
0
-0
-2
-4
-6
-8
5) 0.191585(
1) 0.221649(
8) 0.405283(
7) 0.663001(
Leaf
6
1
2
6709
39
#
1
1
1
4
2
8
1
3)
4)
10)
2)
Boxplot
|
|
+-----+
*--+--*
+-----+
|
|
3
1
0
----+----+----+----+
Multiply Stem.Leaf by 10**-1
ANALISE DOS RESIDUOS
Univariate Procedure
Variable=RESIDUAL
Residual
Normal Probability Plot
0.7+
++*++
|
+*++
|
++*++
|
* *+*++*
-0.1+
* *++++
|
+++++
|
++*+
|
+++++
-0.9+
++++ *
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2
COMENTÁRIO:
A regressão linear de CR em função unicamente do QI da criança é bem
significativa. O modelo proposto CR= 0.12 QI explica 99.65% da variabilidade do
CR. O gráfico do resíduos apresenta uma alternância de sinais positivos e
negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste:
A hipótese de normalidade não deve ser rejeitada, pois Prob<W=0.35 é alto. O
valor para a assimetria Skewness = -0.894, encontra-se dentro do intervalo de [1.26, 1.26], confirmando a hipótese testada.
3) Um proprietário está interessado em analisar o efeito de seu ar condicionado
na sua conta de luz. Para isto ele tem registrado o número de horas de
utilização do ar nos últimos 21 dias. Ele tem monitorado o relógio de
eletricidade para estes dias e computado a quantidade de eletricidade
consumida, Killowat/Hora. Finalmente ele registrou o número de vezes que
sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros
abaixo, relativos ao consumo de eletricidade do proprietário.
CONSUMO
35
63
66
17
94
Treinamento Sistema – SAS
NO_HORA
S
1,5
4,5
5,0
2,0
8,5
96
USO_SEC
1
2
2
0
3
Prof. Luis Felipe Lopes
79
93
66
94
82
78
65
77
75
62
85
43
57
33
65
33
6,0
13,5
8,0
12,5
7,5
6,5
8,0
7,5
9,0
7,5
12,0
6,0
2,5
5,0
7,5
6,0
3
1
1
1
2
3
1
2
2
1
1
0
3
0
1
0
Pede-se:
A) Obter um plot do Consumo X Número de Horas ar para verificar o efeito que o
ar condicionado tem no consumo de eletricidade.
B) Use a PROC CORR para obter o coeficiente de correlação entre o consumo e
o tempo de utilização do ar.
C) Para verificar a forma de relacionamento entre as duas variáveis acima
descritas utilize a análise de regressão fazendo o ajuste de uma reta através
dos pontos obtidos no plot do item A.
D) Suponha que o proprietário queira predizer o consumo em um dia que o ar seja
usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo
quando o Número de Horas ar = 8
Treinamento Sistema – SAS
97
Prof. Luis Felipe Lopes
E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de
utilização de ar varia num range de 45 a 85 KWH,
dependendo de outros fatores que possam afetar o consumo
naquele dia . O proprietário pode colocar limites de confiança
para um determinado valor predito, como o encontrado no
Item D. Estes limites fornecem um range provável para
ocorrência do no. de KWH consumido em um determinado
dia. Com a PROC REG riste os valores preditos do consumo
e os respectivos limites de predição .
F) Para melhor visualização gráfica do ajuste, obter um plot que contenha os
valores do no. de horas de utilização do ar, os valores preditos e os limites de
predição a 95% de confiança para o consumo. (Utilize a opção overlay com o
comando plot da PROC REG para que os plotes saiam no mesmo gráfico).
G) O proprietário também registrou o no. de vezes que sua secadora foi utilizada
a cada dia . Esta variável pode ser utilizada em adição ao no. de horas de ar
para predizer o valor do consumo de eletricidade ? Use a PROC REG para
ajustar um modelo de regressão múltipla para os dados acima.
OPTIONS FORMDLIM='*' LS=80;
DATA ENERGIA A;
INPUT CONSUMO NO_HORAS USO_SEC @@;
CARDS;
35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0
94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1
94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1
77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1
43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1
33 6.0 0
;
/* #############( A )################## */
PROC PLOT;
PLOT CONSUMO*NO_HORAS;
TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS';
RUN;
/* #############( B )################## */
PROC CORR;
VAR CONSUMO;
WITH NO_HORAS;
TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS';
RUN;
/* #############( C-E )############### */
PROC REG;
MODEL CONSUMO=NO_HORAS;
ID NO_HORAS;
VAR USO_SEC;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS';
PRINT CLI;
TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO';
RUN;
/* #############( F )################## */
PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_'
L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY;
TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA';
RUN;
Treinamento Sistema – SAS
98
Prof. Luis Felipe Lopes
/* #############( G )################## */
PROC REG;
MODEL CONSUMO=NO_HORAS USO_SEC;
TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA';
RUN;
A)
DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS
Plot of CONSUMO*NO_HORAS.
Legend: A = 1 obs, B = 2 obs, etc.
CONSUMO
|
|
95 +
A
A
93 +
A
91 +
89 +
87 +
85 +
A
83 +
A
81 +
79 +
A A
77 +
A
75 +
A
73 +
71 +
69 +
67 +
A
A
65 +
A A
63 +
A
A
61 +
59 +
57 +
A
55 +
53 +
51 +
49 +
47 +
45 +
43 +
A
41 +
39 +
37 +
35 +
A
33 +
A
A
31 +
29 +
27 +
25 +
23 +
21 +
19 +
17 +
A
|
-+--------+--------+--------+---------+---------+---------+---------+
0
2
4
6
8
10
12
14
NO_HORAS
Treinamento Sistema – SAS
99
Prof. Luis Felipe Lopes
COMENTÁRIO:
O plote mostra uma tendência crescente entre as variáveis.
B)
ANALISE DE CORRELACAO CONSUMO E NO HORAS
Correlation Analysis
1 'WITH' Variables: NO_HORAS
1 'VAR' Variables: CONSUMO
Simple Statistics
Variable
NO_HORAS
CONSUMO
N
Mean
Std Dev
Sum
Minimum
Maximum
21
21
6.92857
64.85714
3.13562
21.88444
145.50000
1362
1.50000
17.00000
13.50000
94.00000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21
CONSUMO
NO_HORAS
0.76528
0.0001
COMENTÁRIO:
O valor do Coef. Corr. Pearson=0.765 reflete a tendência crescente mostrada no
plote, ou seja, quando há um aumento do uso do ar, há aumento no consumo de
energia.
C)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO
Model: MODEL1
Dependent Variable: CONSUMO
Analysis of Variance
Source
Model
Error
C Total
Root MSE
Dep Mean
C.V.
DF
1
19
20
Sum of
Squares
5609.66260
3968.90883
9578.57143
14.45303
64.85714
22.28440
Treinamento Sistema – SAS
Mean
Square
5609.66260
208.88994
R-square
Adj R-sq
100
F Value
26.855
Prob>F
0.0001
0.5856
0.5638
Prof. Luis Felipe Lopes
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_HORAS
1
1
27.851072
5.341082
7.80653827
1.03067009
3.568
5.182
0.0021
0.0001
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO
RESIDUAL
-+----+----+----+----+----+----+----+----+----+----+----+----+----+-|
|
30 +
+
|
|
|
|
|
|
|
*
|
20 +
+
|
*
|
|
*
*
|
|
*
|
|
* *
|
10 +
+
|
*
|
|
|
|
*
|
|
|
0 +
*
+
| *
*
|
|
*
|
|
* *
|
|
*
* |
-10 +
+
|
|
|
|
|
*
|
-20 +
+
|
*
*
|
|
|
|
*
|
-30 +
+
|
|
-+----+----+----+----+----+----+----+----+----+----+----+----+----+-35
40
45
50
55
60
65
70
75
80
85
90
95
100
Predicted Value of CONSUMO
PRED
COMENTÁRIO:
O modelo de regressão obtido é dado por:
CONSUMO = 27.85 + 5.341 NO_HORAS
E pode ser interpretado como: Quando NO_HORAS = 0, há um nível de consumo
mínimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento
estimado do consumo é de 5.341 kwh.
Treinamento Sistema – SAS
101
Prof. Luis Felipe Lopes
D)
Os dados do arquivo contém 3 observações com N0_HORAS = 8, cujos valores
correspondentes para CONSUMO são 66, 65 e 75. Isso mostra a existência de
um faixa de possíveis valores de CONSUMO para um dado valor de NO_HORAS.
No modelo de regressão estimado, para o valor de NO_HORAS = 8:
CONSUMO = 27.85 - 5.34 * 8 = 70,57.
E)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO
Obs
NO_HORAS
Dep Var
CONSUMO
Predict
Value
Std Err
Predict
Lower95%
Predict
Upper95%
Predict
Residual
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1.5
4.5
5
2
8.5
6
13.5
8
12.5
7.5
6.5
8
7.5
8
7.5
12
6
2.5
5
7.5
6
35.0000
63.0000
66.0000
17.0000
94.0000
79.0000
93.0000
66.0000
94.0000
82.0000
78.0000
65.0000
77.0000
75.0000
62.0000
85.0000
43.0000
57.0000
33.0000
65.0000
33.0000
35.8627
51.8859
54.5565
38.5332
73.2503
59.8976
99.9557
70.5797
94.6146
67.9092
62.5681
70.5797
67.9092
70.5797
67.9092
91.9441
59.8976
41.2038
54.5565
67.9092
59.8976
6.423
4.026
3.728
5.979
3.545
3.296
7.471
3.342
6.551
3.208
3.185
3.342
3.208
3.342
3.208
6.105
3.296
5.548
3.728
3.208
3.296
2.7597
20.4834
23.3158
5.7963
42.1028
28.8704
65.9024
39.5312
61.4013
36.9223
31.5919
39.5312
36.9223
39.5312
36.9223
59.1057
28.8704
8.8010
23.3158
36.9223
28.8704
68.9657
83.2884
85.7971
71.2702
104.4
90.9247
134.0
101.6
127.8
98.8961
93.5443
101.6
98.8961
101.6
98.8961
124.8
90.9247
73.6065
85.7971
98.8961
90.9247
-0.8627
11.1141
11.4435
-21.5332
20.7497
19.1024
-6.9557
-4.5797
-0.6146
14.0908
15.4319
-5.5797
9.0908
4.4203
-5.9092
-6.9441
-16.8976
15.7962
-21.5565
-2.9092
-26.8976
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
0
3968.9088
4728.5664
COMENTÁRIO:
O intervalo de confiança para os valores preditos de AC é dado por:
IC NO_HORAS = [ NO_HORAS ± ( ttab * S) ]
Para α = 0.05 (α/2 = 0.025 ), o valor da estatística t consultado na Tabela de uma
Distribuição T de Student é:
t (1-α/2, 19) = t (0.975, 19) = 2.09
Treinamento Sistema – SAS
102
Prof. Luis Felipe Lopes
Logo:
IC NO_HORAS = [ NO_HORAS ± ( 2.09 * 1.03 ) ]
F)
LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA
CONSUMO
--+----+---+---+----+----+----+----+----+----+----+----+----+----+--140 +
+
|
U
|
|
|
|
U
|
|
U
|
|
|
20 +
+
|
|
|
|
|
|
|
U
|
|
U
|
100 +
U
_
+
|
|
|
U
O
?
O
|
|
U
_
|
|
|
|
U
O
|
|
U
O
|
80 +
O
+
|
O
O
|
|
U
O _
|
|
U
_
|
| U
_
|
|
O
O O
L
|
|
O
_
O
|
60 +
_
L L
+
|
O
|
|
_
|
|
_
|
|
|
|
O
L
|
40 +
_
L
+
| _ _
L
|
| O
O
O
|
|
L
|
|
L
|
|
|
|
L
|
20 +
L
+
|
O
|
|
|
|
L
|
|
L
|
| L
|
0 +
+
--+----+---+---+----+----+----+----+----+----+----+----+----+----+--1
2
3
4
5
6
7
8
9
10
11
12
13
14
NO_HORAS
COMENTÁRIO:
Pode-se observar que todos os pontos reais e previstos estão dentro dos limites
de predição.
G)
REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA
Model: MODEL1
Treinamento Sistema – SAS
103
Prof. Luis Felipe Lopes
Dependent Variable: CONSUMO
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
F Value
Prob>F
Model
Error
C Total
2
18
20
9299.80154
278.76989
9578.57143
4649.90077
15.48722
300.241
0.0001
Root MSE
Dep Mean
C.V.
3.93538
64.85714
6.06777
R-square
Adj R-sq
0.9709
0.9677
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_HORAS
USO_SEC
1
1
1
8.105385
5.465903
13.216600
2.48085116
0.28075519
0.85621937
3.267
19.469
15.436
0.0043
0.0001
0.0001
COMENTÁRIO:
Observa-se que:
SS(Erro) múltipla = 278.76 < SS (Erro) simples
O modelo:
CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC
representa 97% da variabilidade do consumo de energia. O valor de 8,10
representa o número de kwh consumido num dia onde nem o ar e nem a
secadora são utilizados. O valor de 5,466 é a estimativa de energia consumida
para cada hora de uso do ar, e 13,217 representa a estimativa de energia
consumida a cada vez que a secadora é ligada.
4) Uma droga que mistura estimulante e relaxante é administrada em 15 animais.
taxa de pulsação é medida antes e depois da administração da droga. O
propósito do experimento é determinar se existe uma mudança na taxa de
pulsação com o uso da droga. Os dados são apresentados abaixo:
Treinamento Sistema – SAS
104
Prof. Luis Felipe Lopes
ANTES
62
63
58
64
64
51
68
66
65
66
67
69
61
64
61
63
DEPOIS
61
62
51
61
63
58
61
64
64
62
68
65
60
65
63
62
OPTIONS FORMDLIM='*' LS=80;
DATA APT A;
INPUT ANIMAL ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61
7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60
13 64 65 14 61 63 15 63 62
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA';
RUN;
TESTE PARA DIFERENCAS DE OBS. PAREADA
Univariate Procedure
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
15
-1.4
3.521363
0.508266
203
-251.526
-1.53979
15
-3.5
-29.5
Treinamento Sistema – SAS
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
105
15
-21
12.4
1.407817
173.6
0.909212
0.1459
4
0.1185
0.0984
Prof. Luis Felipe Lopes
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
7
1
-1
-4
-7
Range
Q3-Q1
Mode
14
5
-1
Lowest
-7(
-7(
-4(
-4(
-3(
Obs
6)
3)
11)
9)
4)
99%
95%
90%
10%
5%
1%
7
7
2
-7
-7
-7
Extremes
Highest
-1(
1(
1(
2(
7(
Obs
15)
10)
13)
14)
5)
Como Prob>|T|=0.0285<0.05. ao nível de 5% de significância há evidências que a
diferença média da taxa de pulsação com a utilização de droga difere de zero.
5) Um aparelho é utilizado para testar a durabilidade de lâmpadas submetidas a
diversas tensões. O aparelho consta de oito soquetes ligados em paralelo e de
um reostato ligado em série com um gerador e oito soquetes. Oito lâmpadas da
marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas
condições , fornecendo as seguintes durações, em horas:
SOQUETE
Marca A
Marca B
1
35
23
2
26
28
3
40
31
4
35
35
5
31
36
6
49
30
7
38
27
8
24
26
Pode-se concordar, a um nível de significância de 1%, com os fabricantes da
marca A, que suas lâmpadas tem durabilidade diferente das apresentadas pela
marca B ?
OPTIONS FORMDLIM='*' LS=80;
DATA LAMP A;
INPUT MARCA $ TEMPO @@;
CARDS;
A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35
A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26
;
PROC TTEST;
CLASS MARCA;
VAR TEMPO;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;
Treinamento Sistema – SAS
106
Prof. Luis Felipe Lopes
TESTE PARA IGUALDADE DE MEDIAS
TTEST PROCEDURE
Variable: TEMPO
MARCA N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------A
8 34.75000000
7.99553447
2.82684832 24.00000000 49.00000000
B
8 29.50000000
4.44007722
1.56980436 23.00000000 36.00000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
1.6236
10.9
0.1329
Equal
1.6236
14.0
0.1267
For H0: Variances are equal, F' = 3.24
DF = (7,7)
Prob>F' = 0.1434
COMENTÁRIO:
As variâncias não são significativamente diferentes ao nível de 10% de
significância, pois Prob>F’=0.1434>α. No teste de igualdade de médias, na linha
(Variances=Equal), ao nível de 1%, como foi estipulado no enunciado, não há
diferença significativa entre as médias, uma vez que Prob>|T|=0.1265>(α=0.01).
6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e
fabricante, foram testados em iguais condições, quanto ao consumo de
combustível em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Desejase saber se os carros produzidos nos anos I e II tem o mesmo consumo ao
nível de 10% de significância.
Consumo (km/l)
Ano I
Ano II
13.01
12.99
13.00
13.06
12.95
12.98
12.97
13.14
13.01
13.14
12.93
12.94
12.96
12.97
12.94
OPTIONS FORMDLIM='*' LS=80;
DATA CONSUMO A;
INPUT ANO $ CONSUMO @@;
CARDS;
I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96
I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14
;
PROC TTEST;
CLASS ANO;
VAR CONSUMO;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;
Treinamento Sistema – SAS
107
Prof. Luis Felipe Lopes
TESTE PARA IGUALDADE DE MEDIAS
TTEST PROCEDURE
Variable: CONSUMO
ANO
N
Mean
Std Dev
Std Error
Minimum
Maximum
-----------------------------------------------------------------------I
10 12.96800000
0.02973961
0.00940449 12.93000000 13.01000000
II
5 13.06200000
0.07758866
0.03469870 12.98000000 13.14000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
-2.6147
4.6
0.0521
Equal
-3.4569
13.0
0.0043
For H0: Variances are equal, F' = 6.81
DF = (4,9)
Prob>F' = 0.0166
COMENTÁRIO:
As variâncias diferem significativamente ao nível de 10% de significância, pois
Prob>F’=0.0166<α. No teste de igualdade de médias, na linha
(Variances=Equal), há indicação que o nível médio de consumo dos carros
produzidos nos anos I e II são diferentes ao nível de 10% de significância,
Prob>|T|=0.052<(α= 0.10).
7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de
crescimento devido à exposição de luz permanente. O crescimento em termos
de diâmetro médio da cultura foi medido antes e após o período de exposição
permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados
obtidos nas 10 culturas durante o período. Ao nível de 2.5% pode-se afirmar
que a luz permanente contribui para o crescimento das culturas de fungo?
Obter um gráfico da distribuição dos valores da variável DIF=DEPOISANTES.
DIAMETRO MÉDIO (CM)
CULTURA
1
2
3
4
5
6
7
8
9
10
Treinamento Sistema – SAS
ANTES
6,4
7.0
6.6
5.6
6.0
7.5
7.0
5.8
6.3
6.7
108
DEPOIS
6.4
7.1
6.8
5.6
6.1
7.4
7.1
5.9
6.4
6.8
Prof. Luis Felipe Lopes
OPTIONS FORMDLIM='*' LS=80;
DATA FUNGO A;
INPUT CULTURA ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 6.4 6.4 2 7.0 7.1 3 6.6 6.8 4 5.6 5.6 5 6.0 6.1
6 7.5 7.4 7 7.0 7.1 8 5.8 5.9 9 6.3 6.4 10 6.7 6.8
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCA DE OBS. PAREADAS';
RUN;
PROC CHART;
VBAR DIF;
TITLE 'GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS';
RUN;
TESTE PARA DIFERENCA DE OBS. PAREADAS
Univariate Procedure
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
10
0.07
0.082327
-0.80646
0.11
117.6104
2.688774
8
3
12
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
10
0.7
0.006778
1.236995
0.061
0.026034
0.0248
7
0.0703
0.1094
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
0.2
0.1
0.1
0
-0.1
99%
95%
90%
10%
5%
1%
0.2
0.2
0.15
-0.05
-0.1
-0.1
0.3
0.1
0.1
Extremes
Lowest
-0.1(
0(
0(
0.1(
0.1(
Treinamento Sistema – SAS
Obs
6)
4)
1)
10)
7)
Highest
0.1(
0.1(
0.1(
0.1(
0.2(
109
Obs
7)
10)
8)
9)
3)
Prof. Luis Felipe Lopes
GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS
Frequency
6 +
*****
|
*****
|
*****
5 +
*****
|
*****
|
*****
4 +
*****
|
*****
|
*****
3 +
*****
|
*****
|
*****
2 +
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
1 +
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
--------------------------------------------------------0.1
0.0
0.1
0.2
DIF Midpoint
COMANTÁRIO:
Como o p-valor=0.0248<0.05, há evidências de que a diferença média do
diâmetro da cultura com a exposição de luz é significativamente diferente de zero,
ou seja, a luz contribui para o crescimento das culturas. No plote das diferenças,
observa-se que a mais alta freqüência ocorre para valores superiores a 0.05.
8)
INSTITUTO DE PESQUISAS E EXPERIMENTAÇÃO AGROPECUÁRIAS DO SUL
MODELOS DE ANÁLISE ESTATÍSTICA DE EXPERIMENTOS EXPERIMENTOS EM QUADRADO LATINO
Produção de Grãos Secos em Gramas por Parcela de 5m3
F
1
I
2
L
3
A
4
5
1
2
1400
(4)
1235
(2)
1545
(1)
1305
(3)
1293
(5)
1207
(3)
1515
(1)
1212
(5)
1295
(2)
1322
(4)
C O L U N A
3
4
1125
(2)
1137
(5)
1100
(4)
1065
(1)
1118
(3)
1335
(1)
1163
(4)
885
(3)
1110
(5)
1012
(2)
5
1350
(5)
1090
(3)
1206
(2)
1000
(4)
1303
(1)
Faça uma análise de variância com os dados acima: (PROC ANOVA)
OPTIONS FORMDLIM='*' LS=80;
DATA GRAO A;
Treinamento Sistema – SAS
110
Prof. Luis Felipe Lopes
INPUT FILA COL VARIED PROD @@;
CARDS;
1 1 4 1400 1 2 3 1207 1 3 2 1125
2 1 2 1235 2 2 1 1515 2 3 5 1137
3 1 1 1545 3 2 5 1212 3 3 4 1100
4 1 3 1305 4 2 2 1295 4 3 1 1065
5 1 5 1293 5 2 4 1322 5 3 3 1118
;
PROC ANOVA;
CLASS FILA COL VARIED;
MODEL PROD=FILA COL VARIED;
TITLE 'ANALISE DE VARIANCIA';
RUN;
1
2
3
4
5
4
4
4
4
4
1
4
3
5
2
1335
1163
885
1110
1012
1
2
3
4
5
5
5
5
5
5
5
3
2
4
1
1350
1090
1206
1000
1303
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
FILA
5
1 2 3 4 5
COL
5
1 2 3 4 5
VARIED
5
1 2 3 4 5
Number of observations in data set = 25
*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: PROD
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
12
462611.92000
38550.99333
3.60
0.0175
Error
12
128386.72000
10698.89333
Corrected Total
24
590998.64000
R-Square
C.V.
Root MSE
PROD Mean
0.782763
8.526399
103.43545
1213.1200
DF
Anova SS
Mean Square
F Value
Pr > F
4
4
4
45521.04000
268403.84000
148687.04000
11380.26000
67100.96000
37171.76000
1.06
6.27
3.47
0.4161
0.0058
0.0418
Source
FILA
COL
VARIED
COMENTÁRIO:
Hipótese Testada: Não há diferença significativa no nivel médio de produção
devido aos fatores fila (FILA), coluna (COL) e variedade
(VARIED) do grão plantado
Pr>F (FILA) = 0.4161 > (α=0.05)
Pr>F (COL) = 0.0058 < (α=0.05)
Pr>F (VARIED) = 0.0418 < (α=0.05)
Ao nível de 5% o efeito coluna (COL) e variedade (VARIED) do grão são
significativos no nível médio de produção.
Treinamento Sistema – SAS
111
Prof. Luis Felipe Lopes
9) Deseja-se determinar se há diferença significativa no percurso por galão obtido
com quatro tipos de gasolina A, B, C, D. O expediente é realizado com quatro
carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes.
C
A
R
R
O
S
1
2
3
4
M O T O R I S T A S
1
2
3
4
B3 19
A2 16 D4 16
C1 14
A4 15
B1 18 C3 11
D2 15
D1 14
C4 11 B2 21
A3 16
C2 16
D3 16 A1 15
B4 23
TIPOS DE ESTRADA = 1 2 3 4
TIPOS DE GASOLINA = A B C
D
Faça uma análise de variância com os dados acima: (PROC ANOVA)
OPTIONS FORMDLIM='*' LS=80;
DATA GAS A;
INPUT MOTOR CARRO GAS $ ESTR PERC @@;
CARDS;
1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C
2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D
3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A
4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B
;
PROC ANOVA;
CLASS MOTOR CARRO GAS ESTR;
MODEL PERC=MOTOR CARRO GAS ESTR;
TITLE 'ANALISE DE VARIANCIA';
RUN;
Treinamento Sistema – SAS
1
2
3
4
14
15
16
23
112
Prof. Luis Felipe Lopes
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
MOTOR
4
1 2 3 4
CARRO
4
1 2 3 4
GAS
4
A B C D
ESTR
4
1 2 3 4
Number of observations in data set = 16
*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: PERC
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
12
142.00000000
11.83333333
5.92
0.0848
Error
3
6.00000000
2.00000000
Corrected Total 15
148.00000000
R-Square
C.V.
Root MSE
PERC Mean
0.959459
8.838835
1.4142136
16.000000
Source
DF
Anova SS
Mean Square
F Value
Pr > F
MOTOR
CARRO
GAS
ESTR
3
3
3
3
16.50000000
6.50000000
111.50000000
7.50000000
5.50000000
2.16666667
37.16666667
2.50000000
2.75
1.08
18.58
1.25
0.2141
0.4745
0.0193
0.4294
COMENTÁRIO:
Hipótese Testada: Não há diferença significativa no percurso por galão devido
aos diferentes tipos de gasolina.
Pr>F (MOTOR) = 0.2141 > (α=0.05)
Pr>F (CARRO) = 0.4745 > (α=0.05)
Treinamento Sistema – SAS
Pr>F (GAS) = 0.0193 < (α=0.05)
Pr>F (ESTR) = 0.4294 > (α=0.05)
113
Prof. Luis Felipe Lopes
Ao nível de 1% nenhum efeito é significativo no percurso de gasolina por galão.
Já ao nível de 5% há diferença significativa no percurso médio por galão devido
ao tipo de gasolina utilizada.
10) O exercício a seguir consiste na avaliação de três planos de vendas com
cupons publicados nos jornais. Foi planejado um experimento com 3
tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1
as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os
tratamentos são as vendas realizadas no dia imediato da publicação dos
cupons nos jornais da cidade. Os resultados estão abaixo:
TRATAMENTOS
Tamanho
Loja
Plano
Cupom 1
Plano
Cupom 2
Plano
Cupom 3
Total
1
2
3
4
Total
20
18
15
11
64
17
14
13
8
62
14
10
7
5
36
51
42
35
24
152
BLOCO = Tamanho da Loja
TRATAMENTO = Plano
Faça uma análise de variância com os dados acima: (PROC GLM)
OPTIONS FORMDLIM='*' LS=80;
DATA PLANO A;
INPUT LOJA $ PLANO $ N_VENDAS @@;
CARDS;
T1 P1 20 T1 P2 17 T1 P3 14
T2 P1 18 T2 P2 14 T2 P3 10
T3 P1 15 T3 P2 13 T3 P3 7
T4 P1 11 T4 P2 8 T4 P3 5
;
PROC GLM;
CLASS LOJA PLANO;
MODEL N_VENDAS=LOJA PLANO;
TITLE 'ANALISE DE VARIANCIA';
RUN;
ANALISE DE VARIANCIA
General Linear Models Procedure
Class Level Information
Class
Levels
Values
LOJA
4
T1 T2 T3 T4
PLANO
3
P1 P2 P3
Number of observations in data set = 12
Treinamento Sistema – SAS
114
Prof. Luis Felipe Lopes
*************************************************************************
ANALISE DE VARIANCIA
General Linear Models Procedure
Dependent Variable: N_VENDAS
Sum of
Source
DF
Squares
Mean
Square
F Value
Pr > F
68.60
0.0001
Model
5
228.66666667
45.73333333
Error
6
4.00000000
0.66666667
Corrected Total 11
232.66666667
R-Square
C.V.
Root MSE
N_VENDAS Mean
0.982808
6.446026
0.8164966
12.666667
Source
DF
Type I SS
Mean Square
F Value
Pr > F
LOJA
PLANO
3
2
130.00000000
98.66666667
43.33333333
49.33333333
65.00
74.00
0.0001
0.0001
Source
DF
Type III SS
Mean Square
F Value
Pr > F
LOJA
PLANO
3
2
130.00000000
98.66666667
43.33333333
49.33333333
65.00
74.00
0.0001
0.0001
COMENTÁRIO:
Hipótese Testada: Não há diferença significativa no volume de vendas nos
diferentes tamanhos de loja.
Pr>F (LOJA) = 0.0001 < (α=0.01)
Pr>F (PLANO) = 0.0001 < (α=0.01)
O baixo valor de Pr>F indica baixa probabilidade da hipótese testada ser
verdadeira, ou seja, aos níveis usuais de significância (α=1%), tanto o fator
tamanho da loja como o plano de vendas apresentam efeitos ponderáveis sobre o
volume das vendas.
( Exercícios 11 e 12 - Ref. F. Pimentel Gomes )
11) Experimento Completamente Casualizado.
Considere um experimento de competição de cultivares de cana-de-açúcar,
completamente casualizado, com n=4 cultivares (A, B, C, D) e r = 6 repetições,
com os seguintes resultados, em t/ha.
Treinamento Sistema – SAS
115
Prof. Luis Felipe Lopes
CULTIVARES
Repetições
1
2
3
4
5
6
A
54
40
51
36
50
48
B
60
55
66
61
54
61
C
59
47
44
49
62
60
D
45
33
34
48
42
44
Obtenha a tabela de Análise da Variância para estes dados e compare as médias
dos tratamentos, duas à duas, utilizando para isso o Teste de Tukev no comando
MEANS da PROC ANOVA.
OPTIONS FORMDLIM='*' LS=80;
DATA CANA A;
INPUT CULTIV $ ALTURA @@;
CARDS;
A 54 B 60 C 59 D 45
A 40 B 55 C 47 D 33
A 51 B 66 C 44 D 34
A 36 B 61 C 49 D 48
A 50 B 54 C 62 D 42
A 48 B 61 C 60 D 44
;
PROC ANOVA;
CLASS CULTIV;
MODEL ALTURA=CULTIV;
MEANS CULTIV /TUKEY;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Class Level Information
Class
CULTIV
Levels
4
Values
A B C D
Number of observations in data set = 24
*************************************************************************
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Dependent Variable: ALTURA
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
3
1174.1250000
391.3750000
9.47
0.0004
Error
20
826.5000000
41.3250000
Corrected Total
23
2000.6250000
R-Square
C.V.
Root MSE
ALTURA Mean
0.586879
12.82484
6.4284524
50.125000
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
3
1174.1250000
391.3750000
9.47
0.0004
*************************************************************************
Treinamento Sistema – SAS
116
Prof. Luis Felipe Lopes
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: ALTURA
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 20 MSE= 41.325
Critical Value of Studentized Range= 3.958
Minimum Significant Difference= 10.388
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
CULTIV
A
A
A
59.500
6
B
53.500
6
C
C
C
C
46.500
6
A
41.000
6
D
B
B
B
COMENTÁRIO:
Analisando o R-Square observa-se que 58.69% da variação do modelo é
explicado pela diferença entre os cultivares.
O p-valor dado por Pr>F=0.0004 é bem menor que o nível de significância de
10%, donde se conclui que a média das alturas é significativamente diferente para
os diferentes tipos de cultivares. Esta análise pode ser vista também pelo Teste
de Tukey.
A média global (ALTURA Mean) das alturas é 50.125.
O coeficiente de variação (C V) das alturas é 12.825
Treinamento Sistema – SAS
117
Prof. Luis Felipe Lopes
12) Experimento com blocos casualizados.
Num experimento de competição de n=7 cultivares de milho, em r=4 blocos
casualizados, as produções, em km/ha, foram as da tabela abaixo:
Cultivares
1
2
3
4
5
6
7
Bloco 1
1920
3110
3260
2540
2270
3000
3310
Bloco 2
2340
3700
3990
2190
2800
3110
3420
Bloco 3
2100
3640
3420
2010
2820
3000
3640
Bloco 4
1920
3570
3510
2230
2710
3800
230
A) Os dados se encontram no arquivo MILHO.SAS. Obtenha a tabela de Análise
de Variância ao nível de 5% para testar se são iguais as médias dos 7
tratamentos. Compare estas médias par a par.
B) Analise os dados considerando que tenha sido perdido o cultivar número 7
C) Analise os dados considerando apenas os 3 primeiros blocos
OPTIONS FORMDLIM='*' LS=80;
DATA MILHO A;
INPUT BLOCO CULTIV PROD @@;
CARDS;
1 1 1920 2 1 2340 3 1 2100 4 1 1920
1 2 3110 2 2 3700 3 2 3640 4 2 3570
1 3 3260 2 3 3990 3 3 3420 4 3 3510
1 4 2540 2 4 2190 3 4 2010 4 4 2230
1 5 2270 2 5 2800 3 5 2820 4 5 2710
1 6 3000 2 6 3110 3 6 3000 4 6 3800
1 7 3310 2 7 3420 3 7 3640 4 7 2630
;
/* ############( A )############### */;
PROC ANOVA;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO';
RUN;
/* ############( B )############### */;
PROC ANOVA;
WHERE CULTIV NE 7;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7';
RUN;
/* ############( C )############### */;
PROC ANOVA;
WHERE BLOCO NE 4;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4';
RUN;
A)
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Class Level Information
Treinamento Sistema – SAS
118
Prof. Luis Felipe Lopes
Class
Levels
Values
CULTIV
7
1 2 3 4 5 6 7
BLOCO
4
1 2 3 4
Number of observations in data set = 28
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Dependent Variable: PROD
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
9
9093421.4286
1010380.1587
10.97
0.0001
Error
18
1658350.0000
92130.5556
Corrected Total
27
10751771.4286
R-Square
C.V.
Root MSE
PROD Mean
0.845760
10.36950
303.53016
2927.1429
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
BLOCO
6
3
8761421.4286
332000.0000
1460236.9048
110666.6667
15.85
1.20
0.0001
0.3377
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 18 MSE= 92130.56
Critical Value of Studentized Range= 4.673
Minimum Significant Difference= 709.22
Treinamento Sistema – SAS
119
Prof. Luis Felipe Lopes
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
CULTIV
A
A
A
A
A
A
A
3545.0
4
3
3505.0
4
2
3250.0
4
7
3227.5
4
6
C
C
C
C
C
2650.0
4
5
2242.5
4
4
2070.0
4
1
B
B
B
B
B
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 18 MSE= 92130.56
Critical Value of Studentized Range= 3.997
Minimum Significant Difference= 458.55
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
BLOCO
A
A
A
A
A
A
A
3078.6
7
2
2947.1
7
3
2910.0
7
4
2772.9
7
1
COMENTÁRIO:
Analisando o R-Square observa-se que 84.58% da variação do modelo é
explicado pela diferença entre os cultivares.
O p-valor para a variável CULTIV (Pr>F=0.0001) é bem menor que o nível de
significância de 10%, donde se conclui que a média da produção (PROD) é
significativamente diferente para os diferentes tipos de cultivares. Esta análise
pode ser vista também pelo Teste de Tukey. O p-valor para a variável BLOCO
(Pr>F=0.3377) é maior o nível de significância de 10%, donde se conclui que a
média da produção (PROD) não é significativamente diferente para os diferentes
tipos de blocos. Esta análise pode ser vista também pelo Teste de Tukey.
A média global (ALTURA Mean) da produção é 2927.14.
O coeficiente de variação (C V) da produção é 10.37%.
B)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
Treinamento Sistema – SAS
120
Prof. Luis Felipe Lopes
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
CULTIV
6
1 2 3 4 5 6
BLOCO
4
1 2 3 4
Number of observations in data set = 24
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
Analysis of Variance Procedure
Dependent Variable: PROD
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
8
8675683.3333
1084460.4167
15.94
0.0001
Error
15
1020650.0000
68043.3333
Corrected Total
23
9696333.3333
R-Square
C.V.
Root MSE
PROD Mean
0.894739
9.078347
260.85117
2873.3333
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
BLOCO
5
3
8274983.3333
400700.0000
1654996.6667
133566.6667
24.32
1.96
0.0001
0.1629
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 15 MSE= 68043.33
Critical Value of Studentized Range= 4.595
Minimum Significant Difference= 599.27
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
CULTIV
A
A
A
A
A
3545.0
4
3
3505.0
4
2
3227.5
4
6
C
C
C
C
C
2650.0
4
5
2242.5
4
4
2070.0
4
1
B
B
B
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
Treinamento Sistema – SAS
121
Prof. Luis Felipe Lopes
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 15 MSE= 68043.33
Critical Value of Studentized Range= 4.076
Minimum Significant Difference= 434.06
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
BLOCO
A
A
A
A
A
A
A
3021.7
6
2
2956.7
6
4
2831.7
6
3
2683.3
6
1
COMENTÁRIO:
Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58%
para 89.47%.
O p-valor para a variável CULTIV (Pr>F=0.0001) continuou o mesmo e para a
variável BLOCO (Pr>F=0.1629) diminuiu, mas não significativamente.
A média global (ALTURA Mean) da produção diminuiu para 2873.33.
O coeficiente de variação (C V) da produção diminuiu para 9.078%.
C)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
CULTIV
7
1 2 3 4 5 6 7
BLOCO
3
1 2 3
Number of observations in data set = 21
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Analysis of Variance Procedure
Dependent Variable: PROD
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
8
6931152.3810
866394.0476
15.53
0.0001
Error
12
669276.1905
55773.0159
Corrected Total
20
7600428.5714
Treinamento Sistema – SAS
122
Prof. Luis Felipe Lopes
R-Square
C.V.
Root MSE
PROD Mean
0.911942
8.052322
236.16311
2932.8571
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
BLOCO
6
2
6601895.2381
329257.1429
1100315.8730
164628.5714
19.73
2.95
0.0001
0.0907
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUIDO BLOCO = 4
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 12 MSE= 55773.02
Critical Value of Studentized Range= 4.949
Minimum Significant Difference= 674.85
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
CULTIV
A
A
A
A
A
A
A
3556.7
3
3
3483.3
3
2
3456.7
3
7
3036.7
3
6
C
C
C
C
C
2630.0
3
5
2246.7
3
4
2120.0
3
1
B
B
B
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 12 MSE= 55773.02
Critical Value of Studentized Range= 3.773
Minimum Significant Difference= 336.76
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
BLOCO
A
A
A
A
A
3078.6
7
2
2947.1
7
3
2772.9
7
1
COMENTÁRIO:
Treinamento Sistema – SAS
123
Prof. Luis Felipe Lopes
Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58%
para 91.19%.
O p-valor para a variável CULTIV (Pr>F=0.0001) continuou o mesmo e para a
variável BLOCO (Pr>F=0.0907) diminuiu significativamente (α<10%), o que
significa que a média da produção (PROD) é significativamente diferente para os
diferentes tipos de BLOCOS.
A média global (ALTURA Mean) da produção aumentou para 2932.85.
O coeficiente de variação (C V) da produção diminuiu para 8.05%.
13) As variáveis BLOCO e TRAT representam os fatores. As variáveis CAMPO1 e
CAMPO2 representam as respostas do experimento, Use o comando MODEL
para obter uma análise de variância para cada uma das variáveis
dependentes CAMPO1 e CAMPO2.Use α = 5 e 10%.
B
L
O
C
O
S
1
2
3
T R A T A M E N T O S
A
B
C
32.6
36.4
29.5
112
130
106
42.7
47.1
32.9
139
143
112
35.3
40.1
33.6
124
134
116
OPTIONS FORMDLIM='*' LS=80;
DATA CAMPO A;
INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@;
CARDS;
1 A 32.6 112 1 B 36.4 130 1 C 29.5 106
2 A 42.7 139 2 B 47.1 143 2 C 32.9 112
3 A 35.3 124 3 B 40.1 134 3 C 33.6 116
;
PROC ANOVA;
CLASS BLOCO TRAT;
MODEL CAMPO1 CAMPO2=BLOCO TRAT;
TITLE 'ANALISE DE VARIANCIA';
RUN;
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Class Level Information
Class
Levels
Values
BLOCO
3
1 2 3
TRAT
3
A B C
Number of observations in data set = 9
*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: CAMPO1
Treinamento Sistema – SAS
124
Prof. Luis Felipe Lopes
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
4
225.27777778
56.31944444
8.94
0.0283
Error
4
25.19111111
6.29777778
Corrected Total
8
250.46888889
R-Square
C.V.
Root MSE
CAMPO1 Mean
0.899424
6.840047
2.5095374
36.688889
Source
DF
Anova SS
Mean Square
F Value
Pr > F
BLOCO
TRAT
2
2
98.17555556
127.10222222
49.08777778
63.55111111
7.79
10.09
0.0417
0.0274
*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: CAMPO2
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
4
1247.3333333
311.8333333
8.28
0.0323
Error
4
150.6666667
37.6666667
Corrected Total
8
1398.0000000
R-Square
C.V.
Root MSE
CAMPO2 Mean
0.892227
4.949450
6.1373175
124.00000
Source
DF
Anova SS
Mean Square
F Value
Pr > F
BLOCO
TRAT
2
2
354.66666667
892.66666667
177.33333333
446.33333333
4.71
11.85
0.0889
0.0209
COMENTÁRIO:
CAMPO1
Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variação do
modelo é explicado pela diferença entre os blocos e entre os tratamentos.
O p-valor para a variável BLOCO (Pr>F=0.0417) é menor que os níveis de
significância 5 e 10%, donde se conclui que a média do CAMPO1 é
significativamente diferente para os diferentes tipos de blocos. O p-valor para a
variável TRAT (Pr>F=0.0274) é menor que os níveis de significância 5 e 10%,
donde se conclui que a média do CAMPO1 é significativamente diferente para os
diferentes tipos de tratamentos.
A média global (CAMPO1 Mean) do CAMPO1 é 124.0.
O coeficiente de variação (C V) do CAMPO1 é 6.84%.
CAMPO2
Treinamento Sistema – SAS
125
Prof. Luis Felipe Lopes
Analisando o R-Square (CAMPO2) observa-se que 89.22% da variação do
modelo é explicado pela diferença entre os blocos e entre os tratamentos.
O p-valor para a variável BLOCO (Pr>F=0.0889) é maior que os nivel de
significância 5%, donde se conclui que a média do CAMPO2 não é
significativamente diferente para os diferentes tipos de blocos, mas isso acontece
para α=10%. O p-valor para a variável TRAT (Pr>F=0.0209) é menor que os
níveis de significância 5 e 10%, donde se conclui que a média do CAMPO2 é
significativamente diferente para os diferentes tipos de tratamentos.
A média global (CAMPO2 Mean) do CAMPO2 é 36.689.
O coeficiente de variação (C V) do CAMPO2 é 4.95%.
Treinamento Sistema – SAS
126
Prof. Luis Felipe Lopes
13 EXEMPLO PRÁTICO
13.1 Banco de Dados
GRUPO IDADE
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
11,9
11,1
12,5
11,8
11,8
11,8
11,9
11,9
11,1
11,1
11,1
12,2
12,4
12,2
12,1
11,1
11,9
11,8
11,8
11,7
11,6
11,6
11,8
11,9
11,9
11,1
11,1
12,1
12,2
PAS_INI
PAD_INI
PAS_FIM
PAD_FIM
PESO
ESTAT
120
110
110
120
110
130
120
90
120
80
110
130
90
100
100
120
100
110
100
100
110
140
110
120
130
110
130
110
110
80
60
60
60
70
90
70
60
80
50
60
70
50
80
50
70
60
70
70
60
70
90
70
90
90
80
70
80
80
120
130
120
160
130
170
140
150
150
160
160
150
150
150
140
140
150
120
160
160
120
130
120
130
130
140
140
120
130
70
70
60
60
80
100
80
100
100
80
90
40
90
90
90
80
70
80
100
90
50
70
50
70
60
80
60
30
40
40,0
42,0
40,4
46,5
49,0
53,6
49,0
43,5
43,3
53,8
45,0
55,2
52,1
31,6
36,4
37,5
45,4
37,1
55,5
39,0
41,2
31,2
33,3
32,4
47,2
52,0
43,6
41,7
34,7
154,5
155,5
148,4
160,8
166,0
157,0
159,0
154,0
156,3
157,3
164,7
157,2
167,3
155,0
158,9
147,2
156,1
152,0
161,5
152,0
141,0
155,3
163,5
158,0
152,0
147,0
153,0
158,0
154,0
Treinamento Sistema – SAS
127
Prof. Luis Felipe Lopes
13.2 Análise dos dados
TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK
---------------------------------- GRUPO=A -----------------------------------Univariate Procedure
Variable=IDADE
W:Normal
0.874563
Pr<W
0.0586
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Univariate Procedure
Variable=PAS_IN
W:Normal
0.888869
Pr<W
0.0920
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=PAD_IN
W:Normal
0.918092
Pr<W
0.2279
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=PAD_FI
W:Normal
0.920703
Pr<W
0.2466
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=PAS_FI
W:Normal
0.930316
Pr<W
0.3279
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=PESO
W:Normal
0.932284
Pr<W
0.3471
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=ESTAT
W:Normal
0.946241
Pr<W
0.5094
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Treinamento Sistema – SAS
128
Prof. Luis Felipe Lopes
---------------------------------- GRUPO=B -----------------------------------Univariate Procedure
Variable=IDADE
W:Normal
0.878959
Pr<W
0.0375
Análise: Esta variável NÃO segue uma distribuição Normal (p < 0,05)
Teste de Shapiro-Wilk
Variable=PAS_IN
W:Normal
Moments
0.859048 Pr<W
0.0181
Análise: Esta variável NÃO segue uma distribuição Normal (p < 0,05)
Teste de Shapiro-Wilk
Variable=PAD_IN
W:Normal
0.92103
Pr<W
0.1767
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=PAD_FI
W:Normal
0.902441
Pr<W
0.0893
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
W:Normal
0.959803
Pr<W
0.6350
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=PESO
W:Normal
0.935181
Pr<W
0.2925
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Variable=ESTAT
W:Normal
0.966555
Pr<W
0.7506
Análise: Esta variável segue uma distribuição Normal (p > 0,05)
Teste de Shapiro-Wilk
Treinamento Sistema – SAS
129
Prof. Luis Felipe Lopes
Conclusão do Teste de Normalidade
As variáveis que deverão ser analisadas por uma Análise de variância (para os
dois grupos as variáveis estão normalizadas) são:
PAD_IN
PAS_FI
PAD_FI PESO
ESTAT
FCREP
FLEX
As demais deverão ser analisadas por Testes Não Paramétricos (Teste de
Kruskal-Wallis) para variáveis independentes.
IDADE
PAS_IN
*******************************************************************************
ANALISE DE VARIANCIA - DADOS PARAMÉTRICOS
Analysis of Variance Procedure
Class Level Information
Class
Levels
GRUPO
2
Values
A B
Number of observations in data set = 29
ANALISE DE VARIANCIA - DADOS
Analysis of Variance Procedure
Dependent Variable: PAD_IN
Sum of
Squares
Source
DF
Model
1
413.85941645
Error
27
3682.69230769
Corrected Total
28
4096.55172414
GRUPO
Mean
Square
413.85941645
F Value
Pr > F
3.03
0.0929
136.39601140
R-Square
C.V.
Root MSE
PAD_IN Mean
0.101026
16.60232
11.678870
70.344828
1
413.85941645
413.85941645
3.03
0.0929
*******************************************************************************
Analysis of Variance Procedure
Dependent Variable: PAS_FI
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1
592.19164456
592.19164456
1.62
0.2138
Error
27
9862.98076923
365.29558405
Corrected Total
28
10455.17241379
R-Square
C.V.
Root MSE
PAS_FI Mean
0.056641
26.02200
19.112707
73.448276
Treinamento Sistema – SAS
130
Prof. Luis Felipe Lopes
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
1
592.19164456
592.19164456
1.62
0.2138
*******************************************************************************
Analysis of Variance Procedure
Dependent Variable: PAD_FI
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1
598.47480106
598.47480106
2.74
0.1095
Error
27
5898.07692308
218.44729345
Corrected Total
28
6496.55172414
R-Square
C.V.
Root MSE
PAD_FI Mean
0.092122
10.53118
14.779963
140.34483
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
1
598.47480106
598.47480106
2.74
0.1095
******************************************************************************
ANALISE DE VARIANCIA - DADOS PARAMÉTRICOS
Analysis of Variance Procedure
Dependent Variable: PESO
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1
371.52005968
371.52005968
8.89
0.0060
Error
27
1128.25442308
41.78720085
Corrected Total
28
1499.77448276
R-Square
C.V.
Root MSE
PESO Mean
0.247717
14.95889
6.4643020
43.213793
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
1
371.52005968
371.52005968
8.89
0.0060
*******************************************************************************
Analysis of Variance Procedure
Dependent Variable: ESTAT
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1
131.16880802
131.16880802
4.31
0.0475
Error
27
821.50360577
30.42605947
Corrected Total
28
952.67241379
R-Square
C.V.
Root MSE
ESTAT Mean
0.137685
3.537059
5.5159822
155.94828
Treinamento Sistema – SAS
131
Prof. Luis Felipe Lopes
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
1
131.16880802
131.16880802
4.31
0.0475
*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PAD_IN
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 136.396
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 8.948
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
GRUPO
A
A
A
73.750
16
B
66.154
13
A
*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PAD_IN
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 136.396
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 8.9477
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
GRUPO
A
A
A
73.750
16
B
66.154
13
A
*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: PAD_IN
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 136.396
Critical Value of F= 4.21001
Minimum Significant Difference= 8.9477
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping
Treinamento Sistema – SAS
Mean
132
N
GRUPO
Prof. Luis Felipe Lopes
A
A
A
73.750
16
B
66.154
13
A
*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PAS_FI
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 365.2956
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 14.64
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
GRUPO
A
A
A
78.462
13
A
69.375
16
B
*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PAS_FI
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 365.2956
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 14.643
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
GRUPO
A
A
A
78.462
13
A
69.375
16
B
*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: PAS_FI
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 365.2956
Critical Value of F= 4.21001
Minimum Significant Difference= 14.643
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping
Treinamento Sistema – SAS
Mean
133
N
GRUPO
Prof. Luis Felipe Lopes
A
A
A
78.462
13
A
69.375
16
B
*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PAD_FI
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 218.4473
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 11.32
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
GRUPO
A
A
A
145.385
13
A
136.250
16
B
*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PAD_FI
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 218.4473
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 11.324
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
GRUPO
A
A
A
145.385
13
A
136.250
16
B
*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: PAD_FI
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 218.4473
Critical Value of F= 4.21001
Minimum Significant Difference= 11.324
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Treinamento Sistema – SAS
134
Prof. Luis Felipe Lopes
Means with the same letter are not significantly different.
Scheffe Grouping
Mean
N
GRUPO
A
A
A
145.385
13
A
136.250
16
B
*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PESO
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 41.7872
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 4.953
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
GRUPO
A
47.185
13
A
B
39.988
16
B
*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PESO
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 41.7872
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 4.9526
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
GRUPO
A
47.185
13
A
B
39.988
16
B
*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: PESO
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 41.7872
Critical Value of F= 4.21001
Treinamento Sistema – SAS
135
Prof. Luis Felipe Lopes
Minimum Significant Difference= 4.9526
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping
Mean
N
GRUPO
A
47.185
13
A
B
39.988
16
B
*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: ESTAT
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 30.42606
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 4.226
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
GRUPO
A
158.308
13
A
B
154.031
16
B
*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: ESTAT
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 30.42606
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 4.226
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
GRUPO
A
158.308
13
A
B
154.031
16
B
*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: ESTAT
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
Treinamento Sistema – SAS
136
Prof. Luis Felipe Lopes
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 30.42606
Critical Value of F= 4.21001
Minimum Significant Difference= 4.226
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping
Mean
N
GRUPO
A
158.308
13
A
B
154.031
16
B
*******************************************************************************
N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable IDADE
Classified by Variable GRUPO
GRUPO
Sum of
Scores
Std Dev
Under H0
Mean
Score
202.500000
195.0
22.5578621
232.500000
240.0
22.5578621
Average Scores Were Used for Ties
15.5769231
14.5312500
N
A
B
13
16
Expected
Under H0
Wilcoxon 2-Sample Test (Normal Approximation)
(with Continuity Correction of .5)
S =
202.500
Z = 0.310313
Prob > |Z| = 0.7563
T-Test Approx. Significance = 0.7586
Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 0.11054
DF = 1
Prob > CHISQ = 0.7395
*******************************************************************************
TESTE NAO PARAMETRICO - WILCOXON
N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable PAS_IN
Classified by Variable GRUPO
GRUPO
Sum of
Scores
Std Dev
Under H0
Mean
Score
199.0
195.0
22.1452883
236.0
240.0
22.1452883
Average Scores Were Used for Ties
15.3076923
14.7500000
N
A
B
13
16
Expected
Under H0
Wilcoxon 2-Sample Test (Normal Approximation)
(with Continuity Correction of .5)
S =
199.000
Z = 0.158047
Prob > |Z| = 0.8744
T-Test Approx. Significance = 0.8756
Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 0.03263
DF = 1
Prob > CHISQ = 0.8567
*******************************************************************************
ANALISE DE CORRELAÇÃO - POR GRUPO
Treinamento Sistema – SAS
137
Prof. Luis Felipe Lopes
---------------------------------- GRUPO=A -----------------------------------Correlation Analysis
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
IDADE
PAS_IN
PAD_IN
PAD_FI
PAS_FI
PESO
ESTAT
IDADE
1.00000
0.0
0.11355
0.7119
-0.01829
0.9527
-0.29866
0.3216
-0.35359
0.2359
0.11772
0.7017
-0.09825
0.7495
PAS_IN
0.11355
0.7119
1.00000
0.0
0.78224
0.0016
-0.05119
0.8681
-0.32011
0.2863
-0.03421
0.9116
-0.14034
0.6475
PAD_IN
-0.01829
0.9527
0.78224
0.0016
1.00000
0.0
-0.01332
0.9655
0.16250
0.5958
-0.03653
0.9057
-0.21510
0.4803
PAD_FI
-0.29866
0.3216
-0.05119
0.8681
-0.01332
0.9655
1.00000
0.0
0.37142
0.2115
0.61683
0.0247
0.35160
0.2388
PAS_FI
-0.35359
0.2359
-0.32011
0.2863
0.16250
0.5958
0.37142
0.2115
1.00000
0.0
-0.03737
0.9035
0.22572
0.4584
PESO
0.11772
0.7017
-0.03421
0.9116
-0.03653
0.9057
0.61683
0.0247
-0.03737
0.9035
1.00000
0.0
0.45355
0.1196
ESTAT
-0.09825
0.7495
-0.14034
0.6475
-0.21510
0.4803
0.35160
0.2388
0.22572
0.4584
0.45355
0.1196
1.00000
0.0
---------------------------------- GRUPO=B -----------------------------------Correlation Analysis
7 'VAR' Variables:
IDADE
ESTAT
PAS_IN
PAD_IN
PAD_FI
PAS_FI
PESO
Simple Statistics
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 16
IDADE
PAS_IN
PAD_IN
PAD_FI
PAS_FI
PESO
ESTAT
IDADE
1.00000
0.0
-0.41854
0.1066
0.02114
0.9381
-0.08451
0.7557
-0.15240
0.5731
-0.32680
0.2167
0.52205
0.0381
PAS_IN
-0.41854
0.1066
1.00000
0.0
0.63341
0.0084
-0.41562
0.1094
-0.31914
0.2283
-0.16878
0.5320
-0.17507
0.5167
PAD_IN
0.02114
0.9381
0.63341
0.0084
1.00000
0.0
-0.37376
0.1538
-0.34073
0.1966
-0.12430
0.6465
-0.05596
0.8369
PAD_FI
-0.08451
0.7557
-0.41562
0.1094
-0.37376
0.1538
1.00000
0.0
0.73254
0.0012
0.36355
0.1663
0.12034
0.6571
PAS_FI
-0.15240
0.5731
-0.31914
0.2283
-0.34073
0.1966
0.73254
0.0012
1.00000
0.0
0.16864
0.5324
0.05036
0.8530
PESO
-0.32680
0.2167
-0.16878
0.5320
-0.12430
0.6465
0.36355
0.1663
0.16864
0.5324
1.00000
0.0
-0.14503
0.5920
ESTAT
0.52205
0.0381
-0.17507
0.5167
-0.05596
0.8369
0.12034
0.6571
0.05036
0.8530
-0.14503
0.5920
1.00000
0.0
Treinamento Sistema – SAS
138
Prof. Luis Felipe Lopes
REFERÊNCIAS BIBLIOGRÁFICAS
BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatística Básica. São Paulo: Atual
Editora.
COSTA NETO, Pedro L. O. Estatística. São Paulo: Mc Graw-Hill do Brasil.
FONSECA, J.S.; MARTINS, G.A. (1993) Curso de Estatística. São Paulo: Ed.
Atlas.
FONSECA, J.S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatística Aplicada.
São Paulo: Ed. Atlas.
Manuais do SAS/BASIC. Vol. I e II.
Manuais do SAS/STAT.
STEVENSON, W.J. (1981) Estatística Aplicada à Administração. São Paulo:
Ed. Harbra.
VIEIRA, S.; HOFFMANN R. (1989) Estatística Experimental. São Paulo: Ed.
Atlas.
Treinamento Sistema – SAS
139
Prof. Luis Felipe Lopes
ANEXOS
Treinamento Sistema – SAS
140
Prof. Luis Felipe Lopes
ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis
Intervalo de confiança de 95%
n
Skewness
Kurtosis
n
Skewness
Kurtosis
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
-1.81
-1.70
-1.57
-1.45
-1.37
-1.31
-1.26
-1.21
-1.17
-1.13
-1.09
-1.06
-1.03
-1.00
-0.98
-0.95
-0.93
-0.91
-0.89
-0.87
-0.85
-0.84
-0.82
-0.81
-0.79
-0.78
-0.77
-0.76
-0.74
-0.73
-0.72
-0.71
-0.70
.
.
-0.87
-0.89
-0.90
-0.92
.
-0.93
.
.
-0.94
.
.
.
.
.
-1.27
-1.25
-1.22
-1.20
-1.18
-1.16
-1.14
-1.12
-1.11
-1.09
-1.08
-1.06
-1.05
-1.04
-1.03
-1.01
-1.00
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
-0.69
-0.68
-0.67
-0.67
-0.66
-0.65
-0.64
-0.63
-0.63
-0.62
-0.61
-0.61
-0.60
-0.59
-0.59
-0.58
-0.58
-0.57
-0.57
-0.56
-0.56
-0.55
-0.55
-0.54
-0.54
-0.53
-0.53
-0.52
-0.52
-0.51
-0.51
-0.51
-0.50
-0.99
-0.98
-0.97
-0.96
-0.95
-0.95
-0.94
-0.93
-0.92
-0.91
-0.91
-0.90
-0.89
-0.88
-0.88
-0.87
-0.87
-0.86
-0.85
-0.85
-0.84
-0.84
-0.83
-0.83
-0.82
-0.82
-0.81
-0.81
-0.80
-0.80
-0.79
-0.79
-0.78
1.81
1.70
1.57
1.45
1.37
1.31
1.26
1.21
1.17
1.13
1.09
1.06
1.03
1.00
0.98
0.95
0.93
0.91
0.89
0.87
0.85
0.84
0.82
0.81
0.79
0.78
0.77
0.76
0.74
0.73
0.72
0.71
0.70
Treinamento Sistema – SAS
.
.
1.54
1.68
1.79
1.85
.
1.93
.
.
1.95
.
.
.
.
.
2.44
2.39
2.34
2.30
2.26
2.22
2.18
2.15
2.12
2.08
2.05
2.03
2.00
1.97
1.94
1.92
1.90
141
0.69
0.68
0.67
0.67
0.66
0.65
0.64
0.63
0.63
0.62
0.61
0.61
0.60
0.59
0.59
0.58
0.58
0.57
0.57
0.56
0.56
0.55
0.55
0.54
0.54
0.53
0.53
0.52
0.52
0.51
0.51
0.51
0.50
1.87
1.85
1.83
1.81
1.79
1.77
1.75
1.73
1.71
1.69
1.68
1.66
1.64
1.63
1.61
1.60
1.58
1.57
1.56
1.54
1.53
1.52
1.50
1.49
1.48
1.47
1.46
1.45
1.43
1.42
1.41
1.40
1.39
Prof. Luis Felipe Lopes
n
Skewness
Kurtosis
n
Skewness
Kurtosis
71
72
73
74
75
76
77
78
79
80
81
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
100
101
102
103
105
107
108
109
-0.50
-0.50
-0.49
-0.49
-0.48
-0.48
-0.48
-0.47
-0.47
-0.47
-0.46
-0.46
-0.46
-0.45
-0.45
-0.45
-0.44
-0.44
-0.44
-0.44
-0.43
-0.43
-0.43
-0.43
-0.42
-0.42
-0.42
-0.41
-0.41
-0.41
-0.41
-0.40
-0.40
-0.40
-0.40
-0.78
-0.78
-0.77
-0.77
-0.76
-0.76
-0.76
-0.75
-0.75
-0.75
-0.74
-0.74
-0.73
-0.73
-0.73
-0.72
-0.72
-0.72
-0.71
-0.71
-0.71
-0.70
-0.70
-0.70
-0.70
-0.69
-0.69
-0.69
-0.68
-0.68
-0.68
-0.67
-0.67
-0.67
-0.66
110
111
112
113
114
115
117
118
119
121
123
125
127128
129
130
132
133
134
135
137
140
143
146
148
149
152
155
156
158
159
161
164
165
-0.39
-0.39
-0.39
-0.39
-0.39
-0.38
-0.38
-0.38
-0.38
-0.37
-0.37
-0.37
-0.36
-0.36
-0.36
-0.36
-0.36
-0.35
-0.35
-0.35
-0.35
-0.34
-0.34
-0.34
-0.33
-0.33
-0.33
-0.33
-0.32
-0.32
-0.32
-0.32
-0.32
-0.31
-0.66
-0.66
-0.66
-0.65
-0.65
-0.65
-0.65
-0.64
-0.64
-0.64
-0.63
-0.63
-0.63
-0.62
-0.62
-0.62
-0.62
-0.62
-0.61
-0.61
-0.61
-0.60
-0.60
-0.59
-0.59
-0.59
-0.5
-0.58
-0.58
-0.58
-0.57
-0.57
-0.57
-0.57
0.50
0.50
0.49
0.49
0.48
0.48
0.48
0.47
0.47
0.47
0.46
0.46
0.46
0.45
0.45
0.45
0.44
0.44
0.44
0.44
0.43
0.43
0.43
0.43
0.42
0.42
0.42
0.41
0.41
0.41
0.41
0.40
0.40
0.40
0.40
Treinamento Sistema – SAS
1.38
1.37
1.36
1.35
1.35
1.34
1.33
1.32
1.31
1.30
1.29
1.28
1.27
1.26
1.26
1.25
1.24
1.23
1.23
1.22
1.21
1.21
1.20
1.19
1.19
1.18
1.17
1.16
1.16
1.15
1.14
1.13
1.12
1.12
1.11
142
0.39
0.39
0.39
0.39
0.39
0.38
0.38
0.38
0.38
0.37
0.37
0.37
0.36
0.36
0.36
0.36
0.36
0 35
0 35
0 35
0 35
0 34
0 34
0 34
0 33
0 33
0 33
0 33
0 32
0 32
0 32
0.32
0.32
0.31
1.11
1.10
1.09
1.09
1.08
1.08
1.07
1.07
1.06
1.05
1.04
1.03
1.02
1.02
1.01
1.01
1.00
1.00
1.00
0.99
0.98
0.97
0.96
0.95
0.95
0.94
0.93
0.92
0.92
0.91
0.91
0.90
0.89
0.89
Prof. Luis Felipe Lopes
n
Skewness
Kurtosis
n
Skewness
Kurtosis
167
168
171
175
179
183
186
187
191
192
196
198
200
201
205
210
211
212
215
220
222
225
231
234
237
241
243
246
249
255
258
260
262
-0.31
-0.31
-0.31
-0.30
-0.30
-0.30
-0.29
-0.29
-0.29
-0.29
-0.29
-0.28
-0.28
-0.28
-0.28
-0.28
-0.27
-0.27
-0.27
-0.27
-0.27
-0.26
-0.26
-0.26
-0.26
-0.25
-0.25
-0.25
-0.25
-0.25
-0.24
-0.24
-0.24
-0.56
-0.56
-0.56
-0.55
-0.55
-0.54
-0.54
-0.54
-0.54
-0.53
-0.53
-0.53
-0.53
-0.52
-0.52
-0.52
-0.52
-0.51
-0.51
-0.51
-0.50
-0.50
-0.50
-0.49
-0.49
-0.49
-0.49
-0.48
-0.48
-0.48
-0.48
-0.47
-0.47
269
274
277
278
284
289
292
300
301
306
309
318
323
325
328
338
342
348
354
359
363
371
383
385
386
396
409
410
423
436
438
454
464
-0.24
-0.24
-0.24
-0.23
-0.23
-0.23
-0.23
-0.22
-0.22
-0.22
-0.22
-0.22
-0.22
-0.21
-0.21
-0.21
-0.21
-0.21
-0.20
-0.20
-0.20
-0.20
-0.20
-0.20
-0.19
-0.19
-0.19
-0.19
-0.18
-0.18
-0.18
-0.18
-0.18
-0.47
-0.46
-0.46
-0.46
-0.46
-0.45
-0.45
-0.45
-0.45
-0.44
-0.44
-0.44
-0.43
-0.43
-0.43
-0.43
-0.42
-0.42
-0.42
-0.42
-0.41
-0.41
-0.41
-0.40
-0.43
-0.40
-0.40
-0.39
-0.39
-0.38
-0.38
-0.38
-0.37
0.31
0.31
0.31
0.30
0.30
0.30
0.29
0.29
0.29
0.29
0.29
0.28
0.28
0.28
0.28
0.28
0.27
0.27
0.27
0.27
0.27
0.26
0.26
0.26
0.26
0.25
0.25
0.25
0.25
0.25
0.24
0.24
0.24
Treinamento Sistema – SAS
0.89
0.88
0.87
0.86
0.85
0.84
0.84
0.83
0.82
0.82
0.81
0.81
0.80
0.80
0.79
G.78
0.78
0.78
0.77
0.76
0.76
0.75
0.74
0.74
0.73
0.73
0.72
0.72
0.71
0.70
0.70
0.70
0.69
143
0.24
0.24
0.24
0.23
0.23
0.23
0.23
0.22
0.22
0.22
0.22
0.22
0.22
0.21
0.21
0.21
0.21
0.21
0.20
0.20
0.20
0.20
0.20
0.20
0.19
0.19
0.19
0.19
0.18
0.18
0.18
0.18
0.18
0.68
0.68
0.67
0.67
0.66
0.66
0.65
0.65
0.64
0.64
0.63
0.62
0.62
0.62
0.61
0.60
0.60
0.59
0.59
0.58
0.58
0.57
0.56
0.56
0.56
0.55
0.54
0.54
0.53
0.53
0.52
0.51
0.51
Prof. Luis Felipe Lopes
n
466
470
488
495
506
516
526
529
547
566
569
575
593
607
618
645
652
674
701
705
730
738
755
774
812
816
833
853
883
898
947
958
961
1000
Skewness
Kurtosis
-0.17
-0.17
-0.17
-0.17
-0.17
-0.16
-0.16
-0.16
-0.16
-0.16
-0.16
-0.15
-0.15
-0.15
-0.15
-0.14
-0.14
-0.14
-0.14
-0.14
-0.13
-0.13
-0.13
-0.13
-0.13
-0.13
-0.12
-0.12
-0.12
-0.12
-0.12
-0.12
-0.11
-0.11
-0.37
-0.37
-0.37
-0.36
-0.36
-0.36
-0.36
-0.35
-0.35
-0.34
-0.34
-0.34
-0.34
-0.33
-0.33
-0.33
-0.32
-0.32
-0.31
-0.31
-0.31
-0.31
-0.30
-0.30
-0.30
-0.29
-0.29
-0.29
-0.28
-0.28
-0.28
-0.27
-0.27
-0.27
0.17
0.17
0.17
0.17
0.17
0.16
0.16
0.16
0.16
0.16
0.16
0.15
0.15
0.15
0.15
0.14
0.14
0.14
0.14
0.14
0.13
0.13
0.13
0.13
0.13
0.13
0.12
0.12
0.12
0.12
0.12
0.12
0.11
0.11
Treinamento Sistema – SAS
0.51
0.50
0.49
0.49
0.48
0.48
0.47
0.47
0.46
0.46
0.45
0.45
0.44
0.44
0.43
0.42
0.42
0.41
0.41
0.40
0.40
0.39
0.39
0.38
0.37
0.37
0.37
0.36
0.36
0.35
0.34
0.34
0.34
0.33
144
Prof. Luis Felipe Lopes