universidade tcnica de lisboa

Transcrição

universidade tcnica de lisboa
UNIVERSIDADE TÉCNICA DE LISBOA
INSTITUTO SUPERIOR TÉCNICO
Modelação de Vendas de
Novas Superfícies Comerciais
Armando Brito Mendes
(Mestre)
Dissertação para obtenção do Grau de Doutor em Engenharia de Sistemas
Orientador: Doutor Rui Manuel Moura de Carvalho Oliveira
Co-Orientadora: Doutora Maria Margarida Guerreiro Martins dos Santos Cardoso
Júri
Presidente: Reitor da Universidade Técnica de Lisboa
Vogais: Doutor Luiz Abel Magro Moutinho
Doutor Luís António de Castro Valadares Tavares
Doutor Rui Manuel Moura de Carvalho Oliveira
Doutor João Agostinho de Oliveira Soares
Doutora Maria Margarida Guerreiro Martins dos Santos Cardoso
Lisboa, Outubro de 2005
ii
iii
Modelação de Vendas de Novas Superfícies Comerciais
RESUMO:
Os retalhistas sempre entenderam a localização como um factor crítico do
sucesso de uma nova loja. No entanto, tentar perceber todos os aspectos da
localização, potencial da área de influência e comportamentos do consumidor pode
revelar-se uma tarefa de elevada complexidade. Nesta dissertação apresenta-se uma
metodologia de apoio à decisão na avaliação de localizações potenciais de lojas de
retalho alimentar de pequena a média dimensão, com base em modelos de previsão de
vendas.
A recolha de dados necessários à modelação inclui dois inquéritos a clientes e
um programa de mystery shopping. Utilizam-se diagramas de Voronoi multiplicativos
ponderados no tratamento espacial de dados demográficos do censo 2001. Descrevese o estado da arte relativamente a modelos e métodos utilizados em problemas
semelhantes e sugere-se uma classificação com três classes.
É definida uma tipologia de lojas com base na comparação de três métodos de
integração de conhecimento de especialistas: a priori, a posteriori e interactivo.
Induzem-se regras proposicionais para classificar uma nova localização num dos
grupos de lojas análogas. Após a classificação de uma localização potencial utiliza-se
um modelo de regressão linear para prever vendas. Os modelos são implementados
numa folha de cálculo segundo uma filosofia loosely coupled.
A integração de conhecimento de domínio por parte de especialistas, nos
modelos construídos, e a geração de novo conhecimento sobre o problema são
elementos estruturantes de todo o trabalho apresentado.
PALAVRAS-CHAVE:
Avaliação de Localizações Potenciais em Cadeias de Retalho; Diagramas de
Voronoi
Multiplicativos
Ponderados;
Segmentação
de
Lojas;
Integração
Conhecimento de Especialistas; Árvores de Classificação; Geração de Conhecimento
de
iv
v
New Food Store Turnover Modelling
ABSTRACT:
The retailers always understood the location as a critical success factor for a new
store. However, recognizing all the aspects of location, influence area potential, and
consumer's behaviour presents high complexity. In this dissertation, it is described an
approach for site selection and evaluation of potential locations of food stores of small to
medium size by sales turnover forecast.
Data gathering included two customers’ surveys and a mystery shopping
program. Multiplicative Weighted Voronoi Diagrams were used in spatial demographic
data analysis. The state of the art of models and methods used in similar problems are
described and a classification is suggested in three classes.
A typology of stores is defined by comparing three methods of expert knowledge
integration: a priori, a posteriori and the interactive method. Decision rules are induced
to classify a new location in one of the previous groups of analogue stores. After this
classification, a linear regression model is used to forecast store turnover. The models
are implemented in a spreadsheet using a loosely coupled philosophy.
The integration of domain knowledge in the models by expert’s and the creation
of new knowledge about the problem, were the main guiding principles in all the work
presented.
KEYWORDS:
Site Selection for Food Retail Outlet; Multiplicative Weighted Voronoi Diagrams;
Supermarket Segmentation; Expert Knowledge Integration; Classification Trees;
Knowledge Creation
vi
vii
Agradecimentos
O autor não pode começar sem relembrar a Professora Isabel Hall Themido,
responsável pela ideia inicial, verdadeira força por detrás de todo o trabalho
desenvolvido e inspiradora de todos os que com ela colaboraram. Este trabalho é uma
pequena homenagem à memória da Professora Isabel Hall Themido.
Ao Professor Rui Oliveira por ter aceite um trabalho a meio numa área não
completamente coincidente com os seus interesses científicos, por todo o apoio e
amizade demonstrados ao longo do trabalho. Agradeço ainda o indispensável incentivo
e as leituras atentas do texto apresentado.
À Professora Margarida Cardoso por uma colaboração atenciosa e muito
próxima e pela permanente disponibilidade. A Professora Margarida Cardoso colaborou
neste trabalho além de orientar, sendo nomeadamente responsável pela segmentação
de clientes de ambos os inquéritos efectuados, além de outras contribuições.
O autor agradece a colaboração dos especialistas da cadeia de lojas que foram
incansáveis na satisfação dos pedidos sucessivos de obtenção de dados e na avaliação
dos resultados. Ainda que o interesse por este trabalho dentro do grupo de distribuição
não tenha sido sempre o mesmo, a verdade é que a amabilidade e atenção dispensada
por estes profissionais foi sempre muito activa. Esta dissertação teria sido impossível
sem a sua atenciosa e amiga colaboração e é em grande parte resultado de um
trabalho conjunto.
Ao CESUR \ IST por ter aceite e apoiado este projecto e ao ICIST \ IST, na
pessoa do Dr. Alexandre Gonçalves e do Professor João Matos, pela amizade e
colaboração prestada. Nomeadamente o ICIST foi responsável pelo levantamento das
coordenadas das lojas por GPS e pela programação dos algoritmos utilizados na
delimitação de áreas de influência por diagramas de Voronoi multiplicativos.
Ao Professor Luís Cavique pelo apoio e incentivo, à Dra. Ana Amorim pela
colaboração no tratamento dos inquéritos e dos dados do programa mystery shopping.
À Dra. Paula Cunha e Dra. Patrícia por toda a atenção dispensada e indispensável
apoio logístico.
À Universidade dos Açores e em especial aos colegas do Departamento de
Matemática pela compreensão demonstrada e por terem criado as condições para que
este trabalho fosse possível.
Por fim, a todos os amigos que leram a presente dissertação e a criticaram.
viii
ix
Índice Temático
NOTAÇÃO MATEMÁTICA
ABREVIATURAS E ACRÓNIMOS
FORMATAÇÕES E DESTAQUES
2
3
4
I.
5
INTRODUÇÃO
I.A. A LOJA DE RETALHO E O PROBLEMA DE LOCALIZAÇÃO
I.B. MOTIVAÇÃO, DEFINIÇÃO DO PROBLEMA, OBJECTIVOS E ESTRUTURA
I.C. ALGUMAS CONSIDERAÇÕES SOBRE A NOMENCLATURA
5
10
14
II.
19
APOIO À DECISÃO NA LOCALIZAÇÃO DE LOJAS DE RETALHO
II.A. PORQUÊ LOJAS DE MENOR DIMENSÃO?
II.B. NÍVEIS DE DECISÃO NA LOCALIZAÇÃO DE LOJAS DE RETALHO
II.C. MODELOS DE APOIO À DECISÃO: O ESTADO DA ARTE
II.C.1. LISTAS, PREVISÃO POR ANALOGIA E DECISÃO MULTICRITÉRIO
II.C.2. MODELOS DE REGRESSÃO LINEAR
II.C.3. MODELOS DISCRIMINANTES E ÁRVORES DE CLASSIFICAÇÃO
II.C.4. MODELOS GRAVITACIONAIS E DE INTERACÇÃO ESPACIAL
II.C.5. MODELOS DE OPTIMIZAÇÃO UNI E MULTIOBJECTIVO
II.C.6. ANÁLISE COMPARATIVA
II.D. SIGS NA ANÁLISE ESPACIAL DE LOCALIZAÇÃO
19
23
27
28
31
34
36
41
43
46
III.
49
RECOLHA DE DADOS: FUSÃO E ANÁLISE ESPACIAL
III.A. MEDIR O DESEMPENHO DE LOJAS: UMA CLASSIFICAÇÃO DE VARIÁVEIS
III.B. OS INQUÉRITOS NA LOJA: CARACTERÍSTICAS DOS CLIENTES
III.B.1. PLANO DE AMOSTRAGEM
III.B.2. ORGANIZAÇÃO, QUESTÕES E QUALIDADE
III.C. O PROGRAMA DE MYSTERY SHOPPING: FACTORES ENDÓGENOS
III.D. DADOS DEMOGRÁFICOS E O TRATAMENTO ESPACIAL: FACTORES EXÓGENOS
III.D.1. PORQUÊ ÁREAS DE INFLUÊNCIA E MODELOS DE DELIMITAÇÃO?
III.D.2. DIAGRAMAS DE VORONOI MULTIPLICATIVOS PONDERADOS
III.D.3. ESTIMAÇÃO DOS MODELOS DE DELIMITAÇÃO DE ÁREAS DE INFLUÊNCIA
III.D.4. CÁLCULO DE VARIÁVEIS E COMPARAÇÃO DE MODELOS DE DELIMITAÇÃO
49
54
55
59
61
63
64
68
72
76
IV.
81
DEFINIÇÃO DE UMA TIPOLOGIA E CARACTERIZAÇÃO
IV.A. PORQUÊ SEGMENTAR?
IV.B. TIPOLOGIAS DE LOJAS: INTEGRAÇÃO DO CONHECIMENTO DE ESPECIALISTAS
IV.B.1. UTILIZAÇÃO DE CONHECIMENTO DE ESPECIALISTAS
IV.B.2. INTEGRAÇÃO DO CONHECIMENTO DE ESPECIALISTAS A PRIORI
IV.B.3. INTEGRAÇÃO DE CONHECIMENTO POR VALIDAÇÃO A POSTERIORI
IV.B.4. MÉTODO INTERACTIVO DE INTEGRAÇÃO DE CONHECIMENTO
IV.B.5. ANÁLISE DE RESULTADOS E COMPARAÇÃO DAS TIPIFICAÇÕES OBTIDAS
IV.C. CARACTERIZAÇÃO DA TIPOLOGIA
81
85
86
88
94
97
101
107
x
V.
PREVISÃO POR ANALOGIA: MODELOS DISCRIMINANTES E REGRESSÃO 113
V.A. PORQUÊ MODELOS DE ANÁLISE DE DADOS?
V.B. MODELOS DISCRIMINANTES LÓGICOS POR ANALOGIA
V.B.1. DEFINIÇÃO DE REGRAS PROPOSICIONAIS: AS ÁRVORES DE CLASSIFICAÇÃO
V.B.2. AS REGRAS PROPOSICIONAIS IDENTIFICADAS E OS MODELOS CONSTRUÍDOS
V.B.3. NOVOS DADOS E O ÍNDICE DE PRECISÃO
V.C. MODELOS DE REGRESSÃO LINEAR MÚLTIPLA
V.C.1. ESTIMAÇÃO E SELECÇÃO DE MODELOS
V.C.2. VERIFICAÇÃO DOS PRESSUPOSTOS DA REGRESSÃO LINEAR MÚLTIPLA
V.C.3. EVOLUÇÃO CRONOLÓGICA DAS VENDAS E VALIDAÇÃO COM NOVOS DADOS
V.D. A APLICAÇÃO APAV NO APOIO A DECISÕES DE LOCALIZAÇÃO
V.D.1. DESENHO: INTEGRAÇÃO DE ACOPLAMENTO FRACO
V.D.2. IMPLEMENTAÇÃO E DINÂMICA: GERAÇÃO DE CONHECIMENTO
113
115
115
119
123
129
130
135
139
146
148
152
VI.
161
CONCLUSÕES
VI.A. O TRABALHO REALIZADO
VI.B. CONHECIMENTO DE ESPECIALISTAS E GERAÇÃO DE NOVO CONHECIMENTO
VI.C. CONTRIBUIÇÕES OBJECTIVAS
VI.D. TESE?!
VI.E. PERSPECTIVAS FUTURAS
161
166
171
174
175
BIBLIOGRAFIA
179
ANEXOS
193
A.
B.
C.
D.
E.
F.
G.
H.
I.
J.
K.
L.
193
198
200
202
203
210
215
219
222
224
229
233
INQUÉRITO AOS CLIENTES
INQUÉRITO AOS DIRECTORES DE LOJA
FORMULÁRIO EM FOLHA DE CÁLCULO USADO PARA COMPARAÇÕES ENTRE LOJAS
FORMULÁRIO UTILIZADO NO PROGRAMA DE MYSTERY SHOPPING
METADADOS SOBRE OS DADOS RECOLHIDOS E REFERENCIADOS À LOJA
ANÁLISE COMPARATIVA DOS INQUÉRITOS: EVOLUÇÃO DO CLIENTE
SEGMENTAÇÃO DE CLIENTES
CARACTERIZAÇÃO DA TIPOLOGIA INTERACTIVA COM DADOS DOS INQUÉRITOS
CARACTERIZAÇÃO COM DADOS GEOGRÁFICOS E MYSTERY SHOPPING
CARACTERIZAÇÃO DA ÁREA DE INFLUÊNCIA PARA A TIPOLOGIA INTERACTIVA
MODELOS DISCRIMINANTES LÓGICOS PARA TODAS AS LOJAS
MODELOS DISCRIMINANTES LÓGICOS EXCLUINDO AS LOJAS ABERTAS EM 2002
xi
Índice de Figuras
FIGURA 1 TIPOLOGIA DE PONTOS DE VENDA DE RETALHO ALIMENTAR SEGUNDO PREÇO E
GAMA.
FIGURA 2 EVOLUÇÃO DA QUOTA DE MERCADO POR TIPO DE LOJA EM PORTUGAL.
FIGURA 3 ESTRUTURA DA DISSERTAÇÃO SEGUNDO TRÊS FASES.
7
9
13
FIGURA 4 DEFINIÇÃO ESQUEMÁTICA DE “SEGMENTAÇÃO”, “CLASSIFICAÇÃO” E “ANÁLISE
DE AGRUPAMENTOS”.
17
FIGURA 5 VOLUME DE VENDAS POR DIMENSÃO DE LOJA EM ALGUNS PAÍSES EUROPEUS
PARA 1998 E 2002.
20
FIGURA 6 NÍVEIS DE DECISÃO ENVOLVIDOS NA ESTRATÉGIA DE EXPANSÃO DE UMA
CADEIA DE LOJAS.
25
FIGURA 7 CLASSIFICAÇÃO SUGERIDA DE VARIÁVEIS EXPLICATIVAS DO DESEMPENHO DE
LOJAS PERTENCENTES A CADEIAS DE RETALHO ALIMENTAR E FONTES DE DADOS
UTILIZADAS NA PRESENTE DISSERTAÇÃO.
50
FIGURA 8 CONTAGEM DE ACTOS DE COMPRA EM DIAS ÚTEIS E NO FIM-DE-SEMANA
ENTRE 13 E 19/3/2000.
56
FIGURA 9 PERCENTAGEM DE ACTOS DE COMPRA EM CADA PERÍODO HORÁRIO NO DIA
17/3/2000 (SEXTA-FEIRA) E NÚMERO DE INQUÉRITOS REALIZADOS NO DIA 21/3/2003
(SEXTA-FEIRA).
57
FIGURA 10 EVOLUÇÃO DO VOLUME DE VENDAS NOS PRIMEIROS MESES APÓS A
ABERTURA DA LOJA .
59
FIGURA 11 POLÍGONOS DE CAMINHOS MAIS CURTOS A 2 MIN (A) E POLÍGONOS DE
VORONOI MULTIPLICATIVOS (B).
FIGURA 12 POLÍGONOS DE VORONOI MULTIPLICATIVOS DE SEGUNDA ORDEM.
67
68
FIGURA 13 DIAGRAMA DE VORONOI SIMPLES (A) E DIAGRAMA DE VORONOI
MULTIPLICATIVO (B).
75
FIGURA 14 DIAGRAMAS DE VORONOI MULTIPLICATIVOS COM α = 2 E β = 1 (A) E COM α =
1/10 E β = 1 (B).
FIGURA 15 COMPARAÇÃO ENTRE LOJAS E INQUÉRITOS PARA ALGUMAS VARIÁVEIS.
76
83
FIGURA 16 DENDROGRAMA DA MATRIZ DE DISSEMELHANÇAS (A) GRÁFICO DE
COEFICIENTES DE FUSÃO (B).
FIGURA 17 LOJAS NO ESPAÇO DE QUATRO DIMENSÕES MDS EXTRAÍDAS.
90
92
FIGURA 18 CARACTERIZAÇÃO DAS DIMENSÕES MDS COM BASE EM COEFICIENTES DE
REGRESSÃO PADRÃO.
FIGURA 19 ÁRVORE DE REGRESSÃO ESCOLHIDA PELOS ESPECIALISTAS.
93
96
xii
FIGURA 20 TIPOLOGIA PELO MÉTODO INTERACTIVO COM DADOS DE 2000.
98
FIGURA 21 DENDROGRAMA DE WARD DO MÉTODO INTERACTIVO (A) GRÁFICO DE
COEFICIENTES DE FUSÃO (B)
FIGURA 22 TIPOLOGIA PELO MÉTODO INTERACTIVO PARA DOIS ANOS DISTINTOS.
99
100
FIGURA 23 GRÁFICOS DE EXTREMOS E QUARTIS PARA ALGUNS GRUPOS DOS DIFERENTES
MÉTODOS.
103
FIGURA 24 TABELA DE FREQUÊNCIAS COM AS RELAÇÕES ENTRE AS MEDIDAS DE
QUALIDADE DO NÓ FOLHA.
123
FIGURA 25 ANÁLISE DE SENSIBILIDADE AOS PARÂMETROS ALFA (α) E BETA (β) DA
EXPRESSÃO (11) .
127
FIGURA 26 MEDIDAS DE INFLUÊNCIA DAS OBSERVAÇÕES PARA O MODELO COM TODAS AS
LOJAS.
134
FIGURA 27 VERIFICAÇÃO DOS PRESSUPOSTOS DE REGRESSÃO PARA O MELHOR MODELO
IDENTIFICADO.
136
FIGURA 28 MÉDIA DE VENDAS ANUAIS (A) E DE VENDAS POR UNIDADE DE ÁREA (B) POR
GRUPO E PREVISÕES .
140
FIGURA 29 ERROS DE PREVISÃO RELATIVOS PARA TODAS AS LOJAS (A) E GRÁFICO DE
EXTREMOS E QUARTIS (B).
144
FIGURA 30 ERROS DE PREVISÃO E DE CLASSIFICAÇÃO PARA O MODELO (12) PARA O ANO
DE 2003.
145
FIGURA 31 ESTRUTURA DE ACOPLAMENTO FRACO ENTRE AS APLICAÇÕES COORDENADAS
COM O APAV.
152
FIGURA 32 A FOLHA DE “INPUTS” E DE “PREVISÃO” DA APLICAÇÃO APAV.
153
FIGURA 33 A FOLHA DE “DADOS” E DE “CLUSTERS” DA APLICAÇÃO APAV.
155
FIGURA 34 DOIS EXEMPLOS DE DIAGNÓSTICOS PRESENTES NA FOLHA DE CÁLCULO
“PREVISÃO”.
156
FIGURA 35 ACTUALIZAÇÃO DE DADOS E DE MODELOS AQUANDO DA DISPONIBILIZAÇÃO
DE NOVOS DADOS.
158
xiii
Índice de Tabelas
TABELA 1 RESUMO DAS VANTAGENS E DESVANTAGENS COMPARATIVAS DOS DIFERENTES
MODELOS SEGUNDO UMA TIPIFICAÇÃO SUGERIDA PELO AUTOR.
TABELA 2 RESUMO DOS FACTORES CONSIDERADOS NO PLANO DE AMOSTRAGEM.
44
58
TABELA 3 R2 CORRIGIDO PARA REGRESSÕES EXPLICATIVAS DAS VENDAS POR UNIDADE
DE ÁREA COMERCIAL.
78
TABELA 4 SUMÁRIO DAS PRINCIPAIS CARACTERÍSTICAS DAS METODOLOGIAS E
TIPOLOGIAS OBTIDAS.
TABELA 5 PERCENTAGEM DE VARIÂNCIA EXPLICADA PELOS GRUPOS.
102
105
TABELA 6 RESUMO DA CARACTERIZAÇÃO DA TIPOLOGIA OBTIDA PELA METODOLOGIA
INTERACTIVA.
109
TABELA 7 RESUMO DAS REGRAS PROPOSICIONAIS ESCOLHIDAS E ALGUMAS MEDIDAS DE
QUALIDADE.
TABELA 8 CLASSIFICAÇÕES PREVISTAS E DEFINITIVAS PARA TRÊS LOJAS RECENTES.
120
125
TABELA 9 LOJAS COM CLASSIFICAÇÕES CONTRADITÓRIAS USADAS PARA CALIBRAR E
VALIDAR O ÍNDICE.
126
TABELA 10 REGRESSÕES PARA AS LOJAS DA CADEIA COM E SEM CONSIDERAÇÃO DE
GRUPOS ANÁLOGOS.
TABELA 11 MEDIDAS DE QUALIDADE DAS PREVISÕES EFECTUADAS PARA O ANO DE 2003.
133
143
TABELA 12 REGRAS PROPOSICIONAIS USADAS NO APAV PARA EXCLUIR LOCALIZAÇÕES
NÃO ANÁLOGAS.
159
xiv
xv
Esta dissertação é dedicada à Sandra e à Inês
«Eu sou o resultado consciente da minha própria experiência»
José Almada Negreiros
“Ultimatum Futurista”, publicado em Lisboa, Dezembro 1917
xvi
1
Nota Prévia
Este trabalho foi realizado em estreita colaboração com um grupo de distribuição
alimentar nacional preocupado em aumentar o número de lojas pertencentes a uma
cadeia de Supermercados de Proximidade.
Esta colaboração foi indispensável na recolha dos dados e na crítica de
resultados. Na maioria das actividades realizadas, este grupo esteve profundamente
envolvido, inclusivamente intervindo activamente em todas as fases do projecto e
expondo os seus pontos de vista e opiniões, baseadas no extenso conhecimento do
domínio que detêm. Esta constante interacção foi, na nossa opinião, o segredo do
sucesso da implementação dos modelos desenvolvidos.
No entanto, no âmbito desta colaboração foram impostas restrições à revelação de
algumas informações sobre os dados recolhidos. Nomeadamente, não é possível revelar
nem a cadeia de lojas envolvidas no estudo, nem o grupo de distribuição com o qual se
trabalhou. Igualmente não é possível mostrar mapas com a localização geográfica das
lojas. Também não se revelam os valores de vendas por loja pelo que todos os valores
relacionados, como desvios e parâmetros dos modelos, foram obtidos a partir de valores
modificados. Também não se podem revelar nomes de lojas, mas a denominação
apresentada é coerente em todo o texto da dissertação.
Assim, nesta dissertação, estas restrições são cuidadosamente seguidas a fim de
não trair a confiança de quem tão amavelmente connosco colaborou. No entanto, as
referidas restrições podem levantar problemas de reprodutibilidade dos resultados que se
tenta minimizar ao apresentar dados agregados e/ou modificados. De qualquer modo,
tem-se a preocupação de que tais restrições não afectem o rigor dos resultados
apresentados.
2
Notação Matemática e Abreviaturas
Notação Matemática
α, β
parâmetros da expressão para o índice de precisão (IPj);
a
índice identificativo da árvore de classificação;
Aj
atractividade gerada pelo ponto de venda j;
aInflj
área de influência definida por algoritmos de caminho mais curto para a
loja j em hectares;
ar
índice identificativo da regra proposicional (ou nó folha) r referente à árvore
de classificação a;
aVendj
área de vendas em metros quadrados para a loja \ localização potencial j;
B03j
ordenada na origem da equação de previsão para as vendas da loja j no
ano de 2003;
dEdifj
densidade de edifícios construídos entre os anos de 1996 e 2001 em
número de edifícios por 10 hectares para a área de influência definida por
algoritmo de caminhos mais curtos a 2,5 minutos;
dij=||xi-xj||
distância, tempo ou custo de deslocação entre o polígono de procura i e o
ponto de venda representando a oferta j;
dwj
função de distância ponderada pelo peso wj relativa ao ponto de venda j;
Ei
vendas potenciais provenientes da subzona i;
h
índice identificativo das n lojas em concorrência numa determinada região;
i
índice identificativo do polígono resultante da divisão da área de influência
em subzonas homogéneas nos modelos gravitacionais;
IPj
Índice de Precisão para o ponto de venda j;
j
índice identificativo do ponto de venda ou loja;
k
número de pontos de venda frequentados pelos clientes em simultâneo
correspondendo igualmente à ordem dos diagramas de Voronoi;
l=nCk
número de combinações de k pontos geradores no total de n pontos
correspondente ao número de subconjuntos em P;
n
número finito de pontos no espaço associados a lojas, para gerar um
diagrama de Voronoi é necessário um número mínimo de dois pontos;
ngar
número de observações no nó folha ar pertencente ao grupo g;
nAlojj
número de alojamentos com proprietário ocupante para a área de
influência da loja j definida por diagramas de Voronoi de 1ª ordem;
P=UiPi(k)
conjunto de subconjuntos de k pontos geradores, para k = 1 reduz-se ao
conjunto de pontos gerador dos diagramas de Voronoi simples;
Pi(k)
subconjunto i de k pontos geradores dum polígono de Voronoi de ordem k;
3
pj
localização no espaço do ponto de venda j;
Sij
fracção do potencial de vendas (ou quota de mercado) da zona i captada
pelo ponto de venda j;
Uij
função utilidade genérica entre a oferta do ponto de venda j e a procura
proveniente do polígono i;
V = {V(p1), V(p2), …, V(pn)}
diagrama de Voronoi constituído pelo conjunto dos
polígonos correspondentes a todos os pontos geradores de P;
V(pj)
polígono de Voronoi gerado pelo ponto pj;
V(Pi(k))
polígono de Voronoi multiplicativo de ordem k gerado pelo subconjunto i de
k pontos geradores Pi(k);
Ŵ03j
vendas anuais previstas para a loja j e para o ano de 2003;
wj
peso superior a zero associando ao ponto de venda j;
xj
coordenadas do ponto pj;
Abreviaturas e Acrónimos
ADO
ActiveX Data Objects;
AHP
Analytical Hierarchy Process (processo hierárquico analítico);
AID
Automatic Iteration Detector;
ANOVA
ANalysis Of VAriance (análise de variância);
APAV
Análise e Previsão por Analogia de Vendas;
APED
Associação Portuguesa de Empresas de Distribuição;
APSI
Associação Portuguesa de Sistemas de Informação;
CART
Classification And Regression Trees (árvores de classificação e
regressão);
CHAID
Chi-square Automatic Interaction Detection;
CMC
Algoritmo de Caminhos Mais Curtos sobre uma rede viária;
DDE
Dynamic Data Exchange;
DfBetas
Medida da variação dos coeficientes estimados por regressão atribuída a
uma observação eliminada;
Eurostat
STATistical office of the EUROpean communities (agência de informação
estatística da Comunidade Europeia);
ERP
Enterprise Resource Planning;
GIS
Geographical Information System (ver SIG);
GPS
Global Positioning System (sistema de posicionamento global);
HTML
Hyper Text Markup Language;
INE
Instituto Nacional de Estatística;
KBDSS
Knowledge Based Decision Support Systems (sistema de apoio à decisão
baseado em conhecimento);
4
MCI
Multiplicative Competitive Interactive model;
MC-SDSS
MultiCriteria Spatial Decision Support System (sistema de apoio à decisão
espacial multicritério);
MDS
MultiDimensional Scaling;
MNL
MultiNomial Logit;
MULTILOC MULTIple store LOCation model;
MWVD
Multiplicative Weighted Voronoi Diagrams (diagramas de Voronoi
multiplicativos ponderados);
OkMWVD
Order k MWVD (polígonos de Voronoi multiplicativos de ordem k);
OLE
Object Linking and Embedding;
OVD
Ordinary Voronoi Diagram (diagrama de Voronoi simples ou de primeira
ordem);
PRESS
PREdicted Sum of Squares;
POS
Point Of Sale (ponto de venda);
QFD
Quality Function Deployment;
QUEST
Quick Unbiased Efficient Statistical Tree;
SAD
Sistema de Apoio à Decisão;
SDSS
Spatial Decision Support Systems (sistemas de apoio à decisão espacial
ou geográfica);
SGBDOO
Sistemas Gestores de Bases de Dados Orientadas para Objectos;
SGBDR
Sistemas Gestores de Bases de Dados Relacionais;
SIG
Sistema de Informação Geográfica;
SLAM
Store Location Assessment Model;
UCDR
Unidades Comerciais de Dimensão Relevante;
VBA
Visual Basic for Applications;
WWW
World Wide Web;
XML
eXtensible Markup Language.
Formatações e Destaques
Itálico
destaca palavras ou expressões em língua estrangeira incluindo
expressões em latim;
“Aspas”
destaca nomes de variáveis e expressões ou palavras que não
devem ser confundidas com o texto;
Iniciais Maiúsculas além da utilização habitual é também utilizado para realçar alguns
nomes de grupos evitando o cansaço do excesso de aspas;
Carregado
destaca expressões e palavras que resumem o(s) parágrafo(s) ou
termos definidos ou explicados nas linhas seguintes;
Times itálico
símbolos em notação matemática.
5
Capítulo I ⎯⎯⎯⎯⎯⎯⎯⎯
I. INTRODUÇÃO
Este capítulo descreve, em traços largos, o contexto em que surge o problema e o
ambiente vivido na distribuição em geral, sendo este tema mais extensivamente
explorado no segundo capítulo. Descrevem-se ainda aspectos fundamentais para
compreender esta dissertação como a motivação, o problema em estudo e os objectivos
a atingir. Pretende-se demonstrar a necessidade de criação de modelos de apoio à
decisão para localização de lojas de retalho alimentar de pequena a média dimensão por
modelação de vendas em novas localizações. Faz-se igualmente uma descrição da
estrutura da dissertação apresentada e discutem-se diferenças de nomenclatura entre as
disciplinas de estatística, reconhecimento de padrões e análise de marketing.
«… new trends in retailing, commercial real estate development, and
competitive forces require a new level of sophistication concerning where to
best market a product or service»
Joseph R. Bagby
(fundador da NACORE – iNternational Association of COrporate Real Estate executives,
prefácio de Salvaneschi, 1996)
I.A. A Loja de Retalho e o Problema de Localização
O sector da distribuição tem vindo a ser dividido em dois subsectores de
actividade muito interligados: o subsector retalhista e o grossista. Na verdade, esta
divisão é artificial e resulta da cobertura de diferentes conjuntos de elos da cadeia
logística. O grossista trataria dos primeiros elos da cadeia e o retalhista do contacto
directo com o consumidor. As actividades e o tipo de negócio distinguem-se
essencialmente por o subsector grossista ser do tipo business to business e o retalhista
6
do tipo business to consumer, estando na origem das respostas diferenciadas para as
variáveis do marketing mix encontradas para cada subsector.
No entanto, as actividades básicas de transporte, gestão de inventários (stocks),
divisão em quantidades apropriadas, transmissão de informação e serviços são muito
semelhantes, pelo que a integração vertical da cadeia logística surgiu naturalmente tendo
por consequência o desenvolvimento de grupos de distribuição com várias insígnias e
cadeias de retalho. Uma cadeia de retalho pode ser definida como um conjunto de
pontos de venda detidos pelo mesmo grupo de distribuição, com níveis de decisão
comuns e uma logística integrada (Levy e Weitz, 2004).
A preocupação fundamental dos grupos de distribuição e, em geral, de todos os
elos da cadeia de distribuição é a satisfação das necessidades do cliente, incluindo a
criação de novas. Esta orientação para o cliente está no centro dos actuais conceitos de
marketing1 relacional (Gilbert, 2002), mas também da logística empresarial (business
logistics). Por exemplo, uma das definições apresentadas por Ballou (2004) e atribuída ao
Council of Logistics Management2 coloca claramente toda a cadeia logística ao serviço do
consumidor (pág. 4):
«Logistics Management is that part of Supply Chain Management that plans,
implements, and controls the efficient, effective forward and reverse flow and
storage of goods, services and related information between the point of origin
and the point of consumption in order to meet customers' requirements».
Assim, a loja de retalho adquiriu nos últimos anos uma relevância acrescida,
podendo-se afirmar que quem controla o ponto de venda controla igualmente toda a
cadeia logística já que os restantes elos da cadeia ficam dependentes do retalhista para
chegarem ao consumidor (Levy e Weitz, 2004 e Rousseau, 1997). Apesar desta
preponderância, os pontos de venda também estão sujeitos a fortes pressões. Pressões
horizontais que provêm de outras cadeias semelhantes, num mercado que na maioria dos
países é já muito saturado, e verticais provenientes de novas formatos de retalho como
as vendas directas por catálogo ou o comércio electrónico.
Ao nível do retalho alimentar a variedade de formatos, de marcas e de insígnias
demonstra bem a competitividade do sector. Na Figura 1 sugere-se uma tipologia de
pontos de venda alimentares baseada em duas dimensões: preço \ nível de serviço e
Utiliza-se o termo marketing da língua inglesa ainda que a Diciopédia 2005 em DVD da Porto Editora
(ISBN 972-0-65258-6) recomende o termo “mercadologia” que, no entanto, é pouco utilizado.
2
Trata-se de uma associação profissional de gestores logísticos, educadores e profissionais com o
objectivo de investigação, educação e promoção de troca de informações e conhecimento no domínio da
logística, fundada em 1962. Outras informações podem ser consultadas no site clm1.org.
1
7
profundidade \ largura ou alcance da gama ou sortido. A largura ou alcance da gama
refere-se ao número de produtos disponíveis e a profundidade ao número de marcas de
cada produto. Sublinhe-se no entanto que o posicionamento dos pontos de venda
depende, em grande parte, da gestão local e do ambiente competitivo.
FIGURA 1 TIPOLOGIA DE PONTOS DE VENDA DE RETALHO ALIMENTAR SEGUNDO PREÇO E GAMA.
(Fonte: esquema reformulado a partir de uma ideia original de Rousseau, 1997)
gama alargada
lojas especializadas a
hipermercados
supermercados
grandes
preço e nível
de serviço
baixo
preço e nível
de serviço
elevado
supers proximidade
supers hard discount b
lojas tradicionais
supers discount
gama limitada
lojas de conveniência
Note-se que a gama alargada das Lojas Especializadas se refere à profundidade da gama e não à sua largura. b Supers de
Hard Discount apresentam uma gama de profundidade muito limitada ainda que a largura possa ser elevada.
a
Normalmente, o alcance da gama acompanha a profundidade da gama.
Excepções são as Lojas Especializadas (as de maior dimensão também são chamadas
de category killers) onde apenas se vende uma categoria de produtos normalmente com
enorme profundidade de gama. No outro extremo temos os Supermercados Discount e
Hard Discount caracterizados por profundidades de gama quase nulas, quase sempre
só apresentando uma marca branca para cada tipo de produto, e níveis de serviço
reduzidos ao mínimo. Exemplos de insígnias são para os supermercados Discount Dia \
Minipreço e para os Hard Discount Lidl e Plus.
Os Hipermercados são as maiores superfícies comerciais, correspondendo nos
termos do decreto-lei nº 83/95 de 26 de Abril, aos estabelecimentos com área de
exposição e vendas igual ou superior a 2.000 m2 ou, no caso de estarem localizados em
concelhos com menos de 30.000 habitantes, igual ou superior a 1.000 m2. Estas lojas
apresentam gamas tanto alargadas como profundas tanto em secções alimentares como
8
não alimentares, ainda que se verifique uma tendência recente de abertura de lojas
especializadas que retiram do hipermercado parte da área não alimentar.
Na Figura 1 os Supermercados Grandes referem-se a lojas de dimensões
intermédias (entre os hipermercados e os supermercados de proximidade), normalmente
situadas fora dos centros das grandes cidades mas não fora da cidade. Como exemplo
podem-se citar insígnias como Modelo e Intermarché. Pelo contrário, as Lojas de
Conveniência situam-se quase exclusivamente em áreas de abastecimento de
combustíveis ou dentro das grandes cidades, apresentam dimensões reduzidas mas um
nível de serviço muito elevado, sendo caracterizadas por estarem abertas durante
períodos muito alargados que podem chegar às 24 horas.
Por fim os Supermercados de Proximidade são a categoria mais difusa e com
menos insígnias em Portugal mas que a Tesco Metro é um bom exemplo no Reino Unido
e os Pingo Doce menores um exemplo nacional. Este tipo de lojas pretende oferecer uma
alternativa de qualidade ao cliente evitando deslocações aos supermercados maiores
com uma grama de produtos limitada mas com as marcas mais procuradas, com ênfase
nos produtos frescos e elevados níveis de serviço. As Lojas Tradicionais são uma
categoria mal definida de lojas de dimensões muito variáveis, se bem que em média
sejam muito pequenas. A principal característica é a de não se integrarem em cadeias de
retalho ainda que grande parte participe em algum tipo de associação de distribuição.
Note-se que esta tipologia não é consensual e, por exemplo, AC Nielson
acrescenta a categoria de “puros alimentares” a qual é englobada na Figura 1 pelas Lojas
Especializadas e divide as Lojas Tradicionais em “drogarias” e “mercearias”. Também a
categoria de Lojas de Conveniência é englobada pela AC Nielson no grupo das “outros
livre serviços”. Por outro lado, os “supermercados menores” incluem os Supermercados
de Proximidade, os Discount e os Hard Discount.
No mercado Português, e desde que se dispõem de dados sobre a quota de
mercado, os hipermercados e os supermercados têm crescido continuamente à custa dos
restantes conceitos. De acordo com os dados da AC Nielsen Portugal, supermercados e
hipermercados são hoje as estruturas comerciais mais importantes em Portugal
Continental, se considerarmos o volume de vendas como indicador de referência.
Recentemente os supermercados estão a superar os hipermercados em várias rubricas,
tendo-se mesmo registado um crescimento acumulado nas suas vendas superior a 120%,
entre 1990 e 1997. A partir desta data a quota de mercado dos supermercados superou a
das grandes superfícies e tem crescido de forma sustentada, como se pode observar na
Figura 2.
9
FIGURA 2 EVOLUÇÃO DA QUOTA DE MERCADO POR TIPO DE LOJA EM PORTUGAL.
(Fonte: AC Nielsen Portugal publicado na revista Distribuição Hoje, suplemento Atlas da Distribuição 2004)
100%
90%
80%
Puros Alimentares
Outros Livre
Serviços
Supermercados
(<'s)
quota de mercado
70%
60%
Lojas Traditionais
Supermercados
(>'s)
50%
40%
30%
20%
10%
Hipermercados
0%
1988 1989
1990 1991 1992 1993
1994 1995 1996
1997 1998 1999 2000
2001 2002
Aliás, no ano de 1996, as pequenas e médias superfícies de retalho foram as
únicas a registar um crescimento simultaneamente no número de lojas e no volume de
vendas (aproximadamente mais 92 milhões de contos) e consequentemente a aumentar
a sua quota de mercado de 28 para 34% no universo Nielsen. Em 1997 os
Supermercados atingiram a liderança e em 1998 consolidaram a sua estratégia de
expansão, em especial os supermercados de menores dimensões.
Como já foi notado os valores para os supermercados menores incluem vários
formatos como as lojas Discount e Hard Discount, que têm ganho muita quota de
mercado nos últimos anos. No entanto, também as lojas pequenas e de média dimensão
dirigidas para classes mais elevadas, i.e. os Supermercados de Proximidade, têm tido
importantes ganhos de quota como os lucros da cadeia Pingo Doce comprovam.
Segundo o relatório anual da empresa, as vendas do Pingo Doce subiram 2% no ano
transacto, apesar do enquadramento macroeconómico adverso e da crescente
agressividade concorrencial. Este aumento é atribuído a uma generalizada redução de
preços como reacção ao crescimento dos Supermercados Hard Discount3. Aliás, mais
recentemente, a empresa decidiu concentrar o negócio em menos regiões geográficas e
3
Informação retirada do sítio da empresa: www.jeronimomartins.pt em 18/11/2004.
10
em menos formatos de retalho, prevendo despender 140 a 150 milhões de euros ano,
apostando na expansão e remodelação da rede de supermercados e no retalho
especializado4. Assim, o futuro dos Supermercados de Proximidade parece promissor.
Ainda que o investimento inicial neste tipo de lojas de pequena a média dimensão
seja reduzido, têm-se verificado cuidados especiais na localização destas lojas. Uma boa
localização atrai mais consumidores, pelo que aumenta as vendas potenciais. No entanto,
estes investimentos podem ser difíceis de rentabilizar, já que implicam retornos de
investimento a mais longo prazo relativamente às lojas de maiores dimensões, devido ao
fraco poder de atracção das lojas e principalmente, menores economias de escala com
cadeias logísticas mais complexas e extensas (Birkin et al., 2002 e Salvaneschi, 1996).
Ver por exemplo o caso de um dos retalhistas mais inovadores no Reino Unido descrito
em Smith (2004).
As pressões que as cadeias de lojas de distribuição alimentar enfrentam são tais
que as decisões de localização não podem ser negligenciadas. As lojas representam
locais onde volumes significativos de capital são investidos. Uma vez tomadas as
decisões de localização são difíceis de alterar. Deste modo, as empresas não podem
continuar a tomar decisões quanto ao quarto P (de place) do marketing mix de ânimo leve
(Gilbert, 2002 e Salvaneschi, 1996). Trabalhos como os de Pioch e Byrom (2004) e Jones
et al. (2003) confirmam a necessidade de uma boa localização, em especial em serviços
mais padronizados e com atendimento menos personalizado, como é o caso das cadeias
de supermercados. Neste contexto, o desenvolvimento de modelos e técnicas de apoio à
decisão baseados em modelos quantitativos de previsão de vendas em novas
localizações assume uma relevância acrescida.
I.B. Motivação, Definição do Problema, Objectivos e Estrutura
A motivação deste trabalho surgiu da necessidade, sentida pelo grupo de
distribuição, de revitalizar uma pequena cadeia de lojas de retalho alimentar que se
posicionara no mercado essencalmente como Supermercados de Proximidade,
orientados para as classes de rendimentos médias a altas, ainda que originariamente
tivessem tido uma orientação mais próxima das lojas Discount (ver Figura 1).
Ainda que actualmente o posicionamento estratégico seja claro, tanto para a
cadeia existente como para as lojas a abrir futuramente, na verdade, alguma incerteza
4
Revista Poupança Quinze, nº 233 de 27/7/2004, Lisboa: Edideco, pág. 7.
11
quanto a esse posicionamento no passado conduziu à abertura de lojas com
características diferenciadas como é o caso de algumas lojas próximas dos
Supermercados Grandes. Desta forma, foi sendo criada uma cadeia de lojas com
dimensões e localizações heterogéneas cujo ponto comum é o facto de se localizarem
todas nas áreas metropolitanas de Lisboa e Porto e quase todas dentro de cidades
suburbanas. Esta cadeia de supermercados tem geralmente áreas alimentares e não
alimentares, sendo a não alimentar responsável por uma pequena fracção das vendas da
loja (entre 10 a 20%).
O problema essencial posto pelos especialistas do grupo de distribuição era a
comparação de localizações potenciais. Após testes com modelos que eram usados
para lojas de maiores dimensões localizadas mais longe do centro das cidades,
chegaram rapidamente à conclusão que eram inadequados para este tipo de lojas. Na
verdade as lojas de menores dimensões estão muito mais dependentes das vizinhanças
próximas e tendem a apresentar valores de vendas mais difícieis de explicar uma vez que
exigem uma análise mais fina.
Assim, o problema consiste em desenvolver modelos capazes de comparar
localizações de pontos de venda de retalho alimentar correspondentes a lojas de
pequena a média dimensão e com uma orientação típica de Supermercados de
Proximidade. A este problema genérico foi acrescentada a restrição de que as
localizações potenciais teriam de ser comparadas em termos de vendas previstas. É,
aliás, esta última restrição imposta que justifica o título desta dissertação.
Ficou igualmente claro desde o início que, dada a reduzida dimensão da cadeia,
com muito poucas lojas abertas, a colaboração dos especialistas seria ainda mais
relevante do que se as circunstâncias fossem diferentes. Na verdade, a falta de dados
quantitativos para validar os modelos teria de ser superada pelos conhecimentos
profundos das lojas e da cadeia detidos por estes especialistas em localização. Os
especialistas são, neste caso, analistas de marketing com formação em ciências sociais e
gestão, responsáveis por todas as decisões de localização da cadeia em consideração e
conhecedores de cada uma das lojas individualmente.
Foi ainda decidido que não se pretendia apoiar decisões estratégicas como a
selecção de regiões do pais em que estes Supermercados de Proximidade deveriam ser
instalados. Dado que a orientação estratégica da cadeia já estava definida, revelou-se
concensual que estas lojas se deveriam localizar em zonas de grande expansão
demográfica, ou zonas onde os consumidores apresentassem elevados rendimentos. No
caso do continente português tal só se verifica nas zonas metropolitanas de Lisboa e do
12
Porto. As restantes zonas são cobertas por grandes lojas fora das cidades ou pequenas
lojas em regime de franchising.
Assim, podem-se enumerar os seguintes objectivos para o trabalho que foi
proposto e que é apresentado nesta dissertação.
(i)
sistematizar, comparar, classificar e avaliar os modelos descritos na literatura
sobre avaliação de desempenho de lojas de retalho e comparação de localizações
potenciais;
(ii)
definir uma classificação das variáveis a considerar nos problemas de previsão
de vendas em novas localizações e recolher dados provenientes de várias origens
que permitam cobrir todas as classes de variáveis identificadas;
(iii)
utilizar e comparar diferentes modelos de delimitação de áreas de influência
que permitam integrar variáveis demográficas em estudos de localização por
análise espacial;
(iv)
definir uma tipologia de lojas que permita compreender melhor o
comportamento das diferentes lojas existentes e que possa ser utilizada nos
modelos subsequentes;
(v)
desenvolver modelos para apoiar decisões de comparação de localizações
potenciais de novas lojas alimentares de pequena a média dimensão baseadas
em previsão de vendas;
(vi)
integrar o conhecimento da área detido pelos especialistas, tanto no
desenvolvimento dos modelos e das metodologias, como na validação dos
mesmos;
(vii) demonstrar que os modelos adoptados e a metodologia desenvolvida são, não
apenas válidos, como os mais adequados e os que conduzem às melhores
previsões, dadas as alternativas disponíveis e as limitações impostas;
(viii) por fim, o objectivo fundamental de todo o trabalho é a geração de
conhecimento sobre este problema complexo que possa ser utilizado em
momentos de decisão futuros.
Assim, a estrutura da dissertação segue de perto a necessidade de preencher
os objectivos identificados como se pode observar na Figura 3.
Neste capítulo apresentou-se uma descrição do problema que inclui já uma
definição das fronteiras do sistema em estudo. No capítulo II faz-se uma abordagem mais
completa ao contexto do problema e dos níveis de decisão envolvidos. Apresenta-se
ainda uma sistematização dos modelos e técnicas da literatura, incluindo as metodologias
baseadas em Sistemas de Informação Geográfica.
No capítulo III passa-se à fase de modelação do sistema e descrição da solução
proposta. Neste capítulo, além de se sugerir uma classificação das variáveis usadas em
problemas de avaliação de desempenho e localização de lojas de retalho, descrevem-se
os dados recolhidos por diversos métodos, os testes de qualidade e consistência
efectuados e os processos de integração utilizados. Descreve-se ainda o tratamento de
13
análise espacial efectuado com definição de áreas de influência por diferentes métodos
que são comparados em termos de capacidade explicativa das variáveis obtidas.
FIGURA 3 ESTRUTURA DA DISSERTAÇÃO SEGUNDO TRÊS FASES.
(As setas referem-se às dependências mais relevantes entre os capítulos da dissertação)
enquadramento e
formulação do problema
Capítulo I
Definição do
Problema e
Objectivos
modelação do sistema e
solução proposta
Capítulo III
Dados Recolhidos e
Análise Espacial
Capítulo IV
Modelos de Agrupamento
das Lojas
Capítulo II
Contexto e Modelos \
Técnicas Descritos na
Literatura
Capítulo V
Modelos de Classificação e
Previsão de Vendas.
teste e
implementação
Capítulo V
Validação dos
Modelos e APAV
Capítulo VI
Conclusões e
Propostas para o
Futuro
No capítulo IV continua-se a modelação do problema, agora com definição de um
modelo para compreender as diferenças entre grupos de lojas. Assim, define-se uma
tipologia baseada na integração de conhecimento dos especialistas escolhida por
comparação com outras tipologias desenvolvidas utilizando metodologias distintas. Este
modelo de loja análoga é central neste trabalho e estruturante de todos os restantes
modelos desenvolvidos.
O capítulo V tem uma dimensão superior aos restantes uma vez que inclui várias
fases do processo. Assim, opta-se por modelos de análise de dados com fins descritivos
e preditivos em detrimento de modelos mais normativos e desenvolvem-se modelos de
classificação das lojas e de previsão baseados em regressão linear. Deste modo,
completa-se a fase de modelação do sistema. No mesmo capítulo descreve-se um
ambiente decisional baseado numa aplicação em folha de cálculo que permite obter
previsões de vendas para localizações potenciais em comparação, e a que se chamou
14
APAV – Análise e Previsão por Analogia de Vendas. Assim, este capítulo inclui
igualmente a fase de teste e validação dos modelos e da solução encontrada.
Por fim, apresentam-se as conclusões do trabalho efectuado e tenta-se provar que
os objectivos propostos foram atingidos. Tenta-se igualmente, neste capítulo, destacar as
contribuições que esta dissertação traz para o problema genérico de localização de lojas
de retalho e apresentam-se vias a explorar no futuro. Esta última parte, centrada na
preocupação com a constante melhoria das soluções encontradas, pode ser integrado no
esquema da Figura 3 referente à implementação e actualização da solução proposta.
A dissertação termina com um conjunto de anexos onde se apresentam tabelas e
gráficos que por serem demasiado extensos e por não serem essenciais para a
compreensão do texto se remetem para esta área de consulta. Todos os capítulos
incluem ainda um resumo inicial e secções introdutórias.
I.C. Algumas Considerações sobre a Nomenclatura
Nesta dissertação utilizam-se técnicas, métodos e algoritmos provenientes de dois
domínios distintos mas que nos últimos anos têm verificado uma evolução convergente,
nomeadamente a estatística multivariada e o reconhecimento de padrões (pattern
recognition) ou aprendizagem automática (machine learning). Este facto complica a
utilização de uma terminologia adequada, uma vez que cada um destes domínios usa as
suas próprias designações. Mesmo quando os mesmos termos são utilizados por vezes
têm significados distintos.
Na maioria dos textos de estatística multivariada o termo classificação engloba
qualquer tipo de método usado para agrupar um conjunto de entidades em subgrupos.
Assim, neste termo estariam englobados actividades complexas e multivariadas
relacionadas com a análise de agrupamentos (clusters) ou actividades tão simples como
agrupar segundo atributos conhecidos como o género ou classes de idades. Neste
mesmo sentido, mais fundamentado no tempo, segue igualmente a definição apresentada
na Diciopédia 2005 da Porto Editora5:
«acto, efeito ou processo de distribuir por classes»
ou a definição apresentada por Hartigan (1996) e atribuída a Webster:
5
Diciopédia 2005 em DVD da Porto Editora, ISBN 972-0-65258-6.
15
«classification is (1) the act or process of classifying; (2) the systematic
arrangement in groups or categories according to established criteria».
Note-se, no entanto, que esta utilização da palavra classificação não é consensual
entre todos os autores de estatística multivariada. Por exemplo, Everitt et al. (2001) utiliza
a expressão “análise de clusters” como sinónimo de classificação efectuada por métodos
numéricos, sugerindo mesmo que o primeiro pode ser mais abrangente do que o segundo
(pág. 4):
«... nowadays cluster analysis is probability the preferred generic term for
procedures which seek to uncover groups in data».
Na mesma linha de pensamento surge a definição apresentada por Gordon (1999)
onde classificação e análise de agrupamentos surgem mais uma vez como sinónimos, já
que a palavra “classification” poderia sem perda de significado ser substituída pela
expressão “cluster analysis”:
«The subject of ‘classification’ is concerned with the investigation of sets of
‘objects’ in order to establish if they can validly be summarized in terms of a
small number of classes of similar objects».
Perante estas indefinições, o termo classificação tem-se tornado ao longo do
tempo mal definido e confuso na literatura de estatística multivariada.
Também na literatura de análise de marketing o termo segmentação é utilizado
como sinónimo de classificação ou mesmo, de forma ainda mais lata, incluindo neste
conceito qualquer técnica que permita dividir entidades em grupos. Por exemplo, Wedel e
Kamakura (2000) incluem nesta denominação técnicas como tabelas de contingência,
tabelas cruzadas, regressão, análise discriminante, árvores de classificação ou modelos
de mistura.
Pelo contrário, na bibliografia de reconhecimento de padrões o termo
“classificação” é utilizado de forma muito mais restrita. Neste domínio do conhecimento,
classificar corresponde a prever o valor de uma variável dependente ou target. Tal é fácil
de entender, já que, se a variável for nominal, prever o valor para uma nova entidade
corresponde a colocar um rótulo nessa entidade, e logo classifica-la no grupo de todas a
que detêm esse rótulo. Nas palavras de Breiman et al. (1984) pág. 6:
«… the basic propose of a classification study can be either to produce an
accurate classifier or to uncover the predictive structure of the problem».
Este conceito vem na sequência de outros dois conceitos: aprendizagem
supervisionada (supervised learning) ou não supervisionada (non supervised learning).
Nesta terminologia, a calibração de um modelo de previsão ou a estimação de um
16
classificador é designado por treino ou aprendizagem (Marques, 1999). Assim, na
aprendizagem supervisionada utiliza-se uma variável dependente com informação sobre
as classes a que pertencem cada uma das entidades da amostra de treino. Neste
conceito incluem-se técnicas da estatística multivariada como a regressão, análise
discriminante e a regressão logística e técnicas novas da área de reconhecimento de
padrões como as árvores de classificação e de regressão e as redes neuronais
supervisionadas. Assim, o conceito de aprendizagem supervisionada conduz ao conceito
de modelos de agrupamento baseados em relações de dependência, introduzido por
Cardoso (2000), ou às técnicas preditivas de Wedel e Kamakura (2000).
Pelo contrário, na aprendizagem não supervisionada a divisão em classes baseiase na procura de padrões ou de uma estrutura nos dados considerando em pé de
igualdade todas as variáveis. Assim, enquadram-se neste conceito as técnicas de análise
de clusters, os modelos de mistura e de segmentos latentes sem relações de
dependência e as redes neuronais não supervisionadas. Cardoso (2000), denomina os
modelos resultantes como modelos de agrupamento baseados em relações de
interdependência e Wedel e Kamakura (2000) chama-lhes técnicas descritivas.
Tendo em conta que a definição apresentada na bibliografia de reconhecimento de
padrões é mais precisa e clara, nesta dissertação adopta-se o termo “classificação” de
forma restrita para técnicas como as árvores de classificação que utilizam aprendizagem
supervisionada para prever um atributo nominal e construir modelos discriminantes
lógicos (ver Figura 4).
No caso de se pretender prever uma variável contínua, utiliza-se a expressão
“árvores de regressão” adoptada de Breiman et al. (1984). A expressão “análise de
agrupamentos” é, assim, considerado independente de classificação. Aliás vários autores,
na área da engenharia de sistemas e nomeadamente nos sistemas de apoio à decisão,
utilizam nomenclaturas idênticas (ver por exemplo Sauter, 1997 e Turban et al., 2005). Na
Figura 4 utiliza-se ainda o termo segmentação no sentido lato descrito atrás.
17
FIGURA 4 DEFINIÇÃO ESQUEMÁTICA DE “SEGMENTAÇÃO”, “CLASSIFICAÇÃO” E “ANÁLISE DE AGRUPAMENTOS”.
(As técnicas são indicadas apenas a título de exemplo e a enumeração não pretende ser exaustiva)
Segmentação
Classificação
(aprendizagem
supervisionada)
Métodos
Paramétricos
Análise
Discriminante Linear;
Regressão logística.
Métodos não
Paramétricos
Árvores de
Regressão
e Classificação;
Redes Neuronais
Supervisionadas.
Análise de Agrupamentos
(aprendizagem não
supervisionada)
Métodos
Paramétricos
Métodos de Mistura
e de Segmentos
Latentes;
Métodos não
Paramétricos
Métodos hierárquicos
e não hierárquicos;
Redes Neuronais não
Supervisionadas.
18
19
Capítulo II ⎯⎯⎯⎯⎯⎯⎯⎯
II. APOIO À DECISÃO NA LOCALIZAÇÃO DE
LOJAS DE RETALHO
Este capítulo introduz o contexto do apoio à decisão na localização de lojas de pequena a
média dimensão. Enumeram-se as razões pelas quais as lojas desta dimensão têm
crescido tanto em número como em quota de mercado, utilizando as opiniões expressas
na literatura e a opinião de especialistas. Descrevem-se os níveis de decisão envolvidos,
o grau de interacção entre eles e as diferenças entre decisões de localização de lojas
pequenas e dos grandes espaços comerciais. Faz-se ainda uma revisão bibliográfica do
estado da arte quanto a métodos e modelos utilizados no apoio à decisão de localização
de lojas de retalho e uma análise comparativa de vantagens e desvantagens. Este
capítulo encontra-se publicado de forma sintética no artigo Mendes e Themido (2004).
II.A. Porquê Lojas de Menor Dimensão?
A importância do sector de retalho alimentar na Europa está bem estabelecida,
sendo um dos subsectores do Comércio e Indústria que mais emprego gera, com um
valor de vendas global de 111,5 biliões de euros em 2000 no total dos 15 países da União
Europeia. Por outro lado, as lojas não especializadas como os supermercados e
hipermercados são responsáveis por 85,4% do total de vendas (Eurostat, 2003).
Apesar da grande heterogeneidade observada nos diferentes países da Europa
(ver Figura 5) vários destes países como a Alemanha, França, Grã-Bretanha, Espanha e
a Itália sofreram uma evolução semelhante. Após um crescimento muito rápido no volume
de vendas relativos às muito grandes superfícies, seguiu-se uma saturação a favor das
pequenas e médias que apresentam actualmente um maior dinamismo como é notado
pelo relatório sobre tendências na distribuição (Eurostat, 2001). O mesmo se passa nos
EUA com notícias de que a Wall-Mart Stores começou em 1998 a abrir lojas com menos
de quatro mil metros quadrados, cerca de metade da área anteriormente utilizada, com o
20
objectivo de competir com lojas de conveniência e supermercados tradicionais.6 Também
autores como Charles Waldman, docente do INSED de Fontainebleau em França7, nos
EUA tal como se verifica na Europa, 61% dos consumidores priveligia a conveniência
face ao preço. Por outro lado, o tempo que os clientes estão dentro dos hipermercados
diminuiu em França de cerca de 90 para 45 minutos, tendo igualmente diminuido o
número médio de viagens ao hiper por consumidor de 39 para 37,7 vezes por ano.
Segundo este autor, estes números, e o facto dos hipermercados não responderem tão
adequadamente ao conceito de conveniência como os supermercados, explica o menor
aumento da quota dos hipers relativamente aos supers, observado na Figura 5.
FIGURA 5 VOLUME DE VENDAS POR DIMENSÃO DE LOJA EM ALGUNS PAÍSES EUROPEUS PARA 1998 E 2002.
(Fonte: Anuário da Distribuição Portuguesa 2000, APED e Atlas da Distribuição 2004, ambos dados AC Nielsen.
Número de lojas por país entre parêntesis. Valores da quota de mercado nas barras pela mesma ordem da legenda.)
17%
19%
27% 15%
46%
47%
48%
40%
24% 25%
39% 35% 15% 18% 29%
39%
18% 20%
12% 11%
Espanha Alemanha Portugal
Áustria
20%
0%
Holanda
2002 (4.409)
2002 (56.913)
1998 (74.048)
2002 (102.204)
19%
Hipermercados 14%
1998 (149.292)
60%
1998 (4.808)
34% 33%
80%
47%
17% 17%
18%
Itália
54%
2002 (4.663)
18%
11%
19%
20% 25% 40%
20%
29% 26%
1998 (6.154)
21%
36%
41% 13%
26%
2002 (6.249)
Supers >'s
19%
10% 29%
1998 (7.337)
Supers <'s
10%
100%
11% 9%
11%
2002 (23.742)
Livre Serviços 24%
13% 18%
1998 (29.179)
19%
17%
2002 (60.000)
23% 18% 21%
1998 (70.400)
Tradicionais
11% 6%
Noruega
Os processos de internacionalização e concentração têm esbatido as diferenças
entre os países europeus. Esses processos são a parte mais visível de um sector de
distribuição alimentar em progressiva mas profunda reestruturação em toda a Europa
(Alexander e Myers, 2000; Rousseau, 1997). Autores como Birkin et al. (2002), Wrigley e
Lowe (2002), Dawson (2000) e mesmo a agência de informação estatística da
Wall Street Journal, 1998, citado pelo Jornal Público de 28/2/1998.
Afirmações proferidas na conferência “Distribuição: Espaço de inovação” parte integrante da Alimentária
e citadas pela revista “News Letter“ (Maio \ Junho, 2003) APED: Lisboa.
6
7
21
Comunidade Europeia (Eurostat, 2001) enumeram um conjunto de motivos para justificar
estas modificações. Ainda que nenhum destes autores se refira em particular à situação
em Portugal, na verdade, muitos dos motivos invocados são facilmente reconhecíveis. Os
motivos que se consideram especialmente relevantes para o caso português são:
•
Aumento da mobilidade dos consumidores: nos últimos trinta anos os padrões
de deslocação têm-se alterado de forma dramática, com os indivíduos a despender
cada vez mais tempo em deslocações e a adquirir cada vez mais veículos. Apesar
desta mobilidade a preferência por lojas mais próximas justifica-se numa perspectiva
de qualidade e rapidez de serviço e nas compras ocasionais. De qualquer modo,
mesmo os Supermercados de Proximidade devem escolher localizações com bons
acessos e estacionamento e colocar-se em locais de passagem tendo em conta o
aumento das viagens com fins múltiplos (Guy, 1998).
•
Aumento da separação entre classes sociais: em toda a Europa e também em
Portugal tem-se verificado a redução do sector primário e principalmente do
secundário. O sector terciário disponibiliza frequentemente trabalho especializado,
bem remunerado, mas também trabalho muito mal remunerado, pelo que as classes
médias europeias têm diminuído em número e importância (Birkin et al., 2002 e
Pinch, 1993). Este facto, ainda que tenha expressões distintas nos diferentes países
Europeus, viabiliza o surgimento de novos formatos de retalho orientados para as
diferentes classes. Como exemplos podem referir-se Supermercados Hard Discount
para a classe de menores rendimentos e Supermercados de Proximidade para as
classes mais elevadas.
•
Envelhecimento da população: um outro factor de mudança no retalho alimentar
que sugere formatos de proximidade é a forte diminuição das classes de idades
mais jovens, abaixo dos 25 anos, e o aumento da população com idades acima de
50 anos e em especial acima dos 75 anos, de acordo com o aumento da esperança
de vida. Estas alterações demográficas são uniformes em toda a Europa, com a
possível excepção da Irlanda, com implicações tanto no tipo de produtos comprados
como na forma como se compra (Eurostat, 2002 e Goodwin e McElwee, 1999). De
um modo geral, com o aumento da idade assiste-se a um reforço das compras em
lojas menores e à diminuição da frequência de hipermercados e dos centros
comerciais, talvez devido à personalização do atendimento (Teixeira et al., 1999).
•
Diminuição da dimensão dos agregados familiares: em toda a Europa o número
de elementos do agregado familiar médio está a diminuir rapidamente, novamente
com a excepção da Irlanda. Em países como Portugal e Grécia, onde o agregado
familiar médio tinha maior dimensão, as reduções são mais acentuadas. Esta
redução é acompanhada com um aumento igualmente rápido do número de
alojamentos de residência habitual e de agregados com apenas um indivíduo.
Verifica-se igualmente, por toda a Europa, um aumento da proporção do género
feminino que trabalha, o qual é tradicionalmente responsável por grande parte das
compras no retalho alimentar. Estas alterações traduzem-se num aumento das
vendas nas secções não alimentares como a decoração, mas também na
conveniência de lojas próximas com atendimentos rápidos e no nivelamento entre
os géneros nas compras alimentares.
•
Migrações internas: um pouco por toda a Europa verificam-se igualmente
alterações significativas relativamente a regiões em rápida expansão demográfica e
outras em declínio. Regiões tradicionalmente ligadas ao sector primário e
secundário estão em declínio, favorecendo as regiões que conseguem criar mais
emprego no sector dos serviços. A viabilização de lojas de retalho alimentar a longo
prazo depende, em grande parte, da escolha da região. Estas alterações justificam
22
igualmente o aumento de investimento nas áreas metropolitanas das grandes
cidades, face ao aumento crescente da concentração urbana.
•
Restrições políticas: em muitos países europeus impuseram-se ao sector da
distribuição restrições à abertura de novas lojas de grande dimensão e em alguns
casos mesmo a lojas de média dimensão, além de outras restrições por exemplo
relacionadas com horários de abertura (Teixeira et al., 1999), que tiveram como
consequência a preferência pela abertura de lojas de menor dimensão e tentativas
de internacionalização na procura de novos mercados (Guy, 1998).
•
Saturação do mercado: este aspecto é comum a todos os países Europeus, em
especial no retalho alimentar, com a excepção dos países de leste recém chegados
ao livre comércio internacional. Em resposta à menor progressão das vendas, as
cadeias de distribuição têm procurado novos mercados e novos formatos que
correspondem muitas vezes a lojas de menor dimensão (Poole et al., 2002).
•
Novos canais de distribuição e novas formas de retalho: neste âmbito insere-se
o comércio electrónico mas também as formas de retalho por telefone ou marketing
directo. Assiste-se a um crescimento destas formas de retalho que, no Reino Unido,
é um dos factores apontado para o encerramento de inúmeras agências bancárias.
No caso particular da distribuição alimentar, o crescimento tende a ser lento e a
penetração reduzida (Figueiredo et al., 1999). Ainda assim, empresas como a Tesco
Direct no Reino Unido, Continente On-line e Pingo Doce On-line em Portugal
surgem como líderes nestas novas formas de retalho. Apesar de não estarem a
ganhar dinheiro com estes novos canais de venda, tendo algumas encerrado o
serviço, outras mantêm-no numa estratégia dupla: de usar a internet para atrair
clientes às lojas e de estarem em boa posição para liderar quando o mercado
electrónico começar a crescer (Birkin et al., 2002, Wrigley e Lowe, 2002).
Todos estes factores têm diversas consequências no retalho alimentar Europeu.
Uma das mais evidentes é a abertura de novos formatos, muitas vezes de menores
dimensões obedecendo ao martini effect i.e., traduzir o aumento da exigência por parte
dos consumidores na oferta dos produtos exigidos, e apenas estes, em qualquer lugar e
em qualquer momento para conveniência do consumidor (Birkin et al., 2002). Por este
mesmo princípio se justifica a denominação de Supermercados de Proximidade
tradução adoptada para as expressões: neighbourhood retail shops, (Newman e Cullen,
2002) ou town centre shops (Eurostat, 2001).
Outra consequência tem sido o rápido aumento de lojas Discount e Hard Discount.
Esta evolução tem aumentado as preocupações com a dieta oferecida por este tipo de
lojas. Na verdade, estas lojas oferecem um gama de produtos muito reduzida com
qualidade alimentar preocupante para famílias que se abasteçam apenas, ou
principalmente, neste tipo de lojas (Clarke et al., 2004; Whelan et al., 2002; Morland et al.,
2002). Também preocupações com a desertificação comercial no centro das grandes
cidades têm conduzido a legislação que restringe a abertura de grandes hipermercados
(Wrigley e Lowe, 2002). Este tipo de preocupações, ainda que os factos possam ser
contestados (ver Cummins e Macintyre, 2002), podem conduzir a legislação que beneficie
23
os supermercados dirigidos a classes de mais elevados rendimentos. Em Portugal,
apesar da fase de indefinição que atravessamos no domínio das Unidades Comerciais de
Dimensão Relevante (UCDR), estas preocupações ainda não são evidentes.
O futuro das lojas de pequena e média dimensão parece promissor. Birkin et al.
(2002) considera mesmo que devemos esperar um importante crescimento (ou
resurgimento) deste tipo de lojas na Europa, principalmente por meio de franchising.
Segundo Dawson (2000) este crescimento de lojas de menores dimensões insere-se
numa estratégia multi-formato utilizada pelos maiores retalhistas Europeus e já muito
comum nos Estados Unidos da América. No Reino Unido todos estes motivos levaram já
a Tesco a desenvolver novos formatos de proximidade como o Tesco Metro (Seth e
Randall, 1999).
II.B. Níveis de Decisão na Localização de Lojas de Retalho
A importância que os consumidores atribuem à localização de lojas de retalho
está, desde sempre, bem estabelecida. Por exemplo, Arnold et al. (1983) conduziu um
estudo que decorreu durante sete anos em seis mercados distintos na Europa e nos
Estados Unidos, tendo concluído que os factores mais valorizados pelos clientes são a
localização e os preços baixos. Decorrente de resultados como este não é de estranhar o
elevado número de publicações tanto científicas como profissionais sobre modelos de
localização de todo o tipo. Apesar de a maioria destas publicações ser vaga e de existir
algum secretismo e dificuldade em obter dados e informações precisas, já que a
localização é considerada estratégica no retalho, existem alguns casos de estudo bem
documentados.
Um bom exemplo de um projecto de grande importância efectuado com utilização
de modelos e métodos quantitativos é apresentado por Penny e Broom (1988), Moore e
Attewell (1991), e mais recentemente em Cummings (1999) e Smith (2004), e refere-se
ao grupo Tesco no Reino Unido. A necessidade dum tão caro e demorado estudo
justifica-se, nas palavras de Moore e Attewell (1991), pela necessidade fundamental de
melhorar a qualidade das decisões relacionadas com a aquisição de novas localizações
e, assim, diminuir o risco associado a investimentos avultados.
Este estudo prolongou-se por mais de 10 anos, envolvendo mais de duas dezenas
de investigadores e um avançado centro de cálculo. Propondo-se obter um modelo que
não ultrapassasse um erro relativo médio de 10% das previsões, iniciaram a modelação
com modelos causais de regressão, evoluindo posteriormente para os modelos
24
gravitacionais e acabando por montar um complexo sistema de análise de marketing e
controlo logístico. O plano da Tesco que visava a abertura de 12 novos estabelecimentos
por ano, a adicionar aos 360 existentes na altura, permitiu constatar pelos excelentes
resultados obtidos, o eficaz desempenho dos métodos inicialmente utilizados por Penny e
Broom (1988) e posteriormente desenvolvidos dentro da empresa.
O objectivo sempre foi o de compreender todos os aspectos envolvidos na
localização e desempenho das lojas e das localizações potenciais tal como os aspectos
relacionados com o comportamento do consumidor. Segundo Cummings (1999), o valor
das decisões de localização está muito bem estabelecido na Tesco e continua a ser
considerado uma importante vantagem competitiva. Hoje a Tesco PLC tem 968 lojas das
quais 161 são do seu formato de proximidade (insígnia Tesco Metro) totalizando 23
milhões de metros quadrados no Reino Unido (e 45 milhões no mundo), surgindo como o
maior retalhista do Reino Unido com 28% do mercado alimentar8.
Na tentativa de esquematizar e hierarquizar as decisões envolvendo localizações
de lojas pertencentes a cadeias de retalho considera-se uma metodologia de decisão
faseada, ainda que a interacção entre as diferentes fases seja possível, em especial entre
o segundo e terceiro níveis (Figura 6).
Numa primeira fase, baseada em critérios estratégicos de política de expansão da
cadeia e critérios tácticos a nível da logística, é seleccionada uma área ou região onde se
pretende a instalação de novas lojas, o número de lojas a instalar e o prazo de
implementação da decisão. A este conjunto de problemas muito interligados chamou
Lilien et al. (1992) o problema macro, em contraste com os problemas de nível 2, a que
chamou o problema micro.
Após seleccionadas algumas localizações alternativas, frequentemente com o
auxílio de agências imobiliárias, pretende-se numa segunda fase, efectuar a escolha fina
da localização das lojas por utilização de modelos de previsão de vendas. Este tipo de
decisões é conhecido na literatura como site selection ou avaliação de localizações
potenciais9 (ver por exemplo: Newman e Cullen, 2002 e Birkin et al., 2002). A quantidade
de modelos publicados, tanto de índole académico como implementados em pacotes
informáticos, resumidos na secção II.C, comprova a necessidade sentida pelos
Informação retirada de www.thisismoney.com/20040923/nm82782.html e do site da Tesco PLC
84.40.10.21/presentResults/, em 18/11/2004. No total de lojas do Reino Unido excluem-se 910 lojas da
insígnia T&S recentemente adquirida.
9
Tradução sugerida pelo autor.
8
25
investigadores e decisores no uso racional e formal de informação quantitativa para
apoiar este tipo de decisões complexas.
FIGURA 6 NÍVEIS DE DECISÃO ENVOLVIDOS NA ESTRATÉGIA DE EXPANSÃO DE UMA CADEIA DE LOJAS.
(Fonte: adaptado de Lilien et al., 1992)
PROBLEMAS
nível 1: macro
Quantas Lojas Construir, em
que Período de Tempo e em
que Regiões Alvo?
MODELOS
Modelos Integrados de
Investimento e Expansão
da Cadeia
DECISÕES
Plano de Expansão da
Cadeia a Longo Prazo
nível 2: micro
Das Localizações
Potenciais numa Região
Alvo, Quais Escolher?
Modelos de Previsão de
Vendas para cada
Localização Potencial
Programa de Aquisição
de Novas Localizações
Modelos de Quotas de
Vendas por Secção e de
Segmentação de Clientes
Dimensão da
Loja, Layout e Serviços a
Implementar
nível 3: individual
Quais as Características da
Loja a Implementar para o
Local Escolhido?
Hernández et al. (1998) integram neste nível um conjunto de outras decisões a
que chamam o location mix. Assim, além de decisões de abertura de novas lojas ou
aumento de espaço comercial, incluem-se decisões de outros tipos, nomeadamente:
deslocação de lojas i.e. encerramento para abertura noutro local próximo, encerramento
da totalidade da loja ou apenas parcial, de re-estruturação ou mudanças profundas de
imagem das lojas, entre outras. O objectivo a atingir com estas decisões é sempre a
maximização dos lucros da totalidade da cadeia.
Ainda pode ser considerado um terceiro nível de decisão consistindo na definição
das características da loja a construir e nos serviços a oferecer. Este terceiro nível de
decisão é o mais ligado ao conceito de qualidade de serviço e satisfação do consumidor
como referido por Sulek et al. (1995). Como observado por estes autores, a qualidade do
serviço prestado tem um efeito directo e um efeito indirecto nas vendas. Ambos podem
ser medidos com medidas de desempenho objectivas. Estudos recentes confirmam ainda
a existência de interacções entre a vizinhança da localização e a atractividade de
26
diferentes categorias de produtos, aconselhando à modelação ao nível individual da loja
(Verhetsel, 2005).
Ainda que este nível esteja intimamente ligado à gestão da loja, que é da
responsabilidade do gestor local, aspectos como o desenho físico e layout da loja,
existência de estacionamento, implementação de serviços como entregas ao domicilio e
encomendas à distância e orientação da gama e serviços para determinados segmentos
de mercado, podem ser modelados e têm um significativo impacto nas vendas. Tal é
confirmado em trabalhos como o realizado por Heald (1972). Assim, segundo estudos
realizados nos EUA na década de 70, um bom estacionamento pode acrescentar até 20%
nas vendas, a possibilidade de pagamento com cartão de crédito (ou existência de outras
formas de crédito) combinado com o serviço de entrega ao domicílio, pode acrescentar
até 30%. Inovações como a identificação de itens por rádio frequência podem igualmente
ser adoptados em alguns tipos de lojas onde a qualidade do serviço é mais valorizada
(Karkkainen, 2003).
Esta hierarquização de decisões é suportada por estudos baseados em inquéritos,
como o apresentado em Birrell e Worrall (1995). Estes autores asseguram que o decisor
separa naturalmente decisões de nível 1, i.e. relacionadas com a selecção da região
geográfica, de decisões de nível 2, relacionadas com a escolha fina do local de
implementação baseada na comparação de alternativas.
Tem-se ainda que distinguir as decisões de localização em função da dimensão da
loja. O problema da localização coloca-se de modo bem distinto para grandes e
pequenas superfícies. Os Hipermercados localizam-se habitualmente junto aos grandes
centros e das mais importantes vias de acesso, enquanto as pequenas e médias
superfícies seguem uma estratégia de proximidade localizando-se no interior das
localidades menores e nos subúrbios ou mesmo no centro das grandes cidades. Assim,
evitam deslocações aos consumidores e permitem serviços de melhor qualidade,
conduzindo a um menor cansaço por parte destes. Tal é confirmado por trabalhos como o
apresentado recentemente por Verhetsel (2005) sobre a influência das características da
vizinhança próxima em supermercados e hipermercados, confirmando igualmente o
comportamento diversificado destes tipos de lojas perante diferentes categorias de
produtos.
Existem igualmente diferenças importantes ao nível da gama de produtos
oferecidos ao cliente e na distribuição das vendas por secção. Segundo um estudo do
INE (Reis e Miranda, 1998) enquanto nas lojas com menos de 2.000 m2 apresentam
cerca de 70% das vendas em produtos do grupo alimentar, bebidas e tabaco (78% para
27
lojas com menos de 1.000 m2), nas lojas com mais de 8.000 m2 essa percentagem é de
apenas 53%.
Deste modo, o tipo de modelos utilizados para modelar vendas deverão
igualmente ser bem distintos. Enquanto que os modelos gravitacionais permitem a
obtenção de estimativas boas para as grandes superfícies de retalho ou centros
comerciais, para pequenas superfícies os cálculos exigidos pelos modelos gravitacionais
tornam-se demasiado complexos, podendo as simplificações introduzidas conduzir a
modelos ineficientes, obtendo-se estimativas semelhantes para todas as localizações
potenciais.
Na secção seguinte descrevem-se modelos de previsão de vendas e comparação
de localizações potenciais, correspondendo ao nível micro da Figura 6 (página 25). No
entanto, alguns dos modelos podem ser utilizados no nível macro mais estratégico e
extendidos ao nível das características da loja a implementar e dos serviços oferecidos,
nível individual.
II.C. Modelos de Apoio à Decisão: O estado da arte
No final dos anos vinte, foram propostos os primeiros modelos clássicos de
localização de indústrias. Mais tarde surgiu a Teoria da Localização Central construída
com base nos modelos anteriores. De acordo com esta teoria, as firmas deveriam
agrupar-se em complexos industriais e de negócios. A partir dos anos trinta, a Teoria de
Localização passou a dar mais relevância aos aspectos quantitativos e às características
do negócio (Birkin et al., 2002).
Ainda que desde o início os retalhistas se tenham apercebido da importância de
uma boa localização para as suas lojas, a utilização de modelos quantitativos neste
domínio é muito mais recente. Durante muitos anos os retalhistas utilizaram técnicas
empíricas baseadas na experiência pessoal ou técnicas não quantitativas como as listas
de factores desejáveis ou indesejáveis numa boa localização. Com o crescimento das
cadeias de retalho, em especial daquelas com lojas menores, a intensificação da
concorrência, a necessidade de satisfazer consumidores cada vez mais exigentes e a
tendência de utilização crescente de aplicações SIG, surgiram modelos e técnicas
quantitativas algumas de grande complexidade e sofisticação (Hernández e Bennison,
2000). A maior parte das técnicas a partir de então desenvolvidas são utilizadas para
efectuar previsões de vendas em novas localizações ou previsões de captação de quota
de mercado e impacto nas lojas existentes.
28
Como refere Lilien et al. (1992), o desenvolvimento de modelos de previsão de
vendas é central para o sucesso dos métodos de site selection. Tal pode ser confirmado
em estudos recentes sobre retenção e lealdade (East et al., 2000) e no crescimento do
planeamento geográfico do retalho (Birkin et al., 2002). Os métodos empíricos sofrem de
uma excessiva subjectividade de análise e uma incapacidade de considerar, em
simultâneo, o impacto de um grande número de variáveis. Pelo contrário, os métodos
quantitativos desenvolvidos a partir do início do século passado, permitem definir
relações entre as vendas e as variáveis explicativas, como as características da
localização, a demografia e as características da concorrência. Quantificando a
importância de cada uma destas variáveis, o nível de subjectividade envolvido na
previsão de vendas é diminuído, ainda que não eliminado.
Hoje, muitos métodos utilizados na construção de modelos de localização de
espaços comerciais e previsão de vendas são referenciados em múltiplas publicações.
No entanto, estes estudos revestem-se de um carácter generalista que, desprezando
factores que caracterizam as cadeias, não conseguem reproduzir a especificidade destas.
Assim, não são imediatamente aplicáveis a novas lojas pertencentes a cadeias de retalho
justificando o desenvolvimento de novos modelos e \ ou a adaptação dos existentes
(Lilien et al., 1992).
II.C.1. Listas, Previsão por Analogia e Decisão Multicritério
Conceptualmente, os métodos mais simples de selecção de localizações
envolvem regras empíricas baseadas na experiência dos retalhistas ou heurísticas
simples. Os retalhistas ou analistas usam uma combinação de experiência pessoal,
observação empírica e tentativa e erro para isolar um conjunto de factores considerados
chave no desempenho das lojas e da localização.
Um exemplo é o método da lista marcada (checklist) descrito em Lilien et al.
(1992), a qual incluí 8 principais factores de localização, sendo cada um deles dividido em
vários subfactores. Assim, o utilizador verifica separadamente cada factor para cada
localização potencial, concluindo posteriormente sobre uma ordenação baseada nas
forças e fraquezas das localizações potenciais. Este tipo de método é pouco oneroso e
permite obter soluções rápidas para a decisão de localização. No entanto, são
normalmente simplistas e demasiado subjectivos. Estes métodos continuam a ser muito
utilizados quando as cadeias são demasiado pequenas ou quando o investimento não
justifica o desenvolvimento de modelos mais complexos (Hernández e Bennison, 2000).
29
Os métodos de previsão por analogia são uma evolução natural dos métodos
anteriores e uma tentativa de evitar as suas principais dificuldades, como a falta de
quantificação e de objectividade. Estes métodos desenvolvidos por Applebaum (1966), na
sua forma mais simples, não requerem grandes volumes de dados, são razoavelmente
objectivos mas permitem a inclusão da sensibilidade dos analistas na decisão final. Este
tipo de métodos continua a ser o mais utilizado por empresas onde a dimensão da rede
de lojas ainda não justifica o desenvolvimento de modelos mais avançados.
A definição de loja análoga nem sempre é clara mas, na prática, traduz-se pela
utilização de regras empíricas utilizadas no apuramento de um conjunto de lojas, com
uma área comercial até 20% maior ou menor do que a da localização potencial. Após a
selecção de um conjunto de lojas análogas, o método consiste na avaliação dessas lojas
segundo um conjunto de critérios. Normalmente utilizam-se escalas ordinais, nas quais o
analista (ou grupo de analistas) avalia cada loja em cada critério e também a localização
para a qual se pretende fazer previsão. As lojas existentes são posteriormente ordenadas
pelas vendas anuais do último ano disponível e a nova localização é colocada na lista
ordenada por comparação da avaliação obtida nos diferentes critérios. Assim, é possível
determinar um intervalo esperado para as vendas da nova loja. O intervalo é tanto mais
estreito quanto mais próximos forem os valores de vendas das lojas que estão
imediatamente antes e depois da nova loja na ordem encontrada.
As técnicas de análise multicritério podem igualmente ser interpretadas como
uma evolução dos modelos de previsão por analogia, já que usam igualmente um
conjunto de critérios para avaliarem uma localização. No entanto, tanto no processo de
escolha dos critérios como no processo de construção de uma medida de desempenho
que permita comparar as diferentes localizações, utilizam-se técnicas quantitativas que
permitem diminuir a subjectividade observada nos modelos de analogia.
Um exemplo é apresentado por Birrell e Worrall (1995) onde se utilizam
entrevistas aos decisores para identificar os factores mais valorizados em decisões de
localização. Esses factores são usados na pesquisa de localizações potenciais extraídas
de bases de dados de agência imobiliárias. Em seguida, solicitam-se aos decisores
comparações entre várias localizações potenciais usadas para a construção de uma
função de desempenho ou utilidade. Por fim, efectuam-se trade offs entre os diferentes
critérios, por visualização dos resultados em termos de utilidade de cada localização
potencial, para seleccionar a localização que corresponde ao melhor compromisso entre
os factores considerados.
30
Técnicas semelhantes, usando um conjunto de critérios quantitativos e pesos,
podem ser utilizadas para ordenar um conjunto de localizações potenciais. Um exemplo é
referido em Meyer (1988) que descreve uma técnica, na altura, utilizada em várias
companhias Americanas. Dada uma localização ideal, é definida uma área de influência a
qual é analisada segundo diversos pontos de vista principalmente usando variáveis
demográficas e obtendo-se um conjunto de critérios de avaliação. De forma automática,
esses critérios são avaliados para localizações potenciais disponíveis, produzindo-se uma
ordenação das melhores localizações.
Outra aplicação utiliza técnicas de Processo Hierárquico Analítico (AHP –
Analytical Hierarchy Process)10 para comparação de localizações por análise de um
conjunto de critérios incluindo as preferências do decisor. Este é o caso do trabalho
apresentado por Yang e Lee (1997), onde são incluídos critérios medidos em escalas
quantitativas e qualitativas, colocando a tónica na inclusão do conhecimento e
experiência dos gestores.
Trabalhos recentes exploram a combinação de conhecimento do domínio e
intuição do utilizador com aproximações normativas para desenvolver Sistemas de Apoio
à Decisão (SAD) baseados em métodos de analogia. Este é o caso do trabalho
apresentado por Clarke et al. (2003b), onde se descreve uma metodologia para encontrar
lojas análogas a localizações potenciais usando um sistema com modelos quantitativos e
várias formas de visualização e comparação, incluíndo mapas cognitivos. O objectivo é
isolar as diferenças consideradas mais relevantes pelo utilizador do sistema entre uma
nova localização e uma loja existente, o mais análoga possível, baseando a comparação
em múltiplas dimensões. Uma outra evolução de sistemas baseados em conhecimento
do utilizador ou de especialistas são os Sistemas Periciais (Expert Systems) que Curry e
Moutinho (1991) advogam poder ser muito úteis em decisões de avaliação de
localizações potenciais.
Note-se que este método inclui as características próprias da cadeia considerada,
ao fazer comparações apenas com outras lojas da mesma cadeia, mas tem dificuldade
em lidar com zonas geográficas muito distintas, nomeadamente a nível da concorrência e
de factores demográficos. Deve-se salientar ainda que a precisão deste método diminui
quando na zona de influência da loja existe concorrência acentuada, uma vez que tem
dificuldades em incluir as características desta.
10
Tradução retirada do DicIO, www.apdio.pt/DicIO/, em 17/8/2004.
31
As principais críticas a estas metodologias prendem-se com a utilização de um
grupo reduzido de critérios como determinantes das vendas de uma loja e avaliações
muitas vezes subjectivas. Assim, podem ficar esquecidos aspectos relevantes na
previsão de vendas, o que pode ser evitado quando existem ou é possível recolher mais
dados e quando as cadeias atingem dimensões que permitem um tratamento estatístico
mais rigoroso. Assim, não é de estranhar que tenham surgido alguns modelos de
previsão por analogia mais recentes, associados a técnicas de análise de dados. São
exemplos os modelos calibrados por regressão linear entre lojas análogas referidos no
inquérito efectuado por Hernández e Bennison (2000), entre os responsáveis pela
localização dos grupos de distribuição no Reino Unido, tendo-se concluído que eram dos
mais utilizados. Outro exemplo é a utilização de técnicas de análise de agrupamentos e
métodos discriminantes na definição de grupos análogos, como é sugerido em Schaffer e
Green (1998).
Por outro lado, os modelos de decisão multicritério permitem analisar um reduzido
número de localizações em muito pormenor, permitindo incluir comportamentos do(s)
decisor(es) sobre a forma de funções valor e um muito variado conjunto de critérios,
estando muitas vezes implementados em pacotes informáticos interactivos e apelativos
para o utilizador (Birrell e Worrall, 1995). No entanto, são pouco adequados à obtenção
de previsões de vendas e utilizam funções agregadoras conducentes a medidas de
desempenho dificilmente compreensíveis pelo decisor, por oposição às vendas que
funcionam igualmente como uma função agregadora mas profusamente utilizada e
reconhecida pelos gestores de lojas de retalho.
II.C.2. Modelos de Regressão Linear
Os modelos de regressão linear são dos modelos mais utilizados na previsão de
vendas de novas localizações sendo utilizados desde os anos sessenta (Hernández e
Bennison, 2000, Moutinho e Evans, 1992 Morphet, 1991). São recomendados em
mercados altamente segmentados como o pronto-a-vestir, restauração, livrarias e
joalharia, mas são muito usados em todas as áreas do marketing (Lilien et al., 1992).
Para construir e estimar um modelo de regressão linear utiliza-se um processo
semelhante ao dos modelos de analogia, com selecção de lojas análogas e cálculo de
variáveis para essas lojas incluindo a nova localização. A diferença é que estes dados
são utilizados para estimar um modelo de regressão linear usando as vendas anuais do
último ano como variável dependente. Deste modo é possível prever vendas para novas
32
localizações, simplesmente substituindo os valores das variáveis independentes
calculadas para as localizações em comparação.
Ainda que o procedimento anterior seja quase sempre o utilizado, os modelos de
regressão resultantes são muitos e variados. A principal diferença entre eles refere-se à
enorme variedade de variáveis explicativas das vendas. A maioria dos modelos inclui
variáveis demográficas, relacionadas com acessibilidades e aspectos urbanísticos e
variáveis do marketing mix. Essas variáveis são, muitas vezes, simples avaliações
subjectivas, contagens, rácios ou índices como o índice de concorrência, vendas per
capita ou classes de rendimentos. Sublinhe-se que apenas as variáveis explicativas
significativamente correlacionadas com as vendas são incluídas na equação.
Uma grande vantagem destes modelos é a sua capacidade explicativa já que
fazem comparações explícitas do desempenho das lojas com os principais factores
determinantes desse desempenho. Também, a importante redução de subjectividade e a
possibilidade de obter intervalos de confiança para as estimativas, constituem as grandes
vantagens destes modelos causais relativamente aos modelos de previsão por analogia
menos fundamentados estatisticamente (Mendes e Themido, 2000).
Um exemplo muito referido na literatura é o SLAM – Store Location Assessment
Model implementado em vários pacotes de software. Neste modelo utilizam-se formas
funcionais aditivas e multiplicativas e variáveis demográficas e concorrenciais. As
variáveis demográficas e de concorrência podem ser definidas em relação a uma ou mais
zonas de influência da nova loja, e podem ser ajustados modelos para cada zona ou
subzona (Simkin, 1989).
Podem citar-se muitas outras publicações utilizando modelos causais na previsão
de vendas em diferentes localizações como medida de desempenho dessas localizações.
Um exemplo para o mercado nacional de combustíveis é apresentado por Themido,
Quintino e Leitão (Themido et al., 1998). Os modelos de regressão descritos permitem,
com utilização de sete equações aditivas ou multiplicativas, prever vendas de uma forma
genérica para todo o tipo de pontos de venda ou de forma segmentada para seis
segmentos distintos. As previsões efectuadas são mais exactas do que as efectuadas
pelos modelos anteriormente utilizados, pelo que os novos modelos foram bem sucedidos
e são comummente usados em decisões de investimento e localização. Estes autores
introduzem ainda o conceito de variáveis âncora como critério de selecção entre modelos.
Assim, para qualidade de ajustamento semelhante, o modelo com mais estabilidade nos
parâmetros das variáveis âncora foi seleccionado, com o objectivo de obter mais
33
consistência com as expectativas dos especialistas e maior interpretabilidade dos
resultados.
Vários autores (ver por exemplo: Rogers, 1992 e Simkin, 1989) defendem o uso de
um número tanto maior quanto possível de variáveis explicativas, de forma a minimizar o
risco de se excluirem aspectos importantes nas fases iniciais da análise. No entanto, o
uso de um grande número de variáveis potencialmente explicativas, coloca problemas na
selecção das variáveis realmente importantes, já que as heurísticas tradicionais
progressivas (forward), regressivas (backward) e passo a passo (stepwise) são
heuristicas pouco eficientes em condições de “praga da dimensionalidade” (curse of
dimensionality)11, i.e. quando o número de variáveis é muito superior ao número de
observações. Assim, estes autores recomendam a utilização de métodos de selecção de
variáveis (feature selection) tanto por utilização de algoritmos automáticos, como de
conhecimento de domínio por parte de especialistas.
Outros autores recomendam técnicas de redução de dimensionalidade. Por
exemplo, Boufounou (1995) utiliza matrizes de correlações entre as potenciais variáveis
explicativas, para seleccionar grupos de variáveis com elevadas correlações, e aplica
técnicas de análise de componentes principais para extrair um reduzido número de
componentes explicativas da maior parte da variância dos dados iniciais.
Apesar da abundante literatura em feature selection and extraction (ver por
exemplo o livro de Webb, 2002, para uma revisão muito completa), a selecção de
variáveis e a redução de dimensionalidade continua a ser um problema em aberto. Assim,
não é de admirar que as dificuldades em lidar com grandes volumes de variáveis
potencialmente explicativas continue a surgir como uma das principais críticas a estes
métodos. Outras críticas prendem-se com a necessidade de se utilizarem apenas escalas
quantitativas ou dicotómicas, de avaliarem as lojas de forma individualizada sem
considerem a cadeia de forma holística e de não procurarem localizações óptimas
(Boufounou, 1995). Autores como Newsome e Zietz (1992), Wedel e Kamakura (2000)
consideram ainda a necessidade de segmentação em modelos de regressão sempre que
as variâncias entre os segmentos são significativamente distintas, o que pode ser muito
relevante quando as lojas consideradas são pouco homogéneas.
Esta expressão é utilizada na literatura de programação dinâmica e na literatura de reconhecimento de
padrões significando um elevando número de variáveis para um número limitado de observações,
limitando a possibilidade de calibração e validação de modelos complexos.
11
34
II.C.3. Modelos Discriminantes e Árvores de Classificação
Aplicações de análise discriminante para modelação de vendas de lojas e
localizações surgem essencialmente no suporte a decisões de curto a médio prazo, em
particular na avaliação de locais e lojas individuais, com pouca utilização em decisões
estratégicas apoiadas por modelos mais facilmente generalizáveis (Themido et al., 1998;
Sands e Moore, 1981). Tipicamente a técnica é utilizada para filtrar localizações pouco
interessantes ou para induzir regras operacionais capazes de diminuir o risco da decisão
de localização (Lilien et al., 1992).
Os modelos discriminantes lineares paramétricos possibilitam a aplicação de
testes de significância aos resultados obtidos, acarretando a verificação de alguns
pressupostos. Dado um conjunto, normalmente elevado de variáveis, identificam-se
aquelas que melhor explicam as diferenças entre grupos de lojas análogas previamente
definidos em função do desempenho. Uma vez identificadas as funções discriminantes,
as novas localizações são classificadas segundo a sua pontuação (score) num dos
grupos análogos. Pode usar-se a média desse grupo ou um intervalo de vendas anuais
baseado na variância do grupo como previsão para a nova localização (Sands e Moore,
1981), mas podem igualmente ser efectuadas regressões dentro de cada grupo para a
previsão de vendas.
Morgan e Sonquist (1963) e Assael (1970) utilizam técnicas não paramétricas de
aprendizagem supervisionada como as árvores de classificação e apresentam as
primeiras aplicações destas técnicas, especialmente adequadas para grandes volumes
de observações e variáveis explicativas em várias escalas de medida. O método utilizado
por estes autores é conhecido por AID – Automatic Iteration Detector e baseia-se na
análise de variância para segmentar as observações em grupos distintos para os quais
podem ser desenvolvidos modelos causais. Estes autores consideram ser esta uma
forma de implementar a combinação da segmentação com modelos lineares, considerada
necessária em várias situações. É, portanto, um método adequado quando a regressão
inicial que considera a totalidade das observações apresenta fraca capacidade explicativa
(Heald, 1972).
Algoritmos recentes de árvores de classificação e discriminantes incluem uma
evolução do AID, o CHAID – CHi-square Automatic Interaction Detection (Kass, 1980;
Biggs e Suen, 1991), CART – Classification And Regression Trees (Breiman et al., 1984)
e C4.5 (Quinlan, 1993). O método utilizado por estes algoritmos consiste na divisão
recursiva do conjunto de observações em subgrupos filhos construindo uma árvore da
35
raiz para as folhas. Em cada passo, o algoritmo determina uma regra de classificação
seleccionando uma variável e um ponto de corte nos valores dessa variável, que
maximize uma medida de entropia dos nós filhos relativamente ao pai (C4.5), minimize
uma medida de impureza (CART) ou que maximize a distinção estatística dos filhos
relativamente à variável dependente (CHAID). O objectivo é sempre obter divisões dos
dados que permitam definir grupos tão homogéneos quanto possível, relativamente à
variável dependente (target variable)12. Este processo é repetido até que uma regra de
paragem seja atingida, a qual pode ser a incapacidade de encontrar novas variáveis que
permitam divisões dos dados estatisticamente significativas ou simplesmente um nível
máximo de dimensão da árvore. Alguns algoritmos, como o CART ou C4.5, permitem
ainda a poda da árvore, ao efectuarem uma revisão da árvore obtida e ao removerem
ramos considerados pouco eficientes na previsão da variável dependente.
A qualidade dos resultados está associada a factores como o número de
observações, número de variáveis disponíveis, graus de liberdade e às técnicas de
amostragem utilizadas. Deste modo, uma das principais desvantagens destes métodos
prende-se com o número elevado de observações e variáveis explicativas necessário.
Outra das críticas está relacionada com o facto dos algoritmos não garantirem a
optimalidade das soluções, já que são algoritmos heurísticos. No entanto, este tipo de
algoritmos permite obter grande número de árvores que devem ser posteriormente
comparadas e analisadas.
Outra crítica prende-se com o facto de os valores de previsões de vendas se
limitarem a um conjunto finito e normalmente restrito de valores possíveis relacionados
com o número de grupos identificados. Assim, localizações semelhantes teriam
exactamente o mesmo valor de previsão de vendas se forem classificadas no mesmo
grupo. Esta desvantagem é tanto menor quanto mais grupos análogos forem identificados
e, como o número de grupos pode e deve ser revisto à medida que a cadeia de retalho
aumenta, o problema vai sendo minimizado ao longo do tempo.
Por outro lado, as técnicas não paramétricas permitem definir regras de
classificação para grupos muito pequenos, pelo que a técnica é aplicável a cadeias de
pequena dimensão, desde que se disponha de muita informação sobre a mesma e
cuidados especiais na análise e validação de resultados. O sigilo que rodeia a informação
respeitante à concorrência, tal como valores de vendas e lucros por loja, dificulta a
obtenção de um elevado número de observações e variáveis e aumenta os custos de
Adopta-se a expressão “variável dependente” como tradução de target variable, ainda que por vezes a
expressão “variável alvo” também seja utilizada principalmente na tradução de manuais de software.
12
36
utilização destes modelos. Daí os modelos serem principalmente utilizados por
companhias com elevado número de pontos de venda próprios.
Estes modelos têm tido uma utilização muito reduzida para fins de previsão de
vendas e avaliação de localizações. No entanto, apresentam um potencial crescente à
medida que mais informação vai estando disponível e os algoritmos se tornam mais
rápidos e eficientes, sendo já muito utilizados em análise de inquéritos e construção de
sistemas de apoio à decisão (ver por exemplo: Cooley, 2002; Jackling, 2002, Chou et al.,
2000).
Os modelos discriminantes são ainda criticados por não considerarem análise
espacial i.e. por desprezar o factor distância à loja. Ainda que a utilização de distâncias à
loja possa ser integrada na definição das variáveis explicativas, e ela própria possa ser
considerada uma variável, a integração deste factor de forma explícita é a principal
vantagem dos modelos gravitacionais explorados na secção seguinte.
II.C.4. Modelos Gravitacionais e de Interacção Espacial
Os modelos gravitacionais são inspirados na física Newtoniana, baseados no
equilíbrio entre a atractividade da loja e localização e a distância aos potenciais clientes.
Segundo Turner e Cole (1980), estes foram dos primeiros modelos quantitativos a serem
utilizados após os modelos de analogia mais simples. No trabalho apresentado por Reilly
(1931), a lei gravitacional do retalho considerava a fracção de clientes atraídos por uma
loja como inversamente proporcional à distância que estes tinham de percorrer para
visitar a loja e directamente proporcional à atractividade da loja, inicialmente apenas
representada pela área da loja. Uma formulação semelhante foi proposta por Huff (1963)
mas utilizando uma linguagem probabilística e referindo-se à probabilidade de um cliente
frequentar uma loja de um conjunto possível de lojas em concorrência.
O procedimento para utilização destes modelos começa por definir áreas de
influência para a nova localização. Esta área é posteriormente subdividida em zonas de
mercado mais pequenas de características demográficas e competitivas homogéneas e
respeitando barreiras geográficas (rios, linhas de caminho-de-ferro, etc.). Posteriormente,
cada zona de mercado é analisada com o objectivo de se determinarem as vendas
potenciais provenientes dessa zona (Ei), normalmente modelada como o “rendimento
disponível da população residente” ou os “gastos totais no tipo de produtos vendidos”.
37
A distribuição desse potencial pelos diversos pontos de venda (incluindo a futura
loja e a concorrência) é efectuada por utilização da equação (1) segundo uma função
-β
distância, tempo ou custo de deslocação dij . O parâmetro β, determinado por regressão
com dados de lojas análogas, reflecte a sensibilidade dos clientes a deslocações. Assim,
cada ponto de venda (h = 1 … j … n) captará maiores quotas de mercado (Sij) às zonas
(i) mais próximas. Na mesma expressão, Aj representa a atractividade gerada pela loja j
e Sij ⋅ Ei o potencial de vendas da zona i captada pela loja j. A estimativa das vendas
totais para a loja j (Wj) é calculada pela soma dos valores anteriores para todas as zonas
da área de influência.
W j = ∑ Ei ⋅ S ij e Sij =
i
A j ⋅ d ij− β
∑A
h
⋅ d ih− β
(1)
h
Uma metodologia semelhante é utilizada num grande grupo de distribuição
Português. Para cada loja potencial é calculada uma área de influência definindo o
polígono que dista 20 minutos da loja. De notar que este polígono é calculado por um
pacote SIG com auxilio de algoritmos de caminho mais curto. As subzonas utilizadas
correspondem normalmente a freguesias, sendo identificadas todas as lojas de comércio
organizado em cada uma dessas subzonas. O potencial de captação de uma loja é
avaliado pela atractividade da loja e a distância ao centróide da freguesia. A função de
atractividade inclui um índice de desempenho da insígnia e a área de vendas da loja.
Fazendo o quociente entre o anterior valor para a localização potencial e a soma de todos
os valores de outras lojas concorrentes, obtém-se a probabilidade de um habitante da
freguesia se deslocar à loja potencial para realizar uma parte do seu gasto em consumo
alimentar. Este valor é posteriormente multiplicado pelos “gastos em produtos para a
casa” da respectiva freguesia.
Uma das formas de generalizar a expressão (1) é com a inclusão de factores
distintivos da loja, além da clássica dimensão da loja (ver por exemplo: González-Benito,
2002; Lilien et al., 1992 e Rogers, 1992). Assim, tal como no exemplo anterior a
atractividade da loja deve incluir factores como o desempenho da loja, nomeadamente ao
nível da qualidade de serviço e da gestão, assim como todos os aspectos relacionados
com a localização como a existência de parqueamento e acessibilidades. Um exemplo é
o trabalho apresentado por Stanley e Sewall (1976) onde se traduzem múltiplas variáveis
caracterizando as diferentes lojas de uma cadeia numa só variável de atractividade,
recorrendo a técnicas de redução da dimensionalidade. Outro exemplo mais recente é
38
apresentado em Fernandes e Themido (1997) para o probelma de previsão de vendas
em diferentes localizações de pontos de venda de combustíveis.
Outra generalização destes modelos passa pela adopção de outras formas
funcionais para a função distância que representa a diminuição da atracção de um ponto
de venda em função da distância ou do tempo da viagem. Por exemplo, Pastor (1994)
usa uma função exponencial (e
-β·d
ij).
Este tipo de generalizações está na base dos modelos de atracção e de
interacção espacial mais genéricos que podem ser aplicados à totalidade de uma cadeia
de retalho. Os modelos mais comuns deste tipo são o MCI – Multiplicative Competitive
Interactive model e o MNL – MultiNomial Logit (Kaufmann et al., 2000; Wong e Yang
1999; Drezner, 1995). Estes modelos apresentam formas funcionais muito semelhantes a
(1) mas introduzem um novo parâmetro aj que representa o grau de eficiência da loja j
em transformar a sua atractividade em quota de mercado. No caso do modelo MNL
utilizam-se ainda funções exponenciais, não apenas para a função distância mas também
para a função atractividade (Mendes e Themido, 2000).
É possível basear esta expressão num contexto teórico baseado em expressões
de utilidade de escolha entre lojas alternativas. A partir da expressão geral proposta por
Ghosh e McLafferty (1982) para a quantificação da interacção entre pontos de oferta (j) e
de procura (i) segundo uma função utilidade genérica (Uij):
U ij = Aαj dij− β onde α , β ≥ 0
(2)
onde Aj é a atractividade do elemento de oferta j, dij a distância, tempo ou custo de
deslocação entre o elemento de procura i e o de oferta j, e α e β parâmetros a calibrar.
Então a quota de mercado estimada pelo modelo MCI será:
S ij =
a j ⋅ U ij
∑a
h
⋅ U ih
(3)
h
Um exemplo é o trabalho apresentado por Achabal et al. (1982) onde os autores
descrevem o modelo MULTILOC – MULTIple store LOCation que estende o modelo de
atracção MCI ao problema de localização de várias lojas pertencentes a uma cadeia.
Estes autores utilizam técnicas de pesquisa aleatória combinadas com uma heurística de
melhoramento por trocas para identificarem conjuntos de localizações óptimos ou
próximo de óptimos. Outros exemplos podem ser encontrados em Ghosh e Craig (1983).
39
Numa aplicação recente, Verhetsel (2005) compara elasticidades cruzadas de
categorias de produtos em modelos MCI simétricos e assimétricos para concluir sobre as
diferentes interacções entre as características das vizinhanças de hipermercados e
supermercados e os referidos grupos de produtos alimentares e não alimentares. Por
outro lado, González-Benito (2002) utiliza um modelo semelhante ao MNL, deduzido da
teoria de utilidade estocástica de escolha (random utility choice theory13) mas incluindo
agregações para o nível da cadeia, para caracterizar a atractividade de hipermercados
em Espanha. Estes são apenas alguns exemplos da muito rica literatura sobre aplicações
deste tipo de modelos.
Os modelos de atracção distinguem-se dos restantes modelos causais por serem
logicamente deduzidos a partir de um conjunto de axiomas baseados na teoria de
escolha discreta (Bell et al., 1975). Apesar disso, apresentam algumas anomalias tanto
estruturais como comportamentais, como a dependência de alternativas irrelevantes e a
não regularidade na previsão de quotas de mercado. Para ultrapassar estas anomalias
muitas técnicas têm vindo a ser sugeridas, como os modelos nested logit14, competition
destination, e paired combinatorial logit (Koppelman e Wen, 2000; Fotheringham e
Rogerson, 1994).
Um exemplo recente é o trabalho apresentado por Giovanni et al. (2002) onde se
descreve um sistema para avaliação do impacto causado pela abertura de modernas
lojas de retalho alimentar, por utilização de modelos singly constrained logit. Para uma
aplicação na provincia de Milão, os autores concluiram que a abertura de lojas modernas
tem mais impacto em lojas tradicionais do que nas lojas modernas próximas. No entanto,
uma loja moderna afastada da nova localização sofre mais impacto do que uma loja
tradicional à mesma distância. Por fim, concluem que a concorrência entre lojas
modernas abrange áreas maiores conduzindo a áreas de influência sobrepostas.
Estes modelos são por vezes denominados modelos de impacto (Cooper e
Nakanishi, 1993) já que permitem avaliar diferentes configurações da rede de lojas
calculando variações nas quotas de mercado. É possível avaliar o impacto da construção,
remodelação ou ampliação de pontos de venda, sobre outros já existentes incluindo
problemas de canibalismo em loja pertencentes à mesma cadeia. Assim, parecem
particularmente adequados ao planeamento a longo prazo, permitindo simular diferentes
estratégias de localização para a totalidade da cadeia que reflictam a evolução do
13
14
A tradução é sugestão do autor.
Cardoso (2000, pág. 19) sugere a tradução de nested logit por “logit encaixado”.
40
mercado na rentabilidade da cadeia (ver exemplos de aplicação em Rogers, 1992). A
vantagem de explicitamente incorporarem as forças de atracção, a distância entre pontos
de venda, os potenciais clientes e a concorrência é realçada por vários autores, sendo
considerada especialmente relevante em mercados com elevada concorrência (Schiller,
2001, Kaufmann e Rangan, 1990).
Este tipo de modelos é acusado pelos profissionais de distribuição de
complexidade, dificuldades na estimação e elevadas e irrealistas exigências de dados,
conduzindo a projectos demasiados onerosos e demorados. Este tipo de desvantagens
leva a uma utilização simplificada dos modelos que limita fortemente as vantagens
teóricas descritas (Schiller, 2001, Rogers, 1992, Simkin et al., 1985). Outros autores
acusam estes modelos de serem pouco sensíveis a variações demográficas e
inadequados quando a segmentação do mercado é evidente, pelo que não devem ser
utilizados no retalho especializado (Boufounou, 1995 e Rogers, 1992). Por seu lado Heald
(1972), encontra correlações entre a função distância utilizada e a atractividade, o que
complica a estimação de parâmetros por regressão. Outra desvantagem apontada
relaciona-se com a fraca interpretabilidade dos modelos construídos não permitindo
individualizar os efeitos de cada variável envolvida na previsão final (Mendes e Themido,
2000).
Os modelos gravitacionais surgiram nos Estados Unidos e tiveram alguma
dificuldade em se implementar na Europa. Rogers (1992) explica este facto com a
coexistência de vários níveis de mobilidade e o comportamente incerto dos clientes
europeus. A elevada percentagem de utilização de transportes públicos por possíveis
clientes e o facto de provirem frequentemente de zonas muito afastadas da loja, dificulta
a estimação de áreas de influência e zonas homogéneas. Nos Estados Unidos estes
obstáculos não se colocam de forma tão acentuada. Formas de urbanização mais
homogéneas e geométricas, utilização maioritária de transporte individual, existência de
elevado
volume
de
dados
estatísticos
sobre
os
consumidores
(demográficos,
comportamentais, poder de compra, matrizes de origem/destino, etc.) e a tradição de
fortes departamentos de planeamento nas empresas, contribuíram decisivamente para
que este país esteja na vanguarda da aplicação de modelos gravitacionais e de
interacção espacial.
Recentemente, vários autores como Birkin et al. (2002) e Dugmore (1997)
prevêem um aumento na utilização de modelos de interacção espacial à medida que mais
dados vão sendo disponibilizados e que ferramentas como os SIG, muito úteis na
construção e avaliação de modelos de interacção espacial, se tornam comuns.
41
II.C.5. Modelos de Optimização Uni e Multiobjectivo
A muito rica literatura de teoria de localização utiliza algoritmos de optimização em
rede, combinados com uma grande variedade de formulações para a localização de
equipamentos ou serviços (facilities)15 em nós ou arcos, conduzindo aos denominados
modelos de localização em rede. No caso das redes de transporte não serem
relevantes na modelação das acessibilidades, formulam-se problemas de localização no
espaço contínuo (Drezner e Hamacher, 2002). Se a qualquer um destes modelos
adicionarmos a concorrência de equipamentos análogos, obtêm-se modelos de
localização em ambiente competitivo.
Este problema de localização em ambiente competitivo consiste em abrir novas
lojas em localizações óptimas de uma região onde já exista uma outra cadeia de retalho
concorrente. O objectivo é, habitualmente, maximizar a atracção de clientes para as
novas lojas. Karkazis (1989) generaliza este problema considerando diferentes tipos de
loja em cada cadeia e mais do que um objectivo a optimizar. Podem ainda formular-se
problemas para determinar o número óptimo de lojas a abrir, dada uma restrição de
orçamento
disponível.
Em
trabalhos
mais
recentes,
outros
autores,
exploram
essencialmente novas heurísticas de resolução (Drezner et al., 2002).
Nestes problemas, as funções objectivo relacionadas com a captação de clientes
utilizando distâncias à loja, são muitas vezes semelhantes às expressões utilizadas nos
modelos gravitacionais. Estes modelos confundem-se frequentemente com modelos de
localização-afectação (location-allocation models). O objectivo destes últimos é a
localização de equipamentos efectuando-se em simultâneo a afectação de recursos que,
no caso de lojas, são frequentemente a população residente ou o rendimento disponível.
Como refere Buhl (1988), este tipo de modelos é constituído por cinco componentes:
pontos de procura, localizações potenciais, uma matriz de distâncias (ou tempo) entre os
anteriores grupos, uma regra de afectação e uma ou mais funções objectivo.
Estes modelos permitem assim incorporar factores como barreiras geográficas e
níveis de mobilidade dos potenciais clientes, tanto na matriz de distâncias como na
definição de localizações potenciais, atractividade das lojas na regra de afectação e
maximização de vendas, maximização de população coberta e \ ou minimização de
investimento na(s) função(ões) objectivo. Podem ainda ser consideradas outras restrições
em determinados problemas particulares.
15
Tradução retirada do DicIO, www.apdio.pt/DicIO/, em 19/8/2004.
42
Estes problemas podem resultar em formulações matemáticas muito complexas
que apenas podem ser resolvidos por técnicas heurísticas. As técnicas de resolução mais
simples envolvem a programação linear ou convexa, optimização de um objectivo
colocando restrições nos restantes, funções de penalização, e métodos heurísticos
específicos (Hamacher e Nickel, 1996). Para uma revisão da literatura na formulação e
resolução deste tipo de modelos aconselha-se Drezner e Hamacher (2002).
O problema da cadeia de retalho óptima, referido em Hurley et al. (1995), é um
exemplo de uma formulação de localização e afectação. Neste problema considera-se
que a localização de uma nova loja não deverá ser óptima apenas relativamente à
concorrência mas também relativamente a outras lojas da mesma cadeia já existentes.
Assim, o problema consiste em encontrar a rede de lojas óptima dado um conjunto de
lojas já existentes e um outro de potenciais localizações de novas lojas. Segundo os
autores, utilizando esta visão integrada da cadeia de retalho numa determinada área, a
expansão torna-se uma progressão planeada em vez da tradicional sequência de
decisões mais ou menos arbitrárias, permitindo igualmente a avaliação de diferentes
cenários com avaliação de acções da concorrência e da própria cadeia.
Os algoritmos genéticos podem ser facilmente utilizados para resolver qualquer
uma das seguintes variantes do problema da cadeia de retalho óptima:
•
escolha das novas localizações a utilizar melhorando o
desempenho global da cadeia de lojas;
•
escolha de novas localizações com possibilidade de
encerrar localizações já existentes;
•
escolha de um conjunto de localizações existentes para
implementar um novo serviço ou produto.
Por exemplo, para a segunda formulação do problema, um cromossoma
corresponderia a uma cadeia de lojas possível, considerando locais existentes e
potenciais, representado por uma sequência de números binários. Cada valor binário
corresponderia a uma localização de uma loja existente ou nova, sendo o valor zero
representativo de uma localização nova a não ser utilizada ou uma localização já
existente a ser encerrada e o valor um a uma localização existente a manter ou uma nova
localização a implementar. Nos algoritmos genéticos a função de avaliação (fitness
function) tem um papel primordial e normalmente corresponde ao maior esforço de
modelação. Neste caso, tal função poderia ser constituída por um modelo de previsão de
vendas baseado em análise espacial, que poderia ser utilizado tanto para novas lojas
como para lojas existentes, como por exemplo os modelos apresentados em Achabal et
al. (1982) ou Kaufmann et al. (2000).
43
Além dos algoritmos genéticos é possível encontrar aplicações de outras técnicas
heurísticas de optimização baseadas em algoritmos de inteligência artificial na resolução
de modelos de localização competitiva. Exemplos são as redes neuronais (Murnion, 1996
e Coates et al., 1995) ou as meta-heurísticas apresentadas recentemente por Cavique et
al. (2002). No entanto, estes algoritmos têm sido pouco utilizados em aplicações práticas
relacionadas com localização de espaços comerciais.
Outras aproximações combinam metodologias de optimização com análise
multicritério. Este é o caso de Chuang (2002) que utiliza técnicas multicritério para
seleccionar um grande número de critérios de localização, organizados em categorias, as
quais foram avaliadas em comparação com valores ideais, utilizando pesos. Chuang
(2002) obteve assim uma função sistemática de qualidade da distribuição (Quality
Function Deployment – QFD) que foi optimizada para determinar localizações óptimas.
Uma desvantagem já antes referida e que contribui para um afastamento entre a
comunidade de investigação e os utilizadores ou decisores é a enorme complexidade que
alguns destes modelos atingem. Na tentativa de encontrar formulações tão próximas da
realidade quanto possível, os investigadores tendem a acrescentar complexidade às
formulações, as quais apenas podem ser resolvidas por heurísticas cada vez mais
complexas, tendo os decisores dificuldade em acompanhar estas evoluções.
II.C.6. Análise Comparativa
Nesta secção efectuou-se uma revisão da literatura no que respeita a técnicas e
modelos utilizados na avaliação de localizações e na previsão de vendas. A intenção não
foi tentar incluir todos os trabalhos relevantes nesta área, o que seria praticamente
impossível, mas utilizar alguns trabalhos publicados, particularmente relevantes, para
explicar e descrever os métodos. Outra preocupação sempre presente foi a tentativa de
avaliar as vantagens e desvantagens comparativas de cada metodologia. Na Tabela 1
apresenta-se um resumo dessas vantagens e desvantagens comparativas. Ainda que
alguns dos modelos descritos possam ser aplicados ao nível macro ou ao individual, este
tipo de problemas não é objecto desta dissertação.
A tipificação dos modelos e técnicas é uma sugestão do autor, nem sempre sendo
claro a que tipo de modelos pertence um determinado trabalho. É possível encontrar
interacções fortes entre os modelos de regressão e os discriminantes ou entre os
modelos de interacção espacial e os de optimização. De uma forma simples podem-se
resumir os modelos e as suas características nos seguintes grupos:
44
TABELA 1 RESUMO DAS VANTAGENS E DESVANTAGENS COMPARATIVAS DOS DIFERENTES MODELOS
SEGUNDO UMA TIPIFICAÇÃO SUGERIDA PELO AUTOR.
MODELOS
NÍVEIS
DECISÃO a
Listas, Analogia
e Decisão
Multicritério
macro,
micro.
Regressão
Linear
micro,
individual
Discriminantes
e Árvores de
Classificação
micro,
individual
Gravitacionais e
Interacção
Espacial
macro,
micro.
Optimização
Uni e
Multicritério
macro,
micro.
a
VANTAGENS
DESVANTAGENS
Simplicidade de utilização;
Poucos dados necessários;
Adequado para cadeias
pequenas;
Integra conhecimento e
características da cadeia;
Permitem analisar um
conjunto de localizações em
grande pormenor;
Simplicidade de utilização;
Técnicas bem conhecidas;
Podem ser incluídos muitos
aspectos mensuráveis, tanto
da localização como de
caracterização das lojas;
Forte poder explicativo e
modelos fáceis de entender;
Modelos de análises de dados
permitem lidar com grande
número de variáveis;
Os não paramétricos
permitem usar variáveis em
todas as escalas de medida;
Permitem a definição e
avaliação de cenários;
Permitem análises holísticas à
cadeia;
Incluem explicitamente a
distância e acessibilidades;
Permitem apoiar um grande
número de decisões;
Permitem a comparação e
análise de diferentes cenários;
Permitem modelar situações
complexas como a análises da
totalidade da cadeia;
Consideram diversos pontos
de vista (objectivos) e tradeoffs explicitamente.
Conclusões dificilmente
generalizáveis;
Alguns metodos são considerados
excessivamente subjectivos;
A análise pode não incluir
aspectos importantes para o caso
particular em estudo;
Inadequados para efectuar
previsões de vendas;
Necessidade de considerável
número de lojas análogas;
Dificuldades em incorporar
grande número de variáveis;
Dificuldade em incluir variáveis
não métricas;
Segmentação prévia pode ser
necessária;
Qualidade dos resultados
fortemente dependente dos dados
disponíveis;
Apenas prevêem vendas dentro de
intervalos pré-especificados;
Modelos demasiado complexos e
de construção demorada;
Pouca interpretabilidade dos
modelos a uma escala micro;
Mais adequados para comparar
impactos do que prever vendas;
Dificuldades em zonas
demograficamente heterogéneas;
Inadequados para prever vendas;
Normalmente complexos e de
fraca interpretabilidade;
Resolução dos modelos de
optimização com recurso a
heurísticas complexas;
Normalmente normativos,
impondo regras e restrições.
As designações apresentadas nesta coluna referem-se aos níveis de decisão da Figura 6, pág. 25.
•
Modelos Baseados em Listas: modelos mais empíricos como as listas de aspectos
desejáveis numa boa localização ou os modelos de previsão por analogia. Apesar de
muito simples de usar e de compreender são demasiado subjectivos e apenas
adequados para cadeias muito pequenas, com muito poucos dados disponíveis. As
técnicas de decisão multicritério permitem a comparação de alternativas com grande
pormenor mas são igualmente pouco adequados para previsão de vendas.
45
•
Modelos de Análise de Dados: como os modelos de regressão, os discriminantes
lineares e as árvores de classificação ou ainda conjugações destes. São
especialmente adequados quando se pretende compreender o problema em estudo
e gerar conhecimento, não sendo normativos nem impondo restrições aos
problemas. Têm a desvantagem de serem muito dependentes da qualidade e
quantidade de dados disponível.
•
Modelos de Interacção Espacial e de Optimização: este grupo é constituído por
modelos normalmente muito complexos e altamente normativos já que incluem na
sua formulação um conjunto elevado de restrições e pressupostos. A complexidade,
a dificuldade de chegar a soluções válidas e a fraca interpretabilidade são as
principais desvantagens, enquanto que a possibilidade de lidar com a totalidade da
cadeia e de analisar diferentes cenários, as principais vantagens.
Qualquer que seja o modelo utilizado num contexto particular, é importante notar a
complexidade dos modelos de localização de lojas de retalho. O número de factores
potencialmente relevantes na previsão de desempenho de uma localização e a natureza
dinâmica e imprevisível do comportamento do consumidor levaram a que vários autores
considerem a localização tanto uma ciência como uma arte (Birkin et al., 2002;
Hernández e Bennison, 2000; Themido et al., 1998). A referida complexidade implica que
a intuição e conhecimento do domínio dos especialistas em localização não deva ser
desprezada, como fazem notar autores como Clarke e Mackaness (2000) e Pastor
(1994). Por outro lado, Birkin et al. (2002) faz notar que modelos mais complexos
permitem mais exactidão e proximidade com o problema real, mas reduzindo a
compreensão dos modelos por parte dos utilizadores e elevando o custo de
implementação e manutenção.
Os modelos gravitacionais e de interacção espacial são os mais utilizados mas
implicam a utilização de um reduzido número de variáveis para explicar o desempenho
das diferentes lojas. Tal é aceitável para as lojas com grande poder de atracção, como os
grandes espaços comerciais. No entanto, quando se analisam as previsões de vendas
para as lojas de menor dimensão, é necessária a introdução de um muito maior número
de factores explicativos. Assim, ainda que os modelos gravitacionais sejam utilizados em
cadeias com muito maiores áreas comerciais, revelaram-se pouco adequados na análise
de lojas de pequenas e médias dimensões.
46
II.D. SIGs na Análise Espacial de Localização
Um problema de localização é, em sentido lato, todo aquele que tem por output a
selecção de uma ou mais localizações no espaço. É comum a formulação de problemas
de localização utilizando funções objectivo e restrições, como é o caso dos problemas de
optimização em rede ou no plano. Neste caso, Sistemas de Apoio à Decisão (SAD)
Espaciais ou Geográficos (Spatial Decision Support Systems - SDSS)16 são aplicações
informáticas baseadas em Sistemas de Informação Geográfica (SIG) com integração de
algoritmos de optimização capazes de produzir soluções óptimas para uma dada
formulação ou conjunto de pressupostos (ver por exemplo: Birkin et al., 2002 ou
Grimshaw, 1999).
Utiliza-se ainda a designação SAD Espacial quando se utiliza análise espacial de
dados, como intersecções ou reuniões espaciais, ou na definição de divisões territoriais
como em particionamento (districting17), delimitação de unidades territoriais por
agregação de subunidades contíguas procurando uniformizar um ou mais objectivos.
Verifica-se hoje um interesse crescente na literatura tanto no desenvolvimento de
novos modelos teóricos como nos aspectos práticos de implementação, em especial no
que se refere a ambientes de informação geográfica. A utilização de SIG para resolver
problemas de localização apresenta várias vantagens, como referido por Church (2002).
O poder das aplicações SIG reside na sua capacidade única de integrar informação
relacionada com a sua posição geográfica, manipular essa informação relativamente a
muitos atributos e não apenas aos geográficos, efectuar análises espaciais e facilmente
produzir mapas temáticos. Esses mapas são atractivos e interactivos, muito informativos,
permitem não só a visualização mas também a compreensão da informação e das
interacções geográficas.
As aplicações SIG permitem a análise de localizações com integração de variáveis
demográficas e psicométricas, tempos de viagem, informação sobre concorrência, dados
estatísticos regionais, imobiliários e informações sobre os clientes. Outras vantagens
estão relacionadas com a facilidade de modelar acessibilidades e a crescente
disponibilidade de redes viárias e dados demográficos georreferenciados. A utilização de
tecnologia SIG para modelação geográfica de problemas de localização é revista em
Gonçalves e Matos (2005), concluindo-se da sua utilidade tanto na modelação de dados
Ambas as traduções são possíveis, no entanto, nesta dissertação distinguem-se aplicações com
algoritmos capazes de realizar análise espacial (SAD’s Espaciais) das que apenas gerem dados
georreferenciados (SAD’s Geográficos).
17
Tradução sugerida em Gonçalves e Matos (2005).
16
47
como para a resolução de problemas de localização de pontos, de linhas, de polígonos
ou associados a redes.
Numa decisão complexa, envolvendo grandes volumes de dados e uma
componente subjectiva importante, estas vantagens são muito valorizadas. Por esta
razão, os SIG são já utilizados no processo de decisão da maioria das cadeias de retalho.
Estas desenvolveram aplicações capazes de ligar e manipular uma combinação de bases
de dados, cartografia digital e informação georreferenciada, permitindo análises visuais
como a localização num mapa digital de pontos de venda, clientes e circuitos de
distribuição (Hernández e Bennison, 1997 e 2000).
O melhor exemplo será provavelmente o Sistema de Apoio à Decisão Espacial
desenvolvido na Tesco PLC, o maior retalhista alimentar do Reino Unido. Este SAD
Espacial tem sido desenvolvido e actualizado desde há longos anos, e é utilizado para
prever vendas ou avaliar localizações potenciais (Moore e Attewell, 1991) e para o
aperfeiçoamento da logística (Smith, 2004). Os benefícios referidos por estes autores
incluem a simplicidade de criação de mapas, anteriormente uma tarefa complexa, e o
grau de consistência e de controlo que pode ser mantido entre os modelos para apoiarem
decisões complexas e multidimensionais. Outras aplicações mais recentes incluem a
utilização de análise de agrupamentos para estudar os padrões de variação de vendas
nas diferentes lojas da cadeia. Estes estudos têm sido utilizados para criar novas linhas
de produtos que satisfaçam as necessidades das lojas de forma individualizada.
Além das aplicações desenvolvidas na Tesco é possível encontrar muitas outras
referências a sistemas deste tipo. O livro de Birkin et al. (2002) é dedicado à resolução de
problemas de localização com tecnologias SIG e apresenta vários exemplos de
aplicações no sector de distribuição. Também Grimshaw (1999) explora as possibilidades
destas tecnologias na resolução de problemas de planeamento e localização em diversos
tipos de empresas descrevendo um conjunto de casos de estudo que vão desde o
marketing até à localização de restaurantes.
Por seu lado Malczewski (1999) dedica um livro à relação entre os modelos
multicritério e as tecnologias SIG, correspondendo a SADs Espaciais Multicritério
(Multicriteria Spatial Decision Support System, MC-SDSS). Este autor apresenta
nomeadamente casos de estudo para a localização de equipamentos de saúde e de
avaliação de loclizações potenciais. Lam e Song (2001) descrevem um sistema
integrando informação recolhida por inquéritos a residentes, uma aplicação SIG com um
pacote estatístico para análise estatística de comportamentos e fluxos.
48
As aplicações SIG, ainda que aparentemente mais adequadas para apoiar
decisões de nível micro (Figura 6, página 25), pode igualmente identificar oportunidades
de negócio de nível macro, como se verifica num dos grandes grupos Portugueses de
distribuição. O procedimento utilizado consiste em identificar variáveis chave que meçam
principalmente factores como a população residente ou a área comercial instalada. Essas
variáveis são utilizadas na identificação de regiões análogas à região em estudo, e por
comparação com o número de lojas ou a área comercial instalada, é possível concluir se
essa região apresenta potencial para a instalação de novas lojas. Além das aplicações
SIG, são necessárias extensas bases de dados sobre as várias cadeias controladas pelo
grupo de distribuição, mas também com informação sobre cadeias concorrenciais.
Apesar destas aplicações e de todo o investimento efectuado, ainda se verifica
pouca integração entre modelos de apoio à decisão e as aplicações SIG. Ainda que
existam exemplos de integração, é mais comum exportar os dados após o tratamento
espacial para uma folha de cálculo, permitindo utilizar o completo arsenal de ferramentas
de modelação disponível nesse tipo de aplicações num ambiente facilmente reconhecível.
Klosterman e Xie (1997) denominam este tipo de interligação entre aplicações como
loosely coupled, em contraste com a programação de funcionalidades de apoio à decisão
nos SIG ou funcionalidades de visualização de dados geográficos nas folhas de cálculo,
denominadas strongly coupled. Os mesmos autores apresentam um exemplo utilizando o
modelo clássico de Huff (1963), para determinar o impacto da abertura de um novo centro
comercial, na área metropolitana de Akron Ohio. A metodologia envolveu a resolução do
modelo em folha de cálculo e o cálculo de variáveis e visualização de resultados em SIG.
Exemplos
de
aplicações
especificamente
construídas
para
adicionar
funcionalidades de modelação a SIG são apresentadas frequentemente nas conferências
organizadas pelos fabricantes e representantes de software. Dois exemplos são os
trabalhos de Cowen et al. (2000) e McMullin (2000). Ambos incluem modelos de
avaliação de localizações potenciais, capazes de calcular e comparar valores para novas
localizações, baseados em critérios selecionados pelo utilizador ou em modelos
gravitacionais. Algumas software houses incluem já na sua oferta não apenas aplicações
SIG com acesso a grandes volumes de dados e boas capacidades de gestão e
visualização dos mesmos, mas modelos com capacidades de previsão de vendas e
avaliação de cenários de impacto, usando principalmente modelos gravitacionais18.
18
Informação retirada de www.mapinfo.com em 13/07/2005.
49
Capítulo III ⎯⎯⎯⎯⎯⎯⎯
III. RECOLHA DE DADOS: FUSÃO E ANÁLISE
ESPACIAL
Na sequência do capítulo anterior de definição do problema, faz-se um levantamento dos
dados usados em estudos de localização e sugere-se uma classificação das muitas
variáveis e factores identificados. Descreve-se o longo processo de recolha e tratamento
de dados, o qual incluiu dois inquéritos a clientes em dois momentos distintos, um
programa de mystery shopping, dados demográficos e georreferenciação da localização
de centenas de lojas em todo o país. A análise espacial efectuada foi fundamental na
definição das variáveis demográficas e concorrenciais por utilização de vários métodos de
delimitação de áreas de influência. Uma primeira abordagem quanto à delimitação de
áreas de influência e análise espacial encontra-se publicada em Gonçalves e Mendes
(2002). Uma evolução posterior foi recentemente publicada em Mendes et al. (2004).
III.A. Medir o Desempenho de Lojas: Uma classificação de variáveis
A localização de lojas e a sua relação espacial com a localização da clientela é
factor crítico de sucesso para o desempenho de uma loja. Muitos autores, tanto os mais
teóricos (ver por exemplo: Gilbert, 2002) como os mais práticos (Rousseau, 1997 e
Salvaneschi, 1996), reconhecem este facto. No entanto, tentar perceber todos os
aspectos do desempenho de lojas, potenciais localizações e comportamentos do
consumidor obriga à recolha de enormes quantidades de dados de vários tipos como
geográficos, demográficos, socioeconómicos e referentes a dinâmicas de competição.
Reunir e tratar todos esses dados e retirar conhecimento útil desse manancial foi uma
fase muito demorada do presente trabalho.
Na Figura 7 sugere-se uma classificação das variáveis potencialmente explicativas
do desempenho de lojas de retalho alimentar de pequena a média dimensão
pertencentes a cadeias de distribuição. Esta classificação é baseada numa extensa
revisão bibliográfica e na experiência do autor.
50
FIGURA 7 CLASSIFICAÇÃO SUGERIDA DE VARIÁVEIS EXPLICATIVAS DO DESEMPENHO DE LOJAS PERTENCENTES
A CADEIAS DE RETALHO ALIMENTAR E FONTES DE DADOS UTILIZADAS NA PRESENTE DISSERTAÇÃO.
Características da
Loja e Localização
(endógenos)
FONTES
Área de Vendas
Profundidade da Gama
Configuração da Loja
Imagem Cadeia\Serviços
Acessibilidades
Vars. Geográficas
Visibilidade da Loja
Características dos
Clientes da Loja
(inquéritos)
Potencial de Vendas
Corrente e Futuro
Caracterização da
Relação Cliente \ Loja
Caracterização
Socioeconómica
Área de Concorrentes
Qualidade Concorrência
Dimensão Área de Inf.
Dados Demográficos
Gasto e Compra Média
Preferências e Concorrência
Dados Demográficos
Classes de Rendimento
Inquéritos aos Clientes
Característica da
Área de Influência
(exógenos)
Concorrência Existente
e Futura
Localização de Lojas e SIG
Dimensão da Loja
EXEMPLO
Dados INE
TIPO
Programa de Mystery Shopping
GRUPO
As variáveis são divididas em três grandes grupos. Os factores endógenos
pretendem avaliar aspectos apenas dependentes da loja e do local, como as
características da loja e da localização escolhida e a imagem da cadeia a que pertencem
ou a gama e serviços associados. De todas as características da loja, a área comercial é
o factor de maior relevância, sendo mesmo realçada como uma variável chave por
Themido et al. (1998) e sempre considerada em estudos de atractividade de lojas de
retalho (ver secção II.C, página 27).
Vários autores (ver por exemplo Devlin et al., 2003; Sulek et al., 1995; Osman,
1993) identificam igualmente a imagem da cadeia e da loja, em particular quanto a níveis
de preços e qualidade de serviço, como fundamental no desempenho. A medição da
imagem de uma loja ou de uma cadeia é complexa e pode envolver aspectos como o
preço, a profundidade e largura da gama, layout da loja, atmosfera, limpeza, qualidade e
serviços oferecidos ao cliente. Os mesmos autores referem ainda que comportamentos
de gestão como a constante pesquisa de novos produtos, utilização de tecnologias
51
inovadoras e utilização de novos formatos de loja são importantes na melhoria da
imagem da loja ou cadeia.
As variáveis de natureza geográfica são indispensáveis em particular na avaliação
da acessibilidade e visibilidade das várias localizações. Além destas variáveis geográficas
de localização pode-se incluir ainda o enquadramento territorial, grau de infraestruturação, orientações urbanísticas, condições de acessibilidade actuais e futuras,
barreiras físicas, visibilidade a pé e de carro e a qualidade ambiental.
Os factores exógenos estão relacionados com a avaliação da área de influência
da loja a nível do potencial de vendas, essencialmente variáveis demográficas, e da
concorrência existente. Variáveis demográficas como a “população por área”, “número de
veículos por pessoa” ou “dimensão do agregado familiar”, permitem avaliar o número de
clientes potenciais de cada localização e o nível de rendimentos, variáveis não
directamente observáveis. Por fim, os factores concorrenciais são de primordial
importância para a avaliação da distribuição dos clientes pelas diferentes lojas existentes.
Estes últimos dados podem ser de mais difícil acesso, sendo no entanto, essencial
ter dados quantitativos sobre aspectos como a dimensão das lojas, localização, dimensão
do espaço para parqueamento, espaço da loja dedicado a produtos não alimentares, etc..
Autores como Moore e Attewell (1991) aconselham o estudo pormenorizado dos
concorrentes mais importantes, incluindo visitas ao local.
A definição de áreas de influência é muito frequente em análise de marketing uma
vez que por vezes é possível concentrar os estudos nessa área. Isto verifica-se em
praticamente todos os modelos de localização de lojas de retalho onde os dados
demográficos são essenciais (Blankenship et al., 1998). Várias empresas de estudos de
marketing e serviços de informação estatísticos aperceberam-se das necessidades deste
tipo de dados e construíram bases de dados georreferenciadas com formas agregadas de
informação, utilizando um sistema de classificação de vizinhanças e definindo e
caracterizando classes de residências. O pressuposto é que indivíduos com
características semelhantes habitam em localizações próximas (Leventhal, 2002).
Autores como Johnson (1997) referem a importância deste tipo de dados na
análise
de
áreas
de
influência
no
retalho.
Em
conjunto
com
estes
dados
geodemográficos também dados concorrenciais resultantes de análise espacial, são
hoje de vital importância nas análises de marketing, justificando o termo geomarketing
utilizado por exemplo por Birkin et al. (2002). Em González-Benito (2002) é apresentada
uma revisão destes temas indicando-se quatro tipos de aplicações principais: como um
52
auxiliar essencial no apoio à decisão e análise de dados em conjunto com aplicações
SIG, como um instrumento para avaliar localizações tanto de serviços públicos como
privados com especial relevância para a localização de lojas de retalho, como
instrumento para controlo de cartões de fidelidade e de crédito e como instrumento para
seleccionar segmentos alvo em marketing directo.
A maioria dos autores inclui apenas os factores endógenos e exógenos nos
estudos de localização (Salvaneschi, 1996, Moutinho e Evans, 1992). Neste caso
considera-se igualmente importante a caracterização socioeconómica dos clientes de
lojas já existentes, o conhecimento das suas preferências e da relação cliente \ loja. Este
tipo de dados não pode ser usado em estudos previsionais relativos a novas localizações,
já que é recolhido por recurso a inquéritos a clientes nas lojas da cadeia já existentes,
mas é essencial na segmentação das lojas existentes e na definição de grupos de lojas
análogas. Os factores psicográficos que traduzem o estilo de vida e valores
condicionando as preferências dos potenciais clientes, são geralmente considerados
menos importantes. No entanto, quando se pretendem localizar lojas dirigidas a um
segmento particular de mercado, este tipo de factores pode ser mais relevante do que na
localização de lojas mais indiferenciadas, pelo que deverá igualmente ser considerada
(Wedel e Kamakura, 2000).
É de notar que, em muitas das técnicas utilizadas, o número de variáveis que
podem ser consideradas nos modelos é apenas limitado pela abundância de dados
disponíveis ou recolhidos para o efeito. No entanto, o conceito de variáveis âncora
apresentado em Themido et al. (1998) surge como um marco de referência considerando
que variáveis como a “dimensão da loja” ou o “potencial da área de influência” devem ser
sempre incluídas nos modelos.
A classificação de factores e variáveis sugerida na Figura 7 é coerente com os
resultados apresentados por Clarke et al. (2003b). Estes autores utilizaram mapas
cognitivos, baseados em respostas a inquéritos por especialistas em localização das
maiores cadeias retalhistas do Reino Unido, para identificar as principais variáveis
realmente utilizadas neste tipo de decisões. Este processo resultou na identificação de 7
agregados, apresentando três, uma relação directa com variáveis propostas na Figura 7.
Os grupos “catchments access” e “catchment quality” localizam-se, na classificação
proposta, num tipo mais genérico denominado “potencial de vendas corrente e futuro da
área de influência”. Da mesma forma “site / store configuration” e “retail composition”
encontram-se no tipo “configuração da loja”. O trabalho destes autores confirma não
53
apenas a classificação sugerida mas também a necessidade de se recolherem grandes
volumes de dados em estudos de localização.
Igualmente verifica-se boa coerência com o trabalho apresentado por Karakaya e
Canel (1998) sobre a identificação de factores e variáveis que influenciam a localização
de empresas em geral. As 27 variáveis identificadas por entrevistas exaustivas com
gestores de 84 das empresas com maior crescimento em Nova Iorque e Nova Inglaterra,
foram agregadas em 6 dimensões, algumas das quais são muito ligadas às áreas de
negócio a que se referem e outras estão de acordo com a Figura 7.
No âmbito de métodos de segmentação, Wedel e Kamakura (2000) fazem
igualmente uma classificação das variáveis utilizadas segundo uma matriz com duas
entradas: variáveis observáveis (que podem ser medidas de forma directa) ou não
observáveis (apenas medidas de forma indirecta) e variáveis genéricas ou específicas. As
variáveis observáveis e não observáveis genéricas correspondem grosso modo às
variáveis demográficas e socioeconómicas que surgem na Figura 7 ligadas ao tipo
“potencial de vendas corrente e futuro”. Por outro lado, às variáveis específicas chama-se
na classificação sugerida “características dos clientes das lojas”. Note-se ainda a maior
complexidade de um estudo de localização relativamente à segmentação de clientes. Na
segmentação de lojas devem-se considerar aspectos relacionados com o cliente mas
também os aspectos relacionados com a loja e a localização, daí os grupos
“características da loja e localização” e o tipo “concorrência existente e futura”. Uma
revisão recente de variáveis e sistemas de classificação utilizados na segmentação de
clientes pode ser encontrada em Cardoso (2000).
Na tentativa de obter um grande número de variáveis que abrangesse todos os
aspectos da avaliação de localizações fundiram-se, neste estudo, dados de diferentes
proveniências indicadas na Figura 7 e que são descritos nas secções seguintes. Do total
de fontes e técnicas utilizadas conseguiu-se reunir um total de cerca de 280 variáveis
medidas em diversas escalas de medida e referidas às lojas existentes. Os metadados
sobre esta informação podem ser consultados no Anexo E (pág. 203).
Note-se que, ainda que se fale de fusão de dados (data fusion) no sentido em que
se compatibilizaram dados provenientes de fontes diversificadas, nesta dissertação não
se efectuou um verdadeiro projecto de fusão de bases de dados como é entendida por
autores como Baker (2002) e Saporta (2002). Neste caso, utilizou-se a designação da loja
como variável natural de ligação e ao contrário do que é habitual em projectos de fusão
de bases de dados só pontualmente se utilizaram resultados de uma fonte para corrigir
ou preencher valores omissos de outra. Optou-se por reunir todas as variáveis numa
54
única base de dados e utilizar técnicas exploratórias e conhecimento do domínio para
escolher as mais adequadas a utilizar nos modelos. No entanto, foram efectuados testes
de compatibilidade, por exemplo calcularam-se correlações entre variáveis de diferentes
fontes que pretendem medir o mesmo aspecto das lojas, com bons resultados, e foram
usados resultados do primeiro inquérito para complementar a informação do segundo
inquérito nomeadamente para as lojas não inquiridas.
III.B. Os Inquéritos na Loja: Características dos clientes
Os consumidores modernos são cheios de contradições e têm muitas vezes
comportamentos irracionais. Neste contexto apenas se poderá compreender o seu
comportamento até certo ponto e fazer previsões é um terreno perigoso. De qualquer
modo, inquéritos aos clientes são um dos principais meios disponíveis aos analistas para
compreender o “cliente médio” e recolher dados não directamente observáveis como
valores pessoais, estilo de vida e preferências (Wedel e Kamakura, 2000).
Neste contexto, realizaram-se dois inquéritos aos clientes das lojas da cadeia já
existentes durante o período de realização do projecto com o objectivo de avaliar os
principais factores que, segundo os clientes, influenciam o desempenho das lojas e
localizações. Esses factores são utilizados não apenas para caracterizar o cliente da
cadeia e a relação cliente \ loja mas também para construir variáveis utilizadas no estudo
de previsão de vendas.
O estudo de 2000 foi realizado durante duas semanas do mês de Novembro.
Foram inquiridos clientes de todas as lojas então existentes, perfazendo um total de
3.766 inquéritos considerados válidos. O segundo inquérito foi realizado entre os dias 20
e 23 de Março de 2003, em 12 lojas seleccionadas, num total de 2.394 inquéritos válidos.
Em ambos os casos efectuaram-se cerca de 200 inquéritos por loja, o que foi estimado
considerando que a ocorrência de um erro de amostragem segue uma distribuição t de
student e 95% de nível de confiança, e uma precisão de 10% para a média das variáveis
mais relevantes como o “gasto na loja”. No caso de se efectuarem agregações de lojas,
os resultados terão precisões de amostragem superiores. Note-se, no entanto, que o
método de amostragem utilizado não garante aleatoriedade suficiente para se utilizar o
valor anterior com segurança, pelo que se deve utilizar este valor como um limite inferior.
Aliás, os métodos aleatórios puros não são praticáveis neste caso uma vez que se
desconhece a totalidade dos clientes das lojas, ainda agravada pela dinâmica dessa
classificação (Moutinho et al., 1998).
55
Os inquéritos apresentam desenhos ligeiramente distintos, pelo que é necessária
a utilização de pesos para que sejam comparáveis. Sublinhe-se que este procedimento é
recomendado por muitos autores salientando-se o bom texto apresentado por McCarty
(2002). Nas secções seguintes descreve-se o plano de amostragem dos inquéritos
utilizados e a organização e perguntas efectuadas.
III.B.1. Plano de Amostragem
O desenho dos inquéritos foi realizado tendo em conta dois objectivos essenciais:
simplificar a análise e interpretabilidade dos resultados e recolher informação que possa
ser útil na caracterização dos clientes das lojas e da relação cliente × loja × localização
com o fim de previsão de vendas. No caso do segundo inquérito, foi igualmente
considerado relevante a necessidade de simplificar e reduzir a dimensão do inquérito.
Ambos os inquéritos foram desenhados segundo 3 factores de controlo distintos
considerados mais importantes e capazes de influenciar os resultados obtidos, tendo-se
controlado outros três factores considerados menos relevantes, trata-se portanto de um
processo de amostragem por quotas. Note-se que se utilizaram técnicas com o
objectivo de minimizar os problemas de falta de aleatoriedade por vezes observados
neste tipo de amostragem (Maiar, 2002; Moutinho et al., 1998).
Usam-se dois factores de controlo relativos ao momento temporal e um referente
ao tipo de loja \ localização. Assim, após a análise do número de actos de compra ao
longo da semana para várias lojas (Figura 8), não foi possível distinguir entre os
diferentes dias úteis da semana, observando-se uma grande homogeneidade dos actos
de compra nesse período. Pelo contrário, no fim-de-semana observam-se três
comportamentos bem distintos: forte subida das vendas (loja em importante centro
comercial), descida das vendas (loja em zona de serviços) e com poucas variações (lojas
em zonas residenciais). A mesma análise foi efectuada para as principais variáveis do
primeiro inquérito.
Assim, considerou-se indiferente fazer o segundo inquérito em qualquer um dos
dias úteis, tendo-se optado por motivos operacionais, principalmente pela 5ª e 6ª feiras.
Pelo contrário, no fim-de-semana as vendas e as características dos clientes podem ser
muito heterogéneos de loja para loja, pelo que se optou por realizar inquéritos nos dois
dias de fim-de-semana. Para que os resultados sejam comparáveis, utiliza-se um peso de
2,5 para os inquiridos nos dias úteis da semana. Deste modo, pressupõe-se que os
56
resultados encontrados para os 2 dias úteis em que se fizeram inquéritos podem ser
propagados para a totalidade da semana.
O segundo factor a considerar é a hora do dia a que é realizado o inquérito. Neste
caso, encontram-se grandes variações tanto no número de actos de compra segundo a
hora do dia como no tipo e volume de compras, como se pode observar na Figura 9.
Sugere-se na mesma figura uma divisão do dia em quatro turnos: manhã (até 12h),
almoço (12-15h), tarde (15-17h) e noite (a partir das 17h). Para que se consiga capturar
todos os tipos de clientes, realizaram-se entrevistas a todas as horas de abertura da loja,
segundo quotas definidas por loja para cada período horário.
FIGURA 8 CONTAGEM DE ACTOS DE COMPRA EM DIAS ÚTEIS E NO FIM-DE-SEMANA ENTRE 13 E 19/3/2000.
(Forma das marcas correspondentes à tipologia apresentada na Figura 22, pág. 100)
Número de Actos de Compra Diários
3.500
loja MR
3.000
2.500
loja BF
2.000
loja MR
1.500
1.000
500
loja UB
loja UB
loja UE
loja UE
loja FO
loja RL
loja BF
loja FO
loja RL
loja LN
loja LN
0
Seg
Ter
Qua
Qui
Sex
Sáb
Dom
Para manter as proporções de clientes em cada período horário utilizou-se uma
fracção fixa, por exemplo entrevistar um cliente em cada três que saíam da loja após ter
efectuado compras. Esta técnica é difícil de manter em períodos de maior afluência pelo
que nesses períodos reforçou-se a equipa de entrevistadores. Estas técnicas de
amostragem são descritas em textos como Robertson e Conway (2002) e Blankenship et
al. (1998), e pretendem minimizar os problemas por vezes observados na amostragem
por quotas e resultantes da falta de aleatoriedade. Para este caso particular, os gráficos
57
da Figura 9 são muito semelhantes para cada uma das lojas consideradas, pelo que o
processo foi bem sucedido e o factor considera-se controlado.
FIGURA 9 PERCENTAGEM DE ACTOS DE COMPRA EM CADA PERÍODO HORÁRIO
NO DIA 17/3/2000 (SEXTA-FEIRA) E NÚMERO DE INQUÉRITOS REALIZADOS NO DIA 21/3/2003 (SEXTA-FEIRA).
Percentagem de Actos de Compra e Inquéritos
100%
90%
9-10h
10-11h
80%
11-12h
70%
12-13h
60%
13-14h
14-15h
15-16h
50%
40%
30%
20%
10%
16-17h
17-18h
18-19h
19-20h
0%
actos
compra
10-11h 10-11h
10-11h 11-12h 11-12h
11-12h 12-13h 12-13h
13-14h
12-13h 13-14h
14-15h 14-15h
13-14h 15-16h 15-16h
14-15h
16-17h 16-17h
15-16h
17-18h
17-18h
16-17h
18-19h 18-19h
17-18h
18-19h 19-20h 19-20h
19-20h
20-21h 20-21h
20-21h
21-22h 21-22h
inquéritos
actos
compra
loja BF
inquéritos
loja MR
9-10h
10-11h 9-10h 10-11h
10-11h
10-11h
11-12h
11-12h
11-12h
11-12h
12-13h
12-13h 12-13h 12-13h
13-14h 13-14h 13-14h 13-14h
14-15h 14-15h
15-16h 15-16h 14-15h 14-15h
16-17h
16-17h 15-16h 15-16h
17-18h 17-18h 16-17h 16-17h
17-18h 17-18h
18-19h 18-19h
18-19h 18-19h
19-20h
19-20h
19-20h
19-20h
20-21h
20-21h 20-21h
20-21h
21-22h
actos
compra
inquéritos
loja EU
actos
compra
inquéritos
loja PK
9-10h
10-11h
11-12h
12-13h
13-14h
14-15h
15-16h
10-11h
11-12h
12-13h
13-14h
14-15h
15-16h
16-17h
16-17h
17-18h 17-18h
18-19h 18-19h
19-20h
19-20h 20-21h
20-21h 21-22h
actos
compra
inquéritos
loja RL
Assim, não foi necessário considerar ponderação por se admitir que o plano de
amostragem garante que mais clientes são entrevistados nos períodos horários com
maior afluência de consumidores e menos nos períodos com menor afluência. Deste
modo, garante-se a representatividade da amostra sem necessidade de ponderação
relativamente à hora do dia.
Por fim, o terceiro factor de desenho do inquérito utilizado é a tipologia de loja. No
primeiro inquérito foram efectuadas entrevistas em todas as lojas então existentes. No
segundo inquérito, porque já existia uma tipologia de lojas bem definida e porque se
considerou necessário reduzir o número de inquéritos já que o número de lojas também
tinha aumentado entretanto, optou-se por efectuar entrevistas em apenas uma loja de
cada tipo (tendo-se seleccionado aquela que apresentava valores mais próximos do
centróide do grupo, segundo a tipologia apresentada na Figura 20, pág. 98), em duas
lojas consideradas outliers e nas seis novas lojas não existentes no inquérito anterior.
Assim, em análises para a totalidade das lojas é necessário ponderar os
resultados de cada loja de cada tipo pelo número de lojas em cada tipologia (sempre
58
quatro lojas), o que parte do pressuposto de que os resultados da loja escolhida são
extrapoláveis para as restantes. Tendo em conta a elevada variabilidade observada de
loja para loja, este pressuposto pode não se verificar para determinadas situações, mas
considerou-se ser o melhor compromisso entre a qualidade dos dados obtidos e o custo
de realização dos inquéritos.
Na Tabela 2 resumem-se os diferentes factores considerados no desenho dos
inquéritos. A amostragem por quotas conta portanto com estratos formados pelo
cruzamento dos seguintes factores: dia da semana (3 categorias: dia útil, sábado,
domingo) × loja (algumas lojas seleccionadas). Em cada loja foi cumprida uma quota de
cerca de 200 inquéritos distribuída pelos diferentes estratos identificados.
TABELA 2 RESUMO DOS FACTORES CONSIDERADOS NO PLANO DE AMOSTRAGEM.
(Destaca-se com fundo colorido os factores que exigem pesos para serem comparáveis)
FACTORES EM
CONSIDERAÇÃO
Período do Ano
Semanas do Mês
1º INQUÉRITO
(Novembro 2000)
2º INQUÉRITO
(Março de 2003)
Afastar do período de fim de ano e férias de
verão, alturas em que se verificam
comportamentos atípicos de compra.
As duas semanas centrais do mês de modo a
evitar os finais \ princípios do mês, marcados
pelos vencimentos.
Dias da Semana
Todos os dias da
semana
5ª feira, 6ª feira,
Sábado e Domingo
Hora do Dia
Entrevistas efectuadas a todas as horas
durante o período de abertura da loja,
obedecendo à proporção de actos de compra.
Tipo de Loja \
Localização
Todas as 19 lojas
Antiguidade das
Lojas
Todas as lojas estavam abertas ao público há
mais de 6 meses, período considerado
suficiente para estabilizar a clientela.
12 lojas: 1 de cada
tipo, outliers e novas
CORRECÇÃO PARA
COMPARABILIDADE
--Peso de 2,5 para os dias
úteis do 2º inquérito
-Peso de 4 nas lojas
escolhidas de cada tipo
--
A hora do dia, ainda que tenha sido considerado um facto dos mais importantes,
não necessita de ponderação por ter tido igual desenho em ambos os inquéritos. Os
restantes factores, considerados menos importantes, foram apenas controlados de modo
a garantir-se que não se obtinham resultados atípicos, apenas válidos num curto período
do ano ou do mês. Quanto à antiguidade das lojas é importante garantir que a loja já está
aberta há alguns meses de modo a que a clientela esteja minimamente estabilizada.
Para determinar o número mínimo de meses a utilizar após abertura, analisaramse séries de vendas mensais para novas lojas. Ao contrário do que se esperaria, as
59
séries de vendas estabilizam muito rapidamente após apenas um ou dois meses, como
se pode observar na Figura 10. Com excepção da loja KO e, se se excluir o mês de
Dezembro correspondente a uma sazonalidade óbvia, todas as restantes estabilizam as
vendas mensais muito rapidamente, apresentado apenas uma ligeira tendência de subida
considerada estrutural.
FIGURA 10 EVOLUÇÃO DO VOLUME DE VENDAS NOS PRIMEIROS MESES APÓS AABERTURA DA LOJA a.
(Forma das marcas correspondentes à tipologia apresentada na Figura 22, pág. 100)
Vendas Mensais (variações relativas)
80%
60%
loja UE
40%
20%
0%
loja UE
loja NR
loja KO
loja NR
-20% loja RL
-40%
loja RP
loja KO
loja AN
loja LA loja RP
loja LA
loja RL
loja AN
loja LN
-60%
-80%
loja LN
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Jan
Fev
Mar
Abr
a
Os dados referem-se a aberturas em anos distintos entre 1999 e 2001. As vendas do primeiro mês podem não corresponder à
totalidade do mês em virtude da loja nem sempre abrir no dia 1.
Note-se que não foi feito qualquer esforço para equilibrar ou cumprir quotas em
factores demográficos como o género ou nível de rendimentos. Estes serão factores em
estudo mais do que factores de desenho do inquérito.
III.B.2. Organização, Questões e Qualidade
A estrutura dos dois inquéritos foi muito semelhante, tendo-se adoptado um
inquérito normalmente utilizado dentro da cadeia de distribuição para avaliar a satisfação
e caracterizar o cliente das grandes superfícies comerciais. A técnica de entrevista
utilizada consistiu na abordagem do cliente quando este se encontra na fila da caixa ou
após efectuado o pagamento das compras. Em algumas questões foram mostrados
60
cartões aos clientes para facilitar a comparação de alternativas e a codificação, em
especial quando a resposta implica uma escala de preferências. Foram excluídos clientes
ligados a supermercados \ hipermercados ou a estudos de mercado, utilizando uma
pergunta eliminatória. O inquérito de 2000 pode ser consultado no Anexo A (pág. 193).
Com o objectivo de reduzir a dimensão do segundo inquérito e considerando
igualmente a posterior análise de resultados, foi diminuído o número de perguntas
efectuadas ao cliente e, em alguns casos, agregadas categorias de resposta, por se
considerar que algumas das categorias utilizadas no primeiro inquérito apresentavam
frequências muito baixas e pouco interessantes para a análise. Em algumas situações,
fecharam-se perguntas que no primeiro inquérito estavam abertas, com base na
identificação de respostas com frequências muito elevadas. Aliás o inquérito inclui muito
poucas perguntas abertas. Em contrapartida utilizam-se perguntas semi-fechadas com
algumas categorias e um espaço para preencher com outras sugeridas pelos clientes.
Este tipo de inquérito muito estruturado, pode tornar-se muito monótono, pelo que a
utilização de um número limitado de perguntas abertas do tipo indicado é recomendado
para quebrar a monotonia e capturar aspectos menos frequentemente referidos (Wolfe,
2002).
Em ambos os inquéritos utilizaram-se como perguntas filtrantes a frequência de
compras, tendo-se eliminado da análise os clientes que frequentam a loja pela primeira
vez (cerca de 3% da amostra inicial em cada inquérito) por se considerar que não se trata
do cliente típico da cadeia ou loja. No entanto, se a intenção fosse estimular primeiras
visitas, deveriam ser estes os clientes a analisar. Sublinhe-se que, de acordo com o
desenho do inquérito, a população é constituída apenas por clientes das lojas, não se
obtendo qualquer tipo de informação sobre não clientes.
Uma análise cuidadosa às respostas foi efectuada de modo a identificarem-se
problemas de introdução de dados ou de interpretação das perguntas. Por exemplo, nas
perguntas sobre os “gastos mensais nesta loja” e em “compras totais para o lar” verificouse se a resposta à segunda era sempre superior à primeira. Foi igualmente verificado se
as percentagens somavam 100%. Sublinhe-se a este propósito que o segundo inquérito
apresenta muito melhor qualidade (não foi identificado qualquer problema) enquanto o
primeiro ocupou-nos vários dias na identificação e correcção ou eliminação de problemas
deste tipo. Note-se ainda que não foi efectuado qualquer tratamento específico para as
não respostas, tendo sido simplesmente excluídas dos resultados. Durante o processo de
codificação de respostas foram igualmente identificados alguns pequenos problemas de
61
qualidade facilmente resolvidos. Este tipo de controlo de qualidade dos resultados obtidos
é considerado essencial por autores como Maiar (2002).
Note-se a este propósito que o preenchimento dos inquéritos e posterior
passagem das respostas para registo informático foi efectuado pela mesma empresa, da
confiança da cadeia de lojas em estudo, a qual garantia o controlo de qualidade e do
desempenho dos entrevistadores com frequentes visitas de responsáveis aos locais de
entrevista. Este tipo de procedimentos é generalizado na literatura consultada (ver por
exemplo Maiar, 2002; Moutinho e Evans, 1992).
O tratamento dos dados dos inquéritos para utilização na restante dissertação
envolveu o cálculo de percentagens e médias por loja, não apenas das variáveis
directamente definidas a partir de perguntas do inquérito, como de algumas variáveis
mais complexas. Assim, após algumas análises descritivas simples, concluiu-se da
necessidade de construir variáveis derivadas como a “percentagem de inquiridos fiéis à
insígnia” definida como correspondendo a clientes que declaram gastar pelo menos 75%
da “percentagem de gastos em lojas da cadeia” e os restantes 25% em lojas do formato
hipermercado. Outra variável construída é a “percentagem de viagens exclusivas à loja”
correspondentes ao cruzamento da categoria “casa” da “origem da viagem de compras”
com o “destino da viagem de compras”. Outra variável utilizada nas análises descritas
nos capítulos seguintes é a “percentagem de clientes preferenciais” correspondente a
uma segmentação dos inquiridos efectuada no Anexo G (pág. 215). Os metadados
referentes às variáveis construídas com base nos inquéritos e em todos os restantes
métodos podem ser consultados no Anexo E (pág. 203).
III.C. O Programa de Mystery Shopping: Factores endógenos
Verificou-se a necessidade de recolher informação sobre a configuração e
localização das lojas existentes, incluindo acessibilidades, variáveis denominadas
endógenas na Figura 7, uma vez que existia uma percepção clara da variedade de lojas
quanto a estes aspectos. Assim, começou-se por construir um inquérito a ser preenchido
pelos gestores das lojas existentes para a cadeia em consideração (ver Anexo B, pág.
198). Ainda que tal inquérito tenha sido desenhado com todo o cuidado e com a
preocupação de o tornar simples de preencher, tendo-se utilizado uma folha de cálculo
para atingir esses objectivos, não foi possível motivar os directores a preenchê-lo, e
mesmo os parcos resultados que se obtiveram são de duvidosa qualidade.
62
Assim, optou-se por uma nova aproximação ao problema de recolher este tipo de
informação. Existiam já, em estudos anteriores, fichas que eram preenchidas nos locais
admitidos para novas localizações. Estas fichas baseavam-se numa definição de áreas
de influência por coroas circulares com estimação, baseadas em densidades
populacionais, de percentagens de potenciais clientes obtendo-se assim uma estimativa
de vendas.
Estas fichas foram totalmente reformuladas e redesenhadas, obtendo-se um
formulário de preenchimento rápido in loco. Os objectivos também foram redefinidos uma
vez que se passaram a basear num conjunto de observações consideradas relevantes
(segundo o levantamento de variáveis endógenas da Figura 7) e deixaram-se as
estimativas de áreas de influência e variáveis demográficas para um tratamento mais
cuidado com utilização de um Sistema de Informação Geográfica (ver secção seguinte).
Note-se que, na avaliação de localizações, a observação do local sempre foi considerada
crucial para a tomada de decisão, como revelam os inquéritos a especialistas em
localização (ver por exemplo Pioch e Byrom, 2004, para um trabalho recentemente
publicado). O que se pretende não é tomar a decisão no local com base exclusivamente
na sensibilidade dos analistas mas recolher dados de forma sistemática para uma
decisão mais apoiada e objectiva, ainda que não excluindo a sensibilidade dos analistas.
Os dados recolhidos nesta ficha incluíam vários aspectos sobre a localização e
algumas relacionadas com a concorrência e caracterização da área de influência. Incluiuse ainda a avaliação subjectiva de vários aspectos das lojas existentes, o que exigiu que
fosse a mesma equipa a fazer a recolha em todas as lojas da cadeia (o formulário
completo encontra-se no Anexo D, pág. 202). O preenchimento do formulário foi
efectuado com uma visita à loja da equipa de dois analistas incógnitos, devidamente
preparados, onde observaram aspectos visiveis da loja, compararam e avaliaram (por
consenso) vários aspectos em escalas ordinais, e preencheram o formulário após a saída
da loja. A este tipo de estudos autores como Wilson (2001) e Edmunds (1996) chamam
mystery shopping programs19. Trata-se portanto de um método de observação
altamente estruturado e dissimulado, uma vez que a observação deve ser efectuada sem
que o observado se aperceba (Moutinho et al., 1998).
Segundo Wilson (2001), as origens da técnica radicam na antropologia cultural
onde os antropólogos participam no dia a dia da vida das tribos de modo a entender os
Durante o seminário organizado pela ADMES e pela MARKTEST em 6/5/2005 foi sugerida a tradução
desta expressão por “programas de cliente mistério”. Esta expressão não é usada neste trabalho por ser
ainda pouco comum.
19
63
seus valores culturais, atitudes e comportamentos. No entanto, os programas de mystery
shopping distinguem-se dos métodos usados pelos antropólogos por serem muito
estruturados, com recurso a formulários e listas marcadas, para obter dados
principalmente quantitativos mas também qualitativos. Entende-se, assim, esta técnica
como complementar a inquéritos e a entrevistas aprofundadas. Uma das principais
críticas à técnica é a falta de objectividade e reprodutibilidade em determinadas medidas
menos quantitativas, como a simpatia do atendimento ou conhecimentos sobre os
produtos vendidos. Para minimizar estes problemas, no inquérito efectuado por Wilson
(2001), as empresas que utilizam este tipo de técnicas usam escalas muito estruturadas
com rótulos descritivos e treinam cuidadosamente os analistas que visitam as lojas.
Neste caso, o programa desenrolou-se com considerável sucesso, conseguindose variáveis que permitem avaliar e descrever o desempenho das lojas existentes. Esta
informação é ainda relevante na caracterização de tipologias. A adaptação do formulário
para novas localizações é imediata e a sua utilidade na previsão de vendas é
fundamental para uma correcta modelação.
Note-se que, em paralelo com o preenchimento dos formulários, também se
realizou o registo das coordenadas de localização das lojas da cadeia e de um total de
mais de 600 lojas de retalho alimentar existentes em Portugal Continental, utilizando GPS
— Global Positioning System. Tanto as coordenadas de localização como os resultados
do programa de mystery shopping foram carregados num Sistema de Informação
Geográfica, o que permitiu associar a informação recolhida em diversas fontes à
localização das lojas. Variáveis como a “área de vendas”, o “número de caixas”, o
“formato e a cadeia” a que pertence cada uma das 600 lojas, foram utilizadas na análise
espacial de dados e na definição de áreas de influência, como descrito na secção
seguinte.
III.D. Dados Demográficos e o Tratamento Espacial: Factores exógenos
Neste estudo utilizou-se um grande número de variáveis demográficas
correspondentes à base geográfica nacional do INE com informação demográfica do
censo de 2001. Tratam-se de dados de elevada qualidade, acessíveis em diversos graus
de desagregação espacial e prontos a usar por um SIG. Para incluir este tipo de dados,
georreferenciados a polígonos, em estudos de pontos no espaço, como é o caso de lojas,
opta-se por definir uma área de influência das lojas e critérios geoespaciais de
64
intersecção entre os polígonos com dados demográficos e o polígono da área de
influência.
Nesta secção descreve-se a teoria dos polígonos de Voronoi e os métodos
utilizados na estimação dos mesmos. Utilizando métodos de análise espacial e vários
métodos de delimitação de áreas de influência, é possível calcular valores percentuais e
densidades por unidade de área para as variáveis demográficas. Estas variáveis são
posteriormente utilizadas na caracterização das lojas e da concorrência e nos modelos de
previsão de vendas para novas localizações. Nesta secção, descreve-se ainda a
estimação dos modelos de Voronoi e comparam-se diferentes métodos para delimitação
de áreas de influência com base na capacidade explicativa das vendas, usando como
independentes apenas as variáveis demográficas calculadas.
Além do cálculo de variáveis demográficas, recorreu-se igualmente à análise
espacial para determinar variáveis que permitissem avaliar a pressão competitiva próxima
das lojas recorrendo à base de dados com a localização de lojas. Para os diagramas de
Voronoi, consideram-se como concorrentes todas as lojas que partilham fronteiras com
as lojas da cadeia em consideração e, para as áreas de influência definidas por caminhos
mais curtos, todas as lojas que se situam no interior do polígono. Note-se que estes
cálculos envolveram todas as lojas da base de dados e não apenas as utilizadas para
definição dos polígonos de Voronoi. Desta análise resultaram variáveis como “área de
vendas dos concorrentes”, “área de vendas ponderada pela distância de caminhos mais
curtos”, o “número de hipermercados concorrentes até 15 minutos” ou “área por
diagramas de Voronoi” que será tanto maior quanto menor for a concorrência nas
proximidades.
III.D.1. Porquê Áreas de Influência e Modelos de Delimitação?
Ainda que a necessidade de incluir variáveis demográficas seja evidente em
estudos anteriores e na bibliografia consultada (ver por exemplo Salvaneschi, 1996), o
modo de o fazer não é evidente. A dificuldade está em definir uma área associada à loja a
que se referem as variáveis demográficas que serão utilizadas na caracterização dessa
loja ou nova localização. Para a resolução deste problema existem duas aproximações
fundamentais:
•
Utilização de uma função inversa da distância para ponderar as variáveis
normalmente associadas a pontos ou pequenas áreas. Esta aproximação, comum
em estudos de interacção espacial com modelos gravitacionais, considera que todos
65
os pontos do espaço podem ser úteis na caracterização de uma loja mas a sua
importância é inversamente proporcional à distância à loja;
•
Definição de uma área de influência ou uma área à volta da loja que se considera
influenciar muito fortemente a caracterização demográfica da loja, desprezando-se a
influência proveniente do exterior. Deste modo, define-se uma fronteira,
considerando-se que para o seu interior se localiza grande parte da clientela da loja.
No presente estudo adoptou-se a segunda aproximação ao problema de
integração de variáveis demográficas em estudos de localização. Tal decisão
fundamenta-se nas seguintes observações:
•
Nos inquéritos efectuados (ver gráfico (e) do Anexo F, pág. 210) a maioria dos
clientes respondeu que o principal motivo de deslocação à loja é a sua proximidade.
Assim, neste tipo de lojas que vivem muito da proximidade ao cliente, a definição de
uma área de influência parece mais adequado. Em lojas de grande dimensão, como
os hipermercados, a utilização de funções ponderadoras inversas da distância pode
torna-se preferível devido ao forte poder de atracção que este tipo de lojas exerce e
às longas distâncias por vezes percorridas.
•
O método de cálculo das áreas de influência é, geralmente, mais simples e
compreensível pelo decisor do que a utilização da função ponderadora, de
computação bastante mais intensiva, e muito exigente na informação necessária.
Alguns autores como Newman e Cullen (2002) distinguem entre áreas de
influência (catchment area ou influence area) e áreas de atracção (trade area)20. A
primeira expressão é adoptada da geografia e descreve uma área em torno de uma
localização potencial de onde se espera que provirá a maior parte dos potenciais clientes.
A segunda descreve uma área semelhante mas para lojas já existentes, para as quais é
possível delimitar polígonos com algum rigor, com recurso a inquéritos ou moradas de
clientes frequentes. Nesta dissertação utilizam-se técnicas definidas para áreas de
atracção de lojas existentes para delimitar áreas de influência para localizações
potenciais, usando para tal o conceito de loja análoga, pelo que os dois termos são
utilizados de forma indistinta nesta dissertação.
A delimitação de áreas de influência das lojas não é evidente já que este é um
conceito artificial. Ou seja, na prática não existe nenhuma fronteira que impeça o cliente
que habita em qualquer ponto do espaço, de utilizar uma determinada loja. Assim, a
definição da fronteira tem sempre um elevado grau de incerteza. No caso de áreas de
atracção, o melhor método consiste em inquirir os clientes sobre o lugar donde provêm e
assim poder definir uma fronteira que inclua cerca de 80% dos inquiridos que frequentem
habitualmente a loja (Salvaneschi, 1996, Moutinho e Evans, 1992). Neste caso particular
A tradução é sugestão do autor, ainda que não seja óbvia, parece ser a mais adequada tendo em conta
a definição destes termos.
20
66
é necessário definir áreas de influência para novas localizações, pelo que não é possível
usar as técnicas tradicionais das áreas de atracção.
Como refere Birkin et al. (2002) na pág. 139:
«although this approach is popular within retailers (…) there is the problem of
how to define de catchment area and how to adequately treat the
competition».
Ainda que continuem a delimitar-se áreas de influência por simples observação
directa da distribuição dos potenciais clientes no espaço ou por observação da
distribuição de fluxos, a presença de software SIG nas empresas tem mudado este
cenário. Entre os métodos mais simples de utilização de SIGs, contam-se as áreas de
influência delimitadas com buffers ou circunferências, com um raio adequado e calibrado
utilizando resultados de inquéritos a clientes para lojas análogas (Birkin et al., 2002 e
McMullin, 2000) ou polígonos aproximadamente circulares baseados em “tempos de
viagem” na deslocação à loja e em algoritmos de caminho mais curto (Cowen et al., 2000
e Salvaneschi, 1996).
Este último procedimento exige grande volume de informação sobre eixos de via
e, principalmente, velocidades médias de deslocação, raramente disponíveis com algum
rigor. Para minimizar o problema da discretização do espaço, que na verdade é contínuo,
usam-se comummente várias áreas concêntricas definindo coroas circulares ou
aproximadamente circulares, denominadas por expressões como “área imediata”, “área
primária” ou “área secundária” (ver por exemplo Silva e Cardoso, 2004). No caso
particular de lojas de pequena dimensão, como as usadas neste estudo, a área imediata
contribui com grande parte dos clientes e logo pode ser fortemente explicativa do
desempenho das lojas. Experiências efectuadas para o caso da cadeia em estudo
revelaram que variáveis calculadas apenas tendo em conta a área imediata explicam
entre 50-60% da variação dos valores do rácio das vendas por unidade de área da loja,
explicando as variáveis calculadas para as áreas secundárias apenas um adicional entre
1-2% quando entram nos modelos.
Nesta dissertação sugerem-se polígonos de Voronoi multiplicativos de primeira e
segunda ordem para delimitar áreas de influência, em comparação com algoritmos de
caminhos mais curtos (Figura 11). Ao contrário dos restantes métodos de delimitação de
áreas de influência, os polígonos de Voronoi permitem, simultaneamente, incorporar a
atractividade da loja e a presença de concorrência nas proximidades, não exigindo
informação sobre eixos de via (Boots e South, 1997). Estes aspectos são valorizados por
vários autores como Reynolds (1991):
67
«The presence of competitor stores will mean the real geographical
catchment area of a new store will be highly skewed in certain directions.
This can normally be shown in all appraisals of existing store catchment
areas».
Como se pode observar da Figura 11, as áreas de influência por polígonos de
Voronoi resultam numa divisão do espaço sem sobreposição de áreas. Nos polígonos por
caminhos mais curtos, pelo contrário, as áreas sobrepõem-se fortemente no caso de lojas
com muita concorrência. Uma situação intermédia é a dos polígonos de segunda ordem,
os quais definem áreas não mais próximas de uma loja mas mais próximas de um
conjunto de duas lojas.
FIGURA 11 POLÍGONOS DE CAMINHOS MAIS CURTOS A 2 MIN (a) E POLÍGONOS DE VORONOI MULTIPLICATIVOS (b).
(Lojas representadas por pontos, rede viária a cinzento e áreas de influência por regra de decisão preenchidas).
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
(a) caminhos mais curtos
#
#
#
#
#
(b) polí#gonos de Voronoi
Estes diagramas permitem definir áreas de influência sobrepostas, indo de
encontro ao conhecimento de especialistas que afirmam ser estas lojas muitas vezes
complementares de outras lojas de retalho alimentar, principalmente hipermercados e
lojas de retalho especializado. Utilizando diagramas de segunda ordem, considera-se a
possibilidade de um cliente frequentar duas lojas de retalho alimentar sendo contabilizado
simultaneamente para ambas (Figura 12).
Os diagramas de segunda ordem apresentam ainda a vantagem de conduzir a
áreas de influência maiores do que as dos diagramas de primeira ordem que, por vezes,
se revelaram demasiado pequenas.
68
FIGURA 12 POLÍGONOS DE VORONOI MULTIPLICATIVOS DE SEGUNDA ORDEM.
(Lojas representadas por pontos, linhas grossas correspondem ao diagrama de Voronoi de 1ª ordem,
finas ao de 2ª ordem e os polígonos preenchidos correspondem à reunião das áreas partilhadas pela loja A).
#
#
#
#
#
F
E
#
#
(A,F)
(E,A)
A#
(A,B)
(D,A)
B
#
D
#
#
C
(B,A)
III.D.2. Diagramas de Voronoi Multiplicativos Ponderados
Ainda que os diagramas de Voronoi sejam atribuídos aos trabalhos pioneiros de
matemáticos como Georges Voronoï (1908) ou Peter Gustav Lejeune Dirichlet (1850),
pelo que também se denominam polígonos de Dirichlet, têm sido descobertos e
redescobertos vezes sem conta. Na verdade, eles podem ser encontrados na parte III do
Principia Philosophiae e no tratado sobre a fragmentação cósmica de René Descartes,
ambos publicados em 1644. Como exemplos de redescoberta destes diagramas, Okabe
et al. (2000) mensiona, entre muitos outros casos em domínios como a cristalografia,
meteorologia e a geografia, o caso de dois autores na área da ecologia que no curto
espaço de um ano redescobriram a mesma estrutura geométrica. Brown (1965) definia
uma “área potencialmente disponível” para árvores e apenas um ano depois Mead (1966)
publica o mesmo conceito para plantas, denominando os polígonos de Voronoi como
plant polygons. Nesta altura existe um impressionante número de trabalhos publicados
69
sobre polígonos de Voronoi e sobre as suas aplicações (ver por exemplo Okabe et al.,
2000 ou Berg et al., 200021).
No que se refere a diagramas de Voronoi multiplicativos na caracterização da
proximidade a elementos de um conjunto de pontos no espaço, correspondente a lojas de
retalho alimentar, Boots e South (1997) apresentam um muito completo trabalho. Ainda
que referências mais antigas possam ser encontradas (ver por exemplo Shieh, 1985), no
referido texto apresenta-se uma visão integrada sobre o tema, nomeadamente utilizando
os diagramas de Voronoi para fins descritivos ou prescritivos. Segundo os autores, estes
métodos permitem não só identificar oportunidades de novas localizações como estimar
impactos aquando do aumento de espaço comercial, ou outros tipos de remodelações
que influenciem a atractividade da loja. Realçam igualmente que, ao contrário de outros
métodos de análise espacial baseados em modelos gravitacionais, os diagramas de
Voronoi não requerem procedimentos estatísticos complexos de estimação e não
necessitam de dados individuais sobre preferências de clientes por determinadas lojas.
Nesta dissertação os diagramas de Voronoi são utilizados para o tratamento
espacial de variáveis demográficas usadas na caracterização da proximidade a
elementos de um conjunto de P = {p1, p2, …, pn} pontos no espaço (com 2 ≤ n < ∞),
designado por conjunto gerador, correspondente a lojas de retalho alimentar. O diagrama
é definido como uma partição do plano tal que cada ponto do espaço se associa ao
elemento do conjunto gerador mais próximo. Se a função caracterizadora da proximidade
for a distância euclidiana, a partição resultará numa série de polígonos (polígonos de
Voronoi) e toma o nome de diagrama de Voronoi simples ou de primeira ordem, OVD
– Ordinary Voronoi Diagram. Cada polígono (V(pj)) gerado pelo ponto pj com
coordenadas xj é definido por:
V ( p j ) = {x : x − x j ≤ x − xk , ∀k ≠ j ∈ P}
(4)
varrendo k cada um dos outros elementos do conjunto gerador. O conjunto dos polígonos
correspondentes a todos os pontos geradores V = {V(p1), V(p2), …, V(pj), …, V(pn)}
constitui um diagrama de Voronoi de primeira ordem. Claramente V(pj) contêm todos os
pontos mais próximos de pj do que de qualquer outro elemento do conjunto gerador.
Ver também um bom artigo de divulgação científica na edição de 28 Fevereiro de 2004 do Expresso
intitulado “Diagramas de Voronoi” e assinado por Nuno Crato.
21
70
No entanto, este modelo muito simples considera que duas lojas à mesma
distância Euclidiana são igualmente atractivas para um potencial cliente. De qualquer
modo, são modelos muito simples que podem ser aproximadamente válidos para lojas
semelhantes em áreas densamente povoadas, sem barreiras geográficas a deslocações
a pé e com condições demográficas e psicográficas homogéneas. Igualmente importante
é a existência de algoritmos de complexidade O (n·log n) que utilizam no máximo O (n)
registos implementados nas principais aplicações SIG (Berg et al., 2000).
Os diagramas de Voronoi multiplicativos ou MWVD – Multiplicative Weighted
Voronoi Diagrams, são definidos de modo similar, associando a cada elemento do
conjunto gerador um peso superior a zero (wj) que caracteriza a sua atractividade e que é
função das características da loja medidas pelas variáveis endógenas (Figura 7 na pág.
50). A função de distância (dwj) é dada por:
d w j ( p, p j ) = (1 / w j ) ⋅ x − x j , w j > 0
(5)
Assim, cada polígono multiplicativo de Voronoi é definido por:
V ( p j ) = {x : d w j ( p, p j ) ≤ d wk ( p, pk ), ∀k ≠ j ∈ P}
(6)
Nesta dissertação dá-se preferência a diagramas de Voronoi multiplicativos sobre
outros como os aditivos, já que podem ser vistos como modelos de interacção espacial
simples. Dada a expressão (2) para a função utilidade genérica já apresentada na pág.
38, verifica-se que os diagramas de Voronoi multiplicativos utilizam a mesma função
utilidade para realizar a partição do espaço, desde que:
d w j ( pi , p j ) = 1 / U ij com β = 1
(7)
Na modelação do ambiente de oferta e procura, em que a oferta se encontra
representada no conjunto gerador, o polígono de Voronoi associado a cada elemento da
partição resultante é interpretado como a área de influência do respectivo elemento
gerador, atribuindo a essa área todos os pontos no espaço que maximizam a função
utilidade seguinte semelhante a (2) com β = 1.
U ij = Aαj / xi − x j com α > 0 e dij ≡ xi − x j
(8)
Substituindo em (7) e comparando agora com (5) é fácil concluir que o peso
corresponde à atractividade da loja j elevada a α.
71
Os diagramas multiplicativos são uma evolução dos diagramas de Voronoi simples
uma vez que não só pressupõem que os clientes valorizam a proximidade na escolha da
loja como introduzem o conceito de atractividade. Assim, a escolha da localização
dependerá de um trade-off entre a proximidade e a capacidade de atracção da loja, à
semelhança dos modelos gravitacionais.
Estes modelos podem ainda ser estendidos tendo em conta que os clientes podem
frequentar k > 1 lojas ou pontos geradores, em simultâneo. Os diagramas de ordem k
vêm de encontro aos resultados dos inquéritos onde grande parte dos inquiridos afirma
frequentar outras lojas, principalmente hipermercados (ver gráfico (f) do Anexo F na pág.
210). Deste modo, obtêm-se os polígonos de Voronoi multiplicativos de ordem k ou
OkMWVD – Order k MWVD. Considerem-se todos os subconjuntos de k lojas entre as n
n
existentes: P = {P1(k), …, Pi(k), …, Pl(k)} com l= Ck. Considere-se agora um desses
grupos Pi(k) = {pi1, pi2, …, pik}, então o polígono de Voronoi multiplicativo de ordem k
(V(Pi(k)) será:
V ( Pi (k )) = {x : max p j {d w j ( p, p j ), p j ∈ Pi (k )} ≤ min pr {d wr ( p, pr ), pr ∈ P \ Pi (k )}}
(9)
o que relaciona qualquer ponto do espaço com as k lojas mais atractivas. Apesar da
complexidade dos diagramas resultantes, existem algoritmos para o cálculo de diagramas
3
de ordem k com complexidade O (n·log n+k(n-k)) onde n é o número de pontos
geradores (Berg et al., 2000). No caso presente, utilizou-se um algoritmo aproximado
baseado em raster, com resolução espacial de 100 m, semelhante ao descrito em Okabe
et al. (2000, pág. 209).
Estes modelos têm a desvantagem de não considerarem barreiras físicas ao
movimento dos clientes, considerando o espaço contínuo no interior dos polígonos. Esta
desvantagem é minimizada neste trabalho pela utilização de regras de intersecção que
têm em conta essas barreiras (ver III.D.4, pág. 76). De qualquer modo, em deslocações a
pé, como acontece para cerca de 64% dos clientes destas lojas (ver gráfico (b) do Anexo
F, pág. 210), as barreiras físicas são pouco relevantes.
Estes modelos implicam outros pressupostos (Okabe e Suzuki, 1997):
•
n lojas em concorrência localizadas numa região plana e finita;
•
todos os clientes do polígono de Voronoi frequentam apenas uma (nos MWVD)
ou k lojas com igual probabilidade (nos OkMWVD);
•
a utilidade Uij da loja j para o cliente i é uma função inversa da distância
percorrida pelo cliente para visitar a loja e uma função directa da atractividade
72
da loja (i.e. tal como nos modelos gravitacionais considera-se que é mais
provável o cliente frequentar lojas mais próximas e com maior atractividade);
•
a função atractividade ou peso wj (> 0) pode ser calculada a partir de variáveis
endógenas como preços praticados, dimensão da loja, acessibilidades, etc..
Okunuki e Okabe (2002) aplicam técnicas de construção de polígonos de Voronoi
a redes viárias, incluindo nas áreas de influência obtidas as acessibilidades de automóvel
e a concorrência de lojas vizinhas. Muitos outros diagramas de Voronoi podem ser
utilizados para libertar os modelos de alguns dos pressupostos descritos. Uma muito
completa revisão pode ser encontrada em Okabe et al. (2000). A sua aplicação a
problemas de localização em ambiente competitivo é estudada por exemplo por Okabe e
Suzuki (1997).
Outro tipo de diagrama com potencial na resolução de problemas de localização é
o diagrama de Voronoi gerado pelos centróides dos polígonos (centroidal Voronoi
tessellation). Du et al. (1999) introduzem estes diagramas para definir a localização de
um equipamento e, em simultâneo, a correspondente área de influência. Estes diagramas
localizam os equipamentos no ponto que minimiza o total das distâncias a todos os
pontos no interior do polígono. Os mesmos autores apresentam aplicações na localização
de marcos de correio e de ecopontos com recurso a funções densidade populacional para
a distribuição da população. Estes diagramas estão relacionados com agrupamentos de
k-médias (k-means clusters) no caso da utilização de um critério de minimização da
variância.
III.D.3. Estimação dos Modelos de Delimitação de Áreas de Influência
Para a estimação dos modelos de delimitação de áreas de influência deu-se
prevalência à sensibilidade dos especialistas em localização sobre a regra quantitativa
em que se pretende garantir que pelo menos 80% de clientes provêm do interior do
polígono delimitado, uma vez que esta última apenas poderia ser avaliada de forma
aproximada com os dados disponíveis.
No caso de áreas de influência delimitadas por algoritmos de caminhos mais
curtos, utilizou-se uma rede viária nacional adquirida ao Instituto de Estradas de Portugal
e velocidades médias de deslocação, estimadas por uma empresa especializada, sendo
estes dados constantemente revistos pelos especialistas em localização. Assim, o único
parâmetro a calibrar consiste no tempo de viagem limite. Por observação da localização
de proveniência dos clientes mais frequentes, entretanto georreferenciada à freguesia,
73
com as áreas obtidas para valores como 2 ½, 5, 10, e 15 minutos de deslocação de
automóvel, o que corresponde a aproximadamente a 20, 40, 80 e 120 minutos
percorridos a pé se se considerar uma velocidade média de deslocação de 4 km/h e uma
velocidade média de deslocações de automóvel 8 vezes superior. Após alguns testes
optou-se pelo primeiro valor considerando-se as restantes áreas demasiado grandes para
o tipo de lojas em consideração.
A preferência pela opinião dos especialistas prende-se com o facto dos cálculos
tenderem a subavaliar as fracções de clientes no interior da área de influência, já que as
áreas de algumas freguesias consideradas são superiores à própria área de influência e a
consideração de que os clientes estão uniformemente distribuídos no interior da freguesia
é claramente inapropriada. Apesar destas dificuldades, é reconhecida a heterogeneidade
de lojas na cadeia com o parâmetro 2 ½ a ser claramente baixo para algumas lojas e
elevado para outras. Dado os objectivos previsionais e o reduzido número de lojas na
cadeia, foi considerado necessário utilizar o mesmo valor para todas as lojas.
No caso presente existiam dados para dois inquéritos e, tendo em conta que
existiram muitas não respostas à pergunta sobre a origem da viagem de compras e ainda
ao facto de não se verificarem alterações significativas no padrão de comportamento dos
clientes quanto à distribuição no espaço, os resultados dos dois inquéritos foram
agregados. Sublinhe-se ainda que os clientes pouco frequentes foram excluídos.
No caso dos diagramas de Voronoi, a estimação foi mais complexa tendo em
conta a existência de mais parâmetros a calibrar e o facto de não ser possível ajustar as
áreas de influência individualmente. A primeira tarefa consistiu no estabelecimento da
função de atractividade da loja. Boots e South (1997) aconselham a utilização de um lote
de variáveis endógenas cujos valores são de fácil obtenção, tais como: “área de vendas”,
“área do centro comercial onde a loja se insere”, “antiguidade da loja”, “cadeia a que
pertence”, entre outras. No caso presente, dispunha-se de grande número de variáveis
para a cadeia em estudo, mas a recolha de informação sobre a concorrência revelou-se
mais complexa. Assim, começou-se por considerar uma função de atractividade apenas
com a “área de vendas” que conduziu, apesar de se ter optimizado o parâmetro de escala
α, a uma demasiada prevalência das áreas dos hipermercados. Recorrendo a fontes de
dados alternativas como o Anuário publicado pela revista “Distribuição Hoje” e pela APED
e a informação recolhida pelo programa de mystery shopping, conseguiu-se reunir um
conjunto de variáveis que foi usado como explicativas das vendas das lojas da cadeia em
consideração.
74
Usaram-se vendas padronizadas no intervalo entre zero e um para facilitar a
escolha do parâmetro α da equação (2). Note-se que a utilização das vendas como
dependente pressupõe que a atractividade da loja pode ser, grosso modo, definida pelas
vendas. Assim, obteve-se um modelo de regressão onde entraram por análise passo a
passo (stepwise) como variáveis explicativas a “área da loja”, o “número de anos em
funcionamento” e uma variável binária sobre se a localização é classificada como “centro
urbano”. A regressão obtida explica apenas 48% da variabilidade das vendas, o que não
é de estranhar uma vez que apenas se considerou uma quantidade limitada de variáveis
explicativas e todas pertencentes ao grupo das variáveis endógenas, quando se sabe ser
necessário considerar muito mais aspectos em estudos previsionais de vendas (Figura 7,
pág. 50). Foram ainda utilizadas variáveis binárias identificativas da cadeia de lojas e
ponderadas de acordo com a dimensão média das lojas de cada cadeia, uma vez que
não se dispunha de vendas para lojas pertencentes a outras cadeias.
Na delimitação de áreas de influência por diagramas de Voronoi foram excluídas
do conjunto de lojas consideradas competitivas da cadeia de supermercados em estudo
as mercearias e as cadeias de Hard Discount. No que se refere às lojas tradicionais esta
decisão é suportada pelos resultados do inquérito (ver por exemplo gráfico (f) do Anexo
F, pág. 210) mas no que se refere a lojas Hard Discount não pode ser avaliada por não
se ter distinguido este tipo de lojas no inquérito. No entanto, é convicção dos
especialistas em localização, que tais lojas exercem uma reduzida concorrência sobre as
cadeias de supermercados uma vez que se posicionam no mercado de forma muito
diversa e atraem segmentos de clientes igualmente distintos. Por um lado, considerar
todas as lojas nos modelos conduzia a áreas de influência de 1ª ordem demasiado
diminutas.
Pelo
contrário,
os
hipermercados
foram
considerados
importantes
concorrentes e foram sempre incluídos em todos os modelos. Esta decisão reduziu o
número de lojas de 1.300 para cerca de 600 distribuídas pela totalidade do território
continental.
Para cálculo dos diagramas de Voronoi multiplicativos optou-se por um modelo de
dados raster com resolução espacial de 100 m. A escolha em detrimento de um modelo
vectorial deve-se à maior simplicidade de cálculo já que não foi considerado necessária
uma maior precisão na definição de fronteiras entre áreas de influência. Foram
programadas aplicações para o cálculo de diagramas de Voronoi multiplicativos de
primeira e segunda ordem, as quais foram adicionadas ao ambiente SIG.
Quanto à escolha de valores para os parâmetros de escala α e β da equação (2)
mais uma vez recorreu-se ao conhecimento dos especialistas e à sua sensibilidade
75
relativamente à dimensão aceitável das áreas de influência. Depois de se tentarem vários
valores, optou-se por α = ½ e β = 1. Na Figura 13 comparam-se diagramas de Voronoi
de primeira ordem com os multiplicativos, observando-se alguma coincidência nas áreas
dos polígonos em zonas em que as lojas têm dimensões comparáveis, mas grandes
diferenças quando lojas pequenas se situam próximo de hipermercados ou lojas de
grande dimensão.
FIGURA 13 DIAGRAMA DE VORONOI SIMPLES (a) E DIAGRAMA DE VORONOI MULTIPLICATIVO (b).
(Para o MWVD usou-se α = ½ e β = 1 e dimensão do ponto proporcional à atractividade)
#
S
#
#
S
#
S
#
#
#
#
S
#
S
#
#
#
#
S
S
#
#
#
S
S
#
#
#
S
#
#
#
#
#
#
S
#
#
#
#
S
#
S
#
#
#
#
#
S
#
#
S
#
S
S
#
S
#
S
#
#
S
#
#
S
#
S
#
#
S
#
S
#
S
#
#
S
#
#
#
S
#
##
#
(a) simples
S
#
#
S
# #
S
#
S
#
S
#
S
#
(b) multiplicativo
Na Figura 14 é possível observar a grande sensibilidade do diagrama ao valor do
parâmetro α. Quanto maior for o valor do parâmetro α., maior a importância da
atractividade relativamente à distância à loja, o que justifica as enormes áreas
observadas para as maiores lojas do diagrama (a). A reduzida dimensão da maioria das
lojas da cadeia em estudo constituiu um problema uma vez que por vezes os diagramas
resultavam em áreas de influência demasiado pequenas. A calibração dos diagramas de
segunda ordem seguiu um procedimento idêntico, tendo-se utilizado os mesmos valores
para os parâmetros.
76
FIGURA 14 DIAGRAMAS DE VORONOI MULTIPLICATIVOS COM α = 2 E β = 1 (a) E COM α = 1/10 E β = 1 (b).
(Dimensão do ponto proporcional à atractividade do ponto de venda)
#
S
#
S
#
S
S
#
#
S
S
#
#
S
S
#
#
S
S
#
S
#
#
S
S
#
#
S
S
#
S
#
#
S
#
S
S
#
S
#
#
S
#
S
#
S
#
S
#
S
S
#
#
S
S
#
#
S
#
S
S
#
S
#
#
S
S
#
#
S
#
S
#
S
#
S
S
#
S
#
#
S
S
#
#
S
#
S
S
#
#
S
#
S
S
#
#
S
#
S
#
S
S
#
#
S
#
S
S
#
S
#
S
#
#
S
#
S
( a)
S
#
S
#
#
S
S
#
#
S
#
S
#
S
(b)
III.D.4. Cálculo de Variáveis e Comparação de Modelos de Delimitação
O cálculo das variáveis demográficas afectas a cada loja envolveu, além da
delimitação de áreas de influência correspondentes a três modelos distintos, a
intersecção dessas áreas de influência com os limites administrativos das secções
estatísticas a que a informação demográfica se encontra georreferenciada. O processo
de intersecção espacial e de cálculo das variáveis foi efectuado com ferramentas padrão
disponibilizadas pelo software SIG.
Para a agregação dos valores dos vários polígonos resultantes podem utilizar-se
dois métodos distintos. Autores como Cowen et al. (2000) e McMullin (2000) utilizam a
fracção da área da secção estatística coberta pela área de influência como peso numa
média ponderada, como indicado na equação (10). Este procedimento corresponde ao
pressuposto de distribuição uniforme das variáveis na secção estatística.
m
∑
i =1
área da secção i coberta pela área de influência
× variável na secção estatística i
área total da secção estatística
(10)
Outra alternativa disponível consiste em utilizar o mesmo peso numa regra de
decisão de inclusão ou não da secção estatística. Neste trabalho utiliza-se o parâmetro
50% para incluir secções estatísticas com fracção da área coberta superiores a este valor
e excluir secções com fracções inferiores. Este método tem a vantagem de ajustar as
fronteiras da área de influência às fronteiras das secções estatísticas, o que pode ser
77
mais adequado tendo em conta que as secções estatísticas delimitadas pelo INE têm em
consideração barreiras geográficas (ver áreas preenchidas na Figura 11, pág. 67).
Este procedimento tem a desvantagem de, se não se efectuar o ajustamento do
parâmetro, poder originar áreas nulas. A partir desta agregação de variáveis na área de
influência foram ainda calculadas variáveis relativas como percentagens de totais e
densidades por hectare para os totais. Deste processo, e apesar de se ter feito uma
selecção das variáveis disponibilizadas pelo INE, resultou um número incomportável de
variáveis próximo do meio milhar. Para reduzir este número determinou-se a matriz de
coeficientes de correlação de Pearson e foram retiradas todas as variáveis com
correlações significativas muito elevadas (acima de 0,95), iniciando-se a eliminação pelas
variáveis que apresentavam maior número de correlações nessas condições.
Note-se que foram ainda efectuados testes de qualidade e consistência às
variáveis demográficas originais disponibilizadas pelo INE e às variáveis construídas por
análise espacial, não tendo sido detectado qualquer falta de qualidade assinalável. Os
metadados, correspondentes às variáveis resultantes do tratamento descrito e de todos
os métodos de recolha consideradas nos estudos dos capítulos seguintes, podem ser
consultados no Anexo E (pág. 203).
Com o objectivo de aconselhar o utilizador quanto à conjugação mais adequada
da técnica para delimitar áreas de influência e para agregar valores das variáveis
efectuaram-se regressões lineares com os dados existentes para a cadeia em estudo. Na
Tabela 3 apresentam-se os melhores resultados de todas as regressões efectuadas,
usando como variáveis explicativas todas as variáveis demográficas calculadas para cada
combinação de método de delimitação e método de agregação e como dependente as
vendas anuais por unidade de área comercial.
2
Da mesma tabela verifica-se que os valores dos coeficientes de determinação (R )
obtidos são relativamente baixos, o que confirma a necessidade de introdução de
variáveis explicativas além das demográficas. Este facto era já conhecido da literatura e
justificou os vários métodos utilizados na recolha de dados descritos nesta secção. Ainda
assim, e tendo em atenção que se utilizam coeficientes ajustados para se poderem
comparar regressões com um número de variáveis explicativas variável, apenas as
variáveis demográficas explicam entre 50 e perto de 67% da variabilidade do rácio
utilizado, o que revela bem a importância destas variáveis.
A sensibilidade das variáveis calculadas ao modelo de delimitação da área de
influência pode ser confirmada pelo facto de nas diferentes regressões terem sido
78
seleccionadas variáveis distintas como variáveis explicativas. Este facto indica
claramente que os valores das variáveis são dependentes do método de delimitação da
área de influência.
TABELA 3 R2 CORRIGIDO PARA REGRESSÕES EXPLICATIVAS DAS VENDAS POR UNIDADE DE ÁREA COMERCIAL a.
(O sinal dos coeficientes estimado é negativo para as variáveis sublinhadas)
MODELO DE
VIZINHANÇA
Caminhos mais Curtos
Voronoi de 1ª ordem
Voronoi de 2ª ordem
MÉTODO DE AGREGAÇÃO
MÉDIA PONDERADA
REGRA DE DECISÃO
2
R ajustado = 65 %
R2 ajustado = 52 %
(4 variáveis: “Número de
(3 variáveis explicativas:
famílias clássicas com crianças
“Número de alojamentos não
menores de 5 anos”,
clássicos”, “Número de residentes
“Percentagem de alojamentos
menores de 5 anos”,
não clássicos”, “Percentagem de
“Percentagem de núcleos
mulheres residentes com mais
familiares com até dois filhos ou
de 65 anos”, “Densidade de
netos não casados”)
edifícios construídos de 96-01”)
2
R ajustado = 59 %
R2 ajustado = 66%
(4 variáveis: “Percentagem de
alojamentos não clássicos”,
(3 variáveis explicativas:
“Percentagem de indivíduos
”Densidade de residentes com
residentes empregados no sector
idade superior a 65 anos”,
primário ou secundário”,
”Percentagem de indivíduos sem
“Número de edifícios com 1 ou 2
actividade económica”,
pavimentos”, “Densidade de
”Número de edifícios
alojamentos clássicos com
clássicos”)
proprietário ocupante”)
R2 ajustado = 53%
R2 ajustado = 67%
(5 variáveis: “Percentagem de
alojamentos não clássicos”,
(3 variáveis explicativas:
“Percentagem de mulheres
“Percentagem de alojamentos
residentes entre 10 e 24 anos”,
não clássicos”,
“Percentagem de núcleos
”Densidade de edifícios
familiares com até dois filhos ou
construídos entre 1996 e 2001”,
netos não casados”, “Percentagens
”Percentagens de indivíduos a
de indivíduos a trabalhar no
trabalhar no concelho de
concelho de residência”, “Número
residência”)
de edifícios com 5+ pavimentos”)
a
Regressões lineares pelo método stepwise com parâmetros 5% e 10% pelo teste F. Todos os modelos são significativos a 1%
pelo teste F e todos os coeficientes são significativos pelo teste t a 5%.
Ainda que os resultados apresentados na Tabela 3 se refiram a um pequeno
número de lojas e não possam ser generalizados, indicam uma clara preferência do
método de agregação pela regra de decisão sobre a média ponderada, com valores de
coeficiente de determinação sempre superiores e em dois dos três casos com menos
variáveis explicativas. Pelo contrário, quanto ao modelo de vizinhança a preferência não é
clara, pelo que qualquer método pode ser utilizado sendo relevante fazer um
79
levantamento de vantagens e desvantagens de cada um. As áreas delimitadas por
algoritmos de caminhos mais curtos têm a vantagem de considerar as acessibilidades por
eixos de via. No entanto, neste caso particular estão em consideração supermercados de
pequena a média dimensão para onde cerca de 60% dos clientes se deslocam a pé.
O principal reparo que pode ser feito aos modelos de Voronoi é o facto de não
terem em consideração obstáculos à deslocação nem a rede viária. Neste caso, ao se
considerar a regra de decisão como método de agregação está-se a ajustar as fronteiras
da área de influência às secções estatísticas, permitindo por este meio a introdução de
alguma sensibilidade aos obstáculos e à rede viária. Por outro lado, consideram-se
apenas áreas densamente povoadas onde as acessibilidades a pé são fáceis e sem
grandes obstáculos.
Apesar destas diferenças, nenhum dos modelos anteriores é teoricamente
preferível a priori. Os buffers e os caminhos mais curtos são simples de calcular mas não
têm em consideração a concorrência de outras lojas. Os modelos de Voronoi têm em
consideração a concorrência mas são um pouco mais complexos de determinar
obrigando à definição de uma função de atractividade. No entanto, se se utilizar um
método aproximado em raster, como se procedeu neste estudo, os problemas de
complexidade de cálculo podem ser minimizados e os resultados são suficientes para os
objectivos pretendidos.
Assim, optou-se por acrescentar algoritmos para delimitação de áreas de
influência por diagramas de Voronoi multiplicativos ponderados ao pacote SIG, permitindo
o cálculo de variáveis demográficas por qualquer um dos três métodos distintos. Teve-se
ainda o cuidado de fornecer ao utilizador informação sobre as vantagens e desvantagens
relativas de cada um dos modelos.
80
81
Capítulo IV ⎯⎯⎯⎯⎯⎯⎯
IV. DEFINIÇÃO DE UMA TIPOLOGIA E
CARACTERIZAÇÃO
Dada a grande variabilidade de lojas e clientes frequentes observada, tornou-se clara a
necessidade de segmentar o conjunto das lojas em subgrupos mais homogéneos de lojas
consideradas análogas. Na definição da tipologia de lojas utilizam-se vários métodos
distintos sempre com integração do conhecimento de especialistas. A tipologia é
posteriormente actualizada com novos dados de vendas e com os resultados do segundo
inquérito. Por fim, os grupos de lojas são caracterizados usando todos os dados
disponíveis e descritos no capítulo anterior. Dois artigos, referidos a duas etapas
sucessivas do processo de segmentação de lojas encontram-se aprovados para
publicação na “Revista Portuguesa de Marketing” (Mendes e Cardoso, 2005a) e no
“Journal of Retailing and Consumer Services” (Mendes e Cardoso, 2005b).
IV.A. Porquê segmentar?
As lojas alimentares de pequena dimensão, como a cadeia em consideração, são
conhecidas na literatura por Supermercados de Proximidade já que privilegiam a
localização próxima do cliente e a rapidez de atendimento. Estas lojas tendem a atrair um
conjunto de franjas de mercado como pessoas idosas, estudantes, donas de casa e
profissionais jovens (Birkin et al., 2002). Estes resultados teóricos são confirmados pelos
gráficos do Anexo F (pág. 210) a partir dos quais é possível concluir que os clientes da
cadeia em consideração são clientes jovens em algumas lojas e mais frequentemente
idosos de classes média ou alta que valorizam acima de tudo a proximidade à loja.
No entanto, na cadeia em estudo existem lojas muito distintas, uma vez que
apresentam dimensões e localizações diversificadas e as análises aos inquéritos
apresentadas no Anexo F e G (pág. 210 e 215 respectivamente) mostram que existe
grande diversidade no tipo de cliente assim como na localização das lojas. Variáveis
coomportamentais como “frequência declarada à loja” ou o “meio de transporte” são bons
82
exemplos da grande variabilidade observada entre lojas. Assim, e ainda que o número de
lojas pareça não o justificar à partida, torna-se importante realizar uma tipificação das
lojas criando uma tipologia útil, o que é efectuado na secção seguinte.
Apesar de na generalidade das observações efectuadas para a totalidade do
universo de clientes da cadeia (se considerarmos cada loja com uma contribuição
semelhante) se verificar uma manutenção de resultados entre os dois inquéritos, as
variações observadas entre lojas são consideráveis, implicando uma grande variedade de
clientes e localizações o que justifica uma vez mais a necessidade de definir uma
tipologia.
A definição da tipologia cumpre dois objectivos profundamente interligados: a
necessidade de definir grupos de lojas análogas para previsão de vendas em novas
localizações e a possibilidade de comparar o desempenho de lojas dentro do grupo de
lojas análogas, nomeadamente utilizando estatísticas descritivas e os dados recolhidos.
Note-se ainda que a necessidade de definir uma tipologia de lojas foi sugerida pelos
especialistas na localização de novas lojas, uma vez que “sentiam” existir diferenças
importantes entre lojas, as quais são confirmadas neste ponto com dados quantitativos.
Neste ponto apresentam-se resultados comparativos entre os dois inquéritos, com
especial incidência para aquelas questões onde maiores diferenças foram detectadas e
que podem influenciar as previsões de vendas para as lojas. Neste caso, e tendo em
conta que foram realizados cerca de 200 inquéritos por loja, para uma diferença de
proporções ser significativa a 5 % é necessário uma variação entre inquéritos de cerca de
5 (para proporções próximas das caudas) e 10% (para proporções próximas dos 50%)
considerando que a diferença segue uma distribuição normal (Harries, 2002).
Nos gráficos da Figura 15 apresentam-se lojas inquiridas simultaneamente em
ambos os inquéritos e algumas lojas novas apenas inquiridas no segundo inquérito. As
lojas foram escolhidas tendo em conta que se quer ilustrar a variabilidade de resultados,
pelo que se utilizam lojas de diferentes grupos definidos na secção seguinte. Em
simultâneo pretende-se igualmente ilustrar a variação dos resultados entre os dois
inquéritos para as lojas onde ambos foram efectuados.
Nota-se dos gráficos da Figura 15 reduzidas variações dos resultados entre os
dois inquéritos por loja, como já se tinha observado para o universo de clientes da cadeia.
83
FIGURA 15 COMPARAÇÃO ENTRE LOJAS E INQUÉRITOS PARA ALGUMAS VARIÁVEIS.
(Lojas classificadas segundo a tipologia definida na Figura 22, pág. 100)
frequência de visita à loja
100%
80%
todos os dias
40%
20%
todos os dias
todos os dias
2-3x semana
60%
2-3x semana
2-3x semana
2-3x semana
ocasionalmente
ocasionalmente
0%
1x semana
2-3x semana
ocasionalmente
1x semana
1x semana
1x semana
1x semana
ocasionalmente
1ª vez\1-2xmês
1ª vez\1-2xmês
1ª vez\1-2xmês
1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq.
Loja PK
( a)
KO
Loja UE
Ljs Grandes
100%
meio de transporte à loja
todos os dias
todos os dias
OA
Intermédias
Loja RL
LM
Loja LA
Loja BF
Bairro <'s
B. >'s
Passagem
Grandes de Passagem
transportes públicos
transportes públicos
transportes públicos
80%
60%
Loja MR
a pé
a pé
a pé
a pé
a pé
40%
20%
automóvel
0%
automóvel
automóvel
automóvel
automóvel
1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq.
Loja PK
Ljs Grandes
(b)
100%
segmento de cliente
KO
Loja UE
OA
Intermédias
clientes eventuais
clientes eventuais
80%
Loja RL
LM
Loja LA
Bairro <'s
B. >'s
Passagem
Loja BF
Loja M R
Grandes de Passagem
clientes eventuais
clientes eventuais
clientes eventuais
60%
40%
clientes
preferenciais
clientes
preferenciais
clientes
preferenciais
clientes
preferenciais
20%
clientes
preferenciais
0%
1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq.
Loja PK
( c)
Ljs Grandes
KO
Loja UE
Intermédias
OA
Loja RL
LM
Loja LA
Bairro <'s
B. >'s
Passagem
Loja BF
Loja MR
Grandes de Passagem
84
Ainda que existam excepções importantes, nomeadamente relacionadas com
valores monetários como os “gastos mensais em compras para o lar” e a “percentagem
de gastos na cadeia” ou por formato, muito poucas das médias calculadas revelam
alterações significativas a 5% entre os dois inquéritos22. Deste modo, nas variáveis
utilizadas nesta dissertação efectua-se uma agregação dos valores dos dois inquéritos.
Nos casos raros onde as variações são significativas, como as excepções mencionadas,
utilizam-se os valores mais recentes do segundo inquérito.
As maiores variações entre lojas notam-se em variáveis como a “frequência
declarada à loja” uma vez que a classe “ocasionalmente” apresenta maiores valores em
lojas classificadas como Lojas de Passagem ou Grandes de Passagem. Outras
diferenças importantes observadas na Figura 15 e no Anexo G (pág. 215) notam-se nas
seguintes variáveis:
•
“meio de transporte à loja”, “segmento de cliente”, “frequência à
loja durante a semana” com diferenças entre as lojas de rua e as
lojas situadas em centros comerciais;
•
“disponibilização de lugares de estacionamento” e “facilidade de
estacionamento” percebida pelo cliente;
•
importância dada à proximidade da loja segundo a variável
“tempo estimado na deslocação à loja”;
•
“percentagem de clientes que faz compras em hipermercados”;
•
variáveis socioeconómicas dos inquiridos como a “idade”,
“classes de rendimento”, a “dimensão do agregado familiar” ou
as “habilitações académicas”.
Quanto às variáveis não recolhidos por inquérito, a variabilidade entre as lojas é
igualmente evidente, como se pode verificar no Anexo I (pág. 222). Existem lojas situadas
no centro das grandes cidades: Lisboa ou Porto, em bairros das mesmas ou no centro de
cidades suburbanas pertencentes às zonas metropolitanas. Por fim, também as
dimensões variando entre aproximadamente 450 m2 e 1.400 m2 e os valores de vendas
anuais com diferenças que podem chegar aos 4 milhões de euros, justificam a
necessidade de definir tipologias para efectuar comparações de desempenho. Por fim, o
último argumento prende-se com a caracterização efectuada para os grupos definidos
que se revelou significativa e coerente com o conhecimento dos especialistas.
Os testes efectuados foram teste t de comparação de médias com amostras emparelhadas por loja,
utilizando um nível de significância de 5%.
22
85
IV.B. Tipologias de Lojas: Integração do conhecimento de especialistas
Das análises descritivas aos dados recolhidos e da experiência dos especialistas
revelou-se a necessidade de definir uma tipologia para as lojas da cadeia existente. A
definição de tipologias de lojas é essencial, não apenas para se efectuar a avaliação
relativa das lojas e localizações, mas também para utilização em modelos de previsão de
vendas para novas localizações. Apesar da abundância de dados recolhidos, o número
de lojas com informação disponível é muito reduzido, o que dificulta o processo de
selecção de variáveis adequadas ao agrupamento ou tipificação das lojas e respectiva
caracterização.
Vários autores (ver por exemplo Wedel e Kamakura, 2000, Milligan, 1996, Jain e
Dubes, 1988) distinguem validação externa, por utilização de conhecimento qualitativo
ou quantitativo não decorrente dos dados usados na tipificação e validação interna
efectuada por reutilização dos dados usados como variáveis base de agrupamento. No
actual contexto, a utilização de validação externa não quantitativa revelou-se essencial já
que a validação interna ou externa com dados quantitativos não é possível com rigor,
dada a escassez de lojas existentes. Note-se que as questões e validação são
especialmente relevantes, já que os métodos utilizados permitem sempre obter uma
partição dos dados, a qual tem sempre de ser avaliada e comparada com outras tendo
em conta os objectivos do estudo (Cardoso, 2000 e Gordon, 1999).
Assim, utilizaram-se e compararam-se três metodologias muito distintas para
integração do conhecimento de especialistas na segmentação de lojas de retalho de
pequena dimensão.
•
Numa integração a priori, foi solicitado aos especialistas que comparassem pares
de lojas usando uma escala ordinal de dissemelhanças percebidas. Obteve-se assim
uma matriz de dissemelhanças que foi utilizada directamente pelo método
hierárquico de análise de agrupamentos para obter uma tipificação das lojas. Cada
um dos tipos de lojas foi, depois, caracterizado utilizando variáveis seleccionadas por
meio de regressão linear sobre as dimensões perceptuais associadas à análise MDS
sobre a matriz de dissemelhanças.
•
Numa validação a posteriori, foi pedida a colaboração dos especialistas na
interpretação e escolha da melhor tipologia obtida utilizando aprendizagem
supervisionada. Nomeadamente, utilizaram-se árvores de regressão com vendas
anuais como variável dependente e foram consideradas diferentes parametrizações
para obter uma grande variedade de tipologias.
•
Numa metodologia interactiva, próxima dos métodos de validação visual, solicitouse aos especialistas que seleccionassem conjuntos de variáveis base de
agrupamento. Utilizando vários métodos de análise de agrupamentos obteve-se, com
essas variáveis, tipologias que foram posteriormente apresentadas aos especialistas,
reiniciando-se o processo no caso de estes não as considerarem satisfatórias.
86
Por fim, os resultados obtidos pelas anteriores metodologias foram comparados e
avaliados segundo vários aspectos, tendo-se seleccionado a tipologia do método
interactivo como preferível. Na secção seguinte, a referida tipologia é caracterizada com
toda a informação sobre lojas existentes disponível.
IV.B.1. Utilização de Conhecimento de Especialistas
Nesta dissertação utiliza-se conhecimento de especialistas na validação externa
não quantitativa da segmentação de lojas de retalho alimentar pertencentes a uma cadeia
de distribuição, dada a reconhecida dificuldade em validar modelos com muito poucas
observações (Wedel e Kamakura, 2000; Moutinho et al., 1998; Naert e Leeflang, 1978).
O conhecimento de especialistas ou da área em estudo (domain knowledge) tem
vindo a ser utilizado na avaliação de resultados ou integrado na própria metodologia em
diversas áreas: como aplicações de marketing (Cardoso, 2000, Owrang, 2000, Pasa,
1996, Moutinho e Brownlie, 1994) e na validação de sistemas periciais e de métodos
automáticos (e.g. Turban et al., 2005, Guijarro-Berdiñas e Alonso-Betanzos, 2002,
Adelman e Riedel, 1997). Também os métodos de validação visual implicam a utilização
do conhecimento e a interpretação de resultados por parte do utilizador (Hathaway e
Bezdek, 2003, Hennig e Christlieb, 2002, Jones, 1996).
No que respeita às aplicações de marketing, a integração de conhecimento de
especialistas e a fusão de dados de várias proveniências vem desde há muito. Hanssens
et al. (2001) apresentam várias razões para a necessidade dessa integração, como a
validação e confirmação dos dados, a procura de dados mais precisos e completos ou a
necessidade de observar a realidade por diferentes perspectivas. No entanto, essa
integração é raramente formalizada, sendo as opiniões e intuições integradas nos
resultados de forma não explícita e frequentemente não citada. No entanto, observam-se
excepções em algumas áreas de aplicação como no desenvolvimento de escalas
relacionadas com o consumo (Hardestya e Bearden, 2004), na previsão com integração
de conhecimento não quantitativo (Sanders e Ritzman, 2004 e Moutinho et al., 1998), na
pesquisa de conhecimento em grandes volumes de dados (Owrang, 2000), no processo
de tomada de decisões de marketing (Pasa, 1996), na definição de segmentos de clientes
de unidades hoteleiras (Cardoso, 2000) e na identificação de lojas análogas em estudos
de avaliação e previsão de vendas de novas lojas (Clarke et al., 2003b). Como observa
Cardoso (2000) o especialista concentra-se na avaliação de cada segmento e da sua
utilidade para suporte de decisões e futuras acções de marketing.
87
Owrang (2000), por exemplo, utiliza conhecimento do domínio para conduzir e
restringir a pesquisa de conhecimento relevante em grandes bases de dados. Vários
mecanismos são sugeridos para este fim. Pasa (1996) constrói um modelo teórico que
auxilia na avaliação do conhecimento de especialistas em marketing. Observa ainda
como o meio e as condições específicas influenciam a utilização deste tipo de
conhecimento na tomada de decisões. Este autor conclui que meios mais instáveis e
competitivos e companhias de maiores dimensões aumentam o uso deste tipo de
conhecimento em decisões de marketing.
A metodologia de sistemas soft (soft systems methodologies)23, que integra
informação qualitativa e intuições de especialistas com metodologias de estruturação
para definir problemas e construir modelos, é igualmente um exemplo da utilização de
conhecimento de especialistas (Pidd, 2003). Este tipo de metodologias é adoptado por
Clarke et al. (2003b) para a integração de intuições qualitativas de especialistas com uso
de mecanismos de estruturação para identificação de lojas análogas. Neste artigo, os
autores recomendam o uso deste tipo de metodologias como complemento para as
metodologias quantitativas, chegando mesmo a sugerir que determinados aspectos da
avaliação de localizações não devem ser quantificados. Em trabalhos anteriores, os
mesmos autores definem uma base teórica para a integração de conhecimento e intuição
de especialistas em processos de decisão (Clarke e Mackaness, 2001) e descrevem um
sistema informático que permite apoiar a argumentação dum grupo de discussão, em
tempo real, para apoio a decisões complexas (Clarke et al., 2003a).
Na literatura de reconhecimento de padrões (pattern recognition), autores como
Pedrycz (2004) reconhecem a importância de incorporar conhecimento de especialistas
em métodos de análise de agrupamentos, em especial nos difusos (fuzzy clustering
analysis). Para justificar a utilização deste tipo de conhecimento, é sugerido que
determinados aspectos fundamentais podem não estar disponíveis ou podem não ser
facilmente quantificáveis. Vários autores reconhecem ainda que a análise de
agrupamentos é, por definição, uma actividade abstracta claramente dependente da área
de conhecimento onde é aplicada (Liu e Samal, 2002 e Gordon, 1999).
Ainda na literatura de reconhecimento de padrões, Bay e Pazzani (2000) utilizam
um painel de especialistas para avaliar e interpretar regras de classificação. Neste
trabalho, os autores concluem que muitas das regras de classificação geradas são
redundantes ou inúteis e, ainda que reconheçam a subjectividade das interpretações,
23
Tradução retirada de DicIO, www.apdio.pt/DicIO/, em 8/9/2004.
88
confirma a necessidade deste tipo de conhecimento. Outros trabalhos consideram
igualmente a dificuldade dos métodos automáticos quantitativos em obter regras de
classificação interpretáveis e inovadoras, sugerindo a utilização de conhecimento de
especialistas e técnicas da psicologia cognitiva (Pazzani, 2000). Ainda assim, poucos
trabalhos de análise de agrupamentos têm vindo a ser apresentados com a explícita
integração de conhecimento de especialistas (ver Jain et al. 1999 para uma revisão da
literatura).
A maioria dos autores integra o conhecimento de especialistas na análise de
agrupamentos pedindo-lhes que façam o seu próprio agrupamento das entidades e
utilizando índices de semelhança para comparar com resultados de vários métodos
quantitativos e de reconhecimento de padrões (ver por exemplo: Liu e Samal, 2002,
Halkidi et al., 2001 e Jain e Dubes, 1988). No caso presente, não foi possível chegar a
acordo sobre uma tipologia definida pelos utilizadores, já que os especialistas
consideraram esta tarefa complexa e excessivamente subjectiva. Assim, outros métodos
são analisados e comparados, sem ser necessário solicitar aos especialistas a
construção de agrupamentos.
IV.B.2. Integração do Conhecimento de Especialistas a Priori
Nesta aproximação ao problema de integração do conhecimento de especialistas,
utiliza-se uma matriz de dissemelhanças percebidas entre as lojas. A esta abordagem
denomina-se integração a priori, uma vez que a intervenção dos especialistas realiza-se
apenas na fase inicial.
Para tal, solicitou-se a alguns especialistas, profundamente conhecedores das
lojas, o preenchimento de um questionário onde se comparam pares de lojas segundo
uma escala de dissemelhanças ordinal, com nove pontos (desde 1 – “Lojas muito
semelhantes” a 9 – “lojas distintas”, ver Anexo C, pág. 200). A comparação é genérica
tendo, no entanto, sido realçado que tomassem em especial consideração os aspectos da
localização, caracterização da loja e do desempenho da mesma. A matriz simétrica de
dissemelhanças utilizada nesta dissertação foi obtida por consenso entre os vários
especialistas.
Várias
metodologias
podem
ser
adoptadas
para
utilizar
a
matriz
de
dissemelhanças percebidas anterior. Os dois métodos a seguir descritos correspondem a
duas abordagens iniciais exploradas no artigo Mendes e Cardoso (2005a):
89
•
No método CLUST>MDL utiliza-se a matriz de dissemelhanças directamente, como
base para obtenção de uma tipologia de lojas por métodos hierárquicos de análise
de agrupamentos (CLUST), seguindo-se um Modelo Discriminante Lógico (MDL)
para selecção de variáveis utilizadas na caracterização e interpretação dos grupos.
•
No método MDS>CLUST começa-se por realizar uma análise MDS –
Multidimensional Scaling não métrica, com posterior extracção de variáveis
relevantes para a quantificação das dissemelhanças (usando regressão) e por fim
aplica-se uma análise de agrupamentos (CLUST) sobre essas variáveis.
Ambas as vias são possíveis e teoricamente aceitáveis, tendo-se verificado que os
resultados obtidos são muito semelhantes. Na verdade, a metodologia MDS>CLUST
identificou um elevado número de variáveis muito bem explicadas pelas quatro
dimensões, mas que se verificou estarem altamente correlacionadas. Assim, foi
necessário recorrer a análises factoriais usando componentes principais como método de
extracção. Dessa análise extraíram-se duas componentes principais que poderiam ser
utilizadas
como
variáveis
base
de
agrupamento.
No
entanto,
vários
autores
desaconselham a utilização dos componentes principais directamente na análise de
agrupamentos uma vez que estes podem não conseguir reproduzir o espaço
multidimensional original e podem mascarar grupos existentes ou sugerir grupos
inexistentes nos dados originais (Milligan, 1996).
Ainda que tal conclusão não seja consensual, adoptou-se uma solução de
compromisso: um procedimento heurístico que consistiu em iniciar o agrupamento pelo
método hierárquico por um número mínimo de variáveis (as duas com maiores pesos nos
2 componentes principais extraídos) e ir adicionando novas variáveis usando o critério de
adicionar primeiro as variáveis menos correlacionadas com as já incluídas. Como critério
de paragem utilizaram-se técnicas de validação interna como a variância explicada pelos
agrupamentos e a avaliação dos dendrogramas formados. Deste procedimento resultou
uma segmentação das lojas em apenas 3 grupos que é caracterizada e avaliada em
Mendes e Cardoso (2005a). Esta metodologia corre o risco de se verificar uma
acumulação de erros na selecção de variáveis, que assim podem não traduzir
rigorosamente a matriz de dissemelhanças inicial.
Nesta dissertação segue-se uma metodologia semelhante à CLUST>MDL,
utilizando-se o método hierárquico de Ward (Ward, 1963) sobre a matriz de
dissemelhanças percebidas e obtendo-se seis grupos, segundo o dendrograma da Figura
16. Os resultados deste agrupamento revelaram-se consistentes com os obtidos por meio
de outros métodos hierárquicos de agrupamento, como o método do vizinho mais
afastado e o da mediana. Segundo o método das ligações médias e o método dos
90
centróides, algumas lojas isolam-se primeiro, mas o essencial dos agrupamentos
mantém-se.
FIGURA 16 DENDROGRAMA DA MATRIZ DE DISSEMELHANÇAS (a) GRÁFICO DE COEFICIENTES DE FUSÃO (b).
(Partição assinalada por uma linha vertical e rótulos resultantes da caracterização dos seis grupos de lojas)
IE òø
2A òôòø
Elevado Potencial
PY ò÷ ùòòòòòòòø
AN òòò÷
ùòòòòòòòòòø
RP òûòòòø
ó
ó
ùòòòòò÷
ó
KO ò÷
Pequenas de ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø
Elevado Potencial
ó
ó
AA òòòûò÷
2N òòò÷
UA òûòòòòòø
ó
ó
RA ò÷
ó
ó
ó
FA òø
ùòòòòòòòòòòòòò÷
ó
OA òú
ó
ó
Lojas Pequenas
FO òôòòòòò÷
ó
UE òú
ó
NR òú
Lojas de Bairro
ùòòòòòòòòòòòø
PK òòòø
ó
ó
LA òòòôòòò÷
ó
Baixo Potencial
ó
ùòòòòò÷
òòòòò÷
ó
20%
ó
ó
Lojas Grandes
0%
2
BR òòòòòûòòòòòòò÷
(a) MR
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
10%
LN òòòûòòòòòòòòòø
2R òòò÷
variações relativas do
coeficiente de fusão
UB òûòòòòòø
LM ò÷
RL òòò÷
ó
30%
BF ò÷
(b)
3
4
5
6 7 8 9 10 11 12 13 14
número de grupos
Para o gráfico de coeficientes de fusão24 opta-se por representar variações
relativas em função do número de grupos, já que permite encontrar um máximo com
facilidade, ainda que seja pouco comum na literatura. Neste caso verificam-se valores
máximos locais para 2, 4 e 6 grupos. Tendo em conta que dois e quatro grupos foram
considerados um reduzido número de grupos optou-se por 6, que apresenta uma
variação relativa do coeficiente de fusão apenas 1% inferior à solução com 4 grupos.
Sublinhe-se que foram experimentados outros métodos para determinação do número de
grupos (ver bons textos sobre este assunto em Everitt et al., 2001 e Gordon, 1999). No
entanto, os diferentes métodos conduziram a números de grupos contraditórios, e como
Utiliza-se a expressão “coeficientes de fusão” ou “de aglomeração” como tradução de distance cluster
combine ou fusion levels correspondendo ao valor de dissemelhança para o qual dois agrupamentos se
fundem (ou dividem). Esta tradução é utilizada por exemplo em Reis (2001).
24
91
não se verifica qualquer convergência dos vários autores quanto à metodologia mais
adequada, manteve-se o critério das variações relativas de coeficientes de fusão.
Para a caracterização dos agrupamentos, em Mendes e Cardoso (2005a)
recorreu-se a árvores discriminantes. Neste caso, recorreu-se a análise MDS –
Multidimensional Scaling, que tem a vantagem de basear a caracterização não nos
grupos formados mas nos dados originais da matriz de dissemelhanças. No entanto, os
resultados são semelhantes ainda que algumas das variáveis seleccionadas sejam
distintas e a metodologia adoptada neste estudo conduza a uma maior variedade de
variáveis de caracterização e logo a uma caracterização mais rica. Assim, utilizou-se
MDS não paramétrica, utilizando o algoritmo ALSCAL de Takane, Young e Leeuw
(referido em Cox e Cox, 2000). Adoptou-se uma solução com quatro dimensões que
corresponde a um valor de RSQ de 96% e um valor de stress de Kruscal de 7,8%25. Na
Figura 17 apresentam-se as lojas no espaço das dimensões MDS perceptuais extraídas e
ainda rótulos derivados da caracterização efectuada.
Para a selecção das variáveis que melhor são explicadas pelas quatro dimensões
MDS, foram executadas cerca de duas centenas de regressões, usando como
dependentes todas as variáveis em escalas quantitativas disponíveis. Os resultados
permitiram a identificação das variáveis apresentadas nos gráficos da Figura 18.
Sublinhe-se que apenas se incluem variáveis correspondentes a regressões com
probabilidades de significância (p value) inferior a 2% segundo a estatística F.
Da observação da Figura 18 é fácil concluir que a dimensão MDS 1 está
relacionada com a dimensão da loja, facilidades de estacionamento e inversamente
relacionada com a visibilidade da loja. A dimensão MDS 2 está relacionada com zonas
menos concorrenciais, com uma população de menores rendimentos e inversamente
relacionada com clientes de passagem. No caso das dimensões MDS 3 e 4, a primeira
está relacionada com o número de clientes preferenciais e as vendas por unidade de área
e a segunda com os clientes ocasionais e inversamente relacionada com a “percentagem
de clientes a menos de 5 minutos da loja” e com clientes de menos rendimentos.
Da descrição anterior e da observação das Figura 17 e Figura 18, podem
caracterizar-se os grupos formados e explicar os rótulos utilizados:
RSQ corresponde à proporção da variância nos dados originais explicada pelas dimensões extraídas e
pretende-se o maior possível. O índice de stress de Kruscal é usado como medida de erro de
ajustamento sendo tanto melhor quanto menor for (ver Everitt e Dunn, 2001).
25
92
FIGURA 17 LOJAS NO ESPAÇO DE QUATRO DIMENSÕES MDS EXTRAÍDAS.
(Rótulos correspondentes à caracterização dos grupos, linhas usadas para unir lojas do grupo)
Dimensão MDS 4
A
A
A
-1,41
0,16
1,72
A
Lojas Grandes
A
2,50
2,00
1,50
1,00
0,50
0,00
-0,50
-1,00
A
A
A
A
Baixo Potencial
A
A
Lojas de Bairro
A
A
A
Elevado Potencial
A
A
AA
Lojas Pequenas
A
A
AA
A
A
A
1,50
Pequenas de
1,00
Elevado Potencial0,50
-1,50
-1,50 -1,00 -0,50
0,00 0,50 1,00
1,50 2,00
0,00
-0,50
-1,00
-1,50
•
Lojas Pequenas: um grupo muito homogéneo caracterizado por valores muito
negativos nas dimensões MDS 1 e na 3. De acordo com a caracterização destas
dimensões, trata-se de lojas pequenas em zonas com poucos clientes idosos ou
preferenciais, mas com vendas por área da loja consideráveis.
•
Lojas de Bairro: este grupo é constituído por 5 lojas caracterizadas por baixos
valores na dimensão MDS 4 (relacionada com clientes ocasionais) e igualmente
baixos valores na dimensão 2 (relacionada com zonas menos concorrenciais e
populações de menores rendimentos). Assim, este grupo corresponde a lojas em
zonas com elevada concorrência, com poucos clientes de rendimentos baixos e,
igualmente, poucos clientes ocasionais.
•
Lojas de Elevado Potencial: quatro lojas com baixos a médios valores na dimensão
MDS 2 e valores elevados na 3. Na sequência da caracterização efectuada para
estas dimensões, tratam-se de lojas em zonas com média a baixa concorrência mas
elevadas percentagens de clientes preferenciais, justificando o rótulo de elevado
potencial.
•
Lojas Pequenas de Elevado Potencial: um grupo de apenas 3 lojas caracterizadas
por valores elevados na dimensão MDS 3 e muito baixos na dimensão 1. Assim,
trata-se de um grupo de muito elevado potencial, com valores elevados de clientes
preferenciais e com crianças, mas áreas de vendas muito reduzidas.
93
FIGURA 18 CARACTERIZAÇÃO DAS DIMENSÕES MDS COM BASE EM COEFICIENTES DE REGRESSÃO PADRÃO.
(Usam-se valores absolutos sendo os valores negativos assinalados por marcas pretas)
Dimensão MDS 1
DADOS DE MYSTERY SHOPPING
nº de caixas
de saída
0,6
0,4
nº de
lugares em
estacionamento
0,2
0
Dimensão MDS 4
Dimensão MDS 2
vendas
anuais por
unidade de
área
avaliação da
visibiliade a
pé
Dimensão MDS 3
( a)
DADOS DEMOGRÁFICOS E CONC.
avaliação
da facilidade de
estacionamento
Dimensão MDS 1
nº de
famílias com
1-2
elementos
Dimensão MDS 4
0,6
0,4
0,2
0
empregados no sectores
primário e secundário
Dimensão MDS 2
área de
influência por Voronois
nº de
residentes
femininos
com > 65
anos
Dimensão MDS 3
(b)
% de
famílias com
meninas até
4 anos
%
de resid.
% de resid.
com filhos ou netos
até 6 anos
Dimensão MDS 1
DADOS DE INQUÉRITOS
percentagem de
inquiridos a
menos de 5
min.
Dimensão MDS 4
0,6
0,4
0,2
0
percentagem de
inquiridos
ocasionais
( c)
Dimensão MDS 3
percentagem de
inquiridos
de
passagem
Dimensão MDS 2
percentagem de
clientes
preferenciais
94
•
Lojas de Baixo Potencial: duas lojas de dimensão média, com valores elevados na
dimensão MDS 2, mas valores baixos a médios na dimensão 4 e principalmente
muito baixos na dimensão 3. Logo, estas são lojas localizadas em zonas de reduzida
concorrência, mas com reduzidas percentagens de clientes preferenciais e
igualmente de clientes de passagem.
•
Lojas Grandes: duas lojas com dimensão muito acima da média como os valores
elevados na dimensão MDS 1 comprovam. Ambas as lojas têm valores negativos na
dimensão MDS 2, correspondendo a elevados níveis de concorrência e áreas de
influência reduzidas, e valores elevados na dimensão 4, correspondendo a elevadas
percentagens de clientes ocasionais e provenientes de localizações a mais de 5
minutos da loja.
IV.B.3. Integração de Conhecimento por Validação a Posteriori
Neste ponto descreve-se uma metodologia para integração de conhecimento de
especialistas por validação dos agrupamentos de lojas a posteriori. A metodologia
proposta utiliza um método de aprendizagem supervisionada (árvore de regressão),
usando como dependente uma variável métrica, traduzindo o desempenho das lojas, e
como explicativas, todas as variáveis recolhidas e associadas às lojas existentes da
cadeia. Deste modo, construiu-se grande número de árvores que foram avaliadas pelos
especialistas,
tendo-se
seleccionado
uma
com
resultados
mais
próximos
das
expectativas destes.
O método de aprendizagem supervisionada escolhido foi o das árvores de
regressão CART – Classification And Regression Trees (Breiman et al., 1984) capaz de
simultaneamente constituir grupos e prever vendas anuais baseadas no valor médio da
variável dependente no nó folha. Aplicações recentes de árvores de regressão e
classificação em segmentação e marketing encontram-se descritas nos trabalhos de
Cardoso e Moutinho (2003), Cooley (2002), Blamires (2002) e Micheaux e Gayet (2001).
Foram utilizadas várias variáveis dependentes, nomeadamente “vendas anuais”
para diversos anos e “vendas por unidade de área” já que este último rácio é muito
comum como medida de desempenho de lojas na literatura (ver por exemplo Birkin et al.,
2002). Todas as restantes variáveis foram utilizadas como explicativas na construção de
regras proposicionais que permitiram dividir as lojas da cadeia em grupos homogéneos
nos valores da variável dependente, correspondendo a valores mínimos de diversidade
(impurity measure). Várias árvores, obtidas com diferentes variáveis dependentes e
parametrizações, foram construídas.
95
Os procedimentos envolvendo aprendizagem supervisionada utilizados por
exemplo em data mining26 caracterizam-se por dispor de grandes quantidades de dados
para validação quantitativa interna e externa (Hand et al., 2001 e Berry e Linoff, 1997). Na
presente aplicação, o número reduzido de lojas impede a utilização de métodos de
validação como a divisão em amostra de treino e de teste exigindo uma especial atenção
à estabilidade dos resultados. Na verdade, várias variáveis conduzem a valores de
diversidade muito próximos, o que implica uma cuidadosa validação externa. Para
ultrapassar este tipo de limitações utilizam-se os seguintes procedimentos:
•
Várias árvores foram construídas com diferentes parametrizações e variáveis de
partição alternativas nas situações de quasi-empates.
•
Foram rejeitadas todas as árvores onde as variáveis não apresentavam o
comportamento esperado face à variável dependente, por exemplo: se num nó
folha uma variável que represente a dimensão da loja tiver valores superiores,
espera-se intuitivamente que o grupo de lojas que o constituem tenha um valor de
vendas médio igualmente superior.
•
Foram calculadas estimativas de erro pelo método leave-one-out e apresentados
aos especialistas para apoio ao processo de selecção da árvore a utilizar.
Note-se que o método leave-one-out, também conhecido por jackknife, consiste
em classificar cada uma das lojas segundo uma árvore construída com as restantes. A
estimativa de erro corresponde ao número de lojas mal classificadas sobre o total
(Cardoso, 2000). Na Figura 19 apresenta-se a árvore escolhida. As regras proposicionais
foram avaliadas pelos especialistas, tendo sido consideradas coerentes com as
expectativas e com o conhecimento da área em estudo. Os grupos de lojas observados
nos nós folha foram considerados mais adequados do que os das restantes árvores
analisadas. É importante notar que a árvore escolhida não corresponde ao melhor valor
estimado de erro pelo método leave-one-out no conjunto das árvores em comparação.
A partir dos histogramas apresentados na árvore da Figura 19 é possível
caracterizar directamente os grupos correspondentes aos nós folha. Esta característica
das árvores de classificação de definirem grupos e, em simultâneo, uma caracterização
com base nas regras proposicionais situadas no caminho entre o nó folha e a raiz da
árvore binária, foi um dos aspectos mais valorizados pelos especialistas durante a
validação a posteriori.
•
Lojas Grandes: trata-se de um grupo de 6 lojas com os valores mais elevados
de área comercial e igualmente de vendas anuais para o ano de 2002.
Note-se que a expressão data mining pode ser traduzida por “prospecção de dados”, como sugerido
pelo dicIO, www.apdio.pt/DicIO/, consultado em 12/10/2004. No entanto, esta última expressão ainda é
pouco usada na literatura em Português.
26
96
•
Lojas de Baixo Potencial: neste grupo de apenas três lojas encontram-se as
lojas com menores vendas no ano de 2002, com dimensões menores e valores
reduzidos de crianças na área de influência, correspondendo a zonas com
poucos residentes e \ ou envelhecidos.
•
Lojas de Elevado Potencial: pelo contrário, neste grupo situam-se as lojas
com maiores vendas anuais de entre aquelas que têm dimensão média a
baixa. Caracterizam-se ainda por se situarem em zonas com reduzida
concorrência e um número médio a elevado de residentes muito jovens.
FIGURA 19 ÁRVORE DE REGRESSÃO ESCOLHIDA PELOS ESPECIALISTAS.
(Os gráficos de barras representam os histogramas da variável dependente em cada nó)
vendas anuais para 2002
área de vendas
Improvement=17393,3137
<
>
nº de crianças até 4 anos
Improvement=14416,3908
Grandes Lojas
{BR, MR, KO, AN, IE, 2R}
<
>
Baixo Potencial
{FO, LN, UA}
área de influência por Voronois
Improvement=6202,8036
<
>
% de inquiridos fiéis à insígnia
Improvement=2634,0257
Elevado Potencial
{BF, 2A, 2N}
>
<
Lojas de Bairro
{PK, UE, PY, LM, OA}
Lojas de Passagem
{UB, RL, RP, NR, LA, FA, RA, AA}
97
•
Lojas de Bairro: são lojas com vendas intermédias, caracterizadas por áreas
de vendas reduzidas a médias, concorrência elevada a média, população
residente muito jovem igualmente elevada e elevadas “percentagem de
inquiridos fiéis à insígnia”. Note-se que o nome do grupo se deve ao facto de
se ter observado uma relação entre a última variável indicada, o meio de
transporte e a proximidade à loja (ver gráfico (n) do Anexo F, pág. 210).
•
Lojas de Passagem: são lojas em tudo semelhantes às anteriores Lojas de
Bairro mas com uma fidelidade muito inferior, a que correspondem igualmente
vendas inferiores. Sublinhe-se ainda que a árvore original incluía uma nova
regra proposicional que dividia este grupo em função da âncora próxima da
loja, correspondendo as maiores vendas a “escolas ou universidades”. No
entanto, esta partição foi considerada pouco relevante pelos especialistas e
podada da árvore apresentada.
IV.B.4. Método Interactivo de Integração de Conhecimento
Nesta aproximação à integração do conhecimento de especialistas, utiliza-se um
método de agrupamento baseado numa matriz de dissemelhanças calculada a partir de
um conjunto de variáveis seleccionadas pelos especialistas e cujo resultado é igualmente
validado pelos especialistas. O processo foi reinicializado várias vezes com novas
variáveis base de agrupamento, num procedimento que durou vários meses. Foi mantido
um diálogo constante com os especialistas e todas as análises foram previamente
acordadas.
A partir dos critérios de apreciação destes especialistas e dos muitos
agrupamentos que foram sendo construídos, concluiu-se pela maior relevância de dois
factores no agrupamento das lojas:
•
uma medida da dimensão da loja ou das vendas;
•
uma medida da proporção de clientes residenciais versus clientes de
passagem já que estes dois tipos de clientela eram, a priori, percebidos
como distintos em termos da sua contribuição para o desempenho.
O primeiro factor poderia ser traduzido pelas vendas realizadas ou pela área da
loja. Optou-se pela primeira variável tendo em conta a sua maior dispersão relativa. A
escolha da variável para traduzir o segundo factor atendeu, também, a critérios de
dispersão. Optou-se, neste caso, pelo cruzamento de duas perguntas efectuadas no
inquérito, definindo assim a percentagem de inquiridos que declararam provir de casa e
voltar para casa após as compras ou a “percentagem de viagens exclusivas à loja”.
Os resultados adoptados foram obtidos com a distância euclidiana quadrada,
variáveis padronizadas por subtracção da média e divisão pelo desvio padrão, e o
método de Ward. No entanto, foram efectuadas inúmeras combinações de medidas de
98
dissemelhança e métodos de agregação, obtendo-se apenas variações hierárquicas na
ordem de formação dos grupos, frequente separação das lojas consideradas atípicas e
pequenas alterações na classificação de duas lojas. Finalmente os grupos foram
validados pelos especialistas que os consideraram adequados.
Os primeiros resultados foram obtidos com vendas anuais para o ano 2000 e com
a “percentagem de viagens exclusivas” calculada a partir dos resultados do primeiro
inquérito (Cardoso e Mendes, 2002). Obtiveram-se assim quatro tipos de lojas e
identificaram-se ainda três lojas atípicas (outliers) que podem ser observadas na Figura
20, com os rótulos de caracterização. As duas lojas com maiores valores de vendas
foram posteriormente consideradas grupos singulares, i.e. sementes de novos grupos.
FIGURA 20 TIPOLOGIA PELO MÉTODO INTERACTIVO COM DADOS DE 2000.
(Ovais a tracejado claro para os grupos definidos pela tipologia)
Vendas Anuais para 2000 (variações)
2,0
Lojas Grandes
1,5
1,0
Lojas de
Bairro >'s
Grupos Singulares
0,5
0,0
-0,5
Lojas de
Passagem
Lojas de
Bairro <'s
-1,0
-1,5
Loja Atípica
-2,0
30 %
35 %
40 %
45 %
50 %
55 %
60 %
65 %
70 %
75 %
Percentagem de Inquiridos a Efectuar Viagens Exclusivas à Loja
•
As lojas de bairro caracterizam-se essencialmente por uma clientela
idosa, bastante fiel e com elevadas percentagens de visitas exclusivas
à loja. Este grupo encontra-se dividido em Lojas de Bairro Maiores e
Lojas de Bairro Menores que se distinguem essencialmente pelo
nível de vendas anuais e pela dimensão da área comercial.
•
As Lojas Grandes são dos grupos mais bem sucedidos em termos de
vendas absolutas, ainda que apresentem alguma heterogeneidade na
dimensão da área comercial.
80 %
99
•
As Lojas de Passagem caracterizam-se principalmente por
fortíssimos níveis de concorrência e elevadas percentagens de
“clientes de passagem”.
Tendo em conta a dinâmica do sistema, resultante da alteração do comportamento
dos clientes e da abertura de novas lojas, as tipologias foram revistas com vendas de
2002 e as respostas do segundo inquérito, os resultados apresentam-se na Figura 21.
Note-se que no gráfico (b) dos coeficientes de fusão relativos o máximo é conseguido
com 6 ou 7 grupos, se se considerar 3 grupos demasiado reduzido. Apesar do quase
empate verificado optou-se por 7 grupos, considerando a separação entre Lojas de Bairro
Menores e Lojas Intermédias relevante e útil para os objectivos pretendidos.
FIGURA 21 DENDROGRAMA DE WARD DO MÉTODO INTERACTIVO (a) GRÁFICO DE COEFICIENTES DE FUSÃO (b)
(Partição assinalada por uma linha vertical e rótulos resultantes da caracterização dos grupos de lojas)
RL ò ø
Lojas de Bairro <'s
RP ò ô ò ò ò ø
FO ò ÷
ùòòòø
UE ò ø
ó
ó
OA ò ô ò ò ò ÷
RA ò ú
ó
Intermédias
ùòòòòòòòø
AA ò ÷
ó
ó
LA ò û ò ø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
FA ò ÷ ù ò ò ò ò ò ÷
UB ò ò ò ÷
ó
ó
Lojas de Passagem
ó
ó
LN ò ò ò û ò ò ò ò ò ò ò ò ò ò ò ò ò ÷
ó
UA ò ò ò ÷
ó
Lojas Atípicas
BF ò û ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø
ó
MR ò ÷
ó
ó
ó
ó
Grandes de Passagem
PK ò ø
60%
Lojas Grandes
variações relativas do
coeficiente de fusão
2R ò ú
2A ò ô ò ò ò ò ò ò ò ò ò ò ò ø
KO ò ú
ó
IE ò ú
ó
ó
ó
40%
ó
BR ò ÷
ùòòòòòòòòòòòòòòòòòòòòòòòòò÷
AN ò ø
ó
LM ò ú
PY ò ô ò ø
ó
Lojas de
ó
Bairro >'s
NR ò ÷ ù ò ò ò ò ò ò ò ò ò ÷
( a)
ùòòòòòòòòò÷
2N ò ò ò ÷
(b)
20%
0%
2
3
4
5
6
7
8
9 10 11 12 13 14
número de grupos
Considerando 7 grupos observa-se uma considerável estabilidade na tipologia
obtida, mantendo-se os quatro grupos anteriores, com apenas variações na variabilidade
no interior dos grupos, como pode ser observado na diferença entre as ovais
apresentadas na Figura 22. Nomeadamente, o grupo das Lojas de Passagem e em
100
menor grau as Lojas de Bairro Menores são agora mais coesos com a saída de uma loja
em cada um deles. Pelo contrário as Lojas Grandes e as Lojas de Bairro Maiores
diminuíram a sua coesão por aumento do número de lojas e por divergência na evolução
do valor das variáveis para 2002.
FIGURA 22 TIPOLOGIA PELO MÉTODO INTERACTIVO PARA DOIS ANOS DISTINTOS.
(Ovais a tracejado claro para grupos em 2000 e escuro para 2002. Marcas claras para valores do ano de 2000 e
escuras para 2002. A forma das marcas corresponde ao grupo em que as lojas foram classificadas unindo a linha as
duas marcas para a mesma loja, excepto para as lojas novas em 2002 que surgem sem sombra a)
2,0
Lojas Grandes
Vendas Anuais para 2000 (claro)
e 2002 (escuro) (variações)
1,5
Lojas de
Bairro >'s
1,0
0,5
Grandes de
Passagem
0,0
Intermédias
-0,5
-1,0
Lojas de
Passagem
Lojas de
Bairro <'s
-1,5
-2,0
30 %
Lojas Atípicas
35 %
40 %
45 %
50 %
55 %
60 %
65 %
70 %
75 %
Percentagem de Inquiridos a Efectuar Viagens Exclusivas à Loja
80 %
a
Como o segundo inquérito não foi realizado para todas as lojas, alguns valores da variável “percentagem de inquiridos a
efectuar viagens exclusivas à loja” são considerados iguais aos obtidos pelo inquérito de 2000.
A principal diferença, que justifica a necessidade de rever a tipologia quando mais
dados são disponibilizados, é o aparecimento de dois novos grupos por alteração da
classificação de algumas lojas e por abertura de seis novas. As Lojas Intermédias
apresentam valores entre as Lojas Grandes e as de Bairro e as Lojas Grandes de
Passagem, caracterizadas por valores muito elevados de vendas e muito baixos de
viagens exclusivas. Este grupo é resultante da convergência de duas lojas anteriormente
consideradas atípicas ou grupos singulares.
Estes grupos encontram-se caracterizados na secção IV.C (pág. 107) com todos
os dados disponíveis e foram mais uma vez validados pelos especialistas. Neste caso,
estes profissionais concordaram com a tipologia e com as lojas atípicas identificadas, e
apenas levantaram algumas questões relativamente ao grupo das Lojas Intermédias que
101
consideraram pouco distinto das Lojas de Bairro Menores. Estas questões fazem todo o
sentido se se observar o gráfico (b) da Figura 21 de coeficientes de fusão relativos onde
não é clara a partição em 6 ou 7 grupos.
Para tentar esclarecer este ponto, realizaram-se diversas análises incluindo uma
análise de agrupamentos não hierárquica usando como sementes lojas próximas do
centróide dos grupos e excluindo o centróide das Lojas Intermédias. Os cinco grupos
formados deste modo com dados de 2002 foram considerados pouco coesos e não
satisfatórios pelos especialistas, apresentando nomeadamente demasiada variabilidade a
nível das vendas. Assim, optou-se pelos resultados iniciais apresentados na Figura 22.
IV.B.5. Análise de Resultados e Comparação das Tipificações Obtidas
Nesta secção fazem-se algumas análises e comparações de modo a revelar as
diferenças entre as três tipologias obtidas pelas diferentes metodologias. Assim, na
Tabela 4 resumem-se as principais características das diferentes metodologias utilizadas
para tipificar as lojas de retalho alimentar de pequena dimensão, mostrando claramente a
variedade de vias seguidas e de resultados obtidos.
Na Tabela 4 observa-se que as variáveis seleccionadas pelas diferentes
metodologias são diversas e bem distribuídas pelas classes sugeridas na Figura 7 (pág.
50). Assim, os aspectos escolhidos empiricamente como necessários para a avaliação de
lojas e localizações são apoiados por estes resultados.
Uma excepção é a metodologia interactiva onde a classe “características da área
de influência” não tem nenhuma variável. Esta é uma consequência directa da escolha,
por parte dos especialistas, de apenas duas variáveis base de agrupamento. Ainda
assim, as variáveis discriminantes não métricas seleccionados por testes de Quiquadrado e de Kruskal-Wallis, e as variáveis métricas seleccionadas por testes F de
análise de variância para caracterização dos grupos, são muitas e distribuídas por todas
as classes sugeridas como se discutirá adiante.
Para comparar as tipificações das lojas de retalho obtidas da utilização das
diferentes metodologias de integração do conhecimento de especialistas, construíram-se
os gráficos de extremos e quartis ou caixa de bigodes (box-plot ou box and whisker plot)
da Figura 23. Nestes gráficos pode avaliar-se o grau de coesão dos diferentes grupos
obtidos e identificar lojas atípicas, consideradas em função das várias variáveis de
vendas anuais disponíveis.
102
TABELA 4 SUMÁRIO DAS PRINCIPAIS CARACTERÍSTICAS DAS METODOLOGIAS E TIPOLOGIAS OBTIDAS.
(As variáveis indicadas são as usadas na caracterização da metodologia a priori, usadas nas partições e como
variável dependente na metodologia a posteriori e variáveis base de segmentação da metodologia interactiva)
METODOLOGIA
A PRIORI
A POSTERIORI
INTERACTIVA
Resumo do
Método
Agrupamentos
hierárquicos
directamente da matriz
de dissemelhanças
percebidas
Escolha da melhor
árvore de classificação
de entre um grupo
obtido com diferentes
parametrizações
Escolha interactiva de
um grupo de variáveis
para base de
agrupamento e
posterior avaliação
dos resultados
Variável
Dependente
Nenhuma
Vendas anuais para
2002
Nenhuma
Área de vendas
Vendas anuais para
2002
Área de influência por
diagramas de Voronoi;
Nº de crianças até 4
anos de idade;
Nenhuma
Percentagem de
inquiridos fiéis à
insígnia
Percentagem de
inquiridos em viagem
exclusiva à loja
Lojas Grandes
Baixo Potencial
Elevado Potencial
Lojas de Bairro
Lojas de Passagem
Lojas Grandes
Lojas Intermédias
Lojas de Bairro >’s
Lojas de Bairro <’s
Grandes de Passagem
Lojas de Passagem
Características da
Loja e Localização
Característica da
Área de Influência
Características dos
Clientes da Loja
Designação dos
Grupos
Nº de caixas de saída;
Avaliação da facilidade
de estacionamento;
Avaliação visibilidade
em deslocações a pé;
Área de influência por
diagramas de Voronoi;
Nº famílias residentes
com 1-2 elementos;
Percentagem famílias
com meninas < 4 anos;
Nº de residentes a
trabalhar no sector 1º-2º
Percentagem de
Clientes preferenciais;
Percentagem de
inquiridos ocasionais;
Percentagem de
inquiridos de passagem
Lojas Grandes
Lojas de Bairro
Baixo Potencial
Elevado Potencial
Elevado Potencial <’s
Lojas Pequenas
Duas metodologias não conseguiram identificar convenientemente as observações
atípicas presentes nos dados. É o caso da integração de conhecimento de especialistas a
priori e da metodologia a posteriori onde são identificadas algumas observações 1,5
vezes a amplitude interquartílica acima do terceiro quartil ou abaixo do primeiro e ainda
uma observação 3 vezes acima ou abaixo a mesma amplitude. No caso da metodologia
interactiva, as observações atípicas foram identificadas, nas primeiras fases do processo,
e classificadas num grupo em separado. A dificuldade das primeiras metodologias em
identificar observações atípicas, tão importantes na definição de tipologias, deve-se à
103
dificuldade em efectuar comparações padreadas atendendo ao grande número de
factores considerados no caso da metodologia a priori.
FIGURA 23 GRÁFICOS DE EXTREMOS E QUARTIS PARAALGUNS GRUPOS a DOS DIFERENTES MÉTODOS.
(Círculos e asteriscos correspondem a lojas atípicas com valores superiores a 1,5 e 3 x a amplitude interquartílica)
1,0
A
A
PK
MR
BF
BF
BR
A
A
LM
A
2000
■ 2001
2002
■ 2003
Vendas Anuais(variações)
2,0
PK
A
S
0,0
S
AN
A
-1,0
OA
-2,0
A
PK
UA
A
n=4 n=5
n=7 n=8
n=3 n=4
n=8 n=7
n=5 n=5
n=3 n=4
-3,0
Bairro
Pequenas
Peq Potnc >'s
(a) metodologia a priori
n=5 n=6 n=3 n=5
n=7 n=8
n=5 n=5
n=8 n=8
n=5 n=6
Grandes
Bairro
Passagem
(b) metodologia a posteriori
1,0
PK
0,0
2000
■ 2001
2002
■ 2003
Vendas Anuais (variações)
2,0
A
-1,0
-2,0
-3,0
n=3 n=3
n=4 n=6
n=3 n=3
n=3 n=3
n=4 n=6
n=3 n=3
Bairro <'s
Grandes
Passagem
(c) metodologia interactiva
a
Para simplificação dos gráficos apenas se incluem os agrupamentos com 3 lojas ou mais em todos os anos
disponíveis, o que obriga a excluir alguns dos agrupamentos identificados.
As dificuldades da metodologia a posteriori podem ser justificadas com a
parametrização utilizada. A utilização de um mínimo de três lojas em cada folha como
104
critério de paragem impediu a identificação das observações atípicas que, por definição,
são excepcionais e logo não comparáveis com as restantes. Por outro lado, o limitado
número de observações disponível levou a que as observações atípicas possam ter um
impacto elevado nas medidas de diversidade utilizadas. Note-se, no entanto, que para o
ano 2002, cujas vendas são usadas como variável dependente, não foram identificadas
observações atípicas. Este resultado muito bom é provavelmente devido à integração do
conhecimento de especialistas na selecção da árvore escolhida.
Quanto à homogeneidade dentro dos grupos relativamente às vendas, surge
claramente uma superioridade dos grupos formados pelas metodologias a posteriori e
interactiva. Este não é um resultado surpreendente já que em ambas as metodologias a
variável de vendas anuais para o ano de 2002 foi explicitamente integrada no processo
de classificação e de análise de agrupamentos, enquanto na metodologia a priori
nenhuma variável de vendas anuais foi identificada como variável de caracterização das
tipologias. Sublinhe-se, no entanto, que o grupo das Lojas Grandes com vendas de 2003
apresenta uma dispersão mais elevada do que as restantes variáveis de vendas anuais,
evidenciando a dinâmica destes valores.
Para quantificar o grau de coesão dos agrupamentos resultantes das diferentes
metodologias utiliza-se a soma dos quadrados explicada pelos grupos formados (soma
dos quadrados entre grupos dividida pela soma dos quadrados total, rácio semelhante à
percentagem de variância explicada) para algumas variáveis relevantes, na Tabela 5.
Estas variáveis foram utilizadas como variáveis base de agrupamento (metodologia
interactiva), dependentes e utilizadas em regras de classificação (a posteriori) ou de
caracterização dos grupos (a priori).
Da Tabela 5 verifica-se que os resultados para a tipologia interactiva27 são
superiores aos restantes na maioria das variáveis. Ainda que as somas dos quadrados
explicadas pela tipologia a posteriori apresentem resultados comparáveis para as
variáveis relacionadas com vendas, para as restantes a tipologia interactiva é geralmente
bastante superior, não apresentando qualquer valor não significativo. Como o objectivo
principal da definição de uma tipologia é a previsão de vendas, não é de estranhar que a
tipologia interactiva tenha sido adoptada como a mais adequada pelos especialistas.
Pretendem-se igualmente agrupamentos resistentes à passagem do tempo e à recolha
de novos dados, o que parece estar assegurado em ambas as tipologias: interactiva e a
Para simplificar o texto utiliza-se a expressão “tipologia a priori, a posteriori ou interactiva” com o
significado de “tipologia obtida pela metodologia a priori, a posteriori ou interactiva”.
27
105
posteriori, apesar da queda verificada com os valores de 2003, estes continuam elevados
e aceitáveis.
A tipologia a posteriori constitui igualmente uma boa alternativa, uma vez que as
previsões podem ser facilmente melhoradas se forem retirados algumas observações
atípicas ou outliers, passando mesmo a apresentar valores de variância explicada
superiores aos obtidos, para as mesmas observações, pela tipologia interactiva.
Sublinhe-se os diferentes resultados para as duas variáveis utilizadas em regras
proposicionais. A variância da “área de vendas” é fortemente explicada pelos grupos
formados, enquanto que a variância da “área de influência por diagramas de Voronoi” é
muito pouco explicada por estes grupos, não sendo mesmo significativa a 5%. Este mau
resultado para esta última variável deve-se à partição em que intervém surgir na parte
final da árvore e logo estar apenas relacionada com as observações que não foram
discriminadas antes. Assim, ainda que a variância explicada pelos grupos formados pelas
observações nesse nó possa ser elevada, quando se calcula para o total das
observações, como efectuado na Tabela 5, os valores podem ser baixos.
TABELA 5 PERCENTAGEM DE VARIÂNCIA EXPLICADA PELOS GRUPOS.
(Os resultados para as duas primeiras variáveis não são totalmente comparáveis com os restantes)
número
de observações
A PRIORI
A POSTERIORI
INTERACTIVA
13
22% b
78%
83%
16
31% b
85%
87%
23
38%
87% c
89% e
23
40%
71%
75%
23
30% b
7% b
86% e
23
44%
30% b,d
49%
Área de vendas
23
60%
72% d
47%
Perc. de clientes
preferenciais
23
40%
24% b
48%
VARIÁVEIS
Vendas Anuais…
… para 2000 a
… para 2001 a
… para 2002
… para 2003
Percentagem de
viagens exclusivas
Área de influência
por diag. Voronoi
a
variável não comparável com as restantes por não incluir algumas lojas que ainda não estavam em funcionamento e, logo,
também não inclui alguns dos grupos identificados com dados de 2002, b valores não significativos a 5% pelo teste F de
análise de variância, c variável dependente, d variáveis utilizadas em regras proposicionais, e variáveis base de agrupamento.
Os métodos com integração formal de conhecimento de especialistas a priori, i.e.
que utilizaram a matriz de dissemelhanças obtida por inquérito directo aos especialistas,
106
apresentam resultados fracos para o caso particular em estudo. Tal resultado pode ser
atribuído ao facto de, apesar de terem sido integradas variáveis de vendas no grupo de
variáveis
potencialmente
caracterizadoras
dos
agrupamentos,
estas
não foram
seleccionadas, apresentando baixas correlações com as dimensões MDS extraídas. Esta
observação sugere a utilização por parte dos especialistas de outras medidas de
desempenho não explicitadas, como a “área de vendas” ou “número de caixas de saída”28
que são valores estáveis e mais fácil de interiorizar do que as vendas em constante
variação.
Quanto à metodologia utilizada, a metodologia a priori de integração de
conhecimento de especialistas foi considerada pouco prática, já que se revelou mais fácil
aceitar ou rejeitar os agrupamentos após a sua constituição do que a utilização de grande
número de comparações pareadas sem observação de valores ou gráficos. Estas foram
consideradas difíceis pelos especialistas por ser necessário considerar um grande
número de aspectos e manter uma visão global das restantes comparações, tendo sido
frequentemente necessário rever classificações já atribuídas por comparação com novas
classificações. Este foi provavelmente o principal motivo para os fracos resultados obtidos
por esta metodologia.
Pelo contrário, as metodologias a posteriori e interactiva tiveram uma
receptividade muito positiva, tendo sido consideradas práticas e de simples utilização.
Para a metodologia a posteriori a principal crítica mencionada foi o facto de apenas se
poder utilizar uma variável como dependente, sendo a principal vantagem o facto de as
árvores de classificação construídas serem auto explicativas e fáceis de interpretar.
A metodologia interactiva, ainda que apresentado a desvantagem de ser muito
demorada, foi considerada muito pedagógica e “um verdadeiro processo de criação de
conhecimento” uma vez que permitiu aos especialistas conhecerem melhor a sua própria
cadeia de lojas, permitindo ainda a criação de uma relação de confiança tanto entre os
actores envolvidos como com os resultados obtidos. Esta constante troca de
conhecimentos é fundamental para minimizar o efeito de “caixa preta” por vezes
observado em trabalhos de apoio à decisão, particularmente quando se recorre a
técnicas quantitativas que os utilizadores não dominam (Turban et al., 2005 e Adelman,
1992).
Estas duas variáveis são altamente correlacionadas, pelo que é praticamente indiferente falar de uma
ou de outra.
28
107
O efeito de caixa preta nem sempre é indesejável. Autores como Turban et al.
(2005) consideram que os decisores não têm necessidade de conhecer como funcionam
os modelos e processos que utilizam. No entanto, neste caso os utilizadores são
igualmente analistas que têm conhecimento dos modelos e métodos e que estão
habituados a cohecer os procesos que utilizam. Assim, o objectivo do projecto não
consistiu simplesmente em definir um procedimento ou uma aplicação de apoio à
decisão, mas fundamentalmente numa transmissão de conhecimento gerado pelo estudo
efectuado.
IV.C. Caracterização da Tipologia
Nesta secção utilizam-se os dados recolhidos para caracterizar os diferentes
grupos resultantes da metodologia interactiva. Uma cuidadosa avaliação dos resultados
obtidos, realizada por especialistas em colaboração com os analistas, conduziu à
selecção de uma tipificação constituída pela referida metodologia. Esta metodologia
considera apenas duas variáveis base de agrupamento: “vendas anuais na loja” e a
“percentagem de viagens exclusivas à loja”.
A utilização de apenas duas variáveis base de agrupamento na definição dos
clusters pode levantar algumas questões uma vez que se defendeu a necessidade de
recolher um grande volume de variáveis. Ainda que se tenha concluído que os resultados
obtidos com estas variáveis sejam comparativamente superiores, continua a advogar-se a
necessidade de recolher muita informação para a, indispensável, caracterização da
tipologia definida. Vários autores defendem ser contraproducente a utilização de grande
número de variáveis uma vez que pode mascarar a existência de grupos nos dados (ver
Gordon, 1999 e Milligan, 1996, para uma análise mais completa). Assim, recomenda-se a
utilização de um número mínimo de variáveis na construção dos grupos e o uso das
restantes na sua interpretação e validação.
Pelo contrário, o processo de caracterização dos grupos deve ser o mais completo
possível e envolver todos os dados disponíveis, nomeadamente o maior número de tipos
de variáveis que for possível recolher. Como afirmam autores como Cardoso e Moutinho
(2003) uma caracterização descuidada dos grupos pode facilmente conduzir ao
insucesso de todo o projecto de agrupamento, uma vez que os utilizadores podem não
reconhecer claramente os grupos definidos. Neste sentido, nos Anexos H (pág. 219), I
(pág. 222), e J (pág. 224) apresentam-se gráficos e resultados de caracterização para as
variáveis recolhidas pelos diferentes métodos utilizados. Nesta secção resume-se a
caracterização da tipologia interactiva com todos os dados obtidos.
108
Utilizaram-se testes do Qui-quadrado para variáveis nominais, testes de KruskallWallis para ordinais e testes F de análise de variância para escolher variáveis métricas
que permitam discriminar os grupos. Na verdade, o teste de Kruskal-Wallis foi usado
igualmente para variáveis métricas quando o afastamento da distribuição Normal ou a
variância dentro dos grupos foi considerada pouco homogénea ou de verificação pouco
fiável. Assim, apenas as variáveis com significativo poder discriminante são consideradas
nas análises seguintes. Pode-se ainda acrescentar que praticamente todos os testes
efectuados para as diferentes variáveis validam a tipologia.
Na Tabela 6 apresenta-se um resumo da caracterização dos agrupamentos tendose em consideração a classificação de variáveis sugerida na Figura 7 (pág. 50) e tendose escolhido 3-4 variáveis por cada classe sugerida. Para a construção da tabela foi
necessário padronizar os valores para que fossem comparáveis. Assim, para as variáveis
métricas foram utilizados z-scores (padronização por subtracção da média e divisão pelo
desvio padrão) e para os atributos não quantitativos usaram-se frequências relativas.
Nos
parágrafos
seguintes
resume-se
a
caracterização
dos
grupos
correspondentes à tipologia de lojas adoptada, considerando as variáveis com maior
poder discriminante. Variáveis com valores próximos da média não são referidos, mas
variáveis fundamentais, como as relativas ao desempenho da loja, são sempre referidas.
As Lojas de Bairro Pequenas constituem um grupo que inclui as lojas menores
com vendas igualmente reduzidas. Na configuração da loja, este grupo apresenta
avaliações médias a baixas, correspondendo a uma gama reduzida. O estacionamento
junto à loja é difícil, pelo que não é de estranhar que grande parte dos clientes se
desloque a pé. Os clientes são principalmente idosos, gastam elevadas percentagens das
“despesas em compras para o lar” na loja e pertencem ao segmento dos clientes
preferenciais. A concorrência surge principalmente de lojas tradicionais e de Discount.
Por outro lado as Lojas de Bairro Grandes constituem um grupo bem sucedido,
já que assegura as maiores vendas por unidade de área. As suas lojas são normalmente
localizadas em zonas suburbanas de elevado potencial e com muitos alojamentos
residenciais. Os clientes habitam próximo da loja e fazem frequentemente viagens
exclusivas à loja. Estes clientes têm escolaridade superior à média e 73% foram
classificados como clientes preferenciais, apresentando agregados familiares pequenos e
frequentando a loja indiferentemente durante a semana e ao fim de semana A nível
concorrencial, conseguem manter uma boa imagem de preços competitivos. A
concorrência tanto pode provir de pequenas lojas como de outras cadeias.
BAIRRO >'s
Ï
Ù
Ù
Ð
% de inquiridos com mais de 45 anos
% inquiridos com 4+ pessoas na família
% inquiridos c\ escolaridade <= primária
caracterização do cliente - socioeconómica
% de inquiridos que se deslocam a pé
% de inquiridos a menos de 5 minutos
% de inquiridos em viagem exclusiva
% média de gastos na cadeia
% de clientes preferenciais
caracterização do cliente - relação cliente \ loja
densidade de edifícios construídos 96-01
nº de edifícios não residenciais
% de edifícios com 5+ pavimentos
densidade de residentes 10-24 anos
% de residentes iletrados
caracterização da área de influência - potencial
área de influência por diag. de Voronoi
nº de lojas de outras cadeias identificados
soma da área de vendas dos concorrentes
área conc's ponderada por inverso distânc.
Ï
Ï
Ï
Ï
Ï
Ï
Ï
caracterização da área de influência - concorrência
nº de lojas em centro urbano
a loja é consideradas âncora
avaliação da visibilidade em desl. a pé
avaliação do estacionamento próximo
Ù
Ù
Ù
Ù
Ù
Ù
caracterização da loja e localização - variáveis geográficas
avaliação relativa a preços
avaliação da simpatia \ rapidez
avaliação da arrumação \ organização
caracterização da loja e localização - configuração da loja
vendas anuais para 2002
vendas de 2002 por área
área de vendas
caracterização da loja e localização - desempenho e dimensão
VARIÁVEIS
Ï
Ð
Ï
Ï
Ð
Ð
Ð
Ð
Ð
Ð
Ù
Ù
Ù
Ù
BAIRRO <'s
Ï
Ï
Ï
Ð
Ï
Ù
Ù
Ù
INTERMÉDIAS
Ï
Ð
Ï
Ð
Ï
Ð
Ï
Ï
Ï
Ù
Ù
Ù
Ù
Ù
Ù
Ù
Ù
LOJAS >'s
Ï
Ð
Ð
Ð
Ð
Ð
Ï
Ï
Ï
Ï
Ï
Ï
Ð
Ï
Ï
Ù
Ù
Ù
Ù
Ù
Ù
Ù
Ù
PASSAGEM
Ð
Ð
Ð
Ð
Ð
Ð
Ð
Ð
Ð
Ð
Ï
Ð
Ï
Ï
Ï
Ï
Ï
Ù
Ù
Ù
Ù
Ù
Ù
Ù
Ù
Ù
Ù
PASSAGEM >'s
TABELA 6 RESUMO DA CARACTERIZAÇÃO DA TIPOLOGIA OBTIDA PELA METODOLOGIA INTERACTIVA.
(Setas indicam os valores que se distinguem relativamente à média (verticais) e à variância (horizontais) em cada grupo)
Ï
Ð
Ð
Ï
Ð
Ð
Ð
Ï
Ð
Ð
Ï
Ï
Ï
Ð
Ð
Ù
Ù
Ù
Ù
Ù
OUTLIERS
109
110
As Lojas Intermédias apresentam valores médios em todas as variáveis de
desempenho. Localizam-se no centro de cidades suburbanas e apresentam avaliações
da caracterização da loja de médias a elevadas. O acesso em deslocações a pé é bom,
mas o parqueamento é difícil. Ainda que apresentem variabilidade elevada, as áreas de
influência apresentam um potencial razoável, com elevado número de alojamentos
residenciais. O facto de se situarem em zonas com algum emprego justifica a
variabilidade observada no meio de transporte utilizado nas deslocações. Estas lojas
apresentam um equilíbrio entre clientes preferenciais e clientes eventuais e elevada
concorrência, em especial de lojas pertencentes a outras cadeias de supermercados.
O grupo com maior número de lojas é o grupo das Lojas Grandes, apresentando
alguma variabilidade em todas as medidas de desempenho. Algumas destas lojas têm
parque de estacionamento próprio, mas a maioria tem dificuldades de estacionamento.
Estas lojas são frequentemente consideradas âncoras de atractividade de clientes para a
rua ou centro comercial onde se situam. As áreas de influência apresentam elevado
dinamismo, com elevada construção de novos edifícios. Os clientes fazem geralmente
compras de valor elevado e apresentam “dimensão média do agregado familiar”
igualmente elevada. A concorrência é geralmente forte, mas variável de loja para loja.
Estas são lojas que estão próximas de formatos maiores, como as grandes superfícies de
comércio alimentar.
As Lojas de Passagem apresentam médio a baixo desempenho em termos de
vendas. No entanto, foram avaliadas favoravelmente nos aspectos relacionados com a
configuração da loja. Localizam-se em centros comerciais pequenos na baixa das
grandes cidades, onde são consideradas âncoras. O estacionamento é geralmente difícil,
mas os clientes provêm de longe e raramente em viagens exclusivas à loja i.e. integram a
visita à loja num circuito complexo que normalmente está relacionado com a viagem de e
para o emprego, que é corroborado pelas áreas de influência que apresentam elevados
valores de edifícios não residenciais.
Este grupo é ainda caracterizado pelo segmento de clientes eventuais i.e. clientes
mais jovens mas com rendimentos ligeiramente superiores à média. São frequentadas
por clientes que fazem pequenas compras nestas lojas, sendo o grosso do consumo
alimentar efectuado em grandes superfícies. No entanto, a principal característica deste
grupo são os fortíssimos níveis de concorrência que se reflectem em quase todos as
variáveis.
Pelo contrário as Lojas Grandes de Passagem apresentam os mais elevados
níveis de desempenho e uma forte tendência para crescimento. Estas lojas localizam-se
111
no centro das grandes cidades, onde são consideradas âncoras de atracção. Os clientes
despendem apenas uma pequena percentagem das suas despesas mensais em compras
para o lar nestas lojas. Os clientes deslocam-se principalmente de carro, percorrendo
longas distâncias e raramente fazendo viagens exclusivas à loja. Este grupo, tal com o
anterior, é caracterizado pelo segmento de clientes eventuais e forte concorrência,
proveniente de hipermercados e lojas de cadeias similares.
Normalmente as observações identificadas como atípicas ou outliers não
constituem um grupo, mas neste caso tal é verdade (ver dendrograma da Figura 21, pág.
99). Na verdade, estas lojas apresentam algumas características em comum, como muito
baixos níveis de desempenho e fraco potencial da área de influência.
Note-se que existem outros métodos para seleccionar variáveis de caracterização
de agrupamentos. Por exemplo, Cardoso e Moutinho (2003) recomendam a utilização de
árvores discriminantes para caracterizar segmentos. Neste caso, ainda que se tendo
utilizado esta metodologia, revelou-se necessário fazer uma caracterização mais alargada
e que incluísse todos os grupos de variáveis sugeridos na Figura 7 (pág. 50), pelo que se
optou por utilizar um grande número de variáveis de caracterização.
Sublinhe-se que grande parte da caracterização efectuada pode ser entendida à
luz de estudos referentes aos diferentes segmentos que utilizam este tipo de lojas. Assim,
comportamentos dos clientes idosos que são maioritários nas Lojas de Bairro e
Intermédias, como a valorização da proximidade e a lealdade à loja, são confirmados por
trabalhos como Burt e Gabbott (1995) e Moschis (2003). Os mesmos estudos confirmam
que os clientes eventuais típicos de lojas de passagem são mais móveis, frequentam
mais hipermercados e revelam mais preocupações com o preço.
Pode-se concluir esta caracterização com a expressão que foi proferida por um
especialista quando a tipologia interactiva foi discutida:
«são lojas de franjas: idosos nuns grupos e clientes de passagem jovens
noutros».
112
113
Capítulo V ⎯⎯⎯⎯⎯⎯⎯⎯
V. PREVISÃO POR ANALOGIA: MODELOS
DISCRIMINANTES E REGRESSÃO
Neste capítulo, utilizam-se modelos discriminantes lógicos e modelos de regressão linear
para efectuar previsões de vendas anuais para novas localizações de lojas análogas às
actualmente existentes na cadeia. A tipificação das lojas efectuada no capítulo anterior é
considerada fundamental para a explicação do comportamento das vendas. Neste
capítulo, descreve-se igualmente a aplicação informática de apoio à decisão APAV –
Análise e Previsão por Analogia de Vendas. Apresentam-se argumentos para a criação
de um ambiente decisional baseado em múltiplas aplicações com acoplamento fraco,
possibilitando a construção de um sistema flexível com o objectivo essencial de criar
conhecimento. A estrutura da aplicação de apoio à decisão encontra-se publicada em
Mendes et al. (2004).
V.A. Porquê Modelos de Análise de Dados?
Tendo em conta a variedade de modelos descrita na secção II.C, pode pôr-se a
questão sobre o porquê da preferência por modelos de análise de dados relativamente
aos restantes referidos no ponto II.C.6 (pág. 43). De entre todos os modelos identificados
da literatura, os modelos baseados em metodologias de análise de dados apresentam
algumas vantagens relevantes para os objectivos propostos na dissertação actual.
Tendo em conta que foi acordado com os decisores a necessidade de comparar
localizações alternativas em termos de vendas previstas e que foram recolhidos grandes
volumes de dados considerados necessários na explicação do desempenho das lojas,
enumeram-se as seguintes vantagens destes modelos:
•
Estes modelos podem ser validados com poucas lojas ao integrar
conhecimento de especialistas de uma forma complementar à análise de
dados, obtendo-se assim, modelos mais objectivos do que modelos mais
simples, como as listas marcadas ou os modelos de analogia baseados em
ordenações de lojas, normalmente utilizados em cadeias de reduzida dimensão.
114
•
Os modelos de análise de dados permitem obter previsões de forma simples e
facilmente compreensível pelos decisores, o que os torna apelativos. Pelo
contrário, os modelos de interacção espacial e de optimização envolvem
pressupostos e normas por vezes difíceis de avaliar, demorados e complexos
processos de estimação e nem sempre são facilmente aceites pelos decisores.
•
Os modelos de análise de dados são especialmente adequados para lidar com
muitas variáveis explicativas de uma medida de desempenho das lojas e
localizações, permitindo, alguns deles, utilizar variáveis em diversas escalas de
medida e apresentando alternativas para lidar com o problema de curse of
dimensionality.
•
A dinâmica do sistema e a necessidade de actualizar os modelos à medida que
mais lojas e dados vão surgindo é facilitada pelo facto de existirem algoritmos e
aplicações facilmente utilizáveis na construção de novos modelos sendo o
processo de reconstrução gerador de conhecimento. Além disso, estes modelos
apresentam uma grande flexibilidade, sem estruturas rígidas que possam ser
postas em causa com novos dados.
Como sugerem vários autores, tanto da área dos sistemas de apoio à decisão
como da área de modelos em marketing e em ciências de decisão, como por exemplo
Pidd (2003), Leeflang et al. (2000) e Sauter (1997), os modelos utilizados devem ser:
simples, robustos, fáceis de controlar e de adaptar a novas situações ou novos dados,
completos e fáceis de compreender.
Os modelos de análise de dados são certamente adequados neste contexto, já
que alguma falta de robustez é largamente compensada pela simplicidade e capacidade
de adaptação. O problema da inexistência de lojas em número considerado suficiente é,
sem dúvida, o principal obstáculo à utilização destes modelos. Para o ultrapaçar sugerese, neste trabalho, a utilização de conhecimento de domínio não quantitativo.
Um exemplo das limitações encontradas ao tratar os dados disponíveis foi a
impossibilidade de utilização de métodos da área de reconhecimento de padrões como as
redes neuronais, muito comuns em previsão de séries cronológicas e com várias
aplicações na distribuição, uma vez que a ausência de lojas em número suficiente não
permite treinar e validar a rede (ver por exemplo Chatfield, 2001 e Coates et al., 1995).
Apesar destas dificuldades, apresentam-se resultados para modelos de regressão
linear complementados por modelos discriminantes lógicos. Estes últimos são utilizados
na definição de regras proposicionais capazes de classificar uma nova loja ou localização
potencial num grupo da tipologia definida no capítulo anterior.
115
V.B. Modelos Discriminantes Lógicos por Analogia
Após a definição de grupos análogos de lojas existentes e cuidadosa
caracterização dos mesmos, passa-se a identificar variáveis e regras proposicionais29
capazes de discriminar entre os diferentes grupos de lojas. O objectivo é atribuir a uma
nova localização potencial um grupo da tipologia definida de modo a ser possível prever
vendas e avaliar desempenhos potenciais, no âmbito dos modelos discriminantes
descritos no ponto II.C.3 (pág. 34).
Nesta secção explicam-se os procedimentos adoptados para a construção e
validação dos modelos discriminantes lógicos usados na classificação de localizações
potenciais. A este propósito, sublinhem-se as dificuldades impostas pela “praga da
dimensionalidade” que obrigam, mais uma vez, à utilização de validação externa e
conhecimento de especialistas para validar as regras proposicionais (também conhecidas
como regras de decisão ou regras de classificação) de classificações obtidas.
V.B.1. Definição de Regras Proposicionais: As árvores de classificação
Dentro dos modelos discriminantes, pode-se optar por diferentes métodos como a
análise discriminante linear (de Fisher) ou a regressão logística que é normalmente
considerada uma alternativa quando os pressupostos de Normalidade da análise
discriminante não se verificam, sendo ainda possível encontrar trabalhos que utilizam
modelos de segmentos latentes com covariantes e redes neuronais (Cardoso e Moutinho,
2003). Os modelos discriminantes lógicos ou árvores de classificação são modelos mais
recentemente desenvolvidos, paralelamente, nos domínios da estatística e da
aprendizagem automática (ver por exemplo: Breiman et al., 1984 e Quinlan, 1993). A
opção recaiu nestes últimos pelas razões seguintes (adaptado de Cardoso, 2003):
•
Ausência dos pressupostos típicos de modelos paramétricos de verificação
difícil, sobretudo quando o número de variáveis explicativas é elevado.
•
As variáveis podem ser utilizadas sem demorados tratamentos prévios aos
dados como a codificação de atributos nominais em modelos de regressão ou
discriminantes, sendo ainda mais flexíveis a lidar com dados omissos.
•
Possibilidade de utilização de variáveis explicativas em qualquer número e em
várias escalas de medida ao invés das dificuldades observadas nos métodos
estatísticos multivariados em lidar com muitas variáveis.
Nesta dissertação utilizam-se as expressões “regras proposicionais”, “regras de classificação” ou
“regras de decisão” como sinónimos.
29
116
•
Possibilidade de integração de relações complexas entre as variáveis
explicativas e a dependente e não apenas relações lineares, como acontece na
maioria dos procedimentos estatísticos.
•
Interpretabilidade dos resultados muito simples e clara por simples observação
das árvores construídas e das regras proposicionais de classificação induzidas.
O último aspecto enumerado é de especial relevância no que toca ao apoio à
decisão. Um dos objectivos do método desenvolvido é a simplicidade dos modelos
escolhidos e a capacidade de compreensão dos decisores ou utilizadores desses
modelos, uma vez que assim se potencia a sua utilização. As árvores de classificação
foram recebidas com grande entusiasmo pelos futuros utilizadores do software de apoio à
decisão. Consideraram estes modelos muito apelativos pela simplicidade com que é
possível compreender os resultados obtidos. Do lado das desvantagens, é de referir que
os algoritmos utilizados na construção de árvores de classificação são heurísticas, pelo
que os resultados são fortemente dependentes dos métodos e das parametrizações
utilizadas.
A principal característica destes modelos consiste na construção de uma árvore
que, começando com o total de lojas existentes, vai dividindo este grupo inicial em
subgrupos de modo a minimizar uma medida de impureza ou de diversidade na variável
dependente ou que maximize a distinção estatística dos filhos relativamente à variável
dependente, dependendo do algoritmo utilizado. Os modelos discriminantes lógicos ou
árvores de classificação distinguem-se das árvores de regressão por a variável
dependente ser nominal ao invés de métrica. Assim, o objectivo é obter uma hierarquia
de partições das observações correspondente aos grupos previamente formados.
Estes métodos são recursivos sendo o princípio subjacente o de dividir para
conquistar. Em cada nó folha da árvore obtém-se um grupo de lojas que pode ser
caracterizado pela sucessão de nós ascendentes e às regras proposicionais de
classificação que se lhes associam. Desta forma permitem construir árvores
discriminantes da raiz para os nós terminais ou folhas (Cardoso, 2003).
Nesta dissertação utilizam-se três algoritmos para construção de modelos
discriminantes lógicos segundo a sua implementação no software AnswerTree v. 3.1:
CART – Classification And Regression Trees (Breiman et al., 1984), CHAID – CHisquared Automatic Interaction Detector (Kass, 1980 e Biggs e Suen, 1991) e QUEST –
Quick Unbiased Efficient Statistical Tree (Loh e Shih, 1997). Os três algoritmos
distinguem-se entre outros aspectos na medida de qualidade que utilizam para selecionar
uma variável discriminante e respectiva condição de partição. Assim, passa-se a
117
enumerar resumidamente as principais diferenças entre os algoritmos no caso de
variáveis dependentes nominais30:
•
CHAID: este algoritmo utiliza testes de Qui-quadrado de Pearson numa tabela
de contingência entre as categorias da variável dependente e as categorias das
variáveis independentes (as variáveis continuas são previamente discretizadas
em classes). Na verdade, faz-se um conjunto de testes agregando as classes da
variável explicativa até só restarem duas, de modo a descobrir o melhor número
de classes. Este processo repete-se para a totalidade das variáveis explicativas
e a melhor variável explicativa com o melhor conjunto de classes, i.e. a menor
probabilidade de significância (p value) ajustada pelo método de Bonferroni, é
escolhido. As árvores podem não ser binárias e apresentam valores da
estatística Qui-quadrado, graus de liberdade e a probabilidade de significância
em cada nó de ramificação.
•
QUEST: este método utiliza igualmente testes de Qui-quadrado de Pearson para
tabelas de contingência, tal como o método CHAID. No entanto, utiliza um maior
conjunto de testes estatísticos para garantir a independência entre o processo de
selecção da variável explicativa e o ponto de divisão das classes da mesma
variável. Usa, por exemplo, a estatística F de ANOVA e a estatística F de Levene
para variâncias não iguais na selecção de variáveis métricas, sendo os atributos
nominais transformados em binários. Utiliza-se o método de 2-médias de análise
de clusters para agrupar as classes da variável dependente e análise
discriminante quadrática na escolha do ponto de divisão da variável explicativa.
Assim, nas árvores sempre binárias, apresentam-se valores para o teste de Quiquadrado ou da estatística F de ANOVA ou Levene (Loh e Shih, 1997).
•
CART: este método utiliza medidas como índice de Gini para medir a
diversidade no nó para variáveis dependentes nominais. De forma simples, este
índice contabiliza a proporção de observações em cada classe da variável
dependente num nó relativamente ao total, i.e. ao nó raiz. Este índice toma o seu
valor mínimo quando num nó correspondente a uma partição da variável
dependente, apenas existem observações pertencentes a uma classe. A
diferença entre o índice Gini para o nó pai e a soma dos valores para os dois
filhos (ponderada pela proporção de casos em cada filho) é apresentada na
árvore como improvement31. A variável explicativa escolhida é aquela que
garante um maior valor de improvement.
Outras diferenças entre os métodos prendem-se com a forma como tratam valores
omissos na variável explicativa. Enquanto o método CHAID interpreta os valores omissos
como mais uma classe da variável, os outros dois usam variáveis substitutas (surrogate).
Este último procedimento consiste em substituir a variável explicativa que num
determinado nó apresenta observações omissas por outra variável que apresente uma
correlação elevada para a partição e para as observações restantes no nó, mas apenas
nos casos necessários em que o valor omisso impede a escolha do nó seguinte.
Na verdade, estão disponíveis outras opções para o cálculo das medidas de qualidade, nomeadamente
outros índices de diversidade e outros testes, pelo que se aconselha a consulta de SPSS (2001) ou de
white papers de www.spss.com. Os descritos são os utilizados nas árvores apresentadas neste texto,
ainda que tenham sido construídas árvores explorando as várias opções disponíveis.
31
Pode-se traduzir improvement pela expressão “decréscimo de diversidade” (ver Cardoso, 2003).
30
118
Ainda que os critérios de paragem sejam comuns a todos os algoritmos, baseados
no número mínimo de observações nos nós ou em valores mínimos da probabilidade de
significância ou de improvement, os últimos dois métodos permitem a poda da árvore
após a sua construção. Este processo consiste em remover ramos que contribuem muito
pouco para um critério global de qualidade do modelo como o erro de classificação,
permitindo assim controlar o sobre-ajustamento (overfitting) dos modelos.
Estes algoritmos por não serem paramétricos não incluem pressupostos sobre
distribuições e parâmetros, ainda que possa ser entendido como uma vantagem, obriga
igualmente a uma cuidadosa validação dos resultados, habitualmente com recurso a
grande volumes de observações como para as técnicas usadas em data mining (Hand et
al., 2001, Berry e Linoff, 1997). O facto de, neste caso particular, o número de lojas ser
muito reduzido impossibilita a utilização de técnicas de validação cruzada baseadas na
divisão das observações em dois grupos: um é usado para aprendizagem ou estimação
do modelo e o outro para teste ou verificação da qualidade do modelo. Assim, recorre-se
a métodos de validação que utilizem a totalidade ou quase totalidade das observações
como é o caso do método leave-one-out, complementada com integração do
conhecimento de especialistas, traduzida na interpretabilidade das regras proposicionais
de classificação à luz do conhecimento do domínio.
O método leave-one-out, também conhecido por método-U, ou validação
jackknife, disponível em todos os algoritmos, permite avaliar a capacidade preditiva do
modelo discriminante lógico, estimando um erro de classificação com algum realismo,
mesmo quando o número de observações é reduzido. Este método consiste em construir
tantas árvores de classificação quanto o número de observações, deixando de fora uma
observação de cada vez. A estimativa do erro é então calculada classificando a loja
excluída da construção da árvore e registando a proporção de lojas erradamente
classificadas sobre o total de lojas (Lattin et al., 2003, Gentle, 2002 e Thomas et al.,
2002). O método é igualmente adequado para identificação de outliers e análise de
sensibilidade das classificações obtidas (Cardoso, 2000).
119
V.B.2. As Regras Proposicionais Identificadas e os Modelos Construídos
Neste ponto descrevem-se os modelos discriminantes lógicos obtidos pelos
diferentes métodos. Como variável dependente usa-se um atributo nominal resultante do
agrupamento das lojas pela metodologia interactiva. Como variáveis explicativas, são
consideradas as inúmeras variáveis usadas para caracterizar as lojas, com excepção das
variáveis obtidas por inquéritos, os quais não se encontram à partida disponíveis para
localizações potenciais (ver Figura 7, pág. 50).
De referir que nos testes efectuados não se observou qualquer prevalência de um
algoritmo sobre os restantes, ainda que o algoritmo QUEST se revelasse com maior
dificuldade em seleccionar as melhores variáveis discriminantes32. Assim, numa
perspectiva de aumentar o leque de alternativas para a tomada de decisão, decidiu-se
incluir regras proposicionais resultantes dos “melhores” modelos discriminantes lógicos
para cada um dos três métodos enumerados no ponto anterior. O “melhor" modelo
surgido de cada método foi identificado por especialistas considerando a interpretação
das regras proposicionais resultantes. Em segundo lugar foi usado o critério da precisão
da classificação por validação interna, usando medidas como proporção de lojas
correctamente classificadas na totalidade da amostra (hit rate) ou estimativas da mesma
proporção pelo método leave-one-out.
Tal como na secção IV.B.3 (pág. 94), foram rejeitadas regras proposicionais onde
as variáveis não apresentavam o comportamento esperado face à variável dependente.
Por exemplo, se num nó folha a dimensão da área de influência tiver valores superiores,
espera-se intuitivamente que o grupo de lojas que o constituem tenha um valor de vendas
médio igual ou superior. Em caso de quasi-empates na selecção de uma variável
explicativa, a intervenção do especialista permitiu a escolha de variáveis que conduziam
a resultados mais interpretáveis, nomeadamente utilizando a ferramenta de variáveis
substitutas dos métodos CART e QUEST.
Na Tabela 7 apresentam-se as regras proposicionais associadas a cada um dos
grupos da tipologia interactiva por algoritmo utilizado.
Note-se que o algoritmo QUEST é apresentado como uma melhoria do CHAID com a vantagem de
diminuir o viés a favor das variáveis quantitativas (ou com mais pontos de partição) e com um menor
tempo de computação. O segundo aspecto foi confirmado pelos testes efectuados mas no restante, e
para a amostra utilizada, revelou-se muito difícil de trabalhar seleccionando variáveis discriminantes que
correspondiam a partições com grande dispersão no nó e muito pouco úteis para fins de previsão.
32
---
≤ 831
---
---
---
---
>2
≤ 4462
---
---
≤0
---
> 0,84
---
---
---
---
> 13,2
---
---
> 0,84
> 2508
---
---
---
---
---
medidas de qualidade da regra proposicional
percentagem de hits
83%
75%
no nó folha
percentagem de lojas
100%
60%
do grupo no nó
nº de alojamentos
familiares clássicos
dens. edifícios construídos
entre 96 e 2001 (nº/10 ha)
nº de alojamentos com
proprietário ocupante
nº de alojamentos com
3 ou 4 divisões
nº de alojamentos não
clássicos
nº de famílias clássicas
com mais de 5 elementos
% de núcleos familiares
com filhos ou netos
% mulheres residentes
entre os 5 e os 9 anos
caracterização da área de influência - potencial
área dos concorrentes
ponderada por CMC's
avaliação do acesso a pé
(valor - méd. concorrentes)
---
---
---
---
---
---
> 0,84
100%
100%
80%
---
---
---
---
---
100%
≤ 4,9
---
---
---
---
100%
75%
---
≤ 13,2
>132
---
---
---
> 0,84
---
---
> 0 ou
s\conc.
---
≤ 4462
> 2181
---
---
100%
100%
≤ 4,9
---
---
---
> 1008
≤ 6429
---
---
---
---
---
INTERMÉDIAS
100%
100%
---
---
---
---
---
> 2508
> 0,84
≤ 2181
> 0 ou
s\conc.
---
>2
central trans. púb.
--ou escola \ univers.
---
---
---
>2
---
---
> 6429 > 2508
caracterização da área de influência - concorrência
âncora mais importante
para o tráfego
avaliação da facilidade
de estacionamento
caracterização da loja e localização - variáveis geográficas
área de vendas
(metros quadrados)
BAIRRO <'s
GRANDES
PASSAGEM
100%
80%
---
≤ 13,2
≤132
---
---
---
> 0,84
---
---
≤ 4462
---
---
---
100%
100%
≤ 4,9
---
---
>2
≤ 1008
≤ 6429
---
---
---
---
---
---
---
83%
100%
---
---
---
---
---
≤ 2508
> 0,84
---
---
---
>2
---
---
83%
83%
---
> 13,2
---
---
---
---
> 0,84
---
---
≤ 4462
---
---
> 831
83%
83%
> 4,9
---
---
---
---
---
---
---
---
---
---
---
---
100%
75%
---
---
---
---
---
---
> 0,84
---
---
---
≤2
---
---
67%
100%
---
---
---
---
---
---
> 0,84
---
---
> 4462
---
67%
100%
≤ 4,9
---
---
---
> 1008
≤ 6429
---
---
---
---
---
---
---
---
---
---
100%
100%
---
---
---
---
---
---
≤ 0,84
centro urbano ou
---
100%
50%
≤ 4,9
---
---
≤2
≤ 1008
≤ 6429
---
---
---
---
---
---
---
CART
PASSAGEM >'s
CHAID&
&QUEST
--- centro comercial ---
---
CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART
BAIRRO >'s
caracterização da loja e localização - dimensão
VARIÁVEIS
TABELA 7 RESUMO DAS REGRAS PROPOSICIONAIS ESCOLHIDAS E ALGUMAS MEDIDAS DE QUALIDADE.
(Estimativa de erro pelo método leave-one-out, CHAID: 26%, QUEST: 35%, CART: 22%, hit rate, CHAID: 91%, QUEST: 83%, CART: 87%)
120
121
Neste tipo de tabelas, conhecidas como tabelas de decisão ou de classificação33,
as variáveis são colocadas nas linhas, sendo a decisão, ou neste caso o grupo em que a
localização potencial é classificada, colocado na coluna e a respectiva condição na
entrada correspondente da tabela. Assim, para que uma nova localização seja atribuída a
um determinado grupo análogo, é necessário satisfazer de forma conjuntiva todas as
condições da coluna o que corresponde, a um ramo da árvore discriminante ou regra
proposicional de classificação. As “melhores” árvores construídas utilizando os diferentes
algoritmos disponíveis podem ser consultadas no Anexo K (pág. 229).
Os modelos discriminantes lógicos construídos apresentam valores entre os 22%
e 26% para a estimativa de erro pelo método leave-one-out, correspondendo o QUEST a
um valor bastante superior de 36%. No entanto, todos os modelos são significativos a 1%
segundo o teste Q de Press, que avalia a qualidade do modelo relativamente a uma
hipótese nula resultante de uma classificação aleatória (Reis, 2001). Os valores de
proporção de lojas incorrectamente classificadas na totalidade da amostra são bastantes
inferiores, entre 9% e 17%.
As estimativas de erro pelo método leave-one-out, sendo uma medida da
estabilidade ou robustez do modelo, são congruentes com a “praga da dimensionalidade”
e a abundância de variáveis para um conjunto muito limitado de lojas. Note-se ainda que
na maioria das partições existiam 3 a 4 variáveis substitutas (surrogates) com correlação
perfeita com a variável de partição escolhida, principalmente em partições mais afastadas
da raiz e por isso mesmo com menos observações. Assim, foi necessário utilizar
conhecimento de especialistas para seleccionar variáveis correspondendo a regras
proposicionais mais facilmente interpretáveis.
Relativamente à Tabela 6, na Tabela 7 surgem menos tipos de variáveis, segundo
a classificação da Figura 7 (pág. 50). Tal é explicável por não ser possível utilizar
variáveis resultantes de inquéritos nem comparações entre a loja e a concorrência a nível
de serviços e configuração da loja, para localizações e lojas potenciais. A ausência do
tipo “configuração da loja” é igualmente aceitável se considerarmos que todas as lojas
consideradas pertencem à mesma cadeia e logo têm aspectos de gestão comum que
uniformiza a maioria destes aspectos.
A distribuição das variáveis também não é equitativa pelos diferentes tipos
definidos. Como discutido a propósito dos resultados apresentados na Tabela 5 (pág.
Esta designação é comum na literatura de SAD’s e geração de conhecimento quando se referem a
condições e à enumeração de proposições complexas (ver por exemplo: Turban et al., 2005 ou Awad e
Ghaziri, 2004).
33
122
105), a utilização de variáveis em regras proposicionais não implica necessariamente que
estas sejam boas discriminantes da totalidade das observações, uma vez que na maioria
dos nós apenas uma parte das observações é considerada. Assim, as variáveis
escolhidas não obedecem a critérios de distribuição pelos diferentes tipos sugeridos pela
Figura 7 (pág. 50) mas aos critérios utilizados pelos algoritmos e o conhecimento de
domínio. Sublinhe-se que a maioria dos algoritmos mostra tendência para escolher
variáveis métricas em prejuízo de atributos ordinais ou nominais como já tinha sido
observado por Loh e Shih (1997).
Na Tabela 7 utilizam-se duas medidas para avaliar a qualidade de cada regra
proposicional induzida dos dados. Tendo em conta que o nó folha é atribuído ao grupo
modal, a “percentagem de lojas do grupo no nó” (i.e. a percentagem das lojas de um
grupo identificadas pela regra proposicional), mede a dispersão do grupo por vários nós
folha da árvore de classificação, o que é indesejável tendo em conta o reduzido número
de lojas existente em cada grupo. Por outro lado, a “percentagem de hits no nó folha”
mede o grau de pureza de um nó folha ou a homogeneidade deste, medidas
reconhecidamente a maximizar. Conjugando estas duas medidas, apenas cinco regras
proposicionais num total de 17 identificadas conseguem uma pontuação de 100% em
ambas.
Note-se que estas duas medidas não são independentes, já que uma loja mal
classificada num nó folha também contribuirá para a redução da “percentagem de lojas
do grupo no nó” para o nó folha onde deveria ter sido classificado. Assim, ao nível do
modelo, as duas medidas sobrepõem-se, mas ao nível da regra proposicional não existe
sobreposição pelo que a utilização de ambas em conjunto faz sentido. Note-se ainda que,
para efectuar previsões, ambas as medidas são importantes ainda que possam
apresentar pesos distintos. O objectivo é sempre penalizar classificações incorrectas.
Este tipo de relações torna-se claro por observação da tabela de frequências da
Figura 24, onde ng
ar
representa o número de observações no nó folha ar pertencente ao
grupo g, sendo os totais representados apenas por um índice e n o número total de
observações. Note-se que apenas o número de observações na classe modal
(representada com fundo cinzento) é considerada correctamente discriminada, pelo que a
matriz da Figura 24 também é conhecida como matriz de confusão (confusion matrix) ou
de classificações e só faz sentido quando cada grupo é modal apenas num nó folha da
árvore como acontece neste caso particular (Thomas et al., 2002).
123
FIGURA 24 TABELA DE FREQUÊNCIAS COM AS RELAÇÕES ENTRE AS MEDIDAS DE QUALIDADE DO NÓ FOLHA.
(A classe modal em cada nó é assinalada por fundo cinzento na tabela)
nó folha
soma da
linha
percentagem
de lojas do
grupo no nó
nA
nA1/ nA
nB
nB2/ nB
nC
nC3/ nC
nD
nD4/ nD
nó 1
nó 2
nó 3
nó 4
…
grupo A
nA1
nA2
nA3
nA4
…
grupo B
nB1
nB2
nB3
nB4
…
grupo C
nC1
nC2
nC3
nC4
…
grupo D
nD1
nD2
nD3
nD4
…
…
…
…
…
…
…
…
soma da
coluna
percentagem
de hits no nó
folha
n1
n2
n3
n4
…
n
nA1/ n1
nB2/ n2
nC3/ n3
nD4/ n4
grupos
total de
observações na
árvore a
Como discutido atrás, opta-se por utilizar todas as regras proposicionais
resultantes de todas as árvores de classificação construídas em vez de se escolher uma
delas e o conjunto de regras correspondente. Assim, não só se garante que todas as
lojas existentes são correctamente classificadas por, pelo menos, uma das regras, como
se oferece ao decisor um conjunto de alternativas de classificação, permitindo a utilização
do conhecimento de domínio na selecção da mais adequada. A outra face da moeda está
relacionada com dificuldades de escolha quando as classificações são contraditórias.
Nesses casos utiliza-se um indicador de qualidade das diferentes regras proposicionais
para auxiliar o decisor.
V.B.3. Novos Dados e o Índice de Precisão
As regras proposicionais apresentadas no ponto anterior foram induzidas a partir
da totalidade das observações disponíveis à data de escrita desta dissertação. No
entanto, num ponto anterior de desenvolvimento deste trabalho foram apresentados e
discutidos com os especialistas resultados com menos três lojas abertas durante o ano
de 2002. Esses resultados são aqui apresentados para efeitos de avaliação da
estabilidade das regras proposicionais induzidas.
124
No Anexo L (pág. 233) apresentam-se as regras proposicionais definidas nas
condições descritas. A maioria das regras proposicionais são diferentes não apenas
devido ao facto do número de lojas ser distinto mas porque entretanto houve experiência
de aplicação destas regras. Como exemplo, pode citar-se a variável “localização da loja
na malha urbana” que, aquando da apresentação dos modelos discriminantes do Anexo,
foi considerada bem definida e aceite sem problemas. No entanto, durante o passado ano
em que as regras de classificação foram utilizadas para fazer previsões, a sua utilização
foi posta em causa. Assim, optou-se por excluir esta variável na revisão das regras
proposicionais apresentadas na Tabela 7. Este tipo de observações levou a uma redução
do número de variáveis discriminantes obtidas do programa de mystery shopping,
consideradas menos objectivas e de definição mais difusa, e um aumento no número de
variáveis obtidas por análise espacial.
Sublinhe-se que este tipo de opções não diminuiu a qualidade das regras
proposicionais segundo as duas medidas utilizadas. Relativamente à qualidade das
árvores de classificação os valores de hit rate sobre a totalidade da amostra utilizada na
estimação são 95% (CART), 90% (CHAID) e 80% (QUEST) e os valores de estimativa de
erro pelo método leave-one-out são: 25% (CHAID), 35% (QUEST) e 30% (CART), muito
semelhantes aos apresentados na Tabela 7 para a totalidade das lojas. As regras
proposicionais apresentadas no Anexo L, induzidas sem qualquer informação sobre as
novas lojas abertas durante o ano de 2002, foram utilizadas para classificar essas
mesmas lojas após uma fase de recolha de dados sobre os locais potenciais. Na Tabela
8 apresentam-se esses resultados.
Da Tabela 8 pode-se concluir que as regras proposicionais definidas sem estas
três lojas conseguem sempre classificar correctamente estas lojas. Ainda que estes
resultados sejam muito bons, a validação é claramente insuficiente até porque as novas
lojas cobrem apenas 2 das 6 classificações possíveis. No entanto, algumas regras de
classificação conduzem a resultados incorrectos. Também não se pode afirmar que uma
árvore de classificação consegue sempre obter resultados correctos. Por exemplo, a
árvore obtida pelo método CART obteve bons resultados de hit rate e, no entanto, não
conseguiu classificar correctamente a loja 2A. A regra maioritária, ainda que funcionasse
para estas 3 lojas, não permitiria tirar conclusões no caso de cada método indicar uma
classificação diferente. Autores como Cardoso (2003) e Quinlan (1993) consideram que a
avaliação das classificações não deve ser efectuada apenas a nível da árvore de
classificação mas também a nível da regra de classificação e utilizam medidas
semelhantes às apresentadas na Tabela 7.
125
TABELA 8 CLASSIFICAÇÕES PREVISTAS E DEFINITIVAS PARA TRÊS LOJAS RECENTES.
(Classificações previstas das regras proposicionais do Anexo L e definitivas do dendrograma da Figura 21, pág. 99)
LOJA
MÉTODO
CLASSIFICAÇÃO
PREVISTA
CLASSIFICAÇÃO
DEFINITIVA
2R
CHAID
Lojas Grandes
Lojas Grandes
QUEST
Lojas Grandes
CART
Lojas Grandes
CHAID
Lojas Grandes
QUEST
Lojas Grandes
CART
Bairros Grandes
CHAID
Bairros Grandes
QUEST
Lojas Grandes
CART
Bairros Grandes
2A
2N
Lojas Grandes
Bairros Grandes
Uma classificação incorrecta pode corresponder a previsões de vendas com erros
de previsão consideráveis, pelo que se considera útil a construção de um índice de
precisão que indique ao decisor qual a classificação a utilizar em caso de classificações
contraditórias. Sublinhe-se que o nome escolhido não é inocente, já que se indica ao
utilizador a classificação mais aconselhável segundo um critério de precisão i.e. de
qualidade das regras proposicionais para os dados existentes, sem excluir a possibilidade
do decisor recorrer a outros critérios para aceitar classificações diferentes das sugeridas.
A expressão a que se chegou é apresentada na equação (11) onde o índice de
precisão para a loja j é representado por IPj, leaveOneOuta representa a estimativa do
erro de classificação pelo método leave-one-out para a árvore a, %hits a “percentagem
de hits no nó” referente à regra proposicional ar e %grupo a “percentagem de lojas do
grupo no nó” para a mesma regra.
(
IPj = 1 − leaveOneOut a
) × (%hits
β
α
ar
)
× % grupo1a−r α , 0 ≤ α ≤ 1, β ≥ 0
(11)
Os parâmetros α e β foram estimados para a totalidade das lojas de modo a
garantir a escolha de um máximo de classificações correctas para as lojas existentes com
classificações contraditórias. Na Tabela 9 apresentam-se os resultados da classificação
aconselhada pelo índice de precisão para as regras usadas para calibrar a expressão
(11) e igualmente para as regras proposicionais do Anexo L.
126
TABELA 9 LOJAS COM CLASSIFICAÇÕES CONTRADITÓRIAS USADAS PARA CALIBRAR E VALIDAR O ÍNDICE.
(Utiliza-se β = 1,5, leaveOneOut, %hits e %grupo indicados na Tabela 7 e no Anexo L.)
REGRAS PARA TODAS
REGRAS SEM LOJAS
LOJA MÉTODO
AS LOJAS (α = 0,6)
ABERTAS EM 2002 (α = 0,4)
BR
RP
NR
AN
PY
FA
RA
LM
2A
2N
a
a
a
CLASSIFICAÇÃO
ÍNDICE
CLASSIFICAÇÃO
ÍNDICE
CHAID
Grandes
0,590
Grandes
0,581
QUEST
Intermédias
0,527
Grandes
0,351
CART
Passagem >’s
0,457
Grandes
0,544
CHAID
Bairro <’s
0,635
Bairro <’s
0,547
QUEST
Bairro <’s
0,443
Passagem
0,334
CART
Bairro <’s
0,692
Bairro <’s
0,586
CHAID
Bairro >’s
0,568
Bairro >’s
0,581
QUEST
Bairro >’s
0,361
Grandes
0,351
CART
Bairro >’s
0,633
Bairro >’s
0,586
CHAID
Bairro >’s
0,568
Grandes
0,650
QUEST
Bairro <’s
0,443
Grandes
0,351
CART
Bairro >’s
0,633
Grandes
0,544
CHAID
Bairro >’s
0,568
Bairro >’s
0,581
QUEST
Bairro >’s
0,361
Passagem
0,334
CART
Bairro >’s
0,633
Bairro >’s
0,586
CHAID
Passagem
0,535
Passagem
0,579
QUEST
Bairro >’s
0,361
Passagem
0,334
CART
Passagem
0,590
Passagem
0,586
CHAID
Passagem
0,535
Passagem
0,579
QUEST
Intermédias
0,469
Intermédias
0,351
CART
Intermédias
0,692
Intermédias
0,586
CHAID
Bairro >’s
0,568
Bairro >’s
0,581
QUEST
Grandes
0,437
Intermédias
0,351
CART
Passagem >’s
0,457
Bairro >’s
0,586
CHAID
Bairro >’s
0,568
Grandes
0,650
QUEST
Grandes
0,361
Grandes
0,351
CART
Grandes
0,575
Bairro >’s
0,586
CHAID
Bairro >’s
0,568
Bairro >’s
0,547
QUEST
Bairro >’s
0,437
Grandes
0,351
CART
Bairro >’s
0,633
Bairro >’s
0,586
Lojas novas em 2002 pelo que os valores para as regras sem lojas abertas em 2002 são previstos.
127
Ainda que a tabela não mostre a totalidade das classificações contraditórias
encontradas nos dois conjuntos de regras proposicionais, tanto no conjunto usado para
estimação como na aplicação da expressão (11) ao anterior conjunto de regras induzidas
sem as três lojas mais recentes, não foi possível encontrar um único caso em que o
índice de precisão indicasse uma classificação errada. Note-se no entanto, o caso da loja
NR, PY e LM onde, para as regras induzidas sem as lojas abertas em 2000, o índice
conduz a duas classificações com valores muito próximos.
Para avaliar o comportamento da expressão (11) a variações dos parâmetros
efectuou-se uma análise de sensibilidade. Utilizando as regras proposicionais para todas
as lojas e sem as lojas abertas em 2002, foi possível determinar o gráfico da Figura 25.
Nesta figura usam-se passos de uma décima para cada um dos parâmetros e assinalam -se as células onde todas as lojas com classificações contraditórias são correctamente
classificadas. As células em branco correspondem a valores de parâmetros onde em
ambos os conjuntos de regras proposicionais se verificam classificações incorrectas.
FIGURA 25 ANÁLISE DE SENSIBILIDADE AOS PARÂMETROS ALFA (α) E BETA (β) DA EXPRESSÃO (11) .
(As células assinaladas correspondem a parâmetros para os quais todas as lojas são correctamente classificadas)
alfa
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
beta
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 ...
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
O
X
X
X
X
X
X
X
X
X
O
X
X
X
X
X
X
X
X
O
X
X
X
X
X
X
X
X
O
O
X
X
X
X
X
X
X
O
O
X
X
X
X
X
X
O
O
X
X
X
X
X
X
O
O
O
X
X
X
X
X
X
O
O
O
X
X
X
X
O
O
O
X
X
X
X
O
O
O
O
X
X
X
O
O
O
O
X
X
X
O
O
O
O
X
X
O
O
O
O
X
O
O
O
O
O
X
O
O
O
O
O
X
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
Legenda:
X
O
regras induzidas sem as lojas abertas em 2002;
regras induzidas para a totalidade das lojas.
Da Figura 25 é possível concluir que os conjuntos de valores de parâmetros para
os quais todas as classificações são correctas são disjuntos para cada um dos conjuntos
de regras proposicionais. Mesmo quando os símbolos utilizados para cada um dos
grupos de regras proposicionais surgem em células contíguas, é possível verificar que
utilizando valores nos parâmetros com mais casas decimais existe sempre um conjunto
de valores separador onde nenhum dos conjuntos de regras resulta em todas as
classificações correctas. Estes resultados evidenciam a grande sensibilidade das regras
proposicionais induzidas à adição de novas lojas perante o problema da praga de
dimensionalidade. Mais especificamente, este facto deve-se à presença nos dois
128
conjuntos de regras de condições contraditórias de tal modo que quando todas as lojas
estão correctamente classificadas num conjunto existe pelo menos uma loja mal
classificada no outro.
O facto de ambos os parâmetros poderem tomar valores limite: zero para o β e um
para α, poderia colocar a hipótese de simplificar a expressão (11) retirando a medida
“percentagem de lojas do grupo no nó” ou a estimativa de erro pelo método leave-oneout. No entanto, é fácil observar que estas são situações limite e que na generalidade dos
casos estas duas medidas devem estar presentes no índice de precisão até pela
diferença observada entre os dois conjuntos de regras proposicionais.
Na Figura 25 observa-se o aparecimento de rectas de indiferença à semelhança
das utilizadas em métodos como o TRIDENT para ordenação de alternativas utilizando
funções utilidade em contexto multicritério (Tavares, 2004). Note-se que ao contrário do
método TRIDENT a expressão (11) para o IP não é linear. É, no entanto, simples provar
que as funções de indiferença continuam a corresponder a rectas, i.e. que a relação entre
os parâmetros α e β que correspondem a igual valor de IP para dois métodos distintos é
linear nos referidos parâmetros. Assim, pode-se interpretar as áreas definidas na Figura
25 como resultantes da intersecção da área para cada loja correspondentes à
classificação correcta. Quanto à análise de sensibilidade aos referidos parâmetros
verifica-se uma boa robustez, já que as áreas correspondentes a todas as classificações
correctas são grandes, verificando-se igualmente um equilíbrio na precisão necessária
para ambos os parâmetros.
No entanto, esta robustez coloca o problema de determinar quais os parâmetros
mais adequados para previsão de classificações. No caso da previsão para as três novas
lojas abertas em 2002, o problema não se coloca, uma vez que todos os valores de
parâmetros marcados com uma cruz na Figura 25 prevêem correctamente as
classificações das duas novas lojas com classificações contraditórias. As únicas
excepções verificam-se para β =0 onde duas regras surgem com o mesmo valor de índice
de precisão na loja 2A e uma delas conduziria a uma classificação incorrecta. Assim, o
único critério que é possível deduzir destas observações é que os valores dos parâmetros
do índice de precisão devem afastar-se dos limites onde surgem as zonas de indecisão.
Note-se que, neste caso particular, as regras proposicionais obtidas da árvore
construída pelo método QUEST poderiam ser removidas dos resultados, uma vez que o
elevado valor de estimativa de erro por leave-one-out não permite que as classificações
indicadas por este método sejam escolhidas. No entanto, esta observação não se verifica
129
para todos os valores de β, pelo que se considera este resultado pontual para estes
dados. Com mais lojas é possível que as regras proposicionais definidas pelo QUEST
conduzam a valores de leave-one-out mais aceitáveis em termos do índice de precisão.
Outro pormenor está relacionado com o facto das regras proposicionais
enumeradas na Tabela 7 indicarem apenas um valor limite para as variáveis métricas
usadas em partições. Na verdade, o valor corresponde ao centro do intervalo entre a
última loja classificada no nó da esquerda e a primeira classificada no nó da direita. Este
intervalo
de
indefinição
da
classificação
é
tratado
nesta
dissertação
como
correspondendo à classificação em ambos os nós em simultâneo, deixando assim ao
utilizador (com auxílio do índice de precisão) a possibilidade de escolher a classificação
que considera mais adequada.
Dado o sucesso do índice definido, passa-se a utilizar este índice nas previsões
apresentadas nos próximos modelos, tendo igualmente sido implementado no software
APAV utilizado para efectuar previsões de vendas para novas localizações.
V.C. Modelos de Regressão Linear Múltipla
Tendo em conta a definição do problema, apresentada na secção I.B (pág. 10), e
tendo-se chegado a acordo sobre a medida a usar para comparar localizações e lojas
potenciais (vendas anuais previstas), uma metodologia comum passava pela construção
de modelos de regressão linear. Na verdade, a simplicidade destes modelos, a
capacidade explicativa dos parâmetros estimados e o facto de serem facilmente aceites
pelos decisores que, regra geral os conhecem bem assim como às técnicas usadas na
estimação, tornam estes modelos muito atractivos para este tipo de decisões.
No entanto, neste caso particular os modelos calibrados por regressão linear
apresentam algumas limitações importantes, sendo a mais relevante o facto de o limitado
número de lojas não permitir a construção de modelos por cada grupo de lojas análogas,
método aconselhado por autores como Themido et al. (1998) e Heald (1972). Para tentar
minimizar este problema, utilizam-se variáveis binárias para identificar os grupos e assim
extrair a componente das vendas explicadas por estes.
Foram ensaiados ainda modelos de segmentos latentes também conhecidos por
modelos de misturas finitas, estimados pela maximização da função de verosimilhança,
mas dificuldades na selecção de variáveis explicativas e principalmente problemas com o
elevado número de parâmetros a estimar para um número reduzido de observações
disponíveis, impediram a obtenção de modelos com qualidade suficiente. Estes métodos
130
apresentam a importante vantagem de realizarem em simultâneo os dois passos do
processo de estimação: a segmentação das lojas e o ajustamento de um modelo de
regressão com a possibilidade de estimar parâmetros distintos em cada cluster definido
(Cardoso, 2001 e Wedel e Kamakura, 2000).
V.C.1. Estimação e Selecção de Modelos
Iniciou-se o estudo deste problema pela construção de modelos de regressão com
objectivos exploratórios com vários grupos de dados disponíveis. Começou-se por
desenvolver modelos incluindo cadeias de lojas pertencentes a grupos económicos
concorrentes, tendo-se seleccionado apenas lojas com “área de vendas” inferior a 1.500
m2 e em localizações geográficas semelhantes às da cadeia em estudo. No entanto, a
dificuldade em recolher informação sobre cadeias concorrentes inviabilizou a utilização
desta alternativa.
Tendo em conta as dificuldades relacionadas com o reduzido número de lojas
existentes para a cadeia de lojas em consideração, construíram-se ainda alguns modelos
de regressão com lojas de várias insígnias pertencentes ao mesmo grupo de distribuição
e para as quais se dispunha de valores de vendas rigorosos. Estas regressões, com fins
exploratórios, incluíam cerca de 60 lojas de tamanhos e localizações muito diversas,
dispondo-se de muito poucas variáveis explicativas, quase todas resultantes de análise
espaciais e demográficas.
Destas regressões e de estimativas de correlações bivariadas de Pearson entre as
diferentes variáveis em estudo, foi possível concluir da elevadíssima correlação entre as
“vendas anuais para 1999” e a “área de vendas” ou o “número de caixas de saída”
atingindo os 0,93 e 0,97 respectivamente. Esta forte correlação aconselha uma forma
funcional linear ou a utilização de rácios “vendas anuais por área comercial”. Estas
regressões exploratórias confirmaram o comportamento diferenciado entre grandes
espaços comerciais e os pequenos, sendo as vendas dos primeiros facilmente explicadas
pela “área de vendas” e as segundas revelando-se muito mais difíceis de modelar, sendo
necessário considerar um maior número de variáveis explicativas.
Sublinhe-se que, em ambos os modelos com objectivos exploratórios, os
resultados medidos pelo coeficiente de determinação são muito bons, variando esta
medida de qualidade do modelo entre 88 e 93%. No entanto, ao observarmos mais
cuidadosamente os valores de vendas previstos para as lojas da cadeia em estudo,
131
encontram-se desvios muito elevados, tornando estes modelos inadequados para
previsão. Perante estes resultados e as várias dificuldades encontradas, optou-se por
realizar regressões apenas com os dados da cadeia, o que também tem a vantagem de
tornar o grupo de lojas analisadas mais análogas. Na verdade, como discutido na secção
II.C.2 (pág. 31), estas regressões apenas fazem sentido se as lojas forem comparáveis
entre si e não se misturarem cadeias demasiado distintas.
Note-se que estas regressões apresentam algumas dificuldades práticas que
merecem ser referidas. Nomeadamente, foi necessário eliminar alguns atributos
considerados menos relevantes, uma vez que o número de variáveis mudas não deve ser
exagerado, e utilizaram-se as variáveis ordinais com 5 ou mais níveis como métricas.
Este procedimento é recomendado por autores como Tabachnick e Fidell (2001),
Rawlings et al. (1998) e Berry (1993).
Foi ainda necessário eliminar todas as variáveis com valores omissos34, o que
implicou a redução de cerca de duas dezenas de variáveis potencialmente explicativas
das vendas. Notaram-se igualmente problemas na heurística passo a passo (stepwise)35
para escolha das variáveis explicativas, em especial quando se utilizam variáveis mudas.
No entanto, os maiores problemas observaram-se por quasi-singularidade da matriz de
variância \ covariância.
Os problemas de multicolinearidade que conduzem à quasi-singularidade da
matriz de variância \ covariância, que precisa de ser invertida durante o processo de
estimação dos parâmetros, foram detectados por utilização do condition index. Este
índice é calculado como a raiz quadrada do quociente entre o maior valor próprio e o
menor da matriz de correlações entre as variáveis independentes.
Sempre que um modelo apresentava valores de condition index próximos ou
superiores a 30, removeu-se a variável independente com maior valor de factor de
inflação da variância (variance inflation factor). Este factor é simplesmente o inverso do
recíproco do coeficiente de determinação múltiplo obtido de regressões de cada variável
com todas as restantes variáveis independente. Deste modo, permite-se que novas
variáveis explicativas entrem no modelo pela heurística passo a passo (ver Tabachnick e
Note-se que a utilização do método pairwise para excluir os casos com valores omissos não permitia
obter resultados. O método pairwise minimiza o número de observações não consideradas na regressão
excluindo apenas aquelas que são inevitáveis.
35
Utiliza-se as expressões “heurística passo a passo” ou “regressão passo a passo” como tradução de
stepwise method, correspondendo a uma heurística de construção de modelos de regressão em que em
cada passo é incluída ou excluída uma variável explicativa do modelo até que o “melhor” modelo seja
obtido. A segunda tradução é referida em Guimarães e Cabral (1997).
34
132
Fidell, 2001, Moutinho et al., 1998, Berry, 1993 para uma discussão dos problemas de
multicolinearidade).
Das estimativas apresentadas na Tabela 10 resulta a necessidade já
intuitivamente observada de segmentar o grupo de lojas. O melhor modelo sem a
inclusão da informação sobre agrupamentos é claramente inferior aos restantes dois
modelos que integram essa informação, em todos os indicadores de qualidade utilizados.
Pelo contrário, os modelos que incluem a informação sobre agrupamentos definidos pela
metodologia interactiva podem ser considerados muito bons. No entanto, para o modelo
que inclui as lojas identificadas como atípicas, o resultado é fortemente influenciado por
estas lojas, nomeadamente no que respeita ao desvio relativo médio. Valores reduzidos
de desvio absoluto médio e comparativamente elevados de desvio relativo médio indicam
que as previsões correspondentes a maiores desvios se verificam para as lojas que
menos vendem, tal como acontece neste caso (ver Figura 22, pág. 100).
Outro problema observado prende-se com a instabilidade dos modelos
relativamente à eliminação de outliers. Comparando os resultados da tabela para os dois
melhores modelos é fácil concluir da boa robustez dos modelos obtidos já que utilizam
exactamente as mesmas variáveis como explicativas. As variações observadas nos
coeficientes das variáveis mudas, quando se removem apenas duas lojas consideradas
aberrantes ou atípicas, podem ser explicadas pela elevada influência desses pontos nos
resultados.
Esta afirmação é corroborada por medidas de influência de observações
específicas (as duas lojas atípicas) nos parâmetros do modelo, como a diferença entre o
resíduo PRESS (Predicted Sum of Squares) e os resíduos estudantizados (studentized
residual36) ou medidas da diferença da estimativa de parâmetros com e sem as
observações (DfBetas), apresentando as lojas atípicas sempre valores muito elevados de
influência nos resultados (ver Figura 26). Sublinhe-se que estas observações são
especialmente influentes nas estimativas dos parâmetros do modelo por se situarem no
extremo inferior dos valores de vendas (Tabachnick e Fidell, 2001). Estes resultados
justificam a eliminação de duas observações numa regressão já com reduzido número de
graus de liberdade.
Usa-se a expressão “resíduos estudantizados” como tradução de “studentized residual” como sugerido
por Maroco (2003). Na secção seguinte explicam-se em maior pormenor estas medidas de influência das
diferentes observações nos valores estimados.
36
133
TABELA 10 REGRESSÕES PARA AS LOJAS DA CADEIA COM E SEM CONSIDERAÇÃO DE GRUPOS ANÁLOGOS.
(Modelos significativos a 1% pelo teste F de análise de variância e coeficientes estimados a 5% pelo teste t)
MODELOS
SEM a
GRUPOS ANÁL.
COM GRUPOS ANÁLOGOS
TODAS LOJAS
SEM ATÍPICAS
Indicadores de Qualidade da Regressão
64,2 %
85,1%
93,7 %
Graus de Liberdade
19
15
13
Estatística F
14
16
37
9.160
4.725
1.103
Desvio Absoluto Médio
376
242
117
Desvio Relativo Médio
11 %
13 %
3,3 %
10
15
19
230 (100)
49,4 (8,9)
125 (50)
0,520 (0,093)
0,265 (0,099)
0,330 (0,054)
--
0,0495 (0,0180)
0,0416 (0,0097)
0,169 (0,083)
--
--
-85 (40)
--
--
Densidade de Edifícios
Construídos entre 96 e 2001
--
3,4 (1,3)
3,3 (0,9)
Área de Influência por
caminhos mais curtos 2,5 min.
--
0,200 (0,097)
0,188 (0,062)
Lojas de Bairro Grandes
n.a.
339 (60)
231 (35)
Lojas Intermédias
n.a.
309 (59)
196 (95)
Lojas Grandes
n.a.
269 (76)
145 (44)
Lojas de Passagem
n.a.
170 (65)
64 (38)
Grandes de Passagem
n.a.
605 (81)
465 (47)
Coef. Deter. Ajustado
Desvio Quadrático Médio
Condition Index
Coeficientes Estimados (Erro Padrão)
Constante
Área de Vendas (m2)
Nº de Alojamentos com
Proprietário Ocupante
Nº de Famílias Clássicas com
5 ou mais Pessoas
Nº de lojas Discount nas
proximidades
a
Melhor modelo obtido sem as variáveis mudas referentes aos grupos análogos, tendo sido tentadas várias variáveis dependentes
e várias formas funcionais. As duas lojas atípicas foram excluídas.
134
Todas as variáveis explicativas podem ser consideradas chave no sentido de
Themido et al. (1998), uma vez que são estruturantes e seria pouco compreensível do
conhecimento do domínio em estudo que pelo menos a “área de vendas” não fosse
incluída num modelo de previsão de vendas anuais. Note-se ainda que o conjunto de
variáveis explicativas apresenta-se distribuído pelas classes sugeridas na Figura 7 (pág.
50). Na verdade, incluem variáveis referentes às características das lojas (oferta) como
“área de vendas”, à concorrência (ligada à dimensão da área de influência) e ao potencial
de procura: presente (“número de alojamentos com proprietário ocupante”) e dinâmica
(“densidade de edifícios construídos entre 1996 e 2001”).
2,0
W
A
W
A
W
A
W
W
WA
WW
A
A
W
A
WA
W
A
W
WA
W
A
A
WA
W A
A
WW
WA
A
WA
W A
A
W
A
0,0
W
A
-2,0
UA
-4,0
-6,0
LN
W
A
-2,0
( a)
W
A
-1,0
0,0
1,0
DfBeta padronizados para a "área de vendas"
Dif. entre Resíduo s Estudan tizados e PRESS
FIGURA 26 MEDIDAS DE INFLUÊNCIA DAS OBSERVAÇÕES PARA O MODELO COM TODAS AS LOJAS.
(Diferença entre o Resíduo Estudantizado e PRESS (a) e DfBeta para a “área” (b). Lojas atípicas identificadas.)
UA
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
LN
-1,0
-2,0
2,0
Valores P revistos Padronizados
1,0
(b)
-1,0
0,0
1,0
2,0
Valores Previstos Padronizados
Assim, apesar da abundância de variáveis explicativas alternativas para um
reduzido número de observações (curse of dimensionality), a presença de variáveis
chave nos modelos corresponde a uma robustez mínima, contribuindo para a confiança
dos decisores na utilização dos valores previstos. A avaliação do sinal do coeficiente
estimado para uma variável explicativa relativamente ao conhecimento do domínio é
igualmente relevante na validação do modelo. Neste caso, não apenas os sinais são os
esperados, como as variações percentuais de coeficientes correspondentes a variáveis
métricas, entre os dois melhores modelos, são inferiores a 20%. Estes factos são
determinantes na verificação da robustez e validação do modelo, contribuindo assim para
a sua aceitabilidade.
135
Tendo em conta a qualidade do modelo com agrupamentos e sem lojas atípicas,
este é o único modelo escolhido para ser implementado. Sublinhe-se que todas as
medidas de qualidade do modelo são bastante superiores relativamente aos restantes.
No entanto, a utilização do modelo para previsão está condicionada à verificação dos
pressupostos do método de estimação utilizado.
V.C.2. Verificação dos Pressupostos da Regressão Linear Múltipla
Tendo em conta o melhor modelo da Tabela 10, e ainda que o modelo tenha sido
validado pelos especialistas tanto na avaliação das variáveis incluídas como na
adequação dos sinais dos coeficientes estimados, é agora necessário verificar as
condições de aplicabilidade do método paramétrico utilizado. Assim, o modelo só é válido
se os desvios ou resíduos puderem ser ajustados de forma satisfatória a uma distribuição
normal de média nula e variância constante e se puderem ser considerados
independentes entre si (Maroco, 2003, Guimarães e Cabral, 1997). Testa-se, igualmente,
a existência de outliers e a estabilidade ou robustez dos modelos em função de um
possível sobre-ajustamento.
Na Figura 27 apresentam-se gráficos para verificação dos pressupostos da
regressão. Um pressuposto fundamental da regressão linear, como técnica paramétrica,
é o de que os desvios devem seguir uma distribuição normal. Do gráfico (a) de dispersão
dos desvios padronizados em função das previsões igualmente padronizadas, os valores
surgem bem distribuídos em torno do valor nulo e não se observa qualquer evidência de
variância crescente ou decrescente com os valores previstos, nem qualquer afastamento
de uma relação linear. Desta forma, não se observa evidência para rejeitar as hipóteses
de linearidade do modelo e de homocedasticidade dos desvios.
Do gráfico (b), gráfico de probabilidade normal (normal probability plot), onde se
compara a probabilidade acumulada das observações com a extraída de uma distribuição
normal de média nula e desvio padrão um37. A probabilidade observada é obtida por
soma dos valores dos resíduos padronizados por z-scores, e a probabilidade extraída da
normal é a que corresponde à posição na ordenação das diferentes observações38
(Tabachnick e Fidell, 2001).
Resultados idênticos foram obtidos quando os parâmetros da distribuição eram estimados da amostra.
Utilizou-se a expressão de Blom: (r-3/8)/(n-1/4) onde n é o número de observações e r a posição na
ordenação (Tabachnick e Fidell, 2001). Outras expressões conduzem a resultados idênticos.
37
38
136
FIGURA 27 VERIFICAÇÃO DOS PRESSUPOSTOS DE REGRESSÃO PARA O MELHOR MODELO IDENTIFICADO.
(Gráficos de dispersão do desvio (a), gráfico de probabilidade normal (b), histograma dos resíduos com algumas
estatísticas e erros padrão entre parêntesis (c), diferença entre os desvios estudantizados e PRESS (d)).
Probabilidade Acumulada Normal
1,0
2,0
Desvio Padronizado
2N
IE
1,0
0,0
-1,0
-2,0
-2,0
-1,0
0,0
1,0
6
5
4
3
2
1
0
( c)
-2,0
-1,0
0,4
0,2
0,0
1,0
Desvios Padronizados
2,0
(d)
0,2
0,4
0,6
0,8
1,0
Probabilidade Acumulada Observada
(b)
Dif. entre Resíduo s Estudan tizados e PRESS
Frequência Observada
Média = 1,18e-15 (0,160)
Skewness = 1,082 (0,481)
7 Kurtosis = 2,395 (0,934)
0,6
0,0
0,0
2,0
Valores Previstos Padronizados
( a)
0,8
2,2
2,0
A
W
1,0
W
A
IE
2N
WA
W
W
A
A
A
A
W
W
W
W
WA
W
A
W A
W
A
A
A
W
W A
WA
WA
WA
W A
A
W
A
W
A
W
0,0
A
W
-1,0
-2,2
-2,0
-2,0
-1,0
0,0
1,0
2,0
Valores Previstos Padronizados
Da observação do gráfico, a normalidade dos resíduos não é evidente já que os
dois pontos com desvios maiores distorcem um pouco a distribuição. Assim, calcularamse várias estatísticas e efectuaram-se diferentes testes para verificar a aderência à
distribuição normal dos desvios.
Do histograma apresentado no gráfico (c) observa-se uma tendência para a
concentração dos valores em torno da média, i.e. uma distribuição leptocúrtica com um
pico demasiado elevado, e algum enviesamento para o lado direito, que apresenta uma
cauda ligeiramente maior. Além de confirmarem estas observações, as estatísticas de
137
enviesamento (skewness) e achatamento (kurtosis) podem ser usadas para testar as
assimetrias relativamente à normal da distribuição de resíduos observada.
Assim, o quociente entre a estatística e o seu erro padrão seguem uma
distribuição normal reduzida donde é possível retirar o valor 2,576 para um nível de
significância de 1% (Tabachnick e Fidell, 2001). Sendo assim, nenhum destes testes
exclui a possibilidade de os desvios provirem de uma distribuição normal. É ainda comum
utilizar testes não paramétricos como o de Kolmogorov-Smirnov ou Shapiro-Wilk para
verificar o ajuste dos desvios à distribuição normal. Neste caso obtiveram-se valores de
0,18839 e 0,881 respectivamente para cada estatística e, logo, 3,4% e 1,0% para as
probabilidades de significância (p-value). Sendo assim, com um nível de significância de
5% não é de recusar a hipótese nula de que os desvios provêm de uma distribuição
normal.
Ainda que os resultados anteriores não rejeitem a hipótese dos desvios ou
resíduos do modelo provirem de uma distribuição normal, nos gráficos (a) e (b) da Figura
27, as lojas com os maiores desvios surgem como possíveis candidatas a observações
atípicas ou outliers. Para confirmar a existência de lojas candidatas a serem removidas
por serem consideradas atípicas, foram calculadas diversas estatísticas como a distância
de Mahalanobis, de Cook e a estatística PRESS para resíduos. Todas estas medidas são
usadas para avaliar a existência de observações atípicas multivariadas (Maroco, 2003,
Tabachnick e Fidell, 2001).
A distância de Mahalanobis é simplesmente a distância de uma observação ao
centróide definido pelas restantes observações, também conhecida por leverage ou
alavancagem40. Pelo contrário, a distância de Cook e a estatística PRESS para resíduos
são medidas de influência das observações. Funcionam de forma semelhante à análise
de sensibilidade já que compreendem o cálculo dos parâmetros do modelo quando se
provocam ligeiras alterações nos dados. Neste caso, as alterações provocadas
correspondem à eliminação da observação para a qual a estatística é calculada. As
várias variações da distância de Cook são sempre medidas da qualidade da regressão
relacionadas com o resíduo estimado de todas as observações quando uma é eliminada.
A estatística PRESS para resíduos (também conhecida por studentized deleted residual)
No cálculo da estatística de Kolmogorov-Smirnov utilizou-se a correcção de Lilliefors para amostras
pequenas. No entanto, autores como Maroco (2003) demonstram preferencia pelo teste da estatística
Shapiro-Wilk quando as amostras são inferiores a 30 observações.
40
Na verdade, a distância de Mahalanobis e a alavancagem não são exactamente o mesmo, ainda que
possam ser facilmente convertidos segundo uma expressão que depende apenas do número de pontos
considerados na regressão (Tabachnick e Fidell, 2001).
39
138
refere-se ao resíduo do ponto eliminado, recalculando o modelo para as restantes
observações e corrigido para variações nas variâncias estimadas pelo que faz sentido
compará-lo com o resíduo Estudantizado, i.e. com idêntica correcção.
Assim, no gráfico (d) da Figura 27 apresenta-se a diferença entre o resíduo
PRESS e os resíduos estudantizados voltando a destacar-se as duas lojas candidatas a
outliers. A diferença anterior segue uma distribuição t de student exacta quando os
desvios podem ser considerados normais (Maroco, 2003). Assim, no gráfico (d) da Figura
27 apresentam-se os valores críticos para 13 graus de liberdade e 5% de nível de
significância. Segundo este teste estatístico, os pontos assinalados não podem ser
considerados atípicos ou aberrantes uma vez que não é possível rejeitar a hipótese nula
de igualdade entre os resíduos estudantizados calculados com e sem a observação.
O sobre-ajustamento (overfitting) dos modelos é frequente em situações de curse
of dimensionality. Como acontece neste caso, o uso de um elevado número de variáveis
potencialmente explicativas dos valores da variável dependente pode conduzir a modelos
com um número excessivo de variáveis independentes e coeficientes de determinação
multilineares muito próximos da unidade. Na verdade, acaba-se por explicar não apenas
a variância da população mas também parte do erro, conduzindo a modelos dificilmente
generalizáveis e utilizáveis em previsão.
Uma das formas da multicolinearidade se manifestar é através da existência de
sobre-ajustamento, já que a primeira é uma das mais importantes fontes de sobreajustamento (Tabachnick e Fidell, 2001, Rawlings et al., 1998, Berry, 1993). Exactamente
por se estar ciente deste facto, a multicolinearidade foi um problema cuidadosamente
controlado, apresentando os modelos escolhidos valores baixos de condition index.
Outros factores indicativos da estabilidade do modelo como a estabilidade resultante da
comparação entre o modelo com e sem outliers, e o facto de se ter passado em testes de
análise de sensibilidade como os resíduos ou as previsões PRESS dão alguma
segurança quanto à ausência de sobre-ajustamento.
No entanto, a ausência de sobre-ajustamento apenas pode ser verificada, com
segurança, por utilização de técnicas de validação externa i.e. com novos dados
mediante validação cruzada e integração de conhecimento de especialistas (Lattin et al.,
2003, Tabachnick e Fidell, 2001). A integração de conhecimento do domínio foi uma
realidade nomeadamente na selecção entre os muitos modelos construídos, na
verificação da relevância das variáveis explicativas incluídas e na validade dos sinais dos
parâmetros estimados.
139
Ainda que a validação cruzada com divisão em grupo de estimação e grupo de
teste, mais uma vez, não tenha sido possível devido ao reduzido número de observações
disponíveis, foi possível utilizar o método leave-one-out descrito no ponto V.B.1 (pág.
115). Este método, correspondente a um processo alternativo de validação cruzada, é
agora aplicado não a uma variável dependente nominal mas a uma variável métrica.
Neste caso, determina-se a previsão para um ponto depois de estimar os parâmetros do
modelo para os restantes. Os desvios destas previsões relativamente ao valor real de
vendas para 2002 permitiram determinar o valor de 80,3% para o coeficiente de
determinação relativo ao modelo escolhido. Ainda que este valor seja consideravelmente
inferior ao valor da Tabela 10, ainda é um valor elevado, correspondente a uma avaliação
muito boa do modelo de regressão.
V.C.3. Evolução Cronológica das Vendas e Validação com Novos Dados
Ainda que o maior esforço de modelação corresponda a dados longitudinais
(cross-sectional data), os aspectos dinâmicos da evolução das vendas não podem ser
descurados. Tendo em conta que a medida de desempenho escolhida para efectuar
comparações entre localizações alternativas é o valor previsto para as vendas anuais do
ano seguinte, é necessário modelar a série cronológica das vendas. Uma vez que se
dispõe de uma segmentação das lojas, e ainda que esta não tenha sido definida tendo
em conta aspectos dinâmicos, parece mais adequado ajustar modelos para cada um dos
grupos de lojas definidos ao invés de se utilizar uma agregação para todas as lojas. O
pressuposto é o de que lojas ou localizações semelhantes terão igualmente evoluções
semelhantes das vendas.
Infelizmente, para o caso presente, existem apenas três anos disponíveis. Na
Figura 28 apresentam-se as médias de vendas anuais a preços constantes (a) e as
médias de vendas por metro quadrado de área de vendas (b), ambas complementadas
pelo erro padrão da média. São ainda apresentados valores de previsão e de intervalos
de previsão para o ano de 2003, calculados segundo dois métodos distintos, apenas com
dados dos três primeiros anos. Pretende-se, nestes gráficos, encontrar padrões e
tendências de variação que possam sugerir um método mais adequado para previsão.
Os dois métodos de previsão sugeridos são adequados para duas situações
distintas:
140
Passagem
Intermédias
Bairro >'s
2003méd
2003méd
2003últ
Passagem >'s
2003méd
2000
2001
2002
2003real
Grandes
2003últ
2003méd
2000
2001
2002
2003real
2003últ
2003últ
2003últ
2003méd
2000
2001
2002
2003real
Grandes
2003méd
2000
2001
2002
2003real
2003últ
2003méd
2000
2001
2002
2003real
Bairro >'s
2003últ
2003últ
2003méd
2000
2001
2002
2003real
2003méd
2000
2001
2002
2003real
Intermédias
2003méd
2000
2001
2002
2003real
2003últ
Passagem
2003méd
2000
2001
2002
2003real
Bairro <'s
2003últ
2003méd
2000
2001
2002
2003real
2003últ
2000
2001
2002
2003real
Bairro <'s
2003últ
vendas por área a preços constantes e previsões
(barras de erro padrão da média e erros de previsão)
( a)
2000
2001
2002
2003real
vendas médias a preços constantes e previsões
(barras de erro padrão da média e erros de previsão)
FIGURA 28 MÉDIA DE VENDAS ANUAIS (a) E DE VENDAS POR UNIDADE DE ÁREA (b) POR GRUPO E PREVISÕES a.
(Valores a preços constantes de 2000 b e intervalos de confiança de previsão a 95% c)
Passagem >'s
(b)
a
Os valores de vendas de 2003 não foram utilizados no cálculo das previsões apresentadas. b Utilizou-se a média anual dos
valores mensais de Índice de Preços ao Consumidor (IPC) publicados pelo INE para a categoria “alimentação e bebidas não
alcoólicas” e retirados de www.ine.pt em 24/11/2004. Utiliza-se uma média entre as regiões Norte e Lisboa e Vale do Tejo já que
as variações são reduzidas. c Usam-se expressões para o intervalo de previsão da média de 3 observações e valor crítico da
distribuição t de student com dois graus de liberdade.
141
•
método da tendência (“2003últ” nos gráficos da Figura 28) quando a série
de vendas anuais a preços constantes apresenta tendência pronunciada, o
método sugerido de previsão utiliza o último ano disponível acrescentando
uma variação média observada nos últimos anos;
•
método da média (“2003méd” nos gráficos da Figura 28) usa-se quando a
série não apresenta uma tendência evidente e consiste em utilizar como
previsão a média dos últimos três anos disponíveis41.
Estes dois métodos devem ser actualizados à medida que novos dados vão sendo
disponibilizados, nomeadamente com utilização de métodos paramétricos causais como a
regressão com variáveis explicativas das variações de vendas por grupo ou métodos não
paramétricos univariados de extrapolação como o alisamento exponencial, ou o método
de Holt, uma vez que as séries cronológicas não aparentam incluir qualquer componente
sazonal (Bowerman et al., 2005, Chatfield, 2001 e Moutinho et al., 1998).
Comparando os dois gráficos da Figura 28, é fácil concluir que as previsões para
as vendas têm maior precisão do que as previsões para as vendas por unidade de área.
Estes resultados eram previsíveis já que a segmentação das lojas usou como variável
base as vendas anuais e como critério a minimização da variância no interior dos grupos.
Assim, os grupos formados apresentam variabilidade inferior quando medida em termos
de vendas anuais do que em termos de vendas por unidade de área, até porque
apresentam um comportamento mais regular. Este facto aconselha a utilização de
modelos cronológicos de vendas anuais em detrimento das vendas por unidade de área.
Observando o gráfico (a) da Figura 28 e ignorando o valor de vendas para 2003, é
possível observar algumas tendências crescentes, como se verifica para as lojas de
Bairro Grandes, Intermédias ou Lojas Grandes de Passagem. As Lojas Grandes
apresentam igualmente uma clara tendência, mas neste caso decrescente. Para estes
tipos de lojas o método mais adequado é provavelmente o método da tendência para
extrapolação das vendas anuais. Já no caso das Lojas de Bairro Pequenas e das Lojas
de Passagem, o método mais adequado aparenta ser o da média dos três anos
disponíveis.
No entanto, é importante notar que mais uma vez o conhecimento do domínio por
parte dos especialistas é fundamental. Se observarmos os valores de vendas para 2003 é
fácil concluir que se trata de um ano pouco regular relativamente aos restantes já que
praticamente todos os grupos diminuem as suas vendas relativamente a 2002, quando
comparados a preços constantes de 2000. Se um especialista conseguir antecipar este
41
Na aplicação APAV permite-se ainda a utilização da mediana.
142
comportamento por observação do ciclo económico, ou por expectativas criadas com
outra informação quantitativa ou qualitativa, pode conseguir previsões bastante mais
exactas do que os valores calculados pelos modelos apresentados.
Note-se que, ao atribuir uma extrapolação de vendas para o próximo ano
calculada para um grupo a uma localização potencial em particular, se está mais uma vez
a recorrer ao conceito de grupos de lojas análogas e ainda a afirmar o mesmo tipo de
analogia entre a localização potencial e as lojas do grupo. Com os dados de que se
dispõe, a aplicação deste conceito afigura-se adequado já que os valores de erro padrão
da média são bastante aceitáveis para a maioria dos grupos. A excepção deve-se às
Lojas Grandes de Passagem onde, como foi já discutido na secção IV.C (pág. 107), as
duas lojas que constituem este grupo definem um grupo menos homogéneo do que os
restantes.
O modelo final utilizado para efectuar as previsões pode ser representado nas
equações seguintes onde Ŵ03j representa o valor previsto para as vendas da loja j em
2003. As variáveis aVendj, nAlojj, dEdifj e aInflj são as variáveis explicativas do modelo
calibrado com vendas anuais de 2002 e apresentadas na Tabela 10 (pág. 133) para o
modelo com agrupamentos e sem lojas atípicas. O termo independente (B03j) é calculado
segundo os resultados da mesma regressão e as correcções resultantes da análise
cronológica das vendas anuais e depende do grupo a que é atribuída a localização
potencial. Notem-se as reduzidas correcções devidas à evolução cronológica das vendas,
apresentadas no último termo de B03j.
Wˆ03 j = B03 j + 0,330 × aVend j + 0,0416 × nAloj j + 3,26 × dEdif j + 0,188 × aInfl j
B03 j
se j ∈ Bairro <
⎧-10
⎪64 − 6 se j ∈ Passagem
⎪
⎪⎪196 + 40 se j ∈ Intermédia
= 125 + ⎨
⎪231 + 57 se j ∈ Bairro >
⎪145 − 31 se j ∈ Grande
⎪
⎪⎩465 + 79 se j ∈ Passagem >
(12)
Para se avaliar a qualidade das previsões para novas localizações potenciais é
essencial utilizar dados não utilizados na estimação dos modelos. Assim, na Tabela 11
apresentam-se algumas medidas de qualidade de previsão para o ano de 2003. Sublinhese que as “vendas anuais para 2003” não foram utilizadas na estimação de nenhum dos
modelos anteriores.
143
Nesta tabela apresentam-se resultados para o modelo (12) denominado “previsões
com dados de estimação” e para previsões pelo método leave-one-out. Tendo em conta o
reduzido número de graus de liberdade observado nos modelos de regressão ajustados
na Tabela 10 (pág. 133) os resultados pelo método de jackknife ou leave-one-out
oferecem modelos alternativos de previsão. Tendo em conta que são habitualmente
aceitáveis erros relativos de previsão até 10%, os resultados apresentados são de boa
qualidade (Bowerman et al., 2005 e Penny e Broom, 1988).
TABELA 11 MEDIDAS DE QUALIDADE DAS PREVISÕES EFECTUADAS PARA O ANO DE 2003.
(Previsões por leave-one-out referem-se a previsões efectuadas para lojas não incluídas no ajuste da regressão)
PREVISÕES COM
DADOS DE ESTIMAÇÃO
PREVISÕES POR
LEAVE-ONE-OUT
Erro Quadrado Médio
5.303
9.690
Erro Relativo Médio
8,9 %
10,8 %
Mediana do Erro Relativo
6,8 %
7,7 %
Erro de Previsão Médio
-117
-172
Erro Absoluto Médio
292
370
MEDIDAS DE QUALIDADE
Os resultados são tão mais aceitávies por se ter já concluído que, provavelmente
devido ao ponto do ciclo económico que atravessamos, o ano 2003 foi pouco previsível
relativamente aos anteriores, nomeadamente ao ano de 2002 usado no ajustamento do
modelo de regressão. Tanto a diferença entre o valor médio e a mediana como as médias
do erro de previsão são consideráveis e indicam uma distribuição não centrada em zero e
assimétrica à esquerda com alguns erros provavelmente mais elevados.
Para se poderem analisar os erros relativos para cada uma das lojas existentes
construíram-se os gráficos da Figura 29 onde se comparam os erros obtidos pelos dois
métodos de previsão considerados. No gráfico (a) é possível observar a prevalência do
modelo correspondente às equações (12) sobre o modelo de previsão obtido pelo método
leave-one-out. Na verdade, apenas 4 lojas apresentam erros de previsão inferiores para
este último método. O gráfico (b) confirma mais uma vez estes resultados.
No gráfico (a) é ainda possível distinguir alguns grupos de lojas relativamente aos
restantes quanto aos erros relativos. As previsões para as Lojas Grandes de Passagem e
as Lojas de Passagem são muito boas, apresentando estas lojas comportamentos de
vendas muito regulares. Por outro lado, as Lojas de Bairro Grandes, de Bairro Pequenas
144
e Intermédias (com excepção da loja AA) são aceitáveis, e apresentam vendas previstas
quase sempre superiores às realizadas, o que é compreensível tendo em conta a
recessão económica que atravessamos e a orientação para segmentos de classe média
a elevada.
FIGURA 29 ERROS DE PREVISÃO RELATIVOS PARA TODAS AS LOJAS (a) E GRÁFICO DE EXTREMOS E QUARTIS (b).
(Gráfico (b) valores absolutos e círculo corresponde a valores superiores a 1,5 de amplitude interquartílica)
erros de previsão relativos
30%
20%
previsões por leave-one-out
previsões c\ todas as lojas
10%
0%
-10%
-20%
-30%
NR 2N LM PY AN FO RP RL AA RA UE OA PK 2R BR 2A KO IE UB FA LA BF MR
Bairro >'s
Bairro <'s
Intermédias
Grandes
Passagem Psg >'s
( a)
erros de previsão relativos
30%
A
AA
20%
10%
0%
dad os de estimação método leave-one-o ut
(b)
No entanto, os piores erros de previsão podem ser encontrados entre as Lojas
Grandes que surgem divididas em dois grupos: as lojas KO e IE com vendas acima das
145
previsões e as restantes com vendas abaixo das previsões. Apesar desta observação, as
medidas de variância explicada são aceitáveis sem a divisão em dois grupos (ver Tabela
5, pág. 105).
Do gráfico (b) da Figura 29 pode observar-se que quase 75% das lojas obedece à
regra dos 10% de erro de previsão aceitável, ainda que este limite seja considerado muito
exigente por autores como Birkin et al. (2002). Deste gráfico destaca-se a loja AA como
atípica. Na verdade, esta loja apresenta um comportamento inesperado, com uma queda
nas vendas entre 2002 e 2003 de 15% a valores constantes. Assim, esta loja tornou-se
claramente a que menos vende dentro do grupo, sendo provavelmente adequado a
passagem para o grupo das Lojas de Bairro Pequenas.
Note-se que os erros de previsão apresentados não incluem erros de
classificações incorrectas. Tais erros podem ser avaliados utilizando as previsões pelo
modelo (12) e os valores de vendas para 2003. A utilização de valores reais de vendas
anuais para 2003 permite calcular um erro médio por grupo incluindo erros de
classificação e de previsão. O gráfico da Figura 30 não é simétrico por no denominador
do erro relativo surgirem as vendas reais que apresentam valores muito distintos se o
grupo real for as lojas de Bairro Grandes ou as Lojas Grandes de Passagem. Sublinhe-se
que estes “custos” de classificações incorrectas podem ser integrados nos algoritmos de
indução de regras proposicionais (Thomas et al., 2002 e SPSS, 2001).
FIGURA 30 ERROS DE PREVISÃO E DE CLASSIFICAÇÃO PARA O MODELO (12) PARA O ANO DE 2003.
(Os valores menores na diagonal correspondem a erros de previsão já que o grupo atribuído é também o real)
erros de previsão e
de classificação
100%
50%
0%
-50%
-100%
Ba
irr
o
<
Pa
ss 's
ag
In
e
te
rm m
é
Ba dias
irr
o
>'
s
G
r
Pa
an
de
ss
ag
s
em
>'
s
-150%
grupo atribuído
grupo real
P
G a
Ba ran ssag
I
P nt ir d em
Ba ass erm ro > es
>'
s
irr ag éd 's
o em ias
<'
s
146
Estes resultados põem em evidência a necessidade de manter a informação
actualizada com dados de vendas e periodicamente também com os restantes métodos
de recolha utilizados. Novos dados significam igualmente a renovação dos modelos, em
especial do modelo representado pela equação (12), mas igualmente das regras
proposicionais e mesmo da tipologia definida.
V.D. A aplicação APAV no Apoio a Decisões de Localização
Após a construção e estimação de modelos com o objectivo de prever vendas
para novas localizações potenciais, passa-se nesta secção a descrever uma aplicação de
software que implementa os modelos descritos e, em conjunto com outras aplicações já
existentes, constitui um ambiente de apoio à decisão.
A utilização de modelos, dados, conhecimento e software para apoiar decisões
conduziu aos denominados Sistemas de Apoio à Decisão (SAD’s). Estes sistemas
podem ser definidos como a utilização de aplicações informáticas para assistir os
decisores em todo o processo de compreensão, definição, avaliação e escolha de
alternativas
e
finalmente
tomada
de
decisão
sobre
problemas
complexos
semiestruturados ou muito pouco estruturados, sendo igualmente um dos objectivos a
geração de conhecimento sobre o problema em estudo.
A expressão Sistema de Apoio à Decisão não é a única utilizada neste contexto.
Expressões relacionadas e que se podem encontrar na literatura compreendem SAD’s
Baseados em Conhecimento (Knowledge Based Decision Support Systems: KBDSS) que
se concentram na construção de uma base de regras de decisão obtidas pelas mais
diversos processos e com as mais diversas origens. Se a origem for apenas o
conhecimento de especialistas, então obtém-se um Sistema Pericial (Expert Systems)
(Turban et al., 2005).
Vários exemplos de SAD para apoiar decisões em marketing são apresentados
por Moutinho et al. (1998). Estes incluem planeamento de estratégias de marketing,
previsão de vendas para novos produtos e definição de opções de negócio utilizando
Analytical Hierarchy Process (AHP). Um exemplo, que utiliza árvores de decisão à
semelhança da presente dissertação, é o sistema pericial para a escolha de admissões
em cursos de MBA apresentado em Moore (1998). Muitos outros exemplos podem ser
encontrados onde actividades de classificação de clientes e investimentos são
fundamentais como na atribuição de pontuações a pedidos de crédito (credit scoring, ver
por exemplo Thomas et al., 2002). Para exploração mais completa deste tipo de sistemas
147
periciais e baseados em conhecimento recomenda-se Awad e Ghaziri (2004) e Adelman
(1992).
Um exemplo de Sistema Pericial para apoiar decisões de escolha de localizações
potenciais é o sistema descrito por Curry e Moutinho (1992). Neste artigo é efectuada
uma comparação deste tipo de sistemas com muitos outros tipos de modelos e técnicas
implementáveis num sistema informático. Por fim, é descrito um novo sistema baseado
na conjugação de equações matemáticas com uma representação formal de
conhecimento de especialistas num Sistema Perícial. Outras aplicações de Sistemas
Periciais pelos mesmos autores podem ser encontrados em Moutinho et al. (1996).
Keen e Morton (1978) acrescentam, à definição apresentada de SAD, a melhoria
da eficácia das decisões mas não necessariamente da eficiência do processo decisório,
i.e. pretendem-se melhores decisões, mais adequadas aos objectivos propostos, aos
problemas e ao contexto, com maior probabilidade de serem implementadas com
sucesso, mesmo que à custa de um processo por vezes mais demorado. Este conceito
põe a tónica nos resultados práticos produzidos em detrimento da eficiência dos
processos que resulta na maior parte das vezes da automação dos mesmos.
Na verdade, as principais vantagens das aplicações informáticas são o fácil
acesso à informação e aos modelos e a possibilidade de se poderem estudar, analisar ou
simular várias alternativas, permitindo melhorar a eficácia da decisão tomada. Como nota
Marakas (2003), a principal característica de um sistema eficaz, neste contexto, resulta
no reconhecimento da dinâmica de um sistema que não pode ser separada da dinâmica
do contexto que o rodeia, a qual exige constante revisão, adaptação, aprendizagem e
constante repensar o problema, mesmo que correndo o risco de o processo ser lento e
ineficiente.
Segundo o conceito de apoio à decisão, não se pretende substituir o decisor mas
fornecer-lhe um ambiente decisional adequado e informado (Turban et al., 2005, Keen e
Morton, 1978). Na base deste conceito está o reconhecimento de que em decisões pouco
estruturadas e complexas como as decisões de localização, os aspectos culturais e o
conhecimento do problema de quem decide não podem ser descurados ou ignorados
(Lilien e Rangaswamy, 2003, Birkin et al., 2002). Para que o utilizador confie na aplicação
construída, todo o processo foi acompanhado por frequentes reuniões e workshops com
os analistas e futuros utilizadores das aplicações. Em algumas reuniões, consideradas
mais relevantes, outros decisores estiveram presentes, como por exemplo o responsável
operacional pela cadeia de retalho alimentar.
148
Nos pontos seguintes pormenorizam-se as fases de desenho e de implementação
ou construção da aplicação que faz a ligação entre as diferentes peças de software
utilizadas e que permite analisar o problema e obter previsões, a que se denominou
Análise e Previsão por Analogia de Vendas (APAV). Note-se, no entanto, que fases
normalmente consideradas essenciais no desenvolvimento de SAD’s como a análise de
sistemas e as várias especificações funcionais e de requisitos, essencial para se obter
um sistema integrado, não foram consideradas nesta dissertação e mesmo as fases de
desenho, construção e implementação surgem de forma aligeirada (Marakas, 2003). Esta
opção consciente baseou-se no facto de que a aplicação ter sido sempre considerada
uma ferramenta útil para operacionalizar os modelos, mas não essencial para atingir os
objectivos do projecto.
V.D.1. Desenho: Integração de acoplamento fraco
Sistemas de apoio à decisão são aplicações computacionais com uma estrutura
que envolve três componentes essenciais. Os dados e ferramentas para os actualizar e
tratar, os modelos que permitem manipular esses dados com propósitos que vão desde o
simples apuramento de medidas de desempenho de soluções alternativas até optimizar
ou sugerir melhores alternativas, e uma interface que se pretende altamente interactiva e
com uma curva de aprendizagem o mais vertical possível. A esta estrutura base
acrescentam autores como Turban et al. (2005) um “subsistema baseado em
conhecimento” e Sauter (1997) facilidades de comunicação sobre internet, intranet ou
extranet, como o correio electrónico ou páginas World Wide Web (WWW), indispensáveis
na transmissão de conhecimento.
Segundo Marakas (2003), existem duas aproximações mais comuns ao desenho
de um SAD, nomeadamente: programando um sistema novo orientado para a decisão ou
conjunto de decisões e talhado para o decisor ou decisores específico ou utilizando uma
aplicação base a que denomina um gerador de SAD. A primeira aproximação envolve
um longo trabalho de programação numa linguagem genérica. Nomeadamente, nos
sistemas mais recentes e tendo em conta as enormes vantagens de comunicação e de
acesso a dados distribuídos, utilizam-se linguagens como o HTML e o Java no desenho
da interface (Turban et al., 2005).
Pelo contrário, um gerador de SAD é uma aplicação ou conjunto de aplicações
que permitem reduzir o trabalho de programação ao já conterem um conjunto de rotinas
para gerir dados, gerar e implementar modelos, visualizar gráficos e dados geográficos e
149
criar interfaces. Os exemplos são muitos e variados e vão desde as aplicações
específicas para o efeito a aplicações de data mining, pacotes estatísticos de análise de
dados, Sistemas Gestores de Bases de Dados Relacionais (SGBDR) ou Orientadas para
Objectos (SGBDOO), Sistemas de Informação Geográfica (SIG) até às muito simples
folhas de cálculo (Turban et al., 2005).
Perante um cenário tão vasto, porquê uma folha de cálculo para implementar a
aplicação APAV? A resposta a esta pergunta baseia-se nas especificidades do problema
e dos utilizadores em consideração. Os argumentos seguintes resumem a opção por uma
folha de cálculo.
•
A principal vantagem das aplicações geradoras de SAD’s sobre as soluções
especificamente desenhadas é a facilidade e rapidez na implementação dos
modelos e a possibilidade de introduzir facilmente conhecimento por parte do
utilizador. No caso das folhas de cálculo, a flexibilidade e rapidez de
implementação ou alteração são as grandes vantagens.
•
As folhas de cálculo oferecem uma interface e um conjunto de ferramentas que
os utilizadores conhecem, permitindo uma curva de aprendizagem muito
curta. Este facto é comum à maioria dos utilizadores, mas no caso dos
utilizadores do APAV é especialmente verdade por estes serem profundos
conhecedores da aplicação escolhida. A opção por uma folha de cálculo permite
ainda interligação com outras aplicações mais adequadas para gerir dados ou
construir modelos e a que os utilizadores já estão habituados.
•
O conjunto de ferramentas que oferece tende a aumentar e a cobrir os mais
variados aspectos da análise de dados e visualização, pelo que as actualizações
frequentes destas aplicações são igualmente um dos motivos da escolha. A
utilização de suplementos (add-ins, ver por exemplo Clemen e Reilly, 2001) e de
linguagens de programação de alto nível como o VBA – Visual Basic for
Applications do Ms. Excel (ver por exemplo Albright, 2001) aumenta fortemente
o poder de análise e de automatização destas aplicações.
•
O Ms. Excel dispõe ainda de várias ferramentas para integrar a folha de cálculo
com outras aplicações como o OLE – Object Linking and Embedded e obter
dados de fontes externas usando DDE – Dynamic Data Exchange e OLE DB
uma arquitectura que permite aceder a informação numa rede ou na internet,
permitindo importar dados de diversos formatos como bases de dados
relacionais, correio electrónico e folhas de cálculo, sendo acessível em macros
VBA pelos objectos ADO – ActiveX Data Objects (Albright, 2001).
•
O problema é de reduzida dimensão e não envolve grandes volumes de dados,
uma vez que apenas se dispõem de algumas dezenas de lojas e não se prevê
um aumento muito acentuado nos próximos anos. Por outro lado, os dados são
relativamente estáveis, possibilitando a utilização de uma folha de cálculo em
alternativa a um SGBDR. Os modelos exigem actualizações frequentes, mas
são facilmente implementáveis em folha de cálculo, evitando a necessidade de
basear o sistema num software de análise estatística ou de data mining.
•
A utilização de uma aplicação mais simples vai igualmente de encontro à
literatura de análise de marketing, a qual recomenda modelos simples e de fácil
implementação mas robustos, adaptáveis a novos dados ou alterações nas
hipóteses formuladas e facilmente comunicáveis e compreensíveis pelos
decisores (Lilien e Rangaswamy, 2003; Pidd, 2003; Naert e Leeflang, 1978).
150
A decisão de escolher uma folha de cálculo para operacionalizar os principais
modelos, e na construção da interface é acompanhada pela maioria dos autores no
domínio de Sistemas de Apoio à Decisão. Na verdade, autores como Sauter (1997) ainda
que façam notar que uma folha de cálculo só por si não constitui um SAD uma vez que é
demasiado genérica não permitindo o apoio a um conjunto de decisões específico,
reconhecem igualmente que este tipo de aplicações são hoje em dia um componente
quase sempre presente nos SAD’s. Autores como Marakas (2003) e Turban et al. (2005)
reconhecem que este tipo de aplicações é muito adequado para SAD’s de menores
dimensões e com poucas necessidades de automatismos. No entanto, com o auxílio de
suplementos e pequenos programas (normalmente denominados macros) podem atingir
alguma complexidade.
Como desvantagens na utilização de folhas de cálculo podem enumerar-se: a
dificuldade em duplicar conceitos típicos de programação de mais baixo nível como a
programação estruturada, recursividade e encapsulação e, a dificuldade em entender e
garantir a qualidade de programas muito complexos escritos nas linguagens de
programação usadas em folhas de cálculo (Bouguettaya et al., 1998). Neste caso
particular, a programação foi limitada a um conjunto reduzido de macros necessários
principalmente para actualizar os dados, pelo que este tipo de problemas não se pôs.
No entanto, a opção por uma folha de cálculo implica um sistema que inclui um
conjunto de aplicações que podem ser mais ou menos integradas, mas que conduzem
sempre a ambientes de trabalho distintos e possíveis sobreposições de funções. Uma
conexão entre aplicações baseada na troca de ficheiros de dados ou modelos ou
simplesmente copiar e colar (copy and paste) é denominada acoplamento fraco (loosely
coupled42) por Bouguettaya et al. (1998). As soluções de acoplamento fraco são possíveis
graças a funcionalidades de partilha de dados existentes em sistemas operativos como o
Microsoft Windows. Um exemplo é o protocolo conhecido por Dynamic Data Exchange
(DDE) que pode ser utilizado para criar ligações dinâmicas entre dados e várias
aplicações como uma folha de cálculo e um SGBDR.
Sublinhe-se que neste caso particular foi considerada a possibilidade de
programar funções de suporte à decisão em pacotes já existentes de SIG, o que
corresponderia a uma aplicação de acoplamento forte (strongly coupled). Autores como
Neste texto utilizam-se as expressões “acoplamento fraco” e “acoplamento forte” como tradução das
expressões loosely coupled e strongly coupled respectivamente. Sugestão do autor.
42
151
Grimshaw (1999) consideram preferível a utilização de SIG no desenho de Sistemas de
Suporte à Decisão Espacial, referindo várias implementações actualmente existentes.
No entanto, optou-se pelo acoplamento fraco principalmente pela simplicidade e
flexibilidade que permite, pelo facto de os utilizadores serem experientes na utilização das
restantes aplicações necessárias e por as trocas de dados e modelos serem de reduzida
dimensão. Na verdade, o acoplamento nunca seria completamente forte já que a
implementação de facilidades de apoio à decisão de localização dificilmente seria
completa e certamente tornaria o sistema muito complexo devido à variedade de modelos
de análise de dados e de extracção de conhecimento utilizados.
A desvantagem desta opção é obviamente a falta de robustez e de interligação
entre o conjunto de aplicações utilizado, não permitindo um maior grau de automação e
integração. Klosterman e Xie (1997) referem ainda, como desvantagens, um menor
desempenho da aplicação, software menos estável e menos funcionalidades específicas
para a decisão em consideração. No entanto, estas desvantagens são pouco relevantes
para o presente caso, ainda que o impacto visual e justificação do investimento fosse
provavelmente mais fácil se se apresentasse um sistema integrado e complexo.
Assim, optou-se pela construção da aplicação APAV que se coordena com várias
aplicações necessárias à tomada de decisão segundo o esquema da Figura 31. Note-se
a relevância que o esquema atribui ao conhecimento de domínio por parte dos
utilizadores, analistas de marketing e profundos conhecedores da cadeia de lojas e do
problema em estudo.
No esquema da Figura 31 incluem-se os três componentes essenciais de um SAD,
nomeadamente: 1) os dados e ferramentas para os actualizar e tratar, 2) os modelos que
permitem optimizar ou sugerir melhores alternativas e 3) uma interface que se pretende
interactiva e funcional. Ainda que todas as aplicações utilizadas em conjunto com o APAV
tenham, em algum grau, cada uma destas componentes, é possível classificá-las como
mais relacionadas com a gestão de dados, como o Sistema Gestor de Base de Dados
Relacionais (SGBDR), ou com a gestão de modelos como os pacotes estatísticos para
análise de dados e construção de árvores de classificação. A aplicação de SIG utilizada
inclui os modelos para delimitação de áreas de influência e de análise espacial, cálculo
de variáveis demográficas e concorrenciais e algumas funcionalidades de gestão de
dados, tanto alfanuméricos como geográficos.
152
FIGURA 31 ESTRUTURA DE ACOPLAMENTO FRACO ENTRE AS APLICAÇÕES COORDENADAS COM O APAV.
(O conhecimento de domínio é central no desenho utilizado)
interface
com o
utilizador
respostas a inquéritos
em SGBDR
conhecimento de domínio por
parte dos especialistas \
utilizadores
aplicação
APAV em
folha de
cálculo
modelos de análise de
dados e árvores de
classificação em pacote
estatístico
gestores e bases de
dados
dados
demográficos e
mystery shopping
georreferenciados
e modelos de
áreas de
influência em
SIG
gestores e bases de
modelos
A função da aplicação APAV – Análise e Previsão por Analogia de Vendas, é por
um lado integrar um conjunto de dados tratados tanto pelas ferramentas do SGBDR e do
SIG e principalmente implementar e operacionalizar os modelos construídos com os
diversos pacotes estatísticos utilizados. Assim, a aplicação tem funções principalmente
de diálogo com o utilizador, permitindo actualizar os dados e os modelos, ajustar diversos
parâmetros segundo o conhecimento do utilizador, visualizar gráficos e comportamentos,
e finalmente prever vendas para uma nova localização potencial.
V.D.2. Implementação e Dinâmica: Geração de conhecimento
Tendo tomado as decisões de desenho expostas no ponto anterior, passa-se
agora a descrever a aplicação APAV – Análise e Previsão por Analogia de Vendas, as
suas funcionalidades e como lidar com a dinâmica do sistema que obriga à renovação
periódica dos dados utilizados em previsão e na tomada de decisão. Sublinhe-se que
esta aplicação não é interpretada como um fim em si mesma, podendo facilmente ser
modificada ou ultrapassada por outra aplicação, sendo o objectivo principal desta
dissertação a criação de conhecimento sobre o problema, as soluções possíveis e sobre
o contexto em que se situa.
153
Trata-se de uma aplicação constituída por um ficheiro (workbook) do Microsoft
Excel composto por 5 folhas de cálculo. A primeira é apenas uma folha de apresentação
denominada “menu” com botões para as diferentes folhas pela ordem com que devem
ser utilizadas. Na segunda, denominada “inputs”, deverão introduzir-se os valores das
variáveis necessárias para classificar cada nova localização potencial e enumeradas na
Tabela 7 (pág. 120), mas também as variáveis utilizadas no modelo de previsão
representado pela equação (12), como se pode observar na Figura 32.
FIGURA 32 A FOLHA DE “INPUTS” E DE “PREVISÃO” DAAPLICAÇÃO APAV.
(Apresenta-se um exemplo para uma nova loja com valores de previsão modificados)
concelho da
Na folha de cálculo denominada “previsão”, a aplicação sugere classificações
pelos vários métodos num dos clusters predefinidos e escolhe uma das classificações
usando o índice de precisão definido no ponto V.B.3 (pág. 123), permitindo no entanto a
154
alteração por parte do utilizador da classificação escolhida. Aplicando a expressão (12),
obtém-se uma consequente previsão de vendas e correspondente intervalo de previsão.
Permite ainda visualizar um conjunto de figuras, com o objectivo de avaliar as opções
tomadas na obtenção da previsão, onde se incluem gráficos semelhantes à Figura 22
(pág. 100) e de evolução cronológica das vendas semelhante ao gráfico (a) da Figura 28
(pág. 140).
A folha “previsão” permite ainda fazer análises what if e modificar parâmetros de
acordo com as expectativas do utilizador. Pode-se mesmo alterar a classificação das
lojas existentes. Note-se, no entanto, que os valores utilizados por defeito são as
melhores estimativas definidas pelos modelos construídos neste capítulo, pelo que estes
parâmetros só devem ser alterados em caso de se dispor de mais conhecimento ou
novos dados.
A penúltima folha de cálculo (“clusters”) faz uma análise comparativa dos clusters,
comparando e caracterizando os grupos de lojas análogas definidos, e permitindo ao
utilizador verificar se a classificação da localização potencial efectuada na folha de
previsão faz sentido à luz do conjunto de variáveis descritivas utilizadas. Nesta folha de
cálculo é ainda possível comparar os grupos de lojas utilizando gráficos de diferentes
tipos. Assim, incluem-se nesta folha de cálculo uma tabela semelhante à Tabela 6 (pág.
109) de resumo da caracterização dos grupos, mas mais completa e dinâmica no sentido
em que se o utilizador alterar uma classificação de uma das lojas, os valores desta tabela
são recalculados. Esta folha é ainda usada como repositório de parâmetros dos modelos,
nomeadamente as regras proposicionais de classificação, utilizando uma tabela de
decisão como a Tabela 7 (pág. 120) e os parâmetros para o melhor modelo de previsão
usando uma tabela semelhante à Tabela 10 (pág. 133).
Por fim, a folha de cálculo denominada “dados”, constitui um repositório de dados
utilizados nas restantes folhas de cálculo e que deve ser mantido actualizado. Sublinhese que a aplicação utilizada permite bloquear o acesso à maioria das células, permitindo
apenas editar e alterar as células correspondentes a valores de variáveis a introduzir ou
parâmetros alteráveis dos modelos, o que é muito importante para evitar alterações
inadvertidas das fórmulas e ligações programadas.
A aplicação APAV está pensada para avaliar cada localização potencial em
separado. O que faz sentido, já que apenas uma das localizações será escolhida e logo,
em princípio, não existirá interacção entre as várias localizações potenciais. No entanto, é
possível comparar localizações potenciais gravando um ficheiro para cada localização (a
reduzida dimensão do ficheiro do Ms. Excel permite que esta operação seja
155
especialmente simples) e copiando os valores para uma nova folha de cálculo onde
poderá facilmente construir gráficos e tabelas comparativas.
Para que as previsões do APAV tenham actualidade é imperativo que se utilizem
sempre os dados mais recentes disponíveis. Essa actualização envolve principalmente
acrescentar novos dados de vendas para novos anos e a introdução de novas lojas.
Estão disponíveis várias funcionalidades no software APAV para facilitar a actualização
dos dados e para verificar a adequação dos modelos perante novos dados. Estas
funcionalidades incluem a utilização de alguns macros e estão concentradas nas folhas
“dados” e “clusters”. Na Figura 33 apresentam-se imagens destas duas folhas incluídas
no software APAV, nomeadamente comparando o novo modelo de regressão estimado
com dados de vendas para o ano de 2003, necessário para prever vendas para 2004,
com o modelo que tinha sido estimado com dados de 2002 e profundamente analisado na
secção V.C (pág. 129).
FIGURA 33 A FOLHA DE “DADOS” E DE “CLUSTERS” DAAPLICAÇÃO APAV.
(Apresenta-se um exemplo para uma nova loja com valores de vendas modificados)
156
A introdução de um novo ano de vendas pode ter consequências a diversos níveis
nos modelos utilizados. Por um lado, o modelo de previsão representado pela equação
(12) deve ser actualizado usando os novos valores de vendas como variável dependente.
Os parâmetros obtidos num qualquer pacote estatístico com capacidade para estimar
modelos de regressão linear devem ser introduzidos na folha “clusters” para que o novo
modelo seja utilizado nas previsões.
No entanto, antes da revisão dos modelos de regressão há que verificar se a
classificação das lojas nos grupos análogos continua válida, i.e. se o novo ano de vendas
é tão sui generis que a fracção de variância explicada das novas vendas pela tipologia
definida para o valor de vendas anterior sofre uma redução elevada ou toma valores
absolutos muito reduzidos (ver Figura 34). Este diagnóstico pode ser complementado por
observação de gráficos semelhantes aos das Figura 22 e 23 (pág. 100 e 103).
FIGURA 34 DOIS EXEMPLOS DE DIAGNÓSTICOS PRESENTES NA FOLHA DE CÁLCULO “PREVISÃO”.
(Os valores utilizados neste exemplo são fictícios para provocar os alertas indicados)
às
157
Neste caso há que rever a tipologia utilizando os novos valores de vendas de
forma semelhante à descrita no ponto IV.B.4 (pág. 97). As novas classificações das lojas
existentes devem ser actualizadas na folha “previsão” do APAV. No caso de se
confirmarem alterações de classificações, também será necessário rever as regras
proposicionais de classificação. Esta revisão deve ser efectuada em qualquer aplicação
adequada para o efeito e os resultados devem ser usados para actualizar a tabela de
decisão incluída na folha de “clusters”.
Além destas alterações, há ainda que reavaliar os modelos cronológicos de
vendas. Tal é efectuado utilizando gráficos como os apresentados na Figura 28. No caso
de não se concordar com as previsões, é possível introduzir uma variação personalizada
a preços constantes de 2000, julgada mais adequada para prever as vendas no próximo
ano por cada grupo de lojas análogas. Faz-se igualmente um tratamento dos erros de
previsão para permitir a previsão por intervalo.
Note-se que adicionar novas lojas para as quais já se disponha de um ano de
vendas implica também novos dados de vendas e logo a revisão da maioria dos modelos
utilizados na aplicação APAV, pelo que em geral os modelos são revistos uma vez por
ano quando as novas vendas consolidadas são disponibilizadas. As regras proposicionais
de classificação são muito dependentes das observações existentes, pelo que devem ser
revistas sempre que se dispõe de uma nova loja com classificação confirmada, mesmo
que se tenha considerado que a tipologia não precisa de ser revista.
Com menor frequência, são disponibilizados novos dados de censos ou são
efectuados novos inquéritos (cerca de dois em dois anos). Nestas ocasiões o processo
descrito nesta dissertação dever ser revisto, incluindo a construção de variáveis pelos
métodos de análise espacial, a análise de resultados dos inquéritos e a revisão de todos
os modelos construídos, mantendo-se no entanto a metodologia definida. A Figura 35
resume as transferências de dados e de modelos entre as diferentes aplicações
constituintes do ambiente de apoio à decisão.
É importante notar que os dados de mystery shopping são recolhidos para cada
nova loja ou localização potencial, incluindo as coordenadas do ponto recolhido por GPS,
e novas variáveis são calculadas por análise espacial, tanto para avaliar o potencial da
nova localização, como a concorrência na área de influência. O valor destas variáveis é
essencial, tanto na classificação da nova localização num grupo análogo, como na
previsão de vendas para cada uma dessas localizações.
158
Outros alarmes e gráficos de diagnóstico são incluídos numa tentativa de alertar o
utilizador para possíveis violações de pressupostos dos modelos. Por exemplo, foram
definidas, em conjunto com os especialistas, regras proposicionais para identificar
situações consideradas não análogas com as lojas existentes e para as quais os modelos
de analogia não são adequados para efectuar previsões. Estas regras foram igualmente
obtidas discriminando as lojas consideradas atípicas das restantes. Na Tabela 12
enumeram-se as regras proposicionais identificadas.
FIGURA 35 ACTUALIZAÇÃO DE DADOS E DE MODELOS AQUANDO DA DISPONIBILIZAÇÃO DE NOVOS DADOS.
(As setas representam fluxos de dados e \ ou modelos e parâmetros)
interface
com o
utilizador
respostas a inquéritos
em SGBDR
novas lojas
ou vendas
aplicação
dados,
APAV em
parâmetros
folha de
e regras
cálculo
propos.
localização potencial
dados de
inquéritos
variáveis
por loja
demográf. e
concorrenciais
por loja ou
localiz. pot.
modelos de análise de
dados e árvores de
classificação em pacote
estatístico
gestores e bases de
dados
dados
demográficos e
mystery shopping
georreferenciados
e modelos de
áreas de
influência em
SIG
gestores e bases de
modelos
Todas as variáveis usadas no modelo representado pela equação (12) são
limitadas tendo em conta os valores máximos e \ ou mínimos para as lojas existentes, as
restrições geográfica têm em conta que apenas nestas regiões existem actualmente lojas
e as restantes regras proposicionais foram definidas em conjunto com os especialistas
em localização. Estas últimas foram definidas na tentativa de obter regras que não
dependam das lojas consideradas atípicas a cada momento, nem das variáveis incluídas
no modelo de previsão. Note-se que, quando pelo menos uma das regras se verifica,
surge o aviso apresentado na Figura 34, mas a aplicação não deixa de apresentar uma
previsão para a localização potencial. Assim, a intenção é avisar o utilizador de que não
existem dados para validar a previsão efectuada, correspondendo esta a uma
extrapolação para fora do âmbito das lojas actualmente existentes. Nestas situações
159
aconselha-se o utilizador a usar as previsões com especial reserva. Uma discussão
interessante sobre extrapolação em previsão é apresentada em Chatfield (2001).
TABELA 12 REGRAS PROPOSICIONAIS USADAS PARA EXCLUIR LOCALIZAÇÕES NÃO ANÁLOGAS.
(Qualquer uma das regras é suficiente para a localização potencial ser considerada não análoga)
VARIÁVEIS
REGRAS PROPOSICIONAIS
Caracterização da Loja e Localização
concelho em que se localiza
∉ Área Metropolitana de Lisboa ou do Porto
área de vendas (m2)
< 452 ou > 1.400
Caracterização da Área de Influência – Concorrência
área de influência delimitada por
caminhos mais curtos a 2,5 min. (ha)
< 15
número de hipermercados identificados por
diagramas de Voronoi de 1ª ordem
>2
Caracterização da Área de Influência – Potencial
número de alojamentos familiares
clássicos com proprietário ocupante
< 61
densidade de edifícios construídos
entre os anos de 1996 e 2001 (nº / 10 ha)
< 0,6
percentagem de alojamentos
familiares não clássicos
> 10%
percentagem de indivíduos residentes
sem saber ler nem escrever
> 12%
percentagem de indivíduos empregados
no sector primário ou secundário
> 31%
Além dos alarmes referidos, estão disponíveis diversos tipos de ajudas ao
utilizador, como é o caso de notas para relembrar como preencher determinadas células,
da verificação da validade do valor introduzido, utilização de listas pendentes de
alternativas e explicações sempre visíveis na folha de cálculo. Além desta informação
sensível ao contexto, foi ainda entregue aos utilizadores documentação que incluía um
manual explicando pormenorizadamente todo o trabalho efectuado, limitações das
metodologias utilizadas e utilização da aplicação. Quanto a este último aspecto, recorrese, não apenas à explicação pormenorizada desde a construção de variáveis até à
utilização da aplicação para delimitação de diagramas de Voronoi, mas também a
tutoriais que explicam a utilização da aplicação passo a passo para as três novas lojas
abertas durante 2002.
160
161
Capítulo VI ⎯⎯⎯⎯⎯⎯⎯
VI. CONCLUSÕES
Neste capítulo resumem-se os principais resultados do trabalho realizado, justifica-se
porque se considera que os objectivos foram cumpridos e descrevem-se as contribuições
metodológicas desta dissertação para o conhecimento do problema e de previsão de
vendas para novas lojas de retalho ou localizações potenciais. Abordam-se ainda,
possíveis futuras evoluções do trabalho desenvolvido e fazem-se algumas considerações
finais.
VI.A. O Trabalho Realizado
Os problemas de localização de lojas de retalho são abordados desde finais do
século XIX por economistas e geógrafos. Estes trabalhos iniciais revelavam uma óbvia
preocupação com a localização, inicialmente apenas, de instalações industriais (Ballou,
2004). Só mais tarde e, principalmente com o trabalho de Reilly (1931), se começaram a
utilizar modelos quantitativos na localização de lojas de retalho. Após essa data, muitos
modelos e metodologias foram desenvolvidos, em especial para grandes superfícies de
retalho e centros comerciais, os quais são profusamente descritas no Capítulo II desta
dissertação.
Após os anos oitenta do século passado, os problemas de localização de lojas de
retalho parecem ter perdido interesse. Apesar de hoje termos ferramentas muito
poderosas de pesquisa de artigos e documentos de trabalho na internet, as pesquisas
usando palavras como “site selection”, “store assessment” ou “retail location” produzem
poucos resultados, sendo os mais relevantes que foi possível encontrar referidos no
Capítulo II.
No entanto, a recente preponderância de lojas de pequena dimensão, sejam
Supermercados de Proximidade, Lojas de Conveniência ou Lojas de (Hard) Discount que
162
se verifica hoje um pouco por toda a Europa (como se deduz dos dados e da discussão
apresentada no Capítulo I e na secção II.A), coloca novamente a questão da localização.
Na verdade, a estas lojas de pequena dimensão podem não se aplicar os modelos
desenvolvidos para as maiores superfícies de retalho, sendo necessário desenvolver
modelos adequados para apoiar este novo tipo de decisões.
Neste contexto, a dissertação apresentada surgiu da necessidade de resolver um
problema, definido no Capítulo I, após se ter verificado que os modelos e métodos
utilizados para lojas maiores não eram adequados para as lojas de menores dimensões.
Como referido, os especialistas interessados em modelos de previsão de vendas para
localizações potenciais tinham já tentando utilizar os modelos desenvolvidos para
superfícies retalhistas de maiores dimensões com resultados que consideraram muito
pouco satisfatórios. As técnicas, métodos, modelos e software descritos nesta
dissertação para auxiliar esse tipo de decisões surgiram desta motivação e das limitações
e condicionantes entretanto reveladas.
Tendo em conta o contexto e os objectivos apresentados no Capítulo I (pág. 12),
o trabalho desenvolve-se a partir de uma revisão bibliográfica publicada em Mendes e
Themido (2004), tendo sido revista e aumentada no Capítulo II. Começa-se por uma
descrição do contexto, incluindo as causas que se consideram especialmente adequadas
para explicar o crescimento recente da quota de mercado das lojas de menores
dimensões em Portugal e em alguns países Europeus. Apresentam-se, ainda, os níveis
de decisão envolvidos na localização de lojas pertencentes a cadeias de lojas de retalho
de menores dimensões e identifica-se o problema a apoiar como um problema de
avaliação de localizações potenciais (site selection).
Mais concretamente, responde-se ao objectivo (i), sobre a revisão da literatura,
apresentando a grande variedade de modelos descritos na literatura e classificando-os
em seis classes, desde os formalmente mais simples como as listas de factores
desejáveis \ indesjáveis numa localização potencial até aos complexos e altamente
normativos modelos de interacção espacial e de optimização. Nem sempre a disitinção
entre estas classes é muito clara, mas considera-se esta classificação útil na
interpretação da bibliografia descrita. Faz-se ainda uma análise comparativa entre os
modelos, apresentado-se na Tabela 1 (pág. 44) vantagens e desvantagens de cada
abordagem ao problema de comparação de localizações potenciais e avaliação de
desempenho de lojas de retalho.
Apresenta-se ainda uma sistematização da classificação anterior em apenas
três grupos que utilizam técnicas distintas. Assim, os modelos baseados em listas utilizam
163
técnicas quase empíricas como as listas e os modelos de analogia nas suas
implementações mais simplistas. Os modelos de Análise de Dados são modelos
baseados em técnicas da estatística multivariada e do reconhecimento de padrões. Os
modelos de Interacção Espacial e de Optimização, pelo contrário, são fortemente
normativos baseados em técnicas de interacção espacial e da investigação operacional.
Por fim, nenhuma revisão bibliográfica ficaria completa sem considerar a intervenção de
tecnologias SIG no suporte à decisão de problemas de localização. Ao permitirem
construir mapas temáticos muito informativos e realizar análises de dados espaciais,
constituem uma ferramenta com uma importante contribuição na utilização de qualquer
tipo de modelos.
Relativamente ao objectivo (ii) (pág. 12), sobre a sistematização de variáveis,
apresenta-se uma classificação das variáveis identificadas na bibliografia mas também
resultantes da experiência dos especialistas em localização envolvidos neste trabalho. A
Figura 7 (pág. 50) classifica as variáveis em três grandes classes: características da loja
e da localização, características da área de influência e características dos clientes das
lojas existentes. Esta classificação original é utilizada ao longo de toda a dissertação,
considerando-se desejável que os métodos utilizados identifiquem variáveis provenientes
de cada uma das classes identificadas, permitindo assim incluir nos resultados as várias
dimensões do problema de localização. A classificação apresentada e o número de
variáveis identificadas da literatura ilustram a complexidade de avaliação de desempenho
de lojas de retalho e de localizações.
No Capítulo III descrevem-se ainda as variáveis obtidas de fontes e métodos
distintos: dois inquéritos realizados aos clientes das lojas existentes em dois anos
distintos e um programa de mystery shopping que consistiu em visitar as lojas existentes,
como se de um cliente se tratasse, registando aspectos visíveis e de serviço. Os
inquéritos foram realizados a clientes de todas as lojas, em 2000, e uma amostra
seleccionada em 2003, segundo um desenho por quotas e obtendo-se respectivamente
3.766 e 2.394 respostas válidas. Descrevem-se ainda dados geográficos que permitiram
o cálculo de variáveis de avaliação da concorrência e ainda o tratamento espacial dos
dados demográficos com recurso a modelos de delimitação de áreas de influência.
No que se refere ao objectivo (iii), sobre métodos de delimitação de áreas de
influência, apresentam-se ainda no capítulo III, diversos métodos para esse fim,
nomeadamente baseados em algoritmos de caminho mais curto e em diagramas de
Voronoi multiplicativos ponderados (de primeira e segunda ordem) combinados com dois
métodos de agregação das variáveis demográficas. As seis combinações resultantes são
164
utilizadas no cálculo de variáveis demográficas que posteriormente foram utilizadas para
explicar as vendas anuais de 2002. Desta análise conclui-se que o modelo de delimitação
da área de influência da loja é relevante no cálculo de variáveis demográficas,
conduzindo a modelos distintos e com diferentes capacidades explicativas das vendas.
Assim, os modelos de Voronoi não incluídos nos pacotes SIG foram implementados de
modo a ficarem disponíveis para futuras análises, tendo-se incluído informação sobre
vantagens e desvantagens comparativas dos diferentes métodos.
Num estudo recente, ainda não publicado, compara-se a importância das variáveis
usadas em todo o processo de modelação: capacidade discriminante na caracterização
de grupos análogos segundo a probabilidade de significância da estatística de KruskalWallis, valor do índice de precisão nas regras de classificação e análise de dominância
(Azen e Budescu, 2003; Budescu, 1993) para as variáveis independentes da regressão,
tendo-se concluído mais uma vez pela relevância das variáveis obtidas por
delimitação de áreas de influência. Ainda que não tenha sido possível distinguir entre
os dois métodos utilizados para este fim, as variáveis demográficas para avaliação do
potencial da área de influência surgem logo após a “área de vendas” na maioria das
ordenações obtidas.
Nesta dissertação apresenta-se uma tipologia de lojas, estruturante em todo o
restante trabalho de modelação efectuado e publicada em Cardoso e Mendes (2002), a
qual foi posteriormente revista e actualizada em Mendes e Cardoso (2005b). Assim,
cumprindo o objectivo (iv), apresentam-se e comparam-se três métodos muito distintos de
definição de agrupamentos com integração de conhecimento dos especialistas
considerado essencial na análise de agrupamentos padecendo de “praga de
dimensionalidade”. Assim, descreve-se o método a priori com utilização de uma matriz de
comparações pareadas entre lojas com avaliações consensuais dos especialistas.
No método a posteriori, utiliza-se o conhecimento de especialistas na escolha
entre diversas árvores de regressão construídas segundo diferentes parametrizações dos
modelos e diferentes selecções de variáveis substitutas (surrogate) nos nós de
ramificação. Por fim, no método interactivo, sucedem-se duas fases sucessivamente
repetidas: escolha de variáveis base de agrupamento e análise dos resultados produzidos
por métodos hierárquicos de análise de clusters. Tanto as percentagens de variância
explicada pelos agrupamentos como a preferência revelada pelos especialistas
favoreceram claramente o método interactivo e o método a posteriori. Por fim, são os
resultados do método interactivo que são escolhidos e caracterizados com toda a
informação disponível, recorrendo a uma tabela de visualização muito simples onde se
165
assinalam os grupos com maiores variações das variáveis tanto na média como na
variância.
No Capítulo V descrevem-se modelos de análise de dados utilizados para
efectuar previsões de vendas para localizações potenciais de acordo com o objectivo (v).
Nesta dissertação deu-se preferência aos modelos de análise de dados por terem maior
capacidade explicativa do problema em estudo, por ter sido acordado com os
especialistas que as localizações alternativas seriam comparadas em termos de vendas
previstas e também pela disponibilidade de tecnologia de SIG e de grandes volumes de
dados, indispensáveis na aplicação deste tipo de modelos.
Sugere-se nesta dissertação uma combinação de modelos de análise de
agrupamentos para a definição de grupos análogos de lojas, árvores de classificação
para induzir regras proposicionais de classificação de novas localizações num dos grupos
análogos e por fim modelos de regressão para prever um valor de vendas anuais com
base em quatro variáveis explicativas. Sublinhe-se que o modelo de previsão por
regressão linear confirma a importância da classificação em grupos e a existência de
variáveis estruturantes ou chave como a “área de vendas” ao melhorar significativamente
a qualidade do modelo quando estas variáveis são incluídas no conjunto das variáveis
explicativas.
Os aspectos dinâmicos das vendas não podem ser descurados, pelo que é
necessário rever os modelos com frequência para os manter actualizados. Essa
frequência deve ser mais elevada para o modelo de regressão e para o modelo de
evolução cronológica das vendas, mas é igualmente importante rever a tipologia sempre
que a variância explicada pelos agrupamentos decresce fortemente ou alcança valores
reduzidos.
No que se refere à aplicação computacional e ao ambiente decisional, apresentase ainda no Capítulo V uma aplicação informática baseada em folha de cálculo,
integrando dados obtidos por outras aplicações num desenho de acoplamento fraco. Esta
aplicação implementa os modelos de classificação e os necessários para prever vendas.
A flexibilidade resulta do facto de ter sido desenhada usando uma aplicação de folha de
cálculo, com todas as ferramentas de visualização e análise disponibilizadas nativamente
por esta e de terem sido implementados inúmeros parâmetros dos modelos e da interface
alteráveis e personalizáveis, incluindo análises de sensibilidade e vários alertas e
recomendações. A elevada flexibilidade e facilidade de utilização foi já realçada pelos
utilizadores. A estrutura da aplicação encontra-se publicada em Mendes et al. (2004).
166
VI.B. Conhecimento de Especialistas e Geração de Novo Conhecimento
A integração de conhecimento de especialistas, referida no objectivo (vi), é
normalmente desejável no desenvolvimento de modelos de apoio à decisão, mas neste
caso tornou-se indispensável. Uma das razões para esta necessidade resulta
directamente do reduzido número de lojas actualmente disponível na cadeia, mas
também do reconhecimento de que os modelos são representações da realidade sujeitas
a todo o tipo de desvios que o conhecimento de domínio pode ajudar a corrigir. Assim, o
conhecimento do domínio foi profusamente utilizado em todas as fases do
desenvolvimento e implementação dos modelos. Nomeadamente, foram relevantes as
intervenções dos especialistas nas fases seguintes:
•
escolha das variáveis sobre as quais se recolhem dados e de variáveis
construídas a partir de outras medidas directamente;
•
desenho e realização de inquéritos aos clientes das lojas da cadeia existentes;
•
validação e estimação dos modelos de delimitação de áreas de influência;
•
comparação dos agrupamentos formados e selecção da metodologia mais
adequada para definir grupos de lojas análogas;
•
os métodos alternativos para formar grupos de lojas análogas não teriam sido
possíveis sem a utilização do conhecimento de especialistas;
•
selecção de variáveis base de agrupamento e validação dos grupos de lojas
análogas, assim como da respectiva caracterização;
•
possibilidade de identificar lojas atípicas (outliers) que podem enviesar e
instabilizar os parâmetros estimados para os diferentes modelos;
•
validação das regras proposicionais utilizadas para classificar as localizações
potenciais e selecção de variáveis de partição em quasi-empates;
•
validação do modelo de regressão utilizado para efectuar previsões e confirmação
da importância das variáveis explicativas e do sinal dos coeficientes estimados;
•
participação no desenho e desenvolvimento do software APAV permitindo a
minimização do efeito de “caixa preta”.
Em conclusão advoga-se indispensável, especialmente no caso de um problema
de site selection em que o número de lojas é reduzido, a integração de metodologias
quantitativas com qualitativas, baseadas em trabalho conjunto com especialistas de
localização. Sublinhe-se que vários autores concordam com este tipo de afirmações. Por
exemplo Byrom (2000) escreve:
«…This would suggest that despite rapid advances in the amount of
technology available in recent years, intuition and a good retail ‘nose’ are still
an essential part of locational decision-making».
A validação de um modelo ou um conjunto de modelos, ainda que para uma
determinada aplicação, é uma tarefa difícil e nunca definitiva. No entanto, nas condições
167
actuais de limitações nos dados disponíveis e ambiente altamente dinâmico em que as
vendas podem variar por um conjunto elevado e indeterminado de factores, tornam o
cumprimento do objectivo (vii) um dos pontos menos fundamentados do trabalho
apresentado. Ainda que se reconheça que a validação deverá ser continuada quando
mais dados estiverem disponíveis, a combinação adoptada de conhecimento dos
métodos e modelos utilizados, conhecimento de domínio, validação interna com a
totalidade dos dados disponíveis e verificação da estabilidade da solução, possibilita,
ainda assim, a utilização dos modelos com alguma segurança.
Também não é seguro afirmar que os modelos adoptados são os mais adequados
e conduzem às melhores previsões uma vez que não é possível comparar estes
resultados como todos os modelos e técnicas de possível utilização nesta situação. No
entanto, nesta dissertação tem-se uma preocupação constante de obter resultados por
diversas técnicas e compará-los com os utilizados, em especial na tarefa fundamental de
definir grupos de loja análogas. Por outro lado, as previsões obtidas para o ano de 2003,
não utilizado na estimação de qualquer um dos modelos utilizados na previsão,
demonstram que quase 75% das lojas apresentam previsões com erro relativo médio
abaixo ou próximo dos 10%. Se a estes resultados juntarmos a informação de que 2003
foi, para a generalidade das lojas, um ano sui generis correspondente a uma mudança do
ciclo económico pode-se finalmente concluir que estes resultados são efectivamente de
boa qualidade.
Provavelmente o objectivo mais relevante do trabalho desenvolvido é a geração
de conhecimento sobre este problema complexo e sobre o comportamento das lojas e
das localizações que possa ser utilizado em momentos de decisão futuros (objectivo (viii)
enunciado na pág. 12). A importância de se avaliar o conhecimento gerado é bem
expressa na expressão “sociedade do conhecimento”. O conhecimento é considerado um
activo dos mais relevantes na evolução de uma organização e no seu posicionamento
relativamente à concorrência directa, essencialmente porque o conhecimento potencia a
criatividade e a inovação, além de permitir tomadas de decisão mais conscientes.
Para se perceber se este objectivo foi cumprido há que perceber o que é o
conhecimento. O conhecimento é normalmente considerado o último elo na cadeia:
dados Æ informação Æ conhecimento. Se a informação são dados formatados e
colocados de forma útil para a tomada de decisão, então conhecimento será aquilo que
se ganha durante todo o processo de definição do problema Æ modelação Æ avaliação e
validação Æ implementação ou tomada de decisão. Awad e Ghaziri (2004) acrescentam
a esta cadeia a sabedoria ou perspicácia (wisdom) como algo não tão dependente de um
168
caso ou conjunto de casos, i.e. o nível mais alto de abstracção do conhecimento capaz
de uma visão para além do horizonte.
Os mesmos autores definem conhecimento de uma forma muito simples como
“saber como” (know-how) i.e. a compreensão adquirida por experiência ou estudo. Um
conceito relacionado é o conceito de intelligence definido como a capacidade de adquirir
e aplicar conhecimento. Ainda que o conhecimento seja algo individual e subjectivo e que
grande parte não possa ser formalizado, os modelos construídos e a colaboração
constante entre analistas e especialistas no domínio criaram uma dinâmica de
aprendizagem e criatividade. Frequentemente surgiam ideias sobre técnicas ou modelos
que poderiam ser aplicados em determinados pontos e muitos deles foram testados e,
ainda que não tenham sido adoptados, alguns deles são brevemente mencionados nesta
dissertação.
Um claro exemplo de um facto criado por este trabalho e que é reconhecido como
conhecimento gerado é a confirmação da existência de grupos de lojas mais análogas
entre si do que com as restantes. Este facto, já intuído pelos especialistas, não tinha no
entanto sido formalizado dada a dificuldade em agrupar as lojas. A validação e
caracterização da tipologia definida e o facto de a tipologia contribuir de forma muito
significativa para a qualidade das previsões é a confirmação que faltava para a existência
de agrupamentos nas lojas existentes.
Um exemplo de aplicação do conhecimento gerado por este trabalho ou de
intelligence foi a utilização recente da tipologia definida em aplicações não previstas
à partida, como no lançamento de campanhas de marketing distintas em cada grupo de
lojas. Também os modelos de delimitação de áreas de influência criaram escola dentro
do grupo de distribuição, estando neste momento a decorrer um projecto para delimitar
áreas de influência para todas as lojas do grupo. Uma outra contribuição que se pretende
repetir foi o programa de mystery shopping implementado.
Outro tipo de conhecimento pode ser retirado directamente das regras
proposicionais de classificação das novas localizações num dos grupos análogos. Da
observação da Figura 22 (pág. 100) pode concluir-se que as localizações preferenciais
são aquelas que conduzem à implantação de lojas classificadas como Grandes de
Passagem, Lojas Grandes ou Bairro Grandes, já que são estes tipos de lojas que
permitem obter maiores valores de vendas médias, ainda que as Lojas Grandes
apresentem uma tendência de queda das vendas a preços constantes (ver Figura 28,
gráfico (a), pág. 140). Uma vez que as Lojas Grandes de Passagem correspondem a
localizações pouco comuns, é igualmente pouco provável que possam ser reproduzidas.
169
Assim, e atendendo às regras proposicionais induzidas para as lojas Grandes e
Bairro Grandes e à caracterização efectuada para os tipos referidos, as localizações
desejáveis para novas lojas da cadeia devem ter as seguintes características:
•
a localização deve permitir a construção de uma loja média a grande segundo
as dimensões actualmente existentes;
•
a localização deve apresentar facilidades de estacionamento não muito más e,
se possível, permitir construir um pequeno espaço para estacionamento próprio;
•
a concorrência é desejável, já que indica áreas atractivas para o retalho, desde
que com um total de área de vendas não demasiado elevado;
•
a visibilidade em deslocações a pé deve ser avaliada como superior à
apresentada pelos pontos de venda concorrentes;
•
a zona onde se inserem deve ter alguma dinâmica de expansão urbana e de
construção de novas residências;
•
a área de influência deve ter percentagens elevadas de crianças e idosos,
nomeadamente segundo as percentagens de “crianças residentes”, de “núcleos
familiares com filhos ou netos” e de “inquiridos com mais de 45 anos”.
Das regras enumeradas, grande parte era já conhecida ou intuída pelos
especialistas. Mas, por exemplo, o facto de localizações com áreas médias ou pequena
poderem ser consideradas boas localizações, não era evidente à partida. Por outro lado,
o facto da concorrência ser desejável especialmente se efectuada por pequenas lojas de
comércio tradicional, também não era evidente, ainda que seja compreensível que uma
localização atractiva corresponda a alguma concorrência deste tipo. A utilização deste
conhecimento e dos modelos desenvolvidos neste trabalho comprova-se pela observação
de que recentemente apenas se têm aberto Lojas Grandes e Lojas de Bairro Grandes.
As regras implementadas para localizações consideradas não análogas às
existentes permitem determinar algumas linhas orientadoras do que se deve evitar numa
localização potencial (ver Tabela 12, pág. 159):
•
localizações com áreas de influência delimitadas por diagramas de Voronoi de
primeira ordem muito pequenas indicam muita concorrência, com muito poder de
atracção, pelo que devem ser evitadas;
•
o número de hipermercados que fazem fronteira com a área de influência da
localização potencial não deve ser superior a dois;
•
localizações com poucos proprietários ocupantes indicam zonas sem população
ou com população de baixos rendimentos, pelo que devem ser evitadas;
•
devem evitar-se localizações com percentagens elevadas de alojamentos não
clássicos, i.e. alojamentos móveis (barcos, caravana, etc.), casas rudimentares
de madeira e improvisados em local não destinado à habitação;
•
devem evitar-se localizações com elevadas percentagens de indivíduos que não
sabem ler ou escrever, indicador de baixa escolaridade e de baixos rendimentos;
170
•
desaconselha-se a utilização de localizações potenciais com percentagens de
indivíduos empregados no sector primário ou secundário elevadas, o que
corresponde a zonas rurais ou industriais de baixos rendimentos.
Estas regras não devem ser entendidas como normativas, i.e. não se deve recusar
uma localização potencial apenas por não obedecer a uma ou duas das regras
enunciadas. Existem casos de lojas que não obedecem a algumas das regras anunciadas
e, no entanto, são muito bem sucedidas como é o caso das Lojas Grandes de Passagem.
Se se reconhecerem estas condicionantes, este tipo de conhecimento pode ser muito útil
na avaliação de uma nova localização potencial.
Nesta dissertação é clara a opção por um maior esforço na modelação do
problema e na construção e estimação de modelos em detrimento da aplicação
computacional. Esta opção baseia-se principalmente no facto de que os especialistas e
utilizadores, sendo bastante conhecedores de aplicações de software, não terem
colocado qualquer dificuldade na utilização de uma aplicação simples, pouco automática
e que exige a utilização de outras aplicações distintas. Verificou-se igualmente que estes
profissionais preferiam largamente uma aplicação mais flexível, que lhes permitisse
introduzir o seu próprio conhecimento do problema e testar alternativas de resolução,
ainda que à custa de alguma robustez e integração de aplicações.
Assim, o principal objectivo do trabalho não era a construção da aplicação nem
sequer a construção dos modelos, mas a criação de conhecimento sobre o problema e
respectiva solução, criando um ambiente de elevada interacção com o utilizador. Os
modelos são utilizados no sentido de Pidd (2003) como ferramentas para fomentar a
reflexão (tools for thinking) sobre o problema e não para substituir o pensamento como é
o objectivo das aplicações operacionais. Assim, a disponibilização de facilidades do tipo
what if é considerada muito relevante. É também por esta razão que se colocou a tónica
na flexibilidade e capacidade de modificação de parâmetros e modelos por parte do
utilizador. A aproximação adoptada apresenta características de uma abordagem soft
em contraste com uma abordagem hard caracterizada por modelos mais normativos e
menos flexíveis.
Assim, as aproximações soft tendem a adoptar modelos mais descritivos, a
validação é baseada em conhecimento de domínio, esperando-se que os modelos
adoptados sejam coerentes, lógicos, consistentes e plausíveis, surgindo como suporte à
aprendizagem e ao conhecimento (Pidd, 2003). Aliás, nesta linha de pensamento, um
responsável pelo grupo PT afirmava na conferência da Associação Portuguesa de
Sistemas de Informação (APSI), que o software é essencialmente um serviço e não um
171
produto (Matos e Simões, 2004). Na verdade, o tempo de vida das aplicações de
software é, hoje em dia, cada vez menor e, mesmo assim, com constantes actualizações
e aperfeiçoamentos. Numa situação de tamanha evolução dinâmica, o que realmente se
mantém para o futuro não é o código mas o conhecimento do problema que se gera nas
diferentes fases de definição e análise.
VI.C. Contribuições Objectivas
As
contribuições
objectivas
mais
relevantes
desta
dissertação
são
fundamentalmente metodológicas e a três níveis. Ao nível da utilização de diagramas de
Voronoi multiplicativos ponderados para definição de áreas de influência de lojas ou
novas localizações potenciais. Ao nível dos diferentes métodos comparados para integrar
conhecimento de especialistas na definição de uma tipologia de lojas análogas.
Finalmente, ao nível da combinação harmoniosa e articulada de modelos utilizados na
classificação de localizações potenciais nos grupos de lojas análogas e na previsão de
vendas para comparação de localizações.
Nenhuma destas contribuições pode ser considerada uma rotura ou mesmo um
salto relativamente ao conhecimento existente. Tratam-se de contribuições incrementais
que, por exemplo no caso dos métodos de delimitação, confirmam que a utilização de
diagramas de Voronoi multiplicativos foi útil neste caso particular e provavelmente
pode ser útil em casos semelhantes. Não se conhece qualquer outra confirmação deste
tipo, publicada ou não. Na verdade, e ainda que o artigo de Boots e South (1997) já tenha
sido publicado há alguns anos, não se conhece mais nenhuma aplicação prática dos
diagramas de Voronoi multiplicativos ponderados para delimitação de áreas de influência
de lojas existentes ou de localizações potenciais. Nem a muito completa revisão de
Okabe et al. (2000) se refere a qualquer aplicação prática neste sentido.
Alguns dos métodos usados na definição de tipologias e a forma como o
conhecimento de domínio é integrado na definição dos agrupamentos também é
inovadora. Nenhum dos métodos considerados individualmente é novo, mas a sua
integração num mesmo estudo e comparação de resultados com base em conhecimento
de domínio é uma contribuição deste trabalho para o estudo das técnicas de
segmentação de lojas de retalho.
A combinação de modelos utilizada no processo de previsão, ainda que baseada
em trabalhos como o apresentado em Sands e Moore (1981), é inovadora na indução de
árvores de classificação e de regras proposicionais utilizadas na classificação de novas
172
localizações num dos grupos definidos, e na combinação destas com modelos de
regressão linear. Ainda que técnicas de regressão, de analogia e discriminantes sejam
utilizadas há longos anos na previsão de vendas e avaliação de novas localizações, a
utilização de árvores discriminantes em conjugação com uma tipologia de lojas definida
com integração explícita de conhecimento de especialistas, não tinha antes sido
publicada, nos termos em que é feito nesta dissertação. Note-se que esta metodologia
permite contornar as principais críticas tanto dos métodos de regressão, i.e. não
considerar a segmentação de lojas menos análogas (ver ponto II.C.2, pág. 31), e dos
discriminantes, i.e. apenas prever vendas num intervalo (ver ponto II.C.3, pág. 34).
Podem-se citar como trabalhos semelhantes ao apresentado nesta dissertação
os modelos descritos por Silva e Cardoso (2004) e a aplicação descrita em Clarke et al.
(2003b). No primeiro caso descreve-se uma aplicação cuja principal função é igualmente
prever vendas para novas localizações ou para avaliar o desempenho das lojas
existentes. No trabalho descrito os autores utilizam análise de componentes principais
para reduzir o número de variáveis obtidas por inquérito aos directores das lojas
existentes, o que se justifica por se ter utilizado um conjunto de variáveis muito fino
medindo praticamente cada característica individualmente.
Pelo contrário, neste trabalho as características identificadas no programa de
mystery shopping são mais agregadas e os testes efectuados com análise de
componentes principais revelaram demasiadas componentes extraídas até porque a
correlação entre as variáveis não era muito elevada. Assim, optou-se por reduzir a
correlação entre as variáveis simplesmente eliminando algumas variáveis consideradas
menos relevantes ou apresentando pior qualidade (por exemplo com casos omissos)
mantendo-se os modelos com eleva capacidade explicativa.
No caso do trabalho apresentado por Silva e Cardoso (2004) a modelação baseiase em variáveis obtidas por inquérito aos directores das lojas donde resultam muitas
variáveis endógenas, sendo as variáveis exógenas em menor número (ver Figura 7, pág.
50). Nesta dissertação, à custa de um estudo muito mais prolongado, utiliza-se uma
maior variedade de variáveis explicativas do desempenho de lojas e localizações,
nomeadamente com um grande número de variáveis demográficas resultantes da análise
espacial e variáveis resultantes de inquéritos a clientes.
Por outro lado Silva e Cardoso (2004) utilizam árvores de regressão para previsão
de forma muito semelhante à descrita na secção IV.B.3 (pág. 94). Neste trabalho, os
especialistas recusaram os resultados deste método, com críticas referentes ao facto de
se definirem grupos de lojas análogas para previsão apenas com base numa variável
173
dependente de “vendas anuais”, o que foi considerado insuficiente. Estes autores usam
“vendas por unidade de área” e obtêm muito bons resultados, com uma amostra com o
cerca de 60 lojas, sem necessidade de definir previamente grupos. Os resultados obtidos
por estes autores confirmam as dificuldades encontradas neste trabalho por se dispor de
um reduzido número de lojas, mas também as potencialidades das árvores de regressão
neste tipo de problemas. Por fim, nesta dissertação combinam-se modelos de regressão
com árvores de classificação, o que permite distinguir entre duas localizações potenciais
mesmo que sejam consideradas pertencentes ao mesmo grupo de lojas análogas, o que
não é possível com os modelos obtidos por Silva e Cardoso (2004).
O trabalho apresentado por Clarke et al. (2003b) surge na sequência de outros
trabalhos apresentados sobre o uso de intuição e conhecimento de domínio em decisões
de localização de lojas de retalho (ver IV.B.1, pág. 86). Neste caso são utilizadas
metodologias soft, como os mapas cognitivos, para integrar intuição e conhecimento de
especialistas num mecanismo de identificação de uma loja análoga à localização em
avaliação. A aplicação realça as principais diferenças entre a nova localização e a loja
análoga mais próxima, baseando-se num conjunto elevado de variáveis estruturadas em
grupos semelhantes aos apresentados na Figura 7 (pág. 50) e permite efectuar previsões
usando as vendas do último ano dessa loja extrapoladas para o ano seguinte.
Esta é sem dúvida uma aproximação alternativa certamente muito útil na avaliação
de localizações potenciais, mas apenas possível quando o número de lojas existentes é
bastante elevado. Mesmo neste caso corre-se o risco de não ser possível encontrar
localizações
suficientemente
análogas
para
distinguir
entre
duas
alternativas
semelhantes. Por outro lado, fazer previsões com base no comportamento de apenas
uma loja pode transmitir ao utilizador alguma insegurança, em especial se importantes
diferenças forem identificadas e o comportamento da loja identificada for atípico
relativamente às restantes lojas existentes.
Pelo contrário, no trabalho descrito nesta dissertação utilizam-se grupos de lojas
análogas certamente com uma caracterização não tão concreta, mas com maior
probabilidade de generalização dos resultados obtidos. Por outro lado, o uso de uma
combinação de vendas previstas para o grupo (pelas árvores de classificação) e de
características específicas da localização (pelo modelo de regressão) dará certamente
uma maior segurança ao utilizador uma vez que os resultados são mais robustos e
menos sensíveis a situações atípicas e particulares.
174
VI.D. Tese?!
Autores como Phillips e Pugh (2005) consideram que a divisão da investigação
científica tradicional em fundamental e aplicada é demasiado rígida. Assim, sugerem a
divisão em 3 classes: a investigação conducente a novas linhas de investigação, a
validação ou comparação de teorias existentes e a resolução de aplicações concretas do
“mundo real”. A presente dissertação enquadra-se claramente na última classe,
caracterizando-se pela fusão de diversas abordagens com uma contribuição incremental,
baseada no caso particular, ao conhecimento da área.
Sempre entendi a área de Investigação Operacional e Engenharia de Sistemas
como uma área claramente de interface envolvendo áreas de conhecimento horizontais
como a Matemática, a Estatística, a Informática, etc. e aplicando esses conhecimentos
científicos a áreas verticais onde são úteis para resolver problemas ou para acrescentar
conhecimento sobre problemas e soluções, como é o caso das Engenharias, Logística,
Gestão ou Marketing. Estando eu comprometido com uma carreira académica, sempre
considerei que este trabalho deveria ser desenvolvido no “outro lado”, i.e. do lado dos
problemas aplicados.
No entanto, a resolução de um problema prático pode ser um caminho cheio de
armadilhas sendo dificilmente previsível como poderá terminar. Escondida em cada curva
do caminho pode estar mais uma dificuldade, mais um imprevisto. Durante a realização
deste trabalho verificaram-se dificuldades com a recolha de dados em geral, aliás
processo muito demorado que ocupou grande parte do tempo empregue, alterações na
equipa de especialistas e uma importante mudança de estratégia do grupo de distribuição
relativamente à cadeia de lojas em estudo.
No entanto, a limitação que mais profundo efeito teve sobre os resultados
apresentados é claramente a impossibilidade de usar dados para mais lojas de outras
cadeias de retalho semelhantes. Esta limitação, que certamente surgirá na análise da
maioria das pequenas cadeias de retalho, acabou por ser aquela que mais criatividade
precisou para ser ultrapassada. A solução encontrada, combinando conhecimento do
domínio com alguns algoritmos muito simples da estatística e do reconhecimento de
padrões e uma ênfase na necessidade de renovar os modelos e de os validar
constantemente com novos dados, é provavelmente a maior contribuição desta
dissertação.
Num trabalho tão aplicado como este é especialmente difícil definir uma tese que
esta dissertação deveria comprovar e confirmar principalmente por os resultados a que se
175
chega serem muito dependentes do problema particular, pelo que qualquer tipo de
generalização ou paralelização com outros casos não é evidente. Na tentativa de
responder à interrogação correspondente ao título desta secção, poder-se-ia enunciar
uma tese como:
As vendas anuais de novas lojas ou localizações, para a cadeia de lojas de
retalho alimentar considerada, podem ser previstas com precisão aceitável
utilizando uma combinação de modelos de regressão e discriminantes
baseados numa classificação de lojas agrupadas em grupos análogos.
Ainda que os resultados apresentados ao longo deste trabalho não sejam
absolutamente conclusivos, julgo que o são na medida suficiente. Na verdade, o teste
mais rigoroso a qualquer modelo é a sua utilização prática, num ambiente em mudança e
muito competitivo onde todos os pressupostos podem ser alterados muito rapidamente.
Esse é um teste que este trabalho passou ao se verificar que estes resultados estão
efectivamente a ser utilizados e de terem sido solicitadas melhorias ao software e aos
modelos de forma regular.
Gostaria ainda de acrescentar que este trabalho correspondeu às minhas
expectativas no sentido em que realmente se trabalhou com o “outro lado”, e essa
experiência foi profundamente enriquecedora, contribuindo para o conhecimento não
apenas do problema mas também de metodologias de trabalho.
VI.E. Perspectivas Futuras
Para se entenderem as propostas de trabalho futuro é necessário compreender as
limitações da abordagem apresentada nesta dissertação. Muitas das propostas que se
apresentam resultam directamente da possibilidade de melhorar o trabalho apresentado.
O número de lojas existentes na cadeia, por ser muito reduzido, dificultou a
estimação dos modelos e a respectiva validação. Isto significa que no futuro, com mais
casos, será possível realizar validações internas mais completas, nomeadamente com
recurso a validações cruzadas com amostra de treino e amostra de teste. No entanto,
mais casos pode significar igualmente novos modelos como é o caso dos modelos de
mistura ou de segmentos latentes que permitem, em simultâneo, definir uma
segmentação das lojas e ajustar modelos lineares de previsão com parâmetros distintos
em cada segmento.
Modelos deste tipo podem conduzir não apenas a previsões mais exactas mas
também a um novo ponto de vista sobre o problema. Sublinhe-se, no entanto, que num
176
problema complexo como o de localização, a utilização de conhecimento do domínio será
sempre indispensável e deverá continuar a ser potenciada quaisquer que sejam os
modelos utilizados.
O método interactivo escolhido para definir a tipologia acaba por ser semelhante a
metodologias com validação por visualização e conhecimento de especialistas
(expert visual validation methodology), como é exemplo o método em três passos
apresentado por Hennig and Christlieb (2002), ainda que adaptado a dados com “praga
de dimensionalidade”. Autores como Wang (2001) consideram os métodos com validação
por visualização métodos com vantagens uma vez que permitem a utilização de todos os
dados, sem a perda de dados da validação cruzada, e permitem sempre encontrar uma
solução satisfatória, ao contrário dos métodos que não oferecem alternativas quando a
validação falha.
Apesar de se dispor de muitas variáveis, apenas duas foram seleccionadas para
segmentar as lojas e definir uma tipologia. As variáveis utilizadas foram escolhidas por os
especialistas não terem encontrado melhorias significativas quando mais variáveis base
de agrupamento eram utilizadas, e também por terem natureza bem diferenciada (i.e.
uma é uma medida de desempenho e a outra uma variável comportamental dos clientes)
e não serem correlacionadas. Por outro lado, alguns autores defendem que a análise de
agrupamentos deve ser sempre efectuada com o menor número de variáveis base de
agrupamento possível para impedir a introdução de ruído nos resultados (Duda et al.,
2001, Gordon, 1999, Milligan, 1996).
No entanto, com o aumento do universo de lojas a segmentar, é possível que mais
variáveis sejam necessárias no conjunto das variáveis base de agrupamento. Assim, o
método de visualização utilizado tornar-se-ia inadequado. Sugere-se assim, para trabalho
futuro, a utilização de técnicas de visualização das tipologias formadas com diferentes
conjuntos de variáveis base de agrupamento como é o caso das projection pursuit entre
outras técnicas de redução da dimensionalidade dos dados (Soukup e Davidson, 2002).
Tendo em conta a entusiástica receptividade que as árvores de regressão
obtiveram na definição de grupos de lojas análogas e previsão, pretende-se igualmente
explorar esta via em maior pormenor. Na verdade, as árvores de regressão são um bom
meio de comunicação já que são de fácil leitura, permitindo identificar padrões nos dados
e, em simultâneo, uma caracterização dos mesmos. Os resultados identificados pelas
árvores de regressão foram preteridos por se considerar que avaliar os grupos formados
apenas com uma variável dependente é insuficiente. Na verdade, a avaliação que estes
especialistas utilizam não se baseia apenas nas vendas das lojas mas num potencial de
177
vendas a médio e longo prazo que terá de ser avaliado por outro tipo de medidas de
desempenho. Para encontrar árvores mais coerentes com este comportamento sugeremse duas linhas de investigação;
•
a utilização de análise de decisão multicritério na construção de uma medida
de desempenho mais adequada à avaliação de lojas e localizações ou, em
alternativa, a utilização de algoritmos para árvores de regressão multivariadas
(ver por exemplo Ciampi et al., 2000);
•
a utilização de técnicas de combinação de árvores construídas com diferentes
variáveis dependentes, como é o caso das árvores de consenso (Leclerc, 1998)
ou da combinação de classificadores ou previsões (Duda et al., 2001).
Uma limitação fundamental, já abordada na secção V.D.2 (pág. 152) dos métodos
de previsão por analogia, consiste no facto de não ser possível fazer previsões para
localizações potenciais muito distintas, uma vez que tal seria uma extrapolação para
zonas para as quais não se possuem dados. Esta é uma limitação que se verifica em
todos os modelos de previsão e que resulta directamente das limitações dos dados
existentes. A dificuldade em prever vendas ou comparar localizações em áreas muito
distintas daquelas onde actualmente existem lojas apenas poderá ser superada por
utilização de conhecimento não existente nos dados.
Na verdade, este problema já surgiu quando foi proposto avaliar uma localização
no sul do país, portanto claramente fora das áreas metropolitanas de Lisboa e do Porto
onde actualmente existem lojas da cadeia. Ainda que os modelos desenvolvidos não
possam ser usados com segurança em tal localização, o conhecimento gerado como os
modelos de delimitação de áreas de influência e as regras proposicionais enumeradas na
secção VI.B podem contribuir para se chegar a uma conclusão menos subjectiva. Assim,
verifica-se a necessidade de continuar a gerar conhecimento sobre o problema e de
utilizar novas técnicas de captura de conhecimento.
Note-se que a decisão final sobre o destino de uma localização potencial terá de
considerar um trade-off entre o custo de investimento e a capacidade da localização
para gerar receitas. Quanto ao custo de investimento das localizações, nesta
dissertação considera-se a existência de um orçamento a que todas as localizações em
comparação obedecem. Apesar disso, variações de custo têm de ser consideradas no
processo de comparação de localizações com vista à tomada de decisão. De qualquer
modo, tem-se verificado que frequentemente as localizações em comparação são
próximas pelo que não se esperam grandes variações de custo de aquisição dos terrenos
ou de construção da loja.
178
Ainda que neste caso, os custos de investimento tenham sido considerados pouco
importantes relativamente à capacidade de gerar receitas, com o aumento do número de
lojas e o previsivel aumento de variedade de localizações em comparação a análise
multicritério pode tornar-se relevante. Assim, uma possível evolução deste trabalho
consistiria na comparação de alternativas de localização com base em critérios que
incluam os custos de investimento, a capacidade de gerar receitas, o risco associado às
previsões de receitas e aspectos não monetários como o incremento que uma nova
localização permite da imagem da cadeia.
No que se refere à aplicação desenvolvida, uma possível evolução consiste na
utilização de uma linguagem de metadados como o XML (eXtensible Markup
Language) para trocar modelos e informação sobre os dados entre as diferentes
aplicações. Este tipo de procedimento permitiria introduzir modelos na folha de cálculo
com maior rapidez, facilitando as análises what-if que envolvam modificações nos
modelos e não apenas nos parâmetros utilizados.
Ainda que a via escolhida tenha sido bem fundamentada e se tenha chegado a
bons resultados, considera-se útil comparar estes resultados com modelos de interacção
espacial e de optimização como é o caso do problema da cadeia de retalho óptima
referido em Hurley et al. (1995). Este tipo de abordagem holística, relacionada com uma
visão de conjunto de toda a cadeia de lojas, pode trazer conhecimentos adicionais sobre
o problema e poderia resultar numa implementação na aplicação computacional,
aumentando o conjunto de modelos acessíveis ao utilizador e tornando a aplicação mais
útil como ferramenta de apoio ao raciocínio.
179
BIBLIOGRAFIA
Achabal, Dale D.; Gorr, Wilpen L. e Mahajan, Vijay (1982) “MULTILOC - A multiple store
location decision model” Journal of Retailing, 58 (2) 5-25, ISSN: 0022-4359.
Adelman, Leonard (1992) “Evaluating Decision Support and Expert Systems”. New York,
USA: Wiley-Interscience, ISBN: 0-471-54801-4.
Adelman, Leonard e Riedel, Sharon L. (1997) “Handbook for Evaluating KnowledgeBased Systems: Conceptual framework and compendium of methods”. Dordrecht,
Netherlands: Kluwer Academic Publishers, ISBN: 0-7923-9906-4.
Albright, S. Christian (2001) “VBA for Modelers: Developing decision support systems
using Microsoft® Excel” Pacific Grove, USA: Duxbury, ISBN: 0-534-38012-3.
Alexander, Nicholas e Myers, Hayley (2000) “The retail internationalisation process”
International Marketing Review, 17 (4/5) 334-353, ISSN: 0265-1335.
Applebaum, William (1966) “Guidelines for store-location strategy study” Journal of
Marketing, 30, 42-45, ISSN: 0022-2429.
Arnold, Stephen J.; Oum, Tae H. e Tigert, Douglas J. (1983) “Determinant attributes in
retail patronage: Seasonal, temporal, regional, and international comparisons” Journal
of Marketing Research, 20 (5 May) 149-157, ISSN: 0022-2437.
Assael, H. (1970) “Segmentating markets by group purchasing behavior: An application of
the AID technique” Journal of Marketing Research, 7, 153-158, ISSN: 0022-2437.
Awad, Elias M. e Ghaziri, Hassan M. (2004) “Knowledge Management”. Upper Saddle
River, USA: Pearson Education Ltd., ISBN: 0-13-122784-X.
Azen, Razia e Budescu, David V. (2003) “The dominance analysis approach for
comparing predictors in multiple regression” Psychological Methods, 8 (2 Jun) 129-148,
ISSN: 1082-989X.
Baker, Ken (2002) “Data fusion”. Em: Birn, Robin J. (Ed.) The International Handbook of
Market Research Techniques, 2ª ed., London, UK: Kogan Page, 481-496, ISBN: 07494-3865-7.
Ballou, Ronald H. (2004) “Business Logistics / Supply Chain Management”. 5ª ed., Upper
Saddle River, USA: Pearson Prentice Hall, ISBN: 0-13-123010-7.
Bay, S.D. e Pazzani, M.J. (2000) “Discovering and describing category differences: What
makes a discovered difference insightful?” Em: Gleitman, Lila R. e Joshi, Aravind K.
(Eds.) Proceedings of the 22nd Annual Meeting of the Cognitive Science Society,
Pennsylvania, USA: Institute for Research in Cognitive Science, 603-609.
Bell, David E.; Keeney, Ralph L. e Little, John D.C. (1975) “A market share theorem”
Journal of Marketing Research, 12, 136-141, ISSN: 0022-2437.
Berg, Mark; van Kreveld, Marc; Overmars, Mark e Schwarzkopf, Otfried (2000)
“Computational Geometry: Algorithms and applications”. 2ª ed., Berlim: SpringerVerlag, ISBN: 3-540-65620-0.
Berry, Michael J.A. e Linoff, Gordon (1997) “Data Mining Techniques: For marketing,
sales, and customer support”. USA: John Wiley & Sons, ISBN: 0-471-17980-9.
Berry, William D. (1993) “Understanding regression assumptions” Quantitative Appliations
in the Social Sciences, vol. 92. Newbury Park, USA: Sage Publications, ISBN: 0-80394263-X.
180
Biggs, D.B. de Ville e Suen, E. (1991) “A method of choosing multiway partitions for
classification and decision trees” Journal of Applied Statistics, 18, 49-62, ISSN: 02664763.
Birkin, Mark; Clarke, Graham e Clarke, Martin (2002) “Retail Geography and Intelligent
Network Planning”. Chischester, U.K.: John Wiley & Sons, ISBN: 0-471-49803-3.
Birrell, George e Worrall, Stephen (1995) “Computer dating for offices” OR Insight, 8 (3)
26-30, ISSN: 0953-5543.
Blamires, Chris (2002) “Segmentation”. Em: Birn, Robin J. (Ed.) The International
Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 497-518,
ISBN: 0-7494-3865-7.
Blankenship, Albert Breneman; Breen, George Edward e Dutka, Alan F. (1998) “State of
the Art Marketing Research”. 2ª ed., Chicago, USA: NTC Business Books, ISBN: 08442-3443-5.
Boots, Barry e South, Robert (1997) “Modeling retail trade areas using higher-order,
multiplicatively weighted voronoi diagrams” Journal of Retailing, 73 (3) 519-536, ISSN:
0022-4359.
Boufounou, Paraskevi V. (1995) “Evaluating bank branch location and performance: A
case study” European Journal of Operational Research, 87 (2) 389-402, ISSN: 03772217.
Bouguettaya Athman; Benatallah, Boualem e Elmagarmid, Ahmed K. (1998)
“Interconnecting Heterogeneous Information Systems” The Kluwer International Series
on Advances in Database Systems, vol. 14. Massachusetts, USA: Kluwer Academic
Press, ISBN: 0-7923-8216-1.
Bowerman, Bruce L.; O'Connell, Richard e Koehler, Anne (2005) “Forecasting, Time
Series, and Regression”. 4ª ed., Pacific Grove, USA: Duxbury, ISBN: 0-534-40977-6.
Breiman, Leo; Friedman, Jerome H.; Olshen, Richard A. e Stone, Charles J. (1984)
“Classification and Regression Trees” The Wadsworth & Brooks \ Cole Statistics \
Probability Series. California, USA: Wadsworth International, ISBN: 0-534-98053-8.
Brown, G.S. (1965) “Point density in stems per acre” New Zealand Forestry Service
Research Notes, 38, 1-11.
Budescu, David V. (1993) “Dominance analysis: A new approach to the problem of
relative importance of predictors in multiple regression” Psychological Bulletin, 114 (3
Nov) 542-551, ISSN: 0033-2909.
Buhl, Hans Ulrich (1988) “Axiomatic considerations in multi-objective location theory”
European Journal of Operational Research, 37 (3) 363-367, ISSN: 0377-2217.
Burt, S. e Gabbott, M. (1995) “The elderly consumer and non food purchase behavoiur”
European Journal of Marketing, 29 (2) 43-57, ISSN: 0309-0566.
Byrom, J.W. (2000) “The Use of Geographical Information in Retail Locational DecisionMaking” Research in Management and Business Working Paper Series. UK:
Manchester
Metropolitan
University,
ISBN:
1471-857X.
(Retirado
de
www.business.mmu.ac.uk/wps/ em 7/12/2004)
Cardoso, Margarida G.M.S. (2000) “Segmentação: Uma aplicação ao mercado do
turismo” Tese de Doutoramento. Lisboa: IST - Univ. Técnica de Lisboa.
Cardoso, Margarida G.M.S. (2001) “Modelos de segmentos latentes: Aplicações em
marketing”. Em: Ferreira, Manuel A.M.; Menezes, Rui e Cardoso, Margarida (Eds.)
Temas em Métodos Quantitativos, Lisboa: Sílabo, 205-231, ISBN: 972-618-254-9.
181
Cardoso, Margarida G.M.S. (2003) “Modelos discriminantes lógicos na caracterização de
uma estrutura de segmentos”. Em: Reis, Elizabeth e Hill, Manuela Magalhães (Eds.)
Temas em Métodos Quantitativos, Lisboa: Sílabo, 181-192, ISBN: 972-618-291-1.
Cardoso, Margarida G.M.S. e Mendes, Armando B. (2002) “Segmentação de clientes de
lojas de pequena dimensão”. Em: Carvalho, Lucília; Brilhante, Fátima e Rosado,
Fernando (Eds.) Novos Rumos em Estatística, 9º Congresso Anual da Sociedade
Portuguesa de Estatística, Ponta Delgada: SPE, 157-170, ISBN: 972-98619-4-3.
Cardoso, Margarida G.M.S. e Moutinho, Luíz (2003) “A logical type discriminant model for
profiling a segment structure” Journal of Targeting, Measurement and Analysis for
Marketing, 12 (1) 27-41, ISSN: 0967-3237.
Cavique, L.; Rego, C. e Themido, I. (2002) “A scatter search algorithm for the maximum
clique problem”. Em: Ribeiro, C. e Hansen, P. (Eds.) Essays and Surveys in
Metaheuristics, Dordrecht, The Netherlands: Kluwer Academic Publishers, 227-244,
ISBN: 0-7923-7520-3.
Chatfield, C. (2001) “Time-Series Forecasting”. Boca Raton, UK: Chapman & Hall, ISBN:
1-584-88063-5.
Chou, Paul B.; Grossman, Edna; Gunopulos, Dimitrios e Kamesam, Pasumarti (2000)
“Identifying prospective customers”. Em: Ramakrishnan, R. (Ed.) Proceedings ACM
SIGKDD, 6th International Conference on Knowledge Discovery and Data Mining, New
York, USA: ACM press, 447-456, ISBN: 1-58113-233-6.
Chuang, Pao-Tiao (2002) “A QFD approach for distribution's location model” The
International Journal of Quality & Reliability Management, 19 (8) 1037-1054, ISSN:
0265-671X.
Church, R.L. (2002) “Geographical information systems and location science” Computers
and Operations Research, 29, 541-562, ISSN: 0305-0548.
Ciampi, Antonio; Zighed, Djamel A. e Clech, Jérémy (2000) “Trees and induction graphs
for multivariate response”. Em: Zighed, D.A.; Komorowski, J. e Zytkow, J. (Eds.)
Principles of Data Mining and Knowledge Discovery: Proceedings PKDD 2000, 4th
european conference, Lecture Notes in Computer Science, Heidelberg, Germany:
Springer-Verlag, 359-394, ISBN: 3-540-41066-X.
Clarke, Ian; Hallsworth, Alan; Jackson, Peter; Kervenoael, Ronan; Perez-del-Aguila,
Rossana e Kirkup, Malcolm (2004) “Retail competition and consumer choice:
Contextualising the ‘food deserts’ debate” International Journal of Retail & Distribution
Management, 32 (2) 89-99, ISSN: 0959-0552.
Clarke, Ian; Horita, Masahide e Mackaness, William (2000) “The spatial knowledge of
retail decision makers: Capturing and interpreting group insight using a composite
cognitive map” The International Review of Retail, Distribution and Consumer
Research, 10 (3) 265-285, ISSN: 0959-3969.
Clarke, Ian e Mackaness, William (2001) “Management 'Intuition': An interpretative
account of structure and content of decision schemas using cognitive maps” Journal of
Management Studies, 38 (2 March) 147-172, ISSN: 0022-2380.
Clarke, Ian; Mackaness, William e Ball, Barbara (2003a) “Modelling Intuition in Retail Site
Assessment (MIRSA): Making sense of retail location using retailers' intuitive
judgements as a support for decision-making” The International Review of Retail,
Distribution and Consumer Research, 13 (2 April) 175-193, ISSN: 0959-3969.
182
Clarke, Ian; Mackaness, William; Ball, Barbara e Horita, Masahide (2003b) “The devil is in
the detail: Visualising analogical thought in retail location decision-making”
Environment and Planning - part B - Planning and design, 30 (1 January) 15-36, ISSN:
0265-8135.
Clemen, Robert T. e Reilly, Terence (2001) “Making Hard Decisions with DecisionTools”
Pacific Grove, USA: Duxbury, ISBN: 0-534-36597-3.
Coates, David; Doherty, Neil; French, Alan e Kirkup, Malcolm (1995) “Neural networks for
store performance forecasting: An empirical comparison with regression techniques”
The International Review of Retail, Distribution and Consumer Research, 5 (3 July)
415-432, ISSN: 0959-3969.
Cooley, Steven (2002) “Loyalty strategy development using applied member-cohort
segmentation” Journal of Communication Management, 19 (7) 550-563, ISSN: 07451822.
Cooper, Lee G. e Nakanishi, Masao (1993) “Market-Share Analysis: Evaluating
competitive marketing effectiveness” International Series in Quantitative Marketing.
Boston: Kluwer Academic Publishers, ISBN: 0-89838-278-5.
Cowen, David J.; Jensen, John R.; Shirley, W. Lynn; Zhou, Yingming e Remington, Kevin
(2000) “Commercial real estate GIS site evaluation models: Interfaces to ArcView GIS”.
Em: Proceedings of the 20th Annual ESRI International User Conference, ESRI online
Library, 140-145. (Retirado de www.esri.com/library/userconf/proc00/professional/
papers/ em 10/11/2001)
Cox, Trevor F. e Cox, Michael A.A. (2000) “Multidimensional Scaling” Monographs on
Statistics and Applied Probability. 2ª ed., Boca Raton, UK: CRC Press, ISBN: 1-58488094-5.
Cummings, Nigel (1999) “Powering performance at Tesco” OR Newsletter (May) 24-25.
Cummins, Steven e Macintyre, Sally (2002) “’Food deserts’ evidence and assumption in
health policy making” British Medical Journal, 325 (24 August) 436-438, ISSN: 09598146.
Curry, Bruce e Moutinho, Luiz (1991) “Expert systems for site location decisions” Logistics
Information Management, 4 (4) 19-27, ISSN: 0957-6053.
Curry, Bruce e Moutinho, Luiz (1992) “Computer models for site location decisions”
International Journal of Retail & Distribution Management, 20 (4 July/August) 12-17,
ISSN: 0959-0552.
Dawson, John (2000) “Retailing at century end: Some challenges for management and
research” The International Review of Retail, Distribution and Consumer Research, 10
(2 April) 119-148, ISSN: 0959-3969.
Devlin, Derek; Birtwistle, Grete e Macedo, Norma (2003) “Food retail positioning strategy:
A means-end chain analysis” British Food Journal, 105 (9) 653-670, ISSN: 0007-070X.
Dirichlet, Peter Gustav Lejeune (1850) “Über die reduction der positiven quadratischen
formen mit drei umbestimmten ganzen Zahlen” Journal für die Reine und Angewandte
Mathematik, 40, 209-227.
Drezner, Tammy (1995) “Competitive facility location in the plane”. Em: Drezner, Zvi (Ed.)
Facility Location: A Survey of applications and methods, Springer Series in Operations
Research, Berlim: Springer-Verlag, 285-300, ISBN: 0-387-94545-8.
183
Drezner, Tammy; Drezner, Zvi e Salhi, S. (2002) “Solving the multiple competitive facilities
location problem” European Journal of Operational Research, 142 (1) 138-151, ISSN:
0377-2217.
Drezner, Zvi e Hamacher, Horst W. (Eds.) (2002) “Facility location: Applications and
theory”. Berlin: Springer, ISBN: 3-540-42172-6.
Du, Qiang; Faber, Vance e Gunzburger, Max (1999) “Centroidal Voronoi tessellations:
Applications and algorithms” SIAM Review, 41, 637-676, ISSN: 0036-1445.
Duda, Richard O.; Hart, Peter E. e Stork, David G. (2001) “Pattern Classification”. 2ª ed.,
New York: Wiley-Interscience, ISBN: 0-4-710-5669-3.
Dugmore, K. (1997) “A gravity situation” New Perspectives, 5 (4) 18-19, ISSN: 0893-7850.
East, R.; Hammond, K.; Harris, P. e Lomax, W. (2000) “First-store loyalty and retention”
Journal of Marketing Management, 16, 307-325, ISSN: 0267-257X.
Edmunds, Holly (1996) “AMA Complete Guide to Marketing Research for Small Business”.
Chicago: NTC Business Books, ISBN: 0-8442-3584-9.
Eurostat (2001) “Distributive trades in Europe” Panorama of the European Union.
Luxembourg: Office for Official Publications of the European Communities, ISBN: 92894-1426-X. (Retirado de europa.eu.int/comm/eurostat em 26/8/2004).
Eurostat (2002) “European social statistics: Demography” Detailed Tables. Luxembourg:
Office for Official Publications of the European Communities, ISBN: 92-894-4324-3.
(Retirado de europa.eu.int/comm/eurostat/ em 2/9/2004).
Eurostat (2003) “European Business Facts and Figures, Part 5: Trade and tourism, data
1991-2001” Panorama of the European Union. Luxembourg: Office for Official
Publications of the European Communities, ISBN: 92-894-5737-6. (Retirado de
europa.eu.int/comm/eurostat em 25/8/2004).
Everitt, Brian S. e Dunn, Graham (2001) “Applied Multivariate Data Analysis”. 2ª ed.,
London, UK: Edward Arnold, ISBN: 0-340-741-22-8.
Everitt, Brian S.; Landau, Sabine e Leese, Morven (2001) “Cluster Analysis”. 4ª ed.,
London, UK: Edward Arnold, ISBN: 0-340-761-19-9.
Fernandes, Carla e Themido, Isabel (1997) “Development of gravitational models for
gasoline sales” Investigação Operacional, 17 (1) 41-59, ISSN: 0874-5161.
Figueiredo, António Dias; Celorico, Jacinto J. e Coelho, Pedro M. (1999) “Recolha de
Dados para a Base de Dados do Observatório do Comércio sobre as Empresas que
em Portugal operam no Domínio do Comércio Electrónico” Relatórios do Lab. de
Informática e Sistemas do Instituto Pedro Nunes. Portugal: Univ. de Coimbra. (Retirado
de www.obscom.min-economia.pt em 25/06/2002)
Fotheringham, Stewart e Rogerson, Peter (Eds.) (1994) “Spatial Analysis and GIS”
Technical Issues in Geographic Information Systems. Basingstoke, UK: Burgess
Science Press, ISBN: 0-7484-0104-0.
Gentle, James E. (2002) “Elements of Computational Statistics” Statistics and Computing.
New York, USA: Springer-Verlag, ISBN: 0-387-95489-9.
Ghosh, Avijit e Craig, C. Samuel (1983) “Formulating retail location strategy in a changing
environment” Journal of Marketing, 47 (3 Summer) 56-68, ISSN: 0022-2429.
Ghosh, Avijit e McLafferty, Sara L. (1982) “Locating stores in uncertain environments: A
scenario planning approach” Journal of Retailing, 58 (4) 5-22, ISSN: 0022-4359.
184
Gilbert, David (2002) “Retail Marketing Management”. 2ª ed., Upper Saddle River, USA:
Prentice Hall, ISBN: 0-273-65511-6.
Giovanni, Luigi; Sanlorenzo, Franco e Tadei, Roberto (2002) “Modelling the retail system
competition” Em: Barceló, Jaime; Paixão, José; Labbé, Martine e Speranza, Maria
Grazia (Eds.) Conference Preprints TRISTAN IV, 4th Triennial Symposium on
Transportation Analysis, Ponta Delgada: Fac. de Ciências da Univ. de Lisboa e Univ.
dos Açores, 345-356.
Gonçalves, Alexandre B. e Matos, João (2005) “Modelação geográfica de problemas de
localização de equipamentos”. Em: Resumos da Conferência Nacional de Cartografia
e Geodesia, 4ª ed., Lisboa, Portugal: Ordem dos Engenheiros e ICIST \ IST.
Gonçalves, Alexandre B. e Mendes, Armando B. (2002) “Caracterização de áreas de
influência de lojas de retalho alimentar de pequena dimensão com base em diagramas
de Voronoi ponderados”. Em: Resumos eSIG'2002, Encontro de Utilizadores de
Informação Geográfica, 7ª ed., Lisboa, Portugal: USIG. (Publicado em CD-ROM).
González-Benito, Óscar (2002) “Geodemographic and socioeconomic characterization of
the retail attraction of leading hypermarket chains in Spain” The International Review of
Retail, Distribution and Consumer Research, 12 (1 January) 81-104, ISSN: 0959-3969.
Goodwin, David R. e McElwee, Rachel E. (1999) “Grocery shopping and an ageing
population: Research note” The International Review of Retail, Distribution and
Consumer Research, 9 (4 October) 403-409, ISSN: 0959-3969.
Gordon, A.D. (1999) “Classification” Monographs on Statistics and Applied Probability, vol.
82. 2ª ed., Boca Raton, UK: CRC Press, ISBN: 1-58488-013-9.
Grimshaw, David J. (1999) “Bringing Geographical Information Systems into Business”. 2ª
ed., New York, USA: John Wiley & Sons, ISBN: 0-471-33342-5.
Guijarro-Berdiñas, Bertha e Alonso-Betanzos, Amparo (2002) “Empirical evaluation of a
hybrid intelligent monitoring system using different measures of effectiveness” Artificial
Intelligence in Medicine, 24 (1 January) 71-96, ISSN: 0933-3657.
Guimarães, Rui Campos e Cabral, José A. Sarsfield (1997) “Estatística”. Lisboa, Portugal:
McGraw-Hill, ISBN: 972-8298-45-5.
Guy, Cliff (1998) “Controlling new retail spaces: The impress of planning policies in
Western Europe” Urban Studies: An Int. Jour. of Res. in Urban and Regional Studies,
35, 953-979, ISSN: 0042-0980.
Halkidi, Maria; Batistakis, Yannis e Vazirgiannis, Michalis (2001) “On clustering validation
techniques” Journal of Intelligent Information Systems, 17 (2/3 Dec) 107-145, ISSN:
0925-9902.
Hamacher, H.W. e Nickel, S. (1996) “Multicriteria planar location problems” European
Journal of Operational Research, 94 (1) 66-86, ISSN: 0377-2217.
Hand, David J.; Mannila, Heikki e Smyth, Padhraic (2001) “Principles of Data Mining”
Adaptive Computation and Machine Learning. Cambridge, USA: MIT Press, ISBN: 0262-08290-X.
Hardestya, David M. e Bearden, William O. (2004) “The use of expert judges in scale
development: Implications for improving face validity of measures of unobservable
constructs” Journal of Business Research, 57 (2 February) 98-107, ISSN: 0148-2963.
Harries, Paul (2002) “Sampling and statistics”. Em: Birn, Robin J. (Ed.) The International
Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 43-85,
ISBN: 0-7494-3865-7.
185
Hartigan, John A. (1996) “Introduction”. Em: Arabie, P.; Hubert, L.J. e De Soete, G. (Eds.)
Clustering and Classification, Singapore: World Scientific, 1-3, ISBN: 981-02-1287-9.
Hanssens, Dominique M.; Parsons, Leonard J. e Schultz, Randall L. (2001) “Market
Response Models: Econometric and time series analysis” International Series in
Quantitative Marketing, vol. 12. 2ª ed., Boston, USA: Kluwer Academic Publishers,
ISBN: 1-4020-7368-2.
Hathaway, Richard J. e Bezdek, James C. (2003) “Visual cluster validity for prototype
generator clustering models” Pattern Recognition Letters, 24 (9-10 June) 1563-1569,
ISSN: 0167-8655.
Heald, G.I. (1972) “The application of the automatic interaction detector (A.I.D.)
programme and multiple regression techniques to the assessment of store
performance and site selection” Operational Research Quarterly, 23 (4) 445-457, ISSN:
0030-3623.
Hennig, Christian e Christlieb, Norbert (2002) “Validating visual clusters in large datasets:
Fixed point clusters of spectral features” Computational Statistics & Data Analysis, 40
(4 October) 723-739, ISSN: 0167-9473.
Hernández, Tony e Bennison, David (1997) “Selling people on GIS” Mapping Awareness,
11 (5) 20-23, ISSN: 1361-7583.
Hernández, Tony e Bennison, David (2000) “The art and science of retail location
decisions” International Journal of Retail & Distribution Management, 28 (8) 357-367,
ISSN: 0959-0552.
Hernández, Tony; Bennison, David e Cornelius, S. (1998) “The organisational context of
retail locational planning” GeoJournal, 45 (4) 299-308, ISSN: 0343-2521.
Huff, D.L. (1963) “A probabilistic analysis of shopping center trade areas” Land
Economics, 39 (Februrary) 81-90, ISSN: 0023-7639.
Hurley, S.; Moutinho, L. e Stephens, N.M. (1995) “Solving marketing optimization
problems using genetic algorithms” European Journal of Marketing, 29 (4) 39-56, ISSN:
0309-0566.
Jackling, Peter (2002) “Analysing data”. Em: Birn, Robin J. (Ed.) The International
Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 411-437,
ISBN: 0-7494-3865-7.
Jain, Anil K. e Dubes, Richard C. (1988) “Algorithms for Clustering Data” Advanced
Reference Series: Computer Science. Englewood Cliffs, USA: Prentice Hall, ISBN: 013-022278-X.
Jain, Anil K.; Murty, M.N. e Flynn, P.J. (1999) “Data clustering: A review” ACM Computing
Surveys, 31 (3 September) 264-323, ISSN: 0360-0300.
Johnson, M. (1997) “The application of geodemographics to retailing - Meeting the needs
of the catchment” Journal of the Market Research Society, 39 (1) 203-224, ISSN: 00253618.
Jones, Christopher V. (1996) “Visualization and Optimization” Operations Research /
Computer Sciences Interfaces, vol. 6. The Netherlands: Kluwer Academic Publishers,
ISBN: 0-7923-9672-3.
Jones, Michael A.; Mothersbaugh, David L e Beatty, Sharon E. (2003) “The effects of
locational convenience on customer repurchase intentions across service types” The
Journal of Services Marketing, 17 (7) 701-712, ISSN: 0887-6045.
186
Karakaya, Fahri e Canel, Cem (1998) “Underlying dimensions of business location
decisions” Industrial Management + Data Systems, 98 (7) 321-329, ISSN: 0263-5577.
Karkazis, John (1989) “Facilities location in a competitive environment: A PROMETHEE
based multiple criteria analysis” European Journal of Operational Research, 42 (3) 294304, ISSN: 0377-2217.
Karkkainen, M. (2003) “Increasing efficiency in the supply chain for short shelf-life goods
using RFID tagging” International Journal of Retail & Distribution Management, 31 (10)
529-536, ISSN: 0959-0552.
Kass, G. (1980) “An exploratory technique for investigating large quantities of categorical
data” Applied Statistics, 29 (2) 119-127, ISSN: 0035-9254.
Kaufmann, Patrick J.; Donthu, Naveen e Brooks, Charles M. (2000) “Multi-unit retail site
selection processes: Incorporating opening delays and unidentified competition”
Journal of Retailing, 76 (1) 113-127, ISSN: 0022-4359.
Kaufmann, Patrick J.; Rangan, V. Kasturi (1990) “A model for managing system conflict
during franchise expansion” Journal of Retailing, 66 (2 Summer) 155-173, ISSN: 00224359.
Keen, Peter G.W. e Morton, Michael S. Scott (1978) “Decision Support Systems: An
organizational perspective” Addison-Wesley Series on Decision Support. Reading,
USA: Addison-Wesley, ISBN: 0-201-03667-3.
Klosterman, Richard E. e Xie, Yichun (1997) “Retail impact analysis with loosely coupled
GIS and a spreadsheet” International Journal of Physical Distribution & Logistics
Management, 2 (2) 175-192, ISSN: 0960-0035.
Koppelman, F.S. e Wen, C.H. (2000) “The paired combinatorial logit model: Properties,
estimation and applications” Transportation Research Part B: Methodology, 34, 75-89,
ISSN: 0191-2615.
Lam, Soi-Hoi e Song, Chenfei (2001) “Modelling spatial characteristics of transport
demand using GIS and household interview survey data”. Em: Barceló, Jaime; Paixão,
José; Labbé, Martine e Speranza, Maria Grazia (Eds.) Conference Preprints TRISTAN
IV, 4th Triennial Symposium on Transportation Analysis, Ponta Delgada: Fac. de
Ciências da Univ. de Lisboa e Univ. dos Açores, 595-600.
Lattin, James; Carroll, J. Douglas e Green, Paul E. (2003) “Analysing Multivariate Data”.
Pacific Grove, USA: Duxbury, ISBN: 0-534-34974-9.
Leclerc, Bruno (1998) “Consensus of classifications: The case of trees”. Em: Rizzi,
Alfredo; Vichi, Maurizio e Bock, Hans-Hermann (Eds.) Advances in Data Science and
Classification: Proceedings of the 6th Conference of the International Federation of
Classification Societies (IFCS-98), Studies in Classification, Data Analysis, and
Knowledge Organization, Berlim: Springer-Verlag, 81-90, ISBN: 3-540-64641-8.
Leeflang, Peter S.H.; Wittink, Dick R.; Wedel, Michel e Naert, Philippe A. (2000) “Building
Models for Marketing Decisions” International Series in Quantitative Marketing, vol. 9.
Dordrecht, The Netherlands: Kluwer Academic Publishers, ISBN: 0-7923-7772-9.
Leventhal, Berry (2002) “Geodemographics”. Em: Birn, Robin J. (Ed.) The International
Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 103-125,
ISBN: 0749438657.
Levy, Michael e Weitz, Barton A. (2004) “Retailing Management”. 5ª ed., Boston:
McGraw-Hill, ISBN: 0-07-121481-X.
187
Lilien, Gary L.; Kotler, Philip e Moorthy, K. Sridhar (1992) “Marketing Models”. 1ª ed., New
Jersey, USA: Prentice Hall International, ISBN: 0-13-561929-7.
Lilien, Gary L. e Rangaswamy, Arvind (2003) “Marketing Engineering: Computer-assisted
marketing analysis and planning”. 2ª ed., New Jersey, USA: Prentice Hall, ISBN: 0-13035549-6.
Liu, Mingqin e Samal, Ashok (2002) “Cluster validation using legacy delineations” Image
and Vision Computing, 20 (7 May) 459-467, ISSN: 0262-8856.
Loh, Wei-Yin e Shih, Yu-Shan (1997) “Split selection methods for classification trees”
Statistica Sinica, 7, 815-840, ISSN: 1017-0405.
Maiar, Erhard (2002) “Quantitative research”. Em: Birn, Robin J. (Ed.) The International
Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 147-152,
ISBN: 0-7494-3865-7.
Malczewski, Jacek (1999) “GIS and Multicriteria Decision Analysis”. Chichester, UK: John
Wiley & Sons, ISBN: 0-471-32944-4.
Marakas, George M. (2003) “Decision Support Systems: In the 21st century”. 2ª ed., Upper
Saddle River, USA: Prentice Hall, ISBN: 0-13-122848-X.
Maroco, João (2003) “Análise Estatística - Com utilização do SPSS”. 1ª ed., Lisboa,
Portugal: Sílabo, ISBN: 972-618-298-0.
Marques, Jorge Salvador (1999) “Reconhecimento de Padrões: Métodos estatísticos e
neuronais” Ensino da Ciência e da Tecnologia. Lisboa, Portugal: IST Press, ISBN: 9728469-08-X.
Matos, Luis e Simões, Fernando (2004) “Performance.PT, Sistema de avaliação de
desempenho do grupo PT”. Em: Actas da 5ª Conferência da Associação Portuguesa
de Sistemas de Informação, Lisboa, Portugal: APSI, ISBN: 972-99387-1-7.
McCarty, Terry (2002) “Quantitative techniques: Retail audits”. Em: Birn, Robin J. (Ed.)
The International Handbook of Market Research Techniques, 2ª ed., London, UK:
Kogan Page, 249-259, ISBN: 0-7494-3865-7.
McMullin, Shaun K. (2000) “Where are your customers: Raster based modeling for
customer prospecting”. Em: Proceedings of the 20th Annual ESRI International User
Conference, ESRI online Library, 795-823. (Retirado de www.esri.com/library/
/userconf/proc00/professional/papers/ em 10/11/2001)
Mead, R. (1966) “A relationship between individual plant-spacing and yield” Annals of
Botany, 30, 301-309, ISSN: 0305-7364.
Mendes, Armando B. e Cardoso, Margarida G.M.S. (2005a) “Integração de conhecimento
de especialistas na tipificação de lojas de retalho” Revista Portuguesa de Marketing,
ISSN: 0873-2949 (aceite para publicação).
Mendes, Armando B. e Cardoso, Margarida G.M.S. (2005b) “Clustering Supermarkets:
The role of experts” Journal of Retailing and Consumer Services, ISSN: 0969-6989
(aceite para publicação).
Mendes, Armando B.; Gonçalves, Alexandre B.; Oliveira, Rui Carvalho e Matos, João
(2004) “Sistema de Apoio à Decisão Espacial para localização de lojas de retalho: O
problema das áreas de influência”. Em: Actas da 5ª Conferência da Associação
Portuguesa de Sistemas de Informação, Lisboa, Portugal: APSI, ISBN: 972-99387-1-7.
188
Mendes, Armando B. e Themido, Isabel Hall (2000) “Modelação de quotas de mercado de
artigos de grande consumo com baixo nível de diferenciação — Um caso de estudo
aplicado ao retalho”. Em: Antunes, Carlos Henggeler e Tavares, Luís Valadares (Eds.)
Casos de Aplicação da Investigação Operacional, Lisboa: McGraw-Hill, 266-291, ISBN:
972-773-075-2.
Mendes, Armando B. e Themido, Isabel Hall (2004) “Multi-outlet retail site location
assessment: A state of the art” International Transactions in Operations Research, 11
(1 January) 1-18, ISSN: 0969-6016.
Meyer, Terry G. (1988) “Site selection vs. site evaluation: Techniques for locating retail
outlets” Real Estate Issues, 13 (1) 25-28, ISSN: 0146-0595.
Micheaux, Andrea e Gayet, Anne (2001) “Turning a marketing database into a relationship
marketing database” Interactive Marketing, 2 (4) 327-346, ISSN: 1463-5178.
Milligan, Glenn W. (1996) “Clustering validation: Results and implications for applied
analyses”. Em: Arabie, P.; Hubert, L.J. e De Soete, G. (Eds.) Clustering and
Classification, Singapore: World Scientific, 341-375, ISBN: 981-02-1287-9.
Moore, James S. (1998) “An expert system approach to graduate school admission
decisions and academic performance prediction” Omega - International Journal of
Management Science, 26 (5) 659-670, ISSN: 0305-0483.
Moore, Stuart e Attewell, Glen (1991) “To be and where not to be - The Tesco approach to
locational analysis” OR Insight, 4 (1) 21-24, ISSN: 0953-5543.
Morgan, J.N. e Sonquist, J.A. (1963) “Problems in the analysis of survey data and a
proposal” Journal of the American Statistical Association, 58, 58-415, ISSN: 01621459.
Morland, Kimberly; Wing, Steve; Roux, Ana Diez e Poole, Charles (2002) “Neighborhood
characteristics associated with the location of food stores and food service places”
American Journal of Preventive Medicine, 22 (1 January) 23-29, ISSN: 0749-3797.
Morphet, Clive S. (1991) “Applying multiple regression analysis to the forecasting of
grocery store sales: An application and critical appraisal” The International Review of
Retail, Distribution and Consumer Research, 1 (3) 329-351, ISSN: 0959-3969.
Moschis, George P. (2003) “Marketing to older adults: An updated overview of present
knowledge and practice” Journal of Consumer Marketing, 20 (6) 516-525, ISSN: 07363761.
Moutinho, Luiz e Brownlie, Douglas (1994) “The stratlogic approach to the analysis of
competitive position” Marketing Intelligence and Planning, 12 (4) 15-21, ISSN: 02634503.
Moutinho, Luiz e Evans, Martin (1992) “Applied Marketing Research”. Wokingham, UK:
Addison-Wesley, ISBN: 0-201-56504-8.
Moutinho, Luiz; Goode, Mark e Davies, Fiona (1998) “Quantitative Analysis in Marketing
Management”. Chichester, UK: John Wiley & Sons, ISBN: 0-471-96430-1.
Moutinho, Luiz; Rita, Paulo e Curry, Bruce (1996) “Expert Systems in Tourism Marketing”.
UK: Business Press, ISBN: 0-415-09316-3.
Murnion, Shane D. (1996) “Spatial analysis using unsupervised neural networks”
Computers and Geosciences, 22 (9) 1027-1031, ISSN: 0098-3004.
Naert, Philippe A. e Leeflang, Peter S.H. (1978) “Building Implementable Marketing
Models”. Boston: Kluwer Academic Publishers, ISBN: 90-207-674-8.
189
Newman, Andrew J. e Cullen, Peter (2002) “Retailing: Environment and operations”.
London, U.K.: Thomson Learning, ISBN: 1-86152-533-8.
Newsome, Bobby A. e Zietz, Joachim (1992) “Adjusting comparable sales using multiple
regression analysis - The need for segmentation” The Appraisal Journal, 1 (January)
129-135, ISSN: 0003-7087.
Okabe, Atsuyuki; Boots, Barry; Sugihara, Kokichi e Chiu, Sung Nok (2000) “Spatial
Tessellations: Concepts and applications of Voronoi diagrams” Wiley Series in
Probability and Statistics. 2ª ed., Chichester, UK: John Wiley & Sons, ISBN: 0-47198635-6.
Okabe, Atsuyuki e Suzuki, Atsuo (1997) “Locational optimization problems solved through
Voronoi diagrams” European Journal of Operational Research, 98 (3) 445-456, ISSN:
0377-2217.
Okunuki, Kei-ichi e Okabe, Atsuyuki (2002) “Solving the Huff-based competitive location
model on a network with link-based demand” Annals of Operations Research, 111 (1-4)
239-252, ISSN: 0254-5330.
Osman, M.Z. (1993) “A conceptual model of retail image influences on loyalty patronage
behaviour” The International Review of Retail, Distribution and Consumer Research, 3
(2 April) 133-148, ISSN: 0959-3969.
Owrang, M. Mehdi (2000) “Using domain knowledge to optimize the knowledge discovery
process in databases” International Journal of Intelligent Systems, 15 (1 Dec) 45-60,
ISSN: 0884-8173.
Pasa, Mehmet (1996) “The value of marketing expertise” Management Science, 42 (3
Mar) 370-388, ISSN: 0025-1909.
Pastor, Jesus T. (1994) “Bicriterion programs and managerial location decisions:
Application to the banking sector” Journal of the Operational Research Society, 45 (12)
1351-1362, ISSN: 0160-5682.
Pazzani, M. (2000) “Knowledge discovery from data?” IEEE Intelligent Systems, 15 (2) 1013, ISSN: 1541-1672.
Pedrycz, Witold (2004) “Fuzzy clustering with a knowledge-based guidance” Pattern
Recognition Letters, 25 (4 March) 469-480, ISSN: 0167-8655.
Penny, Nicholas J. e Broom, David (1988) “The Tesco approach to store location”. Em:
Wrigley, Neil (Ed.) Store Choice, Store Location and Market Analysis, London, U.K.:
Routledge \ Chapman & Hall, 106-119, ISBN: 0-415-00199-4.
Phillips, E.M. e Pugh, D.S. (2005) “How to Get a PhD: A handbook for students and their
supervisors”. 4ª ed., Berkshire, UK: Open University Press, ISBN: 0-335-21684-6.
Pidd, Michael (2003) “Tools for Thinking - Modeling in management science”. 2ª ed.,
Chichester, UK: Wiley, ISBN: 0-470-84795-6.
Pinch, S. (1993) “Social polarization: A comparison of evidence from Britain and the USA”
Environment and Planning - part A - General, 25, 779-795, ISSN: 0308-518X.
Pioch, Elke e Byrom, John (2004) “Small independent retail firms and locational decisionmaking: Outdoor leisure retailing by the crags” Journal of Small Business and
Enterprise Development, 11 (2) 222-232, ISSN: 1462-6004.
Poole, Rachel; Clarke, Graham P. e Clarke, David B. (2002) “Growth, concentration and
regulation in European food retailing” European Urban and Regional Studies, 9 (2) 167186, ISSN: 1461-7145.
190
Quinlan, J. Ross (1993) “C4.5: Programs for machine learning”. San Mateo, USA: Morgan
Kaufmann Publishers, ISBN: 1-55860-238-0.
Rawlings, J.O.; Pantula, S.G. e Dickey, D.A. (1998) “Applied Regression Analysis: A
research tool” Springer Series in Statistics. 2ª ed., Berlim, Alemanha: Springer-Verlag,
ISBN: 0-387-98454-2.
Reilly, W.J. (1931) “The Law of Retail Gravitation”. New York: Knickerbocker Press.
Reis, Elizabeth (2001) “Estatística Multivariada Aplicada”. 2ª ed., Lisboa, Portugal: Sílabo,
ISBN: 972-618-247-6.
Reis, Fernando e Miranda, José (1998) “Estabelecimentos Comerciais - Grandes
superfícies retalhistas alimentares” Relatório. Lisboa: INE - Instituto Nacional de
Estatística. (Retirado de www.ine.pt em 24/1/2001)
Reynolds, J. (1991) “GIS for competitive advantage: The UK retail sector” Mapping
Awareness, 5 (1) 33-36, ISSN: 1361-7583.
Robertson, Ellen e Conway, Steffen (2002) “Face-to-face interviewing”. Em: Birn, Robin J.
(Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK:
Kogan Page, 153-176, ISBN: 0-7494-3865-7.
Rogers, David (1992) “A review of sales forecasting models most commonly applied in
retail site evaluation” International Journal of Retail & Distribution Management, 20 (4)
3-11, ISSN: 0959-0552.
Rousseau, José António (1997) “Manual de Distribuição”. Portugal: Abril/Controljornal,
ISBN: 972-611-232-X.
Salvaneschi, Luigi (1996) “Location, Location, Location: How to select the best site for
your business” Psi Successful Business Library. Grants Pass, USA: Psi Research Oasis Press, ISBN: 1-55571-376-9.
Sanders, Nada R. e Ritzman, Larry P. (2004) “Integrating judgmental and quantitative
forecasts: Methodologies for pooling marketing and operations information”
International Journal of Operations and Production Management, 24 (5) 513-529,
ISSN: 0144-3577.
Sands, S. e Moore, P. (1981) “Store site selection by discriminant analysis” Journal of the
Market Research Society, 23 (1) 40-51, ISSN: 0025-3618.
Saporta, Gilbert (2002) “Data fusion and data grafting” Computational Statistics & Data
Analysis, 38 (4 February) 465-473, ISSN: 0167-9473.
Sauter, Vicki L. (1997) “Decision Support Systems: An applied managerial approach”.
New York, USA: John Wiley & Sons, ISBN: 0-471-31134-0.
Schaffer, S. e Green, P.E. (1998) “Cluster-based market segmentation: Some alternative
comparisons of alternative approaches” Journal of the Market Research Society, 40,
155-163, ISSN: 0160-5682.
Schiller, Russell (2001) “The Dynamics of Property Location: Value and the factors which
drive the location of shops, offices and other land uses”. New York, USA: Spon Press \
Taylor & Francis, ISBN: 0-415-24646-6.
Seth, Andrew e Randall, Geoffrey (1999) “The Grocers: The rise and rise of the
supermarket chains”. 2ª ed., London, U.K.: Kogan Page, ISBN: 0-7494-2191-6.
Shieh, Y.-N. (1985) “K.H. Rau and the economic law of market areas” Journal of Regional
Science, 25 (2) 191-199, ISSN: 0022-4146.
191
Silva, Ana Lucia e Cardoso, Margarida G.M.S. (2004) “O uso de árvores de regressão na
predição do desempenho de lojas de uma cadeia de retalho alimentar: Um caso
prático”. Em: Ferreira, Manuel Alberto M.; Menezes, Rui e Catanas, Fernando Temas
em Métodos Quantitativos, Lisboa: Sílabo, 31-47, ISBN: 972-618-329-4.
Simkin, Lyndon P. (1989) “SLAM: store location assessment model - Theory and practice”
Omega - International Journal of Management Science, 17 (1) 53-58, ISSN: 03050483.
Simkin, Lyndon P.; Doyle, P. e Saunders, J. (1985) “UK retail store location assessment”
Journal of the Market Research Society, 27 (2) 95-108, ISSN: 0160-5682.
Smith, David (2004) “Logistics in Tesco: Past, present and future”. Em: Fernie, John e
Sparks, Leigh (Eds.) Logistics and Retail Management: Insights into current practice
and trends from leading experts, London, U.K.: Kogan Page, 154-183, ISBN: 0-74944091-0.
Soukup, Tom e Davidson, Ian (2002) “Visual Data Mining: Techniques and tools for data
visualization and mining” Database & Database Warehousing Technologies. Danvers,
USA: John Wiley & Sons, ISBN: 0-471-14999-3.
SPSS Inc. (2001) “AnswerTree 3.0 User's Guide” Software Support Book. Chicago, USA:
SPSS Inc., ISBN: 1-56827-275-8.
Stanley, Thomas J. e Sewall, Murphy A. (1976) “Image imputs to a probabilistic model:
Predicting retail potential” Journal of Marketing, 40 (July) 48-53, ISSN: 0022-2429.
Sulek, Joanne M.; Lind, Mary R. e Maruchek, Ann S. (1995) “The impact of a customer
service intervention and facility design on firm performance” Management Science, 41
(11) 1763-1773, ISSN: 0025-1909.
Tabachnick, Barbara G. e Fidell, Linda S. (2001) “Using Multivariate Statistics”. 4ª ed.,
Boston, USA: Allyn & Bacon, ISBN: 0-321-05677-9.
Tavares, L. Valadares (2004) “A model to support the search for consensus with
conflicting rankings: Multitrident” International Transactions in Operations Research, 11
(1 January) 107-115, ISSN: 0969-6016.
Teixeira, José Afonso; Pereira, Margarida; Di Biaggio, Sandra e Quintino, Filipe (1999)
“Horários de Funcionamento dos Estabelecimentos Comerciais: Situação actual e
prospectiva” Estudos do Instituto de Dinâmica do Espaço. Lisboa, Portugal: FCSH,
Univ. Nova de Lisboa. (Retirado de www.obscom.min-economia.pt em 27/06/2002)
Themido, Isabel Hall; Quintino, António e Leitão, José (1998) “Modelling the retail sales of
gasoline in a portuguese metropolitan area” International Transactions in Operations
Research, 5 (2) 89-102, ISSN: 0969-6016.
Thomas, Lyn C.; Edelman, David B. e Crook, Jonathan N. (2002) “Credit Scoring and its
Applications” Monographs on Mathematical Modeling and Computation, vol. 6
Philadelphia, USA: SIAM Press, ISBN: 0-89871-483-4.
Turban, Efraim; Aronson, Jay E. e Liang, Ting-Peng (2005) “Decision Support Systems
and Intelligent Systems”. 7ª ed., Upper Saddle River, USA: Prentice Hall, ISBN: 0-13123013-1.
Turner, R e Cole, H.S.D. (1980) “An investigation into the estimation and reliability of
urban shopping models” Urban Studies: An Int. Jour. of Res. in Urban and Regional
Studies, 17, 139-157, ISSN: 0042-0980.
Verhetsel, A. (2005) “Effects of neighbourhood characteristics on store performance
supermarkets versus hypermarkets” Journal of Retailing and Consumer Services, 12 (2
March) 141-150, ISSN: 0969-6989.
192
Voronoï, Georges (1908) “Nouvelles applications des paratrés continus à la théorie des
formes quadratiques. Deuxième memoir, recherche sur les parallelloèdres primitif”
Journal für die Reine und Angewandte Mathematik, 134, 198-287.
Wang, Shouhong (2001) “Cluster analysis using a validated self-organizing method:
Cases of problem identification” International Journal of Intelligent Systems in
Accounting, Finance and Management, 10, 127-138, ISSN: 1055-615X.
Ward, J.H., Jr. (1963) “Hierarchical grouping to optimize an objective function” Journal of
the American Statistical Association, 58, 236-244, ISSN: 0162-1459.
Webb, Andrew R. (2002) “Statistical Pattern Recognition”. 2ª ed., Chichester, UK: John
Wiley & Sons, ISBN: 0-470-84513-9.
Wedel, Michel e Kamakura, Wagner A. (2000) “Market Segmentaion: Conceptual and
methodological foundations” International Series in Quantitative Marketing, vol. 8. 2ª
ed., Massachusetts, USA: Kluwer Academic Publishers, ISBN: 0-7923-8635-3.
Whelan, A.; Wrigley, N.; Warm, D. e Cannings, E. (2002) “Life in a 'food desert'” Urban
Studies: An Int. Jour. of Res. in Urban and Regional Studies, 39 (11 Oct.) 2083-2100,
ISSN: 0042-0980.
Wilson, Alan M. (2001) “Mystery shopping: Using deception to measure service
performance” Psychology and Marketing, 18 (7 July) 721-734, ISSN: 0742-6046.
Wolfe, Alan (2002) “Questionnaire design”. Em: Birn, Robin J. (Ed.) The International
Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 87-101,
ISBN: 0-7494-3865-7.
Wong, Sze-Chun e Yang, Hai (1999) “Determining market areas captured by competitive
facilities: A continuous equilibrium modelling approach” Journal of Regional Science,
39 (1) 51-72, ISSN: 0022-4146.
Wrigley, Neil e Lowe, Michelle (2002) “Reading Retail: A geographical perspective on
retailing and consumption spaces”. London, UK: Arnold, ISBN: 0-340-70660-0.
Yang, Jiaqin e Lee, Huei (1997) “An AHP decision model for facility location selection”
Facilities, 15 (9) 241-254, ISSN: 0263-2772.
193
Anexos
Como anexos inserem-se imagens dos vários inquéritos realizados e tabelas
consideradas relevantes ainda que demasiado longas para serem inseridas no texto.
Incluem-se ainda alguns pontos que por serem secundários ao texto, foram transferidos
para os anexos, mantendo assim o equilíbrio dos capítulos da dissertação apresentada
e o interesse do leitor.
A. Inquérito aos Clientes
Apresenta-se neste anexo o inquérito utilizado em 2000, uma vez que a
estrutura dos dois inquéritos foi muito semelhante dispensa-se a apresentação do
segundo inquérito efectuado em 2003, referindo-se em seguida as principais diferenças.
No inquérito de 2003 acrescentou-se explicitamente a freguesia nas perguntas
de onde vem e para onde vai, já que é a unidade territorial directamente
georreferenciavel. Substituiu-se a pergunta “onde estacionou o seu carro?” pela
“avaliação da facilidade de estacionamento” numa escala de cinco valores, já que esta
última permite agregar a sensibilidade do condutor a várias visitas à loja ainda que se
corra o risco de os clientes não serem coerentes na interpretação da escala. Quanto ao
“motivo de utilização da loja” optou-se por solicitar a ordenação dos motivos
apresentados, i.e. efectuam-se perguntas independentes do principal motivo, segundo
motivo e terceiro motivo, como utilizado no presente inquérito. Segundo o princípio de
retirar mais informação sem grande custo em tempo de entrevista, seguiu-se um
procedimento semelhante para a pergunta sobre super e hipermercados concorrentes,
acrescentando-se uma pergunta sobre a localização dos mesmos. Verificou-se uma
elevada correlação entre as perguntas relativas a “frequência de compras na loja”, “tipo
de compras efectuadas no dia da entrevista” e “tipo de compras habituais”. Assim,
194
optou-se pela manutenção apenas da primeira dessas perguntas tendo-se eliminado as
restantes duas. Tendo em conta o reduzido número de clientes que afirma fazer
compras pela Internet foi diminuído o número de perguntas relativas a este tema. As
perguntas que envolvem quantias monetárias foram convertidas em euro.
Nas imagens seguintes utilizam-se “*****” para proteger informação confidencial.
Bom dia/tarde/noite, sou entrevistador da empresa __________________. Estamos a efectuar um inquérito aos clientes
******* de modo a servi-los cada vez melhor. A informação que facultar é absolutamente confidencial. Desde já agradecemos
a sua colaboração.
F1. O Sr.(a) ou alguém em sua casa trabalha em alguma das seguintes áreas:
Est. de Mercado
Nenhuma das anteriores
Marketing
Super/Hipermercados
Acabe a entrevista
Continue a entrevista
LOJA
************** .........................................................1
************** .........................................................2
************** .........................................................3
************** .........................................................4
************** .........................................................5
************** .........................................................6
************** .........................................................7
************** .........................................................8
************** .........................................................9
************** .........................................................0
************** ........................................................X
************** ........................................................Y
************** ..........................................................
************** ..........................................................
************** ..........................................................
************** ..........................................................
************** ..........................................................
************** ..........................................................
************** ..........................................................
DIA DA ENTREVISTA
Segunda-feira ..............................................................1
Terça-feira...................................................................2
Quarta-feira .................................................................3
Quinta-feira .................................................................4
Sexta-feira...................................................................5
Sábado ........................................................................6
Domingo .....................................................................7
HORA DA ENTREVISTA
Até 12 horas ................................................................1
12h00 – 18h00.............................................................2
18h00 – Fecho.............................................................3
P1. Com que frequência é que o(a) Sr.(a) faz compras
nesta loja?
Todos os dias...............................................................1
Duas ou três vezes por semana.....................................2
Uma vez por semana....................................................3
Uma vez de 15 em 15 dias ...........................................4
Uma vez por mês.........................................................5
Ocasionalmente ...........................................................6
P3. Pretende-se com este Estudo determinar a zona
envolvente do ******. Assim o(a) Sr.(a) poderia dizer-nos
se se deslocou de casa ou do emprego para visitar esta loja?
De casa............................................................1→ P4.
Do emprego.....................................................2→ P3a.
Outro. Qual?____________________________ → P3a.
P3a. Importa-se de me dizer qual é a morada?
______________________________________________
Código Postal _____________+ _____ (7 digitos)
P4. E quando sair desta loja o(a) Sr.(a) pretende deslocarse para onde?
Para casa ..........................................................1→ P5.
Para emprego...............................................................2
Outro. Qual?__________________________________
Se o entrevistado der a mesma resposta que na P3,
passar para a P5.
P4a. Importa-se de me dizer qual é a morada?
______________________________________________
Código Postal _____________+ _____(7 digitos)
P5. Como se deslocou hoje para fazer compras neste
supermercado?
De automóvel ...................................................1→ P6.
A pé .................................................................2→ P8.
De transportes públicos.....................................3→ P8.
Outro. Qual?__________________________________
P6. Onde estacionou o seu carro:
No parque de estacionamento da loja........... ......1→ P8.
Nas redondezas............................................... ....2→ P7.
P7. Como avalia a facilidade de estacionamento nas
redondezas?
195
P8. Quanto tempo demorou a chegar a esta loja?
Até 2 minutos a pé....................................................... 1
2 a 5 minutos a pé........................................................ 2
5 a 10 minutos a pé...................................................... 3
Mais de 10 minutos a pé .............................................. 4
Até 5 minutos de carro ................................................ 5
5 a 10 minutos de carro................................................ 6
10 a 15 minutos de carro.............................................. 7
Mais de 15 minutos de carro........................................ 8
P9. Que motivos o levaram a preferir fazer compras neste
supermercado? (ESPONTÂNEO)
Proximidade de casa.................................................... 1
Proximidade do emprego............................................. 2
Local de passagem ...................................................... 3
Preços baixos .............................................................. 4
Variedade de marcas ................................................... 5
Variedade de produtos no geral.................................... 6
Hábito......................................................................... 7
Qualidade dos produtos ............................................... 8
Qualidade dos produtos frescos.................................... 9
Limpeza/ Higiene da loja............................................. 0
Rapidez no atendimento ............................................. X
Simpatia no atendimento ............................................ Y
Outro. Qual?________________________________
P10. Qual é, para si, o motivo mais importante?
1º_________________________________________
P11. Que tipo de compras fez hoje nesta loja?
P11a. Que tipo de compras faz habitualmente nesta loja?
Hoje
Ocasionais/emergência (falhas)
Diárias
Semanais
Quinzenais
Mensais
Outra situação. Qual?
Outra situação. Qual?
1
2
3
4
5
Habitual
mente
1
2
3
4
5
P12. Para além desta loja, em que outro tipo de lojas faz
habitualmente compras para o lar? (MOSTRAR CARTÃO
1)
(Insistir para saber se efectivamente o inquirido só vem
ao *******; Assinalar todas as respostas dadas)
Hipermercados ............................................................ 1
Supermercados............................................................ 2
Mercearias .................................................................. 3
Lojas de Conveniência ................................................ 4
Lojas especializadas (talho, peixaria, padaria.) ............. 5
Outras ......................................................................... 6
Nota: Verificar P12. , passar para a P13. se o inquirido
frequenta supermercados e/ou hipermercados, senão
passar para a P16.
P13. Quais os super e hipermercados onde costuma fazer as
suas compras? (É NECESSÁRIO ESPECIFICAR O
LOCAL ONDE SE SITUA A LOJA)
1ª opção_______________________________________
2ª opção_______________________________________
3ª opção_______________________________________
P14. Qual a principal razão porque faz compras no
_______________ (mencionar 1ª, 2ª, 3ª opção da P13.)?
1ª opção_______________________________________
2ª opção_______________________________________
3ª opção_______________________________________
P15. Com que frequência efectua compras em
_______________ (mencionar 1ª, 2ª, 3ª opção da P13.)?
Todos os dias
2/3 vezes por semana
Uma vez por semana
Uma vez de 15 em 15 dias
Uma vez por mês
Ocasionalmente
1ª
opção
2ª
opção
3ª
opção
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
P16. É capaz de me dizer quanto gasta aproximadamente,
por mês, em compras para o lar?
______________________________________________
P17. Pensando nos seus gastos mensais em compras para o
lar, como distribuiria esses gastos, pelos vários tipos de
loja que habitualmente frequenta?
**************
_________
Hipermercados
_________
Outros Supermercados
_________
Mercearias/MiniMercados
_________
Lojas de Conveniência
_________
Lojas especializadas(talho, peixaria, padaria)_________
Outras
_________
TOTAL......................................................._________
P18. Que tipo de produtos compra habitualmente nesta
loja? (MOSTRAR CARTÃO 2)
Frutas e legumes.......................................................... 1
Charcutaria.................................................................. 2
Talho .......................................................................... 3
Peixaria....................................................................... 4
Padaria........................................................................ 5
Refeições preparadas................................................... 6
Mercearia.................................................................... 7
Higiene Pessoal........................................................... 8
Limpeza de casa.......................................................... 9
Outros....................................................................... 10
196
P19. Quanto gasta por mês, em média, nesta loja?
______________________________________________
Nota: Verificar P13. se o inquirido não referiu
****** FAZER a P20., se referiu passar para a P21.
P20. Costuma efectuar alguma das suas compras no ****?
Sim ................................................................ 1 → P21.
Não........................2 → fazer a P21. apenas p/ ******
Ns/Nr .....................3 → fazer a P21. apenas p/ ******
P21. Numa escala de 1 a 5, onde 1 é muito bom, 2 bom, 3
razoável, 4 mau e 5 muito mau, como classifica a loja e o
concorrente relativamente a ___________(Ler um a um
cada um dos itens para ambas as lojas). (MOSTRAR
CARTÃO 3)
loja
conco
rrente
Qualidade dos produtos frescos
Atendimento simpático
Eficiência dos funcionários
Variedade de produtos
Apresentação dos produtos
Ambiente da loja
Limpeza da loja
Preços dos produtos
Qulidade dos produtos Marca Própria
P22. Costuma utilizar a internet?
(MOSTRAR CARTÃO 4 )
Em casa .......................................................... 4→ P23.
No trabalho ..................................................... 4→ P23.
Em ambos ....................................................... 4→ P23.
Não tem acesso ............................................... 4→ P25.
P23. Costuma fazer compras pela internet?
Sim ................................................................. 1→ P24.
Não................................................................. 2→ P25.
P24. Se sim, que tipo de compras?
______________________________________________
P25. Já alguma vez utilizou, em alguma loja, o serviço de entregas
ao domicílio?
Sim ................................................................. 1→ P26.
Não................................................................ 2→ P27.
P26. Em caso afirmativo, qual a frequência com que utiliza
esse serviço?
Na maior parte das vezes que faz compras ................... 1
Algumas vezes ............................................................ 2
Muito raramente.......................................................... 3
Só uma vez para experimentar ..................................... 4
PEDIR O TICKET DE COMPRAS E AGRAFÁ-LO
AO QUESTIONÁRIO
CASO NÃO LHE SEJA DADO O TICKET PEÇA
PARA TIRAR CÓPIA
CASO LHE SEJA NEGADO ESSE PEDIDO ANOTE
O NÚMERO DO TALÃO
Nº TALÃO_________________________________
(ATT: COMPLETO – DIA, HORA, CAIXA,
TRANSACÇÃO, …)
A PREENCHER NO ESCRITÓRIO
P27. Gastos na loja:
Total______________________________________
Produtos Alimentares_________________________
Produtos Não Alimentares_____________________
DPH______________________________________
197
DADOS DE CARACTERIZAÇÃO
P28. SEXO
Feminino.....................................................................1
Masculino ...................................................................2
P29. IDADE
Menos de 25 anos........................................................1
25 a 34 anos ................................................................2
35 a 44 anos ................................................................3
45 a 55 anos ................................................................4
Mais de 55 anos...........................................................5
P30. ESTÁDIO DE VIDA (MOSTRAR CARTÃO 4)
Solteiro(a) e vive com os pais.................................................1
Solteiro(a) e vive sozinho(a) ....................................................2
Solteira(a) e vive com colegas..................................................3
Solteiro(a) e vive com familiares..............................................4
Solteiro(a) com filhos ..............................................................5
Vive em união de facto e sem filhos .........................................6
Vive em união de facto e tem filhos c/ menos de 15 anos
em casa ...................................................................................7
Vive em união de facto e tem filhos c/ mais de 15 anos
em casa ...................................................................................8
Vive em união de facto mas os filhos já saíram de casa .............9
Casado(a) e sem filhos...........................................................10
Casado(a) e tem filhos c/ menos de 15 anos em casa.........11
Casado(a) e tem filhos c/ mais de 15 anos em casa ............12
Casado(a) mas os filhos já saíram de casa..............................13
Divorciado(a) e sem filhos .....................................................14
Divorciado(a) e tem filhos c/ menos de 15 anos em casa....15
Divorciado(a) e tem filhos c/ mais de 15 anos em casa ....16
Divorciado(a) mas os filhos já saíram de casa ........................17
Viúvo(a) e sem filhos.............................................................18
Viúvo(a) e tem filhos com menos de 15 anos em casa .......19
Viúvo(a) e tem filhos com mais de 15 anos em casa ........20
Viúvo(a) mas os filhos já saíram de casa................................21
Viúvo(a) e vive com familiares ..............................................22
P31. PROFISSÃO (descrição completa)
Importa-se de me dizer exactamente qual é a ocupação ou
actividade profissional da pessoa que mais contribui para o
seu agregado familiar, inclusive se é por conta própria ou
de outrem? (no caso de ser reformado/ desempregado,
perguntar qual foi o último emprego)
____________________________________________
P31. a) SITUAÇÃO NA PROFISSÃO
Por conta própria .............................................. 1
Por conta de outrem.......................................... 2
P32. HABILITAÇÕES LITERÁRIAS
Qual o grau de instrução da pessoa que mais contribui para
o seu agregado familiar?
Analfabeto/Primária Incompleta ..................................1
Primária Completa.......................................................2
Ciclo Preparatório .......................................................3
5º ano ou equivalente/11º ano ......................................4
12º ano........................................................................5
Frequência Curso Superior...........................................6
Bacharelato .................................................................7
Licenciatura ................................................................8
NS/NR ........................................................................9
P33. DIMENSÃO DO AGREGADO FAMILIAR
Quantas pessoas vivem em sua casa? (INCLUIR
INQUIRIDO)
1 pessoa ......................................................................1
2 pessoas .....................................................................2
3 pessoas .....................................................................3
4 pessoas .....................................................................4
5 pessoas .....................................................................5
6 pessoas ou mais ........................................................6
P34. IDADES DO AGREGADO FAMILIAR
Idade do entrevistado................................................. |____|
Idade do Cônjuge ...................................................... |____|
Idade dos Filhos ...........|____|____|____|____|____|___|
Idade dos Familiares........... |____|____|____|____|____|
Idade Outros...............|____|____|____|____|____|____|
P35. RENDIMENTO
Indique, por favor, qual é o rendimento mensal líquido do
seu agregado familiar?
Menos de 80 contos .....................................................1
81 a 160 contos ...........................................................2
161 a 240 contos..........................................................3
241 a 320 contos..........................................................4
321 a 400 contos..........................................................5
Mais de 4000 contos....................................................6
NS/NR ........................................................................7
Nome do entrevistado:____________________________
Morada: _______________________________________
______________________________________________
Código Postal:_____________+_______
Freguesia:_________________________________
Concelho:__________________Telefone:_____________
AGRADEÇA E TERMINE
Nome do entrevistador:____________________________
A PREENCHER NO ESCRITÓRIO
Distrito
Concelho
Freguesia
Secção Estatística
CLASSE SOCIAL
A.................................................................................1
B.................................................................................2
C1 ...............................................................................3
C2 ...............................................................................4
D.................................................................................5
198
B. Inquérito aos Directores de Loja
Este inquérito foi efectuado usando uma folha de cálculo com ligações dinâmicas
entre células, verificação de erros de inserção e cálculos como as percentagens
efectuados automaticamente aquando do preenchimento. A folha de cálculo permite
ainda o surgir de listas pendentes com alternativas em perguntas fechadas e notas de
texto explicativas, aquando da selecção de células. Teve-se ainda o cuidado de
bloquear o acesso a todas as células e objectos com excepção daqueles onde o
preenchimento é necessário. Apresenta-se uma das respostas que recebemos,
correspondendo os asteriscos a dados eliminados por questões de confidencialidade.
Inquérito aos directores das lojas
Pretende-se recolher informação sobre lojas de pequena e média dimensão da insígnia ****** e da concorrência mais próxima.
O objectivo é a construção de modelos que permitam a avaliação de novas localizações.
Muito Obrigada pela sua Colaboração
Instruções de Preenchimento:
- as células a preencher obrigatoriamente surgem com fundo verde claro e as opcionais com fundo azul;
- utilize as listas pendentes sempre que possível (botão cinzento visível quando a célula é seleccionada) ou preencha com novo valor
- leia sempre as notas associadas às células (surgem quando a célula é seleccionada) antes de preencher;
- não se preocupe se não conseguir visualizar tudo o que escreveu, pode sempre confirmar\alterar o texto completo na 'formula bar' (barra
de edição - barra com fundo branco logo abaixo das 'tool bars' ou barras de ferramentas) seleccionando a célula respectiva.
GRUPO I - Identificação da sua loja e da concorrência
Identificação da sua loja
morada -- *******
freguesia -- PARANHOS
código postal -- ****-***
nº de caixas -- 5
quilómetro
16-25
concelho -- PORTO
localidade -- *******
distrito -- PORTO
PARANHOS
anos de funcio. 1
data abertura -- 05-05-1999
Instruções de Preenchimento:
2
- considere como concorrentes lojas de dimensão até 2.000 m , até 15 minutos a pé da sua e com vendas alimentares acima de 80%;
- caso considere mais de 3 concorrentes preencha apenas para os três mais importantes;
Identificação do 1º super concorrente
tipologia de loja -- supermercado
insígnia -******
morada -- avenida
freguesia -- ******
concelho -PORTO
código postal -- ****-***
nº de caixas -- 4
anos de funcio.
Identificação do 2º super concorrente
tipologia de loja -- supermercado
insígnia -******
morada -- rua
freguesia -- CEDOFEITA
concelho -PORTO
código postal -- *****-***
nº de caixas -anos de funcio.
Identificação do 3º super concorrente
tipologia de loja -- discount
insígnia -*****
morada -- largo
freguesia -- PARANHOS
concelho -PORTO
código postal -- ****-***
nº de caixas -- 2
anos de funcio.
A
nº de porta
PORTO
31
distância à sua loja a pé -- entre 15 e 20 min.
8
B
nº de porta
PORTO
localidade -- PORTO
distrito -- Porto
700/738
distância à sua loja a pé -- acima de 20 min.
6
C
nº de porta
PORTO
3
localidade -- PORTO
distrito -- PORTO
390
localidade -- PORTO
distrito -- PORTO
distância à sua loja a pé -- menos que 5 min.
Instruções de Preenchimento:
- caso considere que as grandes superfícies também são um importante concorrente da sua loja preencha o grupo seguinte;
- escolha apenas uma grande superfície que pela sua proximidade, dimensão ou imagem perante os clientes lhe pareça mais importante
- como este inquérito pretende apenas avaliar a localização de lojas de pequena e média dimensão, não será feita mais nenhuma menção a
esta ou qualquer outra grande superfície.
Identificação do principal Hiper concorrente
insígnia -freguesia -concelho -código postal -nº de caixas -anos de funcio.
localidade -distrito -distância à sua loja de carro --
199
Instruções de Preenchimento:
- sempre que possível utilize uma das alternativas da lista, caso as alternativas disponíveis não sejam aceitáveis introduza novas
alternativas e justifique na célula com fundo azul da mesma linha;
- considere âncoras espaços comerciais, de ensino, serviços públicos, centrais de transportes, centros comerciais, grandes lojas
especializadas ou outros que avalie como responsáveis por grande parte do tráfego na loja;
GRUPO II - Caracterização da Loja e da Concorrência quanto à localização
a sua loja
A - ******
B - ******
C - *****
comentários
centro
centro
centro
localização da loja na malha urbana -- bairro
tipo de edifício onde se insere a loja -- edifício residencial edifício residencial edifício residencial edifício residencial
nº de lojas do centro comercial ou nº de lojas nas proximidades que também
0
3
0
sejam usadas pelos seus clientes -- 2
identifique o tipo de até 3 âncoras para cada loja por grau de importância:
banco\correios
banco\correios
âncora de maior importância -- Confeitaria(Pao Qubanco\correios
banco\correios
banco\correios
banco\correios
2ª âncora mais importante -3ª âncora mais importante -não
não
não
a loja é considerada âncora? -- não
0
0
0
nº de lugares em estacionamento próprio -- 0
recebe queixas por falta estacionamento -- sim, nas horas de ponta
Instruções de Preenchimento:
- nas classificações seguintes estabeleça pontuações entre 1 e 9 na escala representada em seguida;
11
2
2
pior
piorpossível
possível
3
3
mau
mau
4
45
6 5
7
médio \ usual médio \ usual
8
6
bom
7 9
melhorbom
possível
8
9
melhor possível
- considere os aspectos referidos nas notas como sugestões podendo ser complementados com outros que considerar adequados;
visibilidade da loja em deslocações a pé -visibilidade da loja de automóvel -facilidade no acesso à loja a pé -facilidade de acesso de transporte público -facilidade de acesso à loja de automóvel -facilidade de estacionamento próximo loja --
4
4
5
8
5
5
7
6
8
7
7
6
7
6
8
8
5
4
7
6
5
8
5
4
Instruções de Preenchimento:
- nas perguntas seguintes compare a sua loja com as lojas da concorrência utilizando novamente uma escala de 1 a 9;
11
2
pior
piorpossível
possível
2
3
3
4
45
6 5
7
6
79
8
pior que
a sua
lojaa sua lojasemelhante àsemelhant
sua loja
melhor
pior
que
e à melhor
sua lojaque a sua loja
melhor
quepossível
a sua loja
8
9
melhor possível
- para a sua loja compare com as restantes lojas da cadeia ***** na mesma escala de 9 valores;
- quando as áreas são variáveis ao longo do ano utilize estimativas aproximadas médias e assinale no espaço para comentários;
GRUPO III - Caracterização da Loja e da Concorrência quanto a serviços, gama e imagem
a sua loja A - ******
B - ******
C - *****
8
8
8
notoriedade da loja e da insígnia -5
4
4
imagem geral da loja quanto a preços -6
8
6
imagem quanto a promoções -9
5
5
imagem exterior da loja -8
7
7
imagem quanto a limpeza e organização -8
6
8
outros aspectos da imagem interior da loja -8
8
8
imagem geral quanto à gama apresentada -8
7
7
gama e qualidade de marcas próprias -6
5
5
imagem qto simpatia\rapidez atendimento -8
9
8
imagem qto qualidade das frutas\legumes -8
8
8
imagem quanto qualidade dos congelados -sim
sim
não
existência de padaria com fabrico próprio -- não
4
9
9
imagem qto qualidade\variedade padaria -sim
sim
não
existência de refeições 'take away' -- não
6
6
6
imagem da loja qto a refeições 'take away' --
comentários
8
9
6
5
3
4
4
5
4
4
4
3
3
Instruções de Preenchimento:
- nas áreas seguintes faça estimativas de dimensões relativas do espaço ocupado na loja por cada produto ou secção;
- quando as áreas são variáveis ao longo do ano utilize estimativas aproximadas médias e assinale no espaço para comentários;
% área da loja dedicada a frutas\legumes -% de área da loja dedicada a peixaria -% da área da loja dedicada a talho -% da área dedicada a padaria e pastelaria -% da área da loja dedicada a charcutaria -% da área da loja dedicada a mercearia -% da área da loja dedicada a congelados -% dedicada a outros produtos alimentares -% de área para não alimentar (com DPH) -total -encomendas por telefone\internet -possibilidade de entregas ao domicílio -existência de cafetaria\bar -existência de balcão bancário\multibanco --
15%
5%
5%
5%
9%
30%
20%
1%
10%
15%
5%
5%
10%
8%
25%
15%
2%
15%
100%
não
não
não
sim, na loja
15%
5%
5%
10%
8%
25%
15%
2%
15%
100%
sim
sim
sim, na loja
sim, na loja
5%
0%
0%
0%
0%
60%
13%
2%
20%
100%
sim
sim
sim, na loja
sim, na loja
100%
não
não
não
não
200
Instruções de Preenchimento:
- para a estimativa das percentagens pense num dia útil típico e divida o número total de clientes pelas diferentes categorias, consideradas
mutuamente exclusivas;
- se as percentagens não somarem 100% indique outras categorias identificadas no espaço para comentários;
GRUPO IV - Caracterização da Loja e da Concorrência quanto à clientela
a sua loja A - ******
B - ******
C - *****
% de clientes que provêm do emprego -- 60%
% de clientes que provêm de casa -- 30%
% que provêm âncoras ou de passagem -- 10%
total -100%
há diferenças significativas aos domingos -- sim, mais de casa
% de clientes c/ cabaz de compras diárias -- 60%
% clientes c/ cabaz de compras semanais -- 30%
% apenas c/ compras ocasionais ou faltas -- 10%
total -100%
há diferenças significativas aos domingos -- não
% de vendas diárias de manhã (10-11:30H) -- 5%
% vendas no período do meio-dia (12-14H) -- 30%
% vendas diárias de tarde\noite (17-20H) -- 60%
% vendas fora das horas de ponta\picos -- 5%
total -100%
% de vendas nos 5 dias úteis da semana -- 70%
% de vendas semanais ao sábado -- 20%
% de vendas semanais ao domingo -- 10%
total -100%
sim
não
não
existência de mercado municipal próximo -- não
% vendas atribuídas ao funcio. do mercado -utilize as duas linhas seguintes para acrescentar características ou comportamentos dos seus clientes
que considere relevantes e que não tenham sido referidas atrás:
comentários
---
Instruções de Preenchimento:
- no grupo seguinte pretende-se obter uma estimativa subjectiva da área de influência, donde provêm 75-80% dos clientes da sua loja e
dos concorrentes mais próximos;
- preencha as células do grupo seguinte apenas se não for possível anexar um mapa com as fronteiras assinaladas;
GRUPO V - Avaliação da área de influência das lojas
nome de rua, avenida, bairro, rio, etc. que
delimite a área de influência por --
norte
sul
este
oeste
comentários
Muito Obrigado Pela Sua Colaboração
C. Formulário em Folha de Cálculo Usado para Comparações entre Lojas
Apresenta-se neste anexo o formulário que foi enviado aos especialistas sobre a
comparação de pares de lojas. Note-se que a escala que surge neste formulário é uma
escala de semelhanças e não de dissemelhanças como referido no texto. A conversão
realizada consistiu simplesmente na subtracção a 10 do valor da escala de
semelhanças apresentada na imagem seguinte.
Numa primeira tentativa de envio do formulário, este foi recusado pelos
especialistas por considerarem que era demasiado longo e de preenchimento
complexo. Assim, foi introduzida uma simplificação de preenchimento que consistiu em
não preencher a linha e coluna de uma loja quando era considerada muito semelhante
a uma outra (valor 9). O curioso é que quando o formulário voltou encontrava-se
integralmente preenchido e nenhuma classificação de 9 tinha sido atribuída.
201
Note-se que a folha de cálculo incluía vários automatismos como a escolha do
valor de avaliação com utilização de uma lista pendente, caixas de aviso e de
explicação e a identificação das linhas e colunas a não preencher por ter sido atribuída
uma avaliação de 9.
Inquérito a Especialistas sobre Semelhança das Lojas
Pretende-se recolher informação sobre o grau de semelhança das lojas \ localizações da insígnia *****.
O objectivo é a avaliação quantitativa da intervenção da experiência de especialistas no agrupamento das lojas.
Muito Obrigada pela sua Colaboração
Instruções de Preenchimento:
- este inquérito deve ser preenchido, por consenso entre, pelo menos dois especialistas que conheçam bem as lojas;
- as células a preencher obrigatoriamente surgem com fundo verde claro e as opcionais com fundo azul;
- utilize as listas pendentes visíveis quando a célula é seleccionada;
- não se preocupe se não conseguir visualizar tudo o que escreveu, pode sempre confirmar\alterar o texto completo na 'formula bar' (barra de edição)
seleccionando a célula respectiva.
Para simplificar o preenchimento:
- no caso de considerar duas lojas muito semelhantes (classificação de 9) NÃO preencha a linha e coluna de uma delas;
- as linhas \ colunas não preenchidas serão posteriormente completas com os mesmos valores da loja muito semelhante;
- tenha em consideração a coluna e linha «a preencher?» e preencha apenas se apresentar um «sim»;
nº designação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
identificação da loja
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
*******
a preencher?
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
compare a loja da linha com a loja cujo nº surge na coluna
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17
sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim
6
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
4
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
6
6
5
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
4
8
4
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
6
6
2
3
2
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
3
6
6
6
6
3
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
6
6
4
6
5
3
5
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
6
6
5
6
4
3
4
8
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
4
8
4
8
2
6
4
5
X
X
X
X
X
X
X
X
X
X
X
X
X
3
3
3
6
3
3
6
4
4
3
X
X
X
X
X
X
X
X
X
X
X
X
2
4
8
4
8
2
6
5
4
8
3
X
X
X
X
X
X
X
X
X
X
X
4
8
6
7
6
4
7
4
5
6
4
6
X
X
X
X
X
X
X
X
X
X
3
2
6
5
6
2
3
5
4
6
3
6
3
X
X
X
X
X
X
X
X
X
1
3
7
3
7
3
4
3
3
7
4
7
5
4
X
X
X
X
X
X
X
X
3
3
7
6
7
1
5
6
6
7
4
7
4
7
6
X
X
X
X
X
X
X
2
5
8
4
8
2
6
4
5
8
3
8
6
6
7
7
X
X
X
X
X
X
202
D. Formulário Utilizado no Programa de Mystery Shopping
O formulário apresentado foi utilizado no programa de mystery shopping para
recolha de dados observáveis da loja pertencente à cadeia em consideração e algumas
lojas da concorrência mais próxima. O preenchimento foi efectuado por uma mesma
equipa de inquiridores devidamente preparados apresentando-se como clientes
incógnitos. O procedimento consistiu numa visita à loja, efectuando uma pequena
compra e preenchendo o formulário após a saída da loja.
Utilize esta Check List para avaliar as diferentes localizações de lojas ******** tal como
para lojas concorrentes próximas.
Considere como concorrentes lojas de dimensão até 2.000 m2, até 15 minutos a pé desta
loja e com vendas alimentares acima de 80%;
Identificação da Loja
Insígnia:
Outros formatos:
Morada:
*********
**********
*********
*********
____________
Livre Serviço
Mercearia
Nº de caixas: |__|__|
________________
Concelho: _____________ Distrito: ______________
|__|__|__|__|– |__|__|__|
___________________________
sim, na loja
sim, próximo
não
sim, na loja
sim, próximo
aceita cheques não visados:
sim
não
aceita cartões de débito:
sim
não
sim
não
aceita cartões de crédito tipo VISA:
Área: |__|.|__|__|__|m2
Distância à loja ******** (a pé):
não
existência de livraria\papelaria:
___________________________________________________
Freguesia: ____________
Código Postal:
existência de balcão bancário ou multibanco:
*********
outras possibilidades de crédito:
sim, cartão de crédito da loja\insígnia
|__|__| minutos
sim, cheques pré-datados
sim conta aberta
Caracterização da Localização da Loja
localização da loja na malha urbana:
tipo de edifício onde se insere a loja:
centro urbano
bairro
periferia isolada
perif. urbanizada
centro cm. bairro
centro c. regional
existência de programas de fidelização tipo cartões para acumulação de pontos ou descontos em
cartões de crédito da loja \ insígnia
sim
nome: ______________________________
residencial
'stand alone'
não
nas classificações seguintes estabeleça pontuações entre 1 e 9 numa escala igualmente
espaçada onde:
escritórios
_________________
não
pior possível
1
2
mau
3
médio \ usual
4
5
bom
6
7
melhor possível
8
9
203
nº de lojas nas proximidades concorrentes da loja em análise (incluindo os restantes concorrentes
também analisados): |__|__|
1
2
3
4
5
6
7
8
9
Visibilidade e Acesso à Loja ou Localização Potencial
visibilidade da loja em deslocações a pé
Considere âncoras espaços comerciais, de ensino, serviços públicos, centrais de transportes,
visibilidade da loja de automóvel
centros comerciais, grandes lojas especializadas ou outros que avalie como responsáveis
por grande parte do tráfego de passagem junto à loja.
facilidade no acesso à loja a pé
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
âncora mais importante para o tráfego:
_________________________________
facilidade de acesso à loja de automóvel
1
2
3
4
5
6
7
8
9
2ª âncora mais importante:
_________________________________
facilidade estacionamento próximo loja
1
2
3
4
5
6
7
8
9
3ª âncora mais importante:
_________________________________
loja é (pode vir a ser) considerada âncora:
sim
nº de lugares em estacionamento próprio:
|__|__|
existência de mercado municipal próximo
sim
Caracterização da Loja quanto a Imagem
não
(preencher apenas para lojas existentes)
imagem quanto a limpeza e organização:
1
2
3
4
5
6
7
8
9
não
imagem geral quanto à gama apresentada:
1
2
3
4
5
6
7
8
9
gama e qualidade de marcas próprias
1
2
3
4
5
6
7
8
9
Caracterização da Loja quanto à Existência de Serviços:
imagem qto simpatia\rapidez atendimento
1
2
3
4
5
6
7
8
9
encomendas por telefone\internet:
(preencher apenas para lojas existentes)
sim
não
imagem qto qualidade das frutas\legumes
1
2
3
4
5
6
7
8
9
possibilidade de entregas ao domicílio:
sim
não
imagem quanto qualidade dos congelados
1
2
3
4
5
6
7
8
9
existência cafetaria\bar:
não
sim, na loja
sim, próximo
imagem qto qualidade\variedade padaria
1
2
3
4
5
6
7
8
9
existências de lavandaria:
não
sim, na loja
sim, próximo
imagem da loja qto refeições 'take away'
1
2
3
4
5
6
7
8
9
E. Metadados sobre os Dados Recolhidos e Referenciados à Loja
Neste anexo representa-se informação sobre os principais dados (metadados)
utilizados nesta dissertação. Trata-se da tabela com informação referente às lojas da
cadeia em estudo. Sublinhe-se que algumas das variáveis apresentam nomes distintos
dos utilizados no texto. Este facto deve-se aos diferentes objectivos que se pretendiam
atingir ao nomear as variáveis no ficheiro de dados (pretendia-se essencialmente
descrever o modo como foi calculada) e ao nomear variáveis no texto, onde se
pretendem essencialmente nomes explicativos do conteúdo das variáveis.
Para os nomes das variáveis demográficas usa-se uma codificação, devido à
complexidade dos nomes originais usados pelo INE, e da combinação de técnicas
204
utilizadas no seu cálculo. Assim, a primeira letra refere-se ao facto de ser calculada
como uma soma (s), uma percentagem (p) ou uma densidade (d). As letras maiúsculas
intermédias referem-se aos códigos usados pelo INE. Por fim, o & ou % refere-se a
regra de decisão ou ponderação das variáveis e um valor numérico ou i3 à utilização de
áreas de influência definidas segundo algoritmos de caminhos mais curtos ou
diagramas de Voronoi respectivamente (ver secção III.D, na pág. 76).
205
*****
*****
*****
206
207
208
209
210
F. Análise Comparativa dos Inquéritos: Evolução do cliente
Esta análise é efectuada procurando perceber variações e tendências entre os
dois questionários. Note-se que todos os resultados apresentados têm como base a
totalidade dos inquiridos excluindo os clientes que declaram frequentar a loja pela
“primeira vez” ou “uma a duas vezes por mês”.
Começa-se por apresentar uma descrição sumária da evolução das respostas
para o total dos inquiridos em cada inquérito. Sublinhe-se que os resultados
apresentados não são proporcionais à população de clientes da cadeia uma vez que se
utilizou uma quota de 200 inquéritos por loja e não se pesaram os resultados por loja
com pesos obtidos por contagem de clientes (ou actos de compra registados no
software POS) em cada loja. Neste caso particular, não se pretendem análises
profundas ao nível da população mas sim ao nível da loja, pelo que é mais adequado
apresentar resultados em que todas as lojas têm um peso semelhante.
Da comparação entre os dois inquéritos para a totalidade da amostra poucas
respostas sofreram alterações significativas. Na verdade, tanto considerando todas as
lojas inquiridas no segundo inquérito, onde se incluem 6 novas lojas, como usando uma
base comparável de lojas, os resultados são muito semelhantes na quase totalidade
das perguntas. Note-se que se utilizaram igualmente os pesos referidos na Tabela 2
(pág. 58). Estes resultados revelam uma elevada estabilidade na base de clientes e,
provavelmente, um elevado grau de fidelidade.
Das respostas que maiores diferenças apresentam entre os dois inquéritos
salientamos aquelas a que correspondem os gráficos seguintes. Sublinhe-se que
apenas diferenças superiores a cerca de 3% são significativas considerando
proporções independentes a 95% de nível de confiança e diferenças segundo uma
distribuição normal (Harries, 2002). Da observação destes gráficos podem-se retirar as
seguintes ilações:
•
Verifica-se uma tendência dos clientes para diminuírem o número de viagens de
automóvel e transportes públicos e para aumentar as deslocações a pé e
igualmente para diminuírem a duração da viagem.
•
Cada vez mais os clientes provêm de casa em detrimento do emprego ou outros
em conjugação com as deslocações mais curtas, acentuando-se a tendência para
interpretação destas lojas como Supermercados de Proximidade, até porque na
principal razão apresentada para compra na loja mantém-se uma larga preferência
pela “proximidade de casa”.
211
De onde veio?
80%
outros
emprego
26 %
passeio 7
emprego
24 %
emprego
22 %
60%
40%
de casa
65 %
de casa
64 %
100%
outros
de casa
66 %
20%
Como se deslocou à loja?
100%
80%
40%
20%
0%
>10 min.
5-10 min.
24 %
5-10 min.
20 %
2-5 min.
44 %
< 2 min.
21 %
1º inquérito
( c)
Primeiro motivo de compra
100%
80%
preços
próximo
emprg 12
local
passg. 13
20%
próximo
de casa
58 %
5-10 min.
22 %
2-5 min.
40 %
2-5 min.
39 %
< 2 min.
30 %
< 2 min.
27 %
2º inquérito 2º inquérito
(base comp.) (todas lojas)
preços
próximo
emprg 12
local
passg. 14
preços
próximo
emprg 10
local
passg. 14
próximo
de casa
55 %
próximo
de casa
57 %
0%
1º inquérito
( e)
>10 min.
60%
40%
a pé
60 %
2º inquérito 2º inquérito
(base comp.) (todas lojas)
Valores junto às categorias são percentagens do total de respostas.
1º inquérito
(b)
automóv.
28 %
a pé
67 %
a pé
64 %
2º inquérito 2º inquérito
(base comp.) (todas lojas)
100%
Tempo de deslocação de automóvel
Tempo estimado de deslocação a pé
>10 min.
60%
20%
2º inquérito 2º inquérito
(base comp.) (todas lojas)
80%
60%
40%
20%
>15 min.
40 %
10-15
min. 15 %
5-10 min.
18 %
< 5 min.
27 %
1º inquérito
100%
80%
60%
mercearia
especializ
17 %
supers
28 %
10-15
min. 24 %
5-10 min.
20 %
< 5 min.
27 %
>15 min.
26 %
10-15
min. 22 %
5-10 min.
20 %
< 5 min.
32 %
2º inquérito 2º inquérito
(base comp.) (todas lojas)
mercearia
especz. 9
mercearia
especz. 10
supers
33 %
supers
34 %
hipers
51 %
hipers
49 %
40%
20%
hipers
45 %
0%
1º inquérito
(f)
>15 min.
29 %
0%
(d)
Formatos onde faz compras
( a)
40%
automóv.
24 %
0%
1º inquérito
80%
automóv.
27 %
60%
0%
100%
transporte
público
2º inquérito 2º inquérito
(base comp.) (todas lojas)
212
Acesso à internet
100%
80%
trabalho
ambos 8
em casa
14 %
60%
40%
20%
não tem
acesso
70 %
trabalho
trabalho
ambos 14
ambos 13
em casa
16 %
em casa
16 %
não tem
acesso
60 %
não tem
acesso
61 %
0%
1º inquérito
(g)
2º inquérito 2º inquérito
(base comp.) (todas lojas)
gasto mensal declarado na loja da entrevista
2º inq. (base comp.)
173 €
2º inq. (todas lojas)
172 €
gasto mensal em compras para o lar
1º inquérito
302 €
2º inq. (base comp.)
313 €
2º inq. (todas lojas)
314 €
Ns/Nr;
34 %
60%
>=1996€
>=1996€
>=1996€
11981596€; 17
11981596€; 18
11981596€; 18
799-1197€
17 %
400-798€
17 %
799-1197€
19 %
400-798€
14 %
799-1197€
18 %
400-798€
14 %
0%
1º inquérito
<=400€ 8
A/B 21 %
A/B 21 %
60%
C1 26 %
C1 27 %
C1 27 %
C2 39 %
C2 38 %
C2 38 %
D; 12 %
D; 14 %
D; 14 %
40%
20%
<=400€ 7
2º inquérito 2º inquérito
(base comp.) (todas lojas)
A/B 24 %
80%
Classes sociais
Classes de rendimento declaradas
80%
Ns/Nr;
32 %
(i)
150 300 450 600 750
100%
Ns/Nr;
29 %
20%
0
(h)
100%
40%
122 €
1º inquérito
0%
1º inquérito
(j)
2º inquérito 2º inquérito
(base comp.) (todas lojas)
Perguntas qualitativas em percentagem e nas quantitativas a amplitude da barra corresponde a um desvio padrão. A classe social é
determinada segundo uma pontuação dependente de três questões: “Habilitações literárias”, “Profissão” e “Classes de Rendimento”.
•
Quanto ao “tipo de lojas em que faz compras”, verifica-se um aumento da
percentagem de respostas em supermercados e hipermercados e uma
diminuição acentuada em todos os outros tipos de lojas. Este resultado traduz uma
tendência generalizada no mercado alimentar acentuada por um período de baixa
do ciclo económico. Por outro lado os clientes declaram comprar menos nas
cadeias de supermercados concorrentes da cadeia em consideração.
•
Quanto aos gastos, verifica-se um aumento dos gastos médios declarados na
loja da entrevista bastante superior ao ligeiro aumento dos gastos declarados em
compras para o lar. No entanto, a variabilidade continua muito elevada,
correspondendo a uma amostra com clientes muito distintos em termos de gastos
na loja e a compra média dos entrevistados mantém-se praticamente constante.
•
Nota-se uma melhoria progressiva no acesso à Internet. No período de
aproximadamente dois anos e meio que medeia entre os dois inquéritos, mais 10%
de clientes têm acesso à Internet, mas não houve alteração na percentagem que
faz compras utilizando esse canal de distribuição, que continua muito reduzida.
213
•
Quanto às variáveis demográficas, a estabilidade é notável. Os clientes
continuam a ser cerca de 70% do género feminino, as classes de idades mantêmse mistas, sendo a maior clientes com mais de 55 anos (mantendo os 24%) e
seguindo-se a classe dos 25 aos 34 com cerca de 20%.
•
O rendimento declarado baixou, tanto em base comparável como para o total da
amostra do segundo inquérito, o que pode estar relacionado com o período de
baixa económica que atravessamos. Note-se que a redução em termos médios é
apenas cerca de uma dezena de euros (na base comparável), mas é relevante
tendo em conta que se esperaria uma subida no período de dois anos que medeia
entre os dois inquéritos.
•
A distribuição pelas classes sociais é coerente com esta evolução, observandose uma pequena diminuição das classes mais elevadas com benefício da classe
média baixa. Sublinhe-se, no entanto, que a prevalência das classes altas sobre as
mais baixas continua a ser uma característica destas lojas, sobretudo se tivermos
em conta a distribuição das mesmas na população em geral.
Além dos resultados apresentados, fizeram-se ainda alguns cruzamentos de
variáveis relacionadas com “gastos mensais declarados na loja” e comportamentos
relativamente a deslocações, cruzados com variáveis demográficas. Utilizam-se os
“gastos mensais declarados na loja” ao invés do “valor da compra no dia da entrevista”
por estas duas variáveis se encontrarem altamente correlacionadas (correlação
significativa a 1% segundo o teste de Pearson bilateral) e por a primeira variável
apresentar menor frequência de valores omissos e um comportamento mais regular.
Tendo em conta a semelhança de resultados entre a base comparável e o total
das lojas no segundo inquérito, apenas se apresentam resultados para o total do
segundo inquérito. Todos os cruzamentos apresentados são significativos pelo teste F
de análise de variância considerando os “gastos mensais declarados na loja”
distribuídos segundo uma normal. Da observação dos gráficos seguintes podem-se tirar
algumas ilações:
•
Os gastos mensais declarados na loja subiram, como já tinha sido observado, mas
essa subida não foi uniforme para todas as classes de idades já que apenas as
classes a partir dos 35 anos aumentaram os seus gastos na loja.
•
Quanto à variação dos gastos mensais na loja com as classes de rendimento, as
alterações são mais uniformes já que todas as classes aumentam os seus
gastos, sendo os maiores aumentos (40 e 33 €) registados para a classe entre os
1.599 a 1.998 € e para a classe entre os 401 e 798 €, respectivamente.
•
Em termos de contribuição para as vendas da loja, acentua-se a tendência de os
clientes que se deslocam para casa terem um peso significativamente mais
elevado do que os que se deslocam para outros destinos. O mesmo sucede
relativamente aos clientes que se deslocam a pé e, portanto, habitam nas
proximidades da loja.
214
gasto mensal declarado na loja
< a 25 anos
81 €
Classes de idade
(k)
1º inquérito
102 €
131 €
de 25 a 34 anos
de 35 a 44 anos
de 45 a 54 anos
148 €
137 €
>= 55 anos
< a 25 anos
de 25 a 34 anos
gasto mensal declarado na loja
100 € 200 € 300 € 400 €
78 €
2º inquérito
110 €
de 35 a 44 anos
163 €
de 45 a 54 anos
>= 55 anos
166 €
180 €
0 € 100 € 200 € 300 € 400 €
Classes de rendimento
0€
(l)
gasto mensal declarado na loja
0€
93 € 1º inquérito
111 €
122 €
123 €
137 €
149 €
101 € 2º inquérito
144 €
137 €
154 €
177 €
178 €
<= 80 cts
de 81 a 160 cts
de 161 a 240 cts
de 241 a 320 cts
de 321 a 400 cts
> 400 cts
<= 400 €
de 401 € a 798 €
de 799 € a 1197€
de 1198 € a 1596 €
de 1597 € a 1995 €
>= 1996 €
meio de transporte à loja
100 € 200 € 300 € 400 € 500 €
0%
20% 40% 60% 80% 100%
Inquiridos fiéis à insígnia
199 €
fiéis
113 €
não fiéis
2º inquérito
266 €
fiéis
115 €
não fiéis
a pé
não fiéis automóvel
2º inquérito
a pé
fiéis
não fiéis
88 €
do emprego
103 €
de casa
81 €
117 €
do emprego
135 €
de casa
0€
75 €
150 €
225 €
300 €
gasto mensal declarado na loja
(p)
para emprego
1º inquérito
para casa
para emprego
41 €
em passeio
em passeio
para casa
Destino e origem da viagem de compras
(o)
1º inquérito
a pé
fiéis
a pé
automóvel
(n)
(m)
Destino e origem da viagem de compras
Inquiridos fiéis à insígnia
1º inquérito
35 €
em passeio
2º inquérito
80 €
do emprego
de casa
134 €
em passeio
139 €
106 €
do emprego
165 €
de casa
0€
100 € 200 € 300 € 400 €
gasto mensal declarado na loja
Amplitude da barra corresponde a um desvio padrão e valor indicado corresponde à média dos gastos na categoria.
215
•
Quanto ao cruzamento entre o destino e origem da viagem à loja, acentua-se o
número de viagens com origem e destino casa (aumentando para 63%) e
acentua-se igualmente o contributo desta classe para as vendas da loja, já que é
de longe o grupo que declara gastar mais na loja mensalmente. Esta observação
justifica a criação da variável “percentagem de viagens exclusiva à loja” descrita na
secção III.B, pág. 59.
•
No gráfico sobre a fidelidade verifica-se, como se esperaria, que os inquiridos fiéis
gastam bastante mais dinheiro nas lojas da cadeia do que os não fiéis. Esta
observação confirma a definição desta variável tal como é efectuada na secção
III.B, pág. 59. Note-se igualmente a correlação entre a fidelidade do inquirido e o
meio de transporte utilizado, com quase 90% dos inquiridos considerados fiéis no
segundo inquérito a deslocarem-se a pé, o que implica alguma proximidade à loja.
Em conclusão verifica-se uma grande estabilidade nos clientes no período de
dois anos que medeia entre os dois inquéritos, com as alterações a acentuar a
diferenciação destas lojas relativamente a lojas de maior dimensão e mesmo
relativamente à concorrência. Esta última afirmação é apoiada no facto de se verificar
um aumento de 6% dos “inquiridos fiéis à insígnia” i.e. que fazem mais de 75% das
suas compras mensais na cadeia e não fazem compras em nenhuma outra loja
alimentar, excepto nos hipermercados, e uma diminuição no número de clientes
entrevistados que afirma fazer compras nas cadeias de supermercados concorrentes.
G. Segmentação de Clientes
Em Cardoso e Mendes (2002) apresenta-se uma segmentação de clientes
baseada nas respostas ao primeiro inquérito, que foi revista e confirmada com os dados
do segundo, com base em modelos de segmentos latentes. Nesta dissertação
apresenta-se apenas um resumo dos resultados, aconselhando-se a consulta do artigo
no caso de se pretenderem mais pormenores.
A selecção das variáveis base para segmentação dos clientes das lojas da
cadeia atende, em primeiro lugar, ao interesse em considerar atributos da relação
cliente \ oferta. Tendo em conta que a intenção da constituição dos segmentos é, para
além de proporcionar uma melhor compreensão do mercado, vir a estabelecer uma
possível diferenciação na oferta, estes atributos são, naturalmente, relevantes. Após um
estudo descritivo das variáveis resultante dos inquéritos e atendendo, em particular, à
sua variabilidade na amostra, foi estabelecido um conjunto de 6 variáveis base de
segmentação, nomeadamente: “frequência de compra”, “hábitos de compra”, “origem
da viagem de compra”, “tempo de deslocação à loja”, “gasto mensal declarado na loja”
216
e “percentagem de gastos em lojas da cadeia”. Tal como recomendado por Wedel e
Kamakura (2000), este conjunto não integra variáveis demográficas, as quais são
usadas apenas para caracterização dos segmentos.
A análise realizada permitiu, por meio de sucessivas modificações do modelo,
obter uma solução de agrupamentos considerada satisfatória, atendendo aos
indicadores quantitativos e à sua interpretabilidade. De acordo com os valores das
medidas de desempenho, conclui-se que o modelo com dois segmentos é o que
apresenta melhores resultados, tendo sido o adoptado. Após a afectação determinística
dos clientes aos segmentos (cada indivíduo é afecto ao segmento modal), constitui-se
um segmento A com 57% dos clientes e um segmento B com os restantes 43%.
Os resultados da segmentação foram descritos por meio de árvores
discriminantes segundo o algoritmo CHAID – CHi-squared Automatic Interaction
Detector method (Biggs e Suen, 1991, Kass, 1980) e usando uma variável dependente
nominal identificando os dois segmentos. Na modelação considerou-se uma amostra de
treino (70% das observações) e uma amostra de teste (restantes 30%) obtendo-se um
erro de classificação de cerca de 9% em ambas as amostras. A partir deste tipo de
árvores é fácil concluir que 85% dos clientes que gastam menos de 75 € por mês numa
(qualquer) loja da cadeia são do segmento B e 91% dos que gastam mais são do
segmento A.
Apenas esta variável seria suficiente para obter um erro de classificação
(percentagem de indivíduos incorrectamente classificados) inferior a 12%. Se
conjugarmos esta variável com a “percentagem de gastos em lojas da cadeia” (relativos
ao total de gastos para a casa dispendidos em diversos tipos de estabelecimentos)
obtêm-se erros de classificação inferiores, na ordem dos 9%, como referido. De entre
as variáveis base de segmentação, o “gasto mensal declarado na loja” e a
“percentagem de gastos em lojas da cadeia” são as variáveis que principalmente
distinguem os segmentos A e B (gráfico (a)). A terceira variável com maior poder
discriminante é a “frequência de compra” cuja integração no modelo em árvore resulta
na redução do erro de classificação de apenas 1%, calculado sobre a amostra de teste.
Esta caracterização dos segmentos e outras, efectuadas com outros métodos,
encontram-se descritas em Cardoso (2003).
Note-se que o gráfico (a) foi construído com dados do inquérito de 2003,
enquanto os resultados referentes ao inquérito de 2000 (que podem ser consultados em
Cardoso
e
Mendes,
2002)
apresentam
exactamente
as
mesmas
variáveis
217
discriminantes e até os mesmos pontos de partição. Estes resultados confirmam de
forma surpreendente a estabilidade dos segmentos identificados inclusive nas 6 lojas
novas entretanto incluídas na análise.
segmento de clientes (amostra de treino)
Node 0
Category
%
n
A
59,85 568
B
40,15 381
Total
(100,00) 949
gasto mensal declarado na loja
Adj . P-value =0,0000 , Chi-square =505 ,1842 , df =1
<
>
Node 2
Category
%
n
A
18,47 75
B
81,53 331
Total
(42,78) 406
Node 3
Category
%
n
A
90,79 493
B
9,21 50
Total
(57,22) 543
percentagem de gastos em lojas da cadeia
Adj . P-value =0,0000 , Chi-square =303 ,3344 , df =1
percentagem de gastos em lojas da cadeia
Adj . P-value =0,0000 , Chi-square =351 ,4351 , df =1
<
Node 4
Category
%
n
A
0,67
2
B
99,33 298
Total
(31,61) 300
>
Node 5
Category
%
n
A
68,87 73
B
31,13 33
Total
(11,17) 106
<
Node 6
Category
%
A
42,31
B
57,69
Total
(8,22)
>
n
33
45
78
Node 7
Category
%
n
A
98,92 460
B
1,08
5
Total
(48,00) 465
(a) árvore discriminante pelo método CHAID
Usam-se os dados do inquérito de 2003.
Do gráfico (a) observa-se que 82% dos inquiridos classificados no segmento B
gastam menos mensalmente e apenas 18% do segmento A gasta valores similares. No
nó 3, a discriminação é ainda maior, com 90% do segmento A a gastar mais. Se
conjugarmos esta variável com a “percentagem de gastos em lojas da cadeia”, concluise que o segmento B gasta menos e o A mais, com diversidade mínima nos nós 4 e 7.
De acordo com estes resultados, passa-se a designar os segmentos A e B por clientes
preferenciais e clientes eventuais, respectivamente.
Esta caracterização dos dois segmentos de clientes é suportada por vários
testes de Qui-quadrado de independência, permitindo concluir que se verificam
associações significativas entre estes e todas as variáveis base de segmentação (a um
nível de significância de 1%). De acordo com análises semelhantes sobre atributos
caracterizando o perfil dos segmentos, pode ainda acrescentar-se que os clientes
preferenciais têm mais idade e níveis de escolaridade um pouco mais baixos do que os
218
clientes eventuais, segundo os resultados para o primeiro inquérito. Com os dados do
segundo inquérito, é ainda possível concluir que os clientes preferenciais vivem em
agregados familiares menores e com rendimentos ligeiramente menores. Apenas duas
variáveis “tipo de profissão” e “género” não se revelaram estatisticamente distintas entre
os segmentos pelo referido teste de Qui-quadrado. Nos gráficos (b) e (c) comparam-se
as classes de idade e de rendimentos nos inquéritos onde a probabilidade de
significância do teste de Qui-quadrado é inferior a 5%.
1 º inq uérito
2º inq uérito
Classes de Idade dos Inquiridos
< 25 anos
clientes eventuais
< 25 anos
clientes preferenciais
20%
45 - 54
45 - 54
35 - 44
25 - 34
25 - 34
clientes preferenciais
35 - 44
25 - 34
< 25 anos
clientes eventuais
0%
(b)
25 - 34
45 - 54
35 - 44
35 - 44
45 - 54
40%
>= 55 anos
60%
>= 55 anos
80%
100%
2º inquérito
Classes de Rendimentos dos Inquiridos
( c)
clientes eventuais
401 - 798
clientes preferenciais <= 400€
0%
401 - 798
20%
799 - 1197
1198 - 1596 1597 - 1995 >= 1996€
799 - 1197
40%
1198 - 1596
60%
>= 1996€
80%
100%
Apenas se apresentam resultados para os inquéritos onde os testes de Qui-quadrado são significativos a 5%.
A estabilidade dos segmentos identificados nos dois inquéritos justifica a
agregação de resultados que foi efectuada para construir a variável “percentagem de
clientes preferenciais” incluída no conjunto das variáveis utilizadas na segmentação das
lojas e nas restantes análises.
219
H. Caracterização da Tipologia Interactiva com Dados dos Inquéritos
Nos gráficos (a) a (f) apresentam-se algumas variáveis usadas na caracterização
dos tipos de lojas definida pela metodologia interactiva. As variáveis apresentadas são
aquelas
que
melhor
discriminam
os
diferentes
grupos.
Note-se
que
foram
seleccionadas apenas variáveis com médias por grupo significativamente distintas pelo
teste F de análise de variância ao nível 5% de significância. Usam-se variáveis que
geralmente são médias entre os dois inquéritos (tendo em conta que não se verificou
nenhuma tendência particular nos resultados de ambos os inquéritos para a maioria das
variáveis) atendendo à homogeneidade das respostas (ver Anexo F).
A base de todos os resultados apresentados são os inquiridos em cada loja
excluindo aqueles que afirmaram frequentar a loja pela “primeira vez” ou “uma a duas
vezes por mês”. Com base nestes gráficos e em muitos outros, construídos com fins
exploratórios, podem-se resumir as características dos diferentes grupos de lojas
quanto às respostas aos inquéritos nas linhas seguintes:
•
Lojas de Bairro Menores: estas lojas caracterizam-se pelas elevadas
percentagens de viagens propositadas à loja e deslocações a pé de curta distância.
Os motivos referidos de deslocação à loja são esmagadoramente a “proximidade
de casa”. Têm também maiores percentagens de clientes que afirmam não
frequentar hipermercados e as maiores “percentagens médias de gastos na
cadeia”, mas menores percentagens de clientes fiéis do que as Lojas Grandes ou
Lojas Intermédias, o que nos leva a concluir que estes clientes frequentam outros
supermercados e lojas de Discount. Os clientes destas lojas apresentam idades
médias acima dos 43 anos, a classe modal do ciclo de vida é “família
estabelecida”43 e elevadas “percentagens de clientes preferenciais”. No entanto,
são maioritariamente clientes com um nível de vida elevado, tanto no que se refere
à profissão, como ainda nas “classes de rendimento” e na “classe social”. As
“habilitações literárias” podem parecer contraditórias com a observação anterior,
por apresentar percentagens relativamente elevadas de “analfabetos” e “apenas
ensino primário”, mas não ultrapassam os 30% de inquiridos.
•
Lojas de Bairro Maiores: as lojas deste grupo destacam-se das lojas de Bairro
Menores por apresentarem “percentagem de deslocações exclusiva à loja”
superiores e vendas igualmente superiores. No restante este grupo é muito
semelhante ao das lojas de Bairro Menores apresentando, no entanto, medianas
quase sempre ligeiramente superiores justificando o nome. As excepções são a
“percentagem de inquiridos com mais de 45 anos” e a “percentagem de inquiridos
invocando proximidade de casa como motivo de frequência da loja”, para os quais
a mediana é inferior.
Esta classe corresponde a indivíduos casados, divorciados ou viúvos com filhos e cujo filho mais
velho tem mais de 11 anos e ainda vive em casa. Uma descrição detalhada da variável “fase do ciclo de
vida” pode ser consultada em Cardoso (2000, pág. 111).
43
60
50
40
30
20
% de inquirid os com compras ocasion ais
( a)
% de inquirid os com m ais de 45 anos
( c)
n=4
n=3
n=3
n=6
n=5
Passagem >'s
Passagem
Grandes
Intermédias
Bairro <'s
Bairro >'s
80
70
60
50
40
30
20
n=2
n=4
n=3
n=3
n=6
n=5
Passagem >'s Passagem
Grandes
Intermédias
Bairro <'s
Bairro >'s
(b)
(d)
80
70
60
50
40
30
20
n=2
n=6
n=3
n=4
n=3
n=5
S
LM
Passagem >'s Passagem
Bairro <'s
Grandes
Intermédias
Bairro >'s
80
70
60
50
40
30
20
n=4
n=3
n=6
n=5
n=3
n=2
Intermédias
Grandes
Passagem
Bairro <'s
Bairro >'s Passagem >'s
80
80
70
60
50
40
30
20
( e)
n=2
% média de gastos em hipermercado s
70
n=2
n=6
n=3
n=5
n=4
n=3
Passagem > 's Passagem
Intermédias
Grandes
Bairro >'s
Bairro <'s
percen tagem de clientes preferenciais
% de até 5 minutos a pé ou carro
80
% de inquiridos que se desloca m a pé
220
(f)
70
60
50
40
30
20
n=2
n=3
n=3
n=6
n=4
n=5
Passagem >'s Bairro <'s
Intermédias
Passagem
Grandes
Bairro >'s
Asteriscos indicam lojas atípicas correspondendo a valores superiores a 3 vezes a amplitude interquartílica.
221
•
Lojas Intermédias: estas lojas caracterizam-se por terem clientes com
comportamentos numas variáveis semelhantes às Lojas de Bairro e Lojas Grandes
e noutras semelhantes às Lojas de Passagem. Por exemplo, na “percentagem de
inquiridos que se deslocam a pé” ou na “percentagem média de gastos em
hipermercados”, estas lojas aproximam-se mais das Lojas de Bairro apresentando
percentagens elevadas. Já quanto à “percentagem de inquiridos até 5 minutos a pé
ou carro” e à “percentagem de inquiridos com mais de 45 anos”, os valores são
mais próximos das Lojas de Passagem. Quanto aos aspectos demográficos, estas
lojas destacam-se por apresentar as maiores médias de idades, ultrapassando
mesmo os valores elevados das Lojas de Bairro Menores. Nas restantes variáveis,
os valores são intermédios mas mais próximos das Lojas de Bairro ou Lojas
Grandes, nomeadamente quanto ao elevado nível de vida que maioritariamente
afirmam ter.
•
Lojas Grandes: este grupo é um dos mais bem sucedidos em termos de vendas.
Apresenta comportamentos semelhantes a hipermercados com “percentagens de
clientes preferenciais” elevadas, tal como as “percentagens de inquiridos fiéis à
loja”. Apresentam valores de “percentagem de gasto na cadeia” intermédios. Estas
lojas têm clientelas variadas, tendo idades médias relativamente elevadas, classes
do ciclo de vida equilibradas tal como a classe social. No entanto, estes são
clientes de relativamente elevadas habilitações académicas.
•
Lojas de Passagem: estas lojas devem o seu nome ao facto de apresentarem
maiores “percentagens de clientes que declaram estar em passagem” e menores
“percentagens de viagens exclusivas à loja”. Este grupo de lojas inclui as poucas
lojas onde a “proximidade de casa” é abaixo dos 40% na pergunta sobre o principal
motivo de compra na loja. São também aquelas onde a “percentagem de gastos na
cadeia” é mais reduzida e as avaliações de qualidade da loja recebe avaliações
piores. Ao contrário das Lojas de Bairro, estas lojas são frequentadas
principalmente por clientes em “indivíduo só antes de constituir família”44
relativamente ao “ciclo de vida”, por clientes mais jovens e “percentagens de
clientes preferenciais” baixas. No entanto, quanto ao agregado familiar, em
conjunto com as Lojas de Bairro, estas lojas apresentam os maiores agregados
familiares do estudo.
•
Lojas Grandes de Passagem: lojas com comportamentos muito semelhantes às
anteriores, mas destacam-se por apresentar vendas anuais cerca de duas vezes
superiores. Este é um grupo heterogéneo que pode ter uma vida volátil.
Fundamenta-se esta afirmação em várias observações. Por exemplo, quanto à
“frequência à loja durante a semana e fim-de-semana”, a diferença entre estas
duas lojas é notável, o mesmo acontecendo com os valores de “percentagem de
clientes preferenciais”, por exemplo. Por outro lado, os factores demográficos
inquiridos são bastante semelhantes, com excepção das “classes de rendimento” e
da “classe social”. Os factores demográficos, tal como a “percentagem média de
gastos em hipermercados”, são muito coerentes com os das Lojas de Passagem,
justificando assim o nome deste grupo. Outros como as habilitações académicas
são mais coerentes com as Lojas Grandes, ao apresentarem elevadas
“percentagens de clientes com licenciatura”.
44
Trata-se de inquiridos solteiros, divorciados ou viúvos, sem filhos e com menos de 35 anos.
222
I. Caracterização com Dados Geográficos e Mystery Shopping
Para se caracterizarem os diferentes tipos de lojas quanto às variáveis
demográficas e de localização, começou-se por observar a localização das lojas no
espaço. Desta observação é possível observar algumas correlações espaciais:
•
Todas as Lojas de Bairro Maiores situam-se na zona metropolitana de Lisboa,
em zonas suburbanas. A proximidade espacial entre estas lojas é igualmente
considerável, tal como o padrão de densidades populacionais elevadas em áreas
pouco extensas.
•
Todas as Lojas de Bairro Menores se situam igualmente na zona metropolitana
de Lisboa, mas duas situam-se em zonas centrais da cidade e uma no centro de
uma cidade suburbana. No entanto, todas se situam em zonas de secções
estatísticas muito pequenas, indicando zonas com construção em altura.
•
As Lojas Intermédias dividem-se pelas zonas metropolitanas do Porto e de
Lisboa em áreas muito próximas e têm dimensões muito semelhantes,
correspondendo a zonas fortemente urbanizadas.
•
As Lojas Grandes dividem-se igualitariamente pelas duas zonas e são
geralmente lojas em cidades suburbanas.
•
As Lojas de Passagem situam-se todas no norte, em zonas suburbanas ou
junto a um importante centro comercial.
•
Também a nível de posição geográfica, as Lojas Grandes de Passagem
apresentam localizações diferenciadas. Uma na zona do Porto e outra em
Lisboa, mas ambas em zonas com relativamente baixas densidades de
residentes.
•
As duas lojas consideradas atípicas situam-se no norte em zonas
caracterizadas por baixas densidades populacionais nas vizinhanças muito
próximas, estando uma delas numa periferia pouco urbanizada e a outra no
centro da cidade mas com fracos acessos.
Os atributos obtidos no programa de mystery shopping são nominais, mas os
resultantes de avaliações apresentam-se em escalas ordinais de 9 pontos, justificando
os diferentes gráficos apresentados em seguida. Foram ainda construídas variáveis
diferenciais calculadas como a diferença de pontuações entre a loja da cadeia e a
média dos concorrentes ou a melhor classificada de entre os concorrentes visitados.
Após a análise pormenorizada dos gráficos apresentados é possível resumir as
características das diferentes tipologias quanto aos dados obtidos no programa de
mystery shopping nos seguintes pontos:
•
Lojas de Bairro Menores: estas lojas caracterizam-se pela sua dimensão reduzida
e por localizações diversificadas (onde se incluem bairros e centros urbanos) e
inserem-se exclusivamente em edifícios de escritórios ou residenciais, muitas
vezes próximas de escolas ou universidades. Esta localização também justifica
uma maior diferença no número de horas de abertura entre os restantes dias e o
Domingo e um estacionamento especialmente complicado.
1,0
5
3
-1,0
2
Intermédias
Grandes
Bairro <'s
Passagem
Bairro >'s Pas sagem >'s
residencial
escritórios
centro cm. regional
centro cm. bairro
stand alone
6
5
4
n=3
3
n=2
n=1
2
n=4
n=1
n=1
n=1
n=2
n=1
1
n=2
n=1
n=2
n=1
Bairro > 's
Bairro <'s
Passagem
Intermédias
Grandes
Passagem >'s
Acesso a Pé e Facilida de de Estacio namento
(escala 1-pior a 9-melho r)
( e)
n=1
acesso a pé
facilidade de estacionamento
9
n=2
4
3
8
7
6
5
4
3
2
1
(f)
n=1
n=2
2
n=4
n=3
n=1
n=1
n=1
n=1
n=1
n=1
1
n=3
n=2
Bairro >'s
Bairro <'s
Passagem
Intermédias
Grandes
Passagem >'s
espaço de laze
feira semanal
escola \ unive
restaurantes
central de tran
c.comercial\
me
bomba de gaso
centro urbano
4
n=1
n=1
n=1
n=1
n=1
3
2
n=1
n=2
n=2
n=2
n=1
n=1
n=1
n=1
n=1
n=1
1
(d)
S
Bairro < 's
Intermédias
Bairro > 's
Grandes
Passagem Passagem > 's
5
(b)
Âncora mais Importante para o Tráfego
Tipo de Edifício Onde se Insere a Loja
( a)
( c)
4
0,0
Localização na Malha Urbana
6
Avaliaç ões das Lojas da Cadeia Versus Concorrência
(diferença entre a loja e média dos concorrentes)
2,0
periferia isolada
perif. urbanizada
centro urbano
bairro
6
7
área de vendas
nº de caixas de saída
Nº de Caixas de Saída
Área de Vendas (Escala padron izada)
223
n=2
Bairro >'s
Bairro <'s
Passagem
Intermédias
Grandes
Passagem >'s
8,0
acesso a pé
facilidade de estacionamento
6,0
4,0
2,0
0,0
-2,0
-4,0
-6,0
-8,0
Passagem
Bairro >'s
Grandes
Intermédias
Bairro <'s Passagem >'s
Asteriscos identificam lojas atípicas correspondendo a valores superiores a 3 vezes a amplitude interquartílica.
224
•
Lojas de Bairro Maiores: estas lojas não se situam em bairros de grandes cidades
mas em periferias urbanizadas, em edifícios de escritórios ou residenciais. Note-se
que, com o crescimento das periferias, estas localizações assemelham-se
fortemente a centros urbanos. Para estas lojas, todas bastante recentes, os
principais atractores de clientes nas proximidades (âncoras) são o próprio centro
urbano e o acesso obteve classificações acima da média, principalmente em
deslocações a pé.
•
Lojas Grandes: este grupo de lojas localiza-se em centros urbanos de periferias e
cerca de metade inserem-se em centros comerciais ou galerias comerciais. A
localização em centros comerciais ou a proximidade de mega stores ou centrais de
transportes são apresentados como os principais pontos de atracção de clientes.
Caracterizam-se igualmente pela dimensão elevada, ainda que se verifique alguma
variabilidade neste aspecto. O estacionamento tem classificações elevadas mesmo
quando comparado com a concorrência. No entanto, esta é em geral elevada,
tendo sido identificados cerca de dois fortes concorrentes por loja.
•
Lojas de Passagem: estas lojas localizam-se em zonas urbanas e caracterizam-se
por se inserirem frequentemente em galerias comerciais ou centros comerciais
pequenos a médios. São normalmente lojas já com alguns anos de funcionamento
e apresentam elevados níveis de concorrência, com 3 concorrentes muito
próximos, em média. Estas lojas obtiveram igualmente elevados valores em
visibilidade, tanto de automóvel como em deslocações a pé. Relativamente à
concorrência, estas lojas apresentaram avaliações muito negativas na facilidade de
estacionamento.
•
Lojas Grandes de Passagem: estas lojas localizam-se em zonas urbanas. A
principal característica comum é a presença de âncoras com forte poder de
atracção; localizando-se uma num centro comercial regional e a outra é uma loja de
rua localizada próxima de escolas, universidades, centros de transportes e numa
zona fortemente concorrencial. Este é um grupo heterogéneo, como se pode
observar a nível de dimensão da loja, acesso a pé e facilidade de estacionamento,
mesmo quando comparado com a concorrência. No entanto, têm alguns pontos em
comum, como o facto de ambas terem 4 ou 5 anos de funcionamento e nas
avaliações relativas à qualidade de produtos e atenção no atendimento.
•
Lojas Intermédias: estas lojas caracterizam-se por localizações em centros
urbanos e uma reduzida concorrência por parte de hipermercados, mas elevada
por parte de supermercados e mercearias. Apresentam normalmente acessos
fáceis em deslocações a pé, mas dificuldades de estacionamento elevadas.
J. Caracterização da Área de Influência para a Tipologia Interactiva
A tipologia pode igualmente ser caracterizada com dados da vizinhança próxima,
tendo em conta a dimensão da maioria das lojas em estudo. Nos gráficos seguintes
passa-se a analisar a informação demográfica do censo do 2001 e as suas
consequências na interpretação da nova tipologia de lojas. Note-se que, como
concluído da análise efectuada na secção III.D.4 (pág. 76), apenas se incluem variáveis
determinadas pela regra de decisão, podendo no entanto a área de influência ser obtida
por três métodos distintos: caminhos mais curtos (cmc), diagramas de Voronoi de
225
primeira ordem (v1o) e de segunda ordem (v2o). Nos gráficos (a) a (f) apresentam-se
exemplos de algumas variáveis escolhidas em função do poder discriminante dos
grupos na tipologia, donde se podem retirar algumas conclusões:
•
Na maioria dos grupos, a percentagem de edifícios com poucos pavimentos ou
com mais de 5 é equilibrada. No entanto, nas Lojas Grandes e nas Lojas de
Passagem, a percentagem de edifícios com poucos pavimentos é elevada e a
percentagem de edifícios com muitos pavimentos muito reduzida, indicando pouca
construção em altura na área de influência.
•
O número de edifícios construídos nos últimos anos, por unidade de área,
distingue claramente as Lojas Grandes e as de Bairro Grandes como incluídas em
zonas com já bastantes edifícios clássicos, mas com elevada dinâmica e ainda em
claro crescimento. As Lojas Grandes de Passagem distinguem-se por se
localizarem em zonas de reduzida dinâmica em termos de novas construções. Um
grande número de edifícios clássicos distingue claramente as Lojas Intermédias
das restantes.
•
Quanto ao número de alojamentos, as Lojas de Bairro Maiores apresentam
valores elevados e as Lojas Grandes de Passagem e Lojas Grandes, pelo
contrário, situam-se em zonas menos povoadas. Sublinhe-se a profunda distinção
entre as Lojas Grandes de Bairro e as Lojas Pequenas de Bairro. Ainda que não
sejam directamente comparáveis por utilizarem métodos de definição de áreas de
influência distintos, estas variáveis e o “número de edifícios com um ou dois
pavimentos” são bastante coerentes para os valores mais baixos, mas não para os
mais elevados, já que a mais edifícios de baixa altura não corresponde
necessariamente maior número de alojamentos.
•
A “percentagem de alojamentos familiares não clássicos”, i.e. aqueles que
correspondem a construções abarracadas, improvisadas ou habitações móveis e a
“percentagem de alojamentos de residência não habitual” podem ser interpretados
como indicadores do nível de rendimentos na área de influência. Assim, grupos
como as Lojas de Passagem e as Lojas Grandes, com medianas próximas de 5%
do total de alojamentos na área de influência, distinguem-se claramente. A este
propósito, note-se que as lojas consideradas atípicas têm em comum valores
próximos dos 20%. As lojas Grandes de Passagem são as que se localizam em
zonas com menos problemas de habitação degradada.
•
O “número de alojamentos colectivos” superior a 15 em algumas Lojas
Intermédias, valor que se destaca claramente de todos os restantes, indica a
presença de importantes zonas de serviços próximas. Pelo contrário, as lojas
atípicas, as Lojas Grandes de Passagem e as Lojas de Bairro Grandes apresentam
valores próximos de zero. Também o “número de edifícios principalmente não
residenciais” podem ser responsabilizados por uma parte do fluxo junto à loja, pelo
que não é de estranhar que siga a anterior variável de muito perto. As lojas atípicas
caracterizam-se por se situarem em zonas com muito poucos edifícios deste tipo.
•
Quanto à idade dos potenciais clientes na área de influência, nota-se claramente
a formação de dois conjuntos de grupos. Por um lado, as Lojas de Bairro Grandes,
as Lojas de Passagem e as Lojas Grandes correspondendo aos maiores valores de
percentagens de crianças até aos 4 anos e às menores de mulheres com mais de
65. Este conjunto de grupos situa-se assim em áreas de população mais jovem.
226
S
0,75
0,50
0,25
PK
A
Número de Alojame ntos na Área de Influência
( a)
0,00
Passagem >'s Intermédias
Grandes
Bairro <'s
Bairro >'s
Passagem
alojamento com propriatário ocupante (v2o)
alojamento de residência habitual (v2o)
17.500
2A
15.000
12.500
2A
Número de Alojame ntos na Área de Influência
S
10.000
7.500
5.000
2.500
0
Grandes
Bairro < 's
Intermédias
Passagem > 's Passagem
Bairro >'s
alojamento com propriatário ocupante (v2o)
alojamento de residência habitual (v2o)
( c)
( e)
A
17.500
2A
15.000
A
12.500
2A
10.000
S
7.500
5.000
2.500
0
Grandes
Bairro <'s
Intermédias
Passagem >'s Passagem
Bairro >'s
edifícios construídos entre 95-2001 (v1o)
total de edifícios clássicos (v1o)
Densidade em Número de Edíficos por Hectare
e por 10 Hectares para os Edifícios Constru ídos
Fracção de Edifícios com 1-2
e com > 5 Pavimentos
PK
25
20
15
10
5
A
10%
(d)
(f)
PY
0
(b)
Percentagem de Alojamentos sobre o Total
1,00
Fracção Sobre o Total de Mulheres Residen tes
edifícios com 1-2 pavimentos (cmc)
edifícios com mais de 5 pavimentos (cmc)
Passagem > 's Intermédias
Bairro >'s
Bairro <'s
Passagem
Grandes
alojamentos familiares não clássicos (cmc)
alojamentos de residência não habitual (cmc)
2N
8%
S
6%
4%
2%
0%
Passagem > 's Bairro >'s
Passagem
Intermédias
Bairro < 's
Grandes
mulheres residentes com 0-4 anos (cmc)
mulheres residentes com > 65 anos (cmc)
0,40
BR
0,30
A
0,20
0,10
PK
A
BR S
Passagem > 's Intermédias
Grandes
Bairro <'s
Bairro >'s
Passagem
Círculos e asteriscos identificam lojas atípicas com valores superiores a 1,5 e 3 vezes a amplitude interquartílica.
227
A informação da base de dados com a localização de lojas alimentares em
Portugal continental é utilizada essencialmente para avaliar da pressão competitiva
próxima das lojas. Esta base de dados permitiu a construção de variáveis como a “área
da zona de influência obtida por diagramas de Voronoi” que será tanto maior quanto
menor for a concorrência nas proximidades ou a soma das áreas dos concorrentes
ponderada pela distância entre a loja e o concorrente. Outras variáveis resultantes de
análise espacial quantificam o número de concorrentes nas proximidades. Para os
diagramas de Voronoi, consideram-se como concorrentes todas as lojas que partilham
fronteiras com as lojas da cadeia e, para as áreas de influência definidas por caminhos
mais curtos, todas as lojas que se situam no interior do polígono. Sublinhe-se que estes
cálculos envolveram todas as lojas da base de dados e não apenas as utilizadas para
definição dos polígonos de Voronoi.
Nos gráficos (g) a (l) apresentam-se os resultados para algumas variáveis de
avaliação da concorrência obtidas por análise espacial com utilização do SIG. Destes
gráficos e das conclusões já descritas para as variáveis demográficas é possível retirar
algumas observações sobre a caracterização dos grupos na tipologia:
•
Lojas de Bairro Menores: estas lojas caracterizam-se principalmente por elevados
níveis de concorrência com pequenas lojas, tais como lojas tradicionais e de
Discount. A concorrência das lojas maiores é em geral recente e em pequeno
número. O facto destes concorrentes terem áreas comerciais pequenas e logo
atractividades reduzidas, explica as relativamente elevadas áreas de influência.
•
Lojas de Bairro Maiores: situam-se em áreas com elevadas densidades de
residentes e apresentam os maiores valores quanto ao “número de alojamentos
com proprietário ocupante”. Estas lojas apresentam ainda áreas de Voronoi médias
e áreas por caminhos mais curtos muito elevadas, indicando níveis de concorrência
elevados mas um poder de atracção da loja também elevado relativamente aos
concorrentes.
•
Lojas Intermédias: estas lojas apresentam valores médios do “número de
alojamentos na área de influência”, mas valores elevados de “edifícios
principalmente não residenciais”. Mas a principal característica desta tipologia são
os elevados níveis de concorrência, com elevado número de pequenas lojas e de
lojas de cadeias concorrentes quase todas muito recentes.
•
Lojas Grandes: apresentam baixas “percentagens de alojamentos não clássicos”
indicando zonas de rendimentos mais elevados. Estas lojas situam-se em zonas de
elevada dinâmica de novas construções e com as maiores áreas de influência por
diagramas de Voronoi. Deste modo, a concorrência é reduzida, em especial a
proveniente de hipermercados, tendo apenas pequenas lojas tradicionais ou
cadeias de Discount nas proximidades.
228
250
200
150
100
Àrea de Vendas dos Concorr entes (m2 e m2/m)
N úmero de Superm ercados pertencentes a Cadeias
(g)
(k)
LM
A
50
Passagem Passagem >'s Bairro >'s
Intermédias
Bairro <'s
Grandes
supermercados identificados por diag. Voronoi
supermercados identificados por cmc a 5 min.
7
6
BR
A
5
4
3
2
1
0
Bairro >'s
Passagem Passagem >'s
Grandes
Bairro <'s
Intermédias
conc. identificados por Voronoi sem ponderação
conc. identificados por Voronoi ponderada por cmc
30.000
25.000
LM
A
20.000
15.000
10.000
5.000
A
LM
0
Intermédias
Bairro <'s
Grandes
Bairro >'s
Passagem Passagem >'s
(l)
PY
6
5
4
3
AN
S
2
1
LM
KO
S
A
0
(h)
(j)
A
7
Número de Hipermercados Identificados
300
concorrentes identificados por diag. Voronoi
concorrentes identificados por cmc a 15 min.
Número de Lojas Tradici onais e Discoun ts
350
0
(i)
caminhos mais curtos a 2,5 min.
diagramas de Voronoi de 1ª ordem
Àrea de Vendas dos Concorre ntes (m2 e m2/m)
Área de Influên cia em Hectare s
400
Bairro >'s
Grandes
Intermédias
Bairro <'s
Passagem Passagem >'s
lojas identificadas por diagramas de Voronoi
lojas identificadas por cmc a 5 min.
25
20
BR
15
S
10
BR
5
A
0
Passagem >'s Intermédias
Grandes
Bairro >'s
Passagem
Bairro <'s
conc. identificados por Voronoi sem ponderação
conc. identificados por Voronoi ponderada por cmc
30.000
25.000
LM
A
20.000
15.000
10.000
5.000
A
LM
0
Intermédias
Bairro < 's
Grandes
Bairro >'s
Passagem Passagem > 's
Círculos e asteriscos identificam lojas atípicas com valores superiores a 1,5 e 3 vezes a amplitude interquartílica.
229
•
Lojas de Passagem: situam-se em zonas pouco residenciais e com cerca de 60%
de edifícios com apenas 1-2 pavimentos. Os elevados valores para o “número de
edifícios principalmente não residenciais” corroboram a denominação da tipologia
já que grande parte dos clientes trabalha na zona de influência da loja. Outras
observações que confirmam a denominação são as reduzidas áreas dos diagramas
de Voronoi e os muito elevados valores de “áreas de vendas concorrentes”, em
especial considerando a ponderação da distância, indicando elevados níveis de
concorrência muito próxima.
•
Lojas Grandes de Passagem: ambas apresentam os valores mais baixos de
“percentagem de alojamentos não clássicos”, indicando provavelmente zonas de
elevados rendimentos. No entanto, apresentam igualmente valores muito baixos de
construções novas nos últimos cinco anos, indicando reduzida dinâmica de
construção nas suas áreas de influência. Pelo contrário, os níveis de concorrência
são elevados, considerando a “área de vendas de concorrentes” ponderada ou não
ponderada. A concorrência provém tanto de hipermercados como de cadeias de
supermercados.
Para terminar, a caracterização de áreas de influência, no texto apresentado em
Gonçalves e Mendes (2002) procedeu-se à georreferenciação dos inquiridos nos dois
inquéritos à freguesia de residência e variáveis como a “percentagem de inquiridos na
área de influência”. Desta análise concluiu-se existir alguma correlação entre os grupos
definidos e a referida variável, apresentando as Lojas de Passagem percentagens
reduzidas. Nas Lojas de Bairro Grandes e Lojas de Bairro Pequenas, os inquiridos
residem em locais muito próximos da loja. Estes resultados confirmam os valores
obtidos para a “percentagem de viagens exclusivas à loja” (ver Figura 22, pág. 100).
K. Modelos Discriminantes Lógicos para Todas as Lojas
Neste anexo apresentam-se as “melhores” árvores construídas utilizando os
diferentes algoritmos disponíveis. Para pormenores sobre os algoritmos e parâmetros
utilizados na construção destes modelos discriminantes lógicos consultar o texto da
secção V.B.2, pág. 119. Os dados utilizados são os enumerados no anexo E tendo sido
necessário excluir toda a informação referente a inquéritos e alguma recolhida no
programa de mystery shopping, por não ser aplicável a novas localizações.
230
QUEST
Node 0
Category
%
n
Passagem >'s
8 ,70 2
Grandes
26 ,09 6
Bairro <'s
13 ,04 3
Passagem
13 ,04 3
Intermédias
17 ,39 4
Bairro >'s
21 ,74 5
Total
(100 ,00)23
dE2001&2,5
Adj. P-value=0,0008, Levene’s F=18,4602, df=5,17
<=0,83668200000000004
>0,83668200000000004
Node 1
Category
%
n
Passagem >'s 100 ,00 2
Grandes
0 ,00 0
Bairro <'s
0 ,00 0
Passagem
0 ,00 0
Intermédias
0 ,00 0
Bairro >'s
0 ,00 0
Total
(8 ,70) 2
Node 2
Category
%
n
Passagem >'s
0 ,00 0
Grandes
28 ,57 6
Bairro <'s
14 ,29 3
Passagem
14 ,29 3
Intermédias
19 ,05 4
Bairro >'s
23 ,81 5
Total
(91 ,30)21
área de conc. ponderada por cmc por diagramas de Voronoi
Adj. P-value=0,0157, Levene’s F=40,8654, df=5,14
<=4462,1400000000003
>4462,1400000000003
Node 3
Category
%
n
Passagem >'s
0 ,00 0
Grandes
31 ,58 6
Bairro <'s
15 ,79 3
Passagem
5 ,26 1
Intermédias
21 ,05 4
Bairro >'s
26 ,32 5
Total
(82 ,61)19
Node 4
Category
%
n
Passagem >'s
0 ,00 0
Grandes
0 ,00 0
Bairro <'s
0 ,00 0
Passagem
100 ,00 2
Intermédias
0 ,00 0
Bairro >'s
0 ,00 0
Total
(8 ,70) 2
pNFF_N2,5
Adj. P-value=0,0344, Levene’s F=30,7000, df=5,9
<=0,13242000000000001
Node 5
Category
%
Passagem >'s
0 ,00
Grandes
11 ,11
Bairro <'s
33 ,33
Passagem
0 ,00
Intermédias
44 ,44
Bairro >'s
11 ,11
Total
(39 ,13)
>0,13242000000000001
Node 6
Category
%
n
Passagem >'s
0 ,00 0
Grandes
50 ,00 5
Bairro <'s
0 ,00 0
Passagem
10 ,00 1
Intermédias
0 ,00 0
Bairro >'s
40 ,00 4
Total
(43 ,48)10
n
0
1
3
0
4
1
9
sFCRM5i3
Adj. P-value=0,2694, Levene’s F=27,2288, df=3,5
<=131,74052252773302
Node 7
Category
%
Passagem >'s
0 ,00
Grandes
20 ,00
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
80 ,00
Bairro >'s
0 ,00
Total
(21 ,74)
área de vendas em m2
Adj. P-value=1,0000, Levene’s F=4,3143, df=2,7
>131,74052252773302
n
0
1
0
0
4
0
5
Node 8
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
75 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
25 ,00
Total
(17 ,39)
<=831,17364987514225
n
0
0
3
0
0
1
4
Node 9
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
0 ,00
Passagem
25 ,00
Intermédias
0 ,00
Bairro >'s
75 ,00
Total
(17 ,39)
>831,17364987514225
n
0
0
0
1
0
3
4
Node 10
Category
%
Passagem >'s
0 ,00
Grandes
83 ,33
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
16 ,67
Total
(26 ,09)
n
0
5
0
0
0
1
6
231
CHAID
Node 0
Category
%
n
Passagem >'s
8 ,70 2
Grandes
26 ,09 6
Bairro <'s
13 ,04 3
Passagem
13 ,04 3
Intermédias
17 ,39 4
Bairro >'s
21 ,74 5
Total
(100 ,00)23
dE2001&2,5
Adj. P-value=0,0152, Chi-square=23,0000, df=5
<=0,83660655648558313
Node 1
Category
%
Passagem >'s 100 ,00
Grandes
0 ,00
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
0 ,00
Total
(8 ,70)
>0,83660655648558313
Node 2
Category
%
n
Passagem >'s
0 ,00 0
Grandes
28 ,57 6
Bairro <'s
14 ,29 3
Passagem
14 ,29 3
Intermédias
19 ,05 4
Bairro >'s
23 ,81 5
Total
(91 ,30)21
n
2
0
0
0
0
0
2
facilidade estacionamento - Localização
Adj. P-value=0,0796, Chi-square=16,1360, df=4
>2
<=2
Node 3
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
0 ,00
Passagem
75 ,00
Intermédias
25 ,00
Bairro >'s
0 ,00
Total
(17 ,39)
Node 4
Category
%
n
Passagem >'s
0 ,00 0
Grandes
35 ,29 6
Bairro <'s
17 ,65 3
Passagem
0 ,00 0
Intermédias
17 ,65 3
Bairro >'s
29 ,41 5
Total
(73 ,91)17
n
0
0
0
3
1
0
4
sAFCRHPO&2,5
Adj. P-value=0,2100, Chi-square=12,9861, df=3
<=2508
>2508
Node 5
Category
%
n
Passagem >'s
0 ,00 0
Grandes
100 ,00 5
Bairro <'s
0 ,00 0
Passagem
0 ,00 0
Intermédias
0 ,00 0
Bairro >'s
0 ,00 0
Total
(21 ,74) 5
Node 6
Category
%
n
Passagem >'s
0 ,00 0
Grandes
8 ,33 1
Bairro <'s
25 ,00 3
Passagem
0 ,00 0
Intermédias
25 ,00 3
Bairro >'s
41 ,67 5
Total
(52 ,17)12
avaliação de lojas concorrentes acesso a pé (loja - média)
Adj. P-value=0,1550, Chi-square=12,0000, df=3
>0,<missing>
Node 7
Category
%
Passagem >'s
0 ,00
Grandes
16 ,67
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
83 ,33
Total
(26 ,09)
<=0
Node 8
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
50 ,00
Passagem
0 ,00
Intermédias
50 ,00
Bairro >'s
0 ,00
Total
(26 ,09)
n
0
1
0
0
0
5
6
n
0
0
3
0
3
0
6
sAFCi3
Adj. P-value=0,0858, Chi-square=6,0000, df=1
<=2181
Node 9
Category
%
n
Passagem >'s
0 ,00 0
Grandes
0 ,00 0
Bairro <'s
0 ,00 0
Passagem
0 ,00 0
Intermédias
100 ,00 3
Bairro >'s
0 ,00 0
Total
(13 ,04) 3
>2181
Node 10
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
100 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
0 ,00
Total
(13 ,04)
n
0
0
3
0
0
0
3
232
CART
Node 0
Category
%
n
Passagem >'s
8 ,70 2
Grandes
26 ,09 6
Bairro <'s
13 ,04 3
Passagem
13 ,04 3
Intermédias
17 ,39 4
Bairro >'s
21 ,74 5
Total
(100 ,00)23
pMR5_9&2,5
Improvement=0,1522
<=0,048590363622731933
>0,048590363622731933
Node 1
Category
Passagem >'s
Grandes
Bairro <'s
Passagem
Intermédias
Bairro >'s
Total
Node 2
Category
%
n
Passagem >'s
0 ,00 0
Grandes
83 ,33 5
Bairro <'s
0 ,00 0
Passagem
16 ,67 1
Intermédias
0 ,00 0
Bairro >'s
0 ,00 0
Total
(26 ,09) 6
%
n
11 ,76 2
5 ,88 1
17 ,65 3
11 ,76 2
23 ,53 4
29 ,41 5
(73 ,91)17
sAFCRHPO&2,5
Improvement=0,1401
<=6429
>6429
Node 3
Category
%
n
Passagem >'s
15 ,38 2
Grandes
7 ,69 1
Bairro <'s
23 ,08 3
Passagem
15 ,38 2
Intermédias
30 ,77 4
Bairro >'s
7 ,69 1
Total
(56 ,52)13
Node 4
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
100 ,00
Total
(17 ,39)
n
0
0
0
0
0
4
4
sAFCRH3_4Di3
Improvement=0,1156
<=1007,5
>1007,5
Node 5
Category
%
Passagem >'s
25 ,00
Grandes
12 ,50
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
50 ,00
Bairro >'s
12 ,50
Total
(34 ,78)
Node 6
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
60 ,00
Passagem
40 ,00
Intermédias
0 ,00
Bairro >'s
0 ,00
Total
(21 ,74)
n
2
1
0
0
4
1
8
sAFNCi3
Improvement=0,1196
<=2,5
Node 7
Category
%
Passagem >'s
50 ,00
Grandes
25 ,00
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
25 ,00
Total
(17 ,39)
facilidade estacionamento - Localização
Improvement=0,1043
>2,5
n
2
1
0
0
0
1
4
n
0
0
3
2
0
0
5
Node 8
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
0 ,00
Passagem
0 ,00
Intermédias
100 ,00
Bairro >'s
0 ,00
Total
(17 ,39)
<=1
n
0
0
0
0
4
0
4
Node 9
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
0 ,00
Passagem
100 ,00
Intermédias
0 ,00
Bairro >'s
0 ,00
Total
(8 ,70)
>1
n
0
0
0
2
0
0
2
Node 42
Category
%
Passagem >'s
0 ,00
Grandes
0 ,00
Bairro <'s
100 ,00
Passagem
0 ,00
Intermédias
0 ,00
Bairro >'s
0 ,00
Total
(13 ,04)
n
0
0
3
0
0
0
3
CHAID
≤ 831
≤ 831
---
---
---
---
---
---
≤4
≤0
---
> 0,84
---
> 0,84
---
percentagem de hits
no nó folha
percentagem de lojas
do grupo no nó folha
100%
100%
100%
75%
medidas de qualidade da regra proposicional
dens. edifícios construídos
entre 96 e 2001 (nº/10 ha)
densidade de alojamentos
com proprietário ocupante
75%
100%
---
> 0,84
100%
100%
---
---
---
---
---
---
---
>0
---
> 0 ou
s\conc.
---
>2
100%
67%
---
> 0,84
---
---
---
---
---
100%
67%
---
> 0,84
---
> 0 ou
s\conc.
>4
---
>2
67%
67%
---
---
---
---
---
=0
100%
100%
> 23
> 0,84
---
---
---
---
---
GRANDES
83%
100%
---
> 0,84
---
> 0 ou
s\conc.
≤4
---
---
> 831
67%
67%
---
---
>3
---
---
>0
---
---
edifício
residencial
100%
83%
---
> 0,84
---
---
---
---
---
---
---
periferia urbaniz.
--ou bairro
>2
---
---
---
> 831
---
---
--centro urbano,
centro urbano
ou bairro
≤ 831
---
---
>2
---
--- centro comercial ---
≤ 831
periferia urbaniz.
----ou bairro
edif. escritórios \
------- centro comercial ----centro urbano,
central transt. púb.
--- centro comercial ----- ou escola \ univers.---
---
---
periferia
urbanizada
caracterização da área de influência - potencial
nº de hipermercados
identifiados por Voronoi
nº de supermercados
identificados por Voronoi
avaliação do acesso a pé
(valor - méd. concorrentes)
aval. facilidade estaciona.
(valor - méd. concorrentes)
INTERMÉDIAS
---
caracterização da área de influência - concorrência
localização da loja
na malha urbana
tipo de edifício
onde se insere a loja
âncora mais importante
para o tráfego
avaliação da facilidade
de estacionamento
caracterização da loja e localização - variáveis geográficas
área de vendas
(metros quadrados)
BAIRRO <'s
PASSAGEM
PASSAGEM >'s
100%
75%
---
> 0,84
---
---
---
---
≤2
---
---
---
--centro urbano
ou bairro
≤ 831
75%
50%
---
---
≤3
---
---
>0
---
100%
100%
100%
---
≤ 23
100%
≤ 0,84
---
---
---
---
---
> 0,84
---
---
---
---
---
---
---
100%
100%
---
---
---
---
---
>0
---
---
100%
100%
---
≤ 0,84
---
---
---
---
---
---
centro
--urbano
edif. escritórios \
--- centro comercial ---
---
---
edifício
--residencial
centro urbano,
--- centro comercial ---
centro
urbano
---
CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART
BAIRRO >'s
caracterização da loja e localização - dimensão
VARIÁVEIS
233
L. Modelos Discriminantes Lógicos Excluindo as Lojas Abertas em 2002
Neste anexo apresentam-se regras proposicionais definidas no início de 2003. A tabela
decisional apresentada segue as mesmas convenções da Tabela 7 (pág. 120). Note-se
que não foi possível obter regras para as Lojas de Bairro Grandes pelo método QUEST.
234