universidade tcnica de lisboa
Transcrição
universidade tcnica de lisboa
UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR TÉCNICO Modelação de Vendas de Novas Superfícies Comerciais Armando Brito Mendes (Mestre) Dissertação para obtenção do Grau de Doutor em Engenharia de Sistemas Orientador: Doutor Rui Manuel Moura de Carvalho Oliveira Co-Orientadora: Doutora Maria Margarida Guerreiro Martins dos Santos Cardoso Júri Presidente: Reitor da Universidade Técnica de Lisboa Vogais: Doutor Luiz Abel Magro Moutinho Doutor Luís António de Castro Valadares Tavares Doutor Rui Manuel Moura de Carvalho Oliveira Doutor João Agostinho de Oliveira Soares Doutora Maria Margarida Guerreiro Martins dos Santos Cardoso Lisboa, Outubro de 2005 ii iii Modelação de Vendas de Novas Superfícies Comerciais RESUMO: Os retalhistas sempre entenderam a localização como um factor crítico do sucesso de uma nova loja. No entanto, tentar perceber todos os aspectos da localização, potencial da área de influência e comportamentos do consumidor pode revelar-se uma tarefa de elevada complexidade. Nesta dissertação apresenta-se uma metodologia de apoio à decisão na avaliação de localizações potenciais de lojas de retalho alimentar de pequena a média dimensão, com base em modelos de previsão de vendas. A recolha de dados necessários à modelação inclui dois inquéritos a clientes e um programa de mystery shopping. Utilizam-se diagramas de Voronoi multiplicativos ponderados no tratamento espacial de dados demográficos do censo 2001. Descrevese o estado da arte relativamente a modelos e métodos utilizados em problemas semelhantes e sugere-se uma classificação com três classes. É definida uma tipologia de lojas com base na comparação de três métodos de integração de conhecimento de especialistas: a priori, a posteriori e interactivo. Induzem-se regras proposicionais para classificar uma nova localização num dos grupos de lojas análogas. Após a classificação de uma localização potencial utiliza-se um modelo de regressão linear para prever vendas. Os modelos são implementados numa folha de cálculo segundo uma filosofia loosely coupled. A integração de conhecimento de domínio por parte de especialistas, nos modelos construídos, e a geração de novo conhecimento sobre o problema são elementos estruturantes de todo o trabalho apresentado. PALAVRAS-CHAVE: Avaliação de Localizações Potenciais em Cadeias de Retalho; Diagramas de Voronoi Multiplicativos Ponderados; Segmentação de Lojas; Integração Conhecimento de Especialistas; Árvores de Classificação; Geração de Conhecimento de iv v New Food Store Turnover Modelling ABSTRACT: The retailers always understood the location as a critical success factor for a new store. However, recognizing all the aspects of location, influence area potential, and consumer's behaviour presents high complexity. In this dissertation, it is described an approach for site selection and evaluation of potential locations of food stores of small to medium size by sales turnover forecast. Data gathering included two customers’ surveys and a mystery shopping program. Multiplicative Weighted Voronoi Diagrams were used in spatial demographic data analysis. The state of the art of models and methods used in similar problems are described and a classification is suggested in three classes. A typology of stores is defined by comparing three methods of expert knowledge integration: a priori, a posteriori and the interactive method. Decision rules are induced to classify a new location in one of the previous groups of analogue stores. After this classification, a linear regression model is used to forecast store turnover. The models are implemented in a spreadsheet using a loosely coupled philosophy. The integration of domain knowledge in the models by expert’s and the creation of new knowledge about the problem, were the main guiding principles in all the work presented. KEYWORDS: Site Selection for Food Retail Outlet; Multiplicative Weighted Voronoi Diagrams; Supermarket Segmentation; Expert Knowledge Integration; Classification Trees; Knowledge Creation vi vii Agradecimentos O autor não pode começar sem relembrar a Professora Isabel Hall Themido, responsável pela ideia inicial, verdadeira força por detrás de todo o trabalho desenvolvido e inspiradora de todos os que com ela colaboraram. Este trabalho é uma pequena homenagem à memória da Professora Isabel Hall Themido. Ao Professor Rui Oliveira por ter aceite um trabalho a meio numa área não completamente coincidente com os seus interesses científicos, por todo o apoio e amizade demonstrados ao longo do trabalho. Agradeço ainda o indispensável incentivo e as leituras atentas do texto apresentado. À Professora Margarida Cardoso por uma colaboração atenciosa e muito próxima e pela permanente disponibilidade. A Professora Margarida Cardoso colaborou neste trabalho além de orientar, sendo nomeadamente responsável pela segmentação de clientes de ambos os inquéritos efectuados, além de outras contribuições. O autor agradece a colaboração dos especialistas da cadeia de lojas que foram incansáveis na satisfação dos pedidos sucessivos de obtenção de dados e na avaliação dos resultados. Ainda que o interesse por este trabalho dentro do grupo de distribuição não tenha sido sempre o mesmo, a verdade é que a amabilidade e atenção dispensada por estes profissionais foi sempre muito activa. Esta dissertação teria sido impossível sem a sua atenciosa e amiga colaboração e é em grande parte resultado de um trabalho conjunto. Ao CESUR \ IST por ter aceite e apoiado este projecto e ao ICIST \ IST, na pessoa do Dr. Alexandre Gonçalves e do Professor João Matos, pela amizade e colaboração prestada. Nomeadamente o ICIST foi responsável pelo levantamento das coordenadas das lojas por GPS e pela programação dos algoritmos utilizados na delimitação de áreas de influência por diagramas de Voronoi multiplicativos. Ao Professor Luís Cavique pelo apoio e incentivo, à Dra. Ana Amorim pela colaboração no tratamento dos inquéritos e dos dados do programa mystery shopping. À Dra. Paula Cunha e Dra. Patrícia por toda a atenção dispensada e indispensável apoio logístico. À Universidade dos Açores e em especial aos colegas do Departamento de Matemática pela compreensão demonstrada e por terem criado as condições para que este trabalho fosse possível. Por fim, a todos os amigos que leram a presente dissertação e a criticaram. viii ix Índice Temático NOTAÇÃO MATEMÁTICA ABREVIATURAS E ACRÓNIMOS FORMATAÇÕES E DESTAQUES 2 3 4 I. 5 INTRODUÇÃO I.A. A LOJA DE RETALHO E O PROBLEMA DE LOCALIZAÇÃO I.B. MOTIVAÇÃO, DEFINIÇÃO DO PROBLEMA, OBJECTIVOS E ESTRUTURA I.C. ALGUMAS CONSIDERAÇÕES SOBRE A NOMENCLATURA 5 10 14 II. 19 APOIO À DECISÃO NA LOCALIZAÇÃO DE LOJAS DE RETALHO II.A. PORQUÊ LOJAS DE MENOR DIMENSÃO? II.B. NÍVEIS DE DECISÃO NA LOCALIZAÇÃO DE LOJAS DE RETALHO II.C. MODELOS DE APOIO À DECISÃO: O ESTADO DA ARTE II.C.1. LISTAS, PREVISÃO POR ANALOGIA E DECISÃO MULTICRITÉRIO II.C.2. MODELOS DE REGRESSÃO LINEAR II.C.3. MODELOS DISCRIMINANTES E ÁRVORES DE CLASSIFICAÇÃO II.C.4. MODELOS GRAVITACIONAIS E DE INTERACÇÃO ESPACIAL II.C.5. MODELOS DE OPTIMIZAÇÃO UNI E MULTIOBJECTIVO II.C.6. ANÁLISE COMPARATIVA II.D. SIGS NA ANÁLISE ESPACIAL DE LOCALIZAÇÃO 19 23 27 28 31 34 36 41 43 46 III. 49 RECOLHA DE DADOS: FUSÃO E ANÁLISE ESPACIAL III.A. MEDIR O DESEMPENHO DE LOJAS: UMA CLASSIFICAÇÃO DE VARIÁVEIS III.B. OS INQUÉRITOS NA LOJA: CARACTERÍSTICAS DOS CLIENTES III.B.1. PLANO DE AMOSTRAGEM III.B.2. ORGANIZAÇÃO, QUESTÕES E QUALIDADE III.C. O PROGRAMA DE MYSTERY SHOPPING: FACTORES ENDÓGENOS III.D. DADOS DEMOGRÁFICOS E O TRATAMENTO ESPACIAL: FACTORES EXÓGENOS III.D.1. PORQUÊ ÁREAS DE INFLUÊNCIA E MODELOS DE DELIMITAÇÃO? III.D.2. DIAGRAMAS DE VORONOI MULTIPLICATIVOS PONDERADOS III.D.3. ESTIMAÇÃO DOS MODELOS DE DELIMITAÇÃO DE ÁREAS DE INFLUÊNCIA III.D.4. CÁLCULO DE VARIÁVEIS E COMPARAÇÃO DE MODELOS DE DELIMITAÇÃO 49 54 55 59 61 63 64 68 72 76 IV. 81 DEFINIÇÃO DE UMA TIPOLOGIA E CARACTERIZAÇÃO IV.A. PORQUÊ SEGMENTAR? IV.B. TIPOLOGIAS DE LOJAS: INTEGRAÇÃO DO CONHECIMENTO DE ESPECIALISTAS IV.B.1. UTILIZAÇÃO DE CONHECIMENTO DE ESPECIALISTAS IV.B.2. INTEGRAÇÃO DO CONHECIMENTO DE ESPECIALISTAS A PRIORI IV.B.3. INTEGRAÇÃO DE CONHECIMENTO POR VALIDAÇÃO A POSTERIORI IV.B.4. MÉTODO INTERACTIVO DE INTEGRAÇÃO DE CONHECIMENTO IV.B.5. ANÁLISE DE RESULTADOS E COMPARAÇÃO DAS TIPIFICAÇÕES OBTIDAS IV.C. CARACTERIZAÇÃO DA TIPOLOGIA 81 85 86 88 94 97 101 107 x V. PREVISÃO POR ANALOGIA: MODELOS DISCRIMINANTES E REGRESSÃO 113 V.A. PORQUÊ MODELOS DE ANÁLISE DE DADOS? V.B. MODELOS DISCRIMINANTES LÓGICOS POR ANALOGIA V.B.1. DEFINIÇÃO DE REGRAS PROPOSICIONAIS: AS ÁRVORES DE CLASSIFICAÇÃO V.B.2. AS REGRAS PROPOSICIONAIS IDENTIFICADAS E OS MODELOS CONSTRUÍDOS V.B.3. NOVOS DADOS E O ÍNDICE DE PRECISÃO V.C. MODELOS DE REGRESSÃO LINEAR MÚLTIPLA V.C.1. ESTIMAÇÃO E SELECÇÃO DE MODELOS V.C.2. VERIFICAÇÃO DOS PRESSUPOSTOS DA REGRESSÃO LINEAR MÚLTIPLA V.C.3. EVOLUÇÃO CRONOLÓGICA DAS VENDAS E VALIDAÇÃO COM NOVOS DADOS V.D. A APLICAÇÃO APAV NO APOIO A DECISÕES DE LOCALIZAÇÃO V.D.1. DESENHO: INTEGRAÇÃO DE ACOPLAMENTO FRACO V.D.2. IMPLEMENTAÇÃO E DINÂMICA: GERAÇÃO DE CONHECIMENTO 113 115 115 119 123 129 130 135 139 146 148 152 VI. 161 CONCLUSÕES VI.A. O TRABALHO REALIZADO VI.B. CONHECIMENTO DE ESPECIALISTAS E GERAÇÃO DE NOVO CONHECIMENTO VI.C. CONTRIBUIÇÕES OBJECTIVAS VI.D. TESE?! VI.E. PERSPECTIVAS FUTURAS 161 166 171 174 175 BIBLIOGRAFIA 179 ANEXOS 193 A. B. C. D. E. F. G. H. I. J. K. L. 193 198 200 202 203 210 215 219 222 224 229 233 INQUÉRITO AOS CLIENTES INQUÉRITO AOS DIRECTORES DE LOJA FORMULÁRIO EM FOLHA DE CÁLCULO USADO PARA COMPARAÇÕES ENTRE LOJAS FORMULÁRIO UTILIZADO NO PROGRAMA DE MYSTERY SHOPPING METADADOS SOBRE OS DADOS RECOLHIDOS E REFERENCIADOS À LOJA ANÁLISE COMPARATIVA DOS INQUÉRITOS: EVOLUÇÃO DO CLIENTE SEGMENTAÇÃO DE CLIENTES CARACTERIZAÇÃO DA TIPOLOGIA INTERACTIVA COM DADOS DOS INQUÉRITOS CARACTERIZAÇÃO COM DADOS GEOGRÁFICOS E MYSTERY SHOPPING CARACTERIZAÇÃO DA ÁREA DE INFLUÊNCIA PARA A TIPOLOGIA INTERACTIVA MODELOS DISCRIMINANTES LÓGICOS PARA TODAS AS LOJAS MODELOS DISCRIMINANTES LÓGICOS EXCLUINDO AS LOJAS ABERTAS EM 2002 xi Índice de Figuras FIGURA 1 TIPOLOGIA DE PONTOS DE VENDA DE RETALHO ALIMENTAR SEGUNDO PREÇO E GAMA. FIGURA 2 EVOLUÇÃO DA QUOTA DE MERCADO POR TIPO DE LOJA EM PORTUGAL. FIGURA 3 ESTRUTURA DA DISSERTAÇÃO SEGUNDO TRÊS FASES. 7 9 13 FIGURA 4 DEFINIÇÃO ESQUEMÁTICA DE “SEGMENTAÇÃO”, “CLASSIFICAÇÃO” E “ANÁLISE DE AGRUPAMENTOS”. 17 FIGURA 5 VOLUME DE VENDAS POR DIMENSÃO DE LOJA EM ALGUNS PAÍSES EUROPEUS PARA 1998 E 2002. 20 FIGURA 6 NÍVEIS DE DECISÃO ENVOLVIDOS NA ESTRATÉGIA DE EXPANSÃO DE UMA CADEIA DE LOJAS. 25 FIGURA 7 CLASSIFICAÇÃO SUGERIDA DE VARIÁVEIS EXPLICATIVAS DO DESEMPENHO DE LOJAS PERTENCENTES A CADEIAS DE RETALHO ALIMENTAR E FONTES DE DADOS UTILIZADAS NA PRESENTE DISSERTAÇÃO. 50 FIGURA 8 CONTAGEM DE ACTOS DE COMPRA EM DIAS ÚTEIS E NO FIM-DE-SEMANA ENTRE 13 E 19/3/2000. 56 FIGURA 9 PERCENTAGEM DE ACTOS DE COMPRA EM CADA PERÍODO HORÁRIO NO DIA 17/3/2000 (SEXTA-FEIRA) E NÚMERO DE INQUÉRITOS REALIZADOS NO DIA 21/3/2003 (SEXTA-FEIRA). 57 FIGURA 10 EVOLUÇÃO DO VOLUME DE VENDAS NOS PRIMEIROS MESES APÓS A ABERTURA DA LOJA . 59 FIGURA 11 POLÍGONOS DE CAMINHOS MAIS CURTOS A 2 MIN (A) E POLÍGONOS DE VORONOI MULTIPLICATIVOS (B). FIGURA 12 POLÍGONOS DE VORONOI MULTIPLICATIVOS DE SEGUNDA ORDEM. 67 68 FIGURA 13 DIAGRAMA DE VORONOI SIMPLES (A) E DIAGRAMA DE VORONOI MULTIPLICATIVO (B). 75 FIGURA 14 DIAGRAMAS DE VORONOI MULTIPLICATIVOS COM α = 2 E β = 1 (A) E COM α = 1/10 E β = 1 (B). FIGURA 15 COMPARAÇÃO ENTRE LOJAS E INQUÉRITOS PARA ALGUMAS VARIÁVEIS. 76 83 FIGURA 16 DENDROGRAMA DA MATRIZ DE DISSEMELHANÇAS (A) GRÁFICO DE COEFICIENTES DE FUSÃO (B). FIGURA 17 LOJAS NO ESPAÇO DE QUATRO DIMENSÕES MDS EXTRAÍDAS. 90 92 FIGURA 18 CARACTERIZAÇÃO DAS DIMENSÕES MDS COM BASE EM COEFICIENTES DE REGRESSÃO PADRÃO. FIGURA 19 ÁRVORE DE REGRESSÃO ESCOLHIDA PELOS ESPECIALISTAS. 93 96 xii FIGURA 20 TIPOLOGIA PELO MÉTODO INTERACTIVO COM DADOS DE 2000. 98 FIGURA 21 DENDROGRAMA DE WARD DO MÉTODO INTERACTIVO (A) GRÁFICO DE COEFICIENTES DE FUSÃO (B) FIGURA 22 TIPOLOGIA PELO MÉTODO INTERACTIVO PARA DOIS ANOS DISTINTOS. 99 100 FIGURA 23 GRÁFICOS DE EXTREMOS E QUARTIS PARA ALGUNS GRUPOS DOS DIFERENTES MÉTODOS. 103 FIGURA 24 TABELA DE FREQUÊNCIAS COM AS RELAÇÕES ENTRE AS MEDIDAS DE QUALIDADE DO NÓ FOLHA. 123 FIGURA 25 ANÁLISE DE SENSIBILIDADE AOS PARÂMETROS ALFA (α) E BETA (β) DA EXPRESSÃO (11) . 127 FIGURA 26 MEDIDAS DE INFLUÊNCIA DAS OBSERVAÇÕES PARA O MODELO COM TODAS AS LOJAS. 134 FIGURA 27 VERIFICAÇÃO DOS PRESSUPOSTOS DE REGRESSÃO PARA O MELHOR MODELO IDENTIFICADO. 136 FIGURA 28 MÉDIA DE VENDAS ANUAIS (A) E DE VENDAS POR UNIDADE DE ÁREA (B) POR GRUPO E PREVISÕES . 140 FIGURA 29 ERROS DE PREVISÃO RELATIVOS PARA TODAS AS LOJAS (A) E GRÁFICO DE EXTREMOS E QUARTIS (B). 144 FIGURA 30 ERROS DE PREVISÃO E DE CLASSIFICAÇÃO PARA O MODELO (12) PARA O ANO DE 2003. 145 FIGURA 31 ESTRUTURA DE ACOPLAMENTO FRACO ENTRE AS APLICAÇÕES COORDENADAS COM O APAV. 152 FIGURA 32 A FOLHA DE “INPUTS” E DE “PREVISÃO” DA APLICAÇÃO APAV. 153 FIGURA 33 A FOLHA DE “DADOS” E DE “CLUSTERS” DA APLICAÇÃO APAV. 155 FIGURA 34 DOIS EXEMPLOS DE DIAGNÓSTICOS PRESENTES NA FOLHA DE CÁLCULO “PREVISÃO”. 156 FIGURA 35 ACTUALIZAÇÃO DE DADOS E DE MODELOS AQUANDO DA DISPONIBILIZAÇÃO DE NOVOS DADOS. 158 xiii Índice de Tabelas TABELA 1 RESUMO DAS VANTAGENS E DESVANTAGENS COMPARATIVAS DOS DIFERENTES MODELOS SEGUNDO UMA TIPIFICAÇÃO SUGERIDA PELO AUTOR. TABELA 2 RESUMO DOS FACTORES CONSIDERADOS NO PLANO DE AMOSTRAGEM. 44 58 TABELA 3 R2 CORRIGIDO PARA REGRESSÕES EXPLICATIVAS DAS VENDAS POR UNIDADE DE ÁREA COMERCIAL. 78 TABELA 4 SUMÁRIO DAS PRINCIPAIS CARACTERÍSTICAS DAS METODOLOGIAS E TIPOLOGIAS OBTIDAS. TABELA 5 PERCENTAGEM DE VARIÂNCIA EXPLICADA PELOS GRUPOS. 102 105 TABELA 6 RESUMO DA CARACTERIZAÇÃO DA TIPOLOGIA OBTIDA PELA METODOLOGIA INTERACTIVA. 109 TABELA 7 RESUMO DAS REGRAS PROPOSICIONAIS ESCOLHIDAS E ALGUMAS MEDIDAS DE QUALIDADE. TABELA 8 CLASSIFICAÇÕES PREVISTAS E DEFINITIVAS PARA TRÊS LOJAS RECENTES. 120 125 TABELA 9 LOJAS COM CLASSIFICAÇÕES CONTRADITÓRIAS USADAS PARA CALIBRAR E VALIDAR O ÍNDICE. 126 TABELA 10 REGRESSÕES PARA AS LOJAS DA CADEIA COM E SEM CONSIDERAÇÃO DE GRUPOS ANÁLOGOS. TABELA 11 MEDIDAS DE QUALIDADE DAS PREVISÕES EFECTUADAS PARA O ANO DE 2003. 133 143 TABELA 12 REGRAS PROPOSICIONAIS USADAS NO APAV PARA EXCLUIR LOCALIZAÇÕES NÃO ANÁLOGAS. 159 xiv xv Esta dissertação é dedicada à Sandra e à Inês «Eu sou o resultado consciente da minha própria experiência» José Almada Negreiros “Ultimatum Futurista”, publicado em Lisboa, Dezembro 1917 xvi 1 Nota Prévia Este trabalho foi realizado em estreita colaboração com um grupo de distribuição alimentar nacional preocupado em aumentar o número de lojas pertencentes a uma cadeia de Supermercados de Proximidade. Esta colaboração foi indispensável na recolha dos dados e na crítica de resultados. Na maioria das actividades realizadas, este grupo esteve profundamente envolvido, inclusivamente intervindo activamente em todas as fases do projecto e expondo os seus pontos de vista e opiniões, baseadas no extenso conhecimento do domínio que detêm. Esta constante interacção foi, na nossa opinião, o segredo do sucesso da implementação dos modelos desenvolvidos. No entanto, no âmbito desta colaboração foram impostas restrições à revelação de algumas informações sobre os dados recolhidos. Nomeadamente, não é possível revelar nem a cadeia de lojas envolvidas no estudo, nem o grupo de distribuição com o qual se trabalhou. Igualmente não é possível mostrar mapas com a localização geográfica das lojas. Também não se revelam os valores de vendas por loja pelo que todos os valores relacionados, como desvios e parâmetros dos modelos, foram obtidos a partir de valores modificados. Também não se podem revelar nomes de lojas, mas a denominação apresentada é coerente em todo o texto da dissertação. Assim, nesta dissertação, estas restrições são cuidadosamente seguidas a fim de não trair a confiança de quem tão amavelmente connosco colaborou. No entanto, as referidas restrições podem levantar problemas de reprodutibilidade dos resultados que se tenta minimizar ao apresentar dados agregados e/ou modificados. De qualquer modo, tem-se a preocupação de que tais restrições não afectem o rigor dos resultados apresentados. 2 Notação Matemática e Abreviaturas Notação Matemática α, β parâmetros da expressão para o índice de precisão (IPj); a índice identificativo da árvore de classificação; Aj atractividade gerada pelo ponto de venda j; aInflj área de influência definida por algoritmos de caminho mais curto para a loja j em hectares; ar índice identificativo da regra proposicional (ou nó folha) r referente à árvore de classificação a; aVendj área de vendas em metros quadrados para a loja \ localização potencial j; B03j ordenada na origem da equação de previsão para as vendas da loja j no ano de 2003; dEdifj densidade de edifícios construídos entre os anos de 1996 e 2001 em número de edifícios por 10 hectares para a área de influência definida por algoritmo de caminhos mais curtos a 2,5 minutos; dij=||xi-xj|| distância, tempo ou custo de deslocação entre o polígono de procura i e o ponto de venda representando a oferta j; dwj função de distância ponderada pelo peso wj relativa ao ponto de venda j; Ei vendas potenciais provenientes da subzona i; h índice identificativo das n lojas em concorrência numa determinada região; i índice identificativo do polígono resultante da divisão da área de influência em subzonas homogéneas nos modelos gravitacionais; IPj Índice de Precisão para o ponto de venda j; j índice identificativo do ponto de venda ou loja; k número de pontos de venda frequentados pelos clientes em simultâneo correspondendo igualmente à ordem dos diagramas de Voronoi; l=nCk número de combinações de k pontos geradores no total de n pontos correspondente ao número de subconjuntos em P; n número finito de pontos no espaço associados a lojas, para gerar um diagrama de Voronoi é necessário um número mínimo de dois pontos; ngar número de observações no nó folha ar pertencente ao grupo g; nAlojj número de alojamentos com proprietário ocupante para a área de influência da loja j definida por diagramas de Voronoi de 1ª ordem; P=UiPi(k) conjunto de subconjuntos de k pontos geradores, para k = 1 reduz-se ao conjunto de pontos gerador dos diagramas de Voronoi simples; Pi(k) subconjunto i de k pontos geradores dum polígono de Voronoi de ordem k; 3 pj localização no espaço do ponto de venda j; Sij fracção do potencial de vendas (ou quota de mercado) da zona i captada pelo ponto de venda j; Uij função utilidade genérica entre a oferta do ponto de venda j e a procura proveniente do polígono i; V = {V(p1), V(p2), …, V(pn)} diagrama de Voronoi constituído pelo conjunto dos polígonos correspondentes a todos os pontos geradores de P; V(pj) polígono de Voronoi gerado pelo ponto pj; V(Pi(k)) polígono de Voronoi multiplicativo de ordem k gerado pelo subconjunto i de k pontos geradores Pi(k); Ŵ03j vendas anuais previstas para a loja j e para o ano de 2003; wj peso superior a zero associando ao ponto de venda j; xj coordenadas do ponto pj; Abreviaturas e Acrónimos ADO ActiveX Data Objects; AHP Analytical Hierarchy Process (processo hierárquico analítico); AID Automatic Iteration Detector; ANOVA ANalysis Of VAriance (análise de variância); APAV Análise e Previsão por Analogia de Vendas; APED Associação Portuguesa de Empresas de Distribuição; APSI Associação Portuguesa de Sistemas de Informação; CART Classification And Regression Trees (árvores de classificação e regressão); CHAID Chi-square Automatic Interaction Detection; CMC Algoritmo de Caminhos Mais Curtos sobre uma rede viária; DDE Dynamic Data Exchange; DfBetas Medida da variação dos coeficientes estimados por regressão atribuída a uma observação eliminada; Eurostat STATistical office of the EUROpean communities (agência de informação estatística da Comunidade Europeia); ERP Enterprise Resource Planning; GIS Geographical Information System (ver SIG); GPS Global Positioning System (sistema de posicionamento global); HTML Hyper Text Markup Language; INE Instituto Nacional de Estatística; KBDSS Knowledge Based Decision Support Systems (sistema de apoio à decisão baseado em conhecimento); 4 MCI Multiplicative Competitive Interactive model; MC-SDSS MultiCriteria Spatial Decision Support System (sistema de apoio à decisão espacial multicritério); MDS MultiDimensional Scaling; MNL MultiNomial Logit; MULTILOC MULTIple store LOCation model; MWVD Multiplicative Weighted Voronoi Diagrams (diagramas de Voronoi multiplicativos ponderados); OkMWVD Order k MWVD (polígonos de Voronoi multiplicativos de ordem k); OLE Object Linking and Embedding; OVD Ordinary Voronoi Diagram (diagrama de Voronoi simples ou de primeira ordem); PRESS PREdicted Sum of Squares; POS Point Of Sale (ponto de venda); QFD Quality Function Deployment; QUEST Quick Unbiased Efficient Statistical Tree; SAD Sistema de Apoio à Decisão; SDSS Spatial Decision Support Systems (sistemas de apoio à decisão espacial ou geográfica); SGBDOO Sistemas Gestores de Bases de Dados Orientadas para Objectos; SGBDR Sistemas Gestores de Bases de Dados Relacionais; SIG Sistema de Informação Geográfica; SLAM Store Location Assessment Model; UCDR Unidades Comerciais de Dimensão Relevante; VBA Visual Basic for Applications; WWW World Wide Web; XML eXtensible Markup Language. Formatações e Destaques Itálico destaca palavras ou expressões em língua estrangeira incluindo expressões em latim; “Aspas” destaca nomes de variáveis e expressões ou palavras que não devem ser confundidas com o texto; Iniciais Maiúsculas além da utilização habitual é também utilizado para realçar alguns nomes de grupos evitando o cansaço do excesso de aspas; Carregado destaca expressões e palavras que resumem o(s) parágrafo(s) ou termos definidos ou explicados nas linhas seguintes; Times itálico símbolos em notação matemática. 5 Capítulo I ⎯⎯⎯⎯⎯⎯⎯⎯ I. INTRODUÇÃO Este capítulo descreve, em traços largos, o contexto em que surge o problema e o ambiente vivido na distribuição em geral, sendo este tema mais extensivamente explorado no segundo capítulo. Descrevem-se ainda aspectos fundamentais para compreender esta dissertação como a motivação, o problema em estudo e os objectivos a atingir. Pretende-se demonstrar a necessidade de criação de modelos de apoio à decisão para localização de lojas de retalho alimentar de pequena a média dimensão por modelação de vendas em novas localizações. Faz-se igualmente uma descrição da estrutura da dissertação apresentada e discutem-se diferenças de nomenclatura entre as disciplinas de estatística, reconhecimento de padrões e análise de marketing. «… new trends in retailing, commercial real estate development, and competitive forces require a new level of sophistication concerning where to best market a product or service» Joseph R. Bagby (fundador da NACORE – iNternational Association of COrporate Real Estate executives, prefácio de Salvaneschi, 1996) I.A. A Loja de Retalho e o Problema de Localização O sector da distribuição tem vindo a ser dividido em dois subsectores de actividade muito interligados: o subsector retalhista e o grossista. Na verdade, esta divisão é artificial e resulta da cobertura de diferentes conjuntos de elos da cadeia logística. O grossista trataria dos primeiros elos da cadeia e o retalhista do contacto directo com o consumidor. As actividades e o tipo de negócio distinguem-se essencialmente por o subsector grossista ser do tipo business to business e o retalhista 6 do tipo business to consumer, estando na origem das respostas diferenciadas para as variáveis do marketing mix encontradas para cada subsector. No entanto, as actividades básicas de transporte, gestão de inventários (stocks), divisão em quantidades apropriadas, transmissão de informação e serviços são muito semelhantes, pelo que a integração vertical da cadeia logística surgiu naturalmente tendo por consequência o desenvolvimento de grupos de distribuição com várias insígnias e cadeias de retalho. Uma cadeia de retalho pode ser definida como um conjunto de pontos de venda detidos pelo mesmo grupo de distribuição, com níveis de decisão comuns e uma logística integrada (Levy e Weitz, 2004). A preocupação fundamental dos grupos de distribuição e, em geral, de todos os elos da cadeia de distribuição é a satisfação das necessidades do cliente, incluindo a criação de novas. Esta orientação para o cliente está no centro dos actuais conceitos de marketing1 relacional (Gilbert, 2002), mas também da logística empresarial (business logistics). Por exemplo, uma das definições apresentadas por Ballou (2004) e atribuída ao Council of Logistics Management2 coloca claramente toda a cadeia logística ao serviço do consumidor (pág. 4): «Logistics Management is that part of Supply Chain Management that plans, implements, and controls the efficient, effective forward and reverse flow and storage of goods, services and related information between the point of origin and the point of consumption in order to meet customers' requirements». Assim, a loja de retalho adquiriu nos últimos anos uma relevância acrescida, podendo-se afirmar que quem controla o ponto de venda controla igualmente toda a cadeia logística já que os restantes elos da cadeia ficam dependentes do retalhista para chegarem ao consumidor (Levy e Weitz, 2004 e Rousseau, 1997). Apesar desta preponderância, os pontos de venda também estão sujeitos a fortes pressões. Pressões horizontais que provêm de outras cadeias semelhantes, num mercado que na maioria dos países é já muito saturado, e verticais provenientes de novas formatos de retalho como as vendas directas por catálogo ou o comércio electrónico. Ao nível do retalho alimentar a variedade de formatos, de marcas e de insígnias demonstra bem a competitividade do sector. Na Figura 1 sugere-se uma tipologia de pontos de venda alimentares baseada em duas dimensões: preço \ nível de serviço e Utiliza-se o termo marketing da língua inglesa ainda que a Diciopédia 2005 em DVD da Porto Editora (ISBN 972-0-65258-6) recomende o termo “mercadologia” que, no entanto, é pouco utilizado. 2 Trata-se de uma associação profissional de gestores logísticos, educadores e profissionais com o objectivo de investigação, educação e promoção de troca de informações e conhecimento no domínio da logística, fundada em 1962. Outras informações podem ser consultadas no site clm1.org. 1 7 profundidade \ largura ou alcance da gama ou sortido. A largura ou alcance da gama refere-se ao número de produtos disponíveis e a profundidade ao número de marcas de cada produto. Sublinhe-se no entanto que o posicionamento dos pontos de venda depende, em grande parte, da gestão local e do ambiente competitivo. FIGURA 1 TIPOLOGIA DE PONTOS DE VENDA DE RETALHO ALIMENTAR SEGUNDO PREÇO E GAMA. (Fonte: esquema reformulado a partir de uma ideia original de Rousseau, 1997) gama alargada lojas especializadas a hipermercados supermercados grandes preço e nível de serviço baixo preço e nível de serviço elevado supers proximidade supers hard discount b lojas tradicionais supers discount gama limitada lojas de conveniência Note-se que a gama alargada das Lojas Especializadas se refere à profundidade da gama e não à sua largura. b Supers de Hard Discount apresentam uma gama de profundidade muito limitada ainda que a largura possa ser elevada. a Normalmente, o alcance da gama acompanha a profundidade da gama. Excepções são as Lojas Especializadas (as de maior dimensão também são chamadas de category killers) onde apenas se vende uma categoria de produtos normalmente com enorme profundidade de gama. No outro extremo temos os Supermercados Discount e Hard Discount caracterizados por profundidades de gama quase nulas, quase sempre só apresentando uma marca branca para cada tipo de produto, e níveis de serviço reduzidos ao mínimo. Exemplos de insígnias são para os supermercados Discount Dia \ Minipreço e para os Hard Discount Lidl e Plus. Os Hipermercados são as maiores superfícies comerciais, correspondendo nos termos do decreto-lei nº 83/95 de 26 de Abril, aos estabelecimentos com área de exposição e vendas igual ou superior a 2.000 m2 ou, no caso de estarem localizados em concelhos com menos de 30.000 habitantes, igual ou superior a 1.000 m2. Estas lojas apresentam gamas tanto alargadas como profundas tanto em secções alimentares como 8 não alimentares, ainda que se verifique uma tendência recente de abertura de lojas especializadas que retiram do hipermercado parte da área não alimentar. Na Figura 1 os Supermercados Grandes referem-se a lojas de dimensões intermédias (entre os hipermercados e os supermercados de proximidade), normalmente situadas fora dos centros das grandes cidades mas não fora da cidade. Como exemplo podem-se citar insígnias como Modelo e Intermarché. Pelo contrário, as Lojas de Conveniência situam-se quase exclusivamente em áreas de abastecimento de combustíveis ou dentro das grandes cidades, apresentam dimensões reduzidas mas um nível de serviço muito elevado, sendo caracterizadas por estarem abertas durante períodos muito alargados que podem chegar às 24 horas. Por fim os Supermercados de Proximidade são a categoria mais difusa e com menos insígnias em Portugal mas que a Tesco Metro é um bom exemplo no Reino Unido e os Pingo Doce menores um exemplo nacional. Este tipo de lojas pretende oferecer uma alternativa de qualidade ao cliente evitando deslocações aos supermercados maiores com uma grama de produtos limitada mas com as marcas mais procuradas, com ênfase nos produtos frescos e elevados níveis de serviço. As Lojas Tradicionais são uma categoria mal definida de lojas de dimensões muito variáveis, se bem que em média sejam muito pequenas. A principal característica é a de não se integrarem em cadeias de retalho ainda que grande parte participe em algum tipo de associação de distribuição. Note-se que esta tipologia não é consensual e, por exemplo, AC Nielson acrescenta a categoria de “puros alimentares” a qual é englobada na Figura 1 pelas Lojas Especializadas e divide as Lojas Tradicionais em “drogarias” e “mercearias”. Também a categoria de Lojas de Conveniência é englobada pela AC Nielson no grupo das “outros livre serviços”. Por outro lado, os “supermercados menores” incluem os Supermercados de Proximidade, os Discount e os Hard Discount. No mercado Português, e desde que se dispõem de dados sobre a quota de mercado, os hipermercados e os supermercados têm crescido continuamente à custa dos restantes conceitos. De acordo com os dados da AC Nielsen Portugal, supermercados e hipermercados são hoje as estruturas comerciais mais importantes em Portugal Continental, se considerarmos o volume de vendas como indicador de referência. Recentemente os supermercados estão a superar os hipermercados em várias rubricas, tendo-se mesmo registado um crescimento acumulado nas suas vendas superior a 120%, entre 1990 e 1997. A partir desta data a quota de mercado dos supermercados superou a das grandes superfícies e tem crescido de forma sustentada, como se pode observar na Figura 2. 9 FIGURA 2 EVOLUÇÃO DA QUOTA DE MERCADO POR TIPO DE LOJA EM PORTUGAL. (Fonte: AC Nielsen Portugal publicado na revista Distribuição Hoje, suplemento Atlas da Distribuição 2004) 100% 90% 80% Puros Alimentares Outros Livre Serviços Supermercados (<'s) quota de mercado 70% 60% Lojas Traditionais Supermercados (>'s) 50% 40% 30% 20% 10% Hipermercados 0% 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Aliás, no ano de 1996, as pequenas e médias superfícies de retalho foram as únicas a registar um crescimento simultaneamente no número de lojas e no volume de vendas (aproximadamente mais 92 milhões de contos) e consequentemente a aumentar a sua quota de mercado de 28 para 34% no universo Nielsen. Em 1997 os Supermercados atingiram a liderança e em 1998 consolidaram a sua estratégia de expansão, em especial os supermercados de menores dimensões. Como já foi notado os valores para os supermercados menores incluem vários formatos como as lojas Discount e Hard Discount, que têm ganho muita quota de mercado nos últimos anos. No entanto, também as lojas pequenas e de média dimensão dirigidas para classes mais elevadas, i.e. os Supermercados de Proximidade, têm tido importantes ganhos de quota como os lucros da cadeia Pingo Doce comprovam. Segundo o relatório anual da empresa, as vendas do Pingo Doce subiram 2% no ano transacto, apesar do enquadramento macroeconómico adverso e da crescente agressividade concorrencial. Este aumento é atribuído a uma generalizada redução de preços como reacção ao crescimento dos Supermercados Hard Discount3. Aliás, mais recentemente, a empresa decidiu concentrar o negócio em menos regiões geográficas e 3 Informação retirada do sítio da empresa: www.jeronimomartins.pt em 18/11/2004. 10 em menos formatos de retalho, prevendo despender 140 a 150 milhões de euros ano, apostando na expansão e remodelação da rede de supermercados e no retalho especializado4. Assim, o futuro dos Supermercados de Proximidade parece promissor. Ainda que o investimento inicial neste tipo de lojas de pequena a média dimensão seja reduzido, têm-se verificado cuidados especiais na localização destas lojas. Uma boa localização atrai mais consumidores, pelo que aumenta as vendas potenciais. No entanto, estes investimentos podem ser difíceis de rentabilizar, já que implicam retornos de investimento a mais longo prazo relativamente às lojas de maiores dimensões, devido ao fraco poder de atracção das lojas e principalmente, menores economias de escala com cadeias logísticas mais complexas e extensas (Birkin et al., 2002 e Salvaneschi, 1996). Ver por exemplo o caso de um dos retalhistas mais inovadores no Reino Unido descrito em Smith (2004). As pressões que as cadeias de lojas de distribuição alimentar enfrentam são tais que as decisões de localização não podem ser negligenciadas. As lojas representam locais onde volumes significativos de capital são investidos. Uma vez tomadas as decisões de localização são difíceis de alterar. Deste modo, as empresas não podem continuar a tomar decisões quanto ao quarto P (de place) do marketing mix de ânimo leve (Gilbert, 2002 e Salvaneschi, 1996). Trabalhos como os de Pioch e Byrom (2004) e Jones et al. (2003) confirmam a necessidade de uma boa localização, em especial em serviços mais padronizados e com atendimento menos personalizado, como é o caso das cadeias de supermercados. Neste contexto, o desenvolvimento de modelos e técnicas de apoio à decisão baseados em modelos quantitativos de previsão de vendas em novas localizações assume uma relevância acrescida. I.B. Motivação, Definição do Problema, Objectivos e Estrutura A motivação deste trabalho surgiu da necessidade, sentida pelo grupo de distribuição, de revitalizar uma pequena cadeia de lojas de retalho alimentar que se posicionara no mercado essencalmente como Supermercados de Proximidade, orientados para as classes de rendimentos médias a altas, ainda que originariamente tivessem tido uma orientação mais próxima das lojas Discount (ver Figura 1). Ainda que actualmente o posicionamento estratégico seja claro, tanto para a cadeia existente como para as lojas a abrir futuramente, na verdade, alguma incerteza 4 Revista Poupança Quinze, nº 233 de 27/7/2004, Lisboa: Edideco, pág. 7. 11 quanto a esse posicionamento no passado conduziu à abertura de lojas com características diferenciadas como é o caso de algumas lojas próximas dos Supermercados Grandes. Desta forma, foi sendo criada uma cadeia de lojas com dimensões e localizações heterogéneas cujo ponto comum é o facto de se localizarem todas nas áreas metropolitanas de Lisboa e Porto e quase todas dentro de cidades suburbanas. Esta cadeia de supermercados tem geralmente áreas alimentares e não alimentares, sendo a não alimentar responsável por uma pequena fracção das vendas da loja (entre 10 a 20%). O problema essencial posto pelos especialistas do grupo de distribuição era a comparação de localizações potenciais. Após testes com modelos que eram usados para lojas de maiores dimensões localizadas mais longe do centro das cidades, chegaram rapidamente à conclusão que eram inadequados para este tipo de lojas. Na verdade as lojas de menores dimensões estão muito mais dependentes das vizinhanças próximas e tendem a apresentar valores de vendas mais difícieis de explicar uma vez que exigem uma análise mais fina. Assim, o problema consiste em desenvolver modelos capazes de comparar localizações de pontos de venda de retalho alimentar correspondentes a lojas de pequena a média dimensão e com uma orientação típica de Supermercados de Proximidade. A este problema genérico foi acrescentada a restrição de que as localizações potenciais teriam de ser comparadas em termos de vendas previstas. É, aliás, esta última restrição imposta que justifica o título desta dissertação. Ficou igualmente claro desde o início que, dada a reduzida dimensão da cadeia, com muito poucas lojas abertas, a colaboração dos especialistas seria ainda mais relevante do que se as circunstâncias fossem diferentes. Na verdade, a falta de dados quantitativos para validar os modelos teria de ser superada pelos conhecimentos profundos das lojas e da cadeia detidos por estes especialistas em localização. Os especialistas são, neste caso, analistas de marketing com formação em ciências sociais e gestão, responsáveis por todas as decisões de localização da cadeia em consideração e conhecedores de cada uma das lojas individualmente. Foi ainda decidido que não se pretendia apoiar decisões estratégicas como a selecção de regiões do pais em que estes Supermercados de Proximidade deveriam ser instalados. Dado que a orientação estratégica da cadeia já estava definida, revelou-se concensual que estas lojas se deveriam localizar em zonas de grande expansão demográfica, ou zonas onde os consumidores apresentassem elevados rendimentos. No caso do continente português tal só se verifica nas zonas metropolitanas de Lisboa e do 12 Porto. As restantes zonas são cobertas por grandes lojas fora das cidades ou pequenas lojas em regime de franchising. Assim, podem-se enumerar os seguintes objectivos para o trabalho que foi proposto e que é apresentado nesta dissertação. (i) sistematizar, comparar, classificar e avaliar os modelos descritos na literatura sobre avaliação de desempenho de lojas de retalho e comparação de localizações potenciais; (ii) definir uma classificação das variáveis a considerar nos problemas de previsão de vendas em novas localizações e recolher dados provenientes de várias origens que permitam cobrir todas as classes de variáveis identificadas; (iii) utilizar e comparar diferentes modelos de delimitação de áreas de influência que permitam integrar variáveis demográficas em estudos de localização por análise espacial; (iv) definir uma tipologia de lojas que permita compreender melhor o comportamento das diferentes lojas existentes e que possa ser utilizada nos modelos subsequentes; (v) desenvolver modelos para apoiar decisões de comparação de localizações potenciais de novas lojas alimentares de pequena a média dimensão baseadas em previsão de vendas; (vi) integrar o conhecimento da área detido pelos especialistas, tanto no desenvolvimento dos modelos e das metodologias, como na validação dos mesmos; (vii) demonstrar que os modelos adoptados e a metodologia desenvolvida são, não apenas válidos, como os mais adequados e os que conduzem às melhores previsões, dadas as alternativas disponíveis e as limitações impostas; (viii) por fim, o objectivo fundamental de todo o trabalho é a geração de conhecimento sobre este problema complexo que possa ser utilizado em momentos de decisão futuros. Assim, a estrutura da dissertação segue de perto a necessidade de preencher os objectivos identificados como se pode observar na Figura 3. Neste capítulo apresentou-se uma descrição do problema que inclui já uma definição das fronteiras do sistema em estudo. No capítulo II faz-se uma abordagem mais completa ao contexto do problema e dos níveis de decisão envolvidos. Apresenta-se ainda uma sistematização dos modelos e técnicas da literatura, incluindo as metodologias baseadas em Sistemas de Informação Geográfica. No capítulo III passa-se à fase de modelação do sistema e descrição da solução proposta. Neste capítulo, além de se sugerir uma classificação das variáveis usadas em problemas de avaliação de desempenho e localização de lojas de retalho, descrevem-se os dados recolhidos por diversos métodos, os testes de qualidade e consistência efectuados e os processos de integração utilizados. Descreve-se ainda o tratamento de 13 análise espacial efectuado com definição de áreas de influência por diferentes métodos que são comparados em termos de capacidade explicativa das variáveis obtidas. FIGURA 3 ESTRUTURA DA DISSERTAÇÃO SEGUNDO TRÊS FASES. (As setas referem-se às dependências mais relevantes entre os capítulos da dissertação) enquadramento e formulação do problema Capítulo I Definição do Problema e Objectivos modelação do sistema e solução proposta Capítulo III Dados Recolhidos e Análise Espacial Capítulo IV Modelos de Agrupamento das Lojas Capítulo II Contexto e Modelos \ Técnicas Descritos na Literatura Capítulo V Modelos de Classificação e Previsão de Vendas. teste e implementação Capítulo V Validação dos Modelos e APAV Capítulo VI Conclusões e Propostas para o Futuro No capítulo IV continua-se a modelação do problema, agora com definição de um modelo para compreender as diferenças entre grupos de lojas. Assim, define-se uma tipologia baseada na integração de conhecimento dos especialistas escolhida por comparação com outras tipologias desenvolvidas utilizando metodologias distintas. Este modelo de loja análoga é central neste trabalho e estruturante de todos os restantes modelos desenvolvidos. O capítulo V tem uma dimensão superior aos restantes uma vez que inclui várias fases do processo. Assim, opta-se por modelos de análise de dados com fins descritivos e preditivos em detrimento de modelos mais normativos e desenvolvem-se modelos de classificação das lojas e de previsão baseados em regressão linear. Deste modo, completa-se a fase de modelação do sistema. No mesmo capítulo descreve-se um ambiente decisional baseado numa aplicação em folha de cálculo que permite obter previsões de vendas para localizações potenciais em comparação, e a que se chamou 14 APAV – Análise e Previsão por Analogia de Vendas. Assim, este capítulo inclui igualmente a fase de teste e validação dos modelos e da solução encontrada. Por fim, apresentam-se as conclusões do trabalho efectuado e tenta-se provar que os objectivos propostos foram atingidos. Tenta-se igualmente, neste capítulo, destacar as contribuições que esta dissertação traz para o problema genérico de localização de lojas de retalho e apresentam-se vias a explorar no futuro. Esta última parte, centrada na preocupação com a constante melhoria das soluções encontradas, pode ser integrado no esquema da Figura 3 referente à implementação e actualização da solução proposta. A dissertação termina com um conjunto de anexos onde se apresentam tabelas e gráficos que por serem demasiado extensos e por não serem essenciais para a compreensão do texto se remetem para esta área de consulta. Todos os capítulos incluem ainda um resumo inicial e secções introdutórias. I.C. Algumas Considerações sobre a Nomenclatura Nesta dissertação utilizam-se técnicas, métodos e algoritmos provenientes de dois domínios distintos mas que nos últimos anos têm verificado uma evolução convergente, nomeadamente a estatística multivariada e o reconhecimento de padrões (pattern recognition) ou aprendizagem automática (machine learning). Este facto complica a utilização de uma terminologia adequada, uma vez que cada um destes domínios usa as suas próprias designações. Mesmo quando os mesmos termos são utilizados por vezes têm significados distintos. Na maioria dos textos de estatística multivariada o termo classificação engloba qualquer tipo de método usado para agrupar um conjunto de entidades em subgrupos. Assim, neste termo estariam englobados actividades complexas e multivariadas relacionadas com a análise de agrupamentos (clusters) ou actividades tão simples como agrupar segundo atributos conhecidos como o género ou classes de idades. Neste mesmo sentido, mais fundamentado no tempo, segue igualmente a definição apresentada na Diciopédia 2005 da Porto Editora5: «acto, efeito ou processo de distribuir por classes» ou a definição apresentada por Hartigan (1996) e atribuída a Webster: 5 Diciopédia 2005 em DVD da Porto Editora, ISBN 972-0-65258-6. 15 «classification is (1) the act or process of classifying; (2) the systematic arrangement in groups or categories according to established criteria». Note-se, no entanto, que esta utilização da palavra classificação não é consensual entre todos os autores de estatística multivariada. Por exemplo, Everitt et al. (2001) utiliza a expressão “análise de clusters” como sinónimo de classificação efectuada por métodos numéricos, sugerindo mesmo que o primeiro pode ser mais abrangente do que o segundo (pág. 4): «... nowadays cluster analysis is probability the preferred generic term for procedures which seek to uncover groups in data». Na mesma linha de pensamento surge a definição apresentada por Gordon (1999) onde classificação e análise de agrupamentos surgem mais uma vez como sinónimos, já que a palavra “classification” poderia sem perda de significado ser substituída pela expressão “cluster analysis”: «The subject of ‘classification’ is concerned with the investigation of sets of ‘objects’ in order to establish if they can validly be summarized in terms of a small number of classes of similar objects». Perante estas indefinições, o termo classificação tem-se tornado ao longo do tempo mal definido e confuso na literatura de estatística multivariada. Também na literatura de análise de marketing o termo segmentação é utilizado como sinónimo de classificação ou mesmo, de forma ainda mais lata, incluindo neste conceito qualquer técnica que permita dividir entidades em grupos. Por exemplo, Wedel e Kamakura (2000) incluem nesta denominação técnicas como tabelas de contingência, tabelas cruzadas, regressão, análise discriminante, árvores de classificação ou modelos de mistura. Pelo contrário, na bibliografia de reconhecimento de padrões o termo “classificação” é utilizado de forma muito mais restrita. Neste domínio do conhecimento, classificar corresponde a prever o valor de uma variável dependente ou target. Tal é fácil de entender, já que, se a variável for nominal, prever o valor para uma nova entidade corresponde a colocar um rótulo nessa entidade, e logo classifica-la no grupo de todas a que detêm esse rótulo. Nas palavras de Breiman et al. (1984) pág. 6: «… the basic propose of a classification study can be either to produce an accurate classifier or to uncover the predictive structure of the problem». Este conceito vem na sequência de outros dois conceitos: aprendizagem supervisionada (supervised learning) ou não supervisionada (non supervised learning). Nesta terminologia, a calibração de um modelo de previsão ou a estimação de um 16 classificador é designado por treino ou aprendizagem (Marques, 1999). Assim, na aprendizagem supervisionada utiliza-se uma variável dependente com informação sobre as classes a que pertencem cada uma das entidades da amostra de treino. Neste conceito incluem-se técnicas da estatística multivariada como a regressão, análise discriminante e a regressão logística e técnicas novas da área de reconhecimento de padrões como as árvores de classificação e de regressão e as redes neuronais supervisionadas. Assim, o conceito de aprendizagem supervisionada conduz ao conceito de modelos de agrupamento baseados em relações de dependência, introduzido por Cardoso (2000), ou às técnicas preditivas de Wedel e Kamakura (2000). Pelo contrário, na aprendizagem não supervisionada a divisão em classes baseiase na procura de padrões ou de uma estrutura nos dados considerando em pé de igualdade todas as variáveis. Assim, enquadram-se neste conceito as técnicas de análise de clusters, os modelos de mistura e de segmentos latentes sem relações de dependência e as redes neuronais não supervisionadas. Cardoso (2000), denomina os modelos resultantes como modelos de agrupamento baseados em relações de interdependência e Wedel e Kamakura (2000) chama-lhes técnicas descritivas. Tendo em conta que a definição apresentada na bibliografia de reconhecimento de padrões é mais precisa e clara, nesta dissertação adopta-se o termo “classificação” de forma restrita para técnicas como as árvores de classificação que utilizam aprendizagem supervisionada para prever um atributo nominal e construir modelos discriminantes lógicos (ver Figura 4). No caso de se pretender prever uma variável contínua, utiliza-se a expressão “árvores de regressão” adoptada de Breiman et al. (1984). A expressão “análise de agrupamentos” é, assim, considerado independente de classificação. Aliás vários autores, na área da engenharia de sistemas e nomeadamente nos sistemas de apoio à decisão, utilizam nomenclaturas idênticas (ver por exemplo Sauter, 1997 e Turban et al., 2005). Na Figura 4 utiliza-se ainda o termo segmentação no sentido lato descrito atrás. 17 FIGURA 4 DEFINIÇÃO ESQUEMÁTICA DE “SEGMENTAÇÃO”, “CLASSIFICAÇÃO” E “ANÁLISE DE AGRUPAMENTOS”. (As técnicas são indicadas apenas a título de exemplo e a enumeração não pretende ser exaustiva) Segmentação Classificação (aprendizagem supervisionada) Métodos Paramétricos Análise Discriminante Linear; Regressão logística. Métodos não Paramétricos Árvores de Regressão e Classificação; Redes Neuronais Supervisionadas. Análise de Agrupamentos (aprendizagem não supervisionada) Métodos Paramétricos Métodos de Mistura e de Segmentos Latentes; Métodos não Paramétricos Métodos hierárquicos e não hierárquicos; Redes Neuronais não Supervisionadas. 18 19 Capítulo II ⎯⎯⎯⎯⎯⎯⎯⎯ II. APOIO À DECISÃO NA LOCALIZAÇÃO DE LOJAS DE RETALHO Este capítulo introduz o contexto do apoio à decisão na localização de lojas de pequena a média dimensão. Enumeram-se as razões pelas quais as lojas desta dimensão têm crescido tanto em número como em quota de mercado, utilizando as opiniões expressas na literatura e a opinião de especialistas. Descrevem-se os níveis de decisão envolvidos, o grau de interacção entre eles e as diferenças entre decisões de localização de lojas pequenas e dos grandes espaços comerciais. Faz-se ainda uma revisão bibliográfica do estado da arte quanto a métodos e modelos utilizados no apoio à decisão de localização de lojas de retalho e uma análise comparativa de vantagens e desvantagens. Este capítulo encontra-se publicado de forma sintética no artigo Mendes e Themido (2004). II.A. Porquê Lojas de Menor Dimensão? A importância do sector de retalho alimentar na Europa está bem estabelecida, sendo um dos subsectores do Comércio e Indústria que mais emprego gera, com um valor de vendas global de 111,5 biliões de euros em 2000 no total dos 15 países da União Europeia. Por outro lado, as lojas não especializadas como os supermercados e hipermercados são responsáveis por 85,4% do total de vendas (Eurostat, 2003). Apesar da grande heterogeneidade observada nos diferentes países da Europa (ver Figura 5) vários destes países como a Alemanha, França, Grã-Bretanha, Espanha e a Itália sofreram uma evolução semelhante. Após um crescimento muito rápido no volume de vendas relativos às muito grandes superfícies, seguiu-se uma saturação a favor das pequenas e médias que apresentam actualmente um maior dinamismo como é notado pelo relatório sobre tendências na distribuição (Eurostat, 2001). O mesmo se passa nos EUA com notícias de que a Wall-Mart Stores começou em 1998 a abrir lojas com menos de quatro mil metros quadrados, cerca de metade da área anteriormente utilizada, com o 20 objectivo de competir com lojas de conveniência e supermercados tradicionais.6 Também autores como Charles Waldman, docente do INSED de Fontainebleau em França7, nos EUA tal como se verifica na Europa, 61% dos consumidores priveligia a conveniência face ao preço. Por outro lado, o tempo que os clientes estão dentro dos hipermercados diminuiu em França de cerca de 90 para 45 minutos, tendo igualmente diminuido o número médio de viagens ao hiper por consumidor de 39 para 37,7 vezes por ano. Segundo este autor, estes números, e o facto dos hipermercados não responderem tão adequadamente ao conceito de conveniência como os supermercados, explica o menor aumento da quota dos hipers relativamente aos supers, observado na Figura 5. FIGURA 5 VOLUME DE VENDAS POR DIMENSÃO DE LOJA EM ALGUNS PAÍSES EUROPEUS PARA 1998 E 2002. (Fonte: Anuário da Distribuição Portuguesa 2000, APED e Atlas da Distribuição 2004, ambos dados AC Nielsen. Número de lojas por país entre parêntesis. Valores da quota de mercado nas barras pela mesma ordem da legenda.) 17% 19% 27% 15% 46% 47% 48% 40% 24% 25% 39% 35% 15% 18% 29% 39% 18% 20% 12% 11% Espanha Alemanha Portugal Áustria 20% 0% Holanda 2002 (4.409) 2002 (56.913) 1998 (74.048) 2002 (102.204) 19% Hipermercados 14% 1998 (149.292) 60% 1998 (4.808) 34% 33% 80% 47% 17% 17% 18% Itália 54% 2002 (4.663) 18% 11% 19% 20% 25% 40% 20% 29% 26% 1998 (6.154) 21% 36% 41% 13% 26% 2002 (6.249) Supers >'s 19% 10% 29% 1998 (7.337) Supers <'s 10% 100% 11% 9% 11% 2002 (23.742) Livre Serviços 24% 13% 18% 1998 (29.179) 19% 17% 2002 (60.000) 23% 18% 21% 1998 (70.400) Tradicionais 11% 6% Noruega Os processos de internacionalização e concentração têm esbatido as diferenças entre os países europeus. Esses processos são a parte mais visível de um sector de distribuição alimentar em progressiva mas profunda reestruturação em toda a Europa (Alexander e Myers, 2000; Rousseau, 1997). Autores como Birkin et al. (2002), Wrigley e Lowe (2002), Dawson (2000) e mesmo a agência de informação estatística da Wall Street Journal, 1998, citado pelo Jornal Público de 28/2/1998. Afirmações proferidas na conferência “Distribuição: Espaço de inovação” parte integrante da Alimentária e citadas pela revista “News Letter“ (Maio \ Junho, 2003) APED: Lisboa. 6 7 21 Comunidade Europeia (Eurostat, 2001) enumeram um conjunto de motivos para justificar estas modificações. Ainda que nenhum destes autores se refira em particular à situação em Portugal, na verdade, muitos dos motivos invocados são facilmente reconhecíveis. Os motivos que se consideram especialmente relevantes para o caso português são: • Aumento da mobilidade dos consumidores: nos últimos trinta anos os padrões de deslocação têm-se alterado de forma dramática, com os indivíduos a despender cada vez mais tempo em deslocações e a adquirir cada vez mais veículos. Apesar desta mobilidade a preferência por lojas mais próximas justifica-se numa perspectiva de qualidade e rapidez de serviço e nas compras ocasionais. De qualquer modo, mesmo os Supermercados de Proximidade devem escolher localizações com bons acessos e estacionamento e colocar-se em locais de passagem tendo em conta o aumento das viagens com fins múltiplos (Guy, 1998). • Aumento da separação entre classes sociais: em toda a Europa e também em Portugal tem-se verificado a redução do sector primário e principalmente do secundário. O sector terciário disponibiliza frequentemente trabalho especializado, bem remunerado, mas também trabalho muito mal remunerado, pelo que as classes médias europeias têm diminuído em número e importância (Birkin et al., 2002 e Pinch, 1993). Este facto, ainda que tenha expressões distintas nos diferentes países Europeus, viabiliza o surgimento de novos formatos de retalho orientados para as diferentes classes. Como exemplos podem referir-se Supermercados Hard Discount para a classe de menores rendimentos e Supermercados de Proximidade para as classes mais elevadas. • Envelhecimento da população: um outro factor de mudança no retalho alimentar que sugere formatos de proximidade é a forte diminuição das classes de idades mais jovens, abaixo dos 25 anos, e o aumento da população com idades acima de 50 anos e em especial acima dos 75 anos, de acordo com o aumento da esperança de vida. Estas alterações demográficas são uniformes em toda a Europa, com a possível excepção da Irlanda, com implicações tanto no tipo de produtos comprados como na forma como se compra (Eurostat, 2002 e Goodwin e McElwee, 1999). De um modo geral, com o aumento da idade assiste-se a um reforço das compras em lojas menores e à diminuição da frequência de hipermercados e dos centros comerciais, talvez devido à personalização do atendimento (Teixeira et al., 1999). • Diminuição da dimensão dos agregados familiares: em toda a Europa o número de elementos do agregado familiar médio está a diminuir rapidamente, novamente com a excepção da Irlanda. Em países como Portugal e Grécia, onde o agregado familiar médio tinha maior dimensão, as reduções são mais acentuadas. Esta redução é acompanhada com um aumento igualmente rápido do número de alojamentos de residência habitual e de agregados com apenas um indivíduo. Verifica-se igualmente, por toda a Europa, um aumento da proporção do género feminino que trabalha, o qual é tradicionalmente responsável por grande parte das compras no retalho alimentar. Estas alterações traduzem-se num aumento das vendas nas secções não alimentares como a decoração, mas também na conveniência de lojas próximas com atendimentos rápidos e no nivelamento entre os géneros nas compras alimentares. • Migrações internas: um pouco por toda a Europa verificam-se igualmente alterações significativas relativamente a regiões em rápida expansão demográfica e outras em declínio. Regiões tradicionalmente ligadas ao sector primário e secundário estão em declínio, favorecendo as regiões que conseguem criar mais emprego no sector dos serviços. A viabilização de lojas de retalho alimentar a longo prazo depende, em grande parte, da escolha da região. Estas alterações justificam 22 igualmente o aumento de investimento nas áreas metropolitanas das grandes cidades, face ao aumento crescente da concentração urbana. • Restrições políticas: em muitos países europeus impuseram-se ao sector da distribuição restrições à abertura de novas lojas de grande dimensão e em alguns casos mesmo a lojas de média dimensão, além de outras restrições por exemplo relacionadas com horários de abertura (Teixeira et al., 1999), que tiveram como consequência a preferência pela abertura de lojas de menor dimensão e tentativas de internacionalização na procura de novos mercados (Guy, 1998). • Saturação do mercado: este aspecto é comum a todos os países Europeus, em especial no retalho alimentar, com a excepção dos países de leste recém chegados ao livre comércio internacional. Em resposta à menor progressão das vendas, as cadeias de distribuição têm procurado novos mercados e novos formatos que correspondem muitas vezes a lojas de menor dimensão (Poole et al., 2002). • Novos canais de distribuição e novas formas de retalho: neste âmbito insere-se o comércio electrónico mas também as formas de retalho por telefone ou marketing directo. Assiste-se a um crescimento destas formas de retalho que, no Reino Unido, é um dos factores apontado para o encerramento de inúmeras agências bancárias. No caso particular da distribuição alimentar, o crescimento tende a ser lento e a penetração reduzida (Figueiredo et al., 1999). Ainda assim, empresas como a Tesco Direct no Reino Unido, Continente On-line e Pingo Doce On-line em Portugal surgem como líderes nestas novas formas de retalho. Apesar de não estarem a ganhar dinheiro com estes novos canais de venda, tendo algumas encerrado o serviço, outras mantêm-no numa estratégia dupla: de usar a internet para atrair clientes às lojas e de estarem em boa posição para liderar quando o mercado electrónico começar a crescer (Birkin et al., 2002, Wrigley e Lowe, 2002). Todos estes factores têm diversas consequências no retalho alimentar Europeu. Uma das mais evidentes é a abertura de novos formatos, muitas vezes de menores dimensões obedecendo ao martini effect i.e., traduzir o aumento da exigência por parte dos consumidores na oferta dos produtos exigidos, e apenas estes, em qualquer lugar e em qualquer momento para conveniência do consumidor (Birkin et al., 2002). Por este mesmo princípio se justifica a denominação de Supermercados de Proximidade tradução adoptada para as expressões: neighbourhood retail shops, (Newman e Cullen, 2002) ou town centre shops (Eurostat, 2001). Outra consequência tem sido o rápido aumento de lojas Discount e Hard Discount. Esta evolução tem aumentado as preocupações com a dieta oferecida por este tipo de lojas. Na verdade, estas lojas oferecem um gama de produtos muito reduzida com qualidade alimentar preocupante para famílias que se abasteçam apenas, ou principalmente, neste tipo de lojas (Clarke et al., 2004; Whelan et al., 2002; Morland et al., 2002). Também preocupações com a desertificação comercial no centro das grandes cidades têm conduzido a legislação que restringe a abertura de grandes hipermercados (Wrigley e Lowe, 2002). Este tipo de preocupações, ainda que os factos possam ser contestados (ver Cummins e Macintyre, 2002), podem conduzir a legislação que beneficie 23 os supermercados dirigidos a classes de mais elevados rendimentos. Em Portugal, apesar da fase de indefinição que atravessamos no domínio das Unidades Comerciais de Dimensão Relevante (UCDR), estas preocupações ainda não são evidentes. O futuro das lojas de pequena e média dimensão parece promissor. Birkin et al. (2002) considera mesmo que devemos esperar um importante crescimento (ou resurgimento) deste tipo de lojas na Europa, principalmente por meio de franchising. Segundo Dawson (2000) este crescimento de lojas de menores dimensões insere-se numa estratégia multi-formato utilizada pelos maiores retalhistas Europeus e já muito comum nos Estados Unidos da América. No Reino Unido todos estes motivos levaram já a Tesco a desenvolver novos formatos de proximidade como o Tesco Metro (Seth e Randall, 1999). II.B. Níveis de Decisão na Localização de Lojas de Retalho A importância que os consumidores atribuem à localização de lojas de retalho está, desde sempre, bem estabelecida. Por exemplo, Arnold et al. (1983) conduziu um estudo que decorreu durante sete anos em seis mercados distintos na Europa e nos Estados Unidos, tendo concluído que os factores mais valorizados pelos clientes são a localização e os preços baixos. Decorrente de resultados como este não é de estranhar o elevado número de publicações tanto científicas como profissionais sobre modelos de localização de todo o tipo. Apesar de a maioria destas publicações ser vaga e de existir algum secretismo e dificuldade em obter dados e informações precisas, já que a localização é considerada estratégica no retalho, existem alguns casos de estudo bem documentados. Um bom exemplo de um projecto de grande importância efectuado com utilização de modelos e métodos quantitativos é apresentado por Penny e Broom (1988), Moore e Attewell (1991), e mais recentemente em Cummings (1999) e Smith (2004), e refere-se ao grupo Tesco no Reino Unido. A necessidade dum tão caro e demorado estudo justifica-se, nas palavras de Moore e Attewell (1991), pela necessidade fundamental de melhorar a qualidade das decisões relacionadas com a aquisição de novas localizações e, assim, diminuir o risco associado a investimentos avultados. Este estudo prolongou-se por mais de 10 anos, envolvendo mais de duas dezenas de investigadores e um avançado centro de cálculo. Propondo-se obter um modelo que não ultrapassasse um erro relativo médio de 10% das previsões, iniciaram a modelação com modelos causais de regressão, evoluindo posteriormente para os modelos 24 gravitacionais e acabando por montar um complexo sistema de análise de marketing e controlo logístico. O plano da Tesco que visava a abertura de 12 novos estabelecimentos por ano, a adicionar aos 360 existentes na altura, permitiu constatar pelos excelentes resultados obtidos, o eficaz desempenho dos métodos inicialmente utilizados por Penny e Broom (1988) e posteriormente desenvolvidos dentro da empresa. O objectivo sempre foi o de compreender todos os aspectos envolvidos na localização e desempenho das lojas e das localizações potenciais tal como os aspectos relacionados com o comportamento do consumidor. Segundo Cummings (1999), o valor das decisões de localização está muito bem estabelecido na Tesco e continua a ser considerado uma importante vantagem competitiva. Hoje a Tesco PLC tem 968 lojas das quais 161 são do seu formato de proximidade (insígnia Tesco Metro) totalizando 23 milhões de metros quadrados no Reino Unido (e 45 milhões no mundo), surgindo como o maior retalhista do Reino Unido com 28% do mercado alimentar8. Na tentativa de esquematizar e hierarquizar as decisões envolvendo localizações de lojas pertencentes a cadeias de retalho considera-se uma metodologia de decisão faseada, ainda que a interacção entre as diferentes fases seja possível, em especial entre o segundo e terceiro níveis (Figura 6). Numa primeira fase, baseada em critérios estratégicos de política de expansão da cadeia e critérios tácticos a nível da logística, é seleccionada uma área ou região onde se pretende a instalação de novas lojas, o número de lojas a instalar e o prazo de implementação da decisão. A este conjunto de problemas muito interligados chamou Lilien et al. (1992) o problema macro, em contraste com os problemas de nível 2, a que chamou o problema micro. Após seleccionadas algumas localizações alternativas, frequentemente com o auxílio de agências imobiliárias, pretende-se numa segunda fase, efectuar a escolha fina da localização das lojas por utilização de modelos de previsão de vendas. Este tipo de decisões é conhecido na literatura como site selection ou avaliação de localizações potenciais9 (ver por exemplo: Newman e Cullen, 2002 e Birkin et al., 2002). A quantidade de modelos publicados, tanto de índole académico como implementados em pacotes informáticos, resumidos na secção II.C, comprova a necessidade sentida pelos Informação retirada de www.thisismoney.com/20040923/nm82782.html e do site da Tesco PLC 84.40.10.21/presentResults/, em 18/11/2004. No total de lojas do Reino Unido excluem-se 910 lojas da insígnia T&S recentemente adquirida. 9 Tradução sugerida pelo autor. 8 25 investigadores e decisores no uso racional e formal de informação quantitativa para apoiar este tipo de decisões complexas. FIGURA 6 NÍVEIS DE DECISÃO ENVOLVIDOS NA ESTRATÉGIA DE EXPANSÃO DE UMA CADEIA DE LOJAS. (Fonte: adaptado de Lilien et al., 1992) PROBLEMAS nível 1: macro Quantas Lojas Construir, em que Período de Tempo e em que Regiões Alvo? MODELOS Modelos Integrados de Investimento e Expansão da Cadeia DECISÕES Plano de Expansão da Cadeia a Longo Prazo nível 2: micro Das Localizações Potenciais numa Região Alvo, Quais Escolher? Modelos de Previsão de Vendas para cada Localização Potencial Programa de Aquisição de Novas Localizações Modelos de Quotas de Vendas por Secção e de Segmentação de Clientes Dimensão da Loja, Layout e Serviços a Implementar nível 3: individual Quais as Características da Loja a Implementar para o Local Escolhido? Hernández et al. (1998) integram neste nível um conjunto de outras decisões a que chamam o location mix. Assim, além de decisões de abertura de novas lojas ou aumento de espaço comercial, incluem-se decisões de outros tipos, nomeadamente: deslocação de lojas i.e. encerramento para abertura noutro local próximo, encerramento da totalidade da loja ou apenas parcial, de re-estruturação ou mudanças profundas de imagem das lojas, entre outras. O objectivo a atingir com estas decisões é sempre a maximização dos lucros da totalidade da cadeia. Ainda pode ser considerado um terceiro nível de decisão consistindo na definição das características da loja a construir e nos serviços a oferecer. Este terceiro nível de decisão é o mais ligado ao conceito de qualidade de serviço e satisfação do consumidor como referido por Sulek et al. (1995). Como observado por estes autores, a qualidade do serviço prestado tem um efeito directo e um efeito indirecto nas vendas. Ambos podem ser medidos com medidas de desempenho objectivas. Estudos recentes confirmam ainda a existência de interacções entre a vizinhança da localização e a atractividade de 26 diferentes categorias de produtos, aconselhando à modelação ao nível individual da loja (Verhetsel, 2005). Ainda que este nível esteja intimamente ligado à gestão da loja, que é da responsabilidade do gestor local, aspectos como o desenho físico e layout da loja, existência de estacionamento, implementação de serviços como entregas ao domicilio e encomendas à distância e orientação da gama e serviços para determinados segmentos de mercado, podem ser modelados e têm um significativo impacto nas vendas. Tal é confirmado em trabalhos como o realizado por Heald (1972). Assim, segundo estudos realizados nos EUA na década de 70, um bom estacionamento pode acrescentar até 20% nas vendas, a possibilidade de pagamento com cartão de crédito (ou existência de outras formas de crédito) combinado com o serviço de entrega ao domicílio, pode acrescentar até 30%. Inovações como a identificação de itens por rádio frequência podem igualmente ser adoptados em alguns tipos de lojas onde a qualidade do serviço é mais valorizada (Karkkainen, 2003). Esta hierarquização de decisões é suportada por estudos baseados em inquéritos, como o apresentado em Birrell e Worrall (1995). Estes autores asseguram que o decisor separa naturalmente decisões de nível 1, i.e. relacionadas com a selecção da região geográfica, de decisões de nível 2, relacionadas com a escolha fina do local de implementação baseada na comparação de alternativas. Tem-se ainda que distinguir as decisões de localização em função da dimensão da loja. O problema da localização coloca-se de modo bem distinto para grandes e pequenas superfícies. Os Hipermercados localizam-se habitualmente junto aos grandes centros e das mais importantes vias de acesso, enquanto as pequenas e médias superfícies seguem uma estratégia de proximidade localizando-se no interior das localidades menores e nos subúrbios ou mesmo no centro das grandes cidades. Assim, evitam deslocações aos consumidores e permitem serviços de melhor qualidade, conduzindo a um menor cansaço por parte destes. Tal é confirmado por trabalhos como o apresentado recentemente por Verhetsel (2005) sobre a influência das características da vizinhança próxima em supermercados e hipermercados, confirmando igualmente o comportamento diversificado destes tipos de lojas perante diferentes categorias de produtos. Existem igualmente diferenças importantes ao nível da gama de produtos oferecidos ao cliente e na distribuição das vendas por secção. Segundo um estudo do INE (Reis e Miranda, 1998) enquanto nas lojas com menos de 2.000 m2 apresentam cerca de 70% das vendas em produtos do grupo alimentar, bebidas e tabaco (78% para 27 lojas com menos de 1.000 m2), nas lojas com mais de 8.000 m2 essa percentagem é de apenas 53%. Deste modo, o tipo de modelos utilizados para modelar vendas deverão igualmente ser bem distintos. Enquanto que os modelos gravitacionais permitem a obtenção de estimativas boas para as grandes superfícies de retalho ou centros comerciais, para pequenas superfícies os cálculos exigidos pelos modelos gravitacionais tornam-se demasiado complexos, podendo as simplificações introduzidas conduzir a modelos ineficientes, obtendo-se estimativas semelhantes para todas as localizações potenciais. Na secção seguinte descrevem-se modelos de previsão de vendas e comparação de localizações potenciais, correspondendo ao nível micro da Figura 6 (página 25). No entanto, alguns dos modelos podem ser utilizados no nível macro mais estratégico e extendidos ao nível das características da loja a implementar e dos serviços oferecidos, nível individual. II.C. Modelos de Apoio à Decisão: O estado da arte No final dos anos vinte, foram propostos os primeiros modelos clássicos de localização de indústrias. Mais tarde surgiu a Teoria da Localização Central construída com base nos modelos anteriores. De acordo com esta teoria, as firmas deveriam agrupar-se em complexos industriais e de negócios. A partir dos anos trinta, a Teoria de Localização passou a dar mais relevância aos aspectos quantitativos e às características do negócio (Birkin et al., 2002). Ainda que desde o início os retalhistas se tenham apercebido da importância de uma boa localização para as suas lojas, a utilização de modelos quantitativos neste domínio é muito mais recente. Durante muitos anos os retalhistas utilizaram técnicas empíricas baseadas na experiência pessoal ou técnicas não quantitativas como as listas de factores desejáveis ou indesejáveis numa boa localização. Com o crescimento das cadeias de retalho, em especial daquelas com lojas menores, a intensificação da concorrência, a necessidade de satisfazer consumidores cada vez mais exigentes e a tendência de utilização crescente de aplicações SIG, surgiram modelos e técnicas quantitativas algumas de grande complexidade e sofisticação (Hernández e Bennison, 2000). A maior parte das técnicas a partir de então desenvolvidas são utilizadas para efectuar previsões de vendas em novas localizações ou previsões de captação de quota de mercado e impacto nas lojas existentes. 28 Como refere Lilien et al. (1992), o desenvolvimento de modelos de previsão de vendas é central para o sucesso dos métodos de site selection. Tal pode ser confirmado em estudos recentes sobre retenção e lealdade (East et al., 2000) e no crescimento do planeamento geográfico do retalho (Birkin et al., 2002). Os métodos empíricos sofrem de uma excessiva subjectividade de análise e uma incapacidade de considerar, em simultâneo, o impacto de um grande número de variáveis. Pelo contrário, os métodos quantitativos desenvolvidos a partir do início do século passado, permitem definir relações entre as vendas e as variáveis explicativas, como as características da localização, a demografia e as características da concorrência. Quantificando a importância de cada uma destas variáveis, o nível de subjectividade envolvido na previsão de vendas é diminuído, ainda que não eliminado. Hoje, muitos métodos utilizados na construção de modelos de localização de espaços comerciais e previsão de vendas são referenciados em múltiplas publicações. No entanto, estes estudos revestem-se de um carácter generalista que, desprezando factores que caracterizam as cadeias, não conseguem reproduzir a especificidade destas. Assim, não são imediatamente aplicáveis a novas lojas pertencentes a cadeias de retalho justificando o desenvolvimento de novos modelos e \ ou a adaptação dos existentes (Lilien et al., 1992). II.C.1. Listas, Previsão por Analogia e Decisão Multicritério Conceptualmente, os métodos mais simples de selecção de localizações envolvem regras empíricas baseadas na experiência dos retalhistas ou heurísticas simples. Os retalhistas ou analistas usam uma combinação de experiência pessoal, observação empírica e tentativa e erro para isolar um conjunto de factores considerados chave no desempenho das lojas e da localização. Um exemplo é o método da lista marcada (checklist) descrito em Lilien et al. (1992), a qual incluí 8 principais factores de localização, sendo cada um deles dividido em vários subfactores. Assim, o utilizador verifica separadamente cada factor para cada localização potencial, concluindo posteriormente sobre uma ordenação baseada nas forças e fraquezas das localizações potenciais. Este tipo de método é pouco oneroso e permite obter soluções rápidas para a decisão de localização. No entanto, são normalmente simplistas e demasiado subjectivos. Estes métodos continuam a ser muito utilizados quando as cadeias são demasiado pequenas ou quando o investimento não justifica o desenvolvimento de modelos mais complexos (Hernández e Bennison, 2000). 29 Os métodos de previsão por analogia são uma evolução natural dos métodos anteriores e uma tentativa de evitar as suas principais dificuldades, como a falta de quantificação e de objectividade. Estes métodos desenvolvidos por Applebaum (1966), na sua forma mais simples, não requerem grandes volumes de dados, são razoavelmente objectivos mas permitem a inclusão da sensibilidade dos analistas na decisão final. Este tipo de métodos continua a ser o mais utilizado por empresas onde a dimensão da rede de lojas ainda não justifica o desenvolvimento de modelos mais avançados. A definição de loja análoga nem sempre é clara mas, na prática, traduz-se pela utilização de regras empíricas utilizadas no apuramento de um conjunto de lojas, com uma área comercial até 20% maior ou menor do que a da localização potencial. Após a selecção de um conjunto de lojas análogas, o método consiste na avaliação dessas lojas segundo um conjunto de critérios. Normalmente utilizam-se escalas ordinais, nas quais o analista (ou grupo de analistas) avalia cada loja em cada critério e também a localização para a qual se pretende fazer previsão. As lojas existentes são posteriormente ordenadas pelas vendas anuais do último ano disponível e a nova localização é colocada na lista ordenada por comparação da avaliação obtida nos diferentes critérios. Assim, é possível determinar um intervalo esperado para as vendas da nova loja. O intervalo é tanto mais estreito quanto mais próximos forem os valores de vendas das lojas que estão imediatamente antes e depois da nova loja na ordem encontrada. As técnicas de análise multicritério podem igualmente ser interpretadas como uma evolução dos modelos de previsão por analogia, já que usam igualmente um conjunto de critérios para avaliarem uma localização. No entanto, tanto no processo de escolha dos critérios como no processo de construção de uma medida de desempenho que permita comparar as diferentes localizações, utilizam-se técnicas quantitativas que permitem diminuir a subjectividade observada nos modelos de analogia. Um exemplo é apresentado por Birrell e Worrall (1995) onde se utilizam entrevistas aos decisores para identificar os factores mais valorizados em decisões de localização. Esses factores são usados na pesquisa de localizações potenciais extraídas de bases de dados de agência imobiliárias. Em seguida, solicitam-se aos decisores comparações entre várias localizações potenciais usadas para a construção de uma função de desempenho ou utilidade. Por fim, efectuam-se trade offs entre os diferentes critérios, por visualização dos resultados em termos de utilidade de cada localização potencial, para seleccionar a localização que corresponde ao melhor compromisso entre os factores considerados. 30 Técnicas semelhantes, usando um conjunto de critérios quantitativos e pesos, podem ser utilizadas para ordenar um conjunto de localizações potenciais. Um exemplo é referido em Meyer (1988) que descreve uma técnica, na altura, utilizada em várias companhias Americanas. Dada uma localização ideal, é definida uma área de influência a qual é analisada segundo diversos pontos de vista principalmente usando variáveis demográficas e obtendo-se um conjunto de critérios de avaliação. De forma automática, esses critérios são avaliados para localizações potenciais disponíveis, produzindo-se uma ordenação das melhores localizações. Outra aplicação utiliza técnicas de Processo Hierárquico Analítico (AHP – Analytical Hierarchy Process)10 para comparação de localizações por análise de um conjunto de critérios incluindo as preferências do decisor. Este é o caso do trabalho apresentado por Yang e Lee (1997), onde são incluídos critérios medidos em escalas quantitativas e qualitativas, colocando a tónica na inclusão do conhecimento e experiência dos gestores. Trabalhos recentes exploram a combinação de conhecimento do domínio e intuição do utilizador com aproximações normativas para desenvolver Sistemas de Apoio à Decisão (SAD) baseados em métodos de analogia. Este é o caso do trabalho apresentado por Clarke et al. (2003b), onde se descreve uma metodologia para encontrar lojas análogas a localizações potenciais usando um sistema com modelos quantitativos e várias formas de visualização e comparação, incluíndo mapas cognitivos. O objectivo é isolar as diferenças consideradas mais relevantes pelo utilizador do sistema entre uma nova localização e uma loja existente, o mais análoga possível, baseando a comparação em múltiplas dimensões. Uma outra evolução de sistemas baseados em conhecimento do utilizador ou de especialistas são os Sistemas Periciais (Expert Systems) que Curry e Moutinho (1991) advogam poder ser muito úteis em decisões de avaliação de localizações potenciais. Note-se que este método inclui as características próprias da cadeia considerada, ao fazer comparações apenas com outras lojas da mesma cadeia, mas tem dificuldade em lidar com zonas geográficas muito distintas, nomeadamente a nível da concorrência e de factores demográficos. Deve-se salientar ainda que a precisão deste método diminui quando na zona de influência da loja existe concorrência acentuada, uma vez que tem dificuldades em incluir as características desta. 10 Tradução retirada do DicIO, www.apdio.pt/DicIO/, em 17/8/2004. 31 As principais críticas a estas metodologias prendem-se com a utilização de um grupo reduzido de critérios como determinantes das vendas de uma loja e avaliações muitas vezes subjectivas. Assim, podem ficar esquecidos aspectos relevantes na previsão de vendas, o que pode ser evitado quando existem ou é possível recolher mais dados e quando as cadeias atingem dimensões que permitem um tratamento estatístico mais rigoroso. Assim, não é de estranhar que tenham surgido alguns modelos de previsão por analogia mais recentes, associados a técnicas de análise de dados. São exemplos os modelos calibrados por regressão linear entre lojas análogas referidos no inquérito efectuado por Hernández e Bennison (2000), entre os responsáveis pela localização dos grupos de distribuição no Reino Unido, tendo-se concluído que eram dos mais utilizados. Outro exemplo é a utilização de técnicas de análise de agrupamentos e métodos discriminantes na definição de grupos análogos, como é sugerido em Schaffer e Green (1998). Por outro lado, os modelos de decisão multicritério permitem analisar um reduzido número de localizações em muito pormenor, permitindo incluir comportamentos do(s) decisor(es) sobre a forma de funções valor e um muito variado conjunto de critérios, estando muitas vezes implementados em pacotes informáticos interactivos e apelativos para o utilizador (Birrell e Worrall, 1995). No entanto, são pouco adequados à obtenção de previsões de vendas e utilizam funções agregadoras conducentes a medidas de desempenho dificilmente compreensíveis pelo decisor, por oposição às vendas que funcionam igualmente como uma função agregadora mas profusamente utilizada e reconhecida pelos gestores de lojas de retalho. II.C.2. Modelos de Regressão Linear Os modelos de regressão linear são dos modelos mais utilizados na previsão de vendas de novas localizações sendo utilizados desde os anos sessenta (Hernández e Bennison, 2000, Moutinho e Evans, 1992 Morphet, 1991). São recomendados em mercados altamente segmentados como o pronto-a-vestir, restauração, livrarias e joalharia, mas são muito usados em todas as áreas do marketing (Lilien et al., 1992). Para construir e estimar um modelo de regressão linear utiliza-se um processo semelhante ao dos modelos de analogia, com selecção de lojas análogas e cálculo de variáveis para essas lojas incluindo a nova localização. A diferença é que estes dados são utilizados para estimar um modelo de regressão linear usando as vendas anuais do último ano como variável dependente. Deste modo é possível prever vendas para novas 32 localizações, simplesmente substituindo os valores das variáveis independentes calculadas para as localizações em comparação. Ainda que o procedimento anterior seja quase sempre o utilizado, os modelos de regressão resultantes são muitos e variados. A principal diferença entre eles refere-se à enorme variedade de variáveis explicativas das vendas. A maioria dos modelos inclui variáveis demográficas, relacionadas com acessibilidades e aspectos urbanísticos e variáveis do marketing mix. Essas variáveis são, muitas vezes, simples avaliações subjectivas, contagens, rácios ou índices como o índice de concorrência, vendas per capita ou classes de rendimentos. Sublinhe-se que apenas as variáveis explicativas significativamente correlacionadas com as vendas são incluídas na equação. Uma grande vantagem destes modelos é a sua capacidade explicativa já que fazem comparações explícitas do desempenho das lojas com os principais factores determinantes desse desempenho. Também, a importante redução de subjectividade e a possibilidade de obter intervalos de confiança para as estimativas, constituem as grandes vantagens destes modelos causais relativamente aos modelos de previsão por analogia menos fundamentados estatisticamente (Mendes e Themido, 2000). Um exemplo muito referido na literatura é o SLAM – Store Location Assessment Model implementado em vários pacotes de software. Neste modelo utilizam-se formas funcionais aditivas e multiplicativas e variáveis demográficas e concorrenciais. As variáveis demográficas e de concorrência podem ser definidas em relação a uma ou mais zonas de influência da nova loja, e podem ser ajustados modelos para cada zona ou subzona (Simkin, 1989). Podem citar-se muitas outras publicações utilizando modelos causais na previsão de vendas em diferentes localizações como medida de desempenho dessas localizações. Um exemplo para o mercado nacional de combustíveis é apresentado por Themido, Quintino e Leitão (Themido et al., 1998). Os modelos de regressão descritos permitem, com utilização de sete equações aditivas ou multiplicativas, prever vendas de uma forma genérica para todo o tipo de pontos de venda ou de forma segmentada para seis segmentos distintos. As previsões efectuadas são mais exactas do que as efectuadas pelos modelos anteriormente utilizados, pelo que os novos modelos foram bem sucedidos e são comummente usados em decisões de investimento e localização. Estes autores introduzem ainda o conceito de variáveis âncora como critério de selecção entre modelos. Assim, para qualidade de ajustamento semelhante, o modelo com mais estabilidade nos parâmetros das variáveis âncora foi seleccionado, com o objectivo de obter mais 33 consistência com as expectativas dos especialistas e maior interpretabilidade dos resultados. Vários autores (ver por exemplo: Rogers, 1992 e Simkin, 1989) defendem o uso de um número tanto maior quanto possível de variáveis explicativas, de forma a minimizar o risco de se excluirem aspectos importantes nas fases iniciais da análise. No entanto, o uso de um grande número de variáveis potencialmente explicativas, coloca problemas na selecção das variáveis realmente importantes, já que as heurísticas tradicionais progressivas (forward), regressivas (backward) e passo a passo (stepwise) são heuristicas pouco eficientes em condições de “praga da dimensionalidade” (curse of dimensionality)11, i.e. quando o número de variáveis é muito superior ao número de observações. Assim, estes autores recomendam a utilização de métodos de selecção de variáveis (feature selection) tanto por utilização de algoritmos automáticos, como de conhecimento de domínio por parte de especialistas. Outros autores recomendam técnicas de redução de dimensionalidade. Por exemplo, Boufounou (1995) utiliza matrizes de correlações entre as potenciais variáveis explicativas, para seleccionar grupos de variáveis com elevadas correlações, e aplica técnicas de análise de componentes principais para extrair um reduzido número de componentes explicativas da maior parte da variância dos dados iniciais. Apesar da abundante literatura em feature selection and extraction (ver por exemplo o livro de Webb, 2002, para uma revisão muito completa), a selecção de variáveis e a redução de dimensionalidade continua a ser um problema em aberto. Assim, não é de admirar que as dificuldades em lidar com grandes volumes de variáveis potencialmente explicativas continue a surgir como uma das principais críticas a estes métodos. Outras críticas prendem-se com a necessidade de se utilizarem apenas escalas quantitativas ou dicotómicas, de avaliarem as lojas de forma individualizada sem considerem a cadeia de forma holística e de não procurarem localizações óptimas (Boufounou, 1995). Autores como Newsome e Zietz (1992), Wedel e Kamakura (2000) consideram ainda a necessidade de segmentação em modelos de regressão sempre que as variâncias entre os segmentos são significativamente distintas, o que pode ser muito relevante quando as lojas consideradas são pouco homogéneas. Esta expressão é utilizada na literatura de programação dinâmica e na literatura de reconhecimento de padrões significando um elevando número de variáveis para um número limitado de observações, limitando a possibilidade de calibração e validação de modelos complexos. 11 34 II.C.3. Modelos Discriminantes e Árvores de Classificação Aplicações de análise discriminante para modelação de vendas de lojas e localizações surgem essencialmente no suporte a decisões de curto a médio prazo, em particular na avaliação de locais e lojas individuais, com pouca utilização em decisões estratégicas apoiadas por modelos mais facilmente generalizáveis (Themido et al., 1998; Sands e Moore, 1981). Tipicamente a técnica é utilizada para filtrar localizações pouco interessantes ou para induzir regras operacionais capazes de diminuir o risco da decisão de localização (Lilien et al., 1992). Os modelos discriminantes lineares paramétricos possibilitam a aplicação de testes de significância aos resultados obtidos, acarretando a verificação de alguns pressupostos. Dado um conjunto, normalmente elevado de variáveis, identificam-se aquelas que melhor explicam as diferenças entre grupos de lojas análogas previamente definidos em função do desempenho. Uma vez identificadas as funções discriminantes, as novas localizações são classificadas segundo a sua pontuação (score) num dos grupos análogos. Pode usar-se a média desse grupo ou um intervalo de vendas anuais baseado na variância do grupo como previsão para a nova localização (Sands e Moore, 1981), mas podem igualmente ser efectuadas regressões dentro de cada grupo para a previsão de vendas. Morgan e Sonquist (1963) e Assael (1970) utilizam técnicas não paramétricas de aprendizagem supervisionada como as árvores de classificação e apresentam as primeiras aplicações destas técnicas, especialmente adequadas para grandes volumes de observações e variáveis explicativas em várias escalas de medida. O método utilizado por estes autores é conhecido por AID – Automatic Iteration Detector e baseia-se na análise de variância para segmentar as observações em grupos distintos para os quais podem ser desenvolvidos modelos causais. Estes autores consideram ser esta uma forma de implementar a combinação da segmentação com modelos lineares, considerada necessária em várias situações. É, portanto, um método adequado quando a regressão inicial que considera a totalidade das observações apresenta fraca capacidade explicativa (Heald, 1972). Algoritmos recentes de árvores de classificação e discriminantes incluem uma evolução do AID, o CHAID – CHi-square Automatic Interaction Detection (Kass, 1980; Biggs e Suen, 1991), CART – Classification And Regression Trees (Breiman et al., 1984) e C4.5 (Quinlan, 1993). O método utilizado por estes algoritmos consiste na divisão recursiva do conjunto de observações em subgrupos filhos construindo uma árvore da 35 raiz para as folhas. Em cada passo, o algoritmo determina uma regra de classificação seleccionando uma variável e um ponto de corte nos valores dessa variável, que maximize uma medida de entropia dos nós filhos relativamente ao pai (C4.5), minimize uma medida de impureza (CART) ou que maximize a distinção estatística dos filhos relativamente à variável dependente (CHAID). O objectivo é sempre obter divisões dos dados que permitam definir grupos tão homogéneos quanto possível, relativamente à variável dependente (target variable)12. Este processo é repetido até que uma regra de paragem seja atingida, a qual pode ser a incapacidade de encontrar novas variáveis que permitam divisões dos dados estatisticamente significativas ou simplesmente um nível máximo de dimensão da árvore. Alguns algoritmos, como o CART ou C4.5, permitem ainda a poda da árvore, ao efectuarem uma revisão da árvore obtida e ao removerem ramos considerados pouco eficientes na previsão da variável dependente. A qualidade dos resultados está associada a factores como o número de observações, número de variáveis disponíveis, graus de liberdade e às técnicas de amostragem utilizadas. Deste modo, uma das principais desvantagens destes métodos prende-se com o número elevado de observações e variáveis explicativas necessário. Outra das críticas está relacionada com o facto dos algoritmos não garantirem a optimalidade das soluções, já que são algoritmos heurísticos. No entanto, este tipo de algoritmos permite obter grande número de árvores que devem ser posteriormente comparadas e analisadas. Outra crítica prende-se com o facto de os valores de previsões de vendas se limitarem a um conjunto finito e normalmente restrito de valores possíveis relacionados com o número de grupos identificados. Assim, localizações semelhantes teriam exactamente o mesmo valor de previsão de vendas se forem classificadas no mesmo grupo. Esta desvantagem é tanto menor quanto mais grupos análogos forem identificados e, como o número de grupos pode e deve ser revisto à medida que a cadeia de retalho aumenta, o problema vai sendo minimizado ao longo do tempo. Por outro lado, as técnicas não paramétricas permitem definir regras de classificação para grupos muito pequenos, pelo que a técnica é aplicável a cadeias de pequena dimensão, desde que se disponha de muita informação sobre a mesma e cuidados especiais na análise e validação de resultados. O sigilo que rodeia a informação respeitante à concorrência, tal como valores de vendas e lucros por loja, dificulta a obtenção de um elevado número de observações e variáveis e aumenta os custos de Adopta-se a expressão “variável dependente” como tradução de target variable, ainda que por vezes a expressão “variável alvo” também seja utilizada principalmente na tradução de manuais de software. 12 36 utilização destes modelos. Daí os modelos serem principalmente utilizados por companhias com elevado número de pontos de venda próprios. Estes modelos têm tido uma utilização muito reduzida para fins de previsão de vendas e avaliação de localizações. No entanto, apresentam um potencial crescente à medida que mais informação vai estando disponível e os algoritmos se tornam mais rápidos e eficientes, sendo já muito utilizados em análise de inquéritos e construção de sistemas de apoio à decisão (ver por exemplo: Cooley, 2002; Jackling, 2002, Chou et al., 2000). Os modelos discriminantes são ainda criticados por não considerarem análise espacial i.e. por desprezar o factor distância à loja. Ainda que a utilização de distâncias à loja possa ser integrada na definição das variáveis explicativas, e ela própria possa ser considerada uma variável, a integração deste factor de forma explícita é a principal vantagem dos modelos gravitacionais explorados na secção seguinte. II.C.4. Modelos Gravitacionais e de Interacção Espacial Os modelos gravitacionais são inspirados na física Newtoniana, baseados no equilíbrio entre a atractividade da loja e localização e a distância aos potenciais clientes. Segundo Turner e Cole (1980), estes foram dos primeiros modelos quantitativos a serem utilizados após os modelos de analogia mais simples. No trabalho apresentado por Reilly (1931), a lei gravitacional do retalho considerava a fracção de clientes atraídos por uma loja como inversamente proporcional à distância que estes tinham de percorrer para visitar a loja e directamente proporcional à atractividade da loja, inicialmente apenas representada pela área da loja. Uma formulação semelhante foi proposta por Huff (1963) mas utilizando uma linguagem probabilística e referindo-se à probabilidade de um cliente frequentar uma loja de um conjunto possível de lojas em concorrência. O procedimento para utilização destes modelos começa por definir áreas de influência para a nova localização. Esta área é posteriormente subdividida em zonas de mercado mais pequenas de características demográficas e competitivas homogéneas e respeitando barreiras geográficas (rios, linhas de caminho-de-ferro, etc.). Posteriormente, cada zona de mercado é analisada com o objectivo de se determinarem as vendas potenciais provenientes dessa zona (Ei), normalmente modelada como o “rendimento disponível da população residente” ou os “gastos totais no tipo de produtos vendidos”. 37 A distribuição desse potencial pelos diversos pontos de venda (incluindo a futura loja e a concorrência) é efectuada por utilização da equação (1) segundo uma função -β distância, tempo ou custo de deslocação dij . O parâmetro β, determinado por regressão com dados de lojas análogas, reflecte a sensibilidade dos clientes a deslocações. Assim, cada ponto de venda (h = 1 … j … n) captará maiores quotas de mercado (Sij) às zonas (i) mais próximas. Na mesma expressão, Aj representa a atractividade gerada pela loja j e Sij ⋅ Ei o potencial de vendas da zona i captada pela loja j. A estimativa das vendas totais para a loja j (Wj) é calculada pela soma dos valores anteriores para todas as zonas da área de influência. W j = ∑ Ei ⋅ S ij e Sij = i A j ⋅ d ij− β ∑A h ⋅ d ih− β (1) h Uma metodologia semelhante é utilizada num grande grupo de distribuição Português. Para cada loja potencial é calculada uma área de influência definindo o polígono que dista 20 minutos da loja. De notar que este polígono é calculado por um pacote SIG com auxilio de algoritmos de caminho mais curto. As subzonas utilizadas correspondem normalmente a freguesias, sendo identificadas todas as lojas de comércio organizado em cada uma dessas subzonas. O potencial de captação de uma loja é avaliado pela atractividade da loja e a distância ao centróide da freguesia. A função de atractividade inclui um índice de desempenho da insígnia e a área de vendas da loja. Fazendo o quociente entre o anterior valor para a localização potencial e a soma de todos os valores de outras lojas concorrentes, obtém-se a probabilidade de um habitante da freguesia se deslocar à loja potencial para realizar uma parte do seu gasto em consumo alimentar. Este valor é posteriormente multiplicado pelos “gastos em produtos para a casa” da respectiva freguesia. Uma das formas de generalizar a expressão (1) é com a inclusão de factores distintivos da loja, além da clássica dimensão da loja (ver por exemplo: González-Benito, 2002; Lilien et al., 1992 e Rogers, 1992). Assim, tal como no exemplo anterior a atractividade da loja deve incluir factores como o desempenho da loja, nomeadamente ao nível da qualidade de serviço e da gestão, assim como todos os aspectos relacionados com a localização como a existência de parqueamento e acessibilidades. Um exemplo é o trabalho apresentado por Stanley e Sewall (1976) onde se traduzem múltiplas variáveis caracterizando as diferentes lojas de uma cadeia numa só variável de atractividade, recorrendo a técnicas de redução da dimensionalidade. Outro exemplo mais recente é 38 apresentado em Fernandes e Themido (1997) para o probelma de previsão de vendas em diferentes localizações de pontos de venda de combustíveis. Outra generalização destes modelos passa pela adopção de outras formas funcionais para a função distância que representa a diminuição da atracção de um ponto de venda em função da distância ou do tempo da viagem. Por exemplo, Pastor (1994) usa uma função exponencial (e -β·d ij). Este tipo de generalizações está na base dos modelos de atracção e de interacção espacial mais genéricos que podem ser aplicados à totalidade de uma cadeia de retalho. Os modelos mais comuns deste tipo são o MCI – Multiplicative Competitive Interactive model e o MNL – MultiNomial Logit (Kaufmann et al., 2000; Wong e Yang 1999; Drezner, 1995). Estes modelos apresentam formas funcionais muito semelhantes a (1) mas introduzem um novo parâmetro aj que representa o grau de eficiência da loja j em transformar a sua atractividade em quota de mercado. No caso do modelo MNL utilizam-se ainda funções exponenciais, não apenas para a função distância mas também para a função atractividade (Mendes e Themido, 2000). É possível basear esta expressão num contexto teórico baseado em expressões de utilidade de escolha entre lojas alternativas. A partir da expressão geral proposta por Ghosh e McLafferty (1982) para a quantificação da interacção entre pontos de oferta (j) e de procura (i) segundo uma função utilidade genérica (Uij): U ij = Aαj dij− β onde α , β ≥ 0 (2) onde Aj é a atractividade do elemento de oferta j, dij a distância, tempo ou custo de deslocação entre o elemento de procura i e o de oferta j, e α e β parâmetros a calibrar. Então a quota de mercado estimada pelo modelo MCI será: S ij = a j ⋅ U ij ∑a h ⋅ U ih (3) h Um exemplo é o trabalho apresentado por Achabal et al. (1982) onde os autores descrevem o modelo MULTILOC – MULTIple store LOCation que estende o modelo de atracção MCI ao problema de localização de várias lojas pertencentes a uma cadeia. Estes autores utilizam técnicas de pesquisa aleatória combinadas com uma heurística de melhoramento por trocas para identificarem conjuntos de localizações óptimos ou próximo de óptimos. Outros exemplos podem ser encontrados em Ghosh e Craig (1983). 39 Numa aplicação recente, Verhetsel (2005) compara elasticidades cruzadas de categorias de produtos em modelos MCI simétricos e assimétricos para concluir sobre as diferentes interacções entre as características das vizinhanças de hipermercados e supermercados e os referidos grupos de produtos alimentares e não alimentares. Por outro lado, González-Benito (2002) utiliza um modelo semelhante ao MNL, deduzido da teoria de utilidade estocástica de escolha (random utility choice theory13) mas incluindo agregações para o nível da cadeia, para caracterizar a atractividade de hipermercados em Espanha. Estes são apenas alguns exemplos da muito rica literatura sobre aplicações deste tipo de modelos. Os modelos de atracção distinguem-se dos restantes modelos causais por serem logicamente deduzidos a partir de um conjunto de axiomas baseados na teoria de escolha discreta (Bell et al., 1975). Apesar disso, apresentam algumas anomalias tanto estruturais como comportamentais, como a dependência de alternativas irrelevantes e a não regularidade na previsão de quotas de mercado. Para ultrapassar estas anomalias muitas técnicas têm vindo a ser sugeridas, como os modelos nested logit14, competition destination, e paired combinatorial logit (Koppelman e Wen, 2000; Fotheringham e Rogerson, 1994). Um exemplo recente é o trabalho apresentado por Giovanni et al. (2002) onde se descreve um sistema para avaliação do impacto causado pela abertura de modernas lojas de retalho alimentar, por utilização de modelos singly constrained logit. Para uma aplicação na provincia de Milão, os autores concluiram que a abertura de lojas modernas tem mais impacto em lojas tradicionais do que nas lojas modernas próximas. No entanto, uma loja moderna afastada da nova localização sofre mais impacto do que uma loja tradicional à mesma distância. Por fim, concluem que a concorrência entre lojas modernas abrange áreas maiores conduzindo a áreas de influência sobrepostas. Estes modelos são por vezes denominados modelos de impacto (Cooper e Nakanishi, 1993) já que permitem avaliar diferentes configurações da rede de lojas calculando variações nas quotas de mercado. É possível avaliar o impacto da construção, remodelação ou ampliação de pontos de venda, sobre outros já existentes incluindo problemas de canibalismo em loja pertencentes à mesma cadeia. Assim, parecem particularmente adequados ao planeamento a longo prazo, permitindo simular diferentes estratégias de localização para a totalidade da cadeia que reflictam a evolução do 13 14 A tradução é sugestão do autor. Cardoso (2000, pág. 19) sugere a tradução de nested logit por “logit encaixado”. 40 mercado na rentabilidade da cadeia (ver exemplos de aplicação em Rogers, 1992). A vantagem de explicitamente incorporarem as forças de atracção, a distância entre pontos de venda, os potenciais clientes e a concorrência é realçada por vários autores, sendo considerada especialmente relevante em mercados com elevada concorrência (Schiller, 2001, Kaufmann e Rangan, 1990). Este tipo de modelos é acusado pelos profissionais de distribuição de complexidade, dificuldades na estimação e elevadas e irrealistas exigências de dados, conduzindo a projectos demasiados onerosos e demorados. Este tipo de desvantagens leva a uma utilização simplificada dos modelos que limita fortemente as vantagens teóricas descritas (Schiller, 2001, Rogers, 1992, Simkin et al., 1985). Outros autores acusam estes modelos de serem pouco sensíveis a variações demográficas e inadequados quando a segmentação do mercado é evidente, pelo que não devem ser utilizados no retalho especializado (Boufounou, 1995 e Rogers, 1992). Por seu lado Heald (1972), encontra correlações entre a função distância utilizada e a atractividade, o que complica a estimação de parâmetros por regressão. Outra desvantagem apontada relaciona-se com a fraca interpretabilidade dos modelos construídos não permitindo individualizar os efeitos de cada variável envolvida na previsão final (Mendes e Themido, 2000). Os modelos gravitacionais surgiram nos Estados Unidos e tiveram alguma dificuldade em se implementar na Europa. Rogers (1992) explica este facto com a coexistência de vários níveis de mobilidade e o comportamente incerto dos clientes europeus. A elevada percentagem de utilização de transportes públicos por possíveis clientes e o facto de provirem frequentemente de zonas muito afastadas da loja, dificulta a estimação de áreas de influência e zonas homogéneas. Nos Estados Unidos estes obstáculos não se colocam de forma tão acentuada. Formas de urbanização mais homogéneas e geométricas, utilização maioritária de transporte individual, existência de elevado volume de dados estatísticos sobre os consumidores (demográficos, comportamentais, poder de compra, matrizes de origem/destino, etc.) e a tradição de fortes departamentos de planeamento nas empresas, contribuíram decisivamente para que este país esteja na vanguarda da aplicação de modelos gravitacionais e de interacção espacial. Recentemente, vários autores como Birkin et al. (2002) e Dugmore (1997) prevêem um aumento na utilização de modelos de interacção espacial à medida que mais dados vão sendo disponibilizados e que ferramentas como os SIG, muito úteis na construção e avaliação de modelos de interacção espacial, se tornam comuns. 41 II.C.5. Modelos de Optimização Uni e Multiobjectivo A muito rica literatura de teoria de localização utiliza algoritmos de optimização em rede, combinados com uma grande variedade de formulações para a localização de equipamentos ou serviços (facilities)15 em nós ou arcos, conduzindo aos denominados modelos de localização em rede. No caso das redes de transporte não serem relevantes na modelação das acessibilidades, formulam-se problemas de localização no espaço contínuo (Drezner e Hamacher, 2002). Se a qualquer um destes modelos adicionarmos a concorrência de equipamentos análogos, obtêm-se modelos de localização em ambiente competitivo. Este problema de localização em ambiente competitivo consiste em abrir novas lojas em localizações óptimas de uma região onde já exista uma outra cadeia de retalho concorrente. O objectivo é, habitualmente, maximizar a atracção de clientes para as novas lojas. Karkazis (1989) generaliza este problema considerando diferentes tipos de loja em cada cadeia e mais do que um objectivo a optimizar. Podem ainda formular-se problemas para determinar o número óptimo de lojas a abrir, dada uma restrição de orçamento disponível. Em trabalhos mais recentes, outros autores, exploram essencialmente novas heurísticas de resolução (Drezner et al., 2002). Nestes problemas, as funções objectivo relacionadas com a captação de clientes utilizando distâncias à loja, são muitas vezes semelhantes às expressões utilizadas nos modelos gravitacionais. Estes modelos confundem-se frequentemente com modelos de localização-afectação (location-allocation models). O objectivo destes últimos é a localização de equipamentos efectuando-se em simultâneo a afectação de recursos que, no caso de lojas, são frequentemente a população residente ou o rendimento disponível. Como refere Buhl (1988), este tipo de modelos é constituído por cinco componentes: pontos de procura, localizações potenciais, uma matriz de distâncias (ou tempo) entre os anteriores grupos, uma regra de afectação e uma ou mais funções objectivo. Estes modelos permitem assim incorporar factores como barreiras geográficas e níveis de mobilidade dos potenciais clientes, tanto na matriz de distâncias como na definição de localizações potenciais, atractividade das lojas na regra de afectação e maximização de vendas, maximização de população coberta e \ ou minimização de investimento na(s) função(ões) objectivo. Podem ainda ser consideradas outras restrições em determinados problemas particulares. 15 Tradução retirada do DicIO, www.apdio.pt/DicIO/, em 19/8/2004. 42 Estes problemas podem resultar em formulações matemáticas muito complexas que apenas podem ser resolvidos por técnicas heurísticas. As técnicas de resolução mais simples envolvem a programação linear ou convexa, optimização de um objectivo colocando restrições nos restantes, funções de penalização, e métodos heurísticos específicos (Hamacher e Nickel, 1996). Para uma revisão da literatura na formulação e resolução deste tipo de modelos aconselha-se Drezner e Hamacher (2002). O problema da cadeia de retalho óptima, referido em Hurley et al. (1995), é um exemplo de uma formulação de localização e afectação. Neste problema considera-se que a localização de uma nova loja não deverá ser óptima apenas relativamente à concorrência mas também relativamente a outras lojas da mesma cadeia já existentes. Assim, o problema consiste em encontrar a rede de lojas óptima dado um conjunto de lojas já existentes e um outro de potenciais localizações de novas lojas. Segundo os autores, utilizando esta visão integrada da cadeia de retalho numa determinada área, a expansão torna-se uma progressão planeada em vez da tradicional sequência de decisões mais ou menos arbitrárias, permitindo igualmente a avaliação de diferentes cenários com avaliação de acções da concorrência e da própria cadeia. Os algoritmos genéticos podem ser facilmente utilizados para resolver qualquer uma das seguintes variantes do problema da cadeia de retalho óptima: • escolha das novas localizações a utilizar melhorando o desempenho global da cadeia de lojas; • escolha de novas localizações com possibilidade de encerrar localizações já existentes; • escolha de um conjunto de localizações existentes para implementar um novo serviço ou produto. Por exemplo, para a segunda formulação do problema, um cromossoma corresponderia a uma cadeia de lojas possível, considerando locais existentes e potenciais, representado por uma sequência de números binários. Cada valor binário corresponderia a uma localização de uma loja existente ou nova, sendo o valor zero representativo de uma localização nova a não ser utilizada ou uma localização já existente a ser encerrada e o valor um a uma localização existente a manter ou uma nova localização a implementar. Nos algoritmos genéticos a função de avaliação (fitness function) tem um papel primordial e normalmente corresponde ao maior esforço de modelação. Neste caso, tal função poderia ser constituída por um modelo de previsão de vendas baseado em análise espacial, que poderia ser utilizado tanto para novas lojas como para lojas existentes, como por exemplo os modelos apresentados em Achabal et al. (1982) ou Kaufmann et al. (2000). 43 Além dos algoritmos genéticos é possível encontrar aplicações de outras técnicas heurísticas de optimização baseadas em algoritmos de inteligência artificial na resolução de modelos de localização competitiva. Exemplos são as redes neuronais (Murnion, 1996 e Coates et al., 1995) ou as meta-heurísticas apresentadas recentemente por Cavique et al. (2002). No entanto, estes algoritmos têm sido pouco utilizados em aplicações práticas relacionadas com localização de espaços comerciais. Outras aproximações combinam metodologias de optimização com análise multicritério. Este é o caso de Chuang (2002) que utiliza técnicas multicritério para seleccionar um grande número de critérios de localização, organizados em categorias, as quais foram avaliadas em comparação com valores ideais, utilizando pesos. Chuang (2002) obteve assim uma função sistemática de qualidade da distribuição (Quality Function Deployment – QFD) que foi optimizada para determinar localizações óptimas. Uma desvantagem já antes referida e que contribui para um afastamento entre a comunidade de investigação e os utilizadores ou decisores é a enorme complexidade que alguns destes modelos atingem. Na tentativa de encontrar formulações tão próximas da realidade quanto possível, os investigadores tendem a acrescentar complexidade às formulações, as quais apenas podem ser resolvidas por heurísticas cada vez mais complexas, tendo os decisores dificuldade em acompanhar estas evoluções. II.C.6. Análise Comparativa Nesta secção efectuou-se uma revisão da literatura no que respeita a técnicas e modelos utilizados na avaliação de localizações e na previsão de vendas. A intenção não foi tentar incluir todos os trabalhos relevantes nesta área, o que seria praticamente impossível, mas utilizar alguns trabalhos publicados, particularmente relevantes, para explicar e descrever os métodos. Outra preocupação sempre presente foi a tentativa de avaliar as vantagens e desvantagens comparativas de cada metodologia. Na Tabela 1 apresenta-se um resumo dessas vantagens e desvantagens comparativas. Ainda que alguns dos modelos descritos possam ser aplicados ao nível macro ou ao individual, este tipo de problemas não é objecto desta dissertação. A tipificação dos modelos e técnicas é uma sugestão do autor, nem sempre sendo claro a que tipo de modelos pertence um determinado trabalho. É possível encontrar interacções fortes entre os modelos de regressão e os discriminantes ou entre os modelos de interacção espacial e os de optimização. De uma forma simples podem-se resumir os modelos e as suas características nos seguintes grupos: 44 TABELA 1 RESUMO DAS VANTAGENS E DESVANTAGENS COMPARATIVAS DOS DIFERENTES MODELOS SEGUNDO UMA TIPIFICAÇÃO SUGERIDA PELO AUTOR. MODELOS NÍVEIS DECISÃO a Listas, Analogia e Decisão Multicritério macro, micro. Regressão Linear micro, individual Discriminantes e Árvores de Classificação micro, individual Gravitacionais e Interacção Espacial macro, micro. Optimização Uni e Multicritério macro, micro. a VANTAGENS DESVANTAGENS Simplicidade de utilização; Poucos dados necessários; Adequado para cadeias pequenas; Integra conhecimento e características da cadeia; Permitem analisar um conjunto de localizações em grande pormenor; Simplicidade de utilização; Técnicas bem conhecidas; Podem ser incluídos muitos aspectos mensuráveis, tanto da localização como de caracterização das lojas; Forte poder explicativo e modelos fáceis de entender; Modelos de análises de dados permitem lidar com grande número de variáveis; Os não paramétricos permitem usar variáveis em todas as escalas de medida; Permitem a definição e avaliação de cenários; Permitem análises holísticas à cadeia; Incluem explicitamente a distância e acessibilidades; Permitem apoiar um grande número de decisões; Permitem a comparação e análise de diferentes cenários; Permitem modelar situações complexas como a análises da totalidade da cadeia; Consideram diversos pontos de vista (objectivos) e tradeoffs explicitamente. Conclusões dificilmente generalizáveis; Alguns metodos são considerados excessivamente subjectivos; A análise pode não incluir aspectos importantes para o caso particular em estudo; Inadequados para efectuar previsões de vendas; Necessidade de considerável número de lojas análogas; Dificuldades em incorporar grande número de variáveis; Dificuldade em incluir variáveis não métricas; Segmentação prévia pode ser necessária; Qualidade dos resultados fortemente dependente dos dados disponíveis; Apenas prevêem vendas dentro de intervalos pré-especificados; Modelos demasiado complexos e de construção demorada; Pouca interpretabilidade dos modelos a uma escala micro; Mais adequados para comparar impactos do que prever vendas; Dificuldades em zonas demograficamente heterogéneas; Inadequados para prever vendas; Normalmente complexos e de fraca interpretabilidade; Resolução dos modelos de optimização com recurso a heurísticas complexas; Normalmente normativos, impondo regras e restrições. As designações apresentadas nesta coluna referem-se aos níveis de decisão da Figura 6, pág. 25. • Modelos Baseados em Listas: modelos mais empíricos como as listas de aspectos desejáveis numa boa localização ou os modelos de previsão por analogia. Apesar de muito simples de usar e de compreender são demasiado subjectivos e apenas adequados para cadeias muito pequenas, com muito poucos dados disponíveis. As técnicas de decisão multicritério permitem a comparação de alternativas com grande pormenor mas são igualmente pouco adequados para previsão de vendas. 45 • Modelos de Análise de Dados: como os modelos de regressão, os discriminantes lineares e as árvores de classificação ou ainda conjugações destes. São especialmente adequados quando se pretende compreender o problema em estudo e gerar conhecimento, não sendo normativos nem impondo restrições aos problemas. Têm a desvantagem de serem muito dependentes da qualidade e quantidade de dados disponível. • Modelos de Interacção Espacial e de Optimização: este grupo é constituído por modelos normalmente muito complexos e altamente normativos já que incluem na sua formulação um conjunto elevado de restrições e pressupostos. A complexidade, a dificuldade de chegar a soluções válidas e a fraca interpretabilidade são as principais desvantagens, enquanto que a possibilidade de lidar com a totalidade da cadeia e de analisar diferentes cenários, as principais vantagens. Qualquer que seja o modelo utilizado num contexto particular, é importante notar a complexidade dos modelos de localização de lojas de retalho. O número de factores potencialmente relevantes na previsão de desempenho de uma localização e a natureza dinâmica e imprevisível do comportamento do consumidor levaram a que vários autores considerem a localização tanto uma ciência como uma arte (Birkin et al., 2002; Hernández e Bennison, 2000; Themido et al., 1998). A referida complexidade implica que a intuição e conhecimento do domínio dos especialistas em localização não deva ser desprezada, como fazem notar autores como Clarke e Mackaness (2000) e Pastor (1994). Por outro lado, Birkin et al. (2002) faz notar que modelos mais complexos permitem mais exactidão e proximidade com o problema real, mas reduzindo a compreensão dos modelos por parte dos utilizadores e elevando o custo de implementação e manutenção. Os modelos gravitacionais e de interacção espacial são os mais utilizados mas implicam a utilização de um reduzido número de variáveis para explicar o desempenho das diferentes lojas. Tal é aceitável para as lojas com grande poder de atracção, como os grandes espaços comerciais. No entanto, quando se analisam as previsões de vendas para as lojas de menor dimensão, é necessária a introdução de um muito maior número de factores explicativos. Assim, ainda que os modelos gravitacionais sejam utilizados em cadeias com muito maiores áreas comerciais, revelaram-se pouco adequados na análise de lojas de pequenas e médias dimensões. 46 II.D. SIGs na Análise Espacial de Localização Um problema de localização é, em sentido lato, todo aquele que tem por output a selecção de uma ou mais localizações no espaço. É comum a formulação de problemas de localização utilizando funções objectivo e restrições, como é o caso dos problemas de optimização em rede ou no plano. Neste caso, Sistemas de Apoio à Decisão (SAD) Espaciais ou Geográficos (Spatial Decision Support Systems - SDSS)16 são aplicações informáticas baseadas em Sistemas de Informação Geográfica (SIG) com integração de algoritmos de optimização capazes de produzir soluções óptimas para uma dada formulação ou conjunto de pressupostos (ver por exemplo: Birkin et al., 2002 ou Grimshaw, 1999). Utiliza-se ainda a designação SAD Espacial quando se utiliza análise espacial de dados, como intersecções ou reuniões espaciais, ou na definição de divisões territoriais como em particionamento (districting17), delimitação de unidades territoriais por agregação de subunidades contíguas procurando uniformizar um ou mais objectivos. Verifica-se hoje um interesse crescente na literatura tanto no desenvolvimento de novos modelos teóricos como nos aspectos práticos de implementação, em especial no que se refere a ambientes de informação geográfica. A utilização de SIG para resolver problemas de localização apresenta várias vantagens, como referido por Church (2002). O poder das aplicações SIG reside na sua capacidade única de integrar informação relacionada com a sua posição geográfica, manipular essa informação relativamente a muitos atributos e não apenas aos geográficos, efectuar análises espaciais e facilmente produzir mapas temáticos. Esses mapas são atractivos e interactivos, muito informativos, permitem não só a visualização mas também a compreensão da informação e das interacções geográficas. As aplicações SIG permitem a análise de localizações com integração de variáveis demográficas e psicométricas, tempos de viagem, informação sobre concorrência, dados estatísticos regionais, imobiliários e informações sobre os clientes. Outras vantagens estão relacionadas com a facilidade de modelar acessibilidades e a crescente disponibilidade de redes viárias e dados demográficos georreferenciados. A utilização de tecnologia SIG para modelação geográfica de problemas de localização é revista em Gonçalves e Matos (2005), concluindo-se da sua utilidade tanto na modelação de dados Ambas as traduções são possíveis, no entanto, nesta dissertação distinguem-se aplicações com algoritmos capazes de realizar análise espacial (SAD’s Espaciais) das que apenas gerem dados georreferenciados (SAD’s Geográficos). 17 Tradução sugerida em Gonçalves e Matos (2005). 16 47 como para a resolução de problemas de localização de pontos, de linhas, de polígonos ou associados a redes. Numa decisão complexa, envolvendo grandes volumes de dados e uma componente subjectiva importante, estas vantagens são muito valorizadas. Por esta razão, os SIG são já utilizados no processo de decisão da maioria das cadeias de retalho. Estas desenvolveram aplicações capazes de ligar e manipular uma combinação de bases de dados, cartografia digital e informação georreferenciada, permitindo análises visuais como a localização num mapa digital de pontos de venda, clientes e circuitos de distribuição (Hernández e Bennison, 1997 e 2000). O melhor exemplo será provavelmente o Sistema de Apoio à Decisão Espacial desenvolvido na Tesco PLC, o maior retalhista alimentar do Reino Unido. Este SAD Espacial tem sido desenvolvido e actualizado desde há longos anos, e é utilizado para prever vendas ou avaliar localizações potenciais (Moore e Attewell, 1991) e para o aperfeiçoamento da logística (Smith, 2004). Os benefícios referidos por estes autores incluem a simplicidade de criação de mapas, anteriormente uma tarefa complexa, e o grau de consistência e de controlo que pode ser mantido entre os modelos para apoiarem decisões complexas e multidimensionais. Outras aplicações mais recentes incluem a utilização de análise de agrupamentos para estudar os padrões de variação de vendas nas diferentes lojas da cadeia. Estes estudos têm sido utilizados para criar novas linhas de produtos que satisfaçam as necessidades das lojas de forma individualizada. Além das aplicações desenvolvidas na Tesco é possível encontrar muitas outras referências a sistemas deste tipo. O livro de Birkin et al. (2002) é dedicado à resolução de problemas de localização com tecnologias SIG e apresenta vários exemplos de aplicações no sector de distribuição. Também Grimshaw (1999) explora as possibilidades destas tecnologias na resolução de problemas de planeamento e localização em diversos tipos de empresas descrevendo um conjunto de casos de estudo que vão desde o marketing até à localização de restaurantes. Por seu lado Malczewski (1999) dedica um livro à relação entre os modelos multicritério e as tecnologias SIG, correspondendo a SADs Espaciais Multicritério (Multicriteria Spatial Decision Support System, MC-SDSS). Este autor apresenta nomeadamente casos de estudo para a localização de equipamentos de saúde e de avaliação de loclizações potenciais. Lam e Song (2001) descrevem um sistema integrando informação recolhida por inquéritos a residentes, uma aplicação SIG com um pacote estatístico para análise estatística de comportamentos e fluxos. 48 As aplicações SIG, ainda que aparentemente mais adequadas para apoiar decisões de nível micro (Figura 6, página 25), pode igualmente identificar oportunidades de negócio de nível macro, como se verifica num dos grandes grupos Portugueses de distribuição. O procedimento utilizado consiste em identificar variáveis chave que meçam principalmente factores como a população residente ou a área comercial instalada. Essas variáveis são utilizadas na identificação de regiões análogas à região em estudo, e por comparação com o número de lojas ou a área comercial instalada, é possível concluir se essa região apresenta potencial para a instalação de novas lojas. Além das aplicações SIG, são necessárias extensas bases de dados sobre as várias cadeias controladas pelo grupo de distribuição, mas também com informação sobre cadeias concorrenciais. Apesar destas aplicações e de todo o investimento efectuado, ainda se verifica pouca integração entre modelos de apoio à decisão e as aplicações SIG. Ainda que existam exemplos de integração, é mais comum exportar os dados após o tratamento espacial para uma folha de cálculo, permitindo utilizar o completo arsenal de ferramentas de modelação disponível nesse tipo de aplicações num ambiente facilmente reconhecível. Klosterman e Xie (1997) denominam este tipo de interligação entre aplicações como loosely coupled, em contraste com a programação de funcionalidades de apoio à decisão nos SIG ou funcionalidades de visualização de dados geográficos nas folhas de cálculo, denominadas strongly coupled. Os mesmos autores apresentam um exemplo utilizando o modelo clássico de Huff (1963), para determinar o impacto da abertura de um novo centro comercial, na área metropolitana de Akron Ohio. A metodologia envolveu a resolução do modelo em folha de cálculo e o cálculo de variáveis e visualização de resultados em SIG. Exemplos de aplicações especificamente construídas para adicionar funcionalidades de modelação a SIG são apresentadas frequentemente nas conferências organizadas pelos fabricantes e representantes de software. Dois exemplos são os trabalhos de Cowen et al. (2000) e McMullin (2000). Ambos incluem modelos de avaliação de localizações potenciais, capazes de calcular e comparar valores para novas localizações, baseados em critérios selecionados pelo utilizador ou em modelos gravitacionais. Algumas software houses incluem já na sua oferta não apenas aplicações SIG com acesso a grandes volumes de dados e boas capacidades de gestão e visualização dos mesmos, mas modelos com capacidades de previsão de vendas e avaliação de cenários de impacto, usando principalmente modelos gravitacionais18. 18 Informação retirada de www.mapinfo.com em 13/07/2005. 49 Capítulo III ⎯⎯⎯⎯⎯⎯⎯ III. RECOLHA DE DADOS: FUSÃO E ANÁLISE ESPACIAL Na sequência do capítulo anterior de definição do problema, faz-se um levantamento dos dados usados em estudos de localização e sugere-se uma classificação das muitas variáveis e factores identificados. Descreve-se o longo processo de recolha e tratamento de dados, o qual incluiu dois inquéritos a clientes em dois momentos distintos, um programa de mystery shopping, dados demográficos e georreferenciação da localização de centenas de lojas em todo o país. A análise espacial efectuada foi fundamental na definição das variáveis demográficas e concorrenciais por utilização de vários métodos de delimitação de áreas de influência. Uma primeira abordagem quanto à delimitação de áreas de influência e análise espacial encontra-se publicada em Gonçalves e Mendes (2002). Uma evolução posterior foi recentemente publicada em Mendes et al. (2004). III.A. Medir o Desempenho de Lojas: Uma classificação de variáveis A localização de lojas e a sua relação espacial com a localização da clientela é factor crítico de sucesso para o desempenho de uma loja. Muitos autores, tanto os mais teóricos (ver por exemplo: Gilbert, 2002) como os mais práticos (Rousseau, 1997 e Salvaneschi, 1996), reconhecem este facto. No entanto, tentar perceber todos os aspectos do desempenho de lojas, potenciais localizações e comportamentos do consumidor obriga à recolha de enormes quantidades de dados de vários tipos como geográficos, demográficos, socioeconómicos e referentes a dinâmicas de competição. Reunir e tratar todos esses dados e retirar conhecimento útil desse manancial foi uma fase muito demorada do presente trabalho. Na Figura 7 sugere-se uma classificação das variáveis potencialmente explicativas do desempenho de lojas de retalho alimentar de pequena a média dimensão pertencentes a cadeias de distribuição. Esta classificação é baseada numa extensa revisão bibliográfica e na experiência do autor. 50 FIGURA 7 CLASSIFICAÇÃO SUGERIDA DE VARIÁVEIS EXPLICATIVAS DO DESEMPENHO DE LOJAS PERTENCENTES A CADEIAS DE RETALHO ALIMENTAR E FONTES DE DADOS UTILIZADAS NA PRESENTE DISSERTAÇÃO. Características da Loja e Localização (endógenos) FONTES Área de Vendas Profundidade da Gama Configuração da Loja Imagem Cadeia\Serviços Acessibilidades Vars. Geográficas Visibilidade da Loja Características dos Clientes da Loja (inquéritos) Potencial de Vendas Corrente e Futuro Caracterização da Relação Cliente \ Loja Caracterização Socioeconómica Área de Concorrentes Qualidade Concorrência Dimensão Área de Inf. Dados Demográficos Gasto e Compra Média Preferências e Concorrência Dados Demográficos Classes de Rendimento Inquéritos aos Clientes Característica da Área de Influência (exógenos) Concorrência Existente e Futura Localização de Lojas e SIG Dimensão da Loja EXEMPLO Dados INE TIPO Programa de Mystery Shopping GRUPO As variáveis são divididas em três grandes grupos. Os factores endógenos pretendem avaliar aspectos apenas dependentes da loja e do local, como as características da loja e da localização escolhida e a imagem da cadeia a que pertencem ou a gama e serviços associados. De todas as características da loja, a área comercial é o factor de maior relevância, sendo mesmo realçada como uma variável chave por Themido et al. (1998) e sempre considerada em estudos de atractividade de lojas de retalho (ver secção II.C, página 27). Vários autores (ver por exemplo Devlin et al., 2003; Sulek et al., 1995; Osman, 1993) identificam igualmente a imagem da cadeia e da loja, em particular quanto a níveis de preços e qualidade de serviço, como fundamental no desempenho. A medição da imagem de uma loja ou de uma cadeia é complexa e pode envolver aspectos como o preço, a profundidade e largura da gama, layout da loja, atmosfera, limpeza, qualidade e serviços oferecidos ao cliente. Os mesmos autores referem ainda que comportamentos de gestão como a constante pesquisa de novos produtos, utilização de tecnologias 51 inovadoras e utilização de novos formatos de loja são importantes na melhoria da imagem da loja ou cadeia. As variáveis de natureza geográfica são indispensáveis em particular na avaliação da acessibilidade e visibilidade das várias localizações. Além destas variáveis geográficas de localização pode-se incluir ainda o enquadramento territorial, grau de infraestruturação, orientações urbanísticas, condições de acessibilidade actuais e futuras, barreiras físicas, visibilidade a pé e de carro e a qualidade ambiental. Os factores exógenos estão relacionados com a avaliação da área de influência da loja a nível do potencial de vendas, essencialmente variáveis demográficas, e da concorrência existente. Variáveis demográficas como a “população por área”, “número de veículos por pessoa” ou “dimensão do agregado familiar”, permitem avaliar o número de clientes potenciais de cada localização e o nível de rendimentos, variáveis não directamente observáveis. Por fim, os factores concorrenciais são de primordial importância para a avaliação da distribuição dos clientes pelas diferentes lojas existentes. Estes últimos dados podem ser de mais difícil acesso, sendo no entanto, essencial ter dados quantitativos sobre aspectos como a dimensão das lojas, localização, dimensão do espaço para parqueamento, espaço da loja dedicado a produtos não alimentares, etc.. Autores como Moore e Attewell (1991) aconselham o estudo pormenorizado dos concorrentes mais importantes, incluindo visitas ao local. A definição de áreas de influência é muito frequente em análise de marketing uma vez que por vezes é possível concentrar os estudos nessa área. Isto verifica-se em praticamente todos os modelos de localização de lojas de retalho onde os dados demográficos são essenciais (Blankenship et al., 1998). Várias empresas de estudos de marketing e serviços de informação estatísticos aperceberam-se das necessidades deste tipo de dados e construíram bases de dados georreferenciadas com formas agregadas de informação, utilizando um sistema de classificação de vizinhanças e definindo e caracterizando classes de residências. O pressuposto é que indivíduos com características semelhantes habitam em localizações próximas (Leventhal, 2002). Autores como Johnson (1997) referem a importância deste tipo de dados na análise de áreas de influência no retalho. Em conjunto com estes dados geodemográficos também dados concorrenciais resultantes de análise espacial, são hoje de vital importância nas análises de marketing, justificando o termo geomarketing utilizado por exemplo por Birkin et al. (2002). Em González-Benito (2002) é apresentada uma revisão destes temas indicando-se quatro tipos de aplicações principais: como um 52 auxiliar essencial no apoio à decisão e análise de dados em conjunto com aplicações SIG, como um instrumento para avaliar localizações tanto de serviços públicos como privados com especial relevância para a localização de lojas de retalho, como instrumento para controlo de cartões de fidelidade e de crédito e como instrumento para seleccionar segmentos alvo em marketing directo. A maioria dos autores inclui apenas os factores endógenos e exógenos nos estudos de localização (Salvaneschi, 1996, Moutinho e Evans, 1992). Neste caso considera-se igualmente importante a caracterização socioeconómica dos clientes de lojas já existentes, o conhecimento das suas preferências e da relação cliente \ loja. Este tipo de dados não pode ser usado em estudos previsionais relativos a novas localizações, já que é recolhido por recurso a inquéritos a clientes nas lojas da cadeia já existentes, mas é essencial na segmentação das lojas existentes e na definição de grupos de lojas análogas. Os factores psicográficos que traduzem o estilo de vida e valores condicionando as preferências dos potenciais clientes, são geralmente considerados menos importantes. No entanto, quando se pretendem localizar lojas dirigidas a um segmento particular de mercado, este tipo de factores pode ser mais relevante do que na localização de lojas mais indiferenciadas, pelo que deverá igualmente ser considerada (Wedel e Kamakura, 2000). É de notar que, em muitas das técnicas utilizadas, o número de variáveis que podem ser consideradas nos modelos é apenas limitado pela abundância de dados disponíveis ou recolhidos para o efeito. No entanto, o conceito de variáveis âncora apresentado em Themido et al. (1998) surge como um marco de referência considerando que variáveis como a “dimensão da loja” ou o “potencial da área de influência” devem ser sempre incluídas nos modelos. A classificação de factores e variáveis sugerida na Figura 7 é coerente com os resultados apresentados por Clarke et al. (2003b). Estes autores utilizaram mapas cognitivos, baseados em respostas a inquéritos por especialistas em localização das maiores cadeias retalhistas do Reino Unido, para identificar as principais variáveis realmente utilizadas neste tipo de decisões. Este processo resultou na identificação de 7 agregados, apresentando três, uma relação directa com variáveis propostas na Figura 7. Os grupos “catchments access” e “catchment quality” localizam-se, na classificação proposta, num tipo mais genérico denominado “potencial de vendas corrente e futuro da área de influência”. Da mesma forma “site / store configuration” e “retail composition” encontram-se no tipo “configuração da loja”. O trabalho destes autores confirma não 53 apenas a classificação sugerida mas também a necessidade de se recolherem grandes volumes de dados em estudos de localização. Igualmente verifica-se boa coerência com o trabalho apresentado por Karakaya e Canel (1998) sobre a identificação de factores e variáveis que influenciam a localização de empresas em geral. As 27 variáveis identificadas por entrevistas exaustivas com gestores de 84 das empresas com maior crescimento em Nova Iorque e Nova Inglaterra, foram agregadas em 6 dimensões, algumas das quais são muito ligadas às áreas de negócio a que se referem e outras estão de acordo com a Figura 7. No âmbito de métodos de segmentação, Wedel e Kamakura (2000) fazem igualmente uma classificação das variáveis utilizadas segundo uma matriz com duas entradas: variáveis observáveis (que podem ser medidas de forma directa) ou não observáveis (apenas medidas de forma indirecta) e variáveis genéricas ou específicas. As variáveis observáveis e não observáveis genéricas correspondem grosso modo às variáveis demográficas e socioeconómicas que surgem na Figura 7 ligadas ao tipo “potencial de vendas corrente e futuro”. Por outro lado, às variáveis específicas chama-se na classificação sugerida “características dos clientes das lojas”. Note-se ainda a maior complexidade de um estudo de localização relativamente à segmentação de clientes. Na segmentação de lojas devem-se considerar aspectos relacionados com o cliente mas também os aspectos relacionados com a loja e a localização, daí os grupos “características da loja e localização” e o tipo “concorrência existente e futura”. Uma revisão recente de variáveis e sistemas de classificação utilizados na segmentação de clientes pode ser encontrada em Cardoso (2000). Na tentativa de obter um grande número de variáveis que abrangesse todos os aspectos da avaliação de localizações fundiram-se, neste estudo, dados de diferentes proveniências indicadas na Figura 7 e que são descritos nas secções seguintes. Do total de fontes e técnicas utilizadas conseguiu-se reunir um total de cerca de 280 variáveis medidas em diversas escalas de medida e referidas às lojas existentes. Os metadados sobre esta informação podem ser consultados no Anexo E (pág. 203). Note-se que, ainda que se fale de fusão de dados (data fusion) no sentido em que se compatibilizaram dados provenientes de fontes diversificadas, nesta dissertação não se efectuou um verdadeiro projecto de fusão de bases de dados como é entendida por autores como Baker (2002) e Saporta (2002). Neste caso, utilizou-se a designação da loja como variável natural de ligação e ao contrário do que é habitual em projectos de fusão de bases de dados só pontualmente se utilizaram resultados de uma fonte para corrigir ou preencher valores omissos de outra. Optou-se por reunir todas as variáveis numa 54 única base de dados e utilizar técnicas exploratórias e conhecimento do domínio para escolher as mais adequadas a utilizar nos modelos. No entanto, foram efectuados testes de compatibilidade, por exemplo calcularam-se correlações entre variáveis de diferentes fontes que pretendem medir o mesmo aspecto das lojas, com bons resultados, e foram usados resultados do primeiro inquérito para complementar a informação do segundo inquérito nomeadamente para as lojas não inquiridas. III.B. Os Inquéritos na Loja: Características dos clientes Os consumidores modernos são cheios de contradições e têm muitas vezes comportamentos irracionais. Neste contexto apenas se poderá compreender o seu comportamento até certo ponto e fazer previsões é um terreno perigoso. De qualquer modo, inquéritos aos clientes são um dos principais meios disponíveis aos analistas para compreender o “cliente médio” e recolher dados não directamente observáveis como valores pessoais, estilo de vida e preferências (Wedel e Kamakura, 2000). Neste contexto, realizaram-se dois inquéritos aos clientes das lojas da cadeia já existentes durante o período de realização do projecto com o objectivo de avaliar os principais factores que, segundo os clientes, influenciam o desempenho das lojas e localizações. Esses factores são utilizados não apenas para caracterizar o cliente da cadeia e a relação cliente \ loja mas também para construir variáveis utilizadas no estudo de previsão de vendas. O estudo de 2000 foi realizado durante duas semanas do mês de Novembro. Foram inquiridos clientes de todas as lojas então existentes, perfazendo um total de 3.766 inquéritos considerados válidos. O segundo inquérito foi realizado entre os dias 20 e 23 de Março de 2003, em 12 lojas seleccionadas, num total de 2.394 inquéritos válidos. Em ambos os casos efectuaram-se cerca de 200 inquéritos por loja, o que foi estimado considerando que a ocorrência de um erro de amostragem segue uma distribuição t de student e 95% de nível de confiança, e uma precisão de 10% para a média das variáveis mais relevantes como o “gasto na loja”. No caso de se efectuarem agregações de lojas, os resultados terão precisões de amostragem superiores. Note-se, no entanto, que o método de amostragem utilizado não garante aleatoriedade suficiente para se utilizar o valor anterior com segurança, pelo que se deve utilizar este valor como um limite inferior. Aliás, os métodos aleatórios puros não são praticáveis neste caso uma vez que se desconhece a totalidade dos clientes das lojas, ainda agravada pela dinâmica dessa classificação (Moutinho et al., 1998). 55 Os inquéritos apresentam desenhos ligeiramente distintos, pelo que é necessária a utilização de pesos para que sejam comparáveis. Sublinhe-se que este procedimento é recomendado por muitos autores salientando-se o bom texto apresentado por McCarty (2002). Nas secções seguintes descreve-se o plano de amostragem dos inquéritos utilizados e a organização e perguntas efectuadas. III.B.1. Plano de Amostragem O desenho dos inquéritos foi realizado tendo em conta dois objectivos essenciais: simplificar a análise e interpretabilidade dos resultados e recolher informação que possa ser útil na caracterização dos clientes das lojas e da relação cliente × loja × localização com o fim de previsão de vendas. No caso do segundo inquérito, foi igualmente considerado relevante a necessidade de simplificar e reduzir a dimensão do inquérito. Ambos os inquéritos foram desenhados segundo 3 factores de controlo distintos considerados mais importantes e capazes de influenciar os resultados obtidos, tendo-se controlado outros três factores considerados menos relevantes, trata-se portanto de um processo de amostragem por quotas. Note-se que se utilizaram técnicas com o objectivo de minimizar os problemas de falta de aleatoriedade por vezes observados neste tipo de amostragem (Maiar, 2002; Moutinho et al., 1998). Usam-se dois factores de controlo relativos ao momento temporal e um referente ao tipo de loja \ localização. Assim, após a análise do número de actos de compra ao longo da semana para várias lojas (Figura 8), não foi possível distinguir entre os diferentes dias úteis da semana, observando-se uma grande homogeneidade dos actos de compra nesse período. Pelo contrário, no fim-de-semana observam-se três comportamentos bem distintos: forte subida das vendas (loja em importante centro comercial), descida das vendas (loja em zona de serviços) e com poucas variações (lojas em zonas residenciais). A mesma análise foi efectuada para as principais variáveis do primeiro inquérito. Assim, considerou-se indiferente fazer o segundo inquérito em qualquer um dos dias úteis, tendo-se optado por motivos operacionais, principalmente pela 5ª e 6ª feiras. Pelo contrário, no fim-de-semana as vendas e as características dos clientes podem ser muito heterogéneos de loja para loja, pelo que se optou por realizar inquéritos nos dois dias de fim-de-semana. Para que os resultados sejam comparáveis, utiliza-se um peso de 2,5 para os inquiridos nos dias úteis da semana. Deste modo, pressupõe-se que os 56 resultados encontrados para os 2 dias úteis em que se fizeram inquéritos podem ser propagados para a totalidade da semana. O segundo factor a considerar é a hora do dia a que é realizado o inquérito. Neste caso, encontram-se grandes variações tanto no número de actos de compra segundo a hora do dia como no tipo e volume de compras, como se pode observar na Figura 9. Sugere-se na mesma figura uma divisão do dia em quatro turnos: manhã (até 12h), almoço (12-15h), tarde (15-17h) e noite (a partir das 17h). Para que se consiga capturar todos os tipos de clientes, realizaram-se entrevistas a todas as horas de abertura da loja, segundo quotas definidas por loja para cada período horário. FIGURA 8 CONTAGEM DE ACTOS DE COMPRA EM DIAS ÚTEIS E NO FIM-DE-SEMANA ENTRE 13 E 19/3/2000. (Forma das marcas correspondentes à tipologia apresentada na Figura 22, pág. 100) Número de Actos de Compra Diários 3.500 loja MR 3.000 2.500 loja BF 2.000 loja MR 1.500 1.000 500 loja UB loja UB loja UE loja UE loja FO loja RL loja BF loja FO loja RL loja LN loja LN 0 Seg Ter Qua Qui Sex Sáb Dom Para manter as proporções de clientes em cada período horário utilizou-se uma fracção fixa, por exemplo entrevistar um cliente em cada três que saíam da loja após ter efectuado compras. Esta técnica é difícil de manter em períodos de maior afluência pelo que nesses períodos reforçou-se a equipa de entrevistadores. Estas técnicas de amostragem são descritas em textos como Robertson e Conway (2002) e Blankenship et al. (1998), e pretendem minimizar os problemas por vezes observados na amostragem por quotas e resultantes da falta de aleatoriedade. Para este caso particular, os gráficos 57 da Figura 9 são muito semelhantes para cada uma das lojas consideradas, pelo que o processo foi bem sucedido e o factor considera-se controlado. FIGURA 9 PERCENTAGEM DE ACTOS DE COMPRA EM CADA PERÍODO HORÁRIO NO DIA 17/3/2000 (SEXTA-FEIRA) E NÚMERO DE INQUÉRITOS REALIZADOS NO DIA 21/3/2003 (SEXTA-FEIRA). Percentagem de Actos de Compra e Inquéritos 100% 90% 9-10h 10-11h 80% 11-12h 70% 12-13h 60% 13-14h 14-15h 15-16h 50% 40% 30% 20% 10% 16-17h 17-18h 18-19h 19-20h 0% actos compra 10-11h 10-11h 10-11h 11-12h 11-12h 11-12h 12-13h 12-13h 13-14h 12-13h 13-14h 14-15h 14-15h 13-14h 15-16h 15-16h 14-15h 16-17h 16-17h 15-16h 17-18h 17-18h 16-17h 18-19h 18-19h 17-18h 18-19h 19-20h 19-20h 19-20h 20-21h 20-21h 20-21h 21-22h 21-22h inquéritos actos compra loja BF inquéritos loja MR 9-10h 10-11h 9-10h 10-11h 10-11h 10-11h 11-12h 11-12h 11-12h 11-12h 12-13h 12-13h 12-13h 12-13h 13-14h 13-14h 13-14h 13-14h 14-15h 14-15h 15-16h 15-16h 14-15h 14-15h 16-17h 16-17h 15-16h 15-16h 17-18h 17-18h 16-17h 16-17h 17-18h 17-18h 18-19h 18-19h 18-19h 18-19h 19-20h 19-20h 19-20h 19-20h 20-21h 20-21h 20-21h 20-21h 21-22h actos compra inquéritos loja EU actos compra inquéritos loja PK 9-10h 10-11h 11-12h 12-13h 13-14h 14-15h 15-16h 10-11h 11-12h 12-13h 13-14h 14-15h 15-16h 16-17h 16-17h 17-18h 17-18h 18-19h 18-19h 19-20h 19-20h 20-21h 20-21h 21-22h actos compra inquéritos loja RL Assim, não foi necessário considerar ponderação por se admitir que o plano de amostragem garante que mais clientes são entrevistados nos períodos horários com maior afluência de consumidores e menos nos períodos com menor afluência. Deste modo, garante-se a representatividade da amostra sem necessidade de ponderação relativamente à hora do dia. Por fim, o terceiro factor de desenho do inquérito utilizado é a tipologia de loja. No primeiro inquérito foram efectuadas entrevistas em todas as lojas então existentes. No segundo inquérito, porque já existia uma tipologia de lojas bem definida e porque se considerou necessário reduzir o número de inquéritos já que o número de lojas também tinha aumentado entretanto, optou-se por efectuar entrevistas em apenas uma loja de cada tipo (tendo-se seleccionado aquela que apresentava valores mais próximos do centróide do grupo, segundo a tipologia apresentada na Figura 20, pág. 98), em duas lojas consideradas outliers e nas seis novas lojas não existentes no inquérito anterior. Assim, em análises para a totalidade das lojas é necessário ponderar os resultados de cada loja de cada tipo pelo número de lojas em cada tipologia (sempre 58 quatro lojas), o que parte do pressuposto de que os resultados da loja escolhida são extrapoláveis para as restantes. Tendo em conta a elevada variabilidade observada de loja para loja, este pressuposto pode não se verificar para determinadas situações, mas considerou-se ser o melhor compromisso entre a qualidade dos dados obtidos e o custo de realização dos inquéritos. Na Tabela 2 resumem-se os diferentes factores considerados no desenho dos inquéritos. A amostragem por quotas conta portanto com estratos formados pelo cruzamento dos seguintes factores: dia da semana (3 categorias: dia útil, sábado, domingo) × loja (algumas lojas seleccionadas). Em cada loja foi cumprida uma quota de cerca de 200 inquéritos distribuída pelos diferentes estratos identificados. TABELA 2 RESUMO DOS FACTORES CONSIDERADOS NO PLANO DE AMOSTRAGEM. (Destaca-se com fundo colorido os factores que exigem pesos para serem comparáveis) FACTORES EM CONSIDERAÇÃO Período do Ano Semanas do Mês 1º INQUÉRITO (Novembro 2000) 2º INQUÉRITO (Março de 2003) Afastar do período de fim de ano e férias de verão, alturas em que se verificam comportamentos atípicos de compra. As duas semanas centrais do mês de modo a evitar os finais \ princípios do mês, marcados pelos vencimentos. Dias da Semana Todos os dias da semana 5ª feira, 6ª feira, Sábado e Domingo Hora do Dia Entrevistas efectuadas a todas as horas durante o período de abertura da loja, obedecendo à proporção de actos de compra. Tipo de Loja \ Localização Todas as 19 lojas Antiguidade das Lojas Todas as lojas estavam abertas ao público há mais de 6 meses, período considerado suficiente para estabilizar a clientela. 12 lojas: 1 de cada tipo, outliers e novas CORRECÇÃO PARA COMPARABILIDADE --Peso de 2,5 para os dias úteis do 2º inquérito -Peso de 4 nas lojas escolhidas de cada tipo -- A hora do dia, ainda que tenha sido considerado um facto dos mais importantes, não necessita de ponderação por ter tido igual desenho em ambos os inquéritos. Os restantes factores, considerados menos importantes, foram apenas controlados de modo a garantir-se que não se obtinham resultados atípicos, apenas válidos num curto período do ano ou do mês. Quanto à antiguidade das lojas é importante garantir que a loja já está aberta há alguns meses de modo a que a clientela esteja minimamente estabilizada. Para determinar o número mínimo de meses a utilizar após abertura, analisaramse séries de vendas mensais para novas lojas. Ao contrário do que se esperaria, as 59 séries de vendas estabilizam muito rapidamente após apenas um ou dois meses, como se pode observar na Figura 10. Com excepção da loja KO e, se se excluir o mês de Dezembro correspondente a uma sazonalidade óbvia, todas as restantes estabilizam as vendas mensais muito rapidamente, apresentado apenas uma ligeira tendência de subida considerada estrutural. FIGURA 10 EVOLUÇÃO DO VOLUME DE VENDAS NOS PRIMEIROS MESES APÓS AABERTURA DA LOJA a. (Forma das marcas correspondentes à tipologia apresentada na Figura 22, pág. 100) Vendas Mensais (variações relativas) 80% 60% loja UE 40% 20% 0% loja UE loja NR loja KO loja NR -20% loja RL -40% loja RP loja KO loja AN loja LA loja RP loja LA loja RL loja AN loja LN -60% -80% loja LN Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr a Os dados referem-se a aberturas em anos distintos entre 1999 e 2001. As vendas do primeiro mês podem não corresponder à totalidade do mês em virtude da loja nem sempre abrir no dia 1. Note-se que não foi feito qualquer esforço para equilibrar ou cumprir quotas em factores demográficos como o género ou nível de rendimentos. Estes serão factores em estudo mais do que factores de desenho do inquérito. III.B.2. Organização, Questões e Qualidade A estrutura dos dois inquéritos foi muito semelhante, tendo-se adoptado um inquérito normalmente utilizado dentro da cadeia de distribuição para avaliar a satisfação e caracterizar o cliente das grandes superfícies comerciais. A técnica de entrevista utilizada consistiu na abordagem do cliente quando este se encontra na fila da caixa ou após efectuado o pagamento das compras. Em algumas questões foram mostrados 60 cartões aos clientes para facilitar a comparação de alternativas e a codificação, em especial quando a resposta implica uma escala de preferências. Foram excluídos clientes ligados a supermercados \ hipermercados ou a estudos de mercado, utilizando uma pergunta eliminatória. O inquérito de 2000 pode ser consultado no Anexo A (pág. 193). Com o objectivo de reduzir a dimensão do segundo inquérito e considerando igualmente a posterior análise de resultados, foi diminuído o número de perguntas efectuadas ao cliente e, em alguns casos, agregadas categorias de resposta, por se considerar que algumas das categorias utilizadas no primeiro inquérito apresentavam frequências muito baixas e pouco interessantes para a análise. Em algumas situações, fecharam-se perguntas que no primeiro inquérito estavam abertas, com base na identificação de respostas com frequências muito elevadas. Aliás o inquérito inclui muito poucas perguntas abertas. Em contrapartida utilizam-se perguntas semi-fechadas com algumas categorias e um espaço para preencher com outras sugeridas pelos clientes. Este tipo de inquérito muito estruturado, pode tornar-se muito monótono, pelo que a utilização de um número limitado de perguntas abertas do tipo indicado é recomendado para quebrar a monotonia e capturar aspectos menos frequentemente referidos (Wolfe, 2002). Em ambos os inquéritos utilizaram-se como perguntas filtrantes a frequência de compras, tendo-se eliminado da análise os clientes que frequentam a loja pela primeira vez (cerca de 3% da amostra inicial em cada inquérito) por se considerar que não se trata do cliente típico da cadeia ou loja. No entanto, se a intenção fosse estimular primeiras visitas, deveriam ser estes os clientes a analisar. Sublinhe-se que, de acordo com o desenho do inquérito, a população é constituída apenas por clientes das lojas, não se obtendo qualquer tipo de informação sobre não clientes. Uma análise cuidadosa às respostas foi efectuada de modo a identificarem-se problemas de introdução de dados ou de interpretação das perguntas. Por exemplo, nas perguntas sobre os “gastos mensais nesta loja” e em “compras totais para o lar” verificouse se a resposta à segunda era sempre superior à primeira. Foi igualmente verificado se as percentagens somavam 100%. Sublinhe-se a este propósito que o segundo inquérito apresenta muito melhor qualidade (não foi identificado qualquer problema) enquanto o primeiro ocupou-nos vários dias na identificação e correcção ou eliminação de problemas deste tipo. Note-se ainda que não foi efectuado qualquer tratamento específico para as não respostas, tendo sido simplesmente excluídas dos resultados. Durante o processo de codificação de respostas foram igualmente identificados alguns pequenos problemas de 61 qualidade facilmente resolvidos. Este tipo de controlo de qualidade dos resultados obtidos é considerado essencial por autores como Maiar (2002). Note-se a este propósito que o preenchimento dos inquéritos e posterior passagem das respostas para registo informático foi efectuado pela mesma empresa, da confiança da cadeia de lojas em estudo, a qual garantia o controlo de qualidade e do desempenho dos entrevistadores com frequentes visitas de responsáveis aos locais de entrevista. Este tipo de procedimentos é generalizado na literatura consultada (ver por exemplo Maiar, 2002; Moutinho e Evans, 1992). O tratamento dos dados dos inquéritos para utilização na restante dissertação envolveu o cálculo de percentagens e médias por loja, não apenas das variáveis directamente definidas a partir de perguntas do inquérito, como de algumas variáveis mais complexas. Assim, após algumas análises descritivas simples, concluiu-se da necessidade de construir variáveis derivadas como a “percentagem de inquiridos fiéis à insígnia” definida como correspondendo a clientes que declaram gastar pelo menos 75% da “percentagem de gastos em lojas da cadeia” e os restantes 25% em lojas do formato hipermercado. Outra variável construída é a “percentagem de viagens exclusivas à loja” correspondentes ao cruzamento da categoria “casa” da “origem da viagem de compras” com o “destino da viagem de compras”. Outra variável utilizada nas análises descritas nos capítulos seguintes é a “percentagem de clientes preferenciais” correspondente a uma segmentação dos inquiridos efectuada no Anexo G (pág. 215). Os metadados referentes às variáveis construídas com base nos inquéritos e em todos os restantes métodos podem ser consultados no Anexo E (pág. 203). III.C. O Programa de Mystery Shopping: Factores endógenos Verificou-se a necessidade de recolher informação sobre a configuração e localização das lojas existentes, incluindo acessibilidades, variáveis denominadas endógenas na Figura 7, uma vez que existia uma percepção clara da variedade de lojas quanto a estes aspectos. Assim, começou-se por construir um inquérito a ser preenchido pelos gestores das lojas existentes para a cadeia em consideração (ver Anexo B, pág. 198). Ainda que tal inquérito tenha sido desenhado com todo o cuidado e com a preocupação de o tornar simples de preencher, tendo-se utilizado uma folha de cálculo para atingir esses objectivos, não foi possível motivar os directores a preenchê-lo, e mesmo os parcos resultados que se obtiveram são de duvidosa qualidade. 62 Assim, optou-se por uma nova aproximação ao problema de recolher este tipo de informação. Existiam já, em estudos anteriores, fichas que eram preenchidas nos locais admitidos para novas localizações. Estas fichas baseavam-se numa definição de áreas de influência por coroas circulares com estimação, baseadas em densidades populacionais, de percentagens de potenciais clientes obtendo-se assim uma estimativa de vendas. Estas fichas foram totalmente reformuladas e redesenhadas, obtendo-se um formulário de preenchimento rápido in loco. Os objectivos também foram redefinidos uma vez que se passaram a basear num conjunto de observações consideradas relevantes (segundo o levantamento de variáveis endógenas da Figura 7) e deixaram-se as estimativas de áreas de influência e variáveis demográficas para um tratamento mais cuidado com utilização de um Sistema de Informação Geográfica (ver secção seguinte). Note-se que, na avaliação de localizações, a observação do local sempre foi considerada crucial para a tomada de decisão, como revelam os inquéritos a especialistas em localização (ver por exemplo Pioch e Byrom, 2004, para um trabalho recentemente publicado). O que se pretende não é tomar a decisão no local com base exclusivamente na sensibilidade dos analistas mas recolher dados de forma sistemática para uma decisão mais apoiada e objectiva, ainda que não excluindo a sensibilidade dos analistas. Os dados recolhidos nesta ficha incluíam vários aspectos sobre a localização e algumas relacionadas com a concorrência e caracterização da área de influência. Incluiuse ainda a avaliação subjectiva de vários aspectos das lojas existentes, o que exigiu que fosse a mesma equipa a fazer a recolha em todas as lojas da cadeia (o formulário completo encontra-se no Anexo D, pág. 202). O preenchimento do formulário foi efectuado com uma visita à loja da equipa de dois analistas incógnitos, devidamente preparados, onde observaram aspectos visiveis da loja, compararam e avaliaram (por consenso) vários aspectos em escalas ordinais, e preencheram o formulário após a saída da loja. A este tipo de estudos autores como Wilson (2001) e Edmunds (1996) chamam mystery shopping programs19. Trata-se portanto de um método de observação altamente estruturado e dissimulado, uma vez que a observação deve ser efectuada sem que o observado se aperceba (Moutinho et al., 1998). Segundo Wilson (2001), as origens da técnica radicam na antropologia cultural onde os antropólogos participam no dia a dia da vida das tribos de modo a entender os Durante o seminário organizado pela ADMES e pela MARKTEST em 6/5/2005 foi sugerida a tradução desta expressão por “programas de cliente mistério”. Esta expressão não é usada neste trabalho por ser ainda pouco comum. 19 63 seus valores culturais, atitudes e comportamentos. No entanto, os programas de mystery shopping distinguem-se dos métodos usados pelos antropólogos por serem muito estruturados, com recurso a formulários e listas marcadas, para obter dados principalmente quantitativos mas também qualitativos. Entende-se, assim, esta técnica como complementar a inquéritos e a entrevistas aprofundadas. Uma das principais críticas à técnica é a falta de objectividade e reprodutibilidade em determinadas medidas menos quantitativas, como a simpatia do atendimento ou conhecimentos sobre os produtos vendidos. Para minimizar estes problemas, no inquérito efectuado por Wilson (2001), as empresas que utilizam este tipo de técnicas usam escalas muito estruturadas com rótulos descritivos e treinam cuidadosamente os analistas que visitam as lojas. Neste caso, o programa desenrolou-se com considerável sucesso, conseguindose variáveis que permitem avaliar e descrever o desempenho das lojas existentes. Esta informação é ainda relevante na caracterização de tipologias. A adaptação do formulário para novas localizações é imediata e a sua utilidade na previsão de vendas é fundamental para uma correcta modelação. Note-se que, em paralelo com o preenchimento dos formulários, também se realizou o registo das coordenadas de localização das lojas da cadeia e de um total de mais de 600 lojas de retalho alimentar existentes em Portugal Continental, utilizando GPS — Global Positioning System. Tanto as coordenadas de localização como os resultados do programa de mystery shopping foram carregados num Sistema de Informação Geográfica, o que permitiu associar a informação recolhida em diversas fontes à localização das lojas. Variáveis como a “área de vendas”, o “número de caixas”, o “formato e a cadeia” a que pertence cada uma das 600 lojas, foram utilizadas na análise espacial de dados e na definição de áreas de influência, como descrito na secção seguinte. III.D. Dados Demográficos e o Tratamento Espacial: Factores exógenos Neste estudo utilizou-se um grande número de variáveis demográficas correspondentes à base geográfica nacional do INE com informação demográfica do censo de 2001. Tratam-se de dados de elevada qualidade, acessíveis em diversos graus de desagregação espacial e prontos a usar por um SIG. Para incluir este tipo de dados, georreferenciados a polígonos, em estudos de pontos no espaço, como é o caso de lojas, opta-se por definir uma área de influência das lojas e critérios geoespaciais de 64 intersecção entre os polígonos com dados demográficos e o polígono da área de influência. Nesta secção descreve-se a teoria dos polígonos de Voronoi e os métodos utilizados na estimação dos mesmos. Utilizando métodos de análise espacial e vários métodos de delimitação de áreas de influência, é possível calcular valores percentuais e densidades por unidade de área para as variáveis demográficas. Estas variáveis são posteriormente utilizadas na caracterização das lojas e da concorrência e nos modelos de previsão de vendas para novas localizações. Nesta secção, descreve-se ainda a estimação dos modelos de Voronoi e comparam-se diferentes métodos para delimitação de áreas de influência com base na capacidade explicativa das vendas, usando como independentes apenas as variáveis demográficas calculadas. Além do cálculo de variáveis demográficas, recorreu-se igualmente à análise espacial para determinar variáveis que permitissem avaliar a pressão competitiva próxima das lojas recorrendo à base de dados com a localização de lojas. Para os diagramas de Voronoi, consideram-se como concorrentes todas as lojas que partilham fronteiras com as lojas da cadeia em consideração e, para as áreas de influência definidas por caminhos mais curtos, todas as lojas que se situam no interior do polígono. Note-se que estes cálculos envolveram todas as lojas da base de dados e não apenas as utilizadas para definição dos polígonos de Voronoi. Desta análise resultaram variáveis como “área de vendas dos concorrentes”, “área de vendas ponderada pela distância de caminhos mais curtos”, o “número de hipermercados concorrentes até 15 minutos” ou “área por diagramas de Voronoi” que será tanto maior quanto menor for a concorrência nas proximidades. III.D.1. Porquê Áreas de Influência e Modelos de Delimitação? Ainda que a necessidade de incluir variáveis demográficas seja evidente em estudos anteriores e na bibliografia consultada (ver por exemplo Salvaneschi, 1996), o modo de o fazer não é evidente. A dificuldade está em definir uma área associada à loja a que se referem as variáveis demográficas que serão utilizadas na caracterização dessa loja ou nova localização. Para a resolução deste problema existem duas aproximações fundamentais: • Utilização de uma função inversa da distância para ponderar as variáveis normalmente associadas a pontos ou pequenas áreas. Esta aproximação, comum em estudos de interacção espacial com modelos gravitacionais, considera que todos 65 os pontos do espaço podem ser úteis na caracterização de uma loja mas a sua importância é inversamente proporcional à distância à loja; • Definição de uma área de influência ou uma área à volta da loja que se considera influenciar muito fortemente a caracterização demográfica da loja, desprezando-se a influência proveniente do exterior. Deste modo, define-se uma fronteira, considerando-se que para o seu interior se localiza grande parte da clientela da loja. No presente estudo adoptou-se a segunda aproximação ao problema de integração de variáveis demográficas em estudos de localização. Tal decisão fundamenta-se nas seguintes observações: • Nos inquéritos efectuados (ver gráfico (e) do Anexo F, pág. 210) a maioria dos clientes respondeu que o principal motivo de deslocação à loja é a sua proximidade. Assim, neste tipo de lojas que vivem muito da proximidade ao cliente, a definição de uma área de influência parece mais adequado. Em lojas de grande dimensão, como os hipermercados, a utilização de funções ponderadoras inversas da distância pode torna-se preferível devido ao forte poder de atracção que este tipo de lojas exerce e às longas distâncias por vezes percorridas. • O método de cálculo das áreas de influência é, geralmente, mais simples e compreensível pelo decisor do que a utilização da função ponderadora, de computação bastante mais intensiva, e muito exigente na informação necessária. Alguns autores como Newman e Cullen (2002) distinguem entre áreas de influência (catchment area ou influence area) e áreas de atracção (trade area)20. A primeira expressão é adoptada da geografia e descreve uma área em torno de uma localização potencial de onde se espera que provirá a maior parte dos potenciais clientes. A segunda descreve uma área semelhante mas para lojas já existentes, para as quais é possível delimitar polígonos com algum rigor, com recurso a inquéritos ou moradas de clientes frequentes. Nesta dissertação utilizam-se técnicas definidas para áreas de atracção de lojas existentes para delimitar áreas de influência para localizações potenciais, usando para tal o conceito de loja análoga, pelo que os dois termos são utilizados de forma indistinta nesta dissertação. A delimitação de áreas de influência das lojas não é evidente já que este é um conceito artificial. Ou seja, na prática não existe nenhuma fronteira que impeça o cliente que habita em qualquer ponto do espaço, de utilizar uma determinada loja. Assim, a definição da fronteira tem sempre um elevado grau de incerteza. No caso de áreas de atracção, o melhor método consiste em inquirir os clientes sobre o lugar donde provêm e assim poder definir uma fronteira que inclua cerca de 80% dos inquiridos que frequentem habitualmente a loja (Salvaneschi, 1996, Moutinho e Evans, 1992). Neste caso particular A tradução é sugestão do autor, ainda que não seja óbvia, parece ser a mais adequada tendo em conta a definição destes termos. 20 66 é necessário definir áreas de influência para novas localizações, pelo que não é possível usar as técnicas tradicionais das áreas de atracção. Como refere Birkin et al. (2002) na pág. 139: «although this approach is popular within retailers (…) there is the problem of how to define de catchment area and how to adequately treat the competition». Ainda que continuem a delimitar-se áreas de influência por simples observação directa da distribuição dos potenciais clientes no espaço ou por observação da distribuição de fluxos, a presença de software SIG nas empresas tem mudado este cenário. Entre os métodos mais simples de utilização de SIGs, contam-se as áreas de influência delimitadas com buffers ou circunferências, com um raio adequado e calibrado utilizando resultados de inquéritos a clientes para lojas análogas (Birkin et al., 2002 e McMullin, 2000) ou polígonos aproximadamente circulares baseados em “tempos de viagem” na deslocação à loja e em algoritmos de caminho mais curto (Cowen et al., 2000 e Salvaneschi, 1996). Este último procedimento exige grande volume de informação sobre eixos de via e, principalmente, velocidades médias de deslocação, raramente disponíveis com algum rigor. Para minimizar o problema da discretização do espaço, que na verdade é contínuo, usam-se comummente várias áreas concêntricas definindo coroas circulares ou aproximadamente circulares, denominadas por expressões como “área imediata”, “área primária” ou “área secundária” (ver por exemplo Silva e Cardoso, 2004). No caso particular de lojas de pequena dimensão, como as usadas neste estudo, a área imediata contribui com grande parte dos clientes e logo pode ser fortemente explicativa do desempenho das lojas. Experiências efectuadas para o caso da cadeia em estudo revelaram que variáveis calculadas apenas tendo em conta a área imediata explicam entre 50-60% da variação dos valores do rácio das vendas por unidade de área da loja, explicando as variáveis calculadas para as áreas secundárias apenas um adicional entre 1-2% quando entram nos modelos. Nesta dissertação sugerem-se polígonos de Voronoi multiplicativos de primeira e segunda ordem para delimitar áreas de influência, em comparação com algoritmos de caminhos mais curtos (Figura 11). Ao contrário dos restantes métodos de delimitação de áreas de influência, os polígonos de Voronoi permitem, simultaneamente, incorporar a atractividade da loja e a presença de concorrência nas proximidades, não exigindo informação sobre eixos de via (Boots e South, 1997). Estes aspectos são valorizados por vários autores como Reynolds (1991): 67 «The presence of competitor stores will mean the real geographical catchment area of a new store will be highly skewed in certain directions. This can normally be shown in all appraisals of existing store catchment areas». Como se pode observar da Figura 11, as áreas de influência por polígonos de Voronoi resultam numa divisão do espaço sem sobreposição de áreas. Nos polígonos por caminhos mais curtos, pelo contrário, as áreas sobrepõem-se fortemente no caso de lojas com muita concorrência. Uma situação intermédia é a dos polígonos de segunda ordem, os quais definem áreas não mais próximas de uma loja mas mais próximas de um conjunto de duas lojas. FIGURA 11 POLÍGONOS DE CAMINHOS MAIS CURTOS A 2 MIN (a) E POLÍGONOS DE VORONOI MULTIPLICATIVOS (b). (Lojas representadas por pontos, rede viária a cinzento e áreas de influência por regra de decisão preenchidas). # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # (a) caminhos mais curtos # # # # # (b) polí#gonos de Voronoi Estes diagramas permitem definir áreas de influência sobrepostas, indo de encontro ao conhecimento de especialistas que afirmam ser estas lojas muitas vezes complementares de outras lojas de retalho alimentar, principalmente hipermercados e lojas de retalho especializado. Utilizando diagramas de segunda ordem, considera-se a possibilidade de um cliente frequentar duas lojas de retalho alimentar sendo contabilizado simultaneamente para ambas (Figura 12). Os diagramas de segunda ordem apresentam ainda a vantagem de conduzir a áreas de influência maiores do que as dos diagramas de primeira ordem que, por vezes, se revelaram demasiado pequenas. 68 FIGURA 12 POLÍGONOS DE VORONOI MULTIPLICATIVOS DE SEGUNDA ORDEM. (Lojas representadas por pontos, linhas grossas correspondem ao diagrama de Voronoi de 1ª ordem, finas ao de 2ª ordem e os polígonos preenchidos correspondem à reunião das áreas partilhadas pela loja A). # # # # # F E # # (A,F) (E,A) A# (A,B) (D,A) B # D # # C (B,A) III.D.2. Diagramas de Voronoi Multiplicativos Ponderados Ainda que os diagramas de Voronoi sejam atribuídos aos trabalhos pioneiros de matemáticos como Georges Voronoï (1908) ou Peter Gustav Lejeune Dirichlet (1850), pelo que também se denominam polígonos de Dirichlet, têm sido descobertos e redescobertos vezes sem conta. Na verdade, eles podem ser encontrados na parte III do Principia Philosophiae e no tratado sobre a fragmentação cósmica de René Descartes, ambos publicados em 1644. Como exemplos de redescoberta destes diagramas, Okabe et al. (2000) mensiona, entre muitos outros casos em domínios como a cristalografia, meteorologia e a geografia, o caso de dois autores na área da ecologia que no curto espaço de um ano redescobriram a mesma estrutura geométrica. Brown (1965) definia uma “área potencialmente disponível” para árvores e apenas um ano depois Mead (1966) publica o mesmo conceito para plantas, denominando os polígonos de Voronoi como plant polygons. Nesta altura existe um impressionante número de trabalhos publicados 69 sobre polígonos de Voronoi e sobre as suas aplicações (ver por exemplo Okabe et al., 2000 ou Berg et al., 200021). No que se refere a diagramas de Voronoi multiplicativos na caracterização da proximidade a elementos de um conjunto de pontos no espaço, correspondente a lojas de retalho alimentar, Boots e South (1997) apresentam um muito completo trabalho. Ainda que referências mais antigas possam ser encontradas (ver por exemplo Shieh, 1985), no referido texto apresenta-se uma visão integrada sobre o tema, nomeadamente utilizando os diagramas de Voronoi para fins descritivos ou prescritivos. Segundo os autores, estes métodos permitem não só identificar oportunidades de novas localizações como estimar impactos aquando do aumento de espaço comercial, ou outros tipos de remodelações que influenciem a atractividade da loja. Realçam igualmente que, ao contrário de outros métodos de análise espacial baseados em modelos gravitacionais, os diagramas de Voronoi não requerem procedimentos estatísticos complexos de estimação e não necessitam de dados individuais sobre preferências de clientes por determinadas lojas. Nesta dissertação os diagramas de Voronoi são utilizados para o tratamento espacial de variáveis demográficas usadas na caracterização da proximidade a elementos de um conjunto de P = {p1, p2, …, pn} pontos no espaço (com 2 ≤ n < ∞), designado por conjunto gerador, correspondente a lojas de retalho alimentar. O diagrama é definido como uma partição do plano tal que cada ponto do espaço se associa ao elemento do conjunto gerador mais próximo. Se a função caracterizadora da proximidade for a distância euclidiana, a partição resultará numa série de polígonos (polígonos de Voronoi) e toma o nome de diagrama de Voronoi simples ou de primeira ordem, OVD – Ordinary Voronoi Diagram. Cada polígono (V(pj)) gerado pelo ponto pj com coordenadas xj é definido por: V ( p j ) = {x : x − x j ≤ x − xk , ∀k ≠ j ∈ P} (4) varrendo k cada um dos outros elementos do conjunto gerador. O conjunto dos polígonos correspondentes a todos os pontos geradores V = {V(p1), V(p2), …, V(pj), …, V(pn)} constitui um diagrama de Voronoi de primeira ordem. Claramente V(pj) contêm todos os pontos mais próximos de pj do que de qualquer outro elemento do conjunto gerador. Ver também um bom artigo de divulgação científica na edição de 28 Fevereiro de 2004 do Expresso intitulado “Diagramas de Voronoi” e assinado por Nuno Crato. 21 70 No entanto, este modelo muito simples considera que duas lojas à mesma distância Euclidiana são igualmente atractivas para um potencial cliente. De qualquer modo, são modelos muito simples que podem ser aproximadamente válidos para lojas semelhantes em áreas densamente povoadas, sem barreiras geográficas a deslocações a pé e com condições demográficas e psicográficas homogéneas. Igualmente importante é a existência de algoritmos de complexidade O (n·log n) que utilizam no máximo O (n) registos implementados nas principais aplicações SIG (Berg et al., 2000). Os diagramas de Voronoi multiplicativos ou MWVD – Multiplicative Weighted Voronoi Diagrams, são definidos de modo similar, associando a cada elemento do conjunto gerador um peso superior a zero (wj) que caracteriza a sua atractividade e que é função das características da loja medidas pelas variáveis endógenas (Figura 7 na pág. 50). A função de distância (dwj) é dada por: d w j ( p, p j ) = (1 / w j ) ⋅ x − x j , w j > 0 (5) Assim, cada polígono multiplicativo de Voronoi é definido por: V ( p j ) = {x : d w j ( p, p j ) ≤ d wk ( p, pk ), ∀k ≠ j ∈ P} (6) Nesta dissertação dá-se preferência a diagramas de Voronoi multiplicativos sobre outros como os aditivos, já que podem ser vistos como modelos de interacção espacial simples. Dada a expressão (2) para a função utilidade genérica já apresentada na pág. 38, verifica-se que os diagramas de Voronoi multiplicativos utilizam a mesma função utilidade para realizar a partição do espaço, desde que: d w j ( pi , p j ) = 1 / U ij com β = 1 (7) Na modelação do ambiente de oferta e procura, em que a oferta se encontra representada no conjunto gerador, o polígono de Voronoi associado a cada elemento da partição resultante é interpretado como a área de influência do respectivo elemento gerador, atribuindo a essa área todos os pontos no espaço que maximizam a função utilidade seguinte semelhante a (2) com β = 1. U ij = Aαj / xi − x j com α > 0 e dij ≡ xi − x j (8) Substituindo em (7) e comparando agora com (5) é fácil concluir que o peso corresponde à atractividade da loja j elevada a α. 71 Os diagramas multiplicativos são uma evolução dos diagramas de Voronoi simples uma vez que não só pressupõem que os clientes valorizam a proximidade na escolha da loja como introduzem o conceito de atractividade. Assim, a escolha da localização dependerá de um trade-off entre a proximidade e a capacidade de atracção da loja, à semelhança dos modelos gravitacionais. Estes modelos podem ainda ser estendidos tendo em conta que os clientes podem frequentar k > 1 lojas ou pontos geradores, em simultâneo. Os diagramas de ordem k vêm de encontro aos resultados dos inquéritos onde grande parte dos inquiridos afirma frequentar outras lojas, principalmente hipermercados (ver gráfico (f) do Anexo F na pág. 210). Deste modo, obtêm-se os polígonos de Voronoi multiplicativos de ordem k ou OkMWVD – Order k MWVD. Considerem-se todos os subconjuntos de k lojas entre as n n existentes: P = {P1(k), …, Pi(k), …, Pl(k)} com l= Ck. Considere-se agora um desses grupos Pi(k) = {pi1, pi2, …, pik}, então o polígono de Voronoi multiplicativo de ordem k (V(Pi(k)) será: V ( Pi (k )) = {x : max p j {d w j ( p, p j ), p j ∈ Pi (k )} ≤ min pr {d wr ( p, pr ), pr ∈ P \ Pi (k )}} (9) o que relaciona qualquer ponto do espaço com as k lojas mais atractivas. Apesar da complexidade dos diagramas resultantes, existem algoritmos para o cálculo de diagramas 3 de ordem k com complexidade O (n·log n+k(n-k)) onde n é o número de pontos geradores (Berg et al., 2000). No caso presente, utilizou-se um algoritmo aproximado baseado em raster, com resolução espacial de 100 m, semelhante ao descrito em Okabe et al. (2000, pág. 209). Estes modelos têm a desvantagem de não considerarem barreiras físicas ao movimento dos clientes, considerando o espaço contínuo no interior dos polígonos. Esta desvantagem é minimizada neste trabalho pela utilização de regras de intersecção que têm em conta essas barreiras (ver III.D.4, pág. 76). De qualquer modo, em deslocações a pé, como acontece para cerca de 64% dos clientes destas lojas (ver gráfico (b) do Anexo F, pág. 210), as barreiras físicas são pouco relevantes. Estes modelos implicam outros pressupostos (Okabe e Suzuki, 1997): • n lojas em concorrência localizadas numa região plana e finita; • todos os clientes do polígono de Voronoi frequentam apenas uma (nos MWVD) ou k lojas com igual probabilidade (nos OkMWVD); • a utilidade Uij da loja j para o cliente i é uma função inversa da distância percorrida pelo cliente para visitar a loja e uma função directa da atractividade 72 da loja (i.e. tal como nos modelos gravitacionais considera-se que é mais provável o cliente frequentar lojas mais próximas e com maior atractividade); • a função atractividade ou peso wj (> 0) pode ser calculada a partir de variáveis endógenas como preços praticados, dimensão da loja, acessibilidades, etc.. Okunuki e Okabe (2002) aplicam técnicas de construção de polígonos de Voronoi a redes viárias, incluindo nas áreas de influência obtidas as acessibilidades de automóvel e a concorrência de lojas vizinhas. Muitos outros diagramas de Voronoi podem ser utilizados para libertar os modelos de alguns dos pressupostos descritos. Uma muito completa revisão pode ser encontrada em Okabe et al. (2000). A sua aplicação a problemas de localização em ambiente competitivo é estudada por exemplo por Okabe e Suzuki (1997). Outro tipo de diagrama com potencial na resolução de problemas de localização é o diagrama de Voronoi gerado pelos centróides dos polígonos (centroidal Voronoi tessellation). Du et al. (1999) introduzem estes diagramas para definir a localização de um equipamento e, em simultâneo, a correspondente área de influência. Estes diagramas localizam os equipamentos no ponto que minimiza o total das distâncias a todos os pontos no interior do polígono. Os mesmos autores apresentam aplicações na localização de marcos de correio e de ecopontos com recurso a funções densidade populacional para a distribuição da população. Estes diagramas estão relacionados com agrupamentos de k-médias (k-means clusters) no caso da utilização de um critério de minimização da variância. III.D.3. Estimação dos Modelos de Delimitação de Áreas de Influência Para a estimação dos modelos de delimitação de áreas de influência deu-se prevalência à sensibilidade dos especialistas em localização sobre a regra quantitativa em que se pretende garantir que pelo menos 80% de clientes provêm do interior do polígono delimitado, uma vez que esta última apenas poderia ser avaliada de forma aproximada com os dados disponíveis. No caso de áreas de influência delimitadas por algoritmos de caminhos mais curtos, utilizou-se uma rede viária nacional adquirida ao Instituto de Estradas de Portugal e velocidades médias de deslocação, estimadas por uma empresa especializada, sendo estes dados constantemente revistos pelos especialistas em localização. Assim, o único parâmetro a calibrar consiste no tempo de viagem limite. Por observação da localização de proveniência dos clientes mais frequentes, entretanto georreferenciada à freguesia, 73 com as áreas obtidas para valores como 2 ½, 5, 10, e 15 minutos de deslocação de automóvel, o que corresponde a aproximadamente a 20, 40, 80 e 120 minutos percorridos a pé se se considerar uma velocidade média de deslocação de 4 km/h e uma velocidade média de deslocações de automóvel 8 vezes superior. Após alguns testes optou-se pelo primeiro valor considerando-se as restantes áreas demasiado grandes para o tipo de lojas em consideração. A preferência pela opinião dos especialistas prende-se com o facto dos cálculos tenderem a subavaliar as fracções de clientes no interior da área de influência, já que as áreas de algumas freguesias consideradas são superiores à própria área de influência e a consideração de que os clientes estão uniformemente distribuídos no interior da freguesia é claramente inapropriada. Apesar destas dificuldades, é reconhecida a heterogeneidade de lojas na cadeia com o parâmetro 2 ½ a ser claramente baixo para algumas lojas e elevado para outras. Dado os objectivos previsionais e o reduzido número de lojas na cadeia, foi considerado necessário utilizar o mesmo valor para todas as lojas. No caso presente existiam dados para dois inquéritos e, tendo em conta que existiram muitas não respostas à pergunta sobre a origem da viagem de compras e ainda ao facto de não se verificarem alterações significativas no padrão de comportamento dos clientes quanto à distribuição no espaço, os resultados dos dois inquéritos foram agregados. Sublinhe-se ainda que os clientes pouco frequentes foram excluídos. No caso dos diagramas de Voronoi, a estimação foi mais complexa tendo em conta a existência de mais parâmetros a calibrar e o facto de não ser possível ajustar as áreas de influência individualmente. A primeira tarefa consistiu no estabelecimento da função de atractividade da loja. Boots e South (1997) aconselham a utilização de um lote de variáveis endógenas cujos valores são de fácil obtenção, tais como: “área de vendas”, “área do centro comercial onde a loja se insere”, “antiguidade da loja”, “cadeia a que pertence”, entre outras. No caso presente, dispunha-se de grande número de variáveis para a cadeia em estudo, mas a recolha de informação sobre a concorrência revelou-se mais complexa. Assim, começou-se por considerar uma função de atractividade apenas com a “área de vendas” que conduziu, apesar de se ter optimizado o parâmetro de escala α, a uma demasiada prevalência das áreas dos hipermercados. Recorrendo a fontes de dados alternativas como o Anuário publicado pela revista “Distribuição Hoje” e pela APED e a informação recolhida pelo programa de mystery shopping, conseguiu-se reunir um conjunto de variáveis que foi usado como explicativas das vendas das lojas da cadeia em consideração. 74 Usaram-se vendas padronizadas no intervalo entre zero e um para facilitar a escolha do parâmetro α da equação (2). Note-se que a utilização das vendas como dependente pressupõe que a atractividade da loja pode ser, grosso modo, definida pelas vendas. Assim, obteve-se um modelo de regressão onde entraram por análise passo a passo (stepwise) como variáveis explicativas a “área da loja”, o “número de anos em funcionamento” e uma variável binária sobre se a localização é classificada como “centro urbano”. A regressão obtida explica apenas 48% da variabilidade das vendas, o que não é de estranhar uma vez que apenas se considerou uma quantidade limitada de variáveis explicativas e todas pertencentes ao grupo das variáveis endógenas, quando se sabe ser necessário considerar muito mais aspectos em estudos previsionais de vendas (Figura 7, pág. 50). Foram ainda utilizadas variáveis binárias identificativas da cadeia de lojas e ponderadas de acordo com a dimensão média das lojas de cada cadeia, uma vez que não se dispunha de vendas para lojas pertencentes a outras cadeias. Na delimitação de áreas de influência por diagramas de Voronoi foram excluídas do conjunto de lojas consideradas competitivas da cadeia de supermercados em estudo as mercearias e as cadeias de Hard Discount. No que se refere às lojas tradicionais esta decisão é suportada pelos resultados do inquérito (ver por exemplo gráfico (f) do Anexo F, pág. 210) mas no que se refere a lojas Hard Discount não pode ser avaliada por não se ter distinguido este tipo de lojas no inquérito. No entanto, é convicção dos especialistas em localização, que tais lojas exercem uma reduzida concorrência sobre as cadeias de supermercados uma vez que se posicionam no mercado de forma muito diversa e atraem segmentos de clientes igualmente distintos. Por um lado, considerar todas as lojas nos modelos conduzia a áreas de influência de 1ª ordem demasiado diminutas. Pelo contrário, os hipermercados foram considerados importantes concorrentes e foram sempre incluídos em todos os modelos. Esta decisão reduziu o número de lojas de 1.300 para cerca de 600 distribuídas pela totalidade do território continental. Para cálculo dos diagramas de Voronoi multiplicativos optou-se por um modelo de dados raster com resolução espacial de 100 m. A escolha em detrimento de um modelo vectorial deve-se à maior simplicidade de cálculo já que não foi considerado necessária uma maior precisão na definição de fronteiras entre áreas de influência. Foram programadas aplicações para o cálculo de diagramas de Voronoi multiplicativos de primeira e segunda ordem, as quais foram adicionadas ao ambiente SIG. Quanto à escolha de valores para os parâmetros de escala α e β da equação (2) mais uma vez recorreu-se ao conhecimento dos especialistas e à sua sensibilidade 75 relativamente à dimensão aceitável das áreas de influência. Depois de se tentarem vários valores, optou-se por α = ½ e β = 1. Na Figura 13 comparam-se diagramas de Voronoi de primeira ordem com os multiplicativos, observando-se alguma coincidência nas áreas dos polígonos em zonas em que as lojas têm dimensões comparáveis, mas grandes diferenças quando lojas pequenas se situam próximo de hipermercados ou lojas de grande dimensão. FIGURA 13 DIAGRAMA DE VORONOI SIMPLES (a) E DIAGRAMA DE VORONOI MULTIPLICATIVO (b). (Para o MWVD usou-se α = ½ e β = 1 e dimensão do ponto proporcional à atractividade) # S # # S # S # # # # S # S # # # # S S # # # S S # # # S # # # # # # S # # # # S # S # # # # # S # # S # S S # S # S # # S # # S # S # # S # S # S # # S # # # S # ## # (a) simples S # # S # # S # S # S # S # (b) multiplicativo Na Figura 14 é possível observar a grande sensibilidade do diagrama ao valor do parâmetro α. Quanto maior for o valor do parâmetro α., maior a importância da atractividade relativamente à distância à loja, o que justifica as enormes áreas observadas para as maiores lojas do diagrama (a). A reduzida dimensão da maioria das lojas da cadeia em estudo constituiu um problema uma vez que por vezes os diagramas resultavam em áreas de influência demasiado pequenas. A calibração dos diagramas de segunda ordem seguiu um procedimento idêntico, tendo-se utilizado os mesmos valores para os parâmetros. 76 FIGURA 14 DIAGRAMAS DE VORONOI MULTIPLICATIVOS COM α = 2 E β = 1 (a) E COM α = 1/10 E β = 1 (b). (Dimensão do ponto proporcional à atractividade do ponto de venda) # S # S # S S # # S S # # S S # # S S # S # # S S # # S S # S # # S # S S # S # # S # S # S # S # S S # # S S # # S # S S # S # # S S # # S # S # S # S S # S # # S S # # S # S S # # S # S S # # S # S # S S # # S # S S # S # S # # S # S ( a) S # S # # S S # # S # S # S (b) III.D.4. Cálculo de Variáveis e Comparação de Modelos de Delimitação O cálculo das variáveis demográficas afectas a cada loja envolveu, além da delimitação de áreas de influência correspondentes a três modelos distintos, a intersecção dessas áreas de influência com os limites administrativos das secções estatísticas a que a informação demográfica se encontra georreferenciada. O processo de intersecção espacial e de cálculo das variáveis foi efectuado com ferramentas padrão disponibilizadas pelo software SIG. Para a agregação dos valores dos vários polígonos resultantes podem utilizar-se dois métodos distintos. Autores como Cowen et al. (2000) e McMullin (2000) utilizam a fracção da área da secção estatística coberta pela área de influência como peso numa média ponderada, como indicado na equação (10). Este procedimento corresponde ao pressuposto de distribuição uniforme das variáveis na secção estatística. m ∑ i =1 área da secção i coberta pela área de influência × variável na secção estatística i área total da secção estatística (10) Outra alternativa disponível consiste em utilizar o mesmo peso numa regra de decisão de inclusão ou não da secção estatística. Neste trabalho utiliza-se o parâmetro 50% para incluir secções estatísticas com fracção da área coberta superiores a este valor e excluir secções com fracções inferiores. Este método tem a vantagem de ajustar as fronteiras da área de influência às fronteiras das secções estatísticas, o que pode ser 77 mais adequado tendo em conta que as secções estatísticas delimitadas pelo INE têm em consideração barreiras geográficas (ver áreas preenchidas na Figura 11, pág. 67). Este procedimento tem a desvantagem de, se não se efectuar o ajustamento do parâmetro, poder originar áreas nulas. A partir desta agregação de variáveis na área de influência foram ainda calculadas variáveis relativas como percentagens de totais e densidades por hectare para os totais. Deste processo, e apesar de se ter feito uma selecção das variáveis disponibilizadas pelo INE, resultou um número incomportável de variáveis próximo do meio milhar. Para reduzir este número determinou-se a matriz de coeficientes de correlação de Pearson e foram retiradas todas as variáveis com correlações significativas muito elevadas (acima de 0,95), iniciando-se a eliminação pelas variáveis que apresentavam maior número de correlações nessas condições. Note-se que foram ainda efectuados testes de qualidade e consistência às variáveis demográficas originais disponibilizadas pelo INE e às variáveis construídas por análise espacial, não tendo sido detectado qualquer falta de qualidade assinalável. Os metadados, correspondentes às variáveis resultantes do tratamento descrito e de todos os métodos de recolha consideradas nos estudos dos capítulos seguintes, podem ser consultados no Anexo E (pág. 203). Com o objectivo de aconselhar o utilizador quanto à conjugação mais adequada da técnica para delimitar áreas de influência e para agregar valores das variáveis efectuaram-se regressões lineares com os dados existentes para a cadeia em estudo. Na Tabela 3 apresentam-se os melhores resultados de todas as regressões efectuadas, usando como variáveis explicativas todas as variáveis demográficas calculadas para cada combinação de método de delimitação e método de agregação e como dependente as vendas anuais por unidade de área comercial. 2 Da mesma tabela verifica-se que os valores dos coeficientes de determinação (R ) obtidos são relativamente baixos, o que confirma a necessidade de introdução de variáveis explicativas além das demográficas. Este facto era já conhecido da literatura e justificou os vários métodos utilizados na recolha de dados descritos nesta secção. Ainda assim, e tendo em atenção que se utilizam coeficientes ajustados para se poderem comparar regressões com um número de variáveis explicativas variável, apenas as variáveis demográficas explicam entre 50 e perto de 67% da variabilidade do rácio utilizado, o que revela bem a importância destas variáveis. A sensibilidade das variáveis calculadas ao modelo de delimitação da área de influência pode ser confirmada pelo facto de nas diferentes regressões terem sido 78 seleccionadas variáveis distintas como variáveis explicativas. Este facto indica claramente que os valores das variáveis são dependentes do método de delimitação da área de influência. TABELA 3 R2 CORRIGIDO PARA REGRESSÕES EXPLICATIVAS DAS VENDAS POR UNIDADE DE ÁREA COMERCIAL a. (O sinal dos coeficientes estimado é negativo para as variáveis sublinhadas) MODELO DE VIZINHANÇA Caminhos mais Curtos Voronoi de 1ª ordem Voronoi de 2ª ordem MÉTODO DE AGREGAÇÃO MÉDIA PONDERADA REGRA DE DECISÃO 2 R ajustado = 65 % R2 ajustado = 52 % (4 variáveis: “Número de (3 variáveis explicativas: famílias clássicas com crianças “Número de alojamentos não menores de 5 anos”, clássicos”, “Número de residentes “Percentagem de alojamentos menores de 5 anos”, não clássicos”, “Percentagem de “Percentagem de núcleos mulheres residentes com mais familiares com até dois filhos ou de 65 anos”, “Densidade de netos não casados”) edifícios construídos de 96-01”) 2 R ajustado = 59 % R2 ajustado = 66% (4 variáveis: “Percentagem de alojamentos não clássicos”, (3 variáveis explicativas: “Percentagem de indivíduos ”Densidade de residentes com residentes empregados no sector idade superior a 65 anos”, primário ou secundário”, ”Percentagem de indivíduos sem “Número de edifícios com 1 ou 2 actividade económica”, pavimentos”, “Densidade de ”Número de edifícios alojamentos clássicos com clássicos”) proprietário ocupante”) R2 ajustado = 53% R2 ajustado = 67% (5 variáveis: “Percentagem de alojamentos não clássicos”, (3 variáveis explicativas: “Percentagem de mulheres “Percentagem de alojamentos residentes entre 10 e 24 anos”, não clássicos”, “Percentagem de núcleos ”Densidade de edifícios familiares com até dois filhos ou construídos entre 1996 e 2001”, netos não casados”, “Percentagens ”Percentagens de indivíduos a de indivíduos a trabalhar no trabalhar no concelho de concelho de residência”, “Número residência”) de edifícios com 5+ pavimentos”) a Regressões lineares pelo método stepwise com parâmetros 5% e 10% pelo teste F. Todos os modelos são significativos a 1% pelo teste F e todos os coeficientes são significativos pelo teste t a 5%. Ainda que os resultados apresentados na Tabela 3 se refiram a um pequeno número de lojas e não possam ser generalizados, indicam uma clara preferência do método de agregação pela regra de decisão sobre a média ponderada, com valores de coeficiente de determinação sempre superiores e em dois dos três casos com menos variáveis explicativas. Pelo contrário, quanto ao modelo de vizinhança a preferência não é clara, pelo que qualquer método pode ser utilizado sendo relevante fazer um 79 levantamento de vantagens e desvantagens de cada um. As áreas delimitadas por algoritmos de caminhos mais curtos têm a vantagem de considerar as acessibilidades por eixos de via. No entanto, neste caso particular estão em consideração supermercados de pequena a média dimensão para onde cerca de 60% dos clientes se deslocam a pé. O principal reparo que pode ser feito aos modelos de Voronoi é o facto de não terem em consideração obstáculos à deslocação nem a rede viária. Neste caso, ao se considerar a regra de decisão como método de agregação está-se a ajustar as fronteiras da área de influência às secções estatísticas, permitindo por este meio a introdução de alguma sensibilidade aos obstáculos e à rede viária. Por outro lado, consideram-se apenas áreas densamente povoadas onde as acessibilidades a pé são fáceis e sem grandes obstáculos. Apesar destas diferenças, nenhum dos modelos anteriores é teoricamente preferível a priori. Os buffers e os caminhos mais curtos são simples de calcular mas não têm em consideração a concorrência de outras lojas. Os modelos de Voronoi têm em consideração a concorrência mas são um pouco mais complexos de determinar obrigando à definição de uma função de atractividade. No entanto, se se utilizar um método aproximado em raster, como se procedeu neste estudo, os problemas de complexidade de cálculo podem ser minimizados e os resultados são suficientes para os objectivos pretendidos. Assim, optou-se por acrescentar algoritmos para delimitação de áreas de influência por diagramas de Voronoi multiplicativos ponderados ao pacote SIG, permitindo o cálculo de variáveis demográficas por qualquer um dos três métodos distintos. Teve-se ainda o cuidado de fornecer ao utilizador informação sobre as vantagens e desvantagens relativas de cada um dos modelos. 80 81 Capítulo IV ⎯⎯⎯⎯⎯⎯⎯ IV. DEFINIÇÃO DE UMA TIPOLOGIA E CARACTERIZAÇÃO Dada a grande variabilidade de lojas e clientes frequentes observada, tornou-se clara a necessidade de segmentar o conjunto das lojas em subgrupos mais homogéneos de lojas consideradas análogas. Na definição da tipologia de lojas utilizam-se vários métodos distintos sempre com integração do conhecimento de especialistas. A tipologia é posteriormente actualizada com novos dados de vendas e com os resultados do segundo inquérito. Por fim, os grupos de lojas são caracterizados usando todos os dados disponíveis e descritos no capítulo anterior. Dois artigos, referidos a duas etapas sucessivas do processo de segmentação de lojas encontram-se aprovados para publicação na “Revista Portuguesa de Marketing” (Mendes e Cardoso, 2005a) e no “Journal of Retailing and Consumer Services” (Mendes e Cardoso, 2005b). IV.A. Porquê segmentar? As lojas alimentares de pequena dimensão, como a cadeia em consideração, são conhecidas na literatura por Supermercados de Proximidade já que privilegiam a localização próxima do cliente e a rapidez de atendimento. Estas lojas tendem a atrair um conjunto de franjas de mercado como pessoas idosas, estudantes, donas de casa e profissionais jovens (Birkin et al., 2002). Estes resultados teóricos são confirmados pelos gráficos do Anexo F (pág. 210) a partir dos quais é possível concluir que os clientes da cadeia em consideração são clientes jovens em algumas lojas e mais frequentemente idosos de classes média ou alta que valorizam acima de tudo a proximidade à loja. No entanto, na cadeia em estudo existem lojas muito distintas, uma vez que apresentam dimensões e localizações diversificadas e as análises aos inquéritos apresentadas no Anexo F e G (pág. 210 e 215 respectivamente) mostram que existe grande diversidade no tipo de cliente assim como na localização das lojas. Variáveis coomportamentais como “frequência declarada à loja” ou o “meio de transporte” são bons 82 exemplos da grande variabilidade observada entre lojas. Assim, e ainda que o número de lojas pareça não o justificar à partida, torna-se importante realizar uma tipificação das lojas criando uma tipologia útil, o que é efectuado na secção seguinte. Apesar de na generalidade das observações efectuadas para a totalidade do universo de clientes da cadeia (se considerarmos cada loja com uma contribuição semelhante) se verificar uma manutenção de resultados entre os dois inquéritos, as variações observadas entre lojas são consideráveis, implicando uma grande variedade de clientes e localizações o que justifica uma vez mais a necessidade de definir uma tipologia. A definição da tipologia cumpre dois objectivos profundamente interligados: a necessidade de definir grupos de lojas análogas para previsão de vendas em novas localizações e a possibilidade de comparar o desempenho de lojas dentro do grupo de lojas análogas, nomeadamente utilizando estatísticas descritivas e os dados recolhidos. Note-se ainda que a necessidade de definir uma tipologia de lojas foi sugerida pelos especialistas na localização de novas lojas, uma vez que “sentiam” existir diferenças importantes entre lojas, as quais são confirmadas neste ponto com dados quantitativos. Neste ponto apresentam-se resultados comparativos entre os dois inquéritos, com especial incidência para aquelas questões onde maiores diferenças foram detectadas e que podem influenciar as previsões de vendas para as lojas. Neste caso, e tendo em conta que foram realizados cerca de 200 inquéritos por loja, para uma diferença de proporções ser significativa a 5 % é necessário uma variação entre inquéritos de cerca de 5 (para proporções próximas das caudas) e 10% (para proporções próximas dos 50%) considerando que a diferença segue uma distribuição normal (Harries, 2002). Nos gráficos da Figura 15 apresentam-se lojas inquiridas simultaneamente em ambos os inquéritos e algumas lojas novas apenas inquiridas no segundo inquérito. As lojas foram escolhidas tendo em conta que se quer ilustrar a variabilidade de resultados, pelo que se utilizam lojas de diferentes grupos definidos na secção seguinte. Em simultâneo pretende-se igualmente ilustrar a variação dos resultados entre os dois inquéritos para as lojas onde ambos foram efectuados. Nota-se dos gráficos da Figura 15 reduzidas variações dos resultados entre os dois inquéritos por loja, como já se tinha observado para o universo de clientes da cadeia. 83 FIGURA 15 COMPARAÇÃO ENTRE LOJAS E INQUÉRITOS PARA ALGUMAS VARIÁVEIS. (Lojas classificadas segundo a tipologia definida na Figura 22, pág. 100) frequência de visita à loja 100% 80% todos os dias 40% 20% todos os dias todos os dias 2-3x semana 60% 2-3x semana 2-3x semana 2-3x semana ocasionalmente ocasionalmente 0% 1x semana 2-3x semana ocasionalmente 1x semana 1x semana 1x semana 1x semana ocasionalmente 1ª vez\1-2xmês 1ª vez\1-2xmês 1ª vez\1-2xmês 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. Loja PK ( a) KO Loja UE Ljs Grandes 100% meio de transporte à loja todos os dias todos os dias OA Intermédias Loja RL LM Loja LA Loja BF Bairro <'s B. >'s Passagem Grandes de Passagem transportes públicos transportes públicos transportes públicos 80% 60% Loja MR a pé a pé a pé a pé a pé 40% 20% automóvel 0% automóvel automóvel automóvel automóvel 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. Loja PK Ljs Grandes (b) 100% segmento de cliente KO Loja UE OA Intermédias clientes eventuais clientes eventuais 80% Loja RL LM Loja LA Bairro <'s B. >'s Passagem Loja BF Loja M R Grandes de Passagem clientes eventuais clientes eventuais clientes eventuais 60% 40% clientes preferenciais clientes preferenciais clientes preferenciais clientes preferenciais 20% clientes preferenciais 0% 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. 1º inq. 2º inq. Loja PK ( c) Ljs Grandes KO Loja UE Intermédias OA Loja RL LM Loja LA Bairro <'s B. >'s Passagem Loja BF Loja MR Grandes de Passagem 84 Ainda que existam excepções importantes, nomeadamente relacionadas com valores monetários como os “gastos mensais em compras para o lar” e a “percentagem de gastos na cadeia” ou por formato, muito poucas das médias calculadas revelam alterações significativas a 5% entre os dois inquéritos22. Deste modo, nas variáveis utilizadas nesta dissertação efectua-se uma agregação dos valores dos dois inquéritos. Nos casos raros onde as variações são significativas, como as excepções mencionadas, utilizam-se os valores mais recentes do segundo inquérito. As maiores variações entre lojas notam-se em variáveis como a “frequência declarada à loja” uma vez que a classe “ocasionalmente” apresenta maiores valores em lojas classificadas como Lojas de Passagem ou Grandes de Passagem. Outras diferenças importantes observadas na Figura 15 e no Anexo G (pág. 215) notam-se nas seguintes variáveis: • “meio de transporte à loja”, “segmento de cliente”, “frequência à loja durante a semana” com diferenças entre as lojas de rua e as lojas situadas em centros comerciais; • “disponibilização de lugares de estacionamento” e “facilidade de estacionamento” percebida pelo cliente; • importância dada à proximidade da loja segundo a variável “tempo estimado na deslocação à loja”; • “percentagem de clientes que faz compras em hipermercados”; • variáveis socioeconómicas dos inquiridos como a “idade”, “classes de rendimento”, a “dimensão do agregado familiar” ou as “habilitações académicas”. Quanto às variáveis não recolhidos por inquérito, a variabilidade entre as lojas é igualmente evidente, como se pode verificar no Anexo I (pág. 222). Existem lojas situadas no centro das grandes cidades: Lisboa ou Porto, em bairros das mesmas ou no centro de cidades suburbanas pertencentes às zonas metropolitanas. Por fim, também as dimensões variando entre aproximadamente 450 m2 e 1.400 m2 e os valores de vendas anuais com diferenças que podem chegar aos 4 milhões de euros, justificam a necessidade de definir tipologias para efectuar comparações de desempenho. Por fim, o último argumento prende-se com a caracterização efectuada para os grupos definidos que se revelou significativa e coerente com o conhecimento dos especialistas. Os testes efectuados foram teste t de comparação de médias com amostras emparelhadas por loja, utilizando um nível de significância de 5%. 22 85 IV.B. Tipologias de Lojas: Integração do conhecimento de especialistas Das análises descritivas aos dados recolhidos e da experiência dos especialistas revelou-se a necessidade de definir uma tipologia para as lojas da cadeia existente. A definição de tipologias de lojas é essencial, não apenas para se efectuar a avaliação relativa das lojas e localizações, mas também para utilização em modelos de previsão de vendas para novas localizações. Apesar da abundância de dados recolhidos, o número de lojas com informação disponível é muito reduzido, o que dificulta o processo de selecção de variáveis adequadas ao agrupamento ou tipificação das lojas e respectiva caracterização. Vários autores (ver por exemplo Wedel e Kamakura, 2000, Milligan, 1996, Jain e Dubes, 1988) distinguem validação externa, por utilização de conhecimento qualitativo ou quantitativo não decorrente dos dados usados na tipificação e validação interna efectuada por reutilização dos dados usados como variáveis base de agrupamento. No actual contexto, a utilização de validação externa não quantitativa revelou-se essencial já que a validação interna ou externa com dados quantitativos não é possível com rigor, dada a escassez de lojas existentes. Note-se que as questões e validação são especialmente relevantes, já que os métodos utilizados permitem sempre obter uma partição dos dados, a qual tem sempre de ser avaliada e comparada com outras tendo em conta os objectivos do estudo (Cardoso, 2000 e Gordon, 1999). Assim, utilizaram-se e compararam-se três metodologias muito distintas para integração do conhecimento de especialistas na segmentação de lojas de retalho de pequena dimensão. • Numa integração a priori, foi solicitado aos especialistas que comparassem pares de lojas usando uma escala ordinal de dissemelhanças percebidas. Obteve-se assim uma matriz de dissemelhanças que foi utilizada directamente pelo método hierárquico de análise de agrupamentos para obter uma tipificação das lojas. Cada um dos tipos de lojas foi, depois, caracterizado utilizando variáveis seleccionadas por meio de regressão linear sobre as dimensões perceptuais associadas à análise MDS sobre a matriz de dissemelhanças. • Numa validação a posteriori, foi pedida a colaboração dos especialistas na interpretação e escolha da melhor tipologia obtida utilizando aprendizagem supervisionada. Nomeadamente, utilizaram-se árvores de regressão com vendas anuais como variável dependente e foram consideradas diferentes parametrizações para obter uma grande variedade de tipologias. • Numa metodologia interactiva, próxima dos métodos de validação visual, solicitouse aos especialistas que seleccionassem conjuntos de variáveis base de agrupamento. Utilizando vários métodos de análise de agrupamentos obteve-se, com essas variáveis, tipologias que foram posteriormente apresentadas aos especialistas, reiniciando-se o processo no caso de estes não as considerarem satisfatórias. 86 Por fim, os resultados obtidos pelas anteriores metodologias foram comparados e avaliados segundo vários aspectos, tendo-se seleccionado a tipologia do método interactivo como preferível. Na secção seguinte, a referida tipologia é caracterizada com toda a informação sobre lojas existentes disponível. IV.B.1. Utilização de Conhecimento de Especialistas Nesta dissertação utiliza-se conhecimento de especialistas na validação externa não quantitativa da segmentação de lojas de retalho alimentar pertencentes a uma cadeia de distribuição, dada a reconhecida dificuldade em validar modelos com muito poucas observações (Wedel e Kamakura, 2000; Moutinho et al., 1998; Naert e Leeflang, 1978). O conhecimento de especialistas ou da área em estudo (domain knowledge) tem vindo a ser utilizado na avaliação de resultados ou integrado na própria metodologia em diversas áreas: como aplicações de marketing (Cardoso, 2000, Owrang, 2000, Pasa, 1996, Moutinho e Brownlie, 1994) e na validação de sistemas periciais e de métodos automáticos (e.g. Turban et al., 2005, Guijarro-Berdiñas e Alonso-Betanzos, 2002, Adelman e Riedel, 1997). Também os métodos de validação visual implicam a utilização do conhecimento e a interpretação de resultados por parte do utilizador (Hathaway e Bezdek, 2003, Hennig e Christlieb, 2002, Jones, 1996). No que respeita às aplicações de marketing, a integração de conhecimento de especialistas e a fusão de dados de várias proveniências vem desde há muito. Hanssens et al. (2001) apresentam várias razões para a necessidade dessa integração, como a validação e confirmação dos dados, a procura de dados mais precisos e completos ou a necessidade de observar a realidade por diferentes perspectivas. No entanto, essa integração é raramente formalizada, sendo as opiniões e intuições integradas nos resultados de forma não explícita e frequentemente não citada. No entanto, observam-se excepções em algumas áreas de aplicação como no desenvolvimento de escalas relacionadas com o consumo (Hardestya e Bearden, 2004), na previsão com integração de conhecimento não quantitativo (Sanders e Ritzman, 2004 e Moutinho et al., 1998), na pesquisa de conhecimento em grandes volumes de dados (Owrang, 2000), no processo de tomada de decisões de marketing (Pasa, 1996), na definição de segmentos de clientes de unidades hoteleiras (Cardoso, 2000) e na identificação de lojas análogas em estudos de avaliação e previsão de vendas de novas lojas (Clarke et al., 2003b). Como observa Cardoso (2000) o especialista concentra-se na avaliação de cada segmento e da sua utilidade para suporte de decisões e futuras acções de marketing. 87 Owrang (2000), por exemplo, utiliza conhecimento do domínio para conduzir e restringir a pesquisa de conhecimento relevante em grandes bases de dados. Vários mecanismos são sugeridos para este fim. Pasa (1996) constrói um modelo teórico que auxilia na avaliação do conhecimento de especialistas em marketing. Observa ainda como o meio e as condições específicas influenciam a utilização deste tipo de conhecimento na tomada de decisões. Este autor conclui que meios mais instáveis e competitivos e companhias de maiores dimensões aumentam o uso deste tipo de conhecimento em decisões de marketing. A metodologia de sistemas soft (soft systems methodologies)23, que integra informação qualitativa e intuições de especialistas com metodologias de estruturação para definir problemas e construir modelos, é igualmente um exemplo da utilização de conhecimento de especialistas (Pidd, 2003). Este tipo de metodologias é adoptado por Clarke et al. (2003b) para a integração de intuições qualitativas de especialistas com uso de mecanismos de estruturação para identificação de lojas análogas. Neste artigo, os autores recomendam o uso deste tipo de metodologias como complemento para as metodologias quantitativas, chegando mesmo a sugerir que determinados aspectos da avaliação de localizações não devem ser quantificados. Em trabalhos anteriores, os mesmos autores definem uma base teórica para a integração de conhecimento e intuição de especialistas em processos de decisão (Clarke e Mackaness, 2001) e descrevem um sistema informático que permite apoiar a argumentação dum grupo de discussão, em tempo real, para apoio a decisões complexas (Clarke et al., 2003a). Na literatura de reconhecimento de padrões (pattern recognition), autores como Pedrycz (2004) reconhecem a importância de incorporar conhecimento de especialistas em métodos de análise de agrupamentos, em especial nos difusos (fuzzy clustering analysis). Para justificar a utilização deste tipo de conhecimento, é sugerido que determinados aspectos fundamentais podem não estar disponíveis ou podem não ser facilmente quantificáveis. Vários autores reconhecem ainda que a análise de agrupamentos é, por definição, uma actividade abstracta claramente dependente da área de conhecimento onde é aplicada (Liu e Samal, 2002 e Gordon, 1999). Ainda na literatura de reconhecimento de padrões, Bay e Pazzani (2000) utilizam um painel de especialistas para avaliar e interpretar regras de classificação. Neste trabalho, os autores concluem que muitas das regras de classificação geradas são redundantes ou inúteis e, ainda que reconheçam a subjectividade das interpretações, 23 Tradução retirada de DicIO, www.apdio.pt/DicIO/, em 8/9/2004. 88 confirma a necessidade deste tipo de conhecimento. Outros trabalhos consideram igualmente a dificuldade dos métodos automáticos quantitativos em obter regras de classificação interpretáveis e inovadoras, sugerindo a utilização de conhecimento de especialistas e técnicas da psicologia cognitiva (Pazzani, 2000). Ainda assim, poucos trabalhos de análise de agrupamentos têm vindo a ser apresentados com a explícita integração de conhecimento de especialistas (ver Jain et al. 1999 para uma revisão da literatura). A maioria dos autores integra o conhecimento de especialistas na análise de agrupamentos pedindo-lhes que façam o seu próprio agrupamento das entidades e utilizando índices de semelhança para comparar com resultados de vários métodos quantitativos e de reconhecimento de padrões (ver por exemplo: Liu e Samal, 2002, Halkidi et al., 2001 e Jain e Dubes, 1988). No caso presente, não foi possível chegar a acordo sobre uma tipologia definida pelos utilizadores, já que os especialistas consideraram esta tarefa complexa e excessivamente subjectiva. Assim, outros métodos são analisados e comparados, sem ser necessário solicitar aos especialistas a construção de agrupamentos. IV.B.2. Integração do Conhecimento de Especialistas a Priori Nesta aproximação ao problema de integração do conhecimento de especialistas, utiliza-se uma matriz de dissemelhanças percebidas entre as lojas. A esta abordagem denomina-se integração a priori, uma vez que a intervenção dos especialistas realiza-se apenas na fase inicial. Para tal, solicitou-se a alguns especialistas, profundamente conhecedores das lojas, o preenchimento de um questionário onde se comparam pares de lojas segundo uma escala de dissemelhanças ordinal, com nove pontos (desde 1 – “Lojas muito semelhantes” a 9 – “lojas distintas”, ver Anexo C, pág. 200). A comparação é genérica tendo, no entanto, sido realçado que tomassem em especial consideração os aspectos da localização, caracterização da loja e do desempenho da mesma. A matriz simétrica de dissemelhanças utilizada nesta dissertação foi obtida por consenso entre os vários especialistas. Várias metodologias podem ser adoptadas para utilizar a matriz de dissemelhanças percebidas anterior. Os dois métodos a seguir descritos correspondem a duas abordagens iniciais exploradas no artigo Mendes e Cardoso (2005a): 89 • No método CLUST>MDL utiliza-se a matriz de dissemelhanças directamente, como base para obtenção de uma tipologia de lojas por métodos hierárquicos de análise de agrupamentos (CLUST), seguindo-se um Modelo Discriminante Lógico (MDL) para selecção de variáveis utilizadas na caracterização e interpretação dos grupos. • No método MDS>CLUST começa-se por realizar uma análise MDS – Multidimensional Scaling não métrica, com posterior extracção de variáveis relevantes para a quantificação das dissemelhanças (usando regressão) e por fim aplica-se uma análise de agrupamentos (CLUST) sobre essas variáveis. Ambas as vias são possíveis e teoricamente aceitáveis, tendo-se verificado que os resultados obtidos são muito semelhantes. Na verdade, a metodologia MDS>CLUST identificou um elevado número de variáveis muito bem explicadas pelas quatro dimensões, mas que se verificou estarem altamente correlacionadas. Assim, foi necessário recorrer a análises factoriais usando componentes principais como método de extracção. Dessa análise extraíram-se duas componentes principais que poderiam ser utilizadas como variáveis base de agrupamento. No entanto, vários autores desaconselham a utilização dos componentes principais directamente na análise de agrupamentos uma vez que estes podem não conseguir reproduzir o espaço multidimensional original e podem mascarar grupos existentes ou sugerir grupos inexistentes nos dados originais (Milligan, 1996). Ainda que tal conclusão não seja consensual, adoptou-se uma solução de compromisso: um procedimento heurístico que consistiu em iniciar o agrupamento pelo método hierárquico por um número mínimo de variáveis (as duas com maiores pesos nos 2 componentes principais extraídos) e ir adicionando novas variáveis usando o critério de adicionar primeiro as variáveis menos correlacionadas com as já incluídas. Como critério de paragem utilizaram-se técnicas de validação interna como a variância explicada pelos agrupamentos e a avaliação dos dendrogramas formados. Deste procedimento resultou uma segmentação das lojas em apenas 3 grupos que é caracterizada e avaliada em Mendes e Cardoso (2005a). Esta metodologia corre o risco de se verificar uma acumulação de erros na selecção de variáveis, que assim podem não traduzir rigorosamente a matriz de dissemelhanças inicial. Nesta dissertação segue-se uma metodologia semelhante à CLUST>MDL, utilizando-se o método hierárquico de Ward (Ward, 1963) sobre a matriz de dissemelhanças percebidas e obtendo-se seis grupos, segundo o dendrograma da Figura 16. Os resultados deste agrupamento revelaram-se consistentes com os obtidos por meio de outros métodos hierárquicos de agrupamento, como o método do vizinho mais afastado e o da mediana. Segundo o método das ligações médias e o método dos 90 centróides, algumas lojas isolam-se primeiro, mas o essencial dos agrupamentos mantém-se. FIGURA 16 DENDROGRAMA DA MATRIZ DE DISSEMELHANÇAS (a) GRÁFICO DE COEFICIENTES DE FUSÃO (b). (Partição assinalada por uma linha vertical e rótulos resultantes da caracterização dos seis grupos de lojas) IE òø 2A òôòø Elevado Potencial PY ò÷ ùòòòòòòòø AN òòò÷ ùòòòòòòòòòø RP òûòòòø ó ó ùòòòòò÷ ó KO ò÷ Pequenas de ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø Elevado Potencial ó ó AA òòòûò÷ 2N òòò÷ UA òûòòòòòø ó ó RA ò÷ ó ó ó FA òø ùòòòòòòòòòòòòò÷ ó OA òú ó ó Lojas Pequenas FO òôòòòòò÷ ó UE òú ó NR òú Lojas de Bairro ùòòòòòòòòòòòø PK òòòø ó ó LA òòòôòòò÷ ó Baixo Potencial ó ùòòòòò÷ òòòòò÷ ó 20% ó ó Lojas Grandes 0% 2 BR òòòòòûòòòòòòò÷ (a) MR ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 10% LN òòòûòòòòòòòòòø 2R òòò÷ variações relativas do coeficiente de fusão UB òûòòòòòø LM ò÷ RL òòò÷ ó 30% BF ò÷ (b) 3 4 5 6 7 8 9 10 11 12 13 14 número de grupos Para o gráfico de coeficientes de fusão24 opta-se por representar variações relativas em função do número de grupos, já que permite encontrar um máximo com facilidade, ainda que seja pouco comum na literatura. Neste caso verificam-se valores máximos locais para 2, 4 e 6 grupos. Tendo em conta que dois e quatro grupos foram considerados um reduzido número de grupos optou-se por 6, que apresenta uma variação relativa do coeficiente de fusão apenas 1% inferior à solução com 4 grupos. Sublinhe-se que foram experimentados outros métodos para determinação do número de grupos (ver bons textos sobre este assunto em Everitt et al., 2001 e Gordon, 1999). No entanto, os diferentes métodos conduziram a números de grupos contraditórios, e como Utiliza-se a expressão “coeficientes de fusão” ou “de aglomeração” como tradução de distance cluster combine ou fusion levels correspondendo ao valor de dissemelhança para o qual dois agrupamentos se fundem (ou dividem). Esta tradução é utilizada por exemplo em Reis (2001). 24 91 não se verifica qualquer convergência dos vários autores quanto à metodologia mais adequada, manteve-se o critério das variações relativas de coeficientes de fusão. Para a caracterização dos agrupamentos, em Mendes e Cardoso (2005a) recorreu-se a árvores discriminantes. Neste caso, recorreu-se a análise MDS – Multidimensional Scaling, que tem a vantagem de basear a caracterização não nos grupos formados mas nos dados originais da matriz de dissemelhanças. No entanto, os resultados são semelhantes ainda que algumas das variáveis seleccionadas sejam distintas e a metodologia adoptada neste estudo conduza a uma maior variedade de variáveis de caracterização e logo a uma caracterização mais rica. Assim, utilizou-se MDS não paramétrica, utilizando o algoritmo ALSCAL de Takane, Young e Leeuw (referido em Cox e Cox, 2000). Adoptou-se uma solução com quatro dimensões que corresponde a um valor de RSQ de 96% e um valor de stress de Kruscal de 7,8%25. Na Figura 17 apresentam-se as lojas no espaço das dimensões MDS perceptuais extraídas e ainda rótulos derivados da caracterização efectuada. Para a selecção das variáveis que melhor são explicadas pelas quatro dimensões MDS, foram executadas cerca de duas centenas de regressões, usando como dependentes todas as variáveis em escalas quantitativas disponíveis. Os resultados permitiram a identificação das variáveis apresentadas nos gráficos da Figura 18. Sublinhe-se que apenas se incluem variáveis correspondentes a regressões com probabilidades de significância (p value) inferior a 2% segundo a estatística F. Da observação da Figura 18 é fácil concluir que a dimensão MDS 1 está relacionada com a dimensão da loja, facilidades de estacionamento e inversamente relacionada com a visibilidade da loja. A dimensão MDS 2 está relacionada com zonas menos concorrenciais, com uma população de menores rendimentos e inversamente relacionada com clientes de passagem. No caso das dimensões MDS 3 e 4, a primeira está relacionada com o número de clientes preferenciais e as vendas por unidade de área e a segunda com os clientes ocasionais e inversamente relacionada com a “percentagem de clientes a menos de 5 minutos da loja” e com clientes de menos rendimentos. Da descrição anterior e da observação das Figura 17 e Figura 18, podem caracterizar-se os grupos formados e explicar os rótulos utilizados: RSQ corresponde à proporção da variância nos dados originais explicada pelas dimensões extraídas e pretende-se o maior possível. O índice de stress de Kruscal é usado como medida de erro de ajustamento sendo tanto melhor quanto menor for (ver Everitt e Dunn, 2001). 25 92 FIGURA 17 LOJAS NO ESPAÇO DE QUATRO DIMENSÕES MDS EXTRAÍDAS. (Rótulos correspondentes à caracterização dos grupos, linhas usadas para unir lojas do grupo) Dimensão MDS 4 A A A -1,41 0,16 1,72 A Lojas Grandes A 2,50 2,00 1,50 1,00 0,50 0,00 -0,50 -1,00 A A A A Baixo Potencial A A Lojas de Bairro A A A Elevado Potencial A A AA Lojas Pequenas A A AA A A A 1,50 Pequenas de 1,00 Elevado Potencial0,50 -1,50 -1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 2,00 0,00 -0,50 -1,00 -1,50 • Lojas Pequenas: um grupo muito homogéneo caracterizado por valores muito negativos nas dimensões MDS 1 e na 3. De acordo com a caracterização destas dimensões, trata-se de lojas pequenas em zonas com poucos clientes idosos ou preferenciais, mas com vendas por área da loja consideráveis. • Lojas de Bairro: este grupo é constituído por 5 lojas caracterizadas por baixos valores na dimensão MDS 4 (relacionada com clientes ocasionais) e igualmente baixos valores na dimensão 2 (relacionada com zonas menos concorrenciais e populações de menores rendimentos). Assim, este grupo corresponde a lojas em zonas com elevada concorrência, com poucos clientes de rendimentos baixos e, igualmente, poucos clientes ocasionais. • Lojas de Elevado Potencial: quatro lojas com baixos a médios valores na dimensão MDS 2 e valores elevados na 3. Na sequência da caracterização efectuada para estas dimensões, tratam-se de lojas em zonas com média a baixa concorrência mas elevadas percentagens de clientes preferenciais, justificando o rótulo de elevado potencial. • Lojas Pequenas de Elevado Potencial: um grupo de apenas 3 lojas caracterizadas por valores elevados na dimensão MDS 3 e muito baixos na dimensão 1. Assim, trata-se de um grupo de muito elevado potencial, com valores elevados de clientes preferenciais e com crianças, mas áreas de vendas muito reduzidas. 93 FIGURA 18 CARACTERIZAÇÃO DAS DIMENSÕES MDS COM BASE EM COEFICIENTES DE REGRESSÃO PADRÃO. (Usam-se valores absolutos sendo os valores negativos assinalados por marcas pretas) Dimensão MDS 1 DADOS DE MYSTERY SHOPPING nº de caixas de saída 0,6 0,4 nº de lugares em estacionamento 0,2 0 Dimensão MDS 4 Dimensão MDS 2 vendas anuais por unidade de área avaliação da visibiliade a pé Dimensão MDS 3 ( a) DADOS DEMOGRÁFICOS E CONC. avaliação da facilidade de estacionamento Dimensão MDS 1 nº de famílias com 1-2 elementos Dimensão MDS 4 0,6 0,4 0,2 0 empregados no sectores primário e secundário Dimensão MDS 2 área de influência por Voronois nº de residentes femininos com > 65 anos Dimensão MDS 3 (b) % de famílias com meninas até 4 anos % de resid. % de resid. com filhos ou netos até 6 anos Dimensão MDS 1 DADOS DE INQUÉRITOS percentagem de inquiridos a menos de 5 min. Dimensão MDS 4 0,6 0,4 0,2 0 percentagem de inquiridos ocasionais ( c) Dimensão MDS 3 percentagem de inquiridos de passagem Dimensão MDS 2 percentagem de clientes preferenciais 94 • Lojas de Baixo Potencial: duas lojas de dimensão média, com valores elevados na dimensão MDS 2, mas valores baixos a médios na dimensão 4 e principalmente muito baixos na dimensão 3. Logo, estas são lojas localizadas em zonas de reduzida concorrência, mas com reduzidas percentagens de clientes preferenciais e igualmente de clientes de passagem. • Lojas Grandes: duas lojas com dimensão muito acima da média como os valores elevados na dimensão MDS 1 comprovam. Ambas as lojas têm valores negativos na dimensão MDS 2, correspondendo a elevados níveis de concorrência e áreas de influência reduzidas, e valores elevados na dimensão 4, correspondendo a elevadas percentagens de clientes ocasionais e provenientes de localizações a mais de 5 minutos da loja. IV.B.3. Integração de Conhecimento por Validação a Posteriori Neste ponto descreve-se uma metodologia para integração de conhecimento de especialistas por validação dos agrupamentos de lojas a posteriori. A metodologia proposta utiliza um método de aprendizagem supervisionada (árvore de regressão), usando como dependente uma variável métrica, traduzindo o desempenho das lojas, e como explicativas, todas as variáveis recolhidas e associadas às lojas existentes da cadeia. Deste modo, construiu-se grande número de árvores que foram avaliadas pelos especialistas, tendo-se seleccionado uma com resultados mais próximos das expectativas destes. O método de aprendizagem supervisionada escolhido foi o das árvores de regressão CART – Classification And Regression Trees (Breiman et al., 1984) capaz de simultaneamente constituir grupos e prever vendas anuais baseadas no valor médio da variável dependente no nó folha. Aplicações recentes de árvores de regressão e classificação em segmentação e marketing encontram-se descritas nos trabalhos de Cardoso e Moutinho (2003), Cooley (2002), Blamires (2002) e Micheaux e Gayet (2001). Foram utilizadas várias variáveis dependentes, nomeadamente “vendas anuais” para diversos anos e “vendas por unidade de área” já que este último rácio é muito comum como medida de desempenho de lojas na literatura (ver por exemplo Birkin et al., 2002). Todas as restantes variáveis foram utilizadas como explicativas na construção de regras proposicionais que permitiram dividir as lojas da cadeia em grupos homogéneos nos valores da variável dependente, correspondendo a valores mínimos de diversidade (impurity measure). Várias árvores, obtidas com diferentes variáveis dependentes e parametrizações, foram construídas. 95 Os procedimentos envolvendo aprendizagem supervisionada utilizados por exemplo em data mining26 caracterizam-se por dispor de grandes quantidades de dados para validação quantitativa interna e externa (Hand et al., 2001 e Berry e Linoff, 1997). Na presente aplicação, o número reduzido de lojas impede a utilização de métodos de validação como a divisão em amostra de treino e de teste exigindo uma especial atenção à estabilidade dos resultados. Na verdade, várias variáveis conduzem a valores de diversidade muito próximos, o que implica uma cuidadosa validação externa. Para ultrapassar este tipo de limitações utilizam-se os seguintes procedimentos: • Várias árvores foram construídas com diferentes parametrizações e variáveis de partição alternativas nas situações de quasi-empates. • Foram rejeitadas todas as árvores onde as variáveis não apresentavam o comportamento esperado face à variável dependente, por exemplo: se num nó folha uma variável que represente a dimensão da loja tiver valores superiores, espera-se intuitivamente que o grupo de lojas que o constituem tenha um valor de vendas médio igualmente superior. • Foram calculadas estimativas de erro pelo método leave-one-out e apresentados aos especialistas para apoio ao processo de selecção da árvore a utilizar. Note-se que o método leave-one-out, também conhecido por jackknife, consiste em classificar cada uma das lojas segundo uma árvore construída com as restantes. A estimativa de erro corresponde ao número de lojas mal classificadas sobre o total (Cardoso, 2000). Na Figura 19 apresenta-se a árvore escolhida. As regras proposicionais foram avaliadas pelos especialistas, tendo sido consideradas coerentes com as expectativas e com o conhecimento da área em estudo. Os grupos de lojas observados nos nós folha foram considerados mais adequados do que os das restantes árvores analisadas. É importante notar que a árvore escolhida não corresponde ao melhor valor estimado de erro pelo método leave-one-out no conjunto das árvores em comparação. A partir dos histogramas apresentados na árvore da Figura 19 é possível caracterizar directamente os grupos correspondentes aos nós folha. Esta característica das árvores de classificação de definirem grupos e, em simultâneo, uma caracterização com base nas regras proposicionais situadas no caminho entre o nó folha e a raiz da árvore binária, foi um dos aspectos mais valorizados pelos especialistas durante a validação a posteriori. • Lojas Grandes: trata-se de um grupo de 6 lojas com os valores mais elevados de área comercial e igualmente de vendas anuais para o ano de 2002. Note-se que a expressão data mining pode ser traduzida por “prospecção de dados”, como sugerido pelo dicIO, www.apdio.pt/DicIO/, consultado em 12/10/2004. No entanto, esta última expressão ainda é pouco usada na literatura em Português. 26 96 • Lojas de Baixo Potencial: neste grupo de apenas três lojas encontram-se as lojas com menores vendas no ano de 2002, com dimensões menores e valores reduzidos de crianças na área de influência, correspondendo a zonas com poucos residentes e \ ou envelhecidos. • Lojas de Elevado Potencial: pelo contrário, neste grupo situam-se as lojas com maiores vendas anuais de entre aquelas que têm dimensão média a baixa. Caracterizam-se ainda por se situarem em zonas com reduzida concorrência e um número médio a elevado de residentes muito jovens. FIGURA 19 ÁRVORE DE REGRESSÃO ESCOLHIDA PELOS ESPECIALISTAS. (Os gráficos de barras representam os histogramas da variável dependente em cada nó) vendas anuais para 2002 área de vendas Improvement=17393,3137 < > nº de crianças até 4 anos Improvement=14416,3908 Grandes Lojas {BR, MR, KO, AN, IE, 2R} < > Baixo Potencial {FO, LN, UA} área de influência por Voronois Improvement=6202,8036 < > % de inquiridos fiéis à insígnia Improvement=2634,0257 Elevado Potencial {BF, 2A, 2N} > < Lojas de Bairro {PK, UE, PY, LM, OA} Lojas de Passagem {UB, RL, RP, NR, LA, FA, RA, AA} 97 • Lojas de Bairro: são lojas com vendas intermédias, caracterizadas por áreas de vendas reduzidas a médias, concorrência elevada a média, população residente muito jovem igualmente elevada e elevadas “percentagem de inquiridos fiéis à insígnia”. Note-se que o nome do grupo se deve ao facto de se ter observado uma relação entre a última variável indicada, o meio de transporte e a proximidade à loja (ver gráfico (n) do Anexo F, pág. 210). • Lojas de Passagem: são lojas em tudo semelhantes às anteriores Lojas de Bairro mas com uma fidelidade muito inferior, a que correspondem igualmente vendas inferiores. Sublinhe-se ainda que a árvore original incluía uma nova regra proposicional que dividia este grupo em função da âncora próxima da loja, correspondendo as maiores vendas a “escolas ou universidades”. No entanto, esta partição foi considerada pouco relevante pelos especialistas e podada da árvore apresentada. IV.B.4. Método Interactivo de Integração de Conhecimento Nesta aproximação à integração do conhecimento de especialistas, utiliza-se um método de agrupamento baseado numa matriz de dissemelhanças calculada a partir de um conjunto de variáveis seleccionadas pelos especialistas e cujo resultado é igualmente validado pelos especialistas. O processo foi reinicializado várias vezes com novas variáveis base de agrupamento, num procedimento que durou vários meses. Foi mantido um diálogo constante com os especialistas e todas as análises foram previamente acordadas. A partir dos critérios de apreciação destes especialistas e dos muitos agrupamentos que foram sendo construídos, concluiu-se pela maior relevância de dois factores no agrupamento das lojas: • uma medida da dimensão da loja ou das vendas; • uma medida da proporção de clientes residenciais versus clientes de passagem já que estes dois tipos de clientela eram, a priori, percebidos como distintos em termos da sua contribuição para o desempenho. O primeiro factor poderia ser traduzido pelas vendas realizadas ou pela área da loja. Optou-se pela primeira variável tendo em conta a sua maior dispersão relativa. A escolha da variável para traduzir o segundo factor atendeu, também, a critérios de dispersão. Optou-se, neste caso, pelo cruzamento de duas perguntas efectuadas no inquérito, definindo assim a percentagem de inquiridos que declararam provir de casa e voltar para casa após as compras ou a “percentagem de viagens exclusivas à loja”. Os resultados adoptados foram obtidos com a distância euclidiana quadrada, variáveis padronizadas por subtracção da média e divisão pelo desvio padrão, e o método de Ward. No entanto, foram efectuadas inúmeras combinações de medidas de 98 dissemelhança e métodos de agregação, obtendo-se apenas variações hierárquicas na ordem de formação dos grupos, frequente separação das lojas consideradas atípicas e pequenas alterações na classificação de duas lojas. Finalmente os grupos foram validados pelos especialistas que os consideraram adequados. Os primeiros resultados foram obtidos com vendas anuais para o ano 2000 e com a “percentagem de viagens exclusivas” calculada a partir dos resultados do primeiro inquérito (Cardoso e Mendes, 2002). Obtiveram-se assim quatro tipos de lojas e identificaram-se ainda três lojas atípicas (outliers) que podem ser observadas na Figura 20, com os rótulos de caracterização. As duas lojas com maiores valores de vendas foram posteriormente consideradas grupos singulares, i.e. sementes de novos grupos. FIGURA 20 TIPOLOGIA PELO MÉTODO INTERACTIVO COM DADOS DE 2000. (Ovais a tracejado claro para os grupos definidos pela tipologia) Vendas Anuais para 2000 (variações) 2,0 Lojas Grandes 1,5 1,0 Lojas de Bairro >'s Grupos Singulares 0,5 0,0 -0,5 Lojas de Passagem Lojas de Bairro <'s -1,0 -1,5 Loja Atípica -2,0 30 % 35 % 40 % 45 % 50 % 55 % 60 % 65 % 70 % 75 % Percentagem de Inquiridos a Efectuar Viagens Exclusivas à Loja • As lojas de bairro caracterizam-se essencialmente por uma clientela idosa, bastante fiel e com elevadas percentagens de visitas exclusivas à loja. Este grupo encontra-se dividido em Lojas de Bairro Maiores e Lojas de Bairro Menores que se distinguem essencialmente pelo nível de vendas anuais e pela dimensão da área comercial. • As Lojas Grandes são dos grupos mais bem sucedidos em termos de vendas absolutas, ainda que apresentem alguma heterogeneidade na dimensão da área comercial. 80 % 99 • As Lojas de Passagem caracterizam-se principalmente por fortíssimos níveis de concorrência e elevadas percentagens de “clientes de passagem”. Tendo em conta a dinâmica do sistema, resultante da alteração do comportamento dos clientes e da abertura de novas lojas, as tipologias foram revistas com vendas de 2002 e as respostas do segundo inquérito, os resultados apresentam-se na Figura 21. Note-se que no gráfico (b) dos coeficientes de fusão relativos o máximo é conseguido com 6 ou 7 grupos, se se considerar 3 grupos demasiado reduzido. Apesar do quase empate verificado optou-se por 7 grupos, considerando a separação entre Lojas de Bairro Menores e Lojas Intermédias relevante e útil para os objectivos pretendidos. FIGURA 21 DENDROGRAMA DE WARD DO MÉTODO INTERACTIVO (a) GRÁFICO DE COEFICIENTES DE FUSÃO (b) (Partição assinalada por uma linha vertical e rótulos resultantes da caracterização dos grupos de lojas) RL ò ø Lojas de Bairro <'s RP ò ô ò ò ò ø FO ò ÷ ùòòòø UE ò ø ó ó OA ò ô ò ò ò ÷ RA ò ú ó Intermédias ùòòòòòòòø AA ò ÷ ó ó LA ò û ò ø ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø FA ò ÷ ù ò ò ò ò ò ÷ UB ò ò ò ÷ ó ó Lojas de Passagem ó ó LN ò ò ò û ò ò ò ò ò ò ò ò ò ò ò ò ò ÷ ó UA ò ò ò ÷ ó Lojas Atípicas BF ò û ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø ó MR ò ÷ ó ó ó ó Grandes de Passagem PK ò ø 60% Lojas Grandes variações relativas do coeficiente de fusão 2R ò ú 2A ò ô ò ò ò ò ò ò ò ò ò ò ò ø KO ò ú ó IE ò ú ó ó ó 40% ó BR ò ÷ ùòòòòòòòòòòòòòòòòòòòòòòòòò÷ AN ò ø ó LM ò ú PY ò ô ò ø ó Lojas de ó Bairro >'s NR ò ÷ ù ò ò ò ò ò ò ò ò ò ÷ ( a) ùòòòòòòòòò÷ 2N ò ò ò ÷ (b) 20% 0% 2 3 4 5 6 7 8 9 10 11 12 13 14 número de grupos Considerando 7 grupos observa-se uma considerável estabilidade na tipologia obtida, mantendo-se os quatro grupos anteriores, com apenas variações na variabilidade no interior dos grupos, como pode ser observado na diferença entre as ovais apresentadas na Figura 22. Nomeadamente, o grupo das Lojas de Passagem e em 100 menor grau as Lojas de Bairro Menores são agora mais coesos com a saída de uma loja em cada um deles. Pelo contrário as Lojas Grandes e as Lojas de Bairro Maiores diminuíram a sua coesão por aumento do número de lojas e por divergência na evolução do valor das variáveis para 2002. FIGURA 22 TIPOLOGIA PELO MÉTODO INTERACTIVO PARA DOIS ANOS DISTINTOS. (Ovais a tracejado claro para grupos em 2000 e escuro para 2002. Marcas claras para valores do ano de 2000 e escuras para 2002. A forma das marcas corresponde ao grupo em que as lojas foram classificadas unindo a linha as duas marcas para a mesma loja, excepto para as lojas novas em 2002 que surgem sem sombra a) 2,0 Lojas Grandes Vendas Anuais para 2000 (claro) e 2002 (escuro) (variações) 1,5 Lojas de Bairro >'s 1,0 0,5 Grandes de Passagem 0,0 Intermédias -0,5 -1,0 Lojas de Passagem Lojas de Bairro <'s -1,5 -2,0 30 % Lojas Atípicas 35 % 40 % 45 % 50 % 55 % 60 % 65 % 70 % 75 % Percentagem de Inquiridos a Efectuar Viagens Exclusivas à Loja 80 % a Como o segundo inquérito não foi realizado para todas as lojas, alguns valores da variável “percentagem de inquiridos a efectuar viagens exclusivas à loja” são considerados iguais aos obtidos pelo inquérito de 2000. A principal diferença, que justifica a necessidade de rever a tipologia quando mais dados são disponibilizados, é o aparecimento de dois novos grupos por alteração da classificação de algumas lojas e por abertura de seis novas. As Lojas Intermédias apresentam valores entre as Lojas Grandes e as de Bairro e as Lojas Grandes de Passagem, caracterizadas por valores muito elevados de vendas e muito baixos de viagens exclusivas. Este grupo é resultante da convergência de duas lojas anteriormente consideradas atípicas ou grupos singulares. Estes grupos encontram-se caracterizados na secção IV.C (pág. 107) com todos os dados disponíveis e foram mais uma vez validados pelos especialistas. Neste caso, estes profissionais concordaram com a tipologia e com as lojas atípicas identificadas, e apenas levantaram algumas questões relativamente ao grupo das Lojas Intermédias que 101 consideraram pouco distinto das Lojas de Bairro Menores. Estas questões fazem todo o sentido se se observar o gráfico (b) da Figura 21 de coeficientes de fusão relativos onde não é clara a partição em 6 ou 7 grupos. Para tentar esclarecer este ponto, realizaram-se diversas análises incluindo uma análise de agrupamentos não hierárquica usando como sementes lojas próximas do centróide dos grupos e excluindo o centróide das Lojas Intermédias. Os cinco grupos formados deste modo com dados de 2002 foram considerados pouco coesos e não satisfatórios pelos especialistas, apresentando nomeadamente demasiada variabilidade a nível das vendas. Assim, optou-se pelos resultados iniciais apresentados na Figura 22. IV.B.5. Análise de Resultados e Comparação das Tipificações Obtidas Nesta secção fazem-se algumas análises e comparações de modo a revelar as diferenças entre as três tipologias obtidas pelas diferentes metodologias. Assim, na Tabela 4 resumem-se as principais características das diferentes metodologias utilizadas para tipificar as lojas de retalho alimentar de pequena dimensão, mostrando claramente a variedade de vias seguidas e de resultados obtidos. Na Tabela 4 observa-se que as variáveis seleccionadas pelas diferentes metodologias são diversas e bem distribuídas pelas classes sugeridas na Figura 7 (pág. 50). Assim, os aspectos escolhidos empiricamente como necessários para a avaliação de lojas e localizações são apoiados por estes resultados. Uma excepção é a metodologia interactiva onde a classe “características da área de influência” não tem nenhuma variável. Esta é uma consequência directa da escolha, por parte dos especialistas, de apenas duas variáveis base de agrupamento. Ainda assim, as variáveis discriminantes não métricas seleccionados por testes de Quiquadrado e de Kruskal-Wallis, e as variáveis métricas seleccionadas por testes F de análise de variância para caracterização dos grupos, são muitas e distribuídas por todas as classes sugeridas como se discutirá adiante. Para comparar as tipificações das lojas de retalho obtidas da utilização das diferentes metodologias de integração do conhecimento de especialistas, construíram-se os gráficos de extremos e quartis ou caixa de bigodes (box-plot ou box and whisker plot) da Figura 23. Nestes gráficos pode avaliar-se o grau de coesão dos diferentes grupos obtidos e identificar lojas atípicas, consideradas em função das várias variáveis de vendas anuais disponíveis. 102 TABELA 4 SUMÁRIO DAS PRINCIPAIS CARACTERÍSTICAS DAS METODOLOGIAS E TIPOLOGIAS OBTIDAS. (As variáveis indicadas são as usadas na caracterização da metodologia a priori, usadas nas partições e como variável dependente na metodologia a posteriori e variáveis base de segmentação da metodologia interactiva) METODOLOGIA A PRIORI A POSTERIORI INTERACTIVA Resumo do Método Agrupamentos hierárquicos directamente da matriz de dissemelhanças percebidas Escolha da melhor árvore de classificação de entre um grupo obtido com diferentes parametrizações Escolha interactiva de um grupo de variáveis para base de agrupamento e posterior avaliação dos resultados Variável Dependente Nenhuma Vendas anuais para 2002 Nenhuma Área de vendas Vendas anuais para 2002 Área de influência por diagramas de Voronoi; Nº de crianças até 4 anos de idade; Nenhuma Percentagem de inquiridos fiéis à insígnia Percentagem de inquiridos em viagem exclusiva à loja Lojas Grandes Baixo Potencial Elevado Potencial Lojas de Bairro Lojas de Passagem Lojas Grandes Lojas Intermédias Lojas de Bairro >’s Lojas de Bairro <’s Grandes de Passagem Lojas de Passagem Características da Loja e Localização Característica da Área de Influência Características dos Clientes da Loja Designação dos Grupos Nº de caixas de saída; Avaliação da facilidade de estacionamento; Avaliação visibilidade em deslocações a pé; Área de influência por diagramas de Voronoi; Nº famílias residentes com 1-2 elementos; Percentagem famílias com meninas < 4 anos; Nº de residentes a trabalhar no sector 1º-2º Percentagem de Clientes preferenciais; Percentagem de inquiridos ocasionais; Percentagem de inquiridos de passagem Lojas Grandes Lojas de Bairro Baixo Potencial Elevado Potencial Elevado Potencial <’s Lojas Pequenas Duas metodologias não conseguiram identificar convenientemente as observações atípicas presentes nos dados. É o caso da integração de conhecimento de especialistas a priori e da metodologia a posteriori onde são identificadas algumas observações 1,5 vezes a amplitude interquartílica acima do terceiro quartil ou abaixo do primeiro e ainda uma observação 3 vezes acima ou abaixo a mesma amplitude. No caso da metodologia interactiva, as observações atípicas foram identificadas, nas primeiras fases do processo, e classificadas num grupo em separado. A dificuldade das primeiras metodologias em identificar observações atípicas, tão importantes na definição de tipologias, deve-se à 103 dificuldade em efectuar comparações padreadas atendendo ao grande número de factores considerados no caso da metodologia a priori. FIGURA 23 GRÁFICOS DE EXTREMOS E QUARTIS PARAALGUNS GRUPOS a DOS DIFERENTES MÉTODOS. (Círculos e asteriscos correspondem a lojas atípicas com valores superiores a 1,5 e 3 x a amplitude interquartílica) 1,0 A A PK MR BF BF BR A A LM A 2000 ■ 2001 2002 ■ 2003 Vendas Anuais(variações) 2,0 PK A S 0,0 S AN A -1,0 OA -2,0 A PK UA A n=4 n=5 n=7 n=8 n=3 n=4 n=8 n=7 n=5 n=5 n=3 n=4 -3,0 Bairro Pequenas Peq Potnc >'s (a) metodologia a priori n=5 n=6 n=3 n=5 n=7 n=8 n=5 n=5 n=8 n=8 n=5 n=6 Grandes Bairro Passagem (b) metodologia a posteriori 1,0 PK 0,0 2000 ■ 2001 2002 ■ 2003 Vendas Anuais (variações) 2,0 A -1,0 -2,0 -3,0 n=3 n=3 n=4 n=6 n=3 n=3 n=3 n=3 n=4 n=6 n=3 n=3 Bairro <'s Grandes Passagem (c) metodologia interactiva a Para simplificação dos gráficos apenas se incluem os agrupamentos com 3 lojas ou mais em todos os anos disponíveis, o que obriga a excluir alguns dos agrupamentos identificados. As dificuldades da metodologia a posteriori podem ser justificadas com a parametrização utilizada. A utilização de um mínimo de três lojas em cada folha como 104 critério de paragem impediu a identificação das observações atípicas que, por definição, são excepcionais e logo não comparáveis com as restantes. Por outro lado, o limitado número de observações disponível levou a que as observações atípicas possam ter um impacto elevado nas medidas de diversidade utilizadas. Note-se, no entanto, que para o ano 2002, cujas vendas são usadas como variável dependente, não foram identificadas observações atípicas. Este resultado muito bom é provavelmente devido à integração do conhecimento de especialistas na selecção da árvore escolhida. Quanto à homogeneidade dentro dos grupos relativamente às vendas, surge claramente uma superioridade dos grupos formados pelas metodologias a posteriori e interactiva. Este não é um resultado surpreendente já que em ambas as metodologias a variável de vendas anuais para o ano de 2002 foi explicitamente integrada no processo de classificação e de análise de agrupamentos, enquanto na metodologia a priori nenhuma variável de vendas anuais foi identificada como variável de caracterização das tipologias. Sublinhe-se, no entanto, que o grupo das Lojas Grandes com vendas de 2003 apresenta uma dispersão mais elevada do que as restantes variáveis de vendas anuais, evidenciando a dinâmica destes valores. Para quantificar o grau de coesão dos agrupamentos resultantes das diferentes metodologias utiliza-se a soma dos quadrados explicada pelos grupos formados (soma dos quadrados entre grupos dividida pela soma dos quadrados total, rácio semelhante à percentagem de variância explicada) para algumas variáveis relevantes, na Tabela 5. Estas variáveis foram utilizadas como variáveis base de agrupamento (metodologia interactiva), dependentes e utilizadas em regras de classificação (a posteriori) ou de caracterização dos grupos (a priori). Da Tabela 5 verifica-se que os resultados para a tipologia interactiva27 são superiores aos restantes na maioria das variáveis. Ainda que as somas dos quadrados explicadas pela tipologia a posteriori apresentem resultados comparáveis para as variáveis relacionadas com vendas, para as restantes a tipologia interactiva é geralmente bastante superior, não apresentando qualquer valor não significativo. Como o objectivo principal da definição de uma tipologia é a previsão de vendas, não é de estranhar que a tipologia interactiva tenha sido adoptada como a mais adequada pelos especialistas. Pretendem-se igualmente agrupamentos resistentes à passagem do tempo e à recolha de novos dados, o que parece estar assegurado em ambas as tipologias: interactiva e a Para simplificar o texto utiliza-se a expressão “tipologia a priori, a posteriori ou interactiva” com o significado de “tipologia obtida pela metodologia a priori, a posteriori ou interactiva”. 27 105 posteriori, apesar da queda verificada com os valores de 2003, estes continuam elevados e aceitáveis. A tipologia a posteriori constitui igualmente uma boa alternativa, uma vez que as previsões podem ser facilmente melhoradas se forem retirados algumas observações atípicas ou outliers, passando mesmo a apresentar valores de variância explicada superiores aos obtidos, para as mesmas observações, pela tipologia interactiva. Sublinhe-se os diferentes resultados para as duas variáveis utilizadas em regras proposicionais. A variância da “área de vendas” é fortemente explicada pelos grupos formados, enquanto que a variância da “área de influência por diagramas de Voronoi” é muito pouco explicada por estes grupos, não sendo mesmo significativa a 5%. Este mau resultado para esta última variável deve-se à partição em que intervém surgir na parte final da árvore e logo estar apenas relacionada com as observações que não foram discriminadas antes. Assim, ainda que a variância explicada pelos grupos formados pelas observações nesse nó possa ser elevada, quando se calcula para o total das observações, como efectuado na Tabela 5, os valores podem ser baixos. TABELA 5 PERCENTAGEM DE VARIÂNCIA EXPLICADA PELOS GRUPOS. (Os resultados para as duas primeiras variáveis não são totalmente comparáveis com os restantes) número de observações A PRIORI A POSTERIORI INTERACTIVA 13 22% b 78% 83% 16 31% b 85% 87% 23 38% 87% c 89% e 23 40% 71% 75% 23 30% b 7% b 86% e 23 44% 30% b,d 49% Área de vendas 23 60% 72% d 47% Perc. de clientes preferenciais 23 40% 24% b 48% VARIÁVEIS Vendas Anuais… … para 2000 a … para 2001 a … para 2002 … para 2003 Percentagem de viagens exclusivas Área de influência por diag. Voronoi a variável não comparável com as restantes por não incluir algumas lojas que ainda não estavam em funcionamento e, logo, também não inclui alguns dos grupos identificados com dados de 2002, b valores não significativos a 5% pelo teste F de análise de variância, c variável dependente, d variáveis utilizadas em regras proposicionais, e variáveis base de agrupamento. Os métodos com integração formal de conhecimento de especialistas a priori, i.e. que utilizaram a matriz de dissemelhanças obtida por inquérito directo aos especialistas, 106 apresentam resultados fracos para o caso particular em estudo. Tal resultado pode ser atribuído ao facto de, apesar de terem sido integradas variáveis de vendas no grupo de variáveis potencialmente caracterizadoras dos agrupamentos, estas não foram seleccionadas, apresentando baixas correlações com as dimensões MDS extraídas. Esta observação sugere a utilização por parte dos especialistas de outras medidas de desempenho não explicitadas, como a “área de vendas” ou “número de caixas de saída”28 que são valores estáveis e mais fácil de interiorizar do que as vendas em constante variação. Quanto à metodologia utilizada, a metodologia a priori de integração de conhecimento de especialistas foi considerada pouco prática, já que se revelou mais fácil aceitar ou rejeitar os agrupamentos após a sua constituição do que a utilização de grande número de comparações pareadas sem observação de valores ou gráficos. Estas foram consideradas difíceis pelos especialistas por ser necessário considerar um grande número de aspectos e manter uma visão global das restantes comparações, tendo sido frequentemente necessário rever classificações já atribuídas por comparação com novas classificações. Este foi provavelmente o principal motivo para os fracos resultados obtidos por esta metodologia. Pelo contrário, as metodologias a posteriori e interactiva tiveram uma receptividade muito positiva, tendo sido consideradas práticas e de simples utilização. Para a metodologia a posteriori a principal crítica mencionada foi o facto de apenas se poder utilizar uma variável como dependente, sendo a principal vantagem o facto de as árvores de classificação construídas serem auto explicativas e fáceis de interpretar. A metodologia interactiva, ainda que apresentado a desvantagem de ser muito demorada, foi considerada muito pedagógica e “um verdadeiro processo de criação de conhecimento” uma vez que permitiu aos especialistas conhecerem melhor a sua própria cadeia de lojas, permitindo ainda a criação de uma relação de confiança tanto entre os actores envolvidos como com os resultados obtidos. Esta constante troca de conhecimentos é fundamental para minimizar o efeito de “caixa preta” por vezes observado em trabalhos de apoio à decisão, particularmente quando se recorre a técnicas quantitativas que os utilizadores não dominam (Turban et al., 2005 e Adelman, 1992). Estas duas variáveis são altamente correlacionadas, pelo que é praticamente indiferente falar de uma ou de outra. 28 107 O efeito de caixa preta nem sempre é indesejável. Autores como Turban et al. (2005) consideram que os decisores não têm necessidade de conhecer como funcionam os modelos e processos que utilizam. No entanto, neste caso os utilizadores são igualmente analistas que têm conhecimento dos modelos e métodos e que estão habituados a cohecer os procesos que utilizam. Assim, o objectivo do projecto não consistiu simplesmente em definir um procedimento ou uma aplicação de apoio à decisão, mas fundamentalmente numa transmissão de conhecimento gerado pelo estudo efectuado. IV.C. Caracterização da Tipologia Nesta secção utilizam-se os dados recolhidos para caracterizar os diferentes grupos resultantes da metodologia interactiva. Uma cuidadosa avaliação dos resultados obtidos, realizada por especialistas em colaboração com os analistas, conduziu à selecção de uma tipificação constituída pela referida metodologia. Esta metodologia considera apenas duas variáveis base de agrupamento: “vendas anuais na loja” e a “percentagem de viagens exclusivas à loja”. A utilização de apenas duas variáveis base de agrupamento na definição dos clusters pode levantar algumas questões uma vez que se defendeu a necessidade de recolher um grande volume de variáveis. Ainda que se tenha concluído que os resultados obtidos com estas variáveis sejam comparativamente superiores, continua a advogar-se a necessidade de recolher muita informação para a, indispensável, caracterização da tipologia definida. Vários autores defendem ser contraproducente a utilização de grande número de variáveis uma vez que pode mascarar a existência de grupos nos dados (ver Gordon, 1999 e Milligan, 1996, para uma análise mais completa). Assim, recomenda-se a utilização de um número mínimo de variáveis na construção dos grupos e o uso das restantes na sua interpretação e validação. Pelo contrário, o processo de caracterização dos grupos deve ser o mais completo possível e envolver todos os dados disponíveis, nomeadamente o maior número de tipos de variáveis que for possível recolher. Como afirmam autores como Cardoso e Moutinho (2003) uma caracterização descuidada dos grupos pode facilmente conduzir ao insucesso de todo o projecto de agrupamento, uma vez que os utilizadores podem não reconhecer claramente os grupos definidos. Neste sentido, nos Anexos H (pág. 219), I (pág. 222), e J (pág. 224) apresentam-se gráficos e resultados de caracterização para as variáveis recolhidas pelos diferentes métodos utilizados. Nesta secção resume-se a caracterização da tipologia interactiva com todos os dados obtidos. 108 Utilizaram-se testes do Qui-quadrado para variáveis nominais, testes de KruskallWallis para ordinais e testes F de análise de variância para escolher variáveis métricas que permitam discriminar os grupos. Na verdade, o teste de Kruskal-Wallis foi usado igualmente para variáveis métricas quando o afastamento da distribuição Normal ou a variância dentro dos grupos foi considerada pouco homogénea ou de verificação pouco fiável. Assim, apenas as variáveis com significativo poder discriminante são consideradas nas análises seguintes. Pode-se ainda acrescentar que praticamente todos os testes efectuados para as diferentes variáveis validam a tipologia. Na Tabela 6 apresenta-se um resumo da caracterização dos agrupamentos tendose em consideração a classificação de variáveis sugerida na Figura 7 (pág. 50) e tendose escolhido 3-4 variáveis por cada classe sugerida. Para a construção da tabela foi necessário padronizar os valores para que fossem comparáveis. Assim, para as variáveis métricas foram utilizados z-scores (padronização por subtracção da média e divisão pelo desvio padrão) e para os atributos não quantitativos usaram-se frequências relativas. Nos parágrafos seguintes resume-se a caracterização dos grupos correspondentes à tipologia de lojas adoptada, considerando as variáveis com maior poder discriminante. Variáveis com valores próximos da média não são referidos, mas variáveis fundamentais, como as relativas ao desempenho da loja, são sempre referidas. As Lojas de Bairro Pequenas constituem um grupo que inclui as lojas menores com vendas igualmente reduzidas. Na configuração da loja, este grupo apresenta avaliações médias a baixas, correspondendo a uma gama reduzida. O estacionamento junto à loja é difícil, pelo que não é de estranhar que grande parte dos clientes se desloque a pé. Os clientes são principalmente idosos, gastam elevadas percentagens das “despesas em compras para o lar” na loja e pertencem ao segmento dos clientes preferenciais. A concorrência surge principalmente de lojas tradicionais e de Discount. Por outro lado as Lojas de Bairro Grandes constituem um grupo bem sucedido, já que assegura as maiores vendas por unidade de área. As suas lojas são normalmente localizadas em zonas suburbanas de elevado potencial e com muitos alojamentos residenciais. Os clientes habitam próximo da loja e fazem frequentemente viagens exclusivas à loja. Estes clientes têm escolaridade superior à média e 73% foram classificados como clientes preferenciais, apresentando agregados familiares pequenos e frequentando a loja indiferentemente durante a semana e ao fim de semana A nível concorrencial, conseguem manter uma boa imagem de preços competitivos. A concorrência tanto pode provir de pequenas lojas como de outras cadeias. BAIRRO >'s Ï Ù Ù Ð % de inquiridos com mais de 45 anos % inquiridos com 4+ pessoas na família % inquiridos c\ escolaridade <= primária caracterização do cliente - socioeconómica % de inquiridos que se deslocam a pé % de inquiridos a menos de 5 minutos % de inquiridos em viagem exclusiva % média de gastos na cadeia % de clientes preferenciais caracterização do cliente - relação cliente \ loja densidade de edifícios construídos 96-01 nº de edifícios não residenciais % de edifícios com 5+ pavimentos densidade de residentes 10-24 anos % de residentes iletrados caracterização da área de influência - potencial área de influência por diag. de Voronoi nº de lojas de outras cadeias identificados soma da área de vendas dos concorrentes área conc's ponderada por inverso distânc. Ï Ï Ï Ï Ï Ï Ï caracterização da área de influência - concorrência nº de lojas em centro urbano a loja é consideradas âncora avaliação da visibilidade em desl. a pé avaliação do estacionamento próximo Ù Ù Ù Ù Ù Ù caracterização da loja e localização - variáveis geográficas avaliação relativa a preços avaliação da simpatia \ rapidez avaliação da arrumação \ organização caracterização da loja e localização - configuração da loja vendas anuais para 2002 vendas de 2002 por área área de vendas caracterização da loja e localização - desempenho e dimensão VARIÁVEIS Ï Ð Ï Ï Ð Ð Ð Ð Ð Ð Ù Ù Ù Ù BAIRRO <'s Ï Ï Ï Ð Ï Ù Ù Ù INTERMÉDIAS Ï Ð Ï Ð Ï Ð Ï Ï Ï Ù Ù Ù Ù Ù Ù Ù Ù LOJAS >'s Ï Ð Ð Ð Ð Ð Ï Ï Ï Ï Ï Ï Ð Ï Ï Ù Ù Ù Ù Ù Ù Ù Ù PASSAGEM Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ï Ð Ï Ï Ï Ï Ï Ù Ù Ù Ù Ù Ù Ù Ù Ù Ù PASSAGEM >'s TABELA 6 RESUMO DA CARACTERIZAÇÃO DA TIPOLOGIA OBTIDA PELA METODOLOGIA INTERACTIVA. (Setas indicam os valores que se distinguem relativamente à média (verticais) e à variância (horizontais) em cada grupo) Ï Ð Ð Ï Ð Ð Ð Ï Ð Ð Ï Ï Ï Ð Ð Ù Ù Ù Ù Ù OUTLIERS 109 110 As Lojas Intermédias apresentam valores médios em todas as variáveis de desempenho. Localizam-se no centro de cidades suburbanas e apresentam avaliações da caracterização da loja de médias a elevadas. O acesso em deslocações a pé é bom, mas o parqueamento é difícil. Ainda que apresentem variabilidade elevada, as áreas de influência apresentam um potencial razoável, com elevado número de alojamentos residenciais. O facto de se situarem em zonas com algum emprego justifica a variabilidade observada no meio de transporte utilizado nas deslocações. Estas lojas apresentam um equilíbrio entre clientes preferenciais e clientes eventuais e elevada concorrência, em especial de lojas pertencentes a outras cadeias de supermercados. O grupo com maior número de lojas é o grupo das Lojas Grandes, apresentando alguma variabilidade em todas as medidas de desempenho. Algumas destas lojas têm parque de estacionamento próprio, mas a maioria tem dificuldades de estacionamento. Estas lojas são frequentemente consideradas âncoras de atractividade de clientes para a rua ou centro comercial onde se situam. As áreas de influência apresentam elevado dinamismo, com elevada construção de novos edifícios. Os clientes fazem geralmente compras de valor elevado e apresentam “dimensão média do agregado familiar” igualmente elevada. A concorrência é geralmente forte, mas variável de loja para loja. Estas são lojas que estão próximas de formatos maiores, como as grandes superfícies de comércio alimentar. As Lojas de Passagem apresentam médio a baixo desempenho em termos de vendas. No entanto, foram avaliadas favoravelmente nos aspectos relacionados com a configuração da loja. Localizam-se em centros comerciais pequenos na baixa das grandes cidades, onde são consideradas âncoras. O estacionamento é geralmente difícil, mas os clientes provêm de longe e raramente em viagens exclusivas à loja i.e. integram a visita à loja num circuito complexo que normalmente está relacionado com a viagem de e para o emprego, que é corroborado pelas áreas de influência que apresentam elevados valores de edifícios não residenciais. Este grupo é ainda caracterizado pelo segmento de clientes eventuais i.e. clientes mais jovens mas com rendimentos ligeiramente superiores à média. São frequentadas por clientes que fazem pequenas compras nestas lojas, sendo o grosso do consumo alimentar efectuado em grandes superfícies. No entanto, a principal característica deste grupo são os fortíssimos níveis de concorrência que se reflectem em quase todos as variáveis. Pelo contrário as Lojas Grandes de Passagem apresentam os mais elevados níveis de desempenho e uma forte tendência para crescimento. Estas lojas localizam-se 111 no centro das grandes cidades, onde são consideradas âncoras de atracção. Os clientes despendem apenas uma pequena percentagem das suas despesas mensais em compras para o lar nestas lojas. Os clientes deslocam-se principalmente de carro, percorrendo longas distâncias e raramente fazendo viagens exclusivas à loja. Este grupo, tal com o anterior, é caracterizado pelo segmento de clientes eventuais e forte concorrência, proveniente de hipermercados e lojas de cadeias similares. Normalmente as observações identificadas como atípicas ou outliers não constituem um grupo, mas neste caso tal é verdade (ver dendrograma da Figura 21, pág. 99). Na verdade, estas lojas apresentam algumas características em comum, como muito baixos níveis de desempenho e fraco potencial da área de influência. Note-se que existem outros métodos para seleccionar variáveis de caracterização de agrupamentos. Por exemplo, Cardoso e Moutinho (2003) recomendam a utilização de árvores discriminantes para caracterizar segmentos. Neste caso, ainda que se tendo utilizado esta metodologia, revelou-se necessário fazer uma caracterização mais alargada e que incluísse todos os grupos de variáveis sugeridos na Figura 7 (pág. 50), pelo que se optou por utilizar um grande número de variáveis de caracterização. Sublinhe-se que grande parte da caracterização efectuada pode ser entendida à luz de estudos referentes aos diferentes segmentos que utilizam este tipo de lojas. Assim, comportamentos dos clientes idosos que são maioritários nas Lojas de Bairro e Intermédias, como a valorização da proximidade e a lealdade à loja, são confirmados por trabalhos como Burt e Gabbott (1995) e Moschis (2003). Os mesmos estudos confirmam que os clientes eventuais típicos de lojas de passagem são mais móveis, frequentam mais hipermercados e revelam mais preocupações com o preço. Pode-se concluir esta caracterização com a expressão que foi proferida por um especialista quando a tipologia interactiva foi discutida: «são lojas de franjas: idosos nuns grupos e clientes de passagem jovens noutros». 112 113 Capítulo V ⎯⎯⎯⎯⎯⎯⎯⎯ V. PREVISÃO POR ANALOGIA: MODELOS DISCRIMINANTES E REGRESSÃO Neste capítulo, utilizam-se modelos discriminantes lógicos e modelos de regressão linear para efectuar previsões de vendas anuais para novas localizações de lojas análogas às actualmente existentes na cadeia. A tipificação das lojas efectuada no capítulo anterior é considerada fundamental para a explicação do comportamento das vendas. Neste capítulo, descreve-se igualmente a aplicação informática de apoio à decisão APAV – Análise e Previsão por Analogia de Vendas. Apresentam-se argumentos para a criação de um ambiente decisional baseado em múltiplas aplicações com acoplamento fraco, possibilitando a construção de um sistema flexível com o objectivo essencial de criar conhecimento. A estrutura da aplicação de apoio à decisão encontra-se publicada em Mendes et al. (2004). V.A. Porquê Modelos de Análise de Dados? Tendo em conta a variedade de modelos descrita na secção II.C, pode pôr-se a questão sobre o porquê da preferência por modelos de análise de dados relativamente aos restantes referidos no ponto II.C.6 (pág. 43). De entre todos os modelos identificados da literatura, os modelos baseados em metodologias de análise de dados apresentam algumas vantagens relevantes para os objectivos propostos na dissertação actual. Tendo em conta que foi acordado com os decisores a necessidade de comparar localizações alternativas em termos de vendas previstas e que foram recolhidos grandes volumes de dados considerados necessários na explicação do desempenho das lojas, enumeram-se as seguintes vantagens destes modelos: • Estes modelos podem ser validados com poucas lojas ao integrar conhecimento de especialistas de uma forma complementar à análise de dados, obtendo-se assim, modelos mais objectivos do que modelos mais simples, como as listas marcadas ou os modelos de analogia baseados em ordenações de lojas, normalmente utilizados em cadeias de reduzida dimensão. 114 • Os modelos de análise de dados permitem obter previsões de forma simples e facilmente compreensível pelos decisores, o que os torna apelativos. Pelo contrário, os modelos de interacção espacial e de optimização envolvem pressupostos e normas por vezes difíceis de avaliar, demorados e complexos processos de estimação e nem sempre são facilmente aceites pelos decisores. • Os modelos de análise de dados são especialmente adequados para lidar com muitas variáveis explicativas de uma medida de desempenho das lojas e localizações, permitindo, alguns deles, utilizar variáveis em diversas escalas de medida e apresentando alternativas para lidar com o problema de curse of dimensionality. • A dinâmica do sistema e a necessidade de actualizar os modelos à medida que mais lojas e dados vão surgindo é facilitada pelo facto de existirem algoritmos e aplicações facilmente utilizáveis na construção de novos modelos sendo o processo de reconstrução gerador de conhecimento. Além disso, estes modelos apresentam uma grande flexibilidade, sem estruturas rígidas que possam ser postas em causa com novos dados. Como sugerem vários autores, tanto da área dos sistemas de apoio à decisão como da área de modelos em marketing e em ciências de decisão, como por exemplo Pidd (2003), Leeflang et al. (2000) e Sauter (1997), os modelos utilizados devem ser: simples, robustos, fáceis de controlar e de adaptar a novas situações ou novos dados, completos e fáceis de compreender. Os modelos de análise de dados são certamente adequados neste contexto, já que alguma falta de robustez é largamente compensada pela simplicidade e capacidade de adaptação. O problema da inexistência de lojas em número considerado suficiente é, sem dúvida, o principal obstáculo à utilização destes modelos. Para o ultrapaçar sugerese, neste trabalho, a utilização de conhecimento de domínio não quantitativo. Um exemplo das limitações encontradas ao tratar os dados disponíveis foi a impossibilidade de utilização de métodos da área de reconhecimento de padrões como as redes neuronais, muito comuns em previsão de séries cronológicas e com várias aplicações na distribuição, uma vez que a ausência de lojas em número suficiente não permite treinar e validar a rede (ver por exemplo Chatfield, 2001 e Coates et al., 1995). Apesar destas dificuldades, apresentam-se resultados para modelos de regressão linear complementados por modelos discriminantes lógicos. Estes últimos são utilizados na definição de regras proposicionais capazes de classificar uma nova loja ou localização potencial num grupo da tipologia definida no capítulo anterior. 115 V.B. Modelos Discriminantes Lógicos por Analogia Após a definição de grupos análogos de lojas existentes e cuidadosa caracterização dos mesmos, passa-se a identificar variáveis e regras proposicionais29 capazes de discriminar entre os diferentes grupos de lojas. O objectivo é atribuir a uma nova localização potencial um grupo da tipologia definida de modo a ser possível prever vendas e avaliar desempenhos potenciais, no âmbito dos modelos discriminantes descritos no ponto II.C.3 (pág. 34). Nesta secção explicam-se os procedimentos adoptados para a construção e validação dos modelos discriminantes lógicos usados na classificação de localizações potenciais. A este propósito, sublinhem-se as dificuldades impostas pela “praga da dimensionalidade” que obrigam, mais uma vez, à utilização de validação externa e conhecimento de especialistas para validar as regras proposicionais (também conhecidas como regras de decisão ou regras de classificação) de classificações obtidas. V.B.1. Definição de Regras Proposicionais: As árvores de classificação Dentro dos modelos discriminantes, pode-se optar por diferentes métodos como a análise discriminante linear (de Fisher) ou a regressão logística que é normalmente considerada uma alternativa quando os pressupostos de Normalidade da análise discriminante não se verificam, sendo ainda possível encontrar trabalhos que utilizam modelos de segmentos latentes com covariantes e redes neuronais (Cardoso e Moutinho, 2003). Os modelos discriminantes lógicos ou árvores de classificação são modelos mais recentemente desenvolvidos, paralelamente, nos domínios da estatística e da aprendizagem automática (ver por exemplo: Breiman et al., 1984 e Quinlan, 1993). A opção recaiu nestes últimos pelas razões seguintes (adaptado de Cardoso, 2003): • Ausência dos pressupostos típicos de modelos paramétricos de verificação difícil, sobretudo quando o número de variáveis explicativas é elevado. • As variáveis podem ser utilizadas sem demorados tratamentos prévios aos dados como a codificação de atributos nominais em modelos de regressão ou discriminantes, sendo ainda mais flexíveis a lidar com dados omissos. • Possibilidade de utilização de variáveis explicativas em qualquer número e em várias escalas de medida ao invés das dificuldades observadas nos métodos estatísticos multivariados em lidar com muitas variáveis. Nesta dissertação utilizam-se as expressões “regras proposicionais”, “regras de classificação” ou “regras de decisão” como sinónimos. 29 116 • Possibilidade de integração de relações complexas entre as variáveis explicativas e a dependente e não apenas relações lineares, como acontece na maioria dos procedimentos estatísticos. • Interpretabilidade dos resultados muito simples e clara por simples observação das árvores construídas e das regras proposicionais de classificação induzidas. O último aspecto enumerado é de especial relevância no que toca ao apoio à decisão. Um dos objectivos do método desenvolvido é a simplicidade dos modelos escolhidos e a capacidade de compreensão dos decisores ou utilizadores desses modelos, uma vez que assim se potencia a sua utilização. As árvores de classificação foram recebidas com grande entusiasmo pelos futuros utilizadores do software de apoio à decisão. Consideraram estes modelos muito apelativos pela simplicidade com que é possível compreender os resultados obtidos. Do lado das desvantagens, é de referir que os algoritmos utilizados na construção de árvores de classificação são heurísticas, pelo que os resultados são fortemente dependentes dos métodos e das parametrizações utilizadas. A principal característica destes modelos consiste na construção de uma árvore que, começando com o total de lojas existentes, vai dividindo este grupo inicial em subgrupos de modo a minimizar uma medida de impureza ou de diversidade na variável dependente ou que maximize a distinção estatística dos filhos relativamente à variável dependente, dependendo do algoritmo utilizado. Os modelos discriminantes lógicos ou árvores de classificação distinguem-se das árvores de regressão por a variável dependente ser nominal ao invés de métrica. Assim, o objectivo é obter uma hierarquia de partições das observações correspondente aos grupos previamente formados. Estes métodos são recursivos sendo o princípio subjacente o de dividir para conquistar. Em cada nó folha da árvore obtém-se um grupo de lojas que pode ser caracterizado pela sucessão de nós ascendentes e às regras proposicionais de classificação que se lhes associam. Desta forma permitem construir árvores discriminantes da raiz para os nós terminais ou folhas (Cardoso, 2003). Nesta dissertação utilizam-se três algoritmos para construção de modelos discriminantes lógicos segundo a sua implementação no software AnswerTree v. 3.1: CART – Classification And Regression Trees (Breiman et al., 1984), CHAID – CHisquared Automatic Interaction Detector (Kass, 1980 e Biggs e Suen, 1991) e QUEST – Quick Unbiased Efficient Statistical Tree (Loh e Shih, 1997). Os três algoritmos distinguem-se entre outros aspectos na medida de qualidade que utilizam para selecionar uma variável discriminante e respectiva condição de partição. Assim, passa-se a 117 enumerar resumidamente as principais diferenças entre os algoritmos no caso de variáveis dependentes nominais30: • CHAID: este algoritmo utiliza testes de Qui-quadrado de Pearson numa tabela de contingência entre as categorias da variável dependente e as categorias das variáveis independentes (as variáveis continuas são previamente discretizadas em classes). Na verdade, faz-se um conjunto de testes agregando as classes da variável explicativa até só restarem duas, de modo a descobrir o melhor número de classes. Este processo repete-se para a totalidade das variáveis explicativas e a melhor variável explicativa com o melhor conjunto de classes, i.e. a menor probabilidade de significância (p value) ajustada pelo método de Bonferroni, é escolhido. As árvores podem não ser binárias e apresentam valores da estatística Qui-quadrado, graus de liberdade e a probabilidade de significância em cada nó de ramificação. • QUEST: este método utiliza igualmente testes de Qui-quadrado de Pearson para tabelas de contingência, tal como o método CHAID. No entanto, utiliza um maior conjunto de testes estatísticos para garantir a independência entre o processo de selecção da variável explicativa e o ponto de divisão das classes da mesma variável. Usa, por exemplo, a estatística F de ANOVA e a estatística F de Levene para variâncias não iguais na selecção de variáveis métricas, sendo os atributos nominais transformados em binários. Utiliza-se o método de 2-médias de análise de clusters para agrupar as classes da variável dependente e análise discriminante quadrática na escolha do ponto de divisão da variável explicativa. Assim, nas árvores sempre binárias, apresentam-se valores para o teste de Quiquadrado ou da estatística F de ANOVA ou Levene (Loh e Shih, 1997). • CART: este método utiliza medidas como índice de Gini para medir a diversidade no nó para variáveis dependentes nominais. De forma simples, este índice contabiliza a proporção de observações em cada classe da variável dependente num nó relativamente ao total, i.e. ao nó raiz. Este índice toma o seu valor mínimo quando num nó correspondente a uma partição da variável dependente, apenas existem observações pertencentes a uma classe. A diferença entre o índice Gini para o nó pai e a soma dos valores para os dois filhos (ponderada pela proporção de casos em cada filho) é apresentada na árvore como improvement31. A variável explicativa escolhida é aquela que garante um maior valor de improvement. Outras diferenças entre os métodos prendem-se com a forma como tratam valores omissos na variável explicativa. Enquanto o método CHAID interpreta os valores omissos como mais uma classe da variável, os outros dois usam variáveis substitutas (surrogate). Este último procedimento consiste em substituir a variável explicativa que num determinado nó apresenta observações omissas por outra variável que apresente uma correlação elevada para a partição e para as observações restantes no nó, mas apenas nos casos necessários em que o valor omisso impede a escolha do nó seguinte. Na verdade, estão disponíveis outras opções para o cálculo das medidas de qualidade, nomeadamente outros índices de diversidade e outros testes, pelo que se aconselha a consulta de SPSS (2001) ou de white papers de www.spss.com. Os descritos são os utilizados nas árvores apresentadas neste texto, ainda que tenham sido construídas árvores explorando as várias opções disponíveis. 31 Pode-se traduzir improvement pela expressão “decréscimo de diversidade” (ver Cardoso, 2003). 30 118 Ainda que os critérios de paragem sejam comuns a todos os algoritmos, baseados no número mínimo de observações nos nós ou em valores mínimos da probabilidade de significância ou de improvement, os últimos dois métodos permitem a poda da árvore após a sua construção. Este processo consiste em remover ramos que contribuem muito pouco para um critério global de qualidade do modelo como o erro de classificação, permitindo assim controlar o sobre-ajustamento (overfitting) dos modelos. Estes algoritmos por não serem paramétricos não incluem pressupostos sobre distribuições e parâmetros, ainda que possa ser entendido como uma vantagem, obriga igualmente a uma cuidadosa validação dos resultados, habitualmente com recurso a grande volumes de observações como para as técnicas usadas em data mining (Hand et al., 2001, Berry e Linoff, 1997). O facto de, neste caso particular, o número de lojas ser muito reduzido impossibilita a utilização de técnicas de validação cruzada baseadas na divisão das observações em dois grupos: um é usado para aprendizagem ou estimação do modelo e o outro para teste ou verificação da qualidade do modelo. Assim, recorre-se a métodos de validação que utilizem a totalidade ou quase totalidade das observações como é o caso do método leave-one-out, complementada com integração do conhecimento de especialistas, traduzida na interpretabilidade das regras proposicionais de classificação à luz do conhecimento do domínio. O método leave-one-out, também conhecido por método-U, ou validação jackknife, disponível em todos os algoritmos, permite avaliar a capacidade preditiva do modelo discriminante lógico, estimando um erro de classificação com algum realismo, mesmo quando o número de observações é reduzido. Este método consiste em construir tantas árvores de classificação quanto o número de observações, deixando de fora uma observação de cada vez. A estimativa do erro é então calculada classificando a loja excluída da construção da árvore e registando a proporção de lojas erradamente classificadas sobre o total de lojas (Lattin et al., 2003, Gentle, 2002 e Thomas et al., 2002). O método é igualmente adequado para identificação de outliers e análise de sensibilidade das classificações obtidas (Cardoso, 2000). 119 V.B.2. As Regras Proposicionais Identificadas e os Modelos Construídos Neste ponto descrevem-se os modelos discriminantes lógicos obtidos pelos diferentes métodos. Como variável dependente usa-se um atributo nominal resultante do agrupamento das lojas pela metodologia interactiva. Como variáveis explicativas, são consideradas as inúmeras variáveis usadas para caracterizar as lojas, com excepção das variáveis obtidas por inquéritos, os quais não se encontram à partida disponíveis para localizações potenciais (ver Figura 7, pág. 50). De referir que nos testes efectuados não se observou qualquer prevalência de um algoritmo sobre os restantes, ainda que o algoritmo QUEST se revelasse com maior dificuldade em seleccionar as melhores variáveis discriminantes32. Assim, numa perspectiva de aumentar o leque de alternativas para a tomada de decisão, decidiu-se incluir regras proposicionais resultantes dos “melhores” modelos discriminantes lógicos para cada um dos três métodos enumerados no ponto anterior. O “melhor" modelo surgido de cada método foi identificado por especialistas considerando a interpretação das regras proposicionais resultantes. Em segundo lugar foi usado o critério da precisão da classificação por validação interna, usando medidas como proporção de lojas correctamente classificadas na totalidade da amostra (hit rate) ou estimativas da mesma proporção pelo método leave-one-out. Tal como na secção IV.B.3 (pág. 94), foram rejeitadas regras proposicionais onde as variáveis não apresentavam o comportamento esperado face à variável dependente. Por exemplo, se num nó folha a dimensão da área de influência tiver valores superiores, espera-se intuitivamente que o grupo de lojas que o constituem tenha um valor de vendas médio igual ou superior. Em caso de quasi-empates na selecção de uma variável explicativa, a intervenção do especialista permitiu a escolha de variáveis que conduziam a resultados mais interpretáveis, nomeadamente utilizando a ferramenta de variáveis substitutas dos métodos CART e QUEST. Na Tabela 7 apresentam-se as regras proposicionais associadas a cada um dos grupos da tipologia interactiva por algoritmo utilizado. Note-se que o algoritmo QUEST é apresentado como uma melhoria do CHAID com a vantagem de diminuir o viés a favor das variáveis quantitativas (ou com mais pontos de partição) e com um menor tempo de computação. O segundo aspecto foi confirmado pelos testes efectuados mas no restante, e para a amostra utilizada, revelou-se muito difícil de trabalhar seleccionando variáveis discriminantes que correspondiam a partições com grande dispersão no nó e muito pouco úteis para fins de previsão. 32 --- ≤ 831 --- --- --- --- >2 ≤ 4462 --- --- ≤0 --- > 0,84 --- --- --- --- > 13,2 --- --- > 0,84 > 2508 --- --- --- --- --- medidas de qualidade da regra proposicional percentagem de hits 83% 75% no nó folha percentagem de lojas 100% 60% do grupo no nó nº de alojamentos familiares clássicos dens. edifícios construídos entre 96 e 2001 (nº/10 ha) nº de alojamentos com proprietário ocupante nº de alojamentos com 3 ou 4 divisões nº de alojamentos não clássicos nº de famílias clássicas com mais de 5 elementos % de núcleos familiares com filhos ou netos % mulheres residentes entre os 5 e os 9 anos caracterização da área de influência - potencial área dos concorrentes ponderada por CMC's avaliação do acesso a pé (valor - méd. concorrentes) --- --- --- --- --- --- > 0,84 100% 100% 80% --- --- --- --- --- 100% ≤ 4,9 --- --- --- --- 100% 75% --- ≤ 13,2 >132 --- --- --- > 0,84 --- --- > 0 ou s\conc. --- ≤ 4462 > 2181 --- --- 100% 100% ≤ 4,9 --- --- --- > 1008 ≤ 6429 --- --- --- --- --- INTERMÉDIAS 100% 100% --- --- --- --- --- > 2508 > 0,84 ≤ 2181 > 0 ou s\conc. --- >2 central trans. púb. --ou escola \ univers. --- --- --- >2 --- --- > 6429 > 2508 caracterização da área de influência - concorrência âncora mais importante para o tráfego avaliação da facilidade de estacionamento caracterização da loja e localização - variáveis geográficas área de vendas (metros quadrados) BAIRRO <'s GRANDES PASSAGEM 100% 80% --- ≤ 13,2 ≤132 --- --- --- > 0,84 --- --- ≤ 4462 --- --- --- 100% 100% ≤ 4,9 --- --- >2 ≤ 1008 ≤ 6429 --- --- --- --- --- --- --- 83% 100% --- --- --- --- --- ≤ 2508 > 0,84 --- --- --- >2 --- --- 83% 83% --- > 13,2 --- --- --- --- > 0,84 --- --- ≤ 4462 --- --- > 831 83% 83% > 4,9 --- --- --- --- --- --- --- --- --- --- --- --- 100% 75% --- --- --- --- --- --- > 0,84 --- --- --- ≤2 --- --- 67% 100% --- --- --- --- --- --- > 0,84 --- --- > 4462 --- 67% 100% ≤ 4,9 --- --- --- > 1008 ≤ 6429 --- --- --- --- --- --- --- --- --- --- 100% 100% --- --- --- --- --- --- ≤ 0,84 centro urbano ou --- 100% 50% ≤ 4,9 --- --- ≤2 ≤ 1008 ≤ 6429 --- --- --- --- --- --- --- CART PASSAGEM >'s CHAID& &QUEST --- centro comercial --- --- CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART BAIRRO >'s caracterização da loja e localização - dimensão VARIÁVEIS TABELA 7 RESUMO DAS REGRAS PROPOSICIONAIS ESCOLHIDAS E ALGUMAS MEDIDAS DE QUALIDADE. (Estimativa de erro pelo método leave-one-out, CHAID: 26%, QUEST: 35%, CART: 22%, hit rate, CHAID: 91%, QUEST: 83%, CART: 87%) 120 121 Neste tipo de tabelas, conhecidas como tabelas de decisão ou de classificação33, as variáveis são colocadas nas linhas, sendo a decisão, ou neste caso o grupo em que a localização potencial é classificada, colocado na coluna e a respectiva condição na entrada correspondente da tabela. Assim, para que uma nova localização seja atribuída a um determinado grupo análogo, é necessário satisfazer de forma conjuntiva todas as condições da coluna o que corresponde, a um ramo da árvore discriminante ou regra proposicional de classificação. As “melhores” árvores construídas utilizando os diferentes algoritmos disponíveis podem ser consultadas no Anexo K (pág. 229). Os modelos discriminantes lógicos construídos apresentam valores entre os 22% e 26% para a estimativa de erro pelo método leave-one-out, correspondendo o QUEST a um valor bastante superior de 36%. No entanto, todos os modelos são significativos a 1% segundo o teste Q de Press, que avalia a qualidade do modelo relativamente a uma hipótese nula resultante de uma classificação aleatória (Reis, 2001). Os valores de proporção de lojas incorrectamente classificadas na totalidade da amostra são bastantes inferiores, entre 9% e 17%. As estimativas de erro pelo método leave-one-out, sendo uma medida da estabilidade ou robustez do modelo, são congruentes com a “praga da dimensionalidade” e a abundância de variáveis para um conjunto muito limitado de lojas. Note-se ainda que na maioria das partições existiam 3 a 4 variáveis substitutas (surrogates) com correlação perfeita com a variável de partição escolhida, principalmente em partições mais afastadas da raiz e por isso mesmo com menos observações. Assim, foi necessário utilizar conhecimento de especialistas para seleccionar variáveis correspondendo a regras proposicionais mais facilmente interpretáveis. Relativamente à Tabela 6, na Tabela 7 surgem menos tipos de variáveis, segundo a classificação da Figura 7 (pág. 50). Tal é explicável por não ser possível utilizar variáveis resultantes de inquéritos nem comparações entre a loja e a concorrência a nível de serviços e configuração da loja, para localizações e lojas potenciais. A ausência do tipo “configuração da loja” é igualmente aceitável se considerarmos que todas as lojas consideradas pertencem à mesma cadeia e logo têm aspectos de gestão comum que uniformiza a maioria destes aspectos. A distribuição das variáveis também não é equitativa pelos diferentes tipos definidos. Como discutido a propósito dos resultados apresentados na Tabela 5 (pág. Esta designação é comum na literatura de SAD’s e geração de conhecimento quando se referem a condições e à enumeração de proposições complexas (ver por exemplo: Turban et al., 2005 ou Awad e Ghaziri, 2004). 33 122 105), a utilização de variáveis em regras proposicionais não implica necessariamente que estas sejam boas discriminantes da totalidade das observações, uma vez que na maioria dos nós apenas uma parte das observações é considerada. Assim, as variáveis escolhidas não obedecem a critérios de distribuição pelos diferentes tipos sugeridos pela Figura 7 (pág. 50) mas aos critérios utilizados pelos algoritmos e o conhecimento de domínio. Sublinhe-se que a maioria dos algoritmos mostra tendência para escolher variáveis métricas em prejuízo de atributos ordinais ou nominais como já tinha sido observado por Loh e Shih (1997). Na Tabela 7 utilizam-se duas medidas para avaliar a qualidade de cada regra proposicional induzida dos dados. Tendo em conta que o nó folha é atribuído ao grupo modal, a “percentagem de lojas do grupo no nó” (i.e. a percentagem das lojas de um grupo identificadas pela regra proposicional), mede a dispersão do grupo por vários nós folha da árvore de classificação, o que é indesejável tendo em conta o reduzido número de lojas existente em cada grupo. Por outro lado, a “percentagem de hits no nó folha” mede o grau de pureza de um nó folha ou a homogeneidade deste, medidas reconhecidamente a maximizar. Conjugando estas duas medidas, apenas cinco regras proposicionais num total de 17 identificadas conseguem uma pontuação de 100% em ambas. Note-se que estas duas medidas não são independentes, já que uma loja mal classificada num nó folha também contribuirá para a redução da “percentagem de lojas do grupo no nó” para o nó folha onde deveria ter sido classificado. Assim, ao nível do modelo, as duas medidas sobrepõem-se, mas ao nível da regra proposicional não existe sobreposição pelo que a utilização de ambas em conjunto faz sentido. Note-se ainda que, para efectuar previsões, ambas as medidas são importantes ainda que possam apresentar pesos distintos. O objectivo é sempre penalizar classificações incorrectas. Este tipo de relações torna-se claro por observação da tabela de frequências da Figura 24, onde ng ar representa o número de observações no nó folha ar pertencente ao grupo g, sendo os totais representados apenas por um índice e n o número total de observações. Note-se que apenas o número de observações na classe modal (representada com fundo cinzento) é considerada correctamente discriminada, pelo que a matriz da Figura 24 também é conhecida como matriz de confusão (confusion matrix) ou de classificações e só faz sentido quando cada grupo é modal apenas num nó folha da árvore como acontece neste caso particular (Thomas et al., 2002). 123 FIGURA 24 TABELA DE FREQUÊNCIAS COM AS RELAÇÕES ENTRE AS MEDIDAS DE QUALIDADE DO NÓ FOLHA. (A classe modal em cada nó é assinalada por fundo cinzento na tabela) nó folha soma da linha percentagem de lojas do grupo no nó nA nA1/ nA nB nB2/ nB nC nC3/ nC nD nD4/ nD nó 1 nó 2 nó 3 nó 4 … grupo A nA1 nA2 nA3 nA4 … grupo B nB1 nB2 nB3 nB4 … grupo C nC1 nC2 nC3 nC4 … grupo D nD1 nD2 nD3 nD4 … … … … … … … … soma da coluna percentagem de hits no nó folha n1 n2 n3 n4 … n nA1/ n1 nB2/ n2 nC3/ n3 nD4/ n4 grupos total de observações na árvore a Como discutido atrás, opta-se por utilizar todas as regras proposicionais resultantes de todas as árvores de classificação construídas em vez de se escolher uma delas e o conjunto de regras correspondente. Assim, não só se garante que todas as lojas existentes são correctamente classificadas por, pelo menos, uma das regras, como se oferece ao decisor um conjunto de alternativas de classificação, permitindo a utilização do conhecimento de domínio na selecção da mais adequada. A outra face da moeda está relacionada com dificuldades de escolha quando as classificações são contraditórias. Nesses casos utiliza-se um indicador de qualidade das diferentes regras proposicionais para auxiliar o decisor. V.B.3. Novos Dados e o Índice de Precisão As regras proposicionais apresentadas no ponto anterior foram induzidas a partir da totalidade das observações disponíveis à data de escrita desta dissertação. No entanto, num ponto anterior de desenvolvimento deste trabalho foram apresentados e discutidos com os especialistas resultados com menos três lojas abertas durante o ano de 2002. Esses resultados são aqui apresentados para efeitos de avaliação da estabilidade das regras proposicionais induzidas. 124 No Anexo L (pág. 233) apresentam-se as regras proposicionais definidas nas condições descritas. A maioria das regras proposicionais são diferentes não apenas devido ao facto do número de lojas ser distinto mas porque entretanto houve experiência de aplicação destas regras. Como exemplo, pode citar-se a variável “localização da loja na malha urbana” que, aquando da apresentação dos modelos discriminantes do Anexo, foi considerada bem definida e aceite sem problemas. No entanto, durante o passado ano em que as regras de classificação foram utilizadas para fazer previsões, a sua utilização foi posta em causa. Assim, optou-se por excluir esta variável na revisão das regras proposicionais apresentadas na Tabela 7. Este tipo de observações levou a uma redução do número de variáveis discriminantes obtidas do programa de mystery shopping, consideradas menos objectivas e de definição mais difusa, e um aumento no número de variáveis obtidas por análise espacial. Sublinhe-se que este tipo de opções não diminuiu a qualidade das regras proposicionais segundo as duas medidas utilizadas. Relativamente à qualidade das árvores de classificação os valores de hit rate sobre a totalidade da amostra utilizada na estimação são 95% (CART), 90% (CHAID) e 80% (QUEST) e os valores de estimativa de erro pelo método leave-one-out são: 25% (CHAID), 35% (QUEST) e 30% (CART), muito semelhantes aos apresentados na Tabela 7 para a totalidade das lojas. As regras proposicionais apresentadas no Anexo L, induzidas sem qualquer informação sobre as novas lojas abertas durante o ano de 2002, foram utilizadas para classificar essas mesmas lojas após uma fase de recolha de dados sobre os locais potenciais. Na Tabela 8 apresentam-se esses resultados. Da Tabela 8 pode-se concluir que as regras proposicionais definidas sem estas três lojas conseguem sempre classificar correctamente estas lojas. Ainda que estes resultados sejam muito bons, a validação é claramente insuficiente até porque as novas lojas cobrem apenas 2 das 6 classificações possíveis. No entanto, algumas regras de classificação conduzem a resultados incorrectos. Também não se pode afirmar que uma árvore de classificação consegue sempre obter resultados correctos. Por exemplo, a árvore obtida pelo método CART obteve bons resultados de hit rate e, no entanto, não conseguiu classificar correctamente a loja 2A. A regra maioritária, ainda que funcionasse para estas 3 lojas, não permitiria tirar conclusões no caso de cada método indicar uma classificação diferente. Autores como Cardoso (2003) e Quinlan (1993) consideram que a avaliação das classificações não deve ser efectuada apenas a nível da árvore de classificação mas também a nível da regra de classificação e utilizam medidas semelhantes às apresentadas na Tabela 7. 125 TABELA 8 CLASSIFICAÇÕES PREVISTAS E DEFINITIVAS PARA TRÊS LOJAS RECENTES. (Classificações previstas das regras proposicionais do Anexo L e definitivas do dendrograma da Figura 21, pág. 99) LOJA MÉTODO CLASSIFICAÇÃO PREVISTA CLASSIFICAÇÃO DEFINITIVA 2R CHAID Lojas Grandes Lojas Grandes QUEST Lojas Grandes CART Lojas Grandes CHAID Lojas Grandes QUEST Lojas Grandes CART Bairros Grandes CHAID Bairros Grandes QUEST Lojas Grandes CART Bairros Grandes 2A 2N Lojas Grandes Bairros Grandes Uma classificação incorrecta pode corresponder a previsões de vendas com erros de previsão consideráveis, pelo que se considera útil a construção de um índice de precisão que indique ao decisor qual a classificação a utilizar em caso de classificações contraditórias. Sublinhe-se que o nome escolhido não é inocente, já que se indica ao utilizador a classificação mais aconselhável segundo um critério de precisão i.e. de qualidade das regras proposicionais para os dados existentes, sem excluir a possibilidade do decisor recorrer a outros critérios para aceitar classificações diferentes das sugeridas. A expressão a que se chegou é apresentada na equação (11) onde o índice de precisão para a loja j é representado por IPj, leaveOneOuta representa a estimativa do erro de classificação pelo método leave-one-out para a árvore a, %hits a “percentagem de hits no nó” referente à regra proposicional ar e %grupo a “percentagem de lojas do grupo no nó” para a mesma regra. ( IPj = 1 − leaveOneOut a ) × (%hits β α ar ) × % grupo1a−r α , 0 ≤ α ≤ 1, β ≥ 0 (11) Os parâmetros α e β foram estimados para a totalidade das lojas de modo a garantir a escolha de um máximo de classificações correctas para as lojas existentes com classificações contraditórias. Na Tabela 9 apresentam-se os resultados da classificação aconselhada pelo índice de precisão para as regras usadas para calibrar a expressão (11) e igualmente para as regras proposicionais do Anexo L. 126 TABELA 9 LOJAS COM CLASSIFICAÇÕES CONTRADITÓRIAS USADAS PARA CALIBRAR E VALIDAR O ÍNDICE. (Utiliza-se β = 1,5, leaveOneOut, %hits e %grupo indicados na Tabela 7 e no Anexo L.) REGRAS PARA TODAS REGRAS SEM LOJAS LOJA MÉTODO AS LOJAS (α = 0,6) ABERTAS EM 2002 (α = 0,4) BR RP NR AN PY FA RA LM 2A 2N a a a CLASSIFICAÇÃO ÍNDICE CLASSIFICAÇÃO ÍNDICE CHAID Grandes 0,590 Grandes 0,581 QUEST Intermédias 0,527 Grandes 0,351 CART Passagem >’s 0,457 Grandes 0,544 CHAID Bairro <’s 0,635 Bairro <’s 0,547 QUEST Bairro <’s 0,443 Passagem 0,334 CART Bairro <’s 0,692 Bairro <’s 0,586 CHAID Bairro >’s 0,568 Bairro >’s 0,581 QUEST Bairro >’s 0,361 Grandes 0,351 CART Bairro >’s 0,633 Bairro >’s 0,586 CHAID Bairro >’s 0,568 Grandes 0,650 QUEST Bairro <’s 0,443 Grandes 0,351 CART Bairro >’s 0,633 Grandes 0,544 CHAID Bairro >’s 0,568 Bairro >’s 0,581 QUEST Bairro >’s 0,361 Passagem 0,334 CART Bairro >’s 0,633 Bairro >’s 0,586 CHAID Passagem 0,535 Passagem 0,579 QUEST Bairro >’s 0,361 Passagem 0,334 CART Passagem 0,590 Passagem 0,586 CHAID Passagem 0,535 Passagem 0,579 QUEST Intermédias 0,469 Intermédias 0,351 CART Intermédias 0,692 Intermédias 0,586 CHAID Bairro >’s 0,568 Bairro >’s 0,581 QUEST Grandes 0,437 Intermédias 0,351 CART Passagem >’s 0,457 Bairro >’s 0,586 CHAID Bairro >’s 0,568 Grandes 0,650 QUEST Grandes 0,361 Grandes 0,351 CART Grandes 0,575 Bairro >’s 0,586 CHAID Bairro >’s 0,568 Bairro >’s 0,547 QUEST Bairro >’s 0,437 Grandes 0,351 CART Bairro >’s 0,633 Bairro >’s 0,586 Lojas novas em 2002 pelo que os valores para as regras sem lojas abertas em 2002 são previstos. 127 Ainda que a tabela não mostre a totalidade das classificações contraditórias encontradas nos dois conjuntos de regras proposicionais, tanto no conjunto usado para estimação como na aplicação da expressão (11) ao anterior conjunto de regras induzidas sem as três lojas mais recentes, não foi possível encontrar um único caso em que o índice de precisão indicasse uma classificação errada. Note-se no entanto, o caso da loja NR, PY e LM onde, para as regras induzidas sem as lojas abertas em 2000, o índice conduz a duas classificações com valores muito próximos. Para avaliar o comportamento da expressão (11) a variações dos parâmetros efectuou-se uma análise de sensibilidade. Utilizando as regras proposicionais para todas as lojas e sem as lojas abertas em 2002, foi possível determinar o gráfico da Figura 25. Nesta figura usam-se passos de uma décima para cada um dos parâmetros e assinalam -se as células onde todas as lojas com classificações contraditórias são correctamente classificadas. As células em branco correspondem a valores de parâmetros onde em ambos os conjuntos de regras proposicionais se verificam classificações incorrectas. FIGURA 25 ANÁLISE DE SENSIBILIDADE AOS PARÂMETROS ALFA (α) E BETA (β) DA EXPRESSÃO (11) . (As células assinaladas correspondem a parâmetros para os quais todas as lojas são correctamente classificadas) alfa 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 beta 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 ... X X X X X X X X X X X X X X X X X X O X X X X X X X X X O X X X X X X X X O X X X X X X X X O O X X X X X X X O O X X X X X X O O X X X X X X O O O X X X X X X O O O X X X X O O O X X X X O O O O X X X O O O O X X X O O O O X X O O O O X O O O O O X O O O O O X O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O Legenda: X O regras induzidas sem as lojas abertas em 2002; regras induzidas para a totalidade das lojas. Da Figura 25 é possível concluir que os conjuntos de valores de parâmetros para os quais todas as classificações são correctas são disjuntos para cada um dos conjuntos de regras proposicionais. Mesmo quando os símbolos utilizados para cada um dos grupos de regras proposicionais surgem em células contíguas, é possível verificar que utilizando valores nos parâmetros com mais casas decimais existe sempre um conjunto de valores separador onde nenhum dos conjuntos de regras resulta em todas as classificações correctas. Estes resultados evidenciam a grande sensibilidade das regras proposicionais induzidas à adição de novas lojas perante o problema da praga de dimensionalidade. Mais especificamente, este facto deve-se à presença nos dois 128 conjuntos de regras de condições contraditórias de tal modo que quando todas as lojas estão correctamente classificadas num conjunto existe pelo menos uma loja mal classificada no outro. O facto de ambos os parâmetros poderem tomar valores limite: zero para o β e um para α, poderia colocar a hipótese de simplificar a expressão (11) retirando a medida “percentagem de lojas do grupo no nó” ou a estimativa de erro pelo método leave-oneout. No entanto, é fácil observar que estas são situações limite e que na generalidade dos casos estas duas medidas devem estar presentes no índice de precisão até pela diferença observada entre os dois conjuntos de regras proposicionais. Na Figura 25 observa-se o aparecimento de rectas de indiferença à semelhança das utilizadas em métodos como o TRIDENT para ordenação de alternativas utilizando funções utilidade em contexto multicritério (Tavares, 2004). Note-se que ao contrário do método TRIDENT a expressão (11) para o IP não é linear. É, no entanto, simples provar que as funções de indiferença continuam a corresponder a rectas, i.e. que a relação entre os parâmetros α e β que correspondem a igual valor de IP para dois métodos distintos é linear nos referidos parâmetros. Assim, pode-se interpretar as áreas definidas na Figura 25 como resultantes da intersecção da área para cada loja correspondentes à classificação correcta. Quanto à análise de sensibilidade aos referidos parâmetros verifica-se uma boa robustez, já que as áreas correspondentes a todas as classificações correctas são grandes, verificando-se igualmente um equilíbrio na precisão necessária para ambos os parâmetros. No entanto, esta robustez coloca o problema de determinar quais os parâmetros mais adequados para previsão de classificações. No caso da previsão para as três novas lojas abertas em 2002, o problema não se coloca, uma vez que todos os valores de parâmetros marcados com uma cruz na Figura 25 prevêem correctamente as classificações das duas novas lojas com classificações contraditórias. As únicas excepções verificam-se para β =0 onde duas regras surgem com o mesmo valor de índice de precisão na loja 2A e uma delas conduziria a uma classificação incorrecta. Assim, o único critério que é possível deduzir destas observações é que os valores dos parâmetros do índice de precisão devem afastar-se dos limites onde surgem as zonas de indecisão. Note-se que, neste caso particular, as regras proposicionais obtidas da árvore construída pelo método QUEST poderiam ser removidas dos resultados, uma vez que o elevado valor de estimativa de erro por leave-one-out não permite que as classificações indicadas por este método sejam escolhidas. No entanto, esta observação não se verifica 129 para todos os valores de β, pelo que se considera este resultado pontual para estes dados. Com mais lojas é possível que as regras proposicionais definidas pelo QUEST conduzam a valores de leave-one-out mais aceitáveis em termos do índice de precisão. Outro pormenor está relacionado com o facto das regras proposicionais enumeradas na Tabela 7 indicarem apenas um valor limite para as variáveis métricas usadas em partições. Na verdade, o valor corresponde ao centro do intervalo entre a última loja classificada no nó da esquerda e a primeira classificada no nó da direita. Este intervalo de indefinição da classificação é tratado nesta dissertação como correspondendo à classificação em ambos os nós em simultâneo, deixando assim ao utilizador (com auxílio do índice de precisão) a possibilidade de escolher a classificação que considera mais adequada. Dado o sucesso do índice definido, passa-se a utilizar este índice nas previsões apresentadas nos próximos modelos, tendo igualmente sido implementado no software APAV utilizado para efectuar previsões de vendas para novas localizações. V.C. Modelos de Regressão Linear Múltipla Tendo em conta a definição do problema, apresentada na secção I.B (pág. 10), e tendo-se chegado a acordo sobre a medida a usar para comparar localizações e lojas potenciais (vendas anuais previstas), uma metodologia comum passava pela construção de modelos de regressão linear. Na verdade, a simplicidade destes modelos, a capacidade explicativa dos parâmetros estimados e o facto de serem facilmente aceites pelos decisores que, regra geral os conhecem bem assim como às técnicas usadas na estimação, tornam estes modelos muito atractivos para este tipo de decisões. No entanto, neste caso particular os modelos calibrados por regressão linear apresentam algumas limitações importantes, sendo a mais relevante o facto de o limitado número de lojas não permitir a construção de modelos por cada grupo de lojas análogas, método aconselhado por autores como Themido et al. (1998) e Heald (1972). Para tentar minimizar este problema, utilizam-se variáveis binárias para identificar os grupos e assim extrair a componente das vendas explicadas por estes. Foram ensaiados ainda modelos de segmentos latentes também conhecidos por modelos de misturas finitas, estimados pela maximização da função de verosimilhança, mas dificuldades na selecção de variáveis explicativas e principalmente problemas com o elevado número de parâmetros a estimar para um número reduzido de observações disponíveis, impediram a obtenção de modelos com qualidade suficiente. Estes métodos 130 apresentam a importante vantagem de realizarem em simultâneo os dois passos do processo de estimação: a segmentação das lojas e o ajustamento de um modelo de regressão com a possibilidade de estimar parâmetros distintos em cada cluster definido (Cardoso, 2001 e Wedel e Kamakura, 2000). V.C.1. Estimação e Selecção de Modelos Iniciou-se o estudo deste problema pela construção de modelos de regressão com objectivos exploratórios com vários grupos de dados disponíveis. Começou-se por desenvolver modelos incluindo cadeias de lojas pertencentes a grupos económicos concorrentes, tendo-se seleccionado apenas lojas com “área de vendas” inferior a 1.500 m2 e em localizações geográficas semelhantes às da cadeia em estudo. No entanto, a dificuldade em recolher informação sobre cadeias concorrentes inviabilizou a utilização desta alternativa. Tendo em conta as dificuldades relacionadas com o reduzido número de lojas existentes para a cadeia de lojas em consideração, construíram-se ainda alguns modelos de regressão com lojas de várias insígnias pertencentes ao mesmo grupo de distribuição e para as quais se dispunha de valores de vendas rigorosos. Estas regressões, com fins exploratórios, incluíam cerca de 60 lojas de tamanhos e localizações muito diversas, dispondo-se de muito poucas variáveis explicativas, quase todas resultantes de análise espaciais e demográficas. Destas regressões e de estimativas de correlações bivariadas de Pearson entre as diferentes variáveis em estudo, foi possível concluir da elevadíssima correlação entre as “vendas anuais para 1999” e a “área de vendas” ou o “número de caixas de saída” atingindo os 0,93 e 0,97 respectivamente. Esta forte correlação aconselha uma forma funcional linear ou a utilização de rácios “vendas anuais por área comercial”. Estas regressões exploratórias confirmaram o comportamento diferenciado entre grandes espaços comerciais e os pequenos, sendo as vendas dos primeiros facilmente explicadas pela “área de vendas” e as segundas revelando-se muito mais difíceis de modelar, sendo necessário considerar um maior número de variáveis explicativas. Sublinhe-se que, em ambos os modelos com objectivos exploratórios, os resultados medidos pelo coeficiente de determinação são muito bons, variando esta medida de qualidade do modelo entre 88 e 93%. No entanto, ao observarmos mais cuidadosamente os valores de vendas previstos para as lojas da cadeia em estudo, 131 encontram-se desvios muito elevados, tornando estes modelos inadequados para previsão. Perante estes resultados e as várias dificuldades encontradas, optou-se por realizar regressões apenas com os dados da cadeia, o que também tem a vantagem de tornar o grupo de lojas analisadas mais análogas. Na verdade, como discutido na secção II.C.2 (pág. 31), estas regressões apenas fazem sentido se as lojas forem comparáveis entre si e não se misturarem cadeias demasiado distintas. Note-se que estas regressões apresentam algumas dificuldades práticas que merecem ser referidas. Nomeadamente, foi necessário eliminar alguns atributos considerados menos relevantes, uma vez que o número de variáveis mudas não deve ser exagerado, e utilizaram-se as variáveis ordinais com 5 ou mais níveis como métricas. Este procedimento é recomendado por autores como Tabachnick e Fidell (2001), Rawlings et al. (1998) e Berry (1993). Foi ainda necessário eliminar todas as variáveis com valores omissos34, o que implicou a redução de cerca de duas dezenas de variáveis potencialmente explicativas das vendas. Notaram-se igualmente problemas na heurística passo a passo (stepwise)35 para escolha das variáveis explicativas, em especial quando se utilizam variáveis mudas. No entanto, os maiores problemas observaram-se por quasi-singularidade da matriz de variância \ covariância. Os problemas de multicolinearidade que conduzem à quasi-singularidade da matriz de variância \ covariância, que precisa de ser invertida durante o processo de estimação dos parâmetros, foram detectados por utilização do condition index. Este índice é calculado como a raiz quadrada do quociente entre o maior valor próprio e o menor da matriz de correlações entre as variáveis independentes. Sempre que um modelo apresentava valores de condition index próximos ou superiores a 30, removeu-se a variável independente com maior valor de factor de inflação da variância (variance inflation factor). Este factor é simplesmente o inverso do recíproco do coeficiente de determinação múltiplo obtido de regressões de cada variável com todas as restantes variáveis independente. Deste modo, permite-se que novas variáveis explicativas entrem no modelo pela heurística passo a passo (ver Tabachnick e Note-se que a utilização do método pairwise para excluir os casos com valores omissos não permitia obter resultados. O método pairwise minimiza o número de observações não consideradas na regressão excluindo apenas aquelas que são inevitáveis. 35 Utiliza-se as expressões “heurística passo a passo” ou “regressão passo a passo” como tradução de stepwise method, correspondendo a uma heurística de construção de modelos de regressão em que em cada passo é incluída ou excluída uma variável explicativa do modelo até que o “melhor” modelo seja obtido. A segunda tradução é referida em Guimarães e Cabral (1997). 34 132 Fidell, 2001, Moutinho et al., 1998, Berry, 1993 para uma discussão dos problemas de multicolinearidade). Das estimativas apresentadas na Tabela 10 resulta a necessidade já intuitivamente observada de segmentar o grupo de lojas. O melhor modelo sem a inclusão da informação sobre agrupamentos é claramente inferior aos restantes dois modelos que integram essa informação, em todos os indicadores de qualidade utilizados. Pelo contrário, os modelos que incluem a informação sobre agrupamentos definidos pela metodologia interactiva podem ser considerados muito bons. No entanto, para o modelo que inclui as lojas identificadas como atípicas, o resultado é fortemente influenciado por estas lojas, nomeadamente no que respeita ao desvio relativo médio. Valores reduzidos de desvio absoluto médio e comparativamente elevados de desvio relativo médio indicam que as previsões correspondentes a maiores desvios se verificam para as lojas que menos vendem, tal como acontece neste caso (ver Figura 22, pág. 100). Outro problema observado prende-se com a instabilidade dos modelos relativamente à eliminação de outliers. Comparando os resultados da tabela para os dois melhores modelos é fácil concluir da boa robustez dos modelos obtidos já que utilizam exactamente as mesmas variáveis como explicativas. As variações observadas nos coeficientes das variáveis mudas, quando se removem apenas duas lojas consideradas aberrantes ou atípicas, podem ser explicadas pela elevada influência desses pontos nos resultados. Esta afirmação é corroborada por medidas de influência de observações específicas (as duas lojas atípicas) nos parâmetros do modelo, como a diferença entre o resíduo PRESS (Predicted Sum of Squares) e os resíduos estudantizados (studentized residual36) ou medidas da diferença da estimativa de parâmetros com e sem as observações (DfBetas), apresentando as lojas atípicas sempre valores muito elevados de influência nos resultados (ver Figura 26). Sublinhe-se que estas observações são especialmente influentes nas estimativas dos parâmetros do modelo por se situarem no extremo inferior dos valores de vendas (Tabachnick e Fidell, 2001). Estes resultados justificam a eliminação de duas observações numa regressão já com reduzido número de graus de liberdade. Usa-se a expressão “resíduos estudantizados” como tradução de “studentized residual” como sugerido por Maroco (2003). Na secção seguinte explicam-se em maior pormenor estas medidas de influência das diferentes observações nos valores estimados. 36 133 TABELA 10 REGRESSÕES PARA AS LOJAS DA CADEIA COM E SEM CONSIDERAÇÃO DE GRUPOS ANÁLOGOS. (Modelos significativos a 1% pelo teste F de análise de variância e coeficientes estimados a 5% pelo teste t) MODELOS SEM a GRUPOS ANÁL. COM GRUPOS ANÁLOGOS TODAS LOJAS SEM ATÍPICAS Indicadores de Qualidade da Regressão 64,2 % 85,1% 93,7 % Graus de Liberdade 19 15 13 Estatística F 14 16 37 9.160 4.725 1.103 Desvio Absoluto Médio 376 242 117 Desvio Relativo Médio 11 % 13 % 3,3 % 10 15 19 230 (100) 49,4 (8,9) 125 (50) 0,520 (0,093) 0,265 (0,099) 0,330 (0,054) -- 0,0495 (0,0180) 0,0416 (0,0097) 0,169 (0,083) -- -- -85 (40) -- -- Densidade de Edifícios Construídos entre 96 e 2001 -- 3,4 (1,3) 3,3 (0,9) Área de Influência por caminhos mais curtos 2,5 min. -- 0,200 (0,097) 0,188 (0,062) Lojas de Bairro Grandes n.a. 339 (60) 231 (35) Lojas Intermédias n.a. 309 (59) 196 (95) Lojas Grandes n.a. 269 (76) 145 (44) Lojas de Passagem n.a. 170 (65) 64 (38) Grandes de Passagem n.a. 605 (81) 465 (47) Coef. Deter. Ajustado Desvio Quadrático Médio Condition Index Coeficientes Estimados (Erro Padrão) Constante Área de Vendas (m2) Nº de Alojamentos com Proprietário Ocupante Nº de Famílias Clássicas com 5 ou mais Pessoas Nº de lojas Discount nas proximidades a Melhor modelo obtido sem as variáveis mudas referentes aos grupos análogos, tendo sido tentadas várias variáveis dependentes e várias formas funcionais. As duas lojas atípicas foram excluídas. 134 Todas as variáveis explicativas podem ser consideradas chave no sentido de Themido et al. (1998), uma vez que são estruturantes e seria pouco compreensível do conhecimento do domínio em estudo que pelo menos a “área de vendas” não fosse incluída num modelo de previsão de vendas anuais. Note-se ainda que o conjunto de variáveis explicativas apresenta-se distribuído pelas classes sugeridas na Figura 7 (pág. 50). Na verdade, incluem variáveis referentes às características das lojas (oferta) como “área de vendas”, à concorrência (ligada à dimensão da área de influência) e ao potencial de procura: presente (“número de alojamentos com proprietário ocupante”) e dinâmica (“densidade de edifícios construídos entre 1996 e 2001”). 2,0 W A W A W A W W WA WW A A W A WA W A W WA W A A WA W A A WW WA A WA W A A W A 0,0 W A -2,0 UA -4,0 -6,0 LN W A -2,0 ( a) W A -1,0 0,0 1,0 DfBeta padronizados para a "área de vendas" Dif. entre Resíduo s Estudan tizados e PRESS FIGURA 26 MEDIDAS DE INFLUÊNCIA DAS OBSERVAÇÕES PARA O MODELO COM TODAS AS LOJAS. (Diferença entre o Resíduo Estudantizado e PRESS (a) e DfBeta para a “área” (b). Lojas atípicas identificadas.) UA 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 LN -1,0 -2,0 2,0 Valores P revistos Padronizados 1,0 (b) -1,0 0,0 1,0 2,0 Valores Previstos Padronizados Assim, apesar da abundância de variáveis explicativas alternativas para um reduzido número de observações (curse of dimensionality), a presença de variáveis chave nos modelos corresponde a uma robustez mínima, contribuindo para a confiança dos decisores na utilização dos valores previstos. A avaliação do sinal do coeficiente estimado para uma variável explicativa relativamente ao conhecimento do domínio é igualmente relevante na validação do modelo. Neste caso, não apenas os sinais são os esperados, como as variações percentuais de coeficientes correspondentes a variáveis métricas, entre os dois melhores modelos, são inferiores a 20%. Estes factos são determinantes na verificação da robustez e validação do modelo, contribuindo assim para a sua aceitabilidade. 135 Tendo em conta a qualidade do modelo com agrupamentos e sem lojas atípicas, este é o único modelo escolhido para ser implementado. Sublinhe-se que todas as medidas de qualidade do modelo são bastante superiores relativamente aos restantes. No entanto, a utilização do modelo para previsão está condicionada à verificação dos pressupostos do método de estimação utilizado. V.C.2. Verificação dos Pressupostos da Regressão Linear Múltipla Tendo em conta o melhor modelo da Tabela 10, e ainda que o modelo tenha sido validado pelos especialistas tanto na avaliação das variáveis incluídas como na adequação dos sinais dos coeficientes estimados, é agora necessário verificar as condições de aplicabilidade do método paramétrico utilizado. Assim, o modelo só é válido se os desvios ou resíduos puderem ser ajustados de forma satisfatória a uma distribuição normal de média nula e variância constante e se puderem ser considerados independentes entre si (Maroco, 2003, Guimarães e Cabral, 1997). Testa-se, igualmente, a existência de outliers e a estabilidade ou robustez dos modelos em função de um possível sobre-ajustamento. Na Figura 27 apresentam-se gráficos para verificação dos pressupostos da regressão. Um pressuposto fundamental da regressão linear, como técnica paramétrica, é o de que os desvios devem seguir uma distribuição normal. Do gráfico (a) de dispersão dos desvios padronizados em função das previsões igualmente padronizadas, os valores surgem bem distribuídos em torno do valor nulo e não se observa qualquer evidência de variância crescente ou decrescente com os valores previstos, nem qualquer afastamento de uma relação linear. Desta forma, não se observa evidência para rejeitar as hipóteses de linearidade do modelo e de homocedasticidade dos desvios. Do gráfico (b), gráfico de probabilidade normal (normal probability plot), onde se compara a probabilidade acumulada das observações com a extraída de uma distribuição normal de média nula e desvio padrão um37. A probabilidade observada é obtida por soma dos valores dos resíduos padronizados por z-scores, e a probabilidade extraída da normal é a que corresponde à posição na ordenação das diferentes observações38 (Tabachnick e Fidell, 2001). Resultados idênticos foram obtidos quando os parâmetros da distribuição eram estimados da amostra. Utilizou-se a expressão de Blom: (r-3/8)/(n-1/4) onde n é o número de observações e r a posição na ordenação (Tabachnick e Fidell, 2001). Outras expressões conduzem a resultados idênticos. 37 38 136 FIGURA 27 VERIFICAÇÃO DOS PRESSUPOSTOS DE REGRESSÃO PARA O MELHOR MODELO IDENTIFICADO. (Gráficos de dispersão do desvio (a), gráfico de probabilidade normal (b), histograma dos resíduos com algumas estatísticas e erros padrão entre parêntesis (c), diferença entre os desvios estudantizados e PRESS (d)). Probabilidade Acumulada Normal 1,0 2,0 Desvio Padronizado 2N IE 1,0 0,0 -1,0 -2,0 -2,0 -1,0 0,0 1,0 6 5 4 3 2 1 0 ( c) -2,0 -1,0 0,4 0,2 0,0 1,0 Desvios Padronizados 2,0 (d) 0,2 0,4 0,6 0,8 1,0 Probabilidade Acumulada Observada (b) Dif. entre Resíduo s Estudan tizados e PRESS Frequência Observada Média = 1,18e-15 (0,160) Skewness = 1,082 (0,481) 7 Kurtosis = 2,395 (0,934) 0,6 0,0 0,0 2,0 Valores Previstos Padronizados ( a) 0,8 2,2 2,0 A W 1,0 W A IE 2N WA W W A A A A W W W W WA W A W A W A A A W W A WA WA WA W A A W A W A W 0,0 A W -1,0 -2,2 -2,0 -2,0 -1,0 0,0 1,0 2,0 Valores Previstos Padronizados Da observação do gráfico, a normalidade dos resíduos não é evidente já que os dois pontos com desvios maiores distorcem um pouco a distribuição. Assim, calcularamse várias estatísticas e efectuaram-se diferentes testes para verificar a aderência à distribuição normal dos desvios. Do histograma apresentado no gráfico (c) observa-se uma tendência para a concentração dos valores em torno da média, i.e. uma distribuição leptocúrtica com um pico demasiado elevado, e algum enviesamento para o lado direito, que apresenta uma cauda ligeiramente maior. Além de confirmarem estas observações, as estatísticas de 137 enviesamento (skewness) e achatamento (kurtosis) podem ser usadas para testar as assimetrias relativamente à normal da distribuição de resíduos observada. Assim, o quociente entre a estatística e o seu erro padrão seguem uma distribuição normal reduzida donde é possível retirar o valor 2,576 para um nível de significância de 1% (Tabachnick e Fidell, 2001). Sendo assim, nenhum destes testes exclui a possibilidade de os desvios provirem de uma distribuição normal. É ainda comum utilizar testes não paramétricos como o de Kolmogorov-Smirnov ou Shapiro-Wilk para verificar o ajuste dos desvios à distribuição normal. Neste caso obtiveram-se valores de 0,18839 e 0,881 respectivamente para cada estatística e, logo, 3,4% e 1,0% para as probabilidades de significância (p-value). Sendo assim, com um nível de significância de 5% não é de recusar a hipótese nula de que os desvios provêm de uma distribuição normal. Ainda que os resultados anteriores não rejeitem a hipótese dos desvios ou resíduos do modelo provirem de uma distribuição normal, nos gráficos (a) e (b) da Figura 27, as lojas com os maiores desvios surgem como possíveis candidatas a observações atípicas ou outliers. Para confirmar a existência de lojas candidatas a serem removidas por serem consideradas atípicas, foram calculadas diversas estatísticas como a distância de Mahalanobis, de Cook e a estatística PRESS para resíduos. Todas estas medidas são usadas para avaliar a existência de observações atípicas multivariadas (Maroco, 2003, Tabachnick e Fidell, 2001). A distância de Mahalanobis é simplesmente a distância de uma observação ao centróide definido pelas restantes observações, também conhecida por leverage ou alavancagem40. Pelo contrário, a distância de Cook e a estatística PRESS para resíduos são medidas de influência das observações. Funcionam de forma semelhante à análise de sensibilidade já que compreendem o cálculo dos parâmetros do modelo quando se provocam ligeiras alterações nos dados. Neste caso, as alterações provocadas correspondem à eliminação da observação para a qual a estatística é calculada. As várias variações da distância de Cook são sempre medidas da qualidade da regressão relacionadas com o resíduo estimado de todas as observações quando uma é eliminada. A estatística PRESS para resíduos (também conhecida por studentized deleted residual) No cálculo da estatística de Kolmogorov-Smirnov utilizou-se a correcção de Lilliefors para amostras pequenas. No entanto, autores como Maroco (2003) demonstram preferencia pelo teste da estatística Shapiro-Wilk quando as amostras são inferiores a 30 observações. 40 Na verdade, a distância de Mahalanobis e a alavancagem não são exactamente o mesmo, ainda que possam ser facilmente convertidos segundo uma expressão que depende apenas do número de pontos considerados na regressão (Tabachnick e Fidell, 2001). 39 138 refere-se ao resíduo do ponto eliminado, recalculando o modelo para as restantes observações e corrigido para variações nas variâncias estimadas pelo que faz sentido compará-lo com o resíduo Estudantizado, i.e. com idêntica correcção. Assim, no gráfico (d) da Figura 27 apresenta-se a diferença entre o resíduo PRESS e os resíduos estudantizados voltando a destacar-se as duas lojas candidatas a outliers. A diferença anterior segue uma distribuição t de student exacta quando os desvios podem ser considerados normais (Maroco, 2003). Assim, no gráfico (d) da Figura 27 apresentam-se os valores críticos para 13 graus de liberdade e 5% de nível de significância. Segundo este teste estatístico, os pontos assinalados não podem ser considerados atípicos ou aberrantes uma vez que não é possível rejeitar a hipótese nula de igualdade entre os resíduos estudantizados calculados com e sem a observação. O sobre-ajustamento (overfitting) dos modelos é frequente em situações de curse of dimensionality. Como acontece neste caso, o uso de um elevado número de variáveis potencialmente explicativas dos valores da variável dependente pode conduzir a modelos com um número excessivo de variáveis independentes e coeficientes de determinação multilineares muito próximos da unidade. Na verdade, acaba-se por explicar não apenas a variância da população mas também parte do erro, conduzindo a modelos dificilmente generalizáveis e utilizáveis em previsão. Uma das formas da multicolinearidade se manifestar é através da existência de sobre-ajustamento, já que a primeira é uma das mais importantes fontes de sobreajustamento (Tabachnick e Fidell, 2001, Rawlings et al., 1998, Berry, 1993). Exactamente por se estar ciente deste facto, a multicolinearidade foi um problema cuidadosamente controlado, apresentando os modelos escolhidos valores baixos de condition index. Outros factores indicativos da estabilidade do modelo como a estabilidade resultante da comparação entre o modelo com e sem outliers, e o facto de se ter passado em testes de análise de sensibilidade como os resíduos ou as previsões PRESS dão alguma segurança quanto à ausência de sobre-ajustamento. No entanto, a ausência de sobre-ajustamento apenas pode ser verificada, com segurança, por utilização de técnicas de validação externa i.e. com novos dados mediante validação cruzada e integração de conhecimento de especialistas (Lattin et al., 2003, Tabachnick e Fidell, 2001). A integração de conhecimento do domínio foi uma realidade nomeadamente na selecção entre os muitos modelos construídos, na verificação da relevância das variáveis explicativas incluídas e na validade dos sinais dos parâmetros estimados. 139 Ainda que a validação cruzada com divisão em grupo de estimação e grupo de teste, mais uma vez, não tenha sido possível devido ao reduzido número de observações disponíveis, foi possível utilizar o método leave-one-out descrito no ponto V.B.1 (pág. 115). Este método, correspondente a um processo alternativo de validação cruzada, é agora aplicado não a uma variável dependente nominal mas a uma variável métrica. Neste caso, determina-se a previsão para um ponto depois de estimar os parâmetros do modelo para os restantes. Os desvios destas previsões relativamente ao valor real de vendas para 2002 permitiram determinar o valor de 80,3% para o coeficiente de determinação relativo ao modelo escolhido. Ainda que este valor seja consideravelmente inferior ao valor da Tabela 10, ainda é um valor elevado, correspondente a uma avaliação muito boa do modelo de regressão. V.C.3. Evolução Cronológica das Vendas e Validação com Novos Dados Ainda que o maior esforço de modelação corresponda a dados longitudinais (cross-sectional data), os aspectos dinâmicos da evolução das vendas não podem ser descurados. Tendo em conta que a medida de desempenho escolhida para efectuar comparações entre localizações alternativas é o valor previsto para as vendas anuais do ano seguinte, é necessário modelar a série cronológica das vendas. Uma vez que se dispõe de uma segmentação das lojas, e ainda que esta não tenha sido definida tendo em conta aspectos dinâmicos, parece mais adequado ajustar modelos para cada um dos grupos de lojas definidos ao invés de se utilizar uma agregação para todas as lojas. O pressuposto é o de que lojas ou localizações semelhantes terão igualmente evoluções semelhantes das vendas. Infelizmente, para o caso presente, existem apenas três anos disponíveis. Na Figura 28 apresentam-se as médias de vendas anuais a preços constantes (a) e as médias de vendas por metro quadrado de área de vendas (b), ambas complementadas pelo erro padrão da média. São ainda apresentados valores de previsão e de intervalos de previsão para o ano de 2003, calculados segundo dois métodos distintos, apenas com dados dos três primeiros anos. Pretende-se, nestes gráficos, encontrar padrões e tendências de variação que possam sugerir um método mais adequado para previsão. Os dois métodos de previsão sugeridos são adequados para duas situações distintas: 140 Passagem Intermédias Bairro >'s 2003méd 2003méd 2003últ Passagem >'s 2003méd 2000 2001 2002 2003real Grandes 2003últ 2003méd 2000 2001 2002 2003real 2003últ 2003últ 2003últ 2003méd 2000 2001 2002 2003real Grandes 2003méd 2000 2001 2002 2003real 2003últ 2003méd 2000 2001 2002 2003real Bairro >'s 2003últ 2003últ 2003méd 2000 2001 2002 2003real 2003méd 2000 2001 2002 2003real Intermédias 2003méd 2000 2001 2002 2003real 2003últ Passagem 2003méd 2000 2001 2002 2003real Bairro <'s 2003últ 2003méd 2000 2001 2002 2003real 2003últ 2000 2001 2002 2003real Bairro <'s 2003últ vendas por área a preços constantes e previsões (barras de erro padrão da média e erros de previsão) ( a) 2000 2001 2002 2003real vendas médias a preços constantes e previsões (barras de erro padrão da média e erros de previsão) FIGURA 28 MÉDIA DE VENDAS ANUAIS (a) E DE VENDAS POR UNIDADE DE ÁREA (b) POR GRUPO E PREVISÕES a. (Valores a preços constantes de 2000 b e intervalos de confiança de previsão a 95% c) Passagem >'s (b) a Os valores de vendas de 2003 não foram utilizados no cálculo das previsões apresentadas. b Utilizou-se a média anual dos valores mensais de Índice de Preços ao Consumidor (IPC) publicados pelo INE para a categoria “alimentação e bebidas não alcoólicas” e retirados de www.ine.pt em 24/11/2004. Utiliza-se uma média entre as regiões Norte e Lisboa e Vale do Tejo já que as variações são reduzidas. c Usam-se expressões para o intervalo de previsão da média de 3 observações e valor crítico da distribuição t de student com dois graus de liberdade. 141 • método da tendência (“2003últ” nos gráficos da Figura 28) quando a série de vendas anuais a preços constantes apresenta tendência pronunciada, o método sugerido de previsão utiliza o último ano disponível acrescentando uma variação média observada nos últimos anos; • método da média (“2003méd” nos gráficos da Figura 28) usa-se quando a série não apresenta uma tendência evidente e consiste em utilizar como previsão a média dos últimos três anos disponíveis41. Estes dois métodos devem ser actualizados à medida que novos dados vão sendo disponibilizados, nomeadamente com utilização de métodos paramétricos causais como a regressão com variáveis explicativas das variações de vendas por grupo ou métodos não paramétricos univariados de extrapolação como o alisamento exponencial, ou o método de Holt, uma vez que as séries cronológicas não aparentam incluir qualquer componente sazonal (Bowerman et al., 2005, Chatfield, 2001 e Moutinho et al., 1998). Comparando os dois gráficos da Figura 28, é fácil concluir que as previsões para as vendas têm maior precisão do que as previsões para as vendas por unidade de área. Estes resultados eram previsíveis já que a segmentação das lojas usou como variável base as vendas anuais e como critério a minimização da variância no interior dos grupos. Assim, os grupos formados apresentam variabilidade inferior quando medida em termos de vendas anuais do que em termos de vendas por unidade de área, até porque apresentam um comportamento mais regular. Este facto aconselha a utilização de modelos cronológicos de vendas anuais em detrimento das vendas por unidade de área. Observando o gráfico (a) da Figura 28 e ignorando o valor de vendas para 2003, é possível observar algumas tendências crescentes, como se verifica para as lojas de Bairro Grandes, Intermédias ou Lojas Grandes de Passagem. As Lojas Grandes apresentam igualmente uma clara tendência, mas neste caso decrescente. Para estes tipos de lojas o método mais adequado é provavelmente o método da tendência para extrapolação das vendas anuais. Já no caso das Lojas de Bairro Pequenas e das Lojas de Passagem, o método mais adequado aparenta ser o da média dos três anos disponíveis. No entanto, é importante notar que mais uma vez o conhecimento do domínio por parte dos especialistas é fundamental. Se observarmos os valores de vendas para 2003 é fácil concluir que se trata de um ano pouco regular relativamente aos restantes já que praticamente todos os grupos diminuem as suas vendas relativamente a 2002, quando comparados a preços constantes de 2000. Se um especialista conseguir antecipar este 41 Na aplicação APAV permite-se ainda a utilização da mediana. 142 comportamento por observação do ciclo económico, ou por expectativas criadas com outra informação quantitativa ou qualitativa, pode conseguir previsões bastante mais exactas do que os valores calculados pelos modelos apresentados. Note-se que, ao atribuir uma extrapolação de vendas para o próximo ano calculada para um grupo a uma localização potencial em particular, se está mais uma vez a recorrer ao conceito de grupos de lojas análogas e ainda a afirmar o mesmo tipo de analogia entre a localização potencial e as lojas do grupo. Com os dados de que se dispõe, a aplicação deste conceito afigura-se adequado já que os valores de erro padrão da média são bastante aceitáveis para a maioria dos grupos. A excepção deve-se às Lojas Grandes de Passagem onde, como foi já discutido na secção IV.C (pág. 107), as duas lojas que constituem este grupo definem um grupo menos homogéneo do que os restantes. O modelo final utilizado para efectuar as previsões pode ser representado nas equações seguintes onde Ŵ03j representa o valor previsto para as vendas da loja j em 2003. As variáveis aVendj, nAlojj, dEdifj e aInflj são as variáveis explicativas do modelo calibrado com vendas anuais de 2002 e apresentadas na Tabela 10 (pág. 133) para o modelo com agrupamentos e sem lojas atípicas. O termo independente (B03j) é calculado segundo os resultados da mesma regressão e as correcções resultantes da análise cronológica das vendas anuais e depende do grupo a que é atribuída a localização potencial. Notem-se as reduzidas correcções devidas à evolução cronológica das vendas, apresentadas no último termo de B03j. Wˆ03 j = B03 j + 0,330 × aVend j + 0,0416 × nAloj j + 3,26 × dEdif j + 0,188 × aInfl j B03 j se j ∈ Bairro < ⎧-10 ⎪64 − 6 se j ∈ Passagem ⎪ ⎪⎪196 + 40 se j ∈ Intermédia = 125 + ⎨ ⎪231 + 57 se j ∈ Bairro > ⎪145 − 31 se j ∈ Grande ⎪ ⎪⎩465 + 79 se j ∈ Passagem > (12) Para se avaliar a qualidade das previsões para novas localizações potenciais é essencial utilizar dados não utilizados na estimação dos modelos. Assim, na Tabela 11 apresentam-se algumas medidas de qualidade de previsão para o ano de 2003. Sublinhese que as “vendas anuais para 2003” não foram utilizadas na estimação de nenhum dos modelos anteriores. 143 Nesta tabela apresentam-se resultados para o modelo (12) denominado “previsões com dados de estimação” e para previsões pelo método leave-one-out. Tendo em conta o reduzido número de graus de liberdade observado nos modelos de regressão ajustados na Tabela 10 (pág. 133) os resultados pelo método de jackknife ou leave-one-out oferecem modelos alternativos de previsão. Tendo em conta que são habitualmente aceitáveis erros relativos de previsão até 10%, os resultados apresentados são de boa qualidade (Bowerman et al., 2005 e Penny e Broom, 1988). TABELA 11 MEDIDAS DE QUALIDADE DAS PREVISÕES EFECTUADAS PARA O ANO DE 2003. (Previsões por leave-one-out referem-se a previsões efectuadas para lojas não incluídas no ajuste da regressão) PREVISÕES COM DADOS DE ESTIMAÇÃO PREVISÕES POR LEAVE-ONE-OUT Erro Quadrado Médio 5.303 9.690 Erro Relativo Médio 8,9 % 10,8 % Mediana do Erro Relativo 6,8 % 7,7 % Erro de Previsão Médio -117 -172 Erro Absoluto Médio 292 370 MEDIDAS DE QUALIDADE Os resultados são tão mais aceitávies por se ter já concluído que, provavelmente devido ao ponto do ciclo económico que atravessamos, o ano 2003 foi pouco previsível relativamente aos anteriores, nomeadamente ao ano de 2002 usado no ajustamento do modelo de regressão. Tanto a diferença entre o valor médio e a mediana como as médias do erro de previsão são consideráveis e indicam uma distribuição não centrada em zero e assimétrica à esquerda com alguns erros provavelmente mais elevados. Para se poderem analisar os erros relativos para cada uma das lojas existentes construíram-se os gráficos da Figura 29 onde se comparam os erros obtidos pelos dois métodos de previsão considerados. No gráfico (a) é possível observar a prevalência do modelo correspondente às equações (12) sobre o modelo de previsão obtido pelo método leave-one-out. Na verdade, apenas 4 lojas apresentam erros de previsão inferiores para este último método. O gráfico (b) confirma mais uma vez estes resultados. No gráfico (a) é ainda possível distinguir alguns grupos de lojas relativamente aos restantes quanto aos erros relativos. As previsões para as Lojas Grandes de Passagem e as Lojas de Passagem são muito boas, apresentando estas lojas comportamentos de vendas muito regulares. Por outro lado, as Lojas de Bairro Grandes, de Bairro Pequenas 144 e Intermédias (com excepção da loja AA) são aceitáveis, e apresentam vendas previstas quase sempre superiores às realizadas, o que é compreensível tendo em conta a recessão económica que atravessamos e a orientação para segmentos de classe média a elevada. FIGURA 29 ERROS DE PREVISÃO RELATIVOS PARA TODAS AS LOJAS (a) E GRÁFICO DE EXTREMOS E QUARTIS (b). (Gráfico (b) valores absolutos e círculo corresponde a valores superiores a 1,5 de amplitude interquartílica) erros de previsão relativos 30% 20% previsões por leave-one-out previsões c\ todas as lojas 10% 0% -10% -20% -30% NR 2N LM PY AN FO RP RL AA RA UE OA PK 2R BR 2A KO IE UB FA LA BF MR Bairro >'s Bairro <'s Intermédias Grandes Passagem Psg >'s ( a) erros de previsão relativos 30% A AA 20% 10% 0% dad os de estimação método leave-one-o ut (b) No entanto, os piores erros de previsão podem ser encontrados entre as Lojas Grandes que surgem divididas em dois grupos: as lojas KO e IE com vendas acima das 145 previsões e as restantes com vendas abaixo das previsões. Apesar desta observação, as medidas de variância explicada são aceitáveis sem a divisão em dois grupos (ver Tabela 5, pág. 105). Do gráfico (b) da Figura 29 pode observar-se que quase 75% das lojas obedece à regra dos 10% de erro de previsão aceitável, ainda que este limite seja considerado muito exigente por autores como Birkin et al. (2002). Deste gráfico destaca-se a loja AA como atípica. Na verdade, esta loja apresenta um comportamento inesperado, com uma queda nas vendas entre 2002 e 2003 de 15% a valores constantes. Assim, esta loja tornou-se claramente a que menos vende dentro do grupo, sendo provavelmente adequado a passagem para o grupo das Lojas de Bairro Pequenas. Note-se que os erros de previsão apresentados não incluem erros de classificações incorrectas. Tais erros podem ser avaliados utilizando as previsões pelo modelo (12) e os valores de vendas para 2003. A utilização de valores reais de vendas anuais para 2003 permite calcular um erro médio por grupo incluindo erros de classificação e de previsão. O gráfico da Figura 30 não é simétrico por no denominador do erro relativo surgirem as vendas reais que apresentam valores muito distintos se o grupo real for as lojas de Bairro Grandes ou as Lojas Grandes de Passagem. Sublinhe-se que estes “custos” de classificações incorrectas podem ser integrados nos algoritmos de indução de regras proposicionais (Thomas et al., 2002 e SPSS, 2001). FIGURA 30 ERROS DE PREVISÃO E DE CLASSIFICAÇÃO PARA O MODELO (12) PARA O ANO DE 2003. (Os valores menores na diagonal correspondem a erros de previsão já que o grupo atribuído é também o real) erros de previsão e de classificação 100% 50% 0% -50% -100% Ba irr o < Pa ss 's ag In e te rm m é Ba dias irr o >' s G r Pa an de ss ag s em >' s -150% grupo atribuído grupo real P G a Ba ran ssag I P nt ir d em Ba ass erm ro > es >' s irr ag éd 's o em ias <' s 146 Estes resultados põem em evidência a necessidade de manter a informação actualizada com dados de vendas e periodicamente também com os restantes métodos de recolha utilizados. Novos dados significam igualmente a renovação dos modelos, em especial do modelo representado pela equação (12), mas igualmente das regras proposicionais e mesmo da tipologia definida. V.D. A aplicação APAV no Apoio a Decisões de Localização Após a construção e estimação de modelos com o objectivo de prever vendas para novas localizações potenciais, passa-se nesta secção a descrever uma aplicação de software que implementa os modelos descritos e, em conjunto com outras aplicações já existentes, constitui um ambiente de apoio à decisão. A utilização de modelos, dados, conhecimento e software para apoiar decisões conduziu aos denominados Sistemas de Apoio à Decisão (SAD’s). Estes sistemas podem ser definidos como a utilização de aplicações informáticas para assistir os decisores em todo o processo de compreensão, definição, avaliação e escolha de alternativas e finalmente tomada de decisão sobre problemas complexos semiestruturados ou muito pouco estruturados, sendo igualmente um dos objectivos a geração de conhecimento sobre o problema em estudo. A expressão Sistema de Apoio à Decisão não é a única utilizada neste contexto. Expressões relacionadas e que se podem encontrar na literatura compreendem SAD’s Baseados em Conhecimento (Knowledge Based Decision Support Systems: KBDSS) que se concentram na construção de uma base de regras de decisão obtidas pelas mais diversos processos e com as mais diversas origens. Se a origem for apenas o conhecimento de especialistas, então obtém-se um Sistema Pericial (Expert Systems) (Turban et al., 2005). Vários exemplos de SAD para apoiar decisões em marketing são apresentados por Moutinho et al. (1998). Estes incluem planeamento de estratégias de marketing, previsão de vendas para novos produtos e definição de opções de negócio utilizando Analytical Hierarchy Process (AHP). Um exemplo, que utiliza árvores de decisão à semelhança da presente dissertação, é o sistema pericial para a escolha de admissões em cursos de MBA apresentado em Moore (1998). Muitos outros exemplos podem ser encontrados onde actividades de classificação de clientes e investimentos são fundamentais como na atribuição de pontuações a pedidos de crédito (credit scoring, ver por exemplo Thomas et al., 2002). Para exploração mais completa deste tipo de sistemas 147 periciais e baseados em conhecimento recomenda-se Awad e Ghaziri (2004) e Adelman (1992). Um exemplo de Sistema Pericial para apoiar decisões de escolha de localizações potenciais é o sistema descrito por Curry e Moutinho (1992). Neste artigo é efectuada uma comparação deste tipo de sistemas com muitos outros tipos de modelos e técnicas implementáveis num sistema informático. Por fim, é descrito um novo sistema baseado na conjugação de equações matemáticas com uma representação formal de conhecimento de especialistas num Sistema Perícial. Outras aplicações de Sistemas Periciais pelos mesmos autores podem ser encontrados em Moutinho et al. (1996). Keen e Morton (1978) acrescentam, à definição apresentada de SAD, a melhoria da eficácia das decisões mas não necessariamente da eficiência do processo decisório, i.e. pretendem-se melhores decisões, mais adequadas aos objectivos propostos, aos problemas e ao contexto, com maior probabilidade de serem implementadas com sucesso, mesmo que à custa de um processo por vezes mais demorado. Este conceito põe a tónica nos resultados práticos produzidos em detrimento da eficiência dos processos que resulta na maior parte das vezes da automação dos mesmos. Na verdade, as principais vantagens das aplicações informáticas são o fácil acesso à informação e aos modelos e a possibilidade de se poderem estudar, analisar ou simular várias alternativas, permitindo melhorar a eficácia da decisão tomada. Como nota Marakas (2003), a principal característica de um sistema eficaz, neste contexto, resulta no reconhecimento da dinâmica de um sistema que não pode ser separada da dinâmica do contexto que o rodeia, a qual exige constante revisão, adaptação, aprendizagem e constante repensar o problema, mesmo que correndo o risco de o processo ser lento e ineficiente. Segundo o conceito de apoio à decisão, não se pretende substituir o decisor mas fornecer-lhe um ambiente decisional adequado e informado (Turban et al., 2005, Keen e Morton, 1978). Na base deste conceito está o reconhecimento de que em decisões pouco estruturadas e complexas como as decisões de localização, os aspectos culturais e o conhecimento do problema de quem decide não podem ser descurados ou ignorados (Lilien e Rangaswamy, 2003, Birkin et al., 2002). Para que o utilizador confie na aplicação construída, todo o processo foi acompanhado por frequentes reuniões e workshops com os analistas e futuros utilizadores das aplicações. Em algumas reuniões, consideradas mais relevantes, outros decisores estiveram presentes, como por exemplo o responsável operacional pela cadeia de retalho alimentar. 148 Nos pontos seguintes pormenorizam-se as fases de desenho e de implementação ou construção da aplicação que faz a ligação entre as diferentes peças de software utilizadas e que permite analisar o problema e obter previsões, a que se denominou Análise e Previsão por Analogia de Vendas (APAV). Note-se, no entanto, que fases normalmente consideradas essenciais no desenvolvimento de SAD’s como a análise de sistemas e as várias especificações funcionais e de requisitos, essencial para se obter um sistema integrado, não foram consideradas nesta dissertação e mesmo as fases de desenho, construção e implementação surgem de forma aligeirada (Marakas, 2003). Esta opção consciente baseou-se no facto de que a aplicação ter sido sempre considerada uma ferramenta útil para operacionalizar os modelos, mas não essencial para atingir os objectivos do projecto. V.D.1. Desenho: Integração de acoplamento fraco Sistemas de apoio à decisão são aplicações computacionais com uma estrutura que envolve três componentes essenciais. Os dados e ferramentas para os actualizar e tratar, os modelos que permitem manipular esses dados com propósitos que vão desde o simples apuramento de medidas de desempenho de soluções alternativas até optimizar ou sugerir melhores alternativas, e uma interface que se pretende altamente interactiva e com uma curva de aprendizagem o mais vertical possível. A esta estrutura base acrescentam autores como Turban et al. (2005) um “subsistema baseado em conhecimento” e Sauter (1997) facilidades de comunicação sobre internet, intranet ou extranet, como o correio electrónico ou páginas World Wide Web (WWW), indispensáveis na transmissão de conhecimento. Segundo Marakas (2003), existem duas aproximações mais comuns ao desenho de um SAD, nomeadamente: programando um sistema novo orientado para a decisão ou conjunto de decisões e talhado para o decisor ou decisores específico ou utilizando uma aplicação base a que denomina um gerador de SAD. A primeira aproximação envolve um longo trabalho de programação numa linguagem genérica. Nomeadamente, nos sistemas mais recentes e tendo em conta as enormes vantagens de comunicação e de acesso a dados distribuídos, utilizam-se linguagens como o HTML e o Java no desenho da interface (Turban et al., 2005). Pelo contrário, um gerador de SAD é uma aplicação ou conjunto de aplicações que permitem reduzir o trabalho de programação ao já conterem um conjunto de rotinas para gerir dados, gerar e implementar modelos, visualizar gráficos e dados geográficos e 149 criar interfaces. Os exemplos são muitos e variados e vão desde as aplicações específicas para o efeito a aplicações de data mining, pacotes estatísticos de análise de dados, Sistemas Gestores de Bases de Dados Relacionais (SGBDR) ou Orientadas para Objectos (SGBDOO), Sistemas de Informação Geográfica (SIG) até às muito simples folhas de cálculo (Turban et al., 2005). Perante um cenário tão vasto, porquê uma folha de cálculo para implementar a aplicação APAV? A resposta a esta pergunta baseia-se nas especificidades do problema e dos utilizadores em consideração. Os argumentos seguintes resumem a opção por uma folha de cálculo. • A principal vantagem das aplicações geradoras de SAD’s sobre as soluções especificamente desenhadas é a facilidade e rapidez na implementação dos modelos e a possibilidade de introduzir facilmente conhecimento por parte do utilizador. No caso das folhas de cálculo, a flexibilidade e rapidez de implementação ou alteração são as grandes vantagens. • As folhas de cálculo oferecem uma interface e um conjunto de ferramentas que os utilizadores conhecem, permitindo uma curva de aprendizagem muito curta. Este facto é comum à maioria dos utilizadores, mas no caso dos utilizadores do APAV é especialmente verdade por estes serem profundos conhecedores da aplicação escolhida. A opção por uma folha de cálculo permite ainda interligação com outras aplicações mais adequadas para gerir dados ou construir modelos e a que os utilizadores já estão habituados. • O conjunto de ferramentas que oferece tende a aumentar e a cobrir os mais variados aspectos da análise de dados e visualização, pelo que as actualizações frequentes destas aplicações são igualmente um dos motivos da escolha. A utilização de suplementos (add-ins, ver por exemplo Clemen e Reilly, 2001) e de linguagens de programação de alto nível como o VBA – Visual Basic for Applications do Ms. Excel (ver por exemplo Albright, 2001) aumenta fortemente o poder de análise e de automatização destas aplicações. • O Ms. Excel dispõe ainda de várias ferramentas para integrar a folha de cálculo com outras aplicações como o OLE – Object Linking and Embedded e obter dados de fontes externas usando DDE – Dynamic Data Exchange e OLE DB uma arquitectura que permite aceder a informação numa rede ou na internet, permitindo importar dados de diversos formatos como bases de dados relacionais, correio electrónico e folhas de cálculo, sendo acessível em macros VBA pelos objectos ADO – ActiveX Data Objects (Albright, 2001). • O problema é de reduzida dimensão e não envolve grandes volumes de dados, uma vez que apenas se dispõem de algumas dezenas de lojas e não se prevê um aumento muito acentuado nos próximos anos. Por outro lado, os dados são relativamente estáveis, possibilitando a utilização de uma folha de cálculo em alternativa a um SGBDR. Os modelos exigem actualizações frequentes, mas são facilmente implementáveis em folha de cálculo, evitando a necessidade de basear o sistema num software de análise estatística ou de data mining. • A utilização de uma aplicação mais simples vai igualmente de encontro à literatura de análise de marketing, a qual recomenda modelos simples e de fácil implementação mas robustos, adaptáveis a novos dados ou alterações nas hipóteses formuladas e facilmente comunicáveis e compreensíveis pelos decisores (Lilien e Rangaswamy, 2003; Pidd, 2003; Naert e Leeflang, 1978). 150 A decisão de escolher uma folha de cálculo para operacionalizar os principais modelos, e na construção da interface é acompanhada pela maioria dos autores no domínio de Sistemas de Apoio à Decisão. Na verdade, autores como Sauter (1997) ainda que façam notar que uma folha de cálculo só por si não constitui um SAD uma vez que é demasiado genérica não permitindo o apoio a um conjunto de decisões específico, reconhecem igualmente que este tipo de aplicações são hoje em dia um componente quase sempre presente nos SAD’s. Autores como Marakas (2003) e Turban et al. (2005) reconhecem que este tipo de aplicações é muito adequado para SAD’s de menores dimensões e com poucas necessidades de automatismos. No entanto, com o auxílio de suplementos e pequenos programas (normalmente denominados macros) podem atingir alguma complexidade. Como desvantagens na utilização de folhas de cálculo podem enumerar-se: a dificuldade em duplicar conceitos típicos de programação de mais baixo nível como a programação estruturada, recursividade e encapsulação e, a dificuldade em entender e garantir a qualidade de programas muito complexos escritos nas linguagens de programação usadas em folhas de cálculo (Bouguettaya et al., 1998). Neste caso particular, a programação foi limitada a um conjunto reduzido de macros necessários principalmente para actualizar os dados, pelo que este tipo de problemas não se pôs. No entanto, a opção por uma folha de cálculo implica um sistema que inclui um conjunto de aplicações que podem ser mais ou menos integradas, mas que conduzem sempre a ambientes de trabalho distintos e possíveis sobreposições de funções. Uma conexão entre aplicações baseada na troca de ficheiros de dados ou modelos ou simplesmente copiar e colar (copy and paste) é denominada acoplamento fraco (loosely coupled42) por Bouguettaya et al. (1998). As soluções de acoplamento fraco são possíveis graças a funcionalidades de partilha de dados existentes em sistemas operativos como o Microsoft Windows. Um exemplo é o protocolo conhecido por Dynamic Data Exchange (DDE) que pode ser utilizado para criar ligações dinâmicas entre dados e várias aplicações como uma folha de cálculo e um SGBDR. Sublinhe-se que neste caso particular foi considerada a possibilidade de programar funções de suporte à decisão em pacotes já existentes de SIG, o que corresponderia a uma aplicação de acoplamento forte (strongly coupled). Autores como Neste texto utilizam-se as expressões “acoplamento fraco” e “acoplamento forte” como tradução das expressões loosely coupled e strongly coupled respectivamente. Sugestão do autor. 42 151 Grimshaw (1999) consideram preferível a utilização de SIG no desenho de Sistemas de Suporte à Decisão Espacial, referindo várias implementações actualmente existentes. No entanto, optou-se pelo acoplamento fraco principalmente pela simplicidade e flexibilidade que permite, pelo facto de os utilizadores serem experientes na utilização das restantes aplicações necessárias e por as trocas de dados e modelos serem de reduzida dimensão. Na verdade, o acoplamento nunca seria completamente forte já que a implementação de facilidades de apoio à decisão de localização dificilmente seria completa e certamente tornaria o sistema muito complexo devido à variedade de modelos de análise de dados e de extracção de conhecimento utilizados. A desvantagem desta opção é obviamente a falta de robustez e de interligação entre o conjunto de aplicações utilizado, não permitindo um maior grau de automação e integração. Klosterman e Xie (1997) referem ainda, como desvantagens, um menor desempenho da aplicação, software menos estável e menos funcionalidades específicas para a decisão em consideração. No entanto, estas desvantagens são pouco relevantes para o presente caso, ainda que o impacto visual e justificação do investimento fosse provavelmente mais fácil se se apresentasse um sistema integrado e complexo. Assim, optou-se pela construção da aplicação APAV que se coordena com várias aplicações necessárias à tomada de decisão segundo o esquema da Figura 31. Note-se a relevância que o esquema atribui ao conhecimento de domínio por parte dos utilizadores, analistas de marketing e profundos conhecedores da cadeia de lojas e do problema em estudo. No esquema da Figura 31 incluem-se os três componentes essenciais de um SAD, nomeadamente: 1) os dados e ferramentas para os actualizar e tratar, 2) os modelos que permitem optimizar ou sugerir melhores alternativas e 3) uma interface que se pretende interactiva e funcional. Ainda que todas as aplicações utilizadas em conjunto com o APAV tenham, em algum grau, cada uma destas componentes, é possível classificá-las como mais relacionadas com a gestão de dados, como o Sistema Gestor de Base de Dados Relacionais (SGBDR), ou com a gestão de modelos como os pacotes estatísticos para análise de dados e construção de árvores de classificação. A aplicação de SIG utilizada inclui os modelos para delimitação de áreas de influência e de análise espacial, cálculo de variáveis demográficas e concorrenciais e algumas funcionalidades de gestão de dados, tanto alfanuméricos como geográficos. 152 FIGURA 31 ESTRUTURA DE ACOPLAMENTO FRACO ENTRE AS APLICAÇÕES COORDENADAS COM O APAV. (O conhecimento de domínio é central no desenho utilizado) interface com o utilizador respostas a inquéritos em SGBDR conhecimento de domínio por parte dos especialistas \ utilizadores aplicação APAV em folha de cálculo modelos de análise de dados e árvores de classificação em pacote estatístico gestores e bases de dados dados demográficos e mystery shopping georreferenciados e modelos de áreas de influência em SIG gestores e bases de modelos A função da aplicação APAV – Análise e Previsão por Analogia de Vendas, é por um lado integrar um conjunto de dados tratados tanto pelas ferramentas do SGBDR e do SIG e principalmente implementar e operacionalizar os modelos construídos com os diversos pacotes estatísticos utilizados. Assim, a aplicação tem funções principalmente de diálogo com o utilizador, permitindo actualizar os dados e os modelos, ajustar diversos parâmetros segundo o conhecimento do utilizador, visualizar gráficos e comportamentos, e finalmente prever vendas para uma nova localização potencial. V.D.2. Implementação e Dinâmica: Geração de conhecimento Tendo tomado as decisões de desenho expostas no ponto anterior, passa-se agora a descrever a aplicação APAV – Análise e Previsão por Analogia de Vendas, as suas funcionalidades e como lidar com a dinâmica do sistema que obriga à renovação periódica dos dados utilizados em previsão e na tomada de decisão. Sublinhe-se que esta aplicação não é interpretada como um fim em si mesma, podendo facilmente ser modificada ou ultrapassada por outra aplicação, sendo o objectivo principal desta dissertação a criação de conhecimento sobre o problema, as soluções possíveis e sobre o contexto em que se situa. 153 Trata-se de uma aplicação constituída por um ficheiro (workbook) do Microsoft Excel composto por 5 folhas de cálculo. A primeira é apenas uma folha de apresentação denominada “menu” com botões para as diferentes folhas pela ordem com que devem ser utilizadas. Na segunda, denominada “inputs”, deverão introduzir-se os valores das variáveis necessárias para classificar cada nova localização potencial e enumeradas na Tabela 7 (pág. 120), mas também as variáveis utilizadas no modelo de previsão representado pela equação (12), como se pode observar na Figura 32. FIGURA 32 A FOLHA DE “INPUTS” E DE “PREVISÃO” DAAPLICAÇÃO APAV. (Apresenta-se um exemplo para uma nova loja com valores de previsão modificados) concelho da Na folha de cálculo denominada “previsão”, a aplicação sugere classificações pelos vários métodos num dos clusters predefinidos e escolhe uma das classificações usando o índice de precisão definido no ponto V.B.3 (pág. 123), permitindo no entanto a 154 alteração por parte do utilizador da classificação escolhida. Aplicando a expressão (12), obtém-se uma consequente previsão de vendas e correspondente intervalo de previsão. Permite ainda visualizar um conjunto de figuras, com o objectivo de avaliar as opções tomadas na obtenção da previsão, onde se incluem gráficos semelhantes à Figura 22 (pág. 100) e de evolução cronológica das vendas semelhante ao gráfico (a) da Figura 28 (pág. 140). A folha “previsão” permite ainda fazer análises what if e modificar parâmetros de acordo com as expectativas do utilizador. Pode-se mesmo alterar a classificação das lojas existentes. Note-se, no entanto, que os valores utilizados por defeito são as melhores estimativas definidas pelos modelos construídos neste capítulo, pelo que estes parâmetros só devem ser alterados em caso de se dispor de mais conhecimento ou novos dados. A penúltima folha de cálculo (“clusters”) faz uma análise comparativa dos clusters, comparando e caracterizando os grupos de lojas análogas definidos, e permitindo ao utilizador verificar se a classificação da localização potencial efectuada na folha de previsão faz sentido à luz do conjunto de variáveis descritivas utilizadas. Nesta folha de cálculo é ainda possível comparar os grupos de lojas utilizando gráficos de diferentes tipos. Assim, incluem-se nesta folha de cálculo uma tabela semelhante à Tabela 6 (pág. 109) de resumo da caracterização dos grupos, mas mais completa e dinâmica no sentido em que se o utilizador alterar uma classificação de uma das lojas, os valores desta tabela são recalculados. Esta folha é ainda usada como repositório de parâmetros dos modelos, nomeadamente as regras proposicionais de classificação, utilizando uma tabela de decisão como a Tabela 7 (pág. 120) e os parâmetros para o melhor modelo de previsão usando uma tabela semelhante à Tabela 10 (pág. 133). Por fim, a folha de cálculo denominada “dados”, constitui um repositório de dados utilizados nas restantes folhas de cálculo e que deve ser mantido actualizado. Sublinhese que a aplicação utilizada permite bloquear o acesso à maioria das células, permitindo apenas editar e alterar as células correspondentes a valores de variáveis a introduzir ou parâmetros alteráveis dos modelos, o que é muito importante para evitar alterações inadvertidas das fórmulas e ligações programadas. A aplicação APAV está pensada para avaliar cada localização potencial em separado. O que faz sentido, já que apenas uma das localizações será escolhida e logo, em princípio, não existirá interacção entre as várias localizações potenciais. No entanto, é possível comparar localizações potenciais gravando um ficheiro para cada localização (a reduzida dimensão do ficheiro do Ms. Excel permite que esta operação seja 155 especialmente simples) e copiando os valores para uma nova folha de cálculo onde poderá facilmente construir gráficos e tabelas comparativas. Para que as previsões do APAV tenham actualidade é imperativo que se utilizem sempre os dados mais recentes disponíveis. Essa actualização envolve principalmente acrescentar novos dados de vendas para novos anos e a introdução de novas lojas. Estão disponíveis várias funcionalidades no software APAV para facilitar a actualização dos dados e para verificar a adequação dos modelos perante novos dados. Estas funcionalidades incluem a utilização de alguns macros e estão concentradas nas folhas “dados” e “clusters”. Na Figura 33 apresentam-se imagens destas duas folhas incluídas no software APAV, nomeadamente comparando o novo modelo de regressão estimado com dados de vendas para o ano de 2003, necessário para prever vendas para 2004, com o modelo que tinha sido estimado com dados de 2002 e profundamente analisado na secção V.C (pág. 129). FIGURA 33 A FOLHA DE “DADOS” E DE “CLUSTERS” DAAPLICAÇÃO APAV. (Apresenta-se um exemplo para uma nova loja com valores de vendas modificados) 156 A introdução de um novo ano de vendas pode ter consequências a diversos níveis nos modelos utilizados. Por um lado, o modelo de previsão representado pela equação (12) deve ser actualizado usando os novos valores de vendas como variável dependente. Os parâmetros obtidos num qualquer pacote estatístico com capacidade para estimar modelos de regressão linear devem ser introduzidos na folha “clusters” para que o novo modelo seja utilizado nas previsões. No entanto, antes da revisão dos modelos de regressão há que verificar se a classificação das lojas nos grupos análogos continua válida, i.e. se o novo ano de vendas é tão sui generis que a fracção de variância explicada das novas vendas pela tipologia definida para o valor de vendas anterior sofre uma redução elevada ou toma valores absolutos muito reduzidos (ver Figura 34). Este diagnóstico pode ser complementado por observação de gráficos semelhantes aos das Figura 22 e 23 (pág. 100 e 103). FIGURA 34 DOIS EXEMPLOS DE DIAGNÓSTICOS PRESENTES NA FOLHA DE CÁLCULO “PREVISÃO”. (Os valores utilizados neste exemplo são fictícios para provocar os alertas indicados) às 157 Neste caso há que rever a tipologia utilizando os novos valores de vendas de forma semelhante à descrita no ponto IV.B.4 (pág. 97). As novas classificações das lojas existentes devem ser actualizadas na folha “previsão” do APAV. No caso de se confirmarem alterações de classificações, também será necessário rever as regras proposicionais de classificação. Esta revisão deve ser efectuada em qualquer aplicação adequada para o efeito e os resultados devem ser usados para actualizar a tabela de decisão incluída na folha de “clusters”. Além destas alterações, há ainda que reavaliar os modelos cronológicos de vendas. Tal é efectuado utilizando gráficos como os apresentados na Figura 28. No caso de não se concordar com as previsões, é possível introduzir uma variação personalizada a preços constantes de 2000, julgada mais adequada para prever as vendas no próximo ano por cada grupo de lojas análogas. Faz-se igualmente um tratamento dos erros de previsão para permitir a previsão por intervalo. Note-se que adicionar novas lojas para as quais já se disponha de um ano de vendas implica também novos dados de vendas e logo a revisão da maioria dos modelos utilizados na aplicação APAV, pelo que em geral os modelos são revistos uma vez por ano quando as novas vendas consolidadas são disponibilizadas. As regras proposicionais de classificação são muito dependentes das observações existentes, pelo que devem ser revistas sempre que se dispõe de uma nova loja com classificação confirmada, mesmo que se tenha considerado que a tipologia não precisa de ser revista. Com menor frequência, são disponibilizados novos dados de censos ou são efectuados novos inquéritos (cerca de dois em dois anos). Nestas ocasiões o processo descrito nesta dissertação dever ser revisto, incluindo a construção de variáveis pelos métodos de análise espacial, a análise de resultados dos inquéritos e a revisão de todos os modelos construídos, mantendo-se no entanto a metodologia definida. A Figura 35 resume as transferências de dados e de modelos entre as diferentes aplicações constituintes do ambiente de apoio à decisão. É importante notar que os dados de mystery shopping são recolhidos para cada nova loja ou localização potencial, incluindo as coordenadas do ponto recolhido por GPS, e novas variáveis são calculadas por análise espacial, tanto para avaliar o potencial da nova localização, como a concorrência na área de influência. O valor destas variáveis é essencial, tanto na classificação da nova localização num grupo análogo, como na previsão de vendas para cada uma dessas localizações. 158 Outros alarmes e gráficos de diagnóstico são incluídos numa tentativa de alertar o utilizador para possíveis violações de pressupostos dos modelos. Por exemplo, foram definidas, em conjunto com os especialistas, regras proposicionais para identificar situações consideradas não análogas com as lojas existentes e para as quais os modelos de analogia não são adequados para efectuar previsões. Estas regras foram igualmente obtidas discriminando as lojas consideradas atípicas das restantes. Na Tabela 12 enumeram-se as regras proposicionais identificadas. FIGURA 35 ACTUALIZAÇÃO DE DADOS E DE MODELOS AQUANDO DA DISPONIBILIZAÇÃO DE NOVOS DADOS. (As setas representam fluxos de dados e \ ou modelos e parâmetros) interface com o utilizador respostas a inquéritos em SGBDR novas lojas ou vendas aplicação dados, APAV em parâmetros folha de e regras cálculo propos. localização potencial dados de inquéritos variáveis por loja demográf. e concorrenciais por loja ou localiz. pot. modelos de análise de dados e árvores de classificação em pacote estatístico gestores e bases de dados dados demográficos e mystery shopping georreferenciados e modelos de áreas de influência em SIG gestores e bases de modelos Todas as variáveis usadas no modelo representado pela equação (12) são limitadas tendo em conta os valores máximos e \ ou mínimos para as lojas existentes, as restrições geográfica têm em conta que apenas nestas regiões existem actualmente lojas e as restantes regras proposicionais foram definidas em conjunto com os especialistas em localização. Estas últimas foram definidas na tentativa de obter regras que não dependam das lojas consideradas atípicas a cada momento, nem das variáveis incluídas no modelo de previsão. Note-se que, quando pelo menos uma das regras se verifica, surge o aviso apresentado na Figura 34, mas a aplicação não deixa de apresentar uma previsão para a localização potencial. Assim, a intenção é avisar o utilizador de que não existem dados para validar a previsão efectuada, correspondendo esta a uma extrapolação para fora do âmbito das lojas actualmente existentes. Nestas situações 159 aconselha-se o utilizador a usar as previsões com especial reserva. Uma discussão interessante sobre extrapolação em previsão é apresentada em Chatfield (2001). TABELA 12 REGRAS PROPOSICIONAIS USADAS PARA EXCLUIR LOCALIZAÇÕES NÃO ANÁLOGAS. (Qualquer uma das regras é suficiente para a localização potencial ser considerada não análoga) VARIÁVEIS REGRAS PROPOSICIONAIS Caracterização da Loja e Localização concelho em que se localiza ∉ Área Metropolitana de Lisboa ou do Porto área de vendas (m2) < 452 ou > 1.400 Caracterização da Área de Influência – Concorrência área de influência delimitada por caminhos mais curtos a 2,5 min. (ha) < 15 número de hipermercados identificados por diagramas de Voronoi de 1ª ordem >2 Caracterização da Área de Influência – Potencial número de alojamentos familiares clássicos com proprietário ocupante < 61 densidade de edifícios construídos entre os anos de 1996 e 2001 (nº / 10 ha) < 0,6 percentagem de alojamentos familiares não clássicos > 10% percentagem de indivíduos residentes sem saber ler nem escrever > 12% percentagem de indivíduos empregados no sector primário ou secundário > 31% Além dos alarmes referidos, estão disponíveis diversos tipos de ajudas ao utilizador, como é o caso de notas para relembrar como preencher determinadas células, da verificação da validade do valor introduzido, utilização de listas pendentes de alternativas e explicações sempre visíveis na folha de cálculo. Além desta informação sensível ao contexto, foi ainda entregue aos utilizadores documentação que incluía um manual explicando pormenorizadamente todo o trabalho efectuado, limitações das metodologias utilizadas e utilização da aplicação. Quanto a este último aspecto, recorrese, não apenas à explicação pormenorizada desde a construção de variáveis até à utilização da aplicação para delimitação de diagramas de Voronoi, mas também a tutoriais que explicam a utilização da aplicação passo a passo para as três novas lojas abertas durante 2002. 160 161 Capítulo VI ⎯⎯⎯⎯⎯⎯⎯ VI. CONCLUSÕES Neste capítulo resumem-se os principais resultados do trabalho realizado, justifica-se porque se considera que os objectivos foram cumpridos e descrevem-se as contribuições metodológicas desta dissertação para o conhecimento do problema e de previsão de vendas para novas lojas de retalho ou localizações potenciais. Abordam-se ainda, possíveis futuras evoluções do trabalho desenvolvido e fazem-se algumas considerações finais. VI.A. O Trabalho Realizado Os problemas de localização de lojas de retalho são abordados desde finais do século XIX por economistas e geógrafos. Estes trabalhos iniciais revelavam uma óbvia preocupação com a localização, inicialmente apenas, de instalações industriais (Ballou, 2004). Só mais tarde e, principalmente com o trabalho de Reilly (1931), se começaram a utilizar modelos quantitativos na localização de lojas de retalho. Após essa data, muitos modelos e metodologias foram desenvolvidos, em especial para grandes superfícies de retalho e centros comerciais, os quais são profusamente descritas no Capítulo II desta dissertação. Após os anos oitenta do século passado, os problemas de localização de lojas de retalho parecem ter perdido interesse. Apesar de hoje termos ferramentas muito poderosas de pesquisa de artigos e documentos de trabalho na internet, as pesquisas usando palavras como “site selection”, “store assessment” ou “retail location” produzem poucos resultados, sendo os mais relevantes que foi possível encontrar referidos no Capítulo II. No entanto, a recente preponderância de lojas de pequena dimensão, sejam Supermercados de Proximidade, Lojas de Conveniência ou Lojas de (Hard) Discount que 162 se verifica hoje um pouco por toda a Europa (como se deduz dos dados e da discussão apresentada no Capítulo I e na secção II.A), coloca novamente a questão da localização. Na verdade, a estas lojas de pequena dimensão podem não se aplicar os modelos desenvolvidos para as maiores superfícies de retalho, sendo necessário desenvolver modelos adequados para apoiar este novo tipo de decisões. Neste contexto, a dissertação apresentada surgiu da necessidade de resolver um problema, definido no Capítulo I, após se ter verificado que os modelos e métodos utilizados para lojas maiores não eram adequados para as lojas de menores dimensões. Como referido, os especialistas interessados em modelos de previsão de vendas para localizações potenciais tinham já tentando utilizar os modelos desenvolvidos para superfícies retalhistas de maiores dimensões com resultados que consideraram muito pouco satisfatórios. As técnicas, métodos, modelos e software descritos nesta dissertação para auxiliar esse tipo de decisões surgiram desta motivação e das limitações e condicionantes entretanto reveladas. Tendo em conta o contexto e os objectivos apresentados no Capítulo I (pág. 12), o trabalho desenvolve-se a partir de uma revisão bibliográfica publicada em Mendes e Themido (2004), tendo sido revista e aumentada no Capítulo II. Começa-se por uma descrição do contexto, incluindo as causas que se consideram especialmente adequadas para explicar o crescimento recente da quota de mercado das lojas de menores dimensões em Portugal e em alguns países Europeus. Apresentam-se, ainda, os níveis de decisão envolvidos na localização de lojas pertencentes a cadeias de lojas de retalho de menores dimensões e identifica-se o problema a apoiar como um problema de avaliação de localizações potenciais (site selection). Mais concretamente, responde-se ao objectivo (i), sobre a revisão da literatura, apresentando a grande variedade de modelos descritos na literatura e classificando-os em seis classes, desde os formalmente mais simples como as listas de factores desejáveis \ indesjáveis numa localização potencial até aos complexos e altamente normativos modelos de interacção espacial e de optimização. Nem sempre a disitinção entre estas classes é muito clara, mas considera-se esta classificação útil na interpretação da bibliografia descrita. Faz-se ainda uma análise comparativa entre os modelos, apresentado-se na Tabela 1 (pág. 44) vantagens e desvantagens de cada abordagem ao problema de comparação de localizações potenciais e avaliação de desempenho de lojas de retalho. Apresenta-se ainda uma sistematização da classificação anterior em apenas três grupos que utilizam técnicas distintas. Assim, os modelos baseados em listas utilizam 163 técnicas quase empíricas como as listas e os modelos de analogia nas suas implementações mais simplistas. Os modelos de Análise de Dados são modelos baseados em técnicas da estatística multivariada e do reconhecimento de padrões. Os modelos de Interacção Espacial e de Optimização, pelo contrário, são fortemente normativos baseados em técnicas de interacção espacial e da investigação operacional. Por fim, nenhuma revisão bibliográfica ficaria completa sem considerar a intervenção de tecnologias SIG no suporte à decisão de problemas de localização. Ao permitirem construir mapas temáticos muito informativos e realizar análises de dados espaciais, constituem uma ferramenta com uma importante contribuição na utilização de qualquer tipo de modelos. Relativamente ao objectivo (ii) (pág. 12), sobre a sistematização de variáveis, apresenta-se uma classificação das variáveis identificadas na bibliografia mas também resultantes da experiência dos especialistas em localização envolvidos neste trabalho. A Figura 7 (pág. 50) classifica as variáveis em três grandes classes: características da loja e da localização, características da área de influência e características dos clientes das lojas existentes. Esta classificação original é utilizada ao longo de toda a dissertação, considerando-se desejável que os métodos utilizados identifiquem variáveis provenientes de cada uma das classes identificadas, permitindo assim incluir nos resultados as várias dimensões do problema de localização. A classificação apresentada e o número de variáveis identificadas da literatura ilustram a complexidade de avaliação de desempenho de lojas de retalho e de localizações. No Capítulo III descrevem-se ainda as variáveis obtidas de fontes e métodos distintos: dois inquéritos realizados aos clientes das lojas existentes em dois anos distintos e um programa de mystery shopping que consistiu em visitar as lojas existentes, como se de um cliente se tratasse, registando aspectos visíveis e de serviço. Os inquéritos foram realizados a clientes de todas as lojas, em 2000, e uma amostra seleccionada em 2003, segundo um desenho por quotas e obtendo-se respectivamente 3.766 e 2.394 respostas válidas. Descrevem-se ainda dados geográficos que permitiram o cálculo de variáveis de avaliação da concorrência e ainda o tratamento espacial dos dados demográficos com recurso a modelos de delimitação de áreas de influência. No que se refere ao objectivo (iii), sobre métodos de delimitação de áreas de influência, apresentam-se ainda no capítulo III, diversos métodos para esse fim, nomeadamente baseados em algoritmos de caminho mais curto e em diagramas de Voronoi multiplicativos ponderados (de primeira e segunda ordem) combinados com dois métodos de agregação das variáveis demográficas. As seis combinações resultantes são 164 utilizadas no cálculo de variáveis demográficas que posteriormente foram utilizadas para explicar as vendas anuais de 2002. Desta análise conclui-se que o modelo de delimitação da área de influência da loja é relevante no cálculo de variáveis demográficas, conduzindo a modelos distintos e com diferentes capacidades explicativas das vendas. Assim, os modelos de Voronoi não incluídos nos pacotes SIG foram implementados de modo a ficarem disponíveis para futuras análises, tendo-se incluído informação sobre vantagens e desvantagens comparativas dos diferentes métodos. Num estudo recente, ainda não publicado, compara-se a importância das variáveis usadas em todo o processo de modelação: capacidade discriminante na caracterização de grupos análogos segundo a probabilidade de significância da estatística de KruskalWallis, valor do índice de precisão nas regras de classificação e análise de dominância (Azen e Budescu, 2003; Budescu, 1993) para as variáveis independentes da regressão, tendo-se concluído mais uma vez pela relevância das variáveis obtidas por delimitação de áreas de influência. Ainda que não tenha sido possível distinguir entre os dois métodos utilizados para este fim, as variáveis demográficas para avaliação do potencial da área de influência surgem logo após a “área de vendas” na maioria das ordenações obtidas. Nesta dissertação apresenta-se uma tipologia de lojas, estruturante em todo o restante trabalho de modelação efectuado e publicada em Cardoso e Mendes (2002), a qual foi posteriormente revista e actualizada em Mendes e Cardoso (2005b). Assim, cumprindo o objectivo (iv), apresentam-se e comparam-se três métodos muito distintos de definição de agrupamentos com integração de conhecimento dos especialistas considerado essencial na análise de agrupamentos padecendo de “praga de dimensionalidade”. Assim, descreve-se o método a priori com utilização de uma matriz de comparações pareadas entre lojas com avaliações consensuais dos especialistas. No método a posteriori, utiliza-se o conhecimento de especialistas na escolha entre diversas árvores de regressão construídas segundo diferentes parametrizações dos modelos e diferentes selecções de variáveis substitutas (surrogate) nos nós de ramificação. Por fim, no método interactivo, sucedem-se duas fases sucessivamente repetidas: escolha de variáveis base de agrupamento e análise dos resultados produzidos por métodos hierárquicos de análise de clusters. Tanto as percentagens de variância explicada pelos agrupamentos como a preferência revelada pelos especialistas favoreceram claramente o método interactivo e o método a posteriori. Por fim, são os resultados do método interactivo que são escolhidos e caracterizados com toda a informação disponível, recorrendo a uma tabela de visualização muito simples onde se 165 assinalam os grupos com maiores variações das variáveis tanto na média como na variância. No Capítulo V descrevem-se modelos de análise de dados utilizados para efectuar previsões de vendas para localizações potenciais de acordo com o objectivo (v). Nesta dissertação deu-se preferência aos modelos de análise de dados por terem maior capacidade explicativa do problema em estudo, por ter sido acordado com os especialistas que as localizações alternativas seriam comparadas em termos de vendas previstas e também pela disponibilidade de tecnologia de SIG e de grandes volumes de dados, indispensáveis na aplicação deste tipo de modelos. Sugere-se nesta dissertação uma combinação de modelos de análise de agrupamentos para a definição de grupos análogos de lojas, árvores de classificação para induzir regras proposicionais de classificação de novas localizações num dos grupos análogos e por fim modelos de regressão para prever um valor de vendas anuais com base em quatro variáveis explicativas. Sublinhe-se que o modelo de previsão por regressão linear confirma a importância da classificação em grupos e a existência de variáveis estruturantes ou chave como a “área de vendas” ao melhorar significativamente a qualidade do modelo quando estas variáveis são incluídas no conjunto das variáveis explicativas. Os aspectos dinâmicos das vendas não podem ser descurados, pelo que é necessário rever os modelos com frequência para os manter actualizados. Essa frequência deve ser mais elevada para o modelo de regressão e para o modelo de evolução cronológica das vendas, mas é igualmente importante rever a tipologia sempre que a variância explicada pelos agrupamentos decresce fortemente ou alcança valores reduzidos. No que se refere à aplicação computacional e ao ambiente decisional, apresentase ainda no Capítulo V uma aplicação informática baseada em folha de cálculo, integrando dados obtidos por outras aplicações num desenho de acoplamento fraco. Esta aplicação implementa os modelos de classificação e os necessários para prever vendas. A flexibilidade resulta do facto de ter sido desenhada usando uma aplicação de folha de cálculo, com todas as ferramentas de visualização e análise disponibilizadas nativamente por esta e de terem sido implementados inúmeros parâmetros dos modelos e da interface alteráveis e personalizáveis, incluindo análises de sensibilidade e vários alertas e recomendações. A elevada flexibilidade e facilidade de utilização foi já realçada pelos utilizadores. A estrutura da aplicação encontra-se publicada em Mendes et al. (2004). 166 VI.B. Conhecimento de Especialistas e Geração de Novo Conhecimento A integração de conhecimento de especialistas, referida no objectivo (vi), é normalmente desejável no desenvolvimento de modelos de apoio à decisão, mas neste caso tornou-se indispensável. Uma das razões para esta necessidade resulta directamente do reduzido número de lojas actualmente disponível na cadeia, mas também do reconhecimento de que os modelos são representações da realidade sujeitas a todo o tipo de desvios que o conhecimento de domínio pode ajudar a corrigir. Assim, o conhecimento do domínio foi profusamente utilizado em todas as fases do desenvolvimento e implementação dos modelos. Nomeadamente, foram relevantes as intervenções dos especialistas nas fases seguintes: • escolha das variáveis sobre as quais se recolhem dados e de variáveis construídas a partir de outras medidas directamente; • desenho e realização de inquéritos aos clientes das lojas da cadeia existentes; • validação e estimação dos modelos de delimitação de áreas de influência; • comparação dos agrupamentos formados e selecção da metodologia mais adequada para definir grupos de lojas análogas; • os métodos alternativos para formar grupos de lojas análogas não teriam sido possíveis sem a utilização do conhecimento de especialistas; • selecção de variáveis base de agrupamento e validação dos grupos de lojas análogas, assim como da respectiva caracterização; • possibilidade de identificar lojas atípicas (outliers) que podem enviesar e instabilizar os parâmetros estimados para os diferentes modelos; • validação das regras proposicionais utilizadas para classificar as localizações potenciais e selecção de variáveis de partição em quasi-empates; • validação do modelo de regressão utilizado para efectuar previsões e confirmação da importância das variáveis explicativas e do sinal dos coeficientes estimados; • participação no desenho e desenvolvimento do software APAV permitindo a minimização do efeito de “caixa preta”. Em conclusão advoga-se indispensável, especialmente no caso de um problema de site selection em que o número de lojas é reduzido, a integração de metodologias quantitativas com qualitativas, baseadas em trabalho conjunto com especialistas de localização. Sublinhe-se que vários autores concordam com este tipo de afirmações. Por exemplo Byrom (2000) escreve: «…This would suggest that despite rapid advances in the amount of technology available in recent years, intuition and a good retail ‘nose’ are still an essential part of locational decision-making». A validação de um modelo ou um conjunto de modelos, ainda que para uma determinada aplicação, é uma tarefa difícil e nunca definitiva. No entanto, nas condições 167 actuais de limitações nos dados disponíveis e ambiente altamente dinâmico em que as vendas podem variar por um conjunto elevado e indeterminado de factores, tornam o cumprimento do objectivo (vii) um dos pontos menos fundamentados do trabalho apresentado. Ainda que se reconheça que a validação deverá ser continuada quando mais dados estiverem disponíveis, a combinação adoptada de conhecimento dos métodos e modelos utilizados, conhecimento de domínio, validação interna com a totalidade dos dados disponíveis e verificação da estabilidade da solução, possibilita, ainda assim, a utilização dos modelos com alguma segurança. Também não é seguro afirmar que os modelos adoptados são os mais adequados e conduzem às melhores previsões uma vez que não é possível comparar estes resultados como todos os modelos e técnicas de possível utilização nesta situação. No entanto, nesta dissertação tem-se uma preocupação constante de obter resultados por diversas técnicas e compará-los com os utilizados, em especial na tarefa fundamental de definir grupos de loja análogas. Por outro lado, as previsões obtidas para o ano de 2003, não utilizado na estimação de qualquer um dos modelos utilizados na previsão, demonstram que quase 75% das lojas apresentam previsões com erro relativo médio abaixo ou próximo dos 10%. Se a estes resultados juntarmos a informação de que 2003 foi, para a generalidade das lojas, um ano sui generis correspondente a uma mudança do ciclo económico pode-se finalmente concluir que estes resultados são efectivamente de boa qualidade. Provavelmente o objectivo mais relevante do trabalho desenvolvido é a geração de conhecimento sobre este problema complexo e sobre o comportamento das lojas e das localizações que possa ser utilizado em momentos de decisão futuros (objectivo (viii) enunciado na pág. 12). A importância de se avaliar o conhecimento gerado é bem expressa na expressão “sociedade do conhecimento”. O conhecimento é considerado um activo dos mais relevantes na evolução de uma organização e no seu posicionamento relativamente à concorrência directa, essencialmente porque o conhecimento potencia a criatividade e a inovação, além de permitir tomadas de decisão mais conscientes. Para se perceber se este objectivo foi cumprido há que perceber o que é o conhecimento. O conhecimento é normalmente considerado o último elo na cadeia: dados Æ informação Æ conhecimento. Se a informação são dados formatados e colocados de forma útil para a tomada de decisão, então conhecimento será aquilo que se ganha durante todo o processo de definição do problema Æ modelação Æ avaliação e validação Æ implementação ou tomada de decisão. Awad e Ghaziri (2004) acrescentam a esta cadeia a sabedoria ou perspicácia (wisdom) como algo não tão dependente de um 168 caso ou conjunto de casos, i.e. o nível mais alto de abstracção do conhecimento capaz de uma visão para além do horizonte. Os mesmos autores definem conhecimento de uma forma muito simples como “saber como” (know-how) i.e. a compreensão adquirida por experiência ou estudo. Um conceito relacionado é o conceito de intelligence definido como a capacidade de adquirir e aplicar conhecimento. Ainda que o conhecimento seja algo individual e subjectivo e que grande parte não possa ser formalizado, os modelos construídos e a colaboração constante entre analistas e especialistas no domínio criaram uma dinâmica de aprendizagem e criatividade. Frequentemente surgiam ideias sobre técnicas ou modelos que poderiam ser aplicados em determinados pontos e muitos deles foram testados e, ainda que não tenham sido adoptados, alguns deles são brevemente mencionados nesta dissertação. Um claro exemplo de um facto criado por este trabalho e que é reconhecido como conhecimento gerado é a confirmação da existência de grupos de lojas mais análogas entre si do que com as restantes. Este facto, já intuído pelos especialistas, não tinha no entanto sido formalizado dada a dificuldade em agrupar as lojas. A validação e caracterização da tipologia definida e o facto de a tipologia contribuir de forma muito significativa para a qualidade das previsões é a confirmação que faltava para a existência de agrupamentos nas lojas existentes. Um exemplo de aplicação do conhecimento gerado por este trabalho ou de intelligence foi a utilização recente da tipologia definida em aplicações não previstas à partida, como no lançamento de campanhas de marketing distintas em cada grupo de lojas. Também os modelos de delimitação de áreas de influência criaram escola dentro do grupo de distribuição, estando neste momento a decorrer um projecto para delimitar áreas de influência para todas as lojas do grupo. Uma outra contribuição que se pretende repetir foi o programa de mystery shopping implementado. Outro tipo de conhecimento pode ser retirado directamente das regras proposicionais de classificação das novas localizações num dos grupos análogos. Da observação da Figura 22 (pág. 100) pode concluir-se que as localizações preferenciais são aquelas que conduzem à implantação de lojas classificadas como Grandes de Passagem, Lojas Grandes ou Bairro Grandes, já que são estes tipos de lojas que permitem obter maiores valores de vendas médias, ainda que as Lojas Grandes apresentem uma tendência de queda das vendas a preços constantes (ver Figura 28, gráfico (a), pág. 140). Uma vez que as Lojas Grandes de Passagem correspondem a localizações pouco comuns, é igualmente pouco provável que possam ser reproduzidas. 169 Assim, e atendendo às regras proposicionais induzidas para as lojas Grandes e Bairro Grandes e à caracterização efectuada para os tipos referidos, as localizações desejáveis para novas lojas da cadeia devem ter as seguintes características: • a localização deve permitir a construção de uma loja média a grande segundo as dimensões actualmente existentes; • a localização deve apresentar facilidades de estacionamento não muito más e, se possível, permitir construir um pequeno espaço para estacionamento próprio; • a concorrência é desejável, já que indica áreas atractivas para o retalho, desde que com um total de área de vendas não demasiado elevado; • a visibilidade em deslocações a pé deve ser avaliada como superior à apresentada pelos pontos de venda concorrentes; • a zona onde se inserem deve ter alguma dinâmica de expansão urbana e de construção de novas residências; • a área de influência deve ter percentagens elevadas de crianças e idosos, nomeadamente segundo as percentagens de “crianças residentes”, de “núcleos familiares com filhos ou netos” e de “inquiridos com mais de 45 anos”. Das regras enumeradas, grande parte era já conhecida ou intuída pelos especialistas. Mas, por exemplo, o facto de localizações com áreas médias ou pequena poderem ser consideradas boas localizações, não era evidente à partida. Por outro lado, o facto da concorrência ser desejável especialmente se efectuada por pequenas lojas de comércio tradicional, também não era evidente, ainda que seja compreensível que uma localização atractiva corresponda a alguma concorrência deste tipo. A utilização deste conhecimento e dos modelos desenvolvidos neste trabalho comprova-se pela observação de que recentemente apenas se têm aberto Lojas Grandes e Lojas de Bairro Grandes. As regras implementadas para localizações consideradas não análogas às existentes permitem determinar algumas linhas orientadoras do que se deve evitar numa localização potencial (ver Tabela 12, pág. 159): • localizações com áreas de influência delimitadas por diagramas de Voronoi de primeira ordem muito pequenas indicam muita concorrência, com muito poder de atracção, pelo que devem ser evitadas; • o número de hipermercados que fazem fronteira com a área de influência da localização potencial não deve ser superior a dois; • localizações com poucos proprietários ocupantes indicam zonas sem população ou com população de baixos rendimentos, pelo que devem ser evitadas; • devem evitar-se localizações com percentagens elevadas de alojamentos não clássicos, i.e. alojamentos móveis (barcos, caravana, etc.), casas rudimentares de madeira e improvisados em local não destinado à habitação; • devem evitar-se localizações com elevadas percentagens de indivíduos que não sabem ler ou escrever, indicador de baixa escolaridade e de baixos rendimentos; 170 • desaconselha-se a utilização de localizações potenciais com percentagens de indivíduos empregados no sector primário ou secundário elevadas, o que corresponde a zonas rurais ou industriais de baixos rendimentos. Estas regras não devem ser entendidas como normativas, i.e. não se deve recusar uma localização potencial apenas por não obedecer a uma ou duas das regras enunciadas. Existem casos de lojas que não obedecem a algumas das regras anunciadas e, no entanto, são muito bem sucedidas como é o caso das Lojas Grandes de Passagem. Se se reconhecerem estas condicionantes, este tipo de conhecimento pode ser muito útil na avaliação de uma nova localização potencial. Nesta dissertação é clara a opção por um maior esforço na modelação do problema e na construção e estimação de modelos em detrimento da aplicação computacional. Esta opção baseia-se principalmente no facto de que os especialistas e utilizadores, sendo bastante conhecedores de aplicações de software, não terem colocado qualquer dificuldade na utilização de uma aplicação simples, pouco automática e que exige a utilização de outras aplicações distintas. Verificou-se igualmente que estes profissionais preferiam largamente uma aplicação mais flexível, que lhes permitisse introduzir o seu próprio conhecimento do problema e testar alternativas de resolução, ainda que à custa de alguma robustez e integração de aplicações. Assim, o principal objectivo do trabalho não era a construção da aplicação nem sequer a construção dos modelos, mas a criação de conhecimento sobre o problema e respectiva solução, criando um ambiente de elevada interacção com o utilizador. Os modelos são utilizados no sentido de Pidd (2003) como ferramentas para fomentar a reflexão (tools for thinking) sobre o problema e não para substituir o pensamento como é o objectivo das aplicações operacionais. Assim, a disponibilização de facilidades do tipo what if é considerada muito relevante. É também por esta razão que se colocou a tónica na flexibilidade e capacidade de modificação de parâmetros e modelos por parte do utilizador. A aproximação adoptada apresenta características de uma abordagem soft em contraste com uma abordagem hard caracterizada por modelos mais normativos e menos flexíveis. Assim, as aproximações soft tendem a adoptar modelos mais descritivos, a validação é baseada em conhecimento de domínio, esperando-se que os modelos adoptados sejam coerentes, lógicos, consistentes e plausíveis, surgindo como suporte à aprendizagem e ao conhecimento (Pidd, 2003). Aliás, nesta linha de pensamento, um responsável pelo grupo PT afirmava na conferência da Associação Portuguesa de Sistemas de Informação (APSI), que o software é essencialmente um serviço e não um 171 produto (Matos e Simões, 2004). Na verdade, o tempo de vida das aplicações de software é, hoje em dia, cada vez menor e, mesmo assim, com constantes actualizações e aperfeiçoamentos. Numa situação de tamanha evolução dinâmica, o que realmente se mantém para o futuro não é o código mas o conhecimento do problema que se gera nas diferentes fases de definição e análise. VI.C. Contribuições Objectivas As contribuições objectivas mais relevantes desta dissertação são fundamentalmente metodológicas e a três níveis. Ao nível da utilização de diagramas de Voronoi multiplicativos ponderados para definição de áreas de influência de lojas ou novas localizações potenciais. Ao nível dos diferentes métodos comparados para integrar conhecimento de especialistas na definição de uma tipologia de lojas análogas. Finalmente, ao nível da combinação harmoniosa e articulada de modelos utilizados na classificação de localizações potenciais nos grupos de lojas análogas e na previsão de vendas para comparação de localizações. Nenhuma destas contribuições pode ser considerada uma rotura ou mesmo um salto relativamente ao conhecimento existente. Tratam-se de contribuições incrementais que, por exemplo no caso dos métodos de delimitação, confirmam que a utilização de diagramas de Voronoi multiplicativos foi útil neste caso particular e provavelmente pode ser útil em casos semelhantes. Não se conhece qualquer outra confirmação deste tipo, publicada ou não. Na verdade, e ainda que o artigo de Boots e South (1997) já tenha sido publicado há alguns anos, não se conhece mais nenhuma aplicação prática dos diagramas de Voronoi multiplicativos ponderados para delimitação de áreas de influência de lojas existentes ou de localizações potenciais. Nem a muito completa revisão de Okabe et al. (2000) se refere a qualquer aplicação prática neste sentido. Alguns dos métodos usados na definição de tipologias e a forma como o conhecimento de domínio é integrado na definição dos agrupamentos também é inovadora. Nenhum dos métodos considerados individualmente é novo, mas a sua integração num mesmo estudo e comparação de resultados com base em conhecimento de domínio é uma contribuição deste trabalho para o estudo das técnicas de segmentação de lojas de retalho. A combinação de modelos utilizada no processo de previsão, ainda que baseada em trabalhos como o apresentado em Sands e Moore (1981), é inovadora na indução de árvores de classificação e de regras proposicionais utilizadas na classificação de novas 172 localizações num dos grupos definidos, e na combinação destas com modelos de regressão linear. Ainda que técnicas de regressão, de analogia e discriminantes sejam utilizadas há longos anos na previsão de vendas e avaliação de novas localizações, a utilização de árvores discriminantes em conjugação com uma tipologia de lojas definida com integração explícita de conhecimento de especialistas, não tinha antes sido publicada, nos termos em que é feito nesta dissertação. Note-se que esta metodologia permite contornar as principais críticas tanto dos métodos de regressão, i.e. não considerar a segmentação de lojas menos análogas (ver ponto II.C.2, pág. 31), e dos discriminantes, i.e. apenas prever vendas num intervalo (ver ponto II.C.3, pág. 34). Podem-se citar como trabalhos semelhantes ao apresentado nesta dissertação os modelos descritos por Silva e Cardoso (2004) e a aplicação descrita em Clarke et al. (2003b). No primeiro caso descreve-se uma aplicação cuja principal função é igualmente prever vendas para novas localizações ou para avaliar o desempenho das lojas existentes. No trabalho descrito os autores utilizam análise de componentes principais para reduzir o número de variáveis obtidas por inquérito aos directores das lojas existentes, o que se justifica por se ter utilizado um conjunto de variáveis muito fino medindo praticamente cada característica individualmente. Pelo contrário, neste trabalho as características identificadas no programa de mystery shopping são mais agregadas e os testes efectuados com análise de componentes principais revelaram demasiadas componentes extraídas até porque a correlação entre as variáveis não era muito elevada. Assim, optou-se por reduzir a correlação entre as variáveis simplesmente eliminando algumas variáveis consideradas menos relevantes ou apresentando pior qualidade (por exemplo com casos omissos) mantendo-se os modelos com eleva capacidade explicativa. No caso do trabalho apresentado por Silva e Cardoso (2004) a modelação baseiase em variáveis obtidas por inquérito aos directores das lojas donde resultam muitas variáveis endógenas, sendo as variáveis exógenas em menor número (ver Figura 7, pág. 50). Nesta dissertação, à custa de um estudo muito mais prolongado, utiliza-se uma maior variedade de variáveis explicativas do desempenho de lojas e localizações, nomeadamente com um grande número de variáveis demográficas resultantes da análise espacial e variáveis resultantes de inquéritos a clientes. Por outro lado Silva e Cardoso (2004) utilizam árvores de regressão para previsão de forma muito semelhante à descrita na secção IV.B.3 (pág. 94). Neste trabalho, os especialistas recusaram os resultados deste método, com críticas referentes ao facto de se definirem grupos de lojas análogas para previsão apenas com base numa variável 173 dependente de “vendas anuais”, o que foi considerado insuficiente. Estes autores usam “vendas por unidade de área” e obtêm muito bons resultados, com uma amostra com o cerca de 60 lojas, sem necessidade de definir previamente grupos. Os resultados obtidos por estes autores confirmam as dificuldades encontradas neste trabalho por se dispor de um reduzido número de lojas, mas também as potencialidades das árvores de regressão neste tipo de problemas. Por fim, nesta dissertação combinam-se modelos de regressão com árvores de classificação, o que permite distinguir entre duas localizações potenciais mesmo que sejam consideradas pertencentes ao mesmo grupo de lojas análogas, o que não é possível com os modelos obtidos por Silva e Cardoso (2004). O trabalho apresentado por Clarke et al. (2003b) surge na sequência de outros trabalhos apresentados sobre o uso de intuição e conhecimento de domínio em decisões de localização de lojas de retalho (ver IV.B.1, pág. 86). Neste caso são utilizadas metodologias soft, como os mapas cognitivos, para integrar intuição e conhecimento de especialistas num mecanismo de identificação de uma loja análoga à localização em avaliação. A aplicação realça as principais diferenças entre a nova localização e a loja análoga mais próxima, baseando-se num conjunto elevado de variáveis estruturadas em grupos semelhantes aos apresentados na Figura 7 (pág. 50) e permite efectuar previsões usando as vendas do último ano dessa loja extrapoladas para o ano seguinte. Esta é sem dúvida uma aproximação alternativa certamente muito útil na avaliação de localizações potenciais, mas apenas possível quando o número de lojas existentes é bastante elevado. Mesmo neste caso corre-se o risco de não ser possível encontrar localizações suficientemente análogas para distinguir entre duas alternativas semelhantes. Por outro lado, fazer previsões com base no comportamento de apenas uma loja pode transmitir ao utilizador alguma insegurança, em especial se importantes diferenças forem identificadas e o comportamento da loja identificada for atípico relativamente às restantes lojas existentes. Pelo contrário, no trabalho descrito nesta dissertação utilizam-se grupos de lojas análogas certamente com uma caracterização não tão concreta, mas com maior probabilidade de generalização dos resultados obtidos. Por outro lado, o uso de uma combinação de vendas previstas para o grupo (pelas árvores de classificação) e de características específicas da localização (pelo modelo de regressão) dará certamente uma maior segurança ao utilizador uma vez que os resultados são mais robustos e menos sensíveis a situações atípicas e particulares. 174 VI.D. Tese?! Autores como Phillips e Pugh (2005) consideram que a divisão da investigação científica tradicional em fundamental e aplicada é demasiado rígida. Assim, sugerem a divisão em 3 classes: a investigação conducente a novas linhas de investigação, a validação ou comparação de teorias existentes e a resolução de aplicações concretas do “mundo real”. A presente dissertação enquadra-se claramente na última classe, caracterizando-se pela fusão de diversas abordagens com uma contribuição incremental, baseada no caso particular, ao conhecimento da área. Sempre entendi a área de Investigação Operacional e Engenharia de Sistemas como uma área claramente de interface envolvendo áreas de conhecimento horizontais como a Matemática, a Estatística, a Informática, etc. e aplicando esses conhecimentos científicos a áreas verticais onde são úteis para resolver problemas ou para acrescentar conhecimento sobre problemas e soluções, como é o caso das Engenharias, Logística, Gestão ou Marketing. Estando eu comprometido com uma carreira académica, sempre considerei que este trabalho deveria ser desenvolvido no “outro lado”, i.e. do lado dos problemas aplicados. No entanto, a resolução de um problema prático pode ser um caminho cheio de armadilhas sendo dificilmente previsível como poderá terminar. Escondida em cada curva do caminho pode estar mais uma dificuldade, mais um imprevisto. Durante a realização deste trabalho verificaram-se dificuldades com a recolha de dados em geral, aliás processo muito demorado que ocupou grande parte do tempo empregue, alterações na equipa de especialistas e uma importante mudança de estratégia do grupo de distribuição relativamente à cadeia de lojas em estudo. No entanto, a limitação que mais profundo efeito teve sobre os resultados apresentados é claramente a impossibilidade de usar dados para mais lojas de outras cadeias de retalho semelhantes. Esta limitação, que certamente surgirá na análise da maioria das pequenas cadeias de retalho, acabou por ser aquela que mais criatividade precisou para ser ultrapassada. A solução encontrada, combinando conhecimento do domínio com alguns algoritmos muito simples da estatística e do reconhecimento de padrões e uma ênfase na necessidade de renovar os modelos e de os validar constantemente com novos dados, é provavelmente a maior contribuição desta dissertação. Num trabalho tão aplicado como este é especialmente difícil definir uma tese que esta dissertação deveria comprovar e confirmar principalmente por os resultados a que se 175 chega serem muito dependentes do problema particular, pelo que qualquer tipo de generalização ou paralelização com outros casos não é evidente. Na tentativa de responder à interrogação correspondente ao título desta secção, poder-se-ia enunciar uma tese como: As vendas anuais de novas lojas ou localizações, para a cadeia de lojas de retalho alimentar considerada, podem ser previstas com precisão aceitável utilizando uma combinação de modelos de regressão e discriminantes baseados numa classificação de lojas agrupadas em grupos análogos. Ainda que os resultados apresentados ao longo deste trabalho não sejam absolutamente conclusivos, julgo que o são na medida suficiente. Na verdade, o teste mais rigoroso a qualquer modelo é a sua utilização prática, num ambiente em mudança e muito competitivo onde todos os pressupostos podem ser alterados muito rapidamente. Esse é um teste que este trabalho passou ao se verificar que estes resultados estão efectivamente a ser utilizados e de terem sido solicitadas melhorias ao software e aos modelos de forma regular. Gostaria ainda de acrescentar que este trabalho correspondeu às minhas expectativas no sentido em que realmente se trabalhou com o “outro lado”, e essa experiência foi profundamente enriquecedora, contribuindo para o conhecimento não apenas do problema mas também de metodologias de trabalho. VI.E. Perspectivas Futuras Para se entenderem as propostas de trabalho futuro é necessário compreender as limitações da abordagem apresentada nesta dissertação. Muitas das propostas que se apresentam resultam directamente da possibilidade de melhorar o trabalho apresentado. O número de lojas existentes na cadeia, por ser muito reduzido, dificultou a estimação dos modelos e a respectiva validação. Isto significa que no futuro, com mais casos, será possível realizar validações internas mais completas, nomeadamente com recurso a validações cruzadas com amostra de treino e amostra de teste. No entanto, mais casos pode significar igualmente novos modelos como é o caso dos modelos de mistura ou de segmentos latentes que permitem, em simultâneo, definir uma segmentação das lojas e ajustar modelos lineares de previsão com parâmetros distintos em cada segmento. Modelos deste tipo podem conduzir não apenas a previsões mais exactas mas também a um novo ponto de vista sobre o problema. Sublinhe-se, no entanto, que num 176 problema complexo como o de localização, a utilização de conhecimento do domínio será sempre indispensável e deverá continuar a ser potenciada quaisquer que sejam os modelos utilizados. O método interactivo escolhido para definir a tipologia acaba por ser semelhante a metodologias com validação por visualização e conhecimento de especialistas (expert visual validation methodology), como é exemplo o método em três passos apresentado por Hennig and Christlieb (2002), ainda que adaptado a dados com “praga de dimensionalidade”. Autores como Wang (2001) consideram os métodos com validação por visualização métodos com vantagens uma vez que permitem a utilização de todos os dados, sem a perda de dados da validação cruzada, e permitem sempre encontrar uma solução satisfatória, ao contrário dos métodos que não oferecem alternativas quando a validação falha. Apesar de se dispor de muitas variáveis, apenas duas foram seleccionadas para segmentar as lojas e definir uma tipologia. As variáveis utilizadas foram escolhidas por os especialistas não terem encontrado melhorias significativas quando mais variáveis base de agrupamento eram utilizadas, e também por terem natureza bem diferenciada (i.e. uma é uma medida de desempenho e a outra uma variável comportamental dos clientes) e não serem correlacionadas. Por outro lado, alguns autores defendem que a análise de agrupamentos deve ser sempre efectuada com o menor número de variáveis base de agrupamento possível para impedir a introdução de ruído nos resultados (Duda et al., 2001, Gordon, 1999, Milligan, 1996). No entanto, com o aumento do universo de lojas a segmentar, é possível que mais variáveis sejam necessárias no conjunto das variáveis base de agrupamento. Assim, o método de visualização utilizado tornar-se-ia inadequado. Sugere-se assim, para trabalho futuro, a utilização de técnicas de visualização das tipologias formadas com diferentes conjuntos de variáveis base de agrupamento como é o caso das projection pursuit entre outras técnicas de redução da dimensionalidade dos dados (Soukup e Davidson, 2002). Tendo em conta a entusiástica receptividade que as árvores de regressão obtiveram na definição de grupos de lojas análogas e previsão, pretende-se igualmente explorar esta via em maior pormenor. Na verdade, as árvores de regressão são um bom meio de comunicação já que são de fácil leitura, permitindo identificar padrões nos dados e, em simultâneo, uma caracterização dos mesmos. Os resultados identificados pelas árvores de regressão foram preteridos por se considerar que avaliar os grupos formados apenas com uma variável dependente é insuficiente. Na verdade, a avaliação que estes especialistas utilizam não se baseia apenas nas vendas das lojas mas num potencial de 177 vendas a médio e longo prazo que terá de ser avaliado por outro tipo de medidas de desempenho. Para encontrar árvores mais coerentes com este comportamento sugeremse duas linhas de investigação; • a utilização de análise de decisão multicritério na construção de uma medida de desempenho mais adequada à avaliação de lojas e localizações ou, em alternativa, a utilização de algoritmos para árvores de regressão multivariadas (ver por exemplo Ciampi et al., 2000); • a utilização de técnicas de combinação de árvores construídas com diferentes variáveis dependentes, como é o caso das árvores de consenso (Leclerc, 1998) ou da combinação de classificadores ou previsões (Duda et al., 2001). Uma limitação fundamental, já abordada na secção V.D.2 (pág. 152) dos métodos de previsão por analogia, consiste no facto de não ser possível fazer previsões para localizações potenciais muito distintas, uma vez que tal seria uma extrapolação para zonas para as quais não se possuem dados. Esta é uma limitação que se verifica em todos os modelos de previsão e que resulta directamente das limitações dos dados existentes. A dificuldade em prever vendas ou comparar localizações em áreas muito distintas daquelas onde actualmente existem lojas apenas poderá ser superada por utilização de conhecimento não existente nos dados. Na verdade, este problema já surgiu quando foi proposto avaliar uma localização no sul do país, portanto claramente fora das áreas metropolitanas de Lisboa e do Porto onde actualmente existem lojas da cadeia. Ainda que os modelos desenvolvidos não possam ser usados com segurança em tal localização, o conhecimento gerado como os modelos de delimitação de áreas de influência e as regras proposicionais enumeradas na secção VI.B podem contribuir para se chegar a uma conclusão menos subjectiva. Assim, verifica-se a necessidade de continuar a gerar conhecimento sobre o problema e de utilizar novas técnicas de captura de conhecimento. Note-se que a decisão final sobre o destino de uma localização potencial terá de considerar um trade-off entre o custo de investimento e a capacidade da localização para gerar receitas. Quanto ao custo de investimento das localizações, nesta dissertação considera-se a existência de um orçamento a que todas as localizações em comparação obedecem. Apesar disso, variações de custo têm de ser consideradas no processo de comparação de localizações com vista à tomada de decisão. De qualquer modo, tem-se verificado que frequentemente as localizações em comparação são próximas pelo que não se esperam grandes variações de custo de aquisição dos terrenos ou de construção da loja. 178 Ainda que neste caso, os custos de investimento tenham sido considerados pouco importantes relativamente à capacidade de gerar receitas, com o aumento do número de lojas e o previsivel aumento de variedade de localizações em comparação a análise multicritério pode tornar-se relevante. Assim, uma possível evolução deste trabalho consistiria na comparação de alternativas de localização com base em critérios que incluam os custos de investimento, a capacidade de gerar receitas, o risco associado às previsões de receitas e aspectos não monetários como o incremento que uma nova localização permite da imagem da cadeia. No que se refere à aplicação desenvolvida, uma possível evolução consiste na utilização de uma linguagem de metadados como o XML (eXtensible Markup Language) para trocar modelos e informação sobre os dados entre as diferentes aplicações. Este tipo de procedimento permitiria introduzir modelos na folha de cálculo com maior rapidez, facilitando as análises what-if que envolvam modificações nos modelos e não apenas nos parâmetros utilizados. Ainda que a via escolhida tenha sido bem fundamentada e se tenha chegado a bons resultados, considera-se útil comparar estes resultados com modelos de interacção espacial e de optimização como é o caso do problema da cadeia de retalho óptima referido em Hurley et al. (1995). Este tipo de abordagem holística, relacionada com uma visão de conjunto de toda a cadeia de lojas, pode trazer conhecimentos adicionais sobre o problema e poderia resultar numa implementação na aplicação computacional, aumentando o conjunto de modelos acessíveis ao utilizador e tornando a aplicação mais útil como ferramenta de apoio ao raciocínio. 179 BIBLIOGRAFIA Achabal, Dale D.; Gorr, Wilpen L. e Mahajan, Vijay (1982) “MULTILOC - A multiple store location decision model” Journal of Retailing, 58 (2) 5-25, ISSN: 0022-4359. Adelman, Leonard (1992) “Evaluating Decision Support and Expert Systems”. New York, USA: Wiley-Interscience, ISBN: 0-471-54801-4. Adelman, Leonard e Riedel, Sharon L. (1997) “Handbook for Evaluating KnowledgeBased Systems: Conceptual framework and compendium of methods”. Dordrecht, Netherlands: Kluwer Academic Publishers, ISBN: 0-7923-9906-4. Albright, S. Christian (2001) “VBA for Modelers: Developing decision support systems using Microsoft® Excel” Pacific Grove, USA: Duxbury, ISBN: 0-534-38012-3. Alexander, Nicholas e Myers, Hayley (2000) “The retail internationalisation process” International Marketing Review, 17 (4/5) 334-353, ISSN: 0265-1335. Applebaum, William (1966) “Guidelines for store-location strategy study” Journal of Marketing, 30, 42-45, ISSN: 0022-2429. Arnold, Stephen J.; Oum, Tae H. e Tigert, Douglas J. (1983) “Determinant attributes in retail patronage: Seasonal, temporal, regional, and international comparisons” Journal of Marketing Research, 20 (5 May) 149-157, ISSN: 0022-2437. Assael, H. (1970) “Segmentating markets by group purchasing behavior: An application of the AID technique” Journal of Marketing Research, 7, 153-158, ISSN: 0022-2437. Awad, Elias M. e Ghaziri, Hassan M. (2004) “Knowledge Management”. Upper Saddle River, USA: Pearson Education Ltd., ISBN: 0-13-122784-X. Azen, Razia e Budescu, David V. (2003) “The dominance analysis approach for comparing predictors in multiple regression” Psychological Methods, 8 (2 Jun) 129-148, ISSN: 1082-989X. Baker, Ken (2002) “Data fusion”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 481-496, ISBN: 07494-3865-7. Ballou, Ronald H. (2004) “Business Logistics / Supply Chain Management”. 5ª ed., Upper Saddle River, USA: Pearson Prentice Hall, ISBN: 0-13-123010-7. Bay, S.D. e Pazzani, M.J. (2000) “Discovering and describing category differences: What makes a discovered difference insightful?” Em: Gleitman, Lila R. e Joshi, Aravind K. (Eds.) Proceedings of the 22nd Annual Meeting of the Cognitive Science Society, Pennsylvania, USA: Institute for Research in Cognitive Science, 603-609. Bell, David E.; Keeney, Ralph L. e Little, John D.C. (1975) “A market share theorem” Journal of Marketing Research, 12, 136-141, ISSN: 0022-2437. Berg, Mark; van Kreveld, Marc; Overmars, Mark e Schwarzkopf, Otfried (2000) “Computational Geometry: Algorithms and applications”. 2ª ed., Berlim: SpringerVerlag, ISBN: 3-540-65620-0. Berry, Michael J.A. e Linoff, Gordon (1997) “Data Mining Techniques: For marketing, sales, and customer support”. USA: John Wiley & Sons, ISBN: 0-471-17980-9. Berry, William D. (1993) “Understanding regression assumptions” Quantitative Appliations in the Social Sciences, vol. 92. Newbury Park, USA: Sage Publications, ISBN: 0-80394263-X. 180 Biggs, D.B. de Ville e Suen, E. (1991) “A method of choosing multiway partitions for classification and decision trees” Journal of Applied Statistics, 18, 49-62, ISSN: 02664763. Birkin, Mark; Clarke, Graham e Clarke, Martin (2002) “Retail Geography and Intelligent Network Planning”. Chischester, U.K.: John Wiley & Sons, ISBN: 0-471-49803-3. Birrell, George e Worrall, Stephen (1995) “Computer dating for offices” OR Insight, 8 (3) 26-30, ISSN: 0953-5543. Blamires, Chris (2002) “Segmentation”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 497-518, ISBN: 0-7494-3865-7. Blankenship, Albert Breneman; Breen, George Edward e Dutka, Alan F. (1998) “State of the Art Marketing Research”. 2ª ed., Chicago, USA: NTC Business Books, ISBN: 08442-3443-5. Boots, Barry e South, Robert (1997) “Modeling retail trade areas using higher-order, multiplicatively weighted voronoi diagrams” Journal of Retailing, 73 (3) 519-536, ISSN: 0022-4359. Boufounou, Paraskevi V. (1995) “Evaluating bank branch location and performance: A case study” European Journal of Operational Research, 87 (2) 389-402, ISSN: 03772217. Bouguettaya Athman; Benatallah, Boualem e Elmagarmid, Ahmed K. (1998) “Interconnecting Heterogeneous Information Systems” The Kluwer International Series on Advances in Database Systems, vol. 14. Massachusetts, USA: Kluwer Academic Press, ISBN: 0-7923-8216-1. Bowerman, Bruce L.; O'Connell, Richard e Koehler, Anne (2005) “Forecasting, Time Series, and Regression”. 4ª ed., Pacific Grove, USA: Duxbury, ISBN: 0-534-40977-6. Breiman, Leo; Friedman, Jerome H.; Olshen, Richard A. e Stone, Charles J. (1984) “Classification and Regression Trees” The Wadsworth & Brooks \ Cole Statistics \ Probability Series. California, USA: Wadsworth International, ISBN: 0-534-98053-8. Brown, G.S. (1965) “Point density in stems per acre” New Zealand Forestry Service Research Notes, 38, 1-11. Budescu, David V. (1993) “Dominance analysis: A new approach to the problem of relative importance of predictors in multiple regression” Psychological Bulletin, 114 (3 Nov) 542-551, ISSN: 0033-2909. Buhl, Hans Ulrich (1988) “Axiomatic considerations in multi-objective location theory” European Journal of Operational Research, 37 (3) 363-367, ISSN: 0377-2217. Burt, S. e Gabbott, M. (1995) “The elderly consumer and non food purchase behavoiur” European Journal of Marketing, 29 (2) 43-57, ISSN: 0309-0566. Byrom, J.W. (2000) “The Use of Geographical Information in Retail Locational DecisionMaking” Research in Management and Business Working Paper Series. UK: Manchester Metropolitan University, ISBN: 1471-857X. (Retirado de www.business.mmu.ac.uk/wps/ em 7/12/2004) Cardoso, Margarida G.M.S. (2000) “Segmentação: Uma aplicação ao mercado do turismo” Tese de Doutoramento. Lisboa: IST - Univ. Técnica de Lisboa. Cardoso, Margarida G.M.S. (2001) “Modelos de segmentos latentes: Aplicações em marketing”. Em: Ferreira, Manuel A.M.; Menezes, Rui e Cardoso, Margarida (Eds.) Temas em Métodos Quantitativos, Lisboa: Sílabo, 205-231, ISBN: 972-618-254-9. 181 Cardoso, Margarida G.M.S. (2003) “Modelos discriminantes lógicos na caracterização de uma estrutura de segmentos”. Em: Reis, Elizabeth e Hill, Manuela Magalhães (Eds.) Temas em Métodos Quantitativos, Lisboa: Sílabo, 181-192, ISBN: 972-618-291-1. Cardoso, Margarida G.M.S. e Mendes, Armando B. (2002) “Segmentação de clientes de lojas de pequena dimensão”. Em: Carvalho, Lucília; Brilhante, Fátima e Rosado, Fernando (Eds.) Novos Rumos em Estatística, 9º Congresso Anual da Sociedade Portuguesa de Estatística, Ponta Delgada: SPE, 157-170, ISBN: 972-98619-4-3. Cardoso, Margarida G.M.S. e Moutinho, Luíz (2003) “A logical type discriminant model for profiling a segment structure” Journal of Targeting, Measurement and Analysis for Marketing, 12 (1) 27-41, ISSN: 0967-3237. Cavique, L.; Rego, C. e Themido, I. (2002) “A scatter search algorithm for the maximum clique problem”. Em: Ribeiro, C. e Hansen, P. (Eds.) Essays and Surveys in Metaheuristics, Dordrecht, The Netherlands: Kluwer Academic Publishers, 227-244, ISBN: 0-7923-7520-3. Chatfield, C. (2001) “Time-Series Forecasting”. Boca Raton, UK: Chapman & Hall, ISBN: 1-584-88063-5. Chou, Paul B.; Grossman, Edna; Gunopulos, Dimitrios e Kamesam, Pasumarti (2000) “Identifying prospective customers”. Em: Ramakrishnan, R. (Ed.) Proceedings ACM SIGKDD, 6th International Conference on Knowledge Discovery and Data Mining, New York, USA: ACM press, 447-456, ISBN: 1-58113-233-6. Chuang, Pao-Tiao (2002) “A QFD approach for distribution's location model” The International Journal of Quality & Reliability Management, 19 (8) 1037-1054, ISSN: 0265-671X. Church, R.L. (2002) “Geographical information systems and location science” Computers and Operations Research, 29, 541-562, ISSN: 0305-0548. Ciampi, Antonio; Zighed, Djamel A. e Clech, Jérémy (2000) “Trees and induction graphs for multivariate response”. Em: Zighed, D.A.; Komorowski, J. e Zytkow, J. (Eds.) Principles of Data Mining and Knowledge Discovery: Proceedings PKDD 2000, 4th european conference, Lecture Notes in Computer Science, Heidelberg, Germany: Springer-Verlag, 359-394, ISBN: 3-540-41066-X. Clarke, Ian; Hallsworth, Alan; Jackson, Peter; Kervenoael, Ronan; Perez-del-Aguila, Rossana e Kirkup, Malcolm (2004) “Retail competition and consumer choice: Contextualising the ‘food deserts’ debate” International Journal of Retail & Distribution Management, 32 (2) 89-99, ISSN: 0959-0552. Clarke, Ian; Horita, Masahide e Mackaness, William (2000) “The spatial knowledge of retail decision makers: Capturing and interpreting group insight using a composite cognitive map” The International Review of Retail, Distribution and Consumer Research, 10 (3) 265-285, ISSN: 0959-3969. Clarke, Ian e Mackaness, William (2001) “Management 'Intuition': An interpretative account of structure and content of decision schemas using cognitive maps” Journal of Management Studies, 38 (2 March) 147-172, ISSN: 0022-2380. Clarke, Ian; Mackaness, William e Ball, Barbara (2003a) “Modelling Intuition in Retail Site Assessment (MIRSA): Making sense of retail location using retailers' intuitive judgements as a support for decision-making” The International Review of Retail, Distribution and Consumer Research, 13 (2 April) 175-193, ISSN: 0959-3969. 182 Clarke, Ian; Mackaness, William; Ball, Barbara e Horita, Masahide (2003b) “The devil is in the detail: Visualising analogical thought in retail location decision-making” Environment and Planning - part B - Planning and design, 30 (1 January) 15-36, ISSN: 0265-8135. Clemen, Robert T. e Reilly, Terence (2001) “Making Hard Decisions with DecisionTools” Pacific Grove, USA: Duxbury, ISBN: 0-534-36597-3. Coates, David; Doherty, Neil; French, Alan e Kirkup, Malcolm (1995) “Neural networks for store performance forecasting: An empirical comparison with regression techniques” The International Review of Retail, Distribution and Consumer Research, 5 (3 July) 415-432, ISSN: 0959-3969. Cooley, Steven (2002) “Loyalty strategy development using applied member-cohort segmentation” Journal of Communication Management, 19 (7) 550-563, ISSN: 07451822. Cooper, Lee G. e Nakanishi, Masao (1993) “Market-Share Analysis: Evaluating competitive marketing effectiveness” International Series in Quantitative Marketing. Boston: Kluwer Academic Publishers, ISBN: 0-89838-278-5. Cowen, David J.; Jensen, John R.; Shirley, W. Lynn; Zhou, Yingming e Remington, Kevin (2000) “Commercial real estate GIS site evaluation models: Interfaces to ArcView GIS”. Em: Proceedings of the 20th Annual ESRI International User Conference, ESRI online Library, 140-145. (Retirado de www.esri.com/library/userconf/proc00/professional/ papers/ em 10/11/2001) Cox, Trevor F. e Cox, Michael A.A. (2000) “Multidimensional Scaling” Monographs on Statistics and Applied Probability. 2ª ed., Boca Raton, UK: CRC Press, ISBN: 1-58488094-5. Cummings, Nigel (1999) “Powering performance at Tesco” OR Newsletter (May) 24-25. Cummins, Steven e Macintyre, Sally (2002) “’Food deserts’ evidence and assumption in health policy making” British Medical Journal, 325 (24 August) 436-438, ISSN: 09598146. Curry, Bruce e Moutinho, Luiz (1991) “Expert systems for site location decisions” Logistics Information Management, 4 (4) 19-27, ISSN: 0957-6053. Curry, Bruce e Moutinho, Luiz (1992) “Computer models for site location decisions” International Journal of Retail & Distribution Management, 20 (4 July/August) 12-17, ISSN: 0959-0552. Dawson, John (2000) “Retailing at century end: Some challenges for management and research” The International Review of Retail, Distribution and Consumer Research, 10 (2 April) 119-148, ISSN: 0959-3969. Devlin, Derek; Birtwistle, Grete e Macedo, Norma (2003) “Food retail positioning strategy: A means-end chain analysis” British Food Journal, 105 (9) 653-670, ISSN: 0007-070X. Dirichlet, Peter Gustav Lejeune (1850) “Über die reduction der positiven quadratischen formen mit drei umbestimmten ganzen Zahlen” Journal für die Reine und Angewandte Mathematik, 40, 209-227. Drezner, Tammy (1995) “Competitive facility location in the plane”. Em: Drezner, Zvi (Ed.) Facility Location: A Survey of applications and methods, Springer Series in Operations Research, Berlim: Springer-Verlag, 285-300, ISBN: 0-387-94545-8. 183 Drezner, Tammy; Drezner, Zvi e Salhi, S. (2002) “Solving the multiple competitive facilities location problem” European Journal of Operational Research, 142 (1) 138-151, ISSN: 0377-2217. Drezner, Zvi e Hamacher, Horst W. (Eds.) (2002) “Facility location: Applications and theory”. Berlin: Springer, ISBN: 3-540-42172-6. Du, Qiang; Faber, Vance e Gunzburger, Max (1999) “Centroidal Voronoi tessellations: Applications and algorithms” SIAM Review, 41, 637-676, ISSN: 0036-1445. Duda, Richard O.; Hart, Peter E. e Stork, David G. (2001) “Pattern Classification”. 2ª ed., New York: Wiley-Interscience, ISBN: 0-4-710-5669-3. Dugmore, K. (1997) “A gravity situation” New Perspectives, 5 (4) 18-19, ISSN: 0893-7850. East, R.; Hammond, K.; Harris, P. e Lomax, W. (2000) “First-store loyalty and retention” Journal of Marketing Management, 16, 307-325, ISSN: 0267-257X. Edmunds, Holly (1996) “AMA Complete Guide to Marketing Research for Small Business”. Chicago: NTC Business Books, ISBN: 0-8442-3584-9. Eurostat (2001) “Distributive trades in Europe” Panorama of the European Union. Luxembourg: Office for Official Publications of the European Communities, ISBN: 92894-1426-X. (Retirado de europa.eu.int/comm/eurostat em 26/8/2004). Eurostat (2002) “European social statistics: Demography” Detailed Tables. Luxembourg: Office for Official Publications of the European Communities, ISBN: 92-894-4324-3. (Retirado de europa.eu.int/comm/eurostat/ em 2/9/2004). Eurostat (2003) “European Business Facts and Figures, Part 5: Trade and tourism, data 1991-2001” Panorama of the European Union. Luxembourg: Office for Official Publications of the European Communities, ISBN: 92-894-5737-6. (Retirado de europa.eu.int/comm/eurostat em 25/8/2004). Everitt, Brian S. e Dunn, Graham (2001) “Applied Multivariate Data Analysis”. 2ª ed., London, UK: Edward Arnold, ISBN: 0-340-741-22-8. Everitt, Brian S.; Landau, Sabine e Leese, Morven (2001) “Cluster Analysis”. 4ª ed., London, UK: Edward Arnold, ISBN: 0-340-761-19-9. Fernandes, Carla e Themido, Isabel (1997) “Development of gravitational models for gasoline sales” Investigação Operacional, 17 (1) 41-59, ISSN: 0874-5161. Figueiredo, António Dias; Celorico, Jacinto J. e Coelho, Pedro M. (1999) “Recolha de Dados para a Base de Dados do Observatório do Comércio sobre as Empresas que em Portugal operam no Domínio do Comércio Electrónico” Relatórios do Lab. de Informática e Sistemas do Instituto Pedro Nunes. Portugal: Univ. de Coimbra. (Retirado de www.obscom.min-economia.pt em 25/06/2002) Fotheringham, Stewart e Rogerson, Peter (Eds.) (1994) “Spatial Analysis and GIS” Technical Issues in Geographic Information Systems. Basingstoke, UK: Burgess Science Press, ISBN: 0-7484-0104-0. Gentle, James E. (2002) “Elements of Computational Statistics” Statistics and Computing. New York, USA: Springer-Verlag, ISBN: 0-387-95489-9. Ghosh, Avijit e Craig, C. Samuel (1983) “Formulating retail location strategy in a changing environment” Journal of Marketing, 47 (3 Summer) 56-68, ISSN: 0022-2429. Ghosh, Avijit e McLafferty, Sara L. (1982) “Locating stores in uncertain environments: A scenario planning approach” Journal of Retailing, 58 (4) 5-22, ISSN: 0022-4359. 184 Gilbert, David (2002) “Retail Marketing Management”. 2ª ed., Upper Saddle River, USA: Prentice Hall, ISBN: 0-273-65511-6. Giovanni, Luigi; Sanlorenzo, Franco e Tadei, Roberto (2002) “Modelling the retail system competition” Em: Barceló, Jaime; Paixão, José; Labbé, Martine e Speranza, Maria Grazia (Eds.) Conference Preprints TRISTAN IV, 4th Triennial Symposium on Transportation Analysis, Ponta Delgada: Fac. de Ciências da Univ. de Lisboa e Univ. dos Açores, 345-356. Gonçalves, Alexandre B. e Matos, João (2005) “Modelação geográfica de problemas de localização de equipamentos”. Em: Resumos da Conferência Nacional de Cartografia e Geodesia, 4ª ed., Lisboa, Portugal: Ordem dos Engenheiros e ICIST \ IST. Gonçalves, Alexandre B. e Mendes, Armando B. (2002) “Caracterização de áreas de influência de lojas de retalho alimentar de pequena dimensão com base em diagramas de Voronoi ponderados”. Em: Resumos eSIG'2002, Encontro de Utilizadores de Informação Geográfica, 7ª ed., Lisboa, Portugal: USIG. (Publicado em CD-ROM). González-Benito, Óscar (2002) “Geodemographic and socioeconomic characterization of the retail attraction of leading hypermarket chains in Spain” The International Review of Retail, Distribution and Consumer Research, 12 (1 January) 81-104, ISSN: 0959-3969. Goodwin, David R. e McElwee, Rachel E. (1999) “Grocery shopping and an ageing population: Research note” The International Review of Retail, Distribution and Consumer Research, 9 (4 October) 403-409, ISSN: 0959-3969. Gordon, A.D. (1999) “Classification” Monographs on Statistics and Applied Probability, vol. 82. 2ª ed., Boca Raton, UK: CRC Press, ISBN: 1-58488-013-9. Grimshaw, David J. (1999) “Bringing Geographical Information Systems into Business”. 2ª ed., New York, USA: John Wiley & Sons, ISBN: 0-471-33342-5. Guijarro-Berdiñas, Bertha e Alonso-Betanzos, Amparo (2002) “Empirical evaluation of a hybrid intelligent monitoring system using different measures of effectiveness” Artificial Intelligence in Medicine, 24 (1 January) 71-96, ISSN: 0933-3657. Guimarães, Rui Campos e Cabral, José A. Sarsfield (1997) “Estatística”. Lisboa, Portugal: McGraw-Hill, ISBN: 972-8298-45-5. Guy, Cliff (1998) “Controlling new retail spaces: The impress of planning policies in Western Europe” Urban Studies: An Int. Jour. of Res. in Urban and Regional Studies, 35, 953-979, ISSN: 0042-0980. Halkidi, Maria; Batistakis, Yannis e Vazirgiannis, Michalis (2001) “On clustering validation techniques” Journal of Intelligent Information Systems, 17 (2/3 Dec) 107-145, ISSN: 0925-9902. Hamacher, H.W. e Nickel, S. (1996) “Multicriteria planar location problems” European Journal of Operational Research, 94 (1) 66-86, ISSN: 0377-2217. Hand, David J.; Mannila, Heikki e Smyth, Padhraic (2001) “Principles of Data Mining” Adaptive Computation and Machine Learning. Cambridge, USA: MIT Press, ISBN: 0262-08290-X. Hardestya, David M. e Bearden, William O. (2004) “The use of expert judges in scale development: Implications for improving face validity of measures of unobservable constructs” Journal of Business Research, 57 (2 February) 98-107, ISSN: 0148-2963. Harries, Paul (2002) “Sampling and statistics”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 43-85, ISBN: 0-7494-3865-7. 185 Hartigan, John A. (1996) “Introduction”. Em: Arabie, P.; Hubert, L.J. e De Soete, G. (Eds.) Clustering and Classification, Singapore: World Scientific, 1-3, ISBN: 981-02-1287-9. Hanssens, Dominique M.; Parsons, Leonard J. e Schultz, Randall L. (2001) “Market Response Models: Econometric and time series analysis” International Series in Quantitative Marketing, vol. 12. 2ª ed., Boston, USA: Kluwer Academic Publishers, ISBN: 1-4020-7368-2. Hathaway, Richard J. e Bezdek, James C. (2003) “Visual cluster validity for prototype generator clustering models” Pattern Recognition Letters, 24 (9-10 June) 1563-1569, ISSN: 0167-8655. Heald, G.I. (1972) “The application of the automatic interaction detector (A.I.D.) programme and multiple regression techniques to the assessment of store performance and site selection” Operational Research Quarterly, 23 (4) 445-457, ISSN: 0030-3623. Hennig, Christian e Christlieb, Norbert (2002) “Validating visual clusters in large datasets: Fixed point clusters of spectral features” Computational Statistics & Data Analysis, 40 (4 October) 723-739, ISSN: 0167-9473. Hernández, Tony e Bennison, David (1997) “Selling people on GIS” Mapping Awareness, 11 (5) 20-23, ISSN: 1361-7583. Hernández, Tony e Bennison, David (2000) “The art and science of retail location decisions” International Journal of Retail & Distribution Management, 28 (8) 357-367, ISSN: 0959-0552. Hernández, Tony; Bennison, David e Cornelius, S. (1998) “The organisational context of retail locational planning” GeoJournal, 45 (4) 299-308, ISSN: 0343-2521. Huff, D.L. (1963) “A probabilistic analysis of shopping center trade areas” Land Economics, 39 (Februrary) 81-90, ISSN: 0023-7639. Hurley, S.; Moutinho, L. e Stephens, N.M. (1995) “Solving marketing optimization problems using genetic algorithms” European Journal of Marketing, 29 (4) 39-56, ISSN: 0309-0566. Jackling, Peter (2002) “Analysing data”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 411-437, ISBN: 0-7494-3865-7. Jain, Anil K. e Dubes, Richard C. (1988) “Algorithms for Clustering Data” Advanced Reference Series: Computer Science. Englewood Cliffs, USA: Prentice Hall, ISBN: 013-022278-X. Jain, Anil K.; Murty, M.N. e Flynn, P.J. (1999) “Data clustering: A review” ACM Computing Surveys, 31 (3 September) 264-323, ISSN: 0360-0300. Johnson, M. (1997) “The application of geodemographics to retailing - Meeting the needs of the catchment” Journal of the Market Research Society, 39 (1) 203-224, ISSN: 00253618. Jones, Christopher V. (1996) “Visualization and Optimization” Operations Research / Computer Sciences Interfaces, vol. 6. The Netherlands: Kluwer Academic Publishers, ISBN: 0-7923-9672-3. Jones, Michael A.; Mothersbaugh, David L e Beatty, Sharon E. (2003) “The effects of locational convenience on customer repurchase intentions across service types” The Journal of Services Marketing, 17 (7) 701-712, ISSN: 0887-6045. 186 Karakaya, Fahri e Canel, Cem (1998) “Underlying dimensions of business location decisions” Industrial Management + Data Systems, 98 (7) 321-329, ISSN: 0263-5577. Karkazis, John (1989) “Facilities location in a competitive environment: A PROMETHEE based multiple criteria analysis” European Journal of Operational Research, 42 (3) 294304, ISSN: 0377-2217. Karkkainen, M. (2003) “Increasing efficiency in the supply chain for short shelf-life goods using RFID tagging” International Journal of Retail & Distribution Management, 31 (10) 529-536, ISSN: 0959-0552. Kass, G. (1980) “An exploratory technique for investigating large quantities of categorical data” Applied Statistics, 29 (2) 119-127, ISSN: 0035-9254. Kaufmann, Patrick J.; Donthu, Naveen e Brooks, Charles M. (2000) “Multi-unit retail site selection processes: Incorporating opening delays and unidentified competition” Journal of Retailing, 76 (1) 113-127, ISSN: 0022-4359. Kaufmann, Patrick J.; Rangan, V. Kasturi (1990) “A model for managing system conflict during franchise expansion” Journal of Retailing, 66 (2 Summer) 155-173, ISSN: 00224359. Keen, Peter G.W. e Morton, Michael S. Scott (1978) “Decision Support Systems: An organizational perspective” Addison-Wesley Series on Decision Support. Reading, USA: Addison-Wesley, ISBN: 0-201-03667-3. Klosterman, Richard E. e Xie, Yichun (1997) “Retail impact analysis with loosely coupled GIS and a spreadsheet” International Journal of Physical Distribution & Logistics Management, 2 (2) 175-192, ISSN: 0960-0035. Koppelman, F.S. e Wen, C.H. (2000) “The paired combinatorial logit model: Properties, estimation and applications” Transportation Research Part B: Methodology, 34, 75-89, ISSN: 0191-2615. Lam, Soi-Hoi e Song, Chenfei (2001) “Modelling spatial characteristics of transport demand using GIS and household interview survey data”. Em: Barceló, Jaime; Paixão, José; Labbé, Martine e Speranza, Maria Grazia (Eds.) Conference Preprints TRISTAN IV, 4th Triennial Symposium on Transportation Analysis, Ponta Delgada: Fac. de Ciências da Univ. de Lisboa e Univ. dos Açores, 595-600. Lattin, James; Carroll, J. Douglas e Green, Paul E. (2003) “Analysing Multivariate Data”. Pacific Grove, USA: Duxbury, ISBN: 0-534-34974-9. Leclerc, Bruno (1998) “Consensus of classifications: The case of trees”. Em: Rizzi, Alfredo; Vichi, Maurizio e Bock, Hans-Hermann (Eds.) Advances in Data Science and Classification: Proceedings of the 6th Conference of the International Federation of Classification Societies (IFCS-98), Studies in Classification, Data Analysis, and Knowledge Organization, Berlim: Springer-Verlag, 81-90, ISBN: 3-540-64641-8. Leeflang, Peter S.H.; Wittink, Dick R.; Wedel, Michel e Naert, Philippe A. (2000) “Building Models for Marketing Decisions” International Series in Quantitative Marketing, vol. 9. Dordrecht, The Netherlands: Kluwer Academic Publishers, ISBN: 0-7923-7772-9. Leventhal, Berry (2002) “Geodemographics”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 103-125, ISBN: 0749438657. Levy, Michael e Weitz, Barton A. (2004) “Retailing Management”. 5ª ed., Boston: McGraw-Hill, ISBN: 0-07-121481-X. 187 Lilien, Gary L.; Kotler, Philip e Moorthy, K. Sridhar (1992) “Marketing Models”. 1ª ed., New Jersey, USA: Prentice Hall International, ISBN: 0-13-561929-7. Lilien, Gary L. e Rangaswamy, Arvind (2003) “Marketing Engineering: Computer-assisted marketing analysis and planning”. 2ª ed., New Jersey, USA: Prentice Hall, ISBN: 0-13035549-6. Liu, Mingqin e Samal, Ashok (2002) “Cluster validation using legacy delineations” Image and Vision Computing, 20 (7 May) 459-467, ISSN: 0262-8856. Loh, Wei-Yin e Shih, Yu-Shan (1997) “Split selection methods for classification trees” Statistica Sinica, 7, 815-840, ISSN: 1017-0405. Maiar, Erhard (2002) “Quantitative research”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 147-152, ISBN: 0-7494-3865-7. Malczewski, Jacek (1999) “GIS and Multicriteria Decision Analysis”. Chichester, UK: John Wiley & Sons, ISBN: 0-471-32944-4. Marakas, George M. (2003) “Decision Support Systems: In the 21st century”. 2ª ed., Upper Saddle River, USA: Prentice Hall, ISBN: 0-13-122848-X. Maroco, João (2003) “Análise Estatística - Com utilização do SPSS”. 1ª ed., Lisboa, Portugal: Sílabo, ISBN: 972-618-298-0. Marques, Jorge Salvador (1999) “Reconhecimento de Padrões: Métodos estatísticos e neuronais” Ensino da Ciência e da Tecnologia. Lisboa, Portugal: IST Press, ISBN: 9728469-08-X. Matos, Luis e Simões, Fernando (2004) “Performance.PT, Sistema de avaliação de desempenho do grupo PT”. Em: Actas da 5ª Conferência da Associação Portuguesa de Sistemas de Informação, Lisboa, Portugal: APSI, ISBN: 972-99387-1-7. McCarty, Terry (2002) “Quantitative techniques: Retail audits”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 249-259, ISBN: 0-7494-3865-7. McMullin, Shaun K. (2000) “Where are your customers: Raster based modeling for customer prospecting”. Em: Proceedings of the 20th Annual ESRI International User Conference, ESRI online Library, 795-823. (Retirado de www.esri.com/library/ /userconf/proc00/professional/papers/ em 10/11/2001) Mead, R. (1966) “A relationship between individual plant-spacing and yield” Annals of Botany, 30, 301-309, ISSN: 0305-7364. Mendes, Armando B. e Cardoso, Margarida G.M.S. (2005a) “Integração de conhecimento de especialistas na tipificação de lojas de retalho” Revista Portuguesa de Marketing, ISSN: 0873-2949 (aceite para publicação). Mendes, Armando B. e Cardoso, Margarida G.M.S. (2005b) “Clustering Supermarkets: The role of experts” Journal of Retailing and Consumer Services, ISSN: 0969-6989 (aceite para publicação). Mendes, Armando B.; Gonçalves, Alexandre B.; Oliveira, Rui Carvalho e Matos, João (2004) “Sistema de Apoio à Decisão Espacial para localização de lojas de retalho: O problema das áreas de influência”. Em: Actas da 5ª Conferência da Associação Portuguesa de Sistemas de Informação, Lisboa, Portugal: APSI, ISBN: 972-99387-1-7. 188 Mendes, Armando B. e Themido, Isabel Hall (2000) “Modelação de quotas de mercado de artigos de grande consumo com baixo nível de diferenciação — Um caso de estudo aplicado ao retalho”. Em: Antunes, Carlos Henggeler e Tavares, Luís Valadares (Eds.) Casos de Aplicação da Investigação Operacional, Lisboa: McGraw-Hill, 266-291, ISBN: 972-773-075-2. Mendes, Armando B. e Themido, Isabel Hall (2004) “Multi-outlet retail site location assessment: A state of the art” International Transactions in Operations Research, 11 (1 January) 1-18, ISSN: 0969-6016. Meyer, Terry G. (1988) “Site selection vs. site evaluation: Techniques for locating retail outlets” Real Estate Issues, 13 (1) 25-28, ISSN: 0146-0595. Micheaux, Andrea e Gayet, Anne (2001) “Turning a marketing database into a relationship marketing database” Interactive Marketing, 2 (4) 327-346, ISSN: 1463-5178. Milligan, Glenn W. (1996) “Clustering validation: Results and implications for applied analyses”. Em: Arabie, P.; Hubert, L.J. e De Soete, G. (Eds.) Clustering and Classification, Singapore: World Scientific, 341-375, ISBN: 981-02-1287-9. Moore, James S. (1998) “An expert system approach to graduate school admission decisions and academic performance prediction” Omega - International Journal of Management Science, 26 (5) 659-670, ISSN: 0305-0483. Moore, Stuart e Attewell, Glen (1991) “To be and where not to be - The Tesco approach to locational analysis” OR Insight, 4 (1) 21-24, ISSN: 0953-5543. Morgan, J.N. e Sonquist, J.A. (1963) “Problems in the analysis of survey data and a proposal” Journal of the American Statistical Association, 58, 58-415, ISSN: 01621459. Morland, Kimberly; Wing, Steve; Roux, Ana Diez e Poole, Charles (2002) “Neighborhood characteristics associated with the location of food stores and food service places” American Journal of Preventive Medicine, 22 (1 January) 23-29, ISSN: 0749-3797. Morphet, Clive S. (1991) “Applying multiple regression analysis to the forecasting of grocery store sales: An application and critical appraisal” The International Review of Retail, Distribution and Consumer Research, 1 (3) 329-351, ISSN: 0959-3969. Moschis, George P. (2003) “Marketing to older adults: An updated overview of present knowledge and practice” Journal of Consumer Marketing, 20 (6) 516-525, ISSN: 07363761. Moutinho, Luiz e Brownlie, Douglas (1994) “The stratlogic approach to the analysis of competitive position” Marketing Intelligence and Planning, 12 (4) 15-21, ISSN: 02634503. Moutinho, Luiz e Evans, Martin (1992) “Applied Marketing Research”. Wokingham, UK: Addison-Wesley, ISBN: 0-201-56504-8. Moutinho, Luiz; Goode, Mark e Davies, Fiona (1998) “Quantitative Analysis in Marketing Management”. Chichester, UK: John Wiley & Sons, ISBN: 0-471-96430-1. Moutinho, Luiz; Rita, Paulo e Curry, Bruce (1996) “Expert Systems in Tourism Marketing”. UK: Business Press, ISBN: 0-415-09316-3. Murnion, Shane D. (1996) “Spatial analysis using unsupervised neural networks” Computers and Geosciences, 22 (9) 1027-1031, ISSN: 0098-3004. Naert, Philippe A. e Leeflang, Peter S.H. (1978) “Building Implementable Marketing Models”. Boston: Kluwer Academic Publishers, ISBN: 90-207-674-8. 189 Newman, Andrew J. e Cullen, Peter (2002) “Retailing: Environment and operations”. London, U.K.: Thomson Learning, ISBN: 1-86152-533-8. Newsome, Bobby A. e Zietz, Joachim (1992) “Adjusting comparable sales using multiple regression analysis - The need for segmentation” The Appraisal Journal, 1 (January) 129-135, ISSN: 0003-7087. Okabe, Atsuyuki; Boots, Barry; Sugihara, Kokichi e Chiu, Sung Nok (2000) “Spatial Tessellations: Concepts and applications of Voronoi diagrams” Wiley Series in Probability and Statistics. 2ª ed., Chichester, UK: John Wiley & Sons, ISBN: 0-47198635-6. Okabe, Atsuyuki e Suzuki, Atsuo (1997) “Locational optimization problems solved through Voronoi diagrams” European Journal of Operational Research, 98 (3) 445-456, ISSN: 0377-2217. Okunuki, Kei-ichi e Okabe, Atsuyuki (2002) “Solving the Huff-based competitive location model on a network with link-based demand” Annals of Operations Research, 111 (1-4) 239-252, ISSN: 0254-5330. Osman, M.Z. (1993) “A conceptual model of retail image influences on loyalty patronage behaviour” The International Review of Retail, Distribution and Consumer Research, 3 (2 April) 133-148, ISSN: 0959-3969. Owrang, M. Mehdi (2000) “Using domain knowledge to optimize the knowledge discovery process in databases” International Journal of Intelligent Systems, 15 (1 Dec) 45-60, ISSN: 0884-8173. Pasa, Mehmet (1996) “The value of marketing expertise” Management Science, 42 (3 Mar) 370-388, ISSN: 0025-1909. Pastor, Jesus T. (1994) “Bicriterion programs and managerial location decisions: Application to the banking sector” Journal of the Operational Research Society, 45 (12) 1351-1362, ISSN: 0160-5682. Pazzani, M. (2000) “Knowledge discovery from data?” IEEE Intelligent Systems, 15 (2) 1013, ISSN: 1541-1672. Pedrycz, Witold (2004) “Fuzzy clustering with a knowledge-based guidance” Pattern Recognition Letters, 25 (4 March) 469-480, ISSN: 0167-8655. Penny, Nicholas J. e Broom, David (1988) “The Tesco approach to store location”. Em: Wrigley, Neil (Ed.) Store Choice, Store Location and Market Analysis, London, U.K.: Routledge \ Chapman & Hall, 106-119, ISBN: 0-415-00199-4. Phillips, E.M. e Pugh, D.S. (2005) “How to Get a PhD: A handbook for students and their supervisors”. 4ª ed., Berkshire, UK: Open University Press, ISBN: 0-335-21684-6. Pidd, Michael (2003) “Tools for Thinking - Modeling in management science”. 2ª ed., Chichester, UK: Wiley, ISBN: 0-470-84795-6. Pinch, S. (1993) “Social polarization: A comparison of evidence from Britain and the USA” Environment and Planning - part A - General, 25, 779-795, ISSN: 0308-518X. Pioch, Elke e Byrom, John (2004) “Small independent retail firms and locational decisionmaking: Outdoor leisure retailing by the crags” Journal of Small Business and Enterprise Development, 11 (2) 222-232, ISSN: 1462-6004. Poole, Rachel; Clarke, Graham P. e Clarke, David B. (2002) “Growth, concentration and regulation in European food retailing” European Urban and Regional Studies, 9 (2) 167186, ISSN: 1461-7145. 190 Quinlan, J. Ross (1993) “C4.5: Programs for machine learning”. San Mateo, USA: Morgan Kaufmann Publishers, ISBN: 1-55860-238-0. Rawlings, J.O.; Pantula, S.G. e Dickey, D.A. (1998) “Applied Regression Analysis: A research tool” Springer Series in Statistics. 2ª ed., Berlim, Alemanha: Springer-Verlag, ISBN: 0-387-98454-2. Reilly, W.J. (1931) “The Law of Retail Gravitation”. New York: Knickerbocker Press. Reis, Elizabeth (2001) “Estatística Multivariada Aplicada”. 2ª ed., Lisboa, Portugal: Sílabo, ISBN: 972-618-247-6. Reis, Fernando e Miranda, José (1998) “Estabelecimentos Comerciais - Grandes superfícies retalhistas alimentares” Relatório. Lisboa: INE - Instituto Nacional de Estatística. (Retirado de www.ine.pt em 24/1/2001) Reynolds, J. (1991) “GIS for competitive advantage: The UK retail sector” Mapping Awareness, 5 (1) 33-36, ISSN: 1361-7583. Robertson, Ellen e Conway, Steffen (2002) “Face-to-face interviewing”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 153-176, ISBN: 0-7494-3865-7. Rogers, David (1992) “A review of sales forecasting models most commonly applied in retail site evaluation” International Journal of Retail & Distribution Management, 20 (4) 3-11, ISSN: 0959-0552. Rousseau, José António (1997) “Manual de Distribuição”. Portugal: Abril/Controljornal, ISBN: 972-611-232-X. Salvaneschi, Luigi (1996) “Location, Location, Location: How to select the best site for your business” Psi Successful Business Library. Grants Pass, USA: Psi Research Oasis Press, ISBN: 1-55571-376-9. Sanders, Nada R. e Ritzman, Larry P. (2004) “Integrating judgmental and quantitative forecasts: Methodologies for pooling marketing and operations information” International Journal of Operations and Production Management, 24 (5) 513-529, ISSN: 0144-3577. Sands, S. e Moore, P. (1981) “Store site selection by discriminant analysis” Journal of the Market Research Society, 23 (1) 40-51, ISSN: 0025-3618. Saporta, Gilbert (2002) “Data fusion and data grafting” Computational Statistics & Data Analysis, 38 (4 February) 465-473, ISSN: 0167-9473. Sauter, Vicki L. (1997) “Decision Support Systems: An applied managerial approach”. New York, USA: John Wiley & Sons, ISBN: 0-471-31134-0. Schaffer, S. e Green, P.E. (1998) “Cluster-based market segmentation: Some alternative comparisons of alternative approaches” Journal of the Market Research Society, 40, 155-163, ISSN: 0160-5682. Schiller, Russell (2001) “The Dynamics of Property Location: Value and the factors which drive the location of shops, offices and other land uses”. New York, USA: Spon Press \ Taylor & Francis, ISBN: 0-415-24646-6. Seth, Andrew e Randall, Geoffrey (1999) “The Grocers: The rise and rise of the supermarket chains”. 2ª ed., London, U.K.: Kogan Page, ISBN: 0-7494-2191-6. Shieh, Y.-N. (1985) “K.H. Rau and the economic law of market areas” Journal of Regional Science, 25 (2) 191-199, ISSN: 0022-4146. 191 Silva, Ana Lucia e Cardoso, Margarida G.M.S. (2004) “O uso de árvores de regressão na predição do desempenho de lojas de uma cadeia de retalho alimentar: Um caso prático”. Em: Ferreira, Manuel Alberto M.; Menezes, Rui e Catanas, Fernando Temas em Métodos Quantitativos, Lisboa: Sílabo, 31-47, ISBN: 972-618-329-4. Simkin, Lyndon P. (1989) “SLAM: store location assessment model - Theory and practice” Omega - International Journal of Management Science, 17 (1) 53-58, ISSN: 03050483. Simkin, Lyndon P.; Doyle, P. e Saunders, J. (1985) “UK retail store location assessment” Journal of the Market Research Society, 27 (2) 95-108, ISSN: 0160-5682. Smith, David (2004) “Logistics in Tesco: Past, present and future”. Em: Fernie, John e Sparks, Leigh (Eds.) Logistics and Retail Management: Insights into current practice and trends from leading experts, London, U.K.: Kogan Page, 154-183, ISBN: 0-74944091-0. Soukup, Tom e Davidson, Ian (2002) “Visual Data Mining: Techniques and tools for data visualization and mining” Database & Database Warehousing Technologies. Danvers, USA: John Wiley & Sons, ISBN: 0-471-14999-3. SPSS Inc. (2001) “AnswerTree 3.0 User's Guide” Software Support Book. Chicago, USA: SPSS Inc., ISBN: 1-56827-275-8. Stanley, Thomas J. e Sewall, Murphy A. (1976) “Image imputs to a probabilistic model: Predicting retail potential” Journal of Marketing, 40 (July) 48-53, ISSN: 0022-2429. Sulek, Joanne M.; Lind, Mary R. e Maruchek, Ann S. (1995) “The impact of a customer service intervention and facility design on firm performance” Management Science, 41 (11) 1763-1773, ISSN: 0025-1909. Tabachnick, Barbara G. e Fidell, Linda S. (2001) “Using Multivariate Statistics”. 4ª ed., Boston, USA: Allyn & Bacon, ISBN: 0-321-05677-9. Tavares, L. Valadares (2004) “A model to support the search for consensus with conflicting rankings: Multitrident” International Transactions in Operations Research, 11 (1 January) 107-115, ISSN: 0969-6016. Teixeira, José Afonso; Pereira, Margarida; Di Biaggio, Sandra e Quintino, Filipe (1999) “Horários de Funcionamento dos Estabelecimentos Comerciais: Situação actual e prospectiva” Estudos do Instituto de Dinâmica do Espaço. Lisboa, Portugal: FCSH, Univ. Nova de Lisboa. (Retirado de www.obscom.min-economia.pt em 27/06/2002) Themido, Isabel Hall; Quintino, António e Leitão, José (1998) “Modelling the retail sales of gasoline in a portuguese metropolitan area” International Transactions in Operations Research, 5 (2) 89-102, ISSN: 0969-6016. Thomas, Lyn C.; Edelman, David B. e Crook, Jonathan N. (2002) “Credit Scoring and its Applications” Monographs on Mathematical Modeling and Computation, vol. 6 Philadelphia, USA: SIAM Press, ISBN: 0-89871-483-4. Turban, Efraim; Aronson, Jay E. e Liang, Ting-Peng (2005) “Decision Support Systems and Intelligent Systems”. 7ª ed., Upper Saddle River, USA: Prentice Hall, ISBN: 0-13123013-1. Turner, R e Cole, H.S.D. (1980) “An investigation into the estimation and reliability of urban shopping models” Urban Studies: An Int. Jour. of Res. in Urban and Regional Studies, 17, 139-157, ISSN: 0042-0980. Verhetsel, A. (2005) “Effects of neighbourhood characteristics on store performance supermarkets versus hypermarkets” Journal of Retailing and Consumer Services, 12 (2 March) 141-150, ISSN: 0969-6989. 192 Voronoï, Georges (1908) “Nouvelles applications des paratrés continus à la théorie des formes quadratiques. Deuxième memoir, recherche sur les parallelloèdres primitif” Journal für die Reine und Angewandte Mathematik, 134, 198-287. Wang, Shouhong (2001) “Cluster analysis using a validated self-organizing method: Cases of problem identification” International Journal of Intelligent Systems in Accounting, Finance and Management, 10, 127-138, ISSN: 1055-615X. Ward, J.H., Jr. (1963) “Hierarchical grouping to optimize an objective function” Journal of the American Statistical Association, 58, 236-244, ISSN: 0162-1459. Webb, Andrew R. (2002) “Statistical Pattern Recognition”. 2ª ed., Chichester, UK: John Wiley & Sons, ISBN: 0-470-84513-9. Wedel, Michel e Kamakura, Wagner A. (2000) “Market Segmentaion: Conceptual and methodological foundations” International Series in Quantitative Marketing, vol. 8. 2ª ed., Massachusetts, USA: Kluwer Academic Publishers, ISBN: 0-7923-8635-3. Whelan, A.; Wrigley, N.; Warm, D. e Cannings, E. (2002) “Life in a 'food desert'” Urban Studies: An Int. Jour. of Res. in Urban and Regional Studies, 39 (11 Oct.) 2083-2100, ISSN: 0042-0980. Wilson, Alan M. (2001) “Mystery shopping: Using deception to measure service performance” Psychology and Marketing, 18 (7 July) 721-734, ISSN: 0742-6046. Wolfe, Alan (2002) “Questionnaire design”. Em: Birn, Robin J. (Ed.) The International Handbook of Market Research Techniques, 2ª ed., London, UK: Kogan Page, 87-101, ISBN: 0-7494-3865-7. Wong, Sze-Chun e Yang, Hai (1999) “Determining market areas captured by competitive facilities: A continuous equilibrium modelling approach” Journal of Regional Science, 39 (1) 51-72, ISSN: 0022-4146. Wrigley, Neil e Lowe, Michelle (2002) “Reading Retail: A geographical perspective on retailing and consumption spaces”. London, UK: Arnold, ISBN: 0-340-70660-0. Yang, Jiaqin e Lee, Huei (1997) “An AHP decision model for facility location selection” Facilities, 15 (9) 241-254, ISSN: 0263-2772. 193 Anexos Como anexos inserem-se imagens dos vários inquéritos realizados e tabelas consideradas relevantes ainda que demasiado longas para serem inseridas no texto. Incluem-se ainda alguns pontos que por serem secundários ao texto, foram transferidos para os anexos, mantendo assim o equilíbrio dos capítulos da dissertação apresentada e o interesse do leitor. A. Inquérito aos Clientes Apresenta-se neste anexo o inquérito utilizado em 2000, uma vez que a estrutura dos dois inquéritos foi muito semelhante dispensa-se a apresentação do segundo inquérito efectuado em 2003, referindo-se em seguida as principais diferenças. No inquérito de 2003 acrescentou-se explicitamente a freguesia nas perguntas de onde vem e para onde vai, já que é a unidade territorial directamente georreferenciavel. Substituiu-se a pergunta “onde estacionou o seu carro?” pela “avaliação da facilidade de estacionamento” numa escala de cinco valores, já que esta última permite agregar a sensibilidade do condutor a várias visitas à loja ainda que se corra o risco de os clientes não serem coerentes na interpretação da escala. Quanto ao “motivo de utilização da loja” optou-se por solicitar a ordenação dos motivos apresentados, i.e. efectuam-se perguntas independentes do principal motivo, segundo motivo e terceiro motivo, como utilizado no presente inquérito. Segundo o princípio de retirar mais informação sem grande custo em tempo de entrevista, seguiu-se um procedimento semelhante para a pergunta sobre super e hipermercados concorrentes, acrescentando-se uma pergunta sobre a localização dos mesmos. Verificou-se uma elevada correlação entre as perguntas relativas a “frequência de compras na loja”, “tipo de compras efectuadas no dia da entrevista” e “tipo de compras habituais”. Assim, 194 optou-se pela manutenção apenas da primeira dessas perguntas tendo-se eliminado as restantes duas. Tendo em conta o reduzido número de clientes que afirma fazer compras pela Internet foi diminuído o número de perguntas relativas a este tema. As perguntas que envolvem quantias monetárias foram convertidas em euro. Nas imagens seguintes utilizam-se “*****” para proteger informação confidencial. Bom dia/tarde/noite, sou entrevistador da empresa __________________. Estamos a efectuar um inquérito aos clientes ******* de modo a servi-los cada vez melhor. A informação que facultar é absolutamente confidencial. Desde já agradecemos a sua colaboração. F1. O Sr.(a) ou alguém em sua casa trabalha em alguma das seguintes áreas: Est. de Mercado Nenhuma das anteriores Marketing Super/Hipermercados Acabe a entrevista Continue a entrevista LOJA ************** .........................................................1 ************** .........................................................2 ************** .........................................................3 ************** .........................................................4 ************** .........................................................5 ************** .........................................................6 ************** .........................................................7 ************** .........................................................8 ************** .........................................................9 ************** .........................................................0 ************** ........................................................X ************** ........................................................Y ************** .......................................................... ************** .......................................................... ************** .......................................................... ************** .......................................................... ************** .......................................................... ************** .......................................................... ************** .......................................................... DIA DA ENTREVISTA Segunda-feira ..............................................................1 Terça-feira...................................................................2 Quarta-feira .................................................................3 Quinta-feira .................................................................4 Sexta-feira...................................................................5 Sábado ........................................................................6 Domingo .....................................................................7 HORA DA ENTREVISTA Até 12 horas ................................................................1 12h00 – 18h00.............................................................2 18h00 – Fecho.............................................................3 P1. Com que frequência é que o(a) Sr.(a) faz compras nesta loja? Todos os dias...............................................................1 Duas ou três vezes por semana.....................................2 Uma vez por semana....................................................3 Uma vez de 15 em 15 dias ...........................................4 Uma vez por mês.........................................................5 Ocasionalmente ...........................................................6 P3. Pretende-se com este Estudo determinar a zona envolvente do ******. Assim o(a) Sr.(a) poderia dizer-nos se se deslocou de casa ou do emprego para visitar esta loja? De casa............................................................1→ P4. Do emprego.....................................................2→ P3a. Outro. Qual?____________________________ → P3a. P3a. Importa-se de me dizer qual é a morada? ______________________________________________ Código Postal _____________+ _____ (7 digitos) P4. E quando sair desta loja o(a) Sr.(a) pretende deslocarse para onde? Para casa ..........................................................1→ P5. Para emprego...............................................................2 Outro. Qual?__________________________________ Se o entrevistado der a mesma resposta que na P3, passar para a P5. P4a. Importa-se de me dizer qual é a morada? ______________________________________________ Código Postal _____________+ _____(7 digitos) P5. Como se deslocou hoje para fazer compras neste supermercado? De automóvel ...................................................1→ P6. A pé .................................................................2→ P8. De transportes públicos.....................................3→ P8. Outro. Qual?__________________________________ P6. Onde estacionou o seu carro: No parque de estacionamento da loja........... ......1→ P8. Nas redondezas............................................... ....2→ P7. P7. Como avalia a facilidade de estacionamento nas redondezas? 195 P8. Quanto tempo demorou a chegar a esta loja? Até 2 minutos a pé....................................................... 1 2 a 5 minutos a pé........................................................ 2 5 a 10 minutos a pé...................................................... 3 Mais de 10 minutos a pé .............................................. 4 Até 5 minutos de carro ................................................ 5 5 a 10 minutos de carro................................................ 6 10 a 15 minutos de carro.............................................. 7 Mais de 15 minutos de carro........................................ 8 P9. Que motivos o levaram a preferir fazer compras neste supermercado? (ESPONTÂNEO) Proximidade de casa.................................................... 1 Proximidade do emprego............................................. 2 Local de passagem ...................................................... 3 Preços baixos .............................................................. 4 Variedade de marcas ................................................... 5 Variedade de produtos no geral.................................... 6 Hábito......................................................................... 7 Qualidade dos produtos ............................................... 8 Qualidade dos produtos frescos.................................... 9 Limpeza/ Higiene da loja............................................. 0 Rapidez no atendimento ............................................. X Simpatia no atendimento ............................................ Y Outro. Qual?________________________________ P10. Qual é, para si, o motivo mais importante? 1º_________________________________________ P11. Que tipo de compras fez hoje nesta loja? P11a. Que tipo de compras faz habitualmente nesta loja? Hoje Ocasionais/emergência (falhas) Diárias Semanais Quinzenais Mensais Outra situação. Qual? Outra situação. Qual? 1 2 3 4 5 Habitual mente 1 2 3 4 5 P12. Para além desta loja, em que outro tipo de lojas faz habitualmente compras para o lar? (MOSTRAR CARTÃO 1) (Insistir para saber se efectivamente o inquirido só vem ao *******; Assinalar todas as respostas dadas) Hipermercados ............................................................ 1 Supermercados............................................................ 2 Mercearias .................................................................. 3 Lojas de Conveniência ................................................ 4 Lojas especializadas (talho, peixaria, padaria.) ............. 5 Outras ......................................................................... 6 Nota: Verificar P12. , passar para a P13. se o inquirido frequenta supermercados e/ou hipermercados, senão passar para a P16. P13. Quais os super e hipermercados onde costuma fazer as suas compras? (É NECESSÁRIO ESPECIFICAR O LOCAL ONDE SE SITUA A LOJA) 1ª opção_______________________________________ 2ª opção_______________________________________ 3ª opção_______________________________________ P14. Qual a principal razão porque faz compras no _______________ (mencionar 1ª, 2ª, 3ª opção da P13.)? 1ª opção_______________________________________ 2ª opção_______________________________________ 3ª opção_______________________________________ P15. Com que frequência efectua compras em _______________ (mencionar 1ª, 2ª, 3ª opção da P13.)? Todos os dias 2/3 vezes por semana Uma vez por semana Uma vez de 15 em 15 dias Uma vez por mês Ocasionalmente 1ª opção 2ª opção 3ª opção 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 P16. É capaz de me dizer quanto gasta aproximadamente, por mês, em compras para o lar? ______________________________________________ P17. Pensando nos seus gastos mensais em compras para o lar, como distribuiria esses gastos, pelos vários tipos de loja que habitualmente frequenta? ************** _________ Hipermercados _________ Outros Supermercados _________ Mercearias/MiniMercados _________ Lojas de Conveniência _________ Lojas especializadas(talho, peixaria, padaria)_________ Outras _________ TOTAL......................................................._________ P18. Que tipo de produtos compra habitualmente nesta loja? (MOSTRAR CARTÃO 2) Frutas e legumes.......................................................... 1 Charcutaria.................................................................. 2 Talho .......................................................................... 3 Peixaria....................................................................... 4 Padaria........................................................................ 5 Refeições preparadas................................................... 6 Mercearia.................................................................... 7 Higiene Pessoal........................................................... 8 Limpeza de casa.......................................................... 9 Outros....................................................................... 10 196 P19. Quanto gasta por mês, em média, nesta loja? ______________________________________________ Nota: Verificar P13. se o inquirido não referiu ****** FAZER a P20., se referiu passar para a P21. P20. Costuma efectuar alguma das suas compras no ****? Sim ................................................................ 1 → P21. Não........................2 → fazer a P21. apenas p/ ****** Ns/Nr .....................3 → fazer a P21. apenas p/ ****** P21. Numa escala de 1 a 5, onde 1 é muito bom, 2 bom, 3 razoável, 4 mau e 5 muito mau, como classifica a loja e o concorrente relativamente a ___________(Ler um a um cada um dos itens para ambas as lojas). (MOSTRAR CARTÃO 3) loja conco rrente Qualidade dos produtos frescos Atendimento simpático Eficiência dos funcionários Variedade de produtos Apresentação dos produtos Ambiente da loja Limpeza da loja Preços dos produtos Qulidade dos produtos Marca Própria P22. Costuma utilizar a internet? (MOSTRAR CARTÃO 4 ) Em casa .......................................................... 4→ P23. No trabalho ..................................................... 4→ P23. Em ambos ....................................................... 4→ P23. Não tem acesso ............................................... 4→ P25. P23. Costuma fazer compras pela internet? Sim ................................................................. 1→ P24. Não................................................................. 2→ P25. P24. Se sim, que tipo de compras? ______________________________________________ P25. Já alguma vez utilizou, em alguma loja, o serviço de entregas ao domicílio? Sim ................................................................. 1→ P26. Não................................................................ 2→ P27. P26. Em caso afirmativo, qual a frequência com que utiliza esse serviço? Na maior parte das vezes que faz compras ................... 1 Algumas vezes ............................................................ 2 Muito raramente.......................................................... 3 Só uma vez para experimentar ..................................... 4 PEDIR O TICKET DE COMPRAS E AGRAFÁ-LO AO QUESTIONÁRIO CASO NÃO LHE SEJA DADO O TICKET PEÇA PARA TIRAR CÓPIA CASO LHE SEJA NEGADO ESSE PEDIDO ANOTE O NÚMERO DO TALÃO Nº TALÃO_________________________________ (ATT: COMPLETO – DIA, HORA, CAIXA, TRANSACÇÃO, …) A PREENCHER NO ESCRITÓRIO P27. Gastos na loja: Total______________________________________ Produtos Alimentares_________________________ Produtos Não Alimentares_____________________ DPH______________________________________ 197 DADOS DE CARACTERIZAÇÃO P28. SEXO Feminino.....................................................................1 Masculino ...................................................................2 P29. IDADE Menos de 25 anos........................................................1 25 a 34 anos ................................................................2 35 a 44 anos ................................................................3 45 a 55 anos ................................................................4 Mais de 55 anos...........................................................5 P30. ESTÁDIO DE VIDA (MOSTRAR CARTÃO 4) Solteiro(a) e vive com os pais.................................................1 Solteiro(a) e vive sozinho(a) ....................................................2 Solteira(a) e vive com colegas..................................................3 Solteiro(a) e vive com familiares..............................................4 Solteiro(a) com filhos ..............................................................5 Vive em união de facto e sem filhos .........................................6 Vive em união de facto e tem filhos c/ menos de 15 anos em casa ...................................................................................7 Vive em união de facto e tem filhos c/ mais de 15 anos em casa ...................................................................................8 Vive em união de facto mas os filhos já saíram de casa .............9 Casado(a) e sem filhos...........................................................10 Casado(a) e tem filhos c/ menos de 15 anos em casa.........11 Casado(a) e tem filhos c/ mais de 15 anos em casa ............12 Casado(a) mas os filhos já saíram de casa..............................13 Divorciado(a) e sem filhos .....................................................14 Divorciado(a) e tem filhos c/ menos de 15 anos em casa....15 Divorciado(a) e tem filhos c/ mais de 15 anos em casa ....16 Divorciado(a) mas os filhos já saíram de casa ........................17 Viúvo(a) e sem filhos.............................................................18 Viúvo(a) e tem filhos com menos de 15 anos em casa .......19 Viúvo(a) e tem filhos com mais de 15 anos em casa ........20 Viúvo(a) mas os filhos já saíram de casa................................21 Viúvo(a) e vive com familiares ..............................................22 P31. PROFISSÃO (descrição completa) Importa-se de me dizer exactamente qual é a ocupação ou actividade profissional da pessoa que mais contribui para o seu agregado familiar, inclusive se é por conta própria ou de outrem? (no caso de ser reformado/ desempregado, perguntar qual foi o último emprego) ____________________________________________ P31. a) SITUAÇÃO NA PROFISSÃO Por conta própria .............................................. 1 Por conta de outrem.......................................... 2 P32. HABILITAÇÕES LITERÁRIAS Qual o grau de instrução da pessoa que mais contribui para o seu agregado familiar? Analfabeto/Primária Incompleta ..................................1 Primária Completa.......................................................2 Ciclo Preparatório .......................................................3 5º ano ou equivalente/11º ano ......................................4 12º ano........................................................................5 Frequência Curso Superior...........................................6 Bacharelato .................................................................7 Licenciatura ................................................................8 NS/NR ........................................................................9 P33. DIMENSÃO DO AGREGADO FAMILIAR Quantas pessoas vivem em sua casa? (INCLUIR INQUIRIDO) 1 pessoa ......................................................................1 2 pessoas .....................................................................2 3 pessoas .....................................................................3 4 pessoas .....................................................................4 5 pessoas .....................................................................5 6 pessoas ou mais ........................................................6 P34. IDADES DO AGREGADO FAMILIAR Idade do entrevistado................................................. |____| Idade do Cônjuge ...................................................... |____| Idade dos Filhos ...........|____|____|____|____|____|___| Idade dos Familiares........... |____|____|____|____|____| Idade Outros...............|____|____|____|____|____|____| P35. RENDIMENTO Indique, por favor, qual é o rendimento mensal líquido do seu agregado familiar? Menos de 80 contos .....................................................1 81 a 160 contos ...........................................................2 161 a 240 contos..........................................................3 241 a 320 contos..........................................................4 321 a 400 contos..........................................................5 Mais de 4000 contos....................................................6 NS/NR ........................................................................7 Nome do entrevistado:____________________________ Morada: _______________________________________ ______________________________________________ Código Postal:_____________+_______ Freguesia:_________________________________ Concelho:__________________Telefone:_____________ AGRADEÇA E TERMINE Nome do entrevistador:____________________________ A PREENCHER NO ESCRITÓRIO Distrito Concelho Freguesia Secção Estatística CLASSE SOCIAL A.................................................................................1 B.................................................................................2 C1 ...............................................................................3 C2 ...............................................................................4 D.................................................................................5 198 B. Inquérito aos Directores de Loja Este inquérito foi efectuado usando uma folha de cálculo com ligações dinâmicas entre células, verificação de erros de inserção e cálculos como as percentagens efectuados automaticamente aquando do preenchimento. A folha de cálculo permite ainda o surgir de listas pendentes com alternativas em perguntas fechadas e notas de texto explicativas, aquando da selecção de células. Teve-se ainda o cuidado de bloquear o acesso a todas as células e objectos com excepção daqueles onde o preenchimento é necessário. Apresenta-se uma das respostas que recebemos, correspondendo os asteriscos a dados eliminados por questões de confidencialidade. Inquérito aos directores das lojas Pretende-se recolher informação sobre lojas de pequena e média dimensão da insígnia ****** e da concorrência mais próxima. O objectivo é a construção de modelos que permitam a avaliação de novas localizações. Muito Obrigada pela sua Colaboração Instruções de Preenchimento: - as células a preencher obrigatoriamente surgem com fundo verde claro e as opcionais com fundo azul; - utilize as listas pendentes sempre que possível (botão cinzento visível quando a célula é seleccionada) ou preencha com novo valor - leia sempre as notas associadas às células (surgem quando a célula é seleccionada) antes de preencher; - não se preocupe se não conseguir visualizar tudo o que escreveu, pode sempre confirmar\alterar o texto completo na 'formula bar' (barra de edição - barra com fundo branco logo abaixo das 'tool bars' ou barras de ferramentas) seleccionando a célula respectiva. GRUPO I - Identificação da sua loja e da concorrência Identificação da sua loja morada -- ******* freguesia -- PARANHOS código postal -- ****-*** nº de caixas -- 5 quilómetro 16-25 concelho -- PORTO localidade -- ******* distrito -- PORTO PARANHOS anos de funcio. 1 data abertura -- 05-05-1999 Instruções de Preenchimento: 2 - considere como concorrentes lojas de dimensão até 2.000 m , até 15 minutos a pé da sua e com vendas alimentares acima de 80%; - caso considere mais de 3 concorrentes preencha apenas para os três mais importantes; Identificação do 1º super concorrente tipologia de loja -- supermercado insígnia -****** morada -- avenida freguesia -- ****** concelho -PORTO código postal -- ****-*** nº de caixas -- 4 anos de funcio. Identificação do 2º super concorrente tipologia de loja -- supermercado insígnia -****** morada -- rua freguesia -- CEDOFEITA concelho -PORTO código postal -- *****-*** nº de caixas -anos de funcio. Identificação do 3º super concorrente tipologia de loja -- discount insígnia -***** morada -- largo freguesia -- PARANHOS concelho -PORTO código postal -- ****-*** nº de caixas -- 2 anos de funcio. A nº de porta PORTO 31 distância à sua loja a pé -- entre 15 e 20 min. 8 B nº de porta PORTO localidade -- PORTO distrito -- Porto 700/738 distância à sua loja a pé -- acima de 20 min. 6 C nº de porta PORTO 3 localidade -- PORTO distrito -- PORTO 390 localidade -- PORTO distrito -- PORTO distância à sua loja a pé -- menos que 5 min. Instruções de Preenchimento: - caso considere que as grandes superfícies também são um importante concorrente da sua loja preencha o grupo seguinte; - escolha apenas uma grande superfície que pela sua proximidade, dimensão ou imagem perante os clientes lhe pareça mais importante - como este inquérito pretende apenas avaliar a localização de lojas de pequena e média dimensão, não será feita mais nenhuma menção a esta ou qualquer outra grande superfície. Identificação do principal Hiper concorrente insígnia -freguesia -concelho -código postal -nº de caixas -anos de funcio. localidade -distrito -distância à sua loja de carro -- 199 Instruções de Preenchimento: - sempre que possível utilize uma das alternativas da lista, caso as alternativas disponíveis não sejam aceitáveis introduza novas alternativas e justifique na célula com fundo azul da mesma linha; - considere âncoras espaços comerciais, de ensino, serviços públicos, centrais de transportes, centros comerciais, grandes lojas especializadas ou outros que avalie como responsáveis por grande parte do tráfego na loja; GRUPO II - Caracterização da Loja e da Concorrência quanto à localização a sua loja A - ****** B - ****** C - ***** comentários centro centro centro localização da loja na malha urbana -- bairro tipo de edifício onde se insere a loja -- edifício residencial edifício residencial edifício residencial edifício residencial nº de lojas do centro comercial ou nº de lojas nas proximidades que também 0 3 0 sejam usadas pelos seus clientes -- 2 identifique o tipo de até 3 âncoras para cada loja por grau de importância: banco\correios banco\correios âncora de maior importância -- Confeitaria(Pao Qubanco\correios banco\correios banco\correios banco\correios 2ª âncora mais importante -3ª âncora mais importante -não não não a loja é considerada âncora? -- não 0 0 0 nº de lugares em estacionamento próprio -- 0 recebe queixas por falta estacionamento -- sim, nas horas de ponta Instruções de Preenchimento: - nas classificações seguintes estabeleça pontuações entre 1 e 9 na escala representada em seguida; 11 2 2 pior piorpossível possível 3 3 mau mau 4 45 6 5 7 médio \ usual médio \ usual 8 6 bom 7 9 melhorbom possível 8 9 melhor possível - considere os aspectos referidos nas notas como sugestões podendo ser complementados com outros que considerar adequados; visibilidade da loja em deslocações a pé -visibilidade da loja de automóvel -facilidade no acesso à loja a pé -facilidade de acesso de transporte público -facilidade de acesso à loja de automóvel -facilidade de estacionamento próximo loja -- 4 4 5 8 5 5 7 6 8 7 7 6 7 6 8 8 5 4 7 6 5 8 5 4 Instruções de Preenchimento: - nas perguntas seguintes compare a sua loja com as lojas da concorrência utilizando novamente uma escala de 1 a 9; 11 2 pior piorpossível possível 2 3 3 4 45 6 5 7 6 79 8 pior que a sua lojaa sua lojasemelhante àsemelhant sua loja melhor pior que e à melhor sua lojaque a sua loja melhor quepossível a sua loja 8 9 melhor possível - para a sua loja compare com as restantes lojas da cadeia ***** na mesma escala de 9 valores; - quando as áreas são variáveis ao longo do ano utilize estimativas aproximadas médias e assinale no espaço para comentários; GRUPO III - Caracterização da Loja e da Concorrência quanto a serviços, gama e imagem a sua loja A - ****** B - ****** C - ***** 8 8 8 notoriedade da loja e da insígnia -5 4 4 imagem geral da loja quanto a preços -6 8 6 imagem quanto a promoções -9 5 5 imagem exterior da loja -8 7 7 imagem quanto a limpeza e organização -8 6 8 outros aspectos da imagem interior da loja -8 8 8 imagem geral quanto à gama apresentada -8 7 7 gama e qualidade de marcas próprias -6 5 5 imagem qto simpatia\rapidez atendimento -8 9 8 imagem qto qualidade das frutas\legumes -8 8 8 imagem quanto qualidade dos congelados -sim sim não existência de padaria com fabrico próprio -- não 4 9 9 imagem qto qualidade\variedade padaria -sim sim não existência de refeições 'take away' -- não 6 6 6 imagem da loja qto a refeições 'take away' -- comentários 8 9 6 5 3 4 4 5 4 4 4 3 3 Instruções de Preenchimento: - nas áreas seguintes faça estimativas de dimensões relativas do espaço ocupado na loja por cada produto ou secção; - quando as áreas são variáveis ao longo do ano utilize estimativas aproximadas médias e assinale no espaço para comentários; % área da loja dedicada a frutas\legumes -% de área da loja dedicada a peixaria -% da área da loja dedicada a talho -% da área dedicada a padaria e pastelaria -% da área da loja dedicada a charcutaria -% da área da loja dedicada a mercearia -% da área da loja dedicada a congelados -% dedicada a outros produtos alimentares -% de área para não alimentar (com DPH) -total -encomendas por telefone\internet -possibilidade de entregas ao domicílio -existência de cafetaria\bar -existência de balcão bancário\multibanco -- 15% 5% 5% 5% 9% 30% 20% 1% 10% 15% 5% 5% 10% 8% 25% 15% 2% 15% 100% não não não sim, na loja 15% 5% 5% 10% 8% 25% 15% 2% 15% 100% sim sim sim, na loja sim, na loja 5% 0% 0% 0% 0% 60% 13% 2% 20% 100% sim sim sim, na loja sim, na loja 100% não não não não 200 Instruções de Preenchimento: - para a estimativa das percentagens pense num dia útil típico e divida o número total de clientes pelas diferentes categorias, consideradas mutuamente exclusivas; - se as percentagens não somarem 100% indique outras categorias identificadas no espaço para comentários; GRUPO IV - Caracterização da Loja e da Concorrência quanto à clientela a sua loja A - ****** B - ****** C - ***** % de clientes que provêm do emprego -- 60% % de clientes que provêm de casa -- 30% % que provêm âncoras ou de passagem -- 10% total -100% há diferenças significativas aos domingos -- sim, mais de casa % de clientes c/ cabaz de compras diárias -- 60% % clientes c/ cabaz de compras semanais -- 30% % apenas c/ compras ocasionais ou faltas -- 10% total -100% há diferenças significativas aos domingos -- não % de vendas diárias de manhã (10-11:30H) -- 5% % vendas no período do meio-dia (12-14H) -- 30% % vendas diárias de tarde\noite (17-20H) -- 60% % vendas fora das horas de ponta\picos -- 5% total -100% % de vendas nos 5 dias úteis da semana -- 70% % de vendas semanais ao sábado -- 20% % de vendas semanais ao domingo -- 10% total -100% sim não não existência de mercado municipal próximo -- não % vendas atribuídas ao funcio. do mercado -utilize as duas linhas seguintes para acrescentar características ou comportamentos dos seus clientes que considere relevantes e que não tenham sido referidas atrás: comentários --- Instruções de Preenchimento: - no grupo seguinte pretende-se obter uma estimativa subjectiva da área de influência, donde provêm 75-80% dos clientes da sua loja e dos concorrentes mais próximos; - preencha as células do grupo seguinte apenas se não for possível anexar um mapa com as fronteiras assinaladas; GRUPO V - Avaliação da área de influência das lojas nome de rua, avenida, bairro, rio, etc. que delimite a área de influência por -- norte sul este oeste comentários Muito Obrigado Pela Sua Colaboração C. Formulário em Folha de Cálculo Usado para Comparações entre Lojas Apresenta-se neste anexo o formulário que foi enviado aos especialistas sobre a comparação de pares de lojas. Note-se que a escala que surge neste formulário é uma escala de semelhanças e não de dissemelhanças como referido no texto. A conversão realizada consistiu simplesmente na subtracção a 10 do valor da escala de semelhanças apresentada na imagem seguinte. Numa primeira tentativa de envio do formulário, este foi recusado pelos especialistas por considerarem que era demasiado longo e de preenchimento complexo. Assim, foi introduzida uma simplificação de preenchimento que consistiu em não preencher a linha e coluna de uma loja quando era considerada muito semelhante a uma outra (valor 9). O curioso é que quando o formulário voltou encontrava-se integralmente preenchido e nenhuma classificação de 9 tinha sido atribuída. 201 Note-se que a folha de cálculo incluía vários automatismos como a escolha do valor de avaliação com utilização de uma lista pendente, caixas de aviso e de explicação e a identificação das linhas e colunas a não preencher por ter sido atribuída uma avaliação de 9. Inquérito a Especialistas sobre Semelhança das Lojas Pretende-se recolher informação sobre o grau de semelhança das lojas \ localizações da insígnia *****. O objectivo é a avaliação quantitativa da intervenção da experiência de especialistas no agrupamento das lojas. Muito Obrigada pela sua Colaboração Instruções de Preenchimento: - este inquérito deve ser preenchido, por consenso entre, pelo menos dois especialistas que conheçam bem as lojas; - as células a preencher obrigatoriamente surgem com fundo verde claro e as opcionais com fundo azul; - utilize as listas pendentes visíveis quando a célula é seleccionada; - não se preocupe se não conseguir visualizar tudo o que escreveu, pode sempre confirmar\alterar o texto completo na 'formula bar' (barra de edição) seleccionando a célula respectiva. Para simplificar o preenchimento: - no caso de considerar duas lojas muito semelhantes (classificação de 9) NÃO preencha a linha e coluna de uma delas; - as linhas \ colunas não preenchidas serão posteriormente completas com os mesmos valores da loja muito semelhante; - tenha em consideração a coluna e linha «a preencher?» e preencha apenas se apresentar um «sim»; nº designação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* identificação da loja ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* ******* a preencher? sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim compare a loja da linha com a loja cujo nº surge na coluna 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim sim 6 X X X X X X X X X X X X X X X X X X X X X 2 4 X X X X X X X X X X X X X X X X X X X X 6 6 5 X X X X X X X X X X X X X X X X X X X 2 4 8 4 X X X X X X X X X X X X X X X X X X 6 6 2 3 2 X X X X X X X X X X X X X X X X X 3 6 6 6 6 3 X X X X X X X X X X X X X X X X 6 6 4 6 5 3 5 X X X X X X X X X X X X X X X 6 6 5 6 4 3 4 8 X X X X X X X X X X X X X X 2 4 8 4 8 2 6 4 5 X X X X X X X X X X X X X 3 3 3 6 3 3 6 4 4 3 X X X X X X X X X X X X 2 4 8 4 8 2 6 5 4 8 3 X X X X X X X X X X X 4 8 6 7 6 4 7 4 5 6 4 6 X X X X X X X X X X 3 2 6 5 6 2 3 5 4 6 3 6 3 X X X X X X X X X 1 3 7 3 7 3 4 3 3 7 4 7 5 4 X X X X X X X X 3 3 7 6 7 1 5 6 6 7 4 7 4 7 6 X X X X X X X 2 5 8 4 8 2 6 4 5 8 3 8 6 6 7 7 X X X X X X 202 D. Formulário Utilizado no Programa de Mystery Shopping O formulário apresentado foi utilizado no programa de mystery shopping para recolha de dados observáveis da loja pertencente à cadeia em consideração e algumas lojas da concorrência mais próxima. O preenchimento foi efectuado por uma mesma equipa de inquiridores devidamente preparados apresentando-se como clientes incógnitos. O procedimento consistiu numa visita à loja, efectuando uma pequena compra e preenchendo o formulário após a saída da loja. Utilize esta Check List para avaliar as diferentes localizações de lojas ******** tal como para lojas concorrentes próximas. Considere como concorrentes lojas de dimensão até 2.000 m2, até 15 minutos a pé desta loja e com vendas alimentares acima de 80%; Identificação da Loja Insígnia: Outros formatos: Morada: ********* ********** ********* ********* ____________ Livre Serviço Mercearia Nº de caixas: |__|__| ________________ Concelho: _____________ Distrito: ______________ |__|__|__|__|– |__|__|__| ___________________________ sim, na loja sim, próximo não sim, na loja sim, próximo aceita cheques não visados: sim não aceita cartões de débito: sim não sim não aceita cartões de crédito tipo VISA: Área: |__|.|__|__|__|m2 Distância à loja ******** (a pé): não existência de livraria\papelaria: ___________________________________________________ Freguesia: ____________ Código Postal: existência de balcão bancário ou multibanco: ********* outras possibilidades de crédito: sim, cartão de crédito da loja\insígnia |__|__| minutos sim, cheques pré-datados sim conta aberta Caracterização da Localização da Loja localização da loja na malha urbana: tipo de edifício onde se insere a loja: centro urbano bairro periferia isolada perif. urbanizada centro cm. bairro centro c. regional existência de programas de fidelização tipo cartões para acumulação de pontos ou descontos em cartões de crédito da loja \ insígnia sim nome: ______________________________ residencial 'stand alone' não nas classificações seguintes estabeleça pontuações entre 1 e 9 numa escala igualmente espaçada onde: escritórios _________________ não pior possível 1 2 mau 3 médio \ usual 4 5 bom 6 7 melhor possível 8 9 203 nº de lojas nas proximidades concorrentes da loja em análise (incluindo os restantes concorrentes também analisados): |__|__| 1 2 3 4 5 6 7 8 9 Visibilidade e Acesso à Loja ou Localização Potencial visibilidade da loja em deslocações a pé Considere âncoras espaços comerciais, de ensino, serviços públicos, centrais de transportes, visibilidade da loja de automóvel centros comerciais, grandes lojas especializadas ou outros que avalie como responsáveis por grande parte do tráfego de passagem junto à loja. facilidade no acesso à loja a pé 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 âncora mais importante para o tráfego: _________________________________ facilidade de acesso à loja de automóvel 1 2 3 4 5 6 7 8 9 2ª âncora mais importante: _________________________________ facilidade estacionamento próximo loja 1 2 3 4 5 6 7 8 9 3ª âncora mais importante: _________________________________ loja é (pode vir a ser) considerada âncora: sim nº de lugares em estacionamento próprio: |__|__| existência de mercado municipal próximo sim Caracterização da Loja quanto a Imagem não (preencher apenas para lojas existentes) imagem quanto a limpeza e organização: 1 2 3 4 5 6 7 8 9 não imagem geral quanto à gama apresentada: 1 2 3 4 5 6 7 8 9 gama e qualidade de marcas próprias 1 2 3 4 5 6 7 8 9 Caracterização da Loja quanto à Existência de Serviços: imagem qto simpatia\rapidez atendimento 1 2 3 4 5 6 7 8 9 encomendas por telefone\internet: (preencher apenas para lojas existentes) sim não imagem qto qualidade das frutas\legumes 1 2 3 4 5 6 7 8 9 possibilidade de entregas ao domicílio: sim não imagem quanto qualidade dos congelados 1 2 3 4 5 6 7 8 9 existência cafetaria\bar: não sim, na loja sim, próximo imagem qto qualidade\variedade padaria 1 2 3 4 5 6 7 8 9 existências de lavandaria: não sim, na loja sim, próximo imagem da loja qto refeições 'take away' 1 2 3 4 5 6 7 8 9 E. Metadados sobre os Dados Recolhidos e Referenciados à Loja Neste anexo representa-se informação sobre os principais dados (metadados) utilizados nesta dissertação. Trata-se da tabela com informação referente às lojas da cadeia em estudo. Sublinhe-se que algumas das variáveis apresentam nomes distintos dos utilizados no texto. Este facto deve-se aos diferentes objectivos que se pretendiam atingir ao nomear as variáveis no ficheiro de dados (pretendia-se essencialmente descrever o modo como foi calculada) e ao nomear variáveis no texto, onde se pretendem essencialmente nomes explicativos do conteúdo das variáveis. Para os nomes das variáveis demográficas usa-se uma codificação, devido à complexidade dos nomes originais usados pelo INE, e da combinação de técnicas 204 utilizadas no seu cálculo. Assim, a primeira letra refere-se ao facto de ser calculada como uma soma (s), uma percentagem (p) ou uma densidade (d). As letras maiúsculas intermédias referem-se aos códigos usados pelo INE. Por fim, o & ou % refere-se a regra de decisão ou ponderação das variáveis e um valor numérico ou i3 à utilização de áreas de influência definidas segundo algoritmos de caminhos mais curtos ou diagramas de Voronoi respectivamente (ver secção III.D, na pág. 76). 205 ***** ***** ***** 206 207 208 209 210 F. Análise Comparativa dos Inquéritos: Evolução do cliente Esta análise é efectuada procurando perceber variações e tendências entre os dois questionários. Note-se que todos os resultados apresentados têm como base a totalidade dos inquiridos excluindo os clientes que declaram frequentar a loja pela “primeira vez” ou “uma a duas vezes por mês”. Começa-se por apresentar uma descrição sumária da evolução das respostas para o total dos inquiridos em cada inquérito. Sublinhe-se que os resultados apresentados não são proporcionais à população de clientes da cadeia uma vez que se utilizou uma quota de 200 inquéritos por loja e não se pesaram os resultados por loja com pesos obtidos por contagem de clientes (ou actos de compra registados no software POS) em cada loja. Neste caso particular, não se pretendem análises profundas ao nível da população mas sim ao nível da loja, pelo que é mais adequado apresentar resultados em que todas as lojas têm um peso semelhante. Da comparação entre os dois inquéritos para a totalidade da amostra poucas respostas sofreram alterações significativas. Na verdade, tanto considerando todas as lojas inquiridas no segundo inquérito, onde se incluem 6 novas lojas, como usando uma base comparável de lojas, os resultados são muito semelhantes na quase totalidade das perguntas. Note-se que se utilizaram igualmente os pesos referidos na Tabela 2 (pág. 58). Estes resultados revelam uma elevada estabilidade na base de clientes e, provavelmente, um elevado grau de fidelidade. Das respostas que maiores diferenças apresentam entre os dois inquéritos salientamos aquelas a que correspondem os gráficos seguintes. Sublinhe-se que apenas diferenças superiores a cerca de 3% são significativas considerando proporções independentes a 95% de nível de confiança e diferenças segundo uma distribuição normal (Harries, 2002). Da observação destes gráficos podem-se retirar as seguintes ilações: • Verifica-se uma tendência dos clientes para diminuírem o número de viagens de automóvel e transportes públicos e para aumentar as deslocações a pé e igualmente para diminuírem a duração da viagem. • Cada vez mais os clientes provêm de casa em detrimento do emprego ou outros em conjugação com as deslocações mais curtas, acentuando-se a tendência para interpretação destas lojas como Supermercados de Proximidade, até porque na principal razão apresentada para compra na loja mantém-se uma larga preferência pela “proximidade de casa”. 211 De onde veio? 80% outros emprego 26 % passeio 7 emprego 24 % emprego 22 % 60% 40% de casa 65 % de casa 64 % 100% outros de casa 66 % 20% Como se deslocou à loja? 100% 80% 40% 20% 0% >10 min. 5-10 min. 24 % 5-10 min. 20 % 2-5 min. 44 % < 2 min. 21 % 1º inquérito ( c) Primeiro motivo de compra 100% 80% preços próximo emprg 12 local passg. 13 20% próximo de casa 58 % 5-10 min. 22 % 2-5 min. 40 % 2-5 min. 39 % < 2 min. 30 % < 2 min. 27 % 2º inquérito 2º inquérito (base comp.) (todas lojas) preços próximo emprg 12 local passg. 14 preços próximo emprg 10 local passg. 14 próximo de casa 55 % próximo de casa 57 % 0% 1º inquérito ( e) >10 min. 60% 40% a pé 60 % 2º inquérito 2º inquérito (base comp.) (todas lojas) Valores junto às categorias são percentagens do total de respostas. 1º inquérito (b) automóv. 28 % a pé 67 % a pé 64 % 2º inquérito 2º inquérito (base comp.) (todas lojas) 100% Tempo de deslocação de automóvel Tempo estimado de deslocação a pé >10 min. 60% 20% 2º inquérito 2º inquérito (base comp.) (todas lojas) 80% 60% 40% 20% >15 min. 40 % 10-15 min. 15 % 5-10 min. 18 % < 5 min. 27 % 1º inquérito 100% 80% 60% mercearia especializ 17 % supers 28 % 10-15 min. 24 % 5-10 min. 20 % < 5 min. 27 % >15 min. 26 % 10-15 min. 22 % 5-10 min. 20 % < 5 min. 32 % 2º inquérito 2º inquérito (base comp.) (todas lojas) mercearia especz. 9 mercearia especz. 10 supers 33 % supers 34 % hipers 51 % hipers 49 % 40% 20% hipers 45 % 0% 1º inquérito (f) >15 min. 29 % 0% (d) Formatos onde faz compras ( a) 40% automóv. 24 % 0% 1º inquérito 80% automóv. 27 % 60% 0% 100% transporte público 2º inquérito 2º inquérito (base comp.) (todas lojas) 212 Acesso à internet 100% 80% trabalho ambos 8 em casa 14 % 60% 40% 20% não tem acesso 70 % trabalho trabalho ambos 14 ambos 13 em casa 16 % em casa 16 % não tem acesso 60 % não tem acesso 61 % 0% 1º inquérito (g) 2º inquérito 2º inquérito (base comp.) (todas lojas) gasto mensal declarado na loja da entrevista 2º inq. (base comp.) 173 € 2º inq. (todas lojas) 172 € gasto mensal em compras para o lar 1º inquérito 302 € 2º inq. (base comp.) 313 € 2º inq. (todas lojas) 314 € Ns/Nr; 34 % 60% >=1996€ >=1996€ >=1996€ 11981596€; 17 11981596€; 18 11981596€; 18 799-1197€ 17 % 400-798€ 17 % 799-1197€ 19 % 400-798€ 14 % 799-1197€ 18 % 400-798€ 14 % 0% 1º inquérito <=400€ 8 A/B 21 % A/B 21 % 60% C1 26 % C1 27 % C1 27 % C2 39 % C2 38 % C2 38 % D; 12 % D; 14 % D; 14 % 40% 20% <=400€ 7 2º inquérito 2º inquérito (base comp.) (todas lojas) A/B 24 % 80% Classes sociais Classes de rendimento declaradas 80% Ns/Nr; 32 % (i) 150 300 450 600 750 100% Ns/Nr; 29 % 20% 0 (h) 100% 40% 122 € 1º inquérito 0% 1º inquérito (j) 2º inquérito 2º inquérito (base comp.) (todas lojas) Perguntas qualitativas em percentagem e nas quantitativas a amplitude da barra corresponde a um desvio padrão. A classe social é determinada segundo uma pontuação dependente de três questões: “Habilitações literárias”, “Profissão” e “Classes de Rendimento”. • Quanto ao “tipo de lojas em que faz compras”, verifica-se um aumento da percentagem de respostas em supermercados e hipermercados e uma diminuição acentuada em todos os outros tipos de lojas. Este resultado traduz uma tendência generalizada no mercado alimentar acentuada por um período de baixa do ciclo económico. Por outro lado os clientes declaram comprar menos nas cadeias de supermercados concorrentes da cadeia em consideração. • Quanto aos gastos, verifica-se um aumento dos gastos médios declarados na loja da entrevista bastante superior ao ligeiro aumento dos gastos declarados em compras para o lar. No entanto, a variabilidade continua muito elevada, correspondendo a uma amostra com clientes muito distintos em termos de gastos na loja e a compra média dos entrevistados mantém-se praticamente constante. • Nota-se uma melhoria progressiva no acesso à Internet. No período de aproximadamente dois anos e meio que medeia entre os dois inquéritos, mais 10% de clientes têm acesso à Internet, mas não houve alteração na percentagem que faz compras utilizando esse canal de distribuição, que continua muito reduzida. 213 • Quanto às variáveis demográficas, a estabilidade é notável. Os clientes continuam a ser cerca de 70% do género feminino, as classes de idades mantêmse mistas, sendo a maior clientes com mais de 55 anos (mantendo os 24%) e seguindo-se a classe dos 25 aos 34 com cerca de 20%. • O rendimento declarado baixou, tanto em base comparável como para o total da amostra do segundo inquérito, o que pode estar relacionado com o período de baixa económica que atravessamos. Note-se que a redução em termos médios é apenas cerca de uma dezena de euros (na base comparável), mas é relevante tendo em conta que se esperaria uma subida no período de dois anos que medeia entre os dois inquéritos. • A distribuição pelas classes sociais é coerente com esta evolução, observandose uma pequena diminuição das classes mais elevadas com benefício da classe média baixa. Sublinhe-se, no entanto, que a prevalência das classes altas sobre as mais baixas continua a ser uma característica destas lojas, sobretudo se tivermos em conta a distribuição das mesmas na população em geral. Além dos resultados apresentados, fizeram-se ainda alguns cruzamentos de variáveis relacionadas com “gastos mensais declarados na loja” e comportamentos relativamente a deslocações, cruzados com variáveis demográficas. Utilizam-se os “gastos mensais declarados na loja” ao invés do “valor da compra no dia da entrevista” por estas duas variáveis se encontrarem altamente correlacionadas (correlação significativa a 1% segundo o teste de Pearson bilateral) e por a primeira variável apresentar menor frequência de valores omissos e um comportamento mais regular. Tendo em conta a semelhança de resultados entre a base comparável e o total das lojas no segundo inquérito, apenas se apresentam resultados para o total do segundo inquérito. Todos os cruzamentos apresentados são significativos pelo teste F de análise de variância considerando os “gastos mensais declarados na loja” distribuídos segundo uma normal. Da observação dos gráficos seguintes podem-se tirar algumas ilações: • Os gastos mensais declarados na loja subiram, como já tinha sido observado, mas essa subida não foi uniforme para todas as classes de idades já que apenas as classes a partir dos 35 anos aumentaram os seus gastos na loja. • Quanto à variação dos gastos mensais na loja com as classes de rendimento, as alterações são mais uniformes já que todas as classes aumentam os seus gastos, sendo os maiores aumentos (40 e 33 €) registados para a classe entre os 1.599 a 1.998 € e para a classe entre os 401 e 798 €, respectivamente. • Em termos de contribuição para as vendas da loja, acentua-se a tendência de os clientes que se deslocam para casa terem um peso significativamente mais elevado do que os que se deslocam para outros destinos. O mesmo sucede relativamente aos clientes que se deslocam a pé e, portanto, habitam nas proximidades da loja. 214 gasto mensal declarado na loja < a 25 anos 81 € Classes de idade (k) 1º inquérito 102 € 131 € de 25 a 34 anos de 35 a 44 anos de 45 a 54 anos 148 € 137 € >= 55 anos < a 25 anos de 25 a 34 anos gasto mensal declarado na loja 100 € 200 € 300 € 400 € 78 € 2º inquérito 110 € de 35 a 44 anos 163 € de 45 a 54 anos >= 55 anos 166 € 180 € 0 € 100 € 200 € 300 € 400 € Classes de rendimento 0€ (l) gasto mensal declarado na loja 0€ 93 € 1º inquérito 111 € 122 € 123 € 137 € 149 € 101 € 2º inquérito 144 € 137 € 154 € 177 € 178 € <= 80 cts de 81 a 160 cts de 161 a 240 cts de 241 a 320 cts de 321 a 400 cts > 400 cts <= 400 € de 401 € a 798 € de 799 € a 1197€ de 1198 € a 1596 € de 1597 € a 1995 € >= 1996 € meio de transporte à loja 100 € 200 € 300 € 400 € 500 € 0% 20% 40% 60% 80% 100% Inquiridos fiéis à insígnia 199 € fiéis 113 € não fiéis 2º inquérito 266 € fiéis 115 € não fiéis a pé não fiéis automóvel 2º inquérito a pé fiéis não fiéis 88 € do emprego 103 € de casa 81 € 117 € do emprego 135 € de casa 0€ 75 € 150 € 225 € 300 € gasto mensal declarado na loja (p) para emprego 1º inquérito para casa para emprego 41 € em passeio em passeio para casa Destino e origem da viagem de compras (o) 1º inquérito a pé fiéis a pé automóvel (n) (m) Destino e origem da viagem de compras Inquiridos fiéis à insígnia 1º inquérito 35 € em passeio 2º inquérito 80 € do emprego de casa 134 € em passeio 139 € 106 € do emprego 165 € de casa 0€ 100 € 200 € 300 € 400 € gasto mensal declarado na loja Amplitude da barra corresponde a um desvio padrão e valor indicado corresponde à média dos gastos na categoria. 215 • Quanto ao cruzamento entre o destino e origem da viagem à loja, acentua-se o número de viagens com origem e destino casa (aumentando para 63%) e acentua-se igualmente o contributo desta classe para as vendas da loja, já que é de longe o grupo que declara gastar mais na loja mensalmente. Esta observação justifica a criação da variável “percentagem de viagens exclusiva à loja” descrita na secção III.B, pág. 59. • No gráfico sobre a fidelidade verifica-se, como se esperaria, que os inquiridos fiéis gastam bastante mais dinheiro nas lojas da cadeia do que os não fiéis. Esta observação confirma a definição desta variável tal como é efectuada na secção III.B, pág. 59. Note-se igualmente a correlação entre a fidelidade do inquirido e o meio de transporte utilizado, com quase 90% dos inquiridos considerados fiéis no segundo inquérito a deslocarem-se a pé, o que implica alguma proximidade à loja. Em conclusão verifica-se uma grande estabilidade nos clientes no período de dois anos que medeia entre os dois inquéritos, com as alterações a acentuar a diferenciação destas lojas relativamente a lojas de maior dimensão e mesmo relativamente à concorrência. Esta última afirmação é apoiada no facto de se verificar um aumento de 6% dos “inquiridos fiéis à insígnia” i.e. que fazem mais de 75% das suas compras mensais na cadeia e não fazem compras em nenhuma outra loja alimentar, excepto nos hipermercados, e uma diminuição no número de clientes entrevistados que afirma fazer compras nas cadeias de supermercados concorrentes. G. Segmentação de Clientes Em Cardoso e Mendes (2002) apresenta-se uma segmentação de clientes baseada nas respostas ao primeiro inquérito, que foi revista e confirmada com os dados do segundo, com base em modelos de segmentos latentes. Nesta dissertação apresenta-se apenas um resumo dos resultados, aconselhando-se a consulta do artigo no caso de se pretenderem mais pormenores. A selecção das variáveis base para segmentação dos clientes das lojas da cadeia atende, em primeiro lugar, ao interesse em considerar atributos da relação cliente \ oferta. Tendo em conta que a intenção da constituição dos segmentos é, para além de proporcionar uma melhor compreensão do mercado, vir a estabelecer uma possível diferenciação na oferta, estes atributos são, naturalmente, relevantes. Após um estudo descritivo das variáveis resultante dos inquéritos e atendendo, em particular, à sua variabilidade na amostra, foi estabelecido um conjunto de 6 variáveis base de segmentação, nomeadamente: “frequência de compra”, “hábitos de compra”, “origem da viagem de compra”, “tempo de deslocação à loja”, “gasto mensal declarado na loja” 216 e “percentagem de gastos em lojas da cadeia”. Tal como recomendado por Wedel e Kamakura (2000), este conjunto não integra variáveis demográficas, as quais são usadas apenas para caracterização dos segmentos. A análise realizada permitiu, por meio de sucessivas modificações do modelo, obter uma solução de agrupamentos considerada satisfatória, atendendo aos indicadores quantitativos e à sua interpretabilidade. De acordo com os valores das medidas de desempenho, conclui-se que o modelo com dois segmentos é o que apresenta melhores resultados, tendo sido o adoptado. Após a afectação determinística dos clientes aos segmentos (cada indivíduo é afecto ao segmento modal), constitui-se um segmento A com 57% dos clientes e um segmento B com os restantes 43%. Os resultados da segmentação foram descritos por meio de árvores discriminantes segundo o algoritmo CHAID – CHi-squared Automatic Interaction Detector method (Biggs e Suen, 1991, Kass, 1980) e usando uma variável dependente nominal identificando os dois segmentos. Na modelação considerou-se uma amostra de treino (70% das observações) e uma amostra de teste (restantes 30%) obtendo-se um erro de classificação de cerca de 9% em ambas as amostras. A partir deste tipo de árvores é fácil concluir que 85% dos clientes que gastam menos de 75 € por mês numa (qualquer) loja da cadeia são do segmento B e 91% dos que gastam mais são do segmento A. Apenas esta variável seria suficiente para obter um erro de classificação (percentagem de indivíduos incorrectamente classificados) inferior a 12%. Se conjugarmos esta variável com a “percentagem de gastos em lojas da cadeia” (relativos ao total de gastos para a casa dispendidos em diversos tipos de estabelecimentos) obtêm-se erros de classificação inferiores, na ordem dos 9%, como referido. De entre as variáveis base de segmentação, o “gasto mensal declarado na loja” e a “percentagem de gastos em lojas da cadeia” são as variáveis que principalmente distinguem os segmentos A e B (gráfico (a)). A terceira variável com maior poder discriminante é a “frequência de compra” cuja integração no modelo em árvore resulta na redução do erro de classificação de apenas 1%, calculado sobre a amostra de teste. Esta caracterização dos segmentos e outras, efectuadas com outros métodos, encontram-se descritas em Cardoso (2003). Note-se que o gráfico (a) foi construído com dados do inquérito de 2003, enquanto os resultados referentes ao inquérito de 2000 (que podem ser consultados em Cardoso e Mendes, 2002) apresentam exactamente as mesmas variáveis 217 discriminantes e até os mesmos pontos de partição. Estes resultados confirmam de forma surpreendente a estabilidade dos segmentos identificados inclusive nas 6 lojas novas entretanto incluídas na análise. segmento de clientes (amostra de treino) Node 0 Category % n A 59,85 568 B 40,15 381 Total (100,00) 949 gasto mensal declarado na loja Adj . P-value =0,0000 , Chi-square =505 ,1842 , df =1 < > Node 2 Category % n A 18,47 75 B 81,53 331 Total (42,78) 406 Node 3 Category % n A 90,79 493 B 9,21 50 Total (57,22) 543 percentagem de gastos em lojas da cadeia Adj . P-value =0,0000 , Chi-square =303 ,3344 , df =1 percentagem de gastos em lojas da cadeia Adj . P-value =0,0000 , Chi-square =351 ,4351 , df =1 < Node 4 Category % n A 0,67 2 B 99,33 298 Total (31,61) 300 > Node 5 Category % n A 68,87 73 B 31,13 33 Total (11,17) 106 < Node 6 Category % A 42,31 B 57,69 Total (8,22) > n 33 45 78 Node 7 Category % n A 98,92 460 B 1,08 5 Total (48,00) 465 (a) árvore discriminante pelo método CHAID Usam-se os dados do inquérito de 2003. Do gráfico (a) observa-se que 82% dos inquiridos classificados no segmento B gastam menos mensalmente e apenas 18% do segmento A gasta valores similares. No nó 3, a discriminação é ainda maior, com 90% do segmento A a gastar mais. Se conjugarmos esta variável com a “percentagem de gastos em lojas da cadeia”, concluise que o segmento B gasta menos e o A mais, com diversidade mínima nos nós 4 e 7. De acordo com estes resultados, passa-se a designar os segmentos A e B por clientes preferenciais e clientes eventuais, respectivamente. Esta caracterização dos dois segmentos de clientes é suportada por vários testes de Qui-quadrado de independência, permitindo concluir que se verificam associações significativas entre estes e todas as variáveis base de segmentação (a um nível de significância de 1%). De acordo com análises semelhantes sobre atributos caracterizando o perfil dos segmentos, pode ainda acrescentar-se que os clientes preferenciais têm mais idade e níveis de escolaridade um pouco mais baixos do que os 218 clientes eventuais, segundo os resultados para o primeiro inquérito. Com os dados do segundo inquérito, é ainda possível concluir que os clientes preferenciais vivem em agregados familiares menores e com rendimentos ligeiramente menores. Apenas duas variáveis “tipo de profissão” e “género” não se revelaram estatisticamente distintas entre os segmentos pelo referido teste de Qui-quadrado. Nos gráficos (b) e (c) comparam-se as classes de idade e de rendimentos nos inquéritos onde a probabilidade de significância do teste de Qui-quadrado é inferior a 5%. 1 º inq uérito 2º inq uérito Classes de Idade dos Inquiridos < 25 anos clientes eventuais < 25 anos clientes preferenciais 20% 45 - 54 45 - 54 35 - 44 25 - 34 25 - 34 clientes preferenciais 35 - 44 25 - 34 < 25 anos clientes eventuais 0% (b) 25 - 34 45 - 54 35 - 44 35 - 44 45 - 54 40% >= 55 anos 60% >= 55 anos 80% 100% 2º inquérito Classes de Rendimentos dos Inquiridos ( c) clientes eventuais 401 - 798 clientes preferenciais <= 400€ 0% 401 - 798 20% 799 - 1197 1198 - 1596 1597 - 1995 >= 1996€ 799 - 1197 40% 1198 - 1596 60% >= 1996€ 80% 100% Apenas se apresentam resultados para os inquéritos onde os testes de Qui-quadrado são significativos a 5%. A estabilidade dos segmentos identificados nos dois inquéritos justifica a agregação de resultados que foi efectuada para construir a variável “percentagem de clientes preferenciais” incluída no conjunto das variáveis utilizadas na segmentação das lojas e nas restantes análises. 219 H. Caracterização da Tipologia Interactiva com Dados dos Inquéritos Nos gráficos (a) a (f) apresentam-se algumas variáveis usadas na caracterização dos tipos de lojas definida pela metodologia interactiva. As variáveis apresentadas são aquelas que melhor discriminam os diferentes grupos. Note-se que foram seleccionadas apenas variáveis com médias por grupo significativamente distintas pelo teste F de análise de variância ao nível 5% de significância. Usam-se variáveis que geralmente são médias entre os dois inquéritos (tendo em conta que não se verificou nenhuma tendência particular nos resultados de ambos os inquéritos para a maioria das variáveis) atendendo à homogeneidade das respostas (ver Anexo F). A base de todos os resultados apresentados são os inquiridos em cada loja excluindo aqueles que afirmaram frequentar a loja pela “primeira vez” ou “uma a duas vezes por mês”. Com base nestes gráficos e em muitos outros, construídos com fins exploratórios, podem-se resumir as características dos diferentes grupos de lojas quanto às respostas aos inquéritos nas linhas seguintes: • Lojas de Bairro Menores: estas lojas caracterizam-se pelas elevadas percentagens de viagens propositadas à loja e deslocações a pé de curta distância. Os motivos referidos de deslocação à loja são esmagadoramente a “proximidade de casa”. Têm também maiores percentagens de clientes que afirmam não frequentar hipermercados e as maiores “percentagens médias de gastos na cadeia”, mas menores percentagens de clientes fiéis do que as Lojas Grandes ou Lojas Intermédias, o que nos leva a concluir que estes clientes frequentam outros supermercados e lojas de Discount. Os clientes destas lojas apresentam idades médias acima dos 43 anos, a classe modal do ciclo de vida é “família estabelecida”43 e elevadas “percentagens de clientes preferenciais”. No entanto, são maioritariamente clientes com um nível de vida elevado, tanto no que se refere à profissão, como ainda nas “classes de rendimento” e na “classe social”. As “habilitações literárias” podem parecer contraditórias com a observação anterior, por apresentar percentagens relativamente elevadas de “analfabetos” e “apenas ensino primário”, mas não ultrapassam os 30% de inquiridos. • Lojas de Bairro Maiores: as lojas deste grupo destacam-se das lojas de Bairro Menores por apresentarem “percentagem de deslocações exclusiva à loja” superiores e vendas igualmente superiores. No restante este grupo é muito semelhante ao das lojas de Bairro Menores apresentando, no entanto, medianas quase sempre ligeiramente superiores justificando o nome. As excepções são a “percentagem de inquiridos com mais de 45 anos” e a “percentagem de inquiridos invocando proximidade de casa como motivo de frequência da loja”, para os quais a mediana é inferior. Esta classe corresponde a indivíduos casados, divorciados ou viúvos com filhos e cujo filho mais velho tem mais de 11 anos e ainda vive em casa. Uma descrição detalhada da variável “fase do ciclo de vida” pode ser consultada em Cardoso (2000, pág. 111). 43 60 50 40 30 20 % de inquirid os com compras ocasion ais ( a) % de inquirid os com m ais de 45 anos ( c) n=4 n=3 n=3 n=6 n=5 Passagem >'s Passagem Grandes Intermédias Bairro <'s Bairro >'s 80 70 60 50 40 30 20 n=2 n=4 n=3 n=3 n=6 n=5 Passagem >'s Passagem Grandes Intermédias Bairro <'s Bairro >'s (b) (d) 80 70 60 50 40 30 20 n=2 n=6 n=3 n=4 n=3 n=5 S LM Passagem >'s Passagem Bairro <'s Grandes Intermédias Bairro >'s 80 70 60 50 40 30 20 n=4 n=3 n=6 n=5 n=3 n=2 Intermédias Grandes Passagem Bairro <'s Bairro >'s Passagem >'s 80 80 70 60 50 40 30 20 ( e) n=2 % média de gastos em hipermercado s 70 n=2 n=6 n=3 n=5 n=4 n=3 Passagem > 's Passagem Intermédias Grandes Bairro >'s Bairro <'s percen tagem de clientes preferenciais % de até 5 minutos a pé ou carro 80 % de inquiridos que se desloca m a pé 220 (f) 70 60 50 40 30 20 n=2 n=3 n=3 n=6 n=4 n=5 Passagem >'s Bairro <'s Intermédias Passagem Grandes Bairro >'s Asteriscos indicam lojas atípicas correspondendo a valores superiores a 3 vezes a amplitude interquartílica. 221 • Lojas Intermédias: estas lojas caracterizam-se por terem clientes com comportamentos numas variáveis semelhantes às Lojas de Bairro e Lojas Grandes e noutras semelhantes às Lojas de Passagem. Por exemplo, na “percentagem de inquiridos que se deslocam a pé” ou na “percentagem média de gastos em hipermercados”, estas lojas aproximam-se mais das Lojas de Bairro apresentando percentagens elevadas. Já quanto à “percentagem de inquiridos até 5 minutos a pé ou carro” e à “percentagem de inquiridos com mais de 45 anos”, os valores são mais próximos das Lojas de Passagem. Quanto aos aspectos demográficos, estas lojas destacam-se por apresentar as maiores médias de idades, ultrapassando mesmo os valores elevados das Lojas de Bairro Menores. Nas restantes variáveis, os valores são intermédios mas mais próximos das Lojas de Bairro ou Lojas Grandes, nomeadamente quanto ao elevado nível de vida que maioritariamente afirmam ter. • Lojas Grandes: este grupo é um dos mais bem sucedidos em termos de vendas. Apresenta comportamentos semelhantes a hipermercados com “percentagens de clientes preferenciais” elevadas, tal como as “percentagens de inquiridos fiéis à loja”. Apresentam valores de “percentagem de gasto na cadeia” intermédios. Estas lojas têm clientelas variadas, tendo idades médias relativamente elevadas, classes do ciclo de vida equilibradas tal como a classe social. No entanto, estes são clientes de relativamente elevadas habilitações académicas. • Lojas de Passagem: estas lojas devem o seu nome ao facto de apresentarem maiores “percentagens de clientes que declaram estar em passagem” e menores “percentagens de viagens exclusivas à loja”. Este grupo de lojas inclui as poucas lojas onde a “proximidade de casa” é abaixo dos 40% na pergunta sobre o principal motivo de compra na loja. São também aquelas onde a “percentagem de gastos na cadeia” é mais reduzida e as avaliações de qualidade da loja recebe avaliações piores. Ao contrário das Lojas de Bairro, estas lojas são frequentadas principalmente por clientes em “indivíduo só antes de constituir família”44 relativamente ao “ciclo de vida”, por clientes mais jovens e “percentagens de clientes preferenciais” baixas. No entanto, quanto ao agregado familiar, em conjunto com as Lojas de Bairro, estas lojas apresentam os maiores agregados familiares do estudo. • Lojas Grandes de Passagem: lojas com comportamentos muito semelhantes às anteriores, mas destacam-se por apresentar vendas anuais cerca de duas vezes superiores. Este é um grupo heterogéneo que pode ter uma vida volátil. Fundamenta-se esta afirmação em várias observações. Por exemplo, quanto à “frequência à loja durante a semana e fim-de-semana”, a diferença entre estas duas lojas é notável, o mesmo acontecendo com os valores de “percentagem de clientes preferenciais”, por exemplo. Por outro lado, os factores demográficos inquiridos são bastante semelhantes, com excepção das “classes de rendimento” e da “classe social”. Os factores demográficos, tal como a “percentagem média de gastos em hipermercados”, são muito coerentes com os das Lojas de Passagem, justificando assim o nome deste grupo. Outros como as habilitações académicas são mais coerentes com as Lojas Grandes, ao apresentarem elevadas “percentagens de clientes com licenciatura”. 44 Trata-se de inquiridos solteiros, divorciados ou viúvos, sem filhos e com menos de 35 anos. 222 I. Caracterização com Dados Geográficos e Mystery Shopping Para se caracterizarem os diferentes tipos de lojas quanto às variáveis demográficas e de localização, começou-se por observar a localização das lojas no espaço. Desta observação é possível observar algumas correlações espaciais: • Todas as Lojas de Bairro Maiores situam-se na zona metropolitana de Lisboa, em zonas suburbanas. A proximidade espacial entre estas lojas é igualmente considerável, tal como o padrão de densidades populacionais elevadas em áreas pouco extensas. • Todas as Lojas de Bairro Menores se situam igualmente na zona metropolitana de Lisboa, mas duas situam-se em zonas centrais da cidade e uma no centro de uma cidade suburbana. No entanto, todas se situam em zonas de secções estatísticas muito pequenas, indicando zonas com construção em altura. • As Lojas Intermédias dividem-se pelas zonas metropolitanas do Porto e de Lisboa em áreas muito próximas e têm dimensões muito semelhantes, correspondendo a zonas fortemente urbanizadas. • As Lojas Grandes dividem-se igualitariamente pelas duas zonas e são geralmente lojas em cidades suburbanas. • As Lojas de Passagem situam-se todas no norte, em zonas suburbanas ou junto a um importante centro comercial. • Também a nível de posição geográfica, as Lojas Grandes de Passagem apresentam localizações diferenciadas. Uma na zona do Porto e outra em Lisboa, mas ambas em zonas com relativamente baixas densidades de residentes. • As duas lojas consideradas atípicas situam-se no norte em zonas caracterizadas por baixas densidades populacionais nas vizinhanças muito próximas, estando uma delas numa periferia pouco urbanizada e a outra no centro da cidade mas com fracos acessos. Os atributos obtidos no programa de mystery shopping são nominais, mas os resultantes de avaliações apresentam-se em escalas ordinais de 9 pontos, justificando os diferentes gráficos apresentados em seguida. Foram ainda construídas variáveis diferenciais calculadas como a diferença de pontuações entre a loja da cadeia e a média dos concorrentes ou a melhor classificada de entre os concorrentes visitados. Após a análise pormenorizada dos gráficos apresentados é possível resumir as características das diferentes tipologias quanto aos dados obtidos no programa de mystery shopping nos seguintes pontos: • Lojas de Bairro Menores: estas lojas caracterizam-se pela sua dimensão reduzida e por localizações diversificadas (onde se incluem bairros e centros urbanos) e inserem-se exclusivamente em edifícios de escritórios ou residenciais, muitas vezes próximas de escolas ou universidades. Esta localização também justifica uma maior diferença no número de horas de abertura entre os restantes dias e o Domingo e um estacionamento especialmente complicado. 1,0 5 3 -1,0 2 Intermédias Grandes Bairro <'s Passagem Bairro >'s Pas sagem >'s residencial escritórios centro cm. regional centro cm. bairro stand alone 6 5 4 n=3 3 n=2 n=1 2 n=4 n=1 n=1 n=1 n=2 n=1 1 n=2 n=1 n=2 n=1 Bairro > 's Bairro <'s Passagem Intermédias Grandes Passagem >'s Acesso a Pé e Facilida de de Estacio namento (escala 1-pior a 9-melho r) ( e) n=1 acesso a pé facilidade de estacionamento 9 n=2 4 3 8 7 6 5 4 3 2 1 (f) n=1 n=2 2 n=4 n=3 n=1 n=1 n=1 n=1 n=1 n=1 1 n=3 n=2 Bairro >'s Bairro <'s Passagem Intermédias Grandes Passagem >'s espaço de laze feira semanal escola \ unive restaurantes central de tran c.comercial\ me bomba de gaso centro urbano 4 n=1 n=1 n=1 n=1 n=1 3 2 n=1 n=2 n=2 n=2 n=1 n=1 n=1 n=1 n=1 n=1 1 (d) S Bairro < 's Intermédias Bairro > 's Grandes Passagem Passagem > 's 5 (b) Âncora mais Importante para o Tráfego Tipo de Edifício Onde se Insere a Loja ( a) ( c) 4 0,0 Localização na Malha Urbana 6 Avaliaç ões das Lojas da Cadeia Versus Concorrência (diferença entre a loja e média dos concorrentes) 2,0 periferia isolada perif. urbanizada centro urbano bairro 6 7 área de vendas nº de caixas de saída Nº de Caixas de Saída Área de Vendas (Escala padron izada) 223 n=2 Bairro >'s Bairro <'s Passagem Intermédias Grandes Passagem >'s 8,0 acesso a pé facilidade de estacionamento 6,0 4,0 2,0 0,0 -2,0 -4,0 -6,0 -8,0 Passagem Bairro >'s Grandes Intermédias Bairro <'s Passagem >'s Asteriscos identificam lojas atípicas correspondendo a valores superiores a 3 vezes a amplitude interquartílica. 224 • Lojas de Bairro Maiores: estas lojas não se situam em bairros de grandes cidades mas em periferias urbanizadas, em edifícios de escritórios ou residenciais. Note-se que, com o crescimento das periferias, estas localizações assemelham-se fortemente a centros urbanos. Para estas lojas, todas bastante recentes, os principais atractores de clientes nas proximidades (âncoras) são o próprio centro urbano e o acesso obteve classificações acima da média, principalmente em deslocações a pé. • Lojas Grandes: este grupo de lojas localiza-se em centros urbanos de periferias e cerca de metade inserem-se em centros comerciais ou galerias comerciais. A localização em centros comerciais ou a proximidade de mega stores ou centrais de transportes são apresentados como os principais pontos de atracção de clientes. Caracterizam-se igualmente pela dimensão elevada, ainda que se verifique alguma variabilidade neste aspecto. O estacionamento tem classificações elevadas mesmo quando comparado com a concorrência. No entanto, esta é em geral elevada, tendo sido identificados cerca de dois fortes concorrentes por loja. • Lojas de Passagem: estas lojas localizam-se em zonas urbanas e caracterizam-se por se inserirem frequentemente em galerias comerciais ou centros comerciais pequenos a médios. São normalmente lojas já com alguns anos de funcionamento e apresentam elevados níveis de concorrência, com 3 concorrentes muito próximos, em média. Estas lojas obtiveram igualmente elevados valores em visibilidade, tanto de automóvel como em deslocações a pé. Relativamente à concorrência, estas lojas apresentaram avaliações muito negativas na facilidade de estacionamento. • Lojas Grandes de Passagem: estas lojas localizam-se em zonas urbanas. A principal característica comum é a presença de âncoras com forte poder de atracção; localizando-se uma num centro comercial regional e a outra é uma loja de rua localizada próxima de escolas, universidades, centros de transportes e numa zona fortemente concorrencial. Este é um grupo heterogéneo, como se pode observar a nível de dimensão da loja, acesso a pé e facilidade de estacionamento, mesmo quando comparado com a concorrência. No entanto, têm alguns pontos em comum, como o facto de ambas terem 4 ou 5 anos de funcionamento e nas avaliações relativas à qualidade de produtos e atenção no atendimento. • Lojas Intermédias: estas lojas caracterizam-se por localizações em centros urbanos e uma reduzida concorrência por parte de hipermercados, mas elevada por parte de supermercados e mercearias. Apresentam normalmente acessos fáceis em deslocações a pé, mas dificuldades de estacionamento elevadas. J. Caracterização da Área de Influência para a Tipologia Interactiva A tipologia pode igualmente ser caracterizada com dados da vizinhança próxima, tendo em conta a dimensão da maioria das lojas em estudo. Nos gráficos seguintes passa-se a analisar a informação demográfica do censo do 2001 e as suas consequências na interpretação da nova tipologia de lojas. Note-se que, como concluído da análise efectuada na secção III.D.4 (pág. 76), apenas se incluem variáveis determinadas pela regra de decisão, podendo no entanto a área de influência ser obtida por três métodos distintos: caminhos mais curtos (cmc), diagramas de Voronoi de 225 primeira ordem (v1o) e de segunda ordem (v2o). Nos gráficos (a) a (f) apresentam-se exemplos de algumas variáveis escolhidas em função do poder discriminante dos grupos na tipologia, donde se podem retirar algumas conclusões: • Na maioria dos grupos, a percentagem de edifícios com poucos pavimentos ou com mais de 5 é equilibrada. No entanto, nas Lojas Grandes e nas Lojas de Passagem, a percentagem de edifícios com poucos pavimentos é elevada e a percentagem de edifícios com muitos pavimentos muito reduzida, indicando pouca construção em altura na área de influência. • O número de edifícios construídos nos últimos anos, por unidade de área, distingue claramente as Lojas Grandes e as de Bairro Grandes como incluídas em zonas com já bastantes edifícios clássicos, mas com elevada dinâmica e ainda em claro crescimento. As Lojas Grandes de Passagem distinguem-se por se localizarem em zonas de reduzida dinâmica em termos de novas construções. Um grande número de edifícios clássicos distingue claramente as Lojas Intermédias das restantes. • Quanto ao número de alojamentos, as Lojas de Bairro Maiores apresentam valores elevados e as Lojas Grandes de Passagem e Lojas Grandes, pelo contrário, situam-se em zonas menos povoadas. Sublinhe-se a profunda distinção entre as Lojas Grandes de Bairro e as Lojas Pequenas de Bairro. Ainda que não sejam directamente comparáveis por utilizarem métodos de definição de áreas de influência distintos, estas variáveis e o “número de edifícios com um ou dois pavimentos” são bastante coerentes para os valores mais baixos, mas não para os mais elevados, já que a mais edifícios de baixa altura não corresponde necessariamente maior número de alojamentos. • A “percentagem de alojamentos familiares não clássicos”, i.e. aqueles que correspondem a construções abarracadas, improvisadas ou habitações móveis e a “percentagem de alojamentos de residência não habitual” podem ser interpretados como indicadores do nível de rendimentos na área de influência. Assim, grupos como as Lojas de Passagem e as Lojas Grandes, com medianas próximas de 5% do total de alojamentos na área de influência, distinguem-se claramente. A este propósito, note-se que as lojas consideradas atípicas têm em comum valores próximos dos 20%. As lojas Grandes de Passagem são as que se localizam em zonas com menos problemas de habitação degradada. • O “número de alojamentos colectivos” superior a 15 em algumas Lojas Intermédias, valor que se destaca claramente de todos os restantes, indica a presença de importantes zonas de serviços próximas. Pelo contrário, as lojas atípicas, as Lojas Grandes de Passagem e as Lojas de Bairro Grandes apresentam valores próximos de zero. Também o “número de edifícios principalmente não residenciais” podem ser responsabilizados por uma parte do fluxo junto à loja, pelo que não é de estranhar que siga a anterior variável de muito perto. As lojas atípicas caracterizam-se por se situarem em zonas com muito poucos edifícios deste tipo. • Quanto à idade dos potenciais clientes na área de influência, nota-se claramente a formação de dois conjuntos de grupos. Por um lado, as Lojas de Bairro Grandes, as Lojas de Passagem e as Lojas Grandes correspondendo aos maiores valores de percentagens de crianças até aos 4 anos e às menores de mulheres com mais de 65. Este conjunto de grupos situa-se assim em áreas de população mais jovem. 226 S 0,75 0,50 0,25 PK A Número de Alojame ntos na Área de Influência ( a) 0,00 Passagem >'s Intermédias Grandes Bairro <'s Bairro >'s Passagem alojamento com propriatário ocupante (v2o) alojamento de residência habitual (v2o) 17.500 2A 15.000 12.500 2A Número de Alojame ntos na Área de Influência S 10.000 7.500 5.000 2.500 0 Grandes Bairro < 's Intermédias Passagem > 's Passagem Bairro >'s alojamento com propriatário ocupante (v2o) alojamento de residência habitual (v2o) ( c) ( e) A 17.500 2A 15.000 A 12.500 2A 10.000 S 7.500 5.000 2.500 0 Grandes Bairro <'s Intermédias Passagem >'s Passagem Bairro >'s edifícios construídos entre 95-2001 (v1o) total de edifícios clássicos (v1o) Densidade em Número de Edíficos por Hectare e por 10 Hectares para os Edifícios Constru ídos Fracção de Edifícios com 1-2 e com > 5 Pavimentos PK 25 20 15 10 5 A 10% (d) (f) PY 0 (b) Percentagem de Alojamentos sobre o Total 1,00 Fracção Sobre o Total de Mulheres Residen tes edifícios com 1-2 pavimentos (cmc) edifícios com mais de 5 pavimentos (cmc) Passagem > 's Intermédias Bairro >'s Bairro <'s Passagem Grandes alojamentos familiares não clássicos (cmc) alojamentos de residência não habitual (cmc) 2N 8% S 6% 4% 2% 0% Passagem > 's Bairro >'s Passagem Intermédias Bairro < 's Grandes mulheres residentes com 0-4 anos (cmc) mulheres residentes com > 65 anos (cmc) 0,40 BR 0,30 A 0,20 0,10 PK A BR S Passagem > 's Intermédias Grandes Bairro <'s Bairro >'s Passagem Círculos e asteriscos identificam lojas atípicas com valores superiores a 1,5 e 3 vezes a amplitude interquartílica. 227 A informação da base de dados com a localização de lojas alimentares em Portugal continental é utilizada essencialmente para avaliar da pressão competitiva próxima das lojas. Esta base de dados permitiu a construção de variáveis como a “área da zona de influência obtida por diagramas de Voronoi” que será tanto maior quanto menor for a concorrência nas proximidades ou a soma das áreas dos concorrentes ponderada pela distância entre a loja e o concorrente. Outras variáveis resultantes de análise espacial quantificam o número de concorrentes nas proximidades. Para os diagramas de Voronoi, consideram-se como concorrentes todas as lojas que partilham fronteiras com as lojas da cadeia e, para as áreas de influência definidas por caminhos mais curtos, todas as lojas que se situam no interior do polígono. Sublinhe-se que estes cálculos envolveram todas as lojas da base de dados e não apenas as utilizadas para definição dos polígonos de Voronoi. Nos gráficos (g) a (l) apresentam-se os resultados para algumas variáveis de avaliação da concorrência obtidas por análise espacial com utilização do SIG. Destes gráficos e das conclusões já descritas para as variáveis demográficas é possível retirar algumas observações sobre a caracterização dos grupos na tipologia: • Lojas de Bairro Menores: estas lojas caracterizam-se principalmente por elevados níveis de concorrência com pequenas lojas, tais como lojas tradicionais e de Discount. A concorrência das lojas maiores é em geral recente e em pequeno número. O facto destes concorrentes terem áreas comerciais pequenas e logo atractividades reduzidas, explica as relativamente elevadas áreas de influência. • Lojas de Bairro Maiores: situam-se em áreas com elevadas densidades de residentes e apresentam os maiores valores quanto ao “número de alojamentos com proprietário ocupante”. Estas lojas apresentam ainda áreas de Voronoi médias e áreas por caminhos mais curtos muito elevadas, indicando níveis de concorrência elevados mas um poder de atracção da loja também elevado relativamente aos concorrentes. • Lojas Intermédias: estas lojas apresentam valores médios do “número de alojamentos na área de influência”, mas valores elevados de “edifícios principalmente não residenciais”. Mas a principal característica desta tipologia são os elevados níveis de concorrência, com elevado número de pequenas lojas e de lojas de cadeias concorrentes quase todas muito recentes. • Lojas Grandes: apresentam baixas “percentagens de alojamentos não clássicos” indicando zonas de rendimentos mais elevados. Estas lojas situam-se em zonas de elevada dinâmica de novas construções e com as maiores áreas de influência por diagramas de Voronoi. Deste modo, a concorrência é reduzida, em especial a proveniente de hipermercados, tendo apenas pequenas lojas tradicionais ou cadeias de Discount nas proximidades. 228 250 200 150 100 Àrea de Vendas dos Concorr entes (m2 e m2/m) N úmero de Superm ercados pertencentes a Cadeias (g) (k) LM A 50 Passagem Passagem >'s Bairro >'s Intermédias Bairro <'s Grandes supermercados identificados por diag. Voronoi supermercados identificados por cmc a 5 min. 7 6 BR A 5 4 3 2 1 0 Bairro >'s Passagem Passagem >'s Grandes Bairro <'s Intermédias conc. identificados por Voronoi sem ponderação conc. identificados por Voronoi ponderada por cmc 30.000 25.000 LM A 20.000 15.000 10.000 5.000 A LM 0 Intermédias Bairro <'s Grandes Bairro >'s Passagem Passagem >'s (l) PY 6 5 4 3 AN S 2 1 LM KO S A 0 (h) (j) A 7 Número de Hipermercados Identificados 300 concorrentes identificados por diag. Voronoi concorrentes identificados por cmc a 15 min. Número de Lojas Tradici onais e Discoun ts 350 0 (i) caminhos mais curtos a 2,5 min. diagramas de Voronoi de 1ª ordem Àrea de Vendas dos Concorre ntes (m2 e m2/m) Área de Influên cia em Hectare s 400 Bairro >'s Grandes Intermédias Bairro <'s Passagem Passagem >'s lojas identificadas por diagramas de Voronoi lojas identificadas por cmc a 5 min. 25 20 BR 15 S 10 BR 5 A 0 Passagem >'s Intermédias Grandes Bairro >'s Passagem Bairro <'s conc. identificados por Voronoi sem ponderação conc. identificados por Voronoi ponderada por cmc 30.000 25.000 LM A 20.000 15.000 10.000 5.000 A LM 0 Intermédias Bairro < 's Grandes Bairro >'s Passagem Passagem > 's Círculos e asteriscos identificam lojas atípicas com valores superiores a 1,5 e 3 vezes a amplitude interquartílica. 229 • Lojas de Passagem: situam-se em zonas pouco residenciais e com cerca de 60% de edifícios com apenas 1-2 pavimentos. Os elevados valores para o “número de edifícios principalmente não residenciais” corroboram a denominação da tipologia já que grande parte dos clientes trabalha na zona de influência da loja. Outras observações que confirmam a denominação são as reduzidas áreas dos diagramas de Voronoi e os muito elevados valores de “áreas de vendas concorrentes”, em especial considerando a ponderação da distância, indicando elevados níveis de concorrência muito próxima. • Lojas Grandes de Passagem: ambas apresentam os valores mais baixos de “percentagem de alojamentos não clássicos”, indicando provavelmente zonas de elevados rendimentos. No entanto, apresentam igualmente valores muito baixos de construções novas nos últimos cinco anos, indicando reduzida dinâmica de construção nas suas áreas de influência. Pelo contrário, os níveis de concorrência são elevados, considerando a “área de vendas de concorrentes” ponderada ou não ponderada. A concorrência provém tanto de hipermercados como de cadeias de supermercados. Para terminar, a caracterização de áreas de influência, no texto apresentado em Gonçalves e Mendes (2002) procedeu-se à georreferenciação dos inquiridos nos dois inquéritos à freguesia de residência e variáveis como a “percentagem de inquiridos na área de influência”. Desta análise concluiu-se existir alguma correlação entre os grupos definidos e a referida variável, apresentando as Lojas de Passagem percentagens reduzidas. Nas Lojas de Bairro Grandes e Lojas de Bairro Pequenas, os inquiridos residem em locais muito próximos da loja. Estes resultados confirmam os valores obtidos para a “percentagem de viagens exclusivas à loja” (ver Figura 22, pág. 100). K. Modelos Discriminantes Lógicos para Todas as Lojas Neste anexo apresentam-se as “melhores” árvores construídas utilizando os diferentes algoritmos disponíveis. Para pormenores sobre os algoritmos e parâmetros utilizados na construção destes modelos discriminantes lógicos consultar o texto da secção V.B.2, pág. 119. Os dados utilizados são os enumerados no anexo E tendo sido necessário excluir toda a informação referente a inquéritos e alguma recolhida no programa de mystery shopping, por não ser aplicável a novas localizações. 230 QUEST Node 0 Category % n Passagem >'s 8 ,70 2 Grandes 26 ,09 6 Bairro <'s 13 ,04 3 Passagem 13 ,04 3 Intermédias 17 ,39 4 Bairro >'s 21 ,74 5 Total (100 ,00)23 dE2001&2,5 Adj. P-value=0,0008, Levene’s F=18,4602, df=5,17 <=0,83668200000000004 >0,83668200000000004 Node 1 Category % n Passagem >'s 100 ,00 2 Grandes 0 ,00 0 Bairro <'s 0 ,00 0 Passagem 0 ,00 0 Intermédias 0 ,00 0 Bairro >'s 0 ,00 0 Total (8 ,70) 2 Node 2 Category % n Passagem >'s 0 ,00 0 Grandes 28 ,57 6 Bairro <'s 14 ,29 3 Passagem 14 ,29 3 Intermédias 19 ,05 4 Bairro >'s 23 ,81 5 Total (91 ,30)21 área de conc. ponderada por cmc por diagramas de Voronoi Adj. P-value=0,0157, Levene’s F=40,8654, df=5,14 <=4462,1400000000003 >4462,1400000000003 Node 3 Category % n Passagem >'s 0 ,00 0 Grandes 31 ,58 6 Bairro <'s 15 ,79 3 Passagem 5 ,26 1 Intermédias 21 ,05 4 Bairro >'s 26 ,32 5 Total (82 ,61)19 Node 4 Category % n Passagem >'s 0 ,00 0 Grandes 0 ,00 0 Bairro <'s 0 ,00 0 Passagem 100 ,00 2 Intermédias 0 ,00 0 Bairro >'s 0 ,00 0 Total (8 ,70) 2 pNFF_N2,5 Adj. P-value=0,0344, Levene’s F=30,7000, df=5,9 <=0,13242000000000001 Node 5 Category % Passagem >'s 0 ,00 Grandes 11 ,11 Bairro <'s 33 ,33 Passagem 0 ,00 Intermédias 44 ,44 Bairro >'s 11 ,11 Total (39 ,13) >0,13242000000000001 Node 6 Category % n Passagem >'s 0 ,00 0 Grandes 50 ,00 5 Bairro <'s 0 ,00 0 Passagem 10 ,00 1 Intermédias 0 ,00 0 Bairro >'s 40 ,00 4 Total (43 ,48)10 n 0 1 3 0 4 1 9 sFCRM5i3 Adj. P-value=0,2694, Levene’s F=27,2288, df=3,5 <=131,74052252773302 Node 7 Category % Passagem >'s 0 ,00 Grandes 20 ,00 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 80 ,00 Bairro >'s 0 ,00 Total (21 ,74) área de vendas em m2 Adj. P-value=1,0000, Levene’s F=4,3143, df=2,7 >131,74052252773302 n 0 1 0 0 4 0 5 Node 8 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 75 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 25 ,00 Total (17 ,39) <=831,17364987514225 n 0 0 3 0 0 1 4 Node 9 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 0 ,00 Passagem 25 ,00 Intermédias 0 ,00 Bairro >'s 75 ,00 Total (17 ,39) >831,17364987514225 n 0 0 0 1 0 3 4 Node 10 Category % Passagem >'s 0 ,00 Grandes 83 ,33 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 16 ,67 Total (26 ,09) n 0 5 0 0 0 1 6 231 CHAID Node 0 Category % n Passagem >'s 8 ,70 2 Grandes 26 ,09 6 Bairro <'s 13 ,04 3 Passagem 13 ,04 3 Intermédias 17 ,39 4 Bairro >'s 21 ,74 5 Total (100 ,00)23 dE2001&2,5 Adj. P-value=0,0152, Chi-square=23,0000, df=5 <=0,83660655648558313 Node 1 Category % Passagem >'s 100 ,00 Grandes 0 ,00 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 0 ,00 Total (8 ,70) >0,83660655648558313 Node 2 Category % n Passagem >'s 0 ,00 0 Grandes 28 ,57 6 Bairro <'s 14 ,29 3 Passagem 14 ,29 3 Intermédias 19 ,05 4 Bairro >'s 23 ,81 5 Total (91 ,30)21 n 2 0 0 0 0 0 2 facilidade estacionamento - Localização Adj. P-value=0,0796, Chi-square=16,1360, df=4 >2 <=2 Node 3 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 0 ,00 Passagem 75 ,00 Intermédias 25 ,00 Bairro >'s 0 ,00 Total (17 ,39) Node 4 Category % n Passagem >'s 0 ,00 0 Grandes 35 ,29 6 Bairro <'s 17 ,65 3 Passagem 0 ,00 0 Intermédias 17 ,65 3 Bairro >'s 29 ,41 5 Total (73 ,91)17 n 0 0 0 3 1 0 4 sAFCRHPO&2,5 Adj. P-value=0,2100, Chi-square=12,9861, df=3 <=2508 >2508 Node 5 Category % n Passagem >'s 0 ,00 0 Grandes 100 ,00 5 Bairro <'s 0 ,00 0 Passagem 0 ,00 0 Intermédias 0 ,00 0 Bairro >'s 0 ,00 0 Total (21 ,74) 5 Node 6 Category % n Passagem >'s 0 ,00 0 Grandes 8 ,33 1 Bairro <'s 25 ,00 3 Passagem 0 ,00 0 Intermédias 25 ,00 3 Bairro >'s 41 ,67 5 Total (52 ,17)12 avaliação de lojas concorrentes acesso a pé (loja - média) Adj. P-value=0,1550, Chi-square=12,0000, df=3 >0,<missing> Node 7 Category % Passagem >'s 0 ,00 Grandes 16 ,67 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 83 ,33 Total (26 ,09) <=0 Node 8 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 50 ,00 Passagem 0 ,00 Intermédias 50 ,00 Bairro >'s 0 ,00 Total (26 ,09) n 0 1 0 0 0 5 6 n 0 0 3 0 3 0 6 sAFCi3 Adj. P-value=0,0858, Chi-square=6,0000, df=1 <=2181 Node 9 Category % n Passagem >'s 0 ,00 0 Grandes 0 ,00 0 Bairro <'s 0 ,00 0 Passagem 0 ,00 0 Intermédias 100 ,00 3 Bairro >'s 0 ,00 0 Total (13 ,04) 3 >2181 Node 10 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 100 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 0 ,00 Total (13 ,04) n 0 0 3 0 0 0 3 232 CART Node 0 Category % n Passagem >'s 8 ,70 2 Grandes 26 ,09 6 Bairro <'s 13 ,04 3 Passagem 13 ,04 3 Intermédias 17 ,39 4 Bairro >'s 21 ,74 5 Total (100 ,00)23 pMR5_9&2,5 Improvement=0,1522 <=0,048590363622731933 >0,048590363622731933 Node 1 Category Passagem >'s Grandes Bairro <'s Passagem Intermédias Bairro >'s Total Node 2 Category % n Passagem >'s 0 ,00 0 Grandes 83 ,33 5 Bairro <'s 0 ,00 0 Passagem 16 ,67 1 Intermédias 0 ,00 0 Bairro >'s 0 ,00 0 Total (26 ,09) 6 % n 11 ,76 2 5 ,88 1 17 ,65 3 11 ,76 2 23 ,53 4 29 ,41 5 (73 ,91)17 sAFCRHPO&2,5 Improvement=0,1401 <=6429 >6429 Node 3 Category % n Passagem >'s 15 ,38 2 Grandes 7 ,69 1 Bairro <'s 23 ,08 3 Passagem 15 ,38 2 Intermédias 30 ,77 4 Bairro >'s 7 ,69 1 Total (56 ,52)13 Node 4 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 100 ,00 Total (17 ,39) n 0 0 0 0 0 4 4 sAFCRH3_4Di3 Improvement=0,1156 <=1007,5 >1007,5 Node 5 Category % Passagem >'s 25 ,00 Grandes 12 ,50 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 50 ,00 Bairro >'s 12 ,50 Total (34 ,78) Node 6 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 60 ,00 Passagem 40 ,00 Intermédias 0 ,00 Bairro >'s 0 ,00 Total (21 ,74) n 2 1 0 0 4 1 8 sAFNCi3 Improvement=0,1196 <=2,5 Node 7 Category % Passagem >'s 50 ,00 Grandes 25 ,00 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 25 ,00 Total (17 ,39) facilidade estacionamento - Localização Improvement=0,1043 >2,5 n 2 1 0 0 0 1 4 n 0 0 3 2 0 0 5 Node 8 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 0 ,00 Passagem 0 ,00 Intermédias 100 ,00 Bairro >'s 0 ,00 Total (17 ,39) <=1 n 0 0 0 0 4 0 4 Node 9 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 0 ,00 Passagem 100 ,00 Intermédias 0 ,00 Bairro >'s 0 ,00 Total (8 ,70) >1 n 0 0 0 2 0 0 2 Node 42 Category % Passagem >'s 0 ,00 Grandes 0 ,00 Bairro <'s 100 ,00 Passagem 0 ,00 Intermédias 0 ,00 Bairro >'s 0 ,00 Total (13 ,04) n 0 0 3 0 0 0 3 CHAID ≤ 831 ≤ 831 --- --- --- --- --- --- ≤4 ≤0 --- > 0,84 --- > 0,84 --- percentagem de hits no nó folha percentagem de lojas do grupo no nó folha 100% 100% 100% 75% medidas de qualidade da regra proposicional dens. edifícios construídos entre 96 e 2001 (nº/10 ha) densidade de alojamentos com proprietário ocupante 75% 100% --- > 0,84 100% 100% --- --- --- --- --- --- --- >0 --- > 0 ou s\conc. --- >2 100% 67% --- > 0,84 --- --- --- --- --- 100% 67% --- > 0,84 --- > 0 ou s\conc. >4 --- >2 67% 67% --- --- --- --- --- =0 100% 100% > 23 > 0,84 --- --- --- --- --- GRANDES 83% 100% --- > 0,84 --- > 0 ou s\conc. ≤4 --- --- > 831 67% 67% --- --- >3 --- --- >0 --- --- edifício residencial 100% 83% --- > 0,84 --- --- --- --- --- --- --- periferia urbaniz. --ou bairro >2 --- --- --- > 831 --- --- --centro urbano, centro urbano ou bairro ≤ 831 --- --- >2 --- --- centro comercial --- ≤ 831 periferia urbaniz. ----ou bairro edif. escritórios \ ------- centro comercial ----centro urbano, central transt. púb. --- centro comercial ----- ou escola \ univers.--- --- --- periferia urbanizada caracterização da área de influência - potencial nº de hipermercados identifiados por Voronoi nº de supermercados identificados por Voronoi avaliação do acesso a pé (valor - méd. concorrentes) aval. facilidade estaciona. (valor - méd. concorrentes) INTERMÉDIAS --- caracterização da área de influência - concorrência localização da loja na malha urbana tipo de edifício onde se insere a loja âncora mais importante para o tráfego avaliação da facilidade de estacionamento caracterização da loja e localização - variáveis geográficas área de vendas (metros quadrados) BAIRRO <'s PASSAGEM PASSAGEM >'s 100% 75% --- > 0,84 --- --- --- --- ≤2 --- --- --- --centro urbano ou bairro ≤ 831 75% 50% --- --- ≤3 --- --- >0 --- 100% 100% 100% --- ≤ 23 100% ≤ 0,84 --- --- --- --- --- > 0,84 --- --- --- --- --- --- --- 100% 100% --- --- --- --- --- >0 --- --- 100% 100% --- ≤ 0,84 --- --- --- --- --- --- centro --urbano edif. escritórios \ --- centro comercial --- --- --- edifício --residencial centro urbano, --- centro comercial --- centro urbano --- CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART CHAID QUEST CART BAIRRO >'s caracterização da loja e localização - dimensão VARIÁVEIS 233 L. Modelos Discriminantes Lógicos Excluindo as Lojas Abertas em 2002 Neste anexo apresentam-se regras proposicionais definidas no início de 2003. A tabela decisional apresentada segue as mesmas convenções da Tabela 7 (pág. 120). Note-se que não foi possível obter regras para as Lojas de Bairro Grandes pelo método QUEST. 234