INVESTIGAC¸˜AO OPERACIONAL
Transcrição
INVESTIGAC¸˜AO OPERACIONAL
INVESTIGAÇÃO OPERACIONAL Volume 25 — no 1 — Junho 2005 Publicação Semestral Editor Principal: José F. Oliveira Universidade do Porto Comissão Editorial M. Teresa Almeida J. Rodrigues Dias Inst. Sup. Economia e Gestão Univ. de Évora N. Maculan Univ. Fed., Rio Janeiro C. Henggeler Antunes Univ. de Coimbra Laureano Escudero IBM, Espanha Rui Oliveira Inst. Superior Técnico Marcos Arenales Univ. de São Paulo Edite Fernandes Univ. do Minho J. Pinto Paixão Univ. de Lisboa Jaime Barceló Univ. de Barcelona J. Soeiro Ferreira Univ. do Porto M. Vaz Pato Inst. Sup. Economia e Gestão Eberhard E. Bischoff University of Wales, Swansea J. Fernando Gonçalves Univ. do Porto Mauricio G. Resende AT&T Labs Research C. Bana e Costa Inst. Superior Técnico Luı́s Gouveia Univ. de Lisboa A. Guimarães Rodrigues Univ. do Minho M. Eugénia Captivo Univ. de Lisboa Rui C. Guimarães Univ. do Porto António J. L. Rodrigues Univ. de Lisboa Domingos M. Cardoso Univ. de Aveiro Joaquim J. Júdice Univ. de Coimbra J. Pinho de Sousa Univ. do Porto João Clı́maco Univ. de Coimbra J. Assis Lopes Inst. Superior Técnico Reinaldo Sousa Univ. Católica, Rio Janeiro J. Dias Coelho Univ. Nova de Lisboa Carlos J. Luz Inst. Polit. Setúbal L. Valadares Tavares Inst. Superior Técnico João P. Costa Univ. de Coimbra Virgı́lio P. Machado Univ. Nova de Lisboa B. Calafate Vasconcelos Univ. do Porto Ruy Costa Univ. Nova de Lisboa Manuel Matos Univ. do Porto Luı́s N. Vicente Univ. de Coimbra Victor V. Vidal Technical Univ. of Denmark Nota da Comissão Directiva da APDIO Do património da APDIO, a Revista Investigação Operacional é seguramente um dos componentes mais importantes. Com os anos, foi-se tornando um instrumento fundamental de partilha do conhecimento gerado pela comunidade cientı́fica portuguesa no domı́nio da IO, ao mesmo tempo que é reconhecida como revista de prestı́gio e de qualidade. Por outro lado, tem constituı́do para muitos jovens investigadores, uma primeira oportunidade de publicarem e divulgarem o seu trabalho, criando-lhes assim uma motivação adicional significativa. Esta crescente valorização deve-se em muito a um esforço continuado de regularidade na publicação (aspecto fundamental para o sucesso de uma iniciativa desta natureza), mas seguramente também ao rigor do processo editorial e da avaliação das contribuições submetidas para publicação. É por todos reconhecido que este sucesso tem um responsável que é o Joaquim João Júdice, Editor Principal da revista durante mais de 15 anos. O Joaquim João não só teve um papel fundamental nas transformações que a revista foi sofrendo ao longo dos anos, como foi sempre o seu principal impulsionador. Excepcionais foram o entusiasmo e a alegria com que, apesar das dificuldades que todos conhecemos, o Joaquim João realizou, ao longo dos anos, a sua função de Editor Principal. E tem de reconhecer-se que esse entusiasmo foi sempre um incentivo para promover a colaboração de todos, autores e revisores. Neste momento, com uma nova Direcção na APDIO, o Joaquim João cessa as suas funções (satisfazendo-se o seu desejo de interromper uma actividade que é, naturalmente, exigente e desgastante). Assim, e enquanto Presidente da Associação, aproveito a oportunidade para manifestar publicamente o meu enorme apreço pelo trabalho realizado e agradecer profundamente ao Joaquim João o extraordinário contributo que, por um perı́odo tão longo, deu à APDIO e a à causa da IO no nosso paı́s. O passado recente da revista cria-nos naturalmente enormes responsabilidades, mas estou certo de que o novo Editor Principal, o nosso colega José Fernando Oliveira saberá prosseguir e aprofundar o trabalho consolidado ao longo destes últimos anos pelo Joaquim João. Jorge Pinho de Sousa (Presidente da APDIO) R. Vidal / Investigação Operacional, 25 (2005) 1-24 1 Creativity for Operational Researchers René Victor Valqui Vidal ∗ ∗ Informatics and Mathematical Modelling Technical University of Denmark 2800 Lyngby, Denmark Abstract This paper presents some modern and interdisciplinary concepts about creativity and creative processes specially related to problem solving. Central publications of CreativityOR are briefly reviewed. Creative tools and approaches suitable to support OR work are also presented. Finally, the paper outlines the author’s experiences using creative tools and approaches to: Facilitation of problem solving processes, strategy development in organisations, and design of optimisation systems for large scale and complex logistic systems. Keywords: Creativity, Problem Solving, CPS, Facilitation, Strategy Development, Optimisation. 1 Introduction The need of using creative thinking in problem solving has been actualised during the last decades due to the radical changes experienced in industrialised countries. New information, communication and biological technologies are reshaping the material, human and social basis of Society. Therefore, decision-makers have been emphasising the crucial need for creativity and innovation to be able to utilise the new opportunities and to solve the many serious problems that Society is facing today. The above-described situation implies that OR workers are facing new demands: problem solving in collaboration with a group of stakeholders. The main qualification in this respect is the ability to facilitate change processes, involving participants actively and being able to regard the problematic situation in relation to a dynamic context of different environments. The essence is the ability to alternate between modes of rationality, reflection and creativity in cooperation with the stakeholders, rather than being locked into one of these modes. c 2005 Associação Portuguesa de Investigação Operacional 2 R. Vidal / Investigação Operacional, 25 (2005) 1-24 Creative thinking is an area that has largely been disregarded in the OR curricula and almost totally ignored in the quantitative modelling disciplines. Nevertheless, the successful application of OR in the real world usually depends on a high degree of creativity and ability to innovate. This situation is even more paradoxically if we take into consideration that the great masters of our discipline: Russ Ackoff, George Dantzig, Arne Jensen, Stanford Beer to mention some few, have shown both creative and rational thinking in their work. The main purpose of this paper is to present some concepts, tools, and approaches from the broad interdisciplinary field known as Creativity and Problem Solving that will enrich the toolbox of the OR workers and that will complement the traditional rational approaches. In Section 2 several conceptualisations of the term “creativity” are discussed, a definition is presented and a set of common barriers to individual creativity is outlined. The main OR publications related to the theme of this paper will be briefly reviewed in Section 3, there are so few publications that an extensive review is easily done. In this section it is concluded that there is a need to enhance creative thinking in OR. Interdisciplinary research work related to several aspects of creativity and creative processes has exploded during the last decades. An overview of this research work is presented in Section 4. From this overview, we have decided to focus on creativity tools and approaches specially related to problem solving because of their immediate relevance to OR. In Section 5 some of the most popular tools are shortly presented. The Creative Problem Solving approach, a 6-steps process to deal with large scale and complex problems in a creative way, is presented in Section 6. It is usually while facilitating groups in problem solving tasks that OR workers need to use creative tools and methods. In the next three sections the author’s experiences using creative thinking will be discussed. Hence, Section 7 presents the concepts behind the socalled Vision Conferences: a participative workshop designed to facilitate creative problem solving. Strategic development in organisations is the theme of Section 8, while Section 9 is dealing with the design of computerised optimisation systems for large scale and complex problems. Finally, Section 10 presents the last remarks. 2 What is Creativity? E. Paul Torrance (Millar, 1997) has been a pioneer in creativity research and education for more than 50 years. Torrance sees creativity as a process and has developed a battery of tests of creative thinking abilities. He believes that all individuals are creative and that creativity can be enhanced or blocked in many ways. He considers creativity developmentally, opposite to those who believe that a persons creativity was established at an early age (two or three years old), however his research has shown that creativity does not develop linearly and that it is possible to use activities, teaching methods, motivation and procedures to produce growth, even in ageing. Torrance asserts that creativity is an infinite phenomenon; you can be creative in an endless manner. You find creativity in many apparently different areas: humour (haha), science (aha) and art (ah). Koestler (1976) presents the theory that all creative activities - the conscious and unconscious processes underlying artistic originality, scientific discovery, and comic inspiration R. Vidal / Investigação Operacional, 25 (2005) 1-24 3 have a basic pattern in common. He calls it ”bisociative thinking” - a concept he coined to distinguish the various routines of associative thinking from the creative jump which connects previously unconnected frames of references and makes us experience reality on several planes at once. Koestler introduced the concept of a ”matrix” to refer to any skill or ability, to any pattern of activity governed by a set of rules - its ”code”. All ordered behaviour, from embryonic development to verbal thinking is controlled by the rules of the game, which lend it coherence and stability, but leave it sufficient degrees of freedom for flexible ”strategies” adapted to environmental conditions. The term code is deliberately ambiguous, and reflects a characteristic property of the nervous system: to control all bodily activities by means of coded signals. The concept of matrices with fixed codes and adaptable strategies, is proposed as a unifying formula, and it appears to be equally applicable to perceptual, cognitive, and motor skills and to the psychological structures variously denominated frames of reference, associative contexts, universal discourse, mental sets, schemata, etc. These silent codes can be considered as condensation of learning into habit or associative thought. Bisociative thought is the challenge of habit by creativity. The creative person We can characterise at least three types of creative persons. First, the problem solver where the person (subject) is trying to solve a problem (object) in a creative way, this is the case of OR workers, engineers, scientists, advisers, etc. Secondly, the artistic person (subject) who creates a new piece of art (object) usually it will be a close interaction between the subject and object, the “soul of the artist” will be in the object, this object can be a product (painting, music, film) or a process (dance, theatre, performance). And thirdly, the persons that adopt creativity as a life-style being creative at work, at home and everywhere, both in an extrovert and introvert way (inventors, artists, mode designers, etc). Amabile (1983) has documented that creativity in each individual has three components: expertise, creative-thinking skills and motivation. Expertise is in a few words knowledge in its many forms: technical, procedural and intellectual. Knowledge can be acquired both theoretically and practically. Learning to learn is an important tool for becoming an expert in modern Society. Creative-thinking skills determine how flexibly and imaginatively people approach problems and tasks. It demands courage to be creative because you will be changing the status quo. Individuals can learn to be more creative and can learn to use creative tools in problem solving. Motivation is the last component. An inner passion and desire to solve the problem at hand will lead to solutions far more creative than external rewards, such as money. This component, usually called intrinsic motivation, is the one that can most immediately be influenced by the work environment. Amabile’s research has identified six general categories that support creativity: Challenge, freedom, resources, work-group features, supervisory encouragement, and organisational support. Teresa Amabile (1998) after many years of research focusing on creativity within organisations has also concluded that individual creativity gets killed much more often that it gets supported. Mostly, it is not because management has a vendetta against creativity, it is undermined unintentionally because of the optimisation of short business imperatives: coordination, productivity, efficiency and control. Her research has shown that it is possible to develop organisations where both profit and creativity flourish, but you need a conscious strategy. Torrance’s research has also shown that children’s creativity gets killed in the primary 4 R. Vidal / Investigação Operacional, 25 (2005) 1-24 schools and it is possible to design schools and education systems where both rational and creative work flourish (Goff, 1998). Amabile (1998) has also drawn attention to the crucial importance of intrinsic motivation in creative endeavour. Business has traditionally rewarded people extrinsically with pay and promotion but creative actions often arise out of a longstanding commitment to and interest in a particular area. She appreciates this is only one part of the equation, and that expertise in the domain concerned, and sufficient mental flexibility to question assumptions and play ideas, are also important. In addition, she points out the critical importance of challenge, for instance, matching people to tasks they are interested in and have expertise in, permitting people freedom as to how they achieve innovation, setting a sufficiently diverse team the task of innovation, along with sufficient resources, encouragement and support. It is difficult to give a simple and general definition of creativity. It is easier if we focus to study creativity in relation to problem solving tasks. Herrmann (1996) gives a short definition that encapsulates many other definitions presented in the literature: “What is creativity? Among other things, it is the ability to challenge assumptions, recognize patterns, see in new ways, make connections, take risks, and seize upon chance.” Let us elaborate a little more on this definition: Challenge assumptions means questioning the basis of the problem formulation; recognise patterns because usually chaos and complexity are caused by simple patterns which, when recognised, lead us to the solution to the problem; see in new ways means looking for patterns from different perspectives: a rational or logical, an organisational or procedural, an interpersonal or emotional, and an experimental or holistic; make connections, or “bisociate”, because many creative ideas are the result of synergy occurring between two thoughts or perceptions; take risks because there always exists the probability that your ideas will lead to failure due to many factors out of your control; and seize upon a chance means to take a calculated risk in order to take advantage of an opening that allows to move forward toward a creative solution. In addition, a response is creative if it is heuristic rather than algorithmic. A heuristic is an incomplete guideline or rule of thumb that can lead to learning or discovery. An algorithm is a complete mechanical rule for solving a problem or dealing with a situation. Thus, if a task is algorithmic it imposes its own tried-and-true solution. If a task is heuristic it offers no such clear path, you must create one. Barriers to Creativity To be creative you have to be open to all alternatives. This open mindedness is not always possible to meet because all humans build up blocks or mental locks in the maturation and socialisation process. Some of those locks can have external causes, such as family environment, the educational system, and organisational bureaucracy. Other blocks are internally generated by our reactions to external factors or by physical factors. A key to improve your creativity is to become aware of your locks and do something about them. While everyone has blocks to creativity, blocks vary in quantity and intensity from person to person. Most of us are not aware of our conceptual blocks. Awareness not only permits us to know our strengths and weakness better but also gives the needed motivation and knowledge to break down these blocks. Adams (1986) identifies the mental locks as perceptual, emotional, cultural, R. Vidal / Investigação Operacional, 25 (2005) 1-24 5 environmental, and intellectual. Perceptual locks are obstacles that restraint us from clearly perceiving either the problem itself or the information needed to register the problem. It is well known that our eyes can deceive us in observing some figures. Our perceptions are not always accurate. Emotional locks restrict our freedom to investigate and manipulate ideas. They prevent the communication of our ideas to others. These locks are also called psychological barriers and are the most significant and prevalent blocks that impede innovation. Fear of something new is a common characteristic of many individuals in the developed world. Cultural locks are adapted by exposure to a given set of cultural patterns. The culture of the industrialised countries trains mental playfulness, fantasy and reflectiveness out of people by placing stress on the value of efficiency, effectivity and moneymaking. Taboos and myths are predominant blocks to creative behaviour. Therefore, it needs courage to be creative in a culture that does not support creative changes. Our near social and physical environment imposes environmental locks. Creative persons have usually had a childhood where they were free to develop their own potentialities. We have seen that Amabile (1998) has documented that organisational climate can be a barrier or a stimulus to creative activities. Intellectual locks are caused by conservatism and lack of willingness to use new approaches. The same approaches, the same tools and the same persons are tackling the same problems for years. Persons with intellectual locks are usually very negative to changes and are fast to criticise new proposals. The Systems View of Creativity Creativity is usually seen as a mental process but creativity is also a cultural and social activity. Csikszentmihalyi (2001) asserts that any definition of creativity will have to recognise the fact that the audience is as important to its constitution as the individual who is producing novelty. This environment has two main aspects: • The domain, a cultural or symbolic aspect, and • The field, a social aspect. For creativity to occur, a set of rules and practices must be transmitted from the domain to the individual. The individual (or a group) must then produce a novelty in the content of the domain. The field for inclusion in the domain then must select the novelty. Creativity occurs when a person (or a group) makes a change in a domain, a change that will be transmitted through time. But most novel ideas will be forgotten if some group does not accept them entitled to make decisions as to what should or should not be included in the domain. These gatekeepers are the field. The field is the social organization of the domain, those who decide what belongs to a domain and what does not. Therefore the occurrence of creativity is not just a function of how many gifted individuals there are, but also of how accessible the various symbolic systems are and how responsive the social system is to 6 R. Vidal / Investigação Operacional, 25 (2005) 1-24 novel ideas. Csikszentmihalyi has outlined a systems theory of creativity, relating creative effort by individuals to the state of the domain they are working in and the characteristics of those who assess the worth of the creative endeavour in the field concerned. This offers a penetrating analysis of how creative endeavour emerges within a social field. Drawing on years of research in the field, he hypothesises about the interplay between knowledge about the domain, gatekeepers in the field and creative individuals. In addition, many of the points made by him in relation to other domains apply equally well to creativity and innovation in organisational settings. Csikszentmihalyi has drawn attention to the social context out of which creativity and innovation emerge. For example he has demonstrated the beneficial role of working at a place and time in which other individuals are engaged in related creative activities. 3 Creativity in the OR literature It is commonly accepted that real life problem solving supported by OR is both a science and an art (Ackoff, 1978). There are many publications and research work about the science (the rationality) of problem solving: decision analysis, modelling, optimisation, simulation, algorithms, heuristics, statistical analysis, validation, and so on. On the other hand, relatively little has been written about the art (the creativity) of problem solving, this topic has been largely ignored in spite of the fact that creativity is a powerful element of the OR problem solving process. There are so few references that an extensive review is easily done. One of the first papers about creative thinking in modelling is by Morris (1967). He argues that model building is very much an art, and as such, requires a significant amount of creativity. He has provided one of the few discussions of this aspect of modelling and emphasises the modelling process as being intuitive, and as such it can be supported by creative techniques. Morris suggests specific steps to help individuals acquire modelling skills. The following book appeared in 1978: The Art of Problem Solving (Ackoff, 1978). This is probable the first book about creative problem solving in OR. Ackoff has shown decisionmakers the way to more creative, artful problem solving. This book is a practical guide that shows you step-by-step how to develop an understanding of the art of creative thinking and the design of creative solutions to planning problems. Later, Ackoff and Vergara (1981) published a remarkable paper, an invited review of the research on creativity of relevance to problem solving and planning. This paper presents several approaches for enhancing creativity. In this context, creativity is restricted to “the ability of a subject in a choice situation to modify selfimposed constraints so as to enable him to select courses of action or produce outcomes that he would not otherwise select or produce, and are more efficient for or valuable to him than any he would otherwise have chosen.” Ackoff (1993) recommends the use of idealised design or redesign of a system and its environment in creating corporate visions for an organisation. Such a design is one that the stakeholders in the system would have now if they could have any system they wanted. Evans (1989, 1991a) has done important work in connecting Creativity and OR. The first publication is a double paper given the foundations for the second one, the only book on Creativity and OR. The purposes of these publications were: To review the diversity of literature about creativity, to examine the use of creative problem solving techniques to R. Vidal / Investigação Operacional, 25 (2005) 1-24 7 enhance OR methodology, and to offer insights and suggestions for integrating creativity into the practice and education of OR. In the period of 1991-1993 a series of papers related to Evans’ research were published in Interfaces, see for instance Evans (1991b, 1992, 1993a, 1993b). The work of Evans has been restricted to mathematical modelling and has not had major impact in the field. Saaty (1998) advocates the need for a systemic integration of the diverse approaches used in quantitative OR within a single framework for all areas, including dependencies and feedback among influences to maintain the full integrity of the problems we solve using creativity and intelligence to move the process of creating a theory beyond the traditional process of problem solving. Now-a-days it is not sufficient to talk about OR in general, we have to specify whether we are dealing with hard, soft or critical OR, see Mingers (1992) for a meta-theoretical discussion of these different modes of practicing OR. Usually, hard or technical OR is focusing on mathematical modelling and model solving, soft or practical OR is concerned with participation and negotiation using soft methods and critical OR is preoccupied by the problems of alienation and empowerment while using hard and/or soft OR. Obviously, the creativity tools to be discussed in the next sections are of central relevance to the different modes of OR, it is in this sense that we can talk about technical creativity, social creativity and critical creativity. Keys (2000) argues that the place of creativity, design and style in OR has never been doubted but there has not been a unified approach to understanding the varied and significant roles they play. In this paper a means of examining creativity, design and style is presented that seeks to show the key role that they play in explaining how practice in OR goes beyond the application of technique and involves analyses in a rich mix of processes and activities. Thus, hard OR leads to an emphasis upon the creativity involved in understanding situations and designing tools, usually quantitatively or IT based, to support decision makers, such a focus is called “technical creativity”. On the other hand, soft OR leads to an emphasis upon the creativity involved in managing the relationships between consultants and clients and the design of such processes (the facilitation of problem solving processes), such a focus is called “social creativity”. A further discussion of this hard/soft paradigm related to creativity and OR problem solving can be found in Tsoukas and Papulias (1996). It can be concluded that in the different OR schools, there is a tremendous need to: • Introduce modern interdisciplinary concepts about creativity, • To adopt creative tools and approaches that can be included in the OR toolbox to complement the traditional hard and soft rational approaches, and • To show how creativity methods can be used in the practice of OR workers. 4 Creativity Research The description of the incubation or discovering process by the French mathematician Henri Poincaré (1854-1912) was the beginning of creativity research. Based on these experiences the psychologist Wallas (1926) formulated a four step creative problem solving process: preparation, incubation, illumination, and verification. Incubation and illumination characterise the 8 R. Vidal / Investigação Operacional, 25 (2005) 1-24 individual’s creative process. Incubation involves the flashes of insight while in the process of puzzling over a problem or dilemma, mulling it over, fitting the pieces together, trying to figure it out, this the part of the creative process that calls for little or no conscious effort. The flashes of insight come while you are going to sleep, travelling, dreaming, taking a shower, reading a newspaper, relaxing or playing (Eureka experience). Research on creativity was intensified after the Second World War. In the 1950s American psychologists started to investigate the mental origins of creativity and develop creativity tests, the works of Torrance and Guilford started at this time. In Europe, Koestler’s research work was carried out during the 1950s and his monumental book, ”The Art of Creation”, was first published in 1966. Stenberg (1999) has edited a book presenting an overview of 50 years of research in the creativity field. Nowa-days creativity research work can be classified in the following five domains: the product, the environment, the personality, the process, and learning and cognition. The product Focusing on the tangible that is new, useful, original, surprising, etc., this includes works of art, scientific discoveries, inventions, consumer goods, problem solving, adaptations, modifications, etc. Product innovation is usually the main theme in the broad field denominated as Design. Buchanan (Buchanan and Margolin, 1995) writes: “Design is a humanistic discipline – the art of conceiving, planning and realizing all of the products that are made by human beings to serve human beings in accomplishing their individual and collective purposes.” Bionics is the name given to borrowing ideas for novel products or processes from nature. The list of improvements inspired by an observation of nature is very long. The inventor of the ballpoint pen was allegedly walking through a park on a frosty morning and watched some youngsters rolling a ball down a slope covered with dew. The brilliant idea was to make the connection between what he saw and the apparently un-connected problem he had on trying to improve the liquid-ink-based fountain pen. The environment Focusing on the organisational culture or climate that encourages or kills creativity. There will be things that happen either formally or informally and either of these may in turn help or hinder; there may also be things that the organisation does not do that affect the quality of problem solving. Environmental factors conducive to creative thinking include: The freedom to do things differently, an environment that encourages risk taking and self-initiated projects, and provides help and time for developing ideas and individual efforts; an optimal amount of work pressure, a no punitive environment, a low level of supervision, resources and realistic work goals; shared responsibilities, timely feedback, confidence in and respect for co-workers, and shared decision-making (participation); interaction with others outside the work group; and open expression of ideas, particularly of-the-wall ideas. All these factors will increase individual motivation and the happiness of enjoying your work, essential elements for creative and innovative work. Many organisations do not foster these conditions. Cultural change, education, and training are necessary within a global strategy to develop an action plan to make an organisation more creative. Managers at all levels, especially engineers and scientists, educators, and graduate students have much to gain from understanding how to foster a creative climate. Barriers to creativity include habits and routines, judgmental thinking, R. Vidal / Investigação Operacional, 25 (2005) 1-24 9 oppression and hierarchy, and various perceptual, emotional and cultural blocks seen in the last section, see further Amabile (1983, 1998) The personality Focusing on the characteristics of the individual who creates. Factors such as temperament, personal attitudes, and habits influence creativity. Creative thinking is largely a function of divergent thinking - the discovery and identification of many alternatives. Psychologists have performed considerable research on the characteristics of creative individuals that promote divergent thinking. These included: knowledge, imagination, evaluative skills, awareness and problem sensitivity, capability to redefine problems, memory, ideational fluency, flexibility, originality, penetration, self-discipline and persistence, adaptability, intellectual playfulness, humour, nonconformity, tolerance for ambiguity, risk taking, self-confidence, and scepticism. Recent research has shown that creativity is more than just divergent thinking. The two complementary patterns of convergent and divergent thinking must run alongside one another. Gardner (1983) has identified seven kinds of intelligences or pathways to learning: linguistic (writers and speakers), logical-mathematical (scientists), musical (composers), spatial (visual artists), bodily kinaesthetic (dancers, athlete), interpersonal (educators), and intrapersonal (therapists). It could be possible to think of creativity in the same way. However, creativity scholars and practitioners have not made any move in this direction, but they have recognised that there are many ways of being creative. The intelligence testing (IQ) movement originated in attempts to predict academic competence. Using familiar situations with prior knowledge and reasoning (intelligence) may be sufficient to solve some problems or dilemmas. However, there are instances in everyday life in which new and different problems and dilemmas emerge, which require some cognitive bridging or creativity. Results have been published showing that there is not a meaningful correlation between intelligence (essentially IQ) and creative problem solving (Goff, 1998) Maslow (1987) distinguishes between ”special talent creativeness” and ”self-actualising creativeness” and he found that creativity is a universal characteristic of self-actualising people. Self-actualisation may be described as the full use and exploitation of talents, capacities, potentialities and the like. Such people seem to be fulfilling themselves and doing the best that they are capable of doing. He identified the following characteristics of self-actualising creativeness: perception or fresh appreciation and wonder of the basic good of life; expression or ability to express ideas and impulses spontaneously and without fear of ridicule from others; childlike or innocence of perception and expressiveness, natural, spontaneous, simple, true, pure and uncritical; affinity for the unknown; resolution of dichotomies or the ability to synthesise, unify, integrate; and peak experiences or fearless, wonderful, ecstatic experiences which change the person and his/her perception of life. Their codes of ethics tend to be relatively autonomous and individual rather than conventional. They regard upon the world with wide, uncritical, undemanding, innocent eyes, simply noting and observing what is the case, without either arguing the matter or demanding that it be otherwise. Self-actualising creativeness is ”emitted”, like radioactivity, and it hits all of life, regardless of the problems. Maslow (1987) mischievously wrote: ”Science could be defined as a technique whereby noncreative people can create”. 10 R. Vidal / Investigação Operacional, 25 (2005) 1-24 The process Focusing in the way that creative solutions and products were developed. Wallas’ four-stage model has given inspiration to the development of approaches to be used by individuals or groups in the creative solving process. In the next two sections we will see some of these methods. Some definitions of creativity are closely related to the process of sensing problems, forming ideas or hypotheses, testing and modifying these assumptions and communicating the results. In this respect creativity is the ability to see a situation in many ways (divergent thinking) and continue to question until satisfaction is reached (convergent thinking). The creative process can involve tiny creative leaps or giant breakthroughs. Both require that an individual or a group go beyond where they have gone before, embracing the unknown, the mysterious, the change, and the puzzling without fear. The creative process may be considered as a new way of seeing, a different point of view, an original idea or a new relationship between ideas. It is the way or manner in which a problem is solved. It is the process of bringing something new into being. It is the process of combining previously unrelated ideas or perceiving a new relationship from previously unrelated ideas. Whether solving problems alone or in a group, you really must have a guided process i.e. a plan or a map of the steps to be followed. This is especially so in a group due to the need to align the capabilities of the members in a positive way. This map is usually called the creative problem solving process and under this denotation there exists a huge number of methods, tools and techniques to support the creative process. It is also a good idea to facilitate the group creative process. The facilitator will support the process, will elaborate a plan of the steps to be followed and will manage the whole process to secure that an action plan will be elaborated and implemented. Learning and Cognition This research area is focusing in the abilities of creative learning, thinking and cognition in relation to problem solving. All these activities are related to the physiology of thinking and therefore to the function of the human brain. Creative learning is a natural, healthy human process that occurs when people become curious or excited about understanding or knowing more. Anytime we are faced with a problem or dilemma with no learned solution, some creativity is required. Creativity, by its very nature, requires both sensitivity and independence. In our culture, sensitivity is a feminine virtue while independence is a masculine virtue. Landrum (1994) outlines some specific differences between male and female approaches to learning. The female approach can be characterised as based on: negotiations, feelings, understanding, personal relationships, intuition, and win-win outcomes. The male approach is based on: aggressiveness, competition, ego gratifying, impersonal relationships, and win-lose outcomes. All people learn trough their senses: touching, smelling, tasting, feeling, hearing and seeing. According to Matte and Henderson (1995) more than half of the population in the USA are visual learners (they want to read it). The rest of the population are with fifty percent probability either auditory (they want to hear it) or kinaesthetic (they want to experience it). The understanding of different forms of cognition and creativity is related to the structure and function of the brain, a research area known as neuro-psychology that has undergone a huge expansion and that has contributed to the understanding of individual creativity. R. Vidal / Investigação Operacional, 25 (2005) 1-24 5 11 Which tools? We have seen a variety of abilities that characterises creative individuals or groups. Four of the key abilities will be discussed in this section as well as tools to enhance them in concrete problem solving situations. They are: Fluency, flexibility, originality and elaboration. In this section we will only present some few tools, those being the most popular and especially suitable for group work. Higgins (1994) presents many other tools and at the end of the list of references addresses of the best-known creativity home pages are presented. Fluency Fluency is the production of multiple problems, ideas, alternatives or solutions. It has been shown that the more ideas we produce, the more likely we are to find a useful idea or solution. Fluency is a very important ability especially in the creative problem solving process. To have too few alternatives is not a good thing in problem solving, especially if you have to be innovative. There are many tools for producing ideas, alternatives and solutions. Several researchers have shown that training and practice with these tools cause a better fluency. One creative tool, which has been widely used with big success for generating many ideas, is Brainstorming. Osborn (1953) invented it for the sole purpose of producing checklists of ideas that can be used in developing a solution to a problem. The tool is directed to generating unconventional ideas by suppressing the common tendency to criticise or reject them summarily. He tried to separate idea-evaluation from idea generation because he believed that if evaluation comes early, it reduces the quantity and quality of the ideas produced. Therefore in a Brainstorming session no criticism is permitted, and freewheeling generation of a large number of ideas and their combination and development are encouraged. Brainstorming is founded on the associative premise that the greater the number of associations, the less stereotyped and more creative the ideas of how to solve a problem will be. However, nothing in Brainstorming is directed at changing the assumptions or paradigms that restrict the generation of new ideas. This is an excellent technique for strengthening fluency, fantasy, and communication skills. It is a good idea to have a facilitator to prepare and warm-up the Brainstorming session, to lead and support the session, and to evaluate the whole process. This tool gives the possibility for the group to use more than one brain achieving a synergetic effect. Generate a multitude of ideas and some of them will be truly useful, innovative and workable. Asking individuals for inputs gives them an increased sense of importance and produces an atmosphere for truly creative and imaginative ideas to surface and be acknowledged. Brainstorming combined with other methods has been used for a wide diversity of problems, including not only marketing and product issues but also strategy development, planning, policy, organisation, leadership, staffing, motivation, control, and communication. However, this tool is not appropriated for broad and complex problems demanding high-qualified expertise and know-how. Some of the ideas produced may be of low quality or obvious generalities. Brainstorming is not a good idea for situations that require trail and error as opposed to judgement. 12 R. Vidal / Investigação Operacional, 25 (2005) 1-24 Flexibility Flexibility is the ability to process ideas or objects in many different ways given the same stimulus. It is the ability to delete old ways of thinking and begin in different directions. It is adaptive when aimed at a solution to a specific problem, challenge or dilemma. Flexibility is especially important when logical methods fail to give satisfactory results. Looking at modern paintings requires flexibility, they demand looking from different perspectives in order to see different objects, images and symbols. Seeing persons or objects in the clouds requires the flexibility of seeing concrete shapes in cloud formations. Flexible thinking provides for changes in ideas, detours in thinking to include contradictions, differing viewpoints, alternative plans, differing approaches and various perspectives of a situation. A family of creative tools, known as verbal checklists, has been created to enhance flexibility in the creative process. Usually this is a checklist of questions about an existing product, service, process, or other item to yield new points of view and thereby lead to innovation. Osborn (1953) has developed a very extensive verbal checklist while he was a partner of a major US advertising firm. The idea behind the verbal checklist is that an existing product or service can be improved if one applies a series of questions to it and pursues the answers to see where they may lead. The main questions take the form of verbs such as Modify? or Combine? These verbs indicate possible ways to improve an existing product or service by making changes to it. Then you add definitional words to the verb, for instance combine ideas, combine appeals, combine purposes, combine units, etc. Elberle (1971) developed a short verbal checklist known as the SCAMPER technique to assist people in improving their flexible thinking. When using such checklist, you will usually follow the following steps: • Identify the product or service to be modified • Apply each of the verbs on the checklist to suggest changes in the product or service • Make sure you use many definitional words for the listed verbs, and • Review your changes to determine which one meets your solution criteria. Another important tool for encouraging flexibility is the use of provocative questions. These questions will open up a situation to a broader and deeper direction of thinking which otherwise might not be produced or considered. They encourage people to think about ideas or concepts they have not thought about previously. Some provocative questions can be: What would happen if: water tasted like whisky? Cats could bark? Women could fly? How is: A PC like a ship? A flower like a cat? A sunset like a lake? A car like a fork? What might happen if: It never was Sunday? It was against the law to be perfectionist? People were not creative? Image what might happen if: By law it was forbidden to have children? Cars could fly? Men could have children? Originality Originality means getting away from the obvious and commonplace or breaking away from routine bound thinking. Original ideas are statistically infrequent. Originality is a creative R. Vidal / Investigação Operacional, 25 (2005) 1-24 13 strength, which is a mental jump from the obvious. Original ideas are usually described as unique, surprising, wild, unusual, unconventional, novel, weird, remarkable or revolutionary. You need courage to be creative, because as soon as you propose a new idea, you are a minority of one. Belonging to a minority is unpleasant. In addition the original thinker must be able to withstand the ridicule and scepticism, which will be directed toward his/her ideas and himself/herself. To enhance creativity we have to be respectful of unusual or crazy ideas or alternatives. Picture Stimulation is a very popular technique used to provide ideas beyond those that might be obtained using brainstorming. The members of the group will look at a set of selected pictures and relate the information gained from the picture to the problem, otherwise the rules of brainstorming should be followed. Photo excursion uses the same principles of picture stimulation but instead of using prepared pictures for stimulation, participants are required to leave the building walk around the area with a (Polaroid or digital) camera, and take pictures of possible solutions or visual ideas for the problem; when the group reconvenes, ideas are shared. Another related technique is the Object Stimulation tool where instead of pictures a variety of different objects (e.g. a hammer, a pencil, a board game, etc.) will be used. Sometimes you can use words instead of pictures or objects, an associate them to your problem. Originality can also be enhanced by analogies and metaphors. An analogy is a comparison of two things that are essentially dissimilar but are shown through the analogy to have some similarity. A metaphor is a figure of speech in which two different universes of thought are linked by some point of similarity. In the broadest sense of the term, all metaphors are simple analogies, but not all analogies are metaphors. Nature is a good source to provide analogies. Poetry is a good source of metaphors. Similes are specific types of metaphors that use the words ”like” and ”as” - for instance, the wind cut like a knife; his hand was as quick as a frog’s tongue, he sees like a condor and digs as fast as a mole. Similes can be used to suggest comparisons that offer solutions. Elaboration Mind Mapping is a visual and verbal tool usually used to structure complex situations in a radial and expanding way during the creative problem solving process. A mind map is by definition a creative pattern of related ideas, thoughts, processes, objects, etc. It is difficult to identify the origin and the creator of this technique. It is probable that this tool has been inspired by research on the interplay between the left and the right hemisphere of the brain. It can also be dated back to experiments with the brain and accelerated learning. It has been, among others, Buzan (1983) who has made Mind Mapping a well-known technique with many applications. The principles to construct mind maps are few and easy to understand. The best way to learn it is by practice. After short time you will do it automatically. If it is difficult for adults it is because they think linearly and take notes in a linear way (using the left hemisphere of the brain). To make mind maps you have to draw ideas from the centre of the paper and move in a radial and parallel way, to do that you have to use both your creative and your logical brain. With some experience you develop your own style, your own pallet of colours, your own symbols, your own icons, etc. 14 R. Vidal / Investigação Operacional, 25 (2005) 1-24 A Mind Map contains usually the following elements: • The subject or the problem that has to be studied or analysed will be placed in the centre of the paper • Keywords (names or verbs) are used to represent ideas, as far as possible only one word is used in a line • The keywords are connected to the centrum through a main branch and sub-branches • Colours and symbols are used to emphasise ideas or to stimulate the brain to identify new relations • Ideas and thoughts are permitted to arise free; too much evaluation is avoided during the period of elaboration of the map. When constructing a mind map, it is a good idea to start from left to right building main branches in a circular way. Then, to continue drawing sub-branches moving in a circular way until the whole sheet of paper is fill up with ideas. That is, you have been moving following an expanding spiral pattern. Then, move in the reverse way following a contracting spiral pattern supplementing the map with new ideas and connections. These spiral movements provoke the interplay between the creative and the logical parts of the brain, combining holistic thinking with particular details of the subject or the problem in question. 6 The Creative Problem Solving Process Experience has shown that it is a good idea in a creative problem solving process to start with divergent thinking to produce as many ideas or solutions as possible and thereafter to switch to convergent thinking to select the few most promising ideas. This is usually illustrated in the form of a diamond. Some of the rules for divergent thinking are: • Image, reframe and see issues from different perspectives • Defer judgement (criticism or negativity kills the divergent process), be open to new experiences • Quantity breeds quality, to have good ideas you need lots of ideas • Hitchhiking is permitted, in this way a synergetic effect can be achieved • Combine and modify ideas, in this way you can create many ideas • Think in pictures, to create future scenarios you can even simulate potential solutions • Stretch the ideas, imagine ideas beyond normal limits, and • Do not be afraid to break paradigms, avoid destructive criticism, and to add value to the challenged concept. R. Vidal / Investigação Operacional, 25 (2005) 1-24 15 Some of the rules of convergent thinking are: • Be systematic, find structure and patterns in the set of produced ideas • Develop ways to evaluate ideas, assess qualitative and quantitative measures of ideas • Do not be afraid of using intuition, this is the way most important decisions are taken • Avoid quickly ruling out an area of consideration, take your time or better sleep on it • Avoid idea-killer views, try the impossible • Satisfy, do not expend too much time in looking for the optimal solution of an illstructured multi-criteria problem • Use heuristics, use common sense and experience based rules, and • Do not avoid but assess risk, this does not mean being blind to risks, for serious consequences be sure to have a contingency plan. As we will see below, creative problem solving processes always contain phases of divergent and convergent thinking. Divergent thinking produces as many solutions as possible within the available time. The participants will vary in the way they prefer to produce ideas; some will do it by association, others by unrelated stimulus. Convergent thinking on the other hand requires the participants to use skills in reality testing, judgement and evaluation to choose the one or two best options from a number of possibilities. It is not unusual that in a group some members will very easily diverge, that is build a list of alternatives, while others will converge very fast by trying to select the best solution from the list and the rest will be passive not knowing what is required of them. Hence the need of a facilitator, he or she designs a clear and visible process to align the group. The CPS (Creative Problem Solving) Approach Osborn (1953) described several basic steps to support groups and individuals to be more successful in creative problem solving. Later, based on these proposals, several researchers have formalised and extended these ideas into a systematic approach to creative problem solving known as the CPS approach or process. 4-steps, 5-steps and 6-steps models have been proposed. Here we present the most general version. It is called the 6-diamond model (Courger, 1995), where the upper part of each diamond represents the divergent sub-processes and the lower part corresponds to the convergent sub-processes. The 6 steps are: • Mess finding: Identify areas of concern. Generate ideas about possible problematic situations from a holistic viewpoint. Identify the three most critical and general problems. Select one for further work. • Fact finding: Observe carefully, like a video camera, while collecting information and data about the problem situation. Both objective facts and subjective experiences should be collected, explored and identified. 16 R. Vidal / Investigação Operacional, 25 (2005) 1-24 • Problem finding: Fly over the challenge or the problem by considering different ways of regarding it. Think about those possibilities. • Idea Finding: Search for a variety of ideas, options, alternatives, paths, approaches, manners, methods and tools. Select potential solutions or ideas. • Solution finding: Dig about the ideas in new and different ways, from other viewpoints and criteria. Assess the consequences, implications, and reactions to the selected ideas. Select ideas and solutions to develop an action plan. • Acceptance finding: Develop ideas about how to implement the action plan. Search for ways of making the ideas or solutions more attractive, acceptable, stronger, more effective, and/or more beneficial. Develop a working plan for implementation. Considerable research into the CPS process shows that a willingness to consider alternatives, to take some risks, to venture into insecure land, and to tolerate some uncertainty and ambiguity are important; see further Parnes (1997). Let us now focus on the different types of creative sub-processes that are needed at each step of the 6-diamond model: • Mess finding. Here we will have the following creative sub-processes: Fluency, flexibility, originality, deferred judgement, and evaluation • Fact finding. Here we will have the following sub-processes: Analysis and evaluation. • Problem finding. Here the main sub-process is synthesis. • Idea finding. Here we will have the following sub-processes: Fluency, flexibility, analysis, originality, and deferred judgement. • Solution finding. Here the main sub-processes are: Synthesis, elaboration and evaluation. • Acceptance finding. The following sub-processes are present: Synthesis, evaluation, originality, and flexibility. As we can see at all these stages creativity tools can be used, but depending on the problem or the situation under study, both ”hard” and ”soft” methods can also be applied especially in the convergent phase of each step in the CPS process. Depending on the size and complexity of the problem the whole CPS process might take a long time. During this process the work group at some stages will need a facilitator, an expert, or a supervisor to support the different types of decisions to be taken. These are some of the roles that the adviser or mentor of a group of students at the university working on theses or projects can take. On the other hand, a very important aspect in this respect is learning. Every person that has a “proactive” stance to life can easily learn the use of creativity tools and the CPS process. Because of their simplicity many of these tools can be used in everyday life. Children at school and elderly people can creatively empower their life by being proactive instead of reactive. Moreover, being creative in a group is usually fun; creative teams at work usually laugh a lot, see further Goff (1998). R. Vidal / Investigação Operacional, 25 (2005) 1-24 17 Depending on the actual problematic situation some more specialised approaches could be used combined with creative tools, for instance: Synectics (Gordon, 1961), Future Workshops (Jungk and Müller, 1987), TKJ (Kobayashi, 1971), SWOT (Sørensen and Vidal, 1999), The Search Conference (Emery and Purser, 1996), Idealized Design (Ackoff, 1978) and TRIZ (Kaplan, 1992) 7 The Vision Conference: Facilitating creative processes (Vidal, 2004) The Vision Conference can be conducted for a wide range of purposes. They are usually used to help organisations and group of individuals to create visions, ideas, projects, etc., about the future. These visions will then be used as input to the process of strategy development. Similarly, they can be suitable for involving diverse groups affected by imminent developments in the larger systems, which include many actors such as industries, regions and communities. The Vision Conference ideally brings together 30-60 people representing all relevant stakeholders. The participants must adequately and accurately reflect the different range of interests, but participation must be voluntary. This conference will be designed and managed by one or several facilitators. The duration might be from 3 hours to 3 days depending on the complexity of the task. We have used this concept to develop IT-strategies for primary schools (Sørensen and Vidal, 2001) and to support communities in the elaboration of ideas and projects to enhance a sustainable development of the region (Vidal, 2003). Purpose The purpose of the Vision Conference is not only to create ideas and visions about the future but ideas and visions that are suitable as a basis for the process of strategy development to be carried out by the organisation in question. The Vision Conference is both a learning and creative experience characterised by: • The organisation learns about the different actors’ ideas, wishes and visions; • The different actors communicate to each other their visions; • The participants learn to work creatively, collectively, and purposely in a large group; and • The participants learn how to design and manage (facilitate) Vision Conferences. Design and Planning Achieving such learning outcomes depends very much of how the Vision Conference is designed and managed. Two critical dimensions of Vision Conference design are: the definition of the conference task and the social organisation and management of the group. Initial definition of the task and the stages towards its completion is the responsibility of the facilitators 18 R. Vidal / Investigação Operacional, 25 (2005) 1-24 (design-managers) of the Vision Conference. In consultation with the organisation responsible for the Vision Conference and through some prior research into the relevant issues, facilitators should first: • Develop a tentative definition of purpose that will be meaningful to participants; and • Suggest a program that provides both adequate direction and sufficient scope for the participants to assume control and responsibility as the conference progresses. The primary purpose is to create the room and the opportunities for the participants to be creative, producing their visions for the future. This is possible only if both the information and ideas come from all the participants and if the group work is organised so that progress towards task completion is accepted as the participants’ as well as the facilitators- responsibility. Pre-conference It is a common belief that detailed planning at the pre-conference stage is essential to ensure that the facilitators help to create a group work at the conference that focuses on the task and that this needs tight organisation. Moreover, it is also argued that this first stage is as important as running the group work at the conference itself because without sufficient pre-planning the chances of success will be greatly reduced. On the other hand, it is our experience that too much planning and organisation might kill spontaneity and creativity in the group work. Therefore, a suitable balance should be found, a suitable framework that gives space for the development of the rational and irrational processes, and for adaptive decision-making during the facilitation of the group work. At this stage, it is of central importance that the facilitators discuss with the organisers of the conference the purpose, the task, the organisation and the management of the group work. Good time should be allocated to discuss thoroughly these themes so that at the end of this stage the organisers of the conference and the facilitators have develop a consensus about the objectives and development of the conference. This goal compatibility is of extreme importance. In addition, it should also be discussed the processes, the creative tools and techniques that might be utilised during the conference. How will the participants react to them? is a central question to be discussed intensively at this stage. The Conference At the beginning of the conference day, it is important that the facilitators explain to the participants the purpose and the agenda of the conference, before going to work in sub-groups. Explain that the agenda can be changed if necessary, and that the time schedules have to be respected to avoid too long waiting times when the participants will be meeting for the plenary sessions. In the Vision Conference some creativity tools will be used in the problem solving process. Usually the four types of tools presented in Sec. 5 are sufficient to support most problem solving processes. The facilitators should be convinced that the selected tools are the most suitable R. Vidal / Investigação Operacional, 25 (2005) 1-24 19 for the conference, but if during the sessions it is detected that the tools are not supporting adequately the facilitator should be capable of switching to other more appropriate creative tools. One thing is crucial: the participants should feel quite easy with the facilitators, the process and the used techniques, in this way it is ensured true participation. Post-conference After the conference, the facilitators have to write an accurate report of the experience. This report should include the following themes: • An outline of the background and purpose of the Vision Conference; • The results obtained at each sub-group; • The evaluation by the facilitator of the work in each sub-group; • The evaluation of the whole conference by the facilitators, including the good and bad experiences; and • What did we learn from the experience? 8 Strategy development in organisations Organisations develop usually from day to day in a smooth evolutionary process, Sometimes, it can be foreseen that the organisation should not function as usual some changes are needed. This might occur due to radical changes in the environment (external factors) or/and major alterations within the organisation itself (internal factors). In such situations radical changes in the organisation are needed. It is our conviction that in such situations the organisation should develop a strategy for change to be able to cope with the changes that the future brings about. Strategy development involves explicit formulation or formation of reachable objectives (goals and visions) for the future of the organisation. Reachable objectives mean that although strategy development focuses primarily on objectives, account is taken of means and resources available. In real-life, strategy development is conditioned by the way the organisation works while solving problems and taking decisions. Any organisation has a history and it will have a tendency to develop strategies in a similar way as problem solving is usually done in the organisation. Changing this routine demands creativity and innovation. In highly hierarchical organisations, a strategy will be a set of guidelines to establish direction for the organisation formulated by top management that has been set forth consciously in advance prior to actions. This is usually denominated strategy as a position, a plan or a ploy. This conceptualisation of strategy implies the following: Firstly, top management knows what they wish to achieve, meaning that visions and goals have been identified and explicitly formulated. Secondly, the strategies are made in advance of the actions to which they apply. Thirdly, the strategies are made consciously and purposefully. Fourthly, once the strategy has been formulated what is left is the problem of implementation; this is a rather complex and uncertain top-down process demanding a lot of planning and control. 20 R. Vidal / Investigação Operacional, 25 (2005) 1-24 A simple and practical approach to strategy development that we have used in several organisations is composed of three steps: • Diagnosis: What is the situation of the organisation now? • Visions: What should the situation of the organisation be in the future? • Action: What ought to be done? Each step can be supported by different methods. A method usually used for diagnosis is SWOT-analysis. SWOT is an acronym formed from strengths, weaknesses, opportunities and threats. SWOT gives some guidelines for the systematic analyses of the internal and external environments of an organisation. It involves the assessment and appreciation of the external factors and from those identifies opportunities and threats posed to the organisation by the external environment. Similarly, the internal factors are used to list strengths and weaknesses inherent to the current status of the organisation. The representation of strengths, weaknesses, opportunities and threats in tabular form, gives origin to the SWOT matrix. This matrix suggests four different ways of generating strategies by combining the minimisation of threats and weaknesses, and maximisation of strengths and opportunities. This approach facilitates the identification and generation of different strategic areas; it does not suggest the best strategy for a given situation. Conclusions drawn by the author based on practical use of this approach in a number of different contexts seem to indicate that it does not often bring entirely new perspectives into consideration: The participants tend to find that the matrix only confirms views which they currently hold. However, if SWOT-analysis is combined with a creative workshop, it can become a very powerful approach to strategic management because new ideas and insights can be brought into the problem. Depending on the actual situation at hand appropriate creative tools could be used (Sørensen and Vidal, 1999). At the second step different visions of the future of the organisation will be elaborated conditioned by an expected state of the environment of the organisation. At this step, the scenario method is usually the preferred approach to create visions about the future. A scenario is a story about how the future of the external environment might turn out. When developing strategic alternatives, it is useful to evaluate what that future environment may look like, so that an appropriate action plan may be produced (stage three). The following eight-step procedure is usually denominated the scenario development process (Borges et al, 2002): • Set the scene, • Generate predetermined and uncertain factors • Reduce factors and specify factor ranges • Choose themes and develop scenario details • Check consistency of scenarios • Present scenarios • Assess impact of scenarios R. Vidal / Investigação Operacional, 25 (2005) 1-24 21 • Develop ant test strategies This scenario development process will be carried out as a facilitated conference for a work group having in principle the same structure as the vision conference presented in the last section. Conclusions drawn by the author based on practical use of this approach in a number of different contexts seem to indicate that it is good idea to carry out the eight-step procedure following the principles of the CPS process, that is at each step we will start with a divergent phase and thereafter follows a convergent phase. The last stage, Action, is usually a rational process where both hard and soft methods could be used see further Sørensen and Vidal, 2004. 9 Design of decision-support systems for complex optimisation problems To design something is usually an activity related to innovation and creativity. You usually design something new and original: an object, a program or a process. In hard OR and Mathematical Programming, we are usually designing computerised systems and optimisation software to solve rather complex real-life optimisation problems, but very seldom is this design process conceptualised in terms of creative processes and tools. Much of the published literature is focusing in algorithm development, tests and implementation, which are convergent processes, completely disregarding the divergent part of the design process. Many of my MSc and PhD students in Engineering are dealing in their work with the design of computerised system to solve real-life optimisation problems in production or logistics. Such a system has to be tailored to the actual situation although some sub-problems could be solved using some standard software but the global approach is heuristic (Silver et al, 1980). In such situations the students have to use the CPS approach to deal with the problem solving process in a participative and creative way in collaboration with the users or clients and other stakeholders as planners and programmers. Engineering students are extremely efficient in the convergent phases but they have difficulties in the divergent phases that demand creativity, imagination and dialogue with the participants. My task as an advisor is to support the students in a design of a thesis and to facilitate the students’ creative problem solving processes. A typical example is a computerised optimisation system for planning of high schools examinations in Denmark. This is a large-scale logistic and combinatorial optimisation problem that has been solved using both heuristics and standard algorithms. This system has been described in Hansen and Vidal (1995). The problem solving process followed the principles of the CPS approach. The OR worker’s tasks were both: • To design optimisation approaches to be implemented by professional programmers, and • To facilitate the whole problem solving process using divergent and convergent processes involving users, planners, administrators and other experts. This system has been running for nearly 10 years and it has evolved from year to year improving the way how some sub-problems has been solved. Many of the original stakeholders 22 R. Vidal / Investigação Operacional, 25 (2005) 1-24 and experts have been changed. The only person that has secured continuity has been the OR facilitator. 10 Final Remarks Creativity is a young multidisciplinary field that will play a central role at all levels of Society in this millennium. OR workers in their professional lives, both as facilitators and as (hard and /or soft) model builders, need creativity concepts and tools to create satisfying ways of dealing with messes. There is a growing demand that educators all around Society enhance and adopt creativity in their teaching activities. Creativity is a way to cope with complexity. You need creativity to avoid the fate of specialisation. According to Heinlein (1973): “Specialization is for insects” 11 Referências Adams, J.L. (1986) Conceptual Blockbusting, Reading, MA: Addison-Wesley. Ackoff, R.L. (1978) The Art of Problem Solving, Wiley, NY. Ackoff, R.L. (1993) Idealized Design: Creative Corporate Visioning, OMEGA International Journal of Management Science, Vol. 21, No. 4, pp. 401-410. Ackoff, R.L. and Vergara, E. (1981) Creativity in Problem Solving and Planning: A review, European Journal of Operational Research, Vol. 7, No. 1, pp. 1-13. Amabile, T. (1983) The social psychology of creativity, NY: Springer Verlag. Amabile, T. (1998) How to kill creativity? Harvard Business Review, pp. 77-87. Borges, P., Sørensen, L., and Vidal, R.V.V. (2002) OR approaches for strategy development, Investigacão Operacional, Vol 22 (2) pp. 199-212. Buchanan, R. and Margolin, V. (1995) The Idea of Design, The MIT press. Buzan, T. (1983) Use both sides of your brain, NY: E.P. Dutton, Inc. Czikszentmihalyi, M. (2001) A systems perspective on creativity, In Henry, J. (Ed): Creative Management, pp. 11-26, UK: Sage Publications. Courger, J.D. (1995) Creative Problem Solving and Opportunity Finding, boyd&fraser publishing company, Danvers. De Bono, E. (1995) Serious Creativity, UK: Harper Collins. Eberle, R.F. (1971) SCAMPER: Games for Imagination Development, NY: D.O.K. Emery, M. and Purser, R.E. (1996) The Search Conference: A powerful method for planning organizational change and community action, Jossey-Bass Publishers, San Francisco. Evans, J.R. (1989) A Review and Synthesis of OR/MS and Creative Problem Solving (Parts 1 and 2), OMEGA International Journal of Management Sciences, Vol. 17, No. 6, pp. 499-524. Evans, J.R. (1991a) Creative Thinking in the Decision and Management Sciences, College Division, South-Western Publishing Co., Cincinnati. Evans, J.R. (1991b) Creativity in OR/MS: Creative Thinking, a basis for OR/MS problem solving, Interfaces, Vol. 21, No. 5, pp. 12-15. R. Vidal / Investigação Operacional, 25 (2005) 1-24 23 Evans, J.R. (1992) Creativity in OR/MS: Improving problem solving through creative thinking, Interfaces, Vol. 22, No. 2 pp. 87-91. Evans, J.R. (1993a) Creativity in OR/MS: The multiple dimensions of creativity, Interfaces, Vol. 23, No. 2, pp. 80-83. Evans, J.R. (1993b) Creativity in OR/MS: Overcoming barriers to creativity, Interfaces, Vol. 23, No. 6, pp. 101-106. Gardner, H. (1983) Frame of Mind: A Theory of Multiple Intelligence, NY: Basic Books, Inc. Goff, K. (1998) Everyday Creativity, Stillwater: Little Ox Books. Gordon, W. (1961) Synectics, Harper, NY. Hansen, M.P. and Vidal, R.V.V. (1995) Planning of High Schools Examinations in Denmark, European Journal of Operational Research, Vol. 87, pp. 519-534. Heinlein, R.A. (1973) Time Enough For Love, Berkley Publishing. Herrmann, N. (1996) The Whole Brain Business book, NY: Mc Graw-Hill. Higgins, J.M. (1994) 101 Creative Problem Solving Techniques, Fl.: New Management Publishing Co. Jungk, R. and Müller, N. (1987) Future Workshops: How to create desirable futures, Institute for Social Inventions, London. Kaplan, S. (1996) An Introduction to TRIZ, the Russian theory of inventive problem solving, Ideation International, Detroit. Keys, P. (2000) Creativity, design and style in MS/OR, OMEGA International Journal of Management Science, Vol. 28, pp. 303-312. Kobayashi, S. Creative Management, American Management Association, NY. Koestler, A. (1976) The Act of Creation, London: Hutchinson. Landrum, G.N. (1994) Profiles of Female Genius, NY: Prometheus Books. Maslow, A.H. (1987) Motivation and Personality, NY: Harper Collins. Matte, N.L. and Hendersson, S.H.G. (1995) Success your Style! CA: Wadsworth. Millar, G.W. (1997) E. Paul Torrance - ”The Creativity Man”, NJ: Ablex Publishing Mingers, J. (1992) Technical, Practical and Critical OR – Past, Present and Future? In Alvenson, M. and Willmott, H. (eds.) Critical Management Studies, SAGE publications. Morris, W.T. (1967) On the Art of Modelling, Management Science, Vol. 13, No. 12, pp. B707-B717. Osborn, A. (1953) Applied Imagination, Scribner’s, NY. Parnes, S.J. (1997) Optimize the Magic of your Mind, NY: Bearly Limited. Ritchie, C. et al (1994) Community Works, PAVIC Publications, Sheffield. Saaty, T.L. (1998) Reflections and projections on creativity in OR and MS: A pressing need for shift in paradigm, Operations Research, Vol. 46, No. 1, pp. 9-16. Silver, E.A., de Werra, D. and Vidal, R.V.V. (1980) An introduction to heuristic methods, European Journal of Operational Research, Vol. 5, pp. 153-162. Stenberg R.J. (ed.) (1999) Handbook of Creativity, Cambridge University Press. Sørensen, L. and Vidal, R.V.V. (1999) Getting an overview with SWOT, CTI working paper n. 54, Technical University of Denmark, p. 17. Sørensen, L. and Vidal, R.V.V. (2001) Soft Methods in primary schools: Focusing on IT strategies, International Transactions in OR. 24 R. Vidal / Investigação Operacional, 25 (2005) 1-24 Sørensen, L. and Vidal, R.V.V. (2004) Using Soft OR in a small company- The case of Kirby, European Journal of Operational Research, Vol. 152 (3), pp 559-570. Tsoukas H. and Papoulias, D.B. (1996) Creativity in OR/MS: From technique to epistemology, Interfaces, Vol. 26, No. 2, pp. 73-79. Vidal, R.V.V. (2003) One-day Conference: National and International Cooperation under LEADER+ Program, IMM, DTU, p. 48. Vidal, R.V.V. (2004) The Vision Conference: Facilitation of creative process, to appear in Systems Practice and Action Research. Wallas, G. (1926) The Art of Thought, Fla: Harcourt. Some useful web addresses: http://members.ozemail.com.au/∼caveman/creativity/index htm/ http://www.thinksmart.com/ http://www.creax.com/creaxnet/creax net.php/ http://www.creativity-portal.com/ A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 25 Simulação do funcionamento de um cruzamento regulado por sinais luminosos António Cerveira Pinto ∗ Américo H. Pires da Costa † ∗ Instituto Superior de Engenharia do Porto R. Dr. António Bernardino de Almeida, 431 4200-072 Porto † Faculdade de Engenharia da U.P. R. Dr. Roberto Frias 4200-465 Porto Abstract The installation of traffic lights at street intersections is a common practice in order to improve vehicle flow. That procedure is highly justified by the proven reduction in accidents, shorter delays, decreased pollution, namely associated with lower noise levels, and fuel consumption. The present paper describes the definition of a traffic simulator so as to enable the design of digital simulation models for intersections controlled by fixed-time signals. The intersections may comprise any number of branches and the lanes may be either exclusive or shared by various movements. It is also possible to ascribe several movements to one lane as well as to link movements to different phases, with any cycle partition, including periods of “all-red”. The user may choose from different distributions in order to model time intervals between arriving vehicles and each movement or traffic stream may be represented by a selected specific distribution, unrelated to the distributions describing the remaining movements. Resumo É prática corrente em gestão do tráfego rodoviário a instalação de sinais luminosos em cruzamentos com o objectivo de melhorar o seu desempenho. Este procedimento está amplamente justificado pela comprovada redução do número de acidentes, dos atrasos, da poluição ambiental, em particular, a sonora, e do consumo de combustı́vel. No presente artigo refere-se o modo como foi concebido um simulador que permite construir modelos de simulação digital de cruzamentos regulados por sinais luminosos de comando de tempos fixos. Os cruzamentos podem ser constituı́dos por qualquer número de ramos de entrada e as vias podem ser exclusivas ou partilhadas por várias correntes c 2005 Associação Portuguesa de Investigação Operacional 26 A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 de tráfego. É possı́vel, também, a atribuição de diversas correntes de tráfego a cada via, a afectação de movimentos a várias fases e qualquer repartição do tempo de ciclo, incluindo tempos de “tudo-vermelho”. Diversos tipos de distribuições estão disponı́veis para modelar os intervalos de tempo entre veı́culos sucessivos, à chegada, podendo cada corrente de tráfego ser representada por uma distribuição diferente das restantes. Keywords: Discrete-event system simulation, traffic lights, traffic simulator, fixed-time traffic signals. Title: Traffic simulation of signal controlled intersections 1 Introdução O interesse na análise do funcionamento de um cruzamento regulado por sinais luminosos com comando de tempo fixo justifica-se por três razões. A primeira tem a ver com o número elevado de cruzamentos que dispõem de sinalização com este tipo de comando: salvo os casos de Lisboa e do Porto, onde predominam os de comando pelo tráfego, os cruzamentos regulados por sinais luminosos das cidades do nosso Paı́s são, na sua quase totalidade, de comando de tempo fixo. A segunda, com o facto de os sinais comandados pelos veı́culos funcionarem como se se tratassem de sinais de comando de tempo fixo para débitos elevados [4]. A terceira, porque os sistemas de coordenação entre sinais baseiam-se, frequentemente, num ciclo fixo que corresponde às necessidades do cruzamento chave do sistema - em princı́pio, o mais carregado [8]. Mas, o ensaio de diversos tipos e valores do débito de chegada, diversas geometrias do cruzamento, diferentes configurações do tráfego, tempos de ciclo e esquemas de fases, só é possı́vel se se dispuser de um modelo do cruzamento. De facto, a experimentação é impraticável, se o cruzamento estiver em funcionamento, ou impossı́vel, se o cruzamento estiver em fase de projecto. Se o cruzamento for complexo e o ritmo de chegadas muito particular, deve recorrer-se a um modelo de simulação digital. Com efeito, posta de parte a hipótese de um modelo fı́sico, um sistema como um cruzamento com múltiplas vias de entrada, possibilidade de viragem à esquerda, seguir em frente ou viragem à direita, chegadas aleatórias de veı́culos e regulado por sinais luminosos inviabiliza a utilização de um modelo matemático. Refere Khoshnevis [6] que “um cruzamento com viragem à esquerda e com padrões tı́picos e realistas de chegadas de veı́culos não pode ser estudado pela teoria das filas de espera, mesmo com hipóteses simplificadoras (frequentemente irrealistas)”. Programas de cálculo automático, que simulam o escoamento do tráfego com o objectivo de avaliar estratégias de controlo, antes da sua implementação, têm vindo a ser utilizados desde 1950. Os modelos disponibilizados ou são do tipo macroscópico ou do tipo microscópico. Nos modelos do primeiro tipo, de que são exemplos o TRANSYT [3] e o PHEDRE [1], analisa-se a evolução de grupos de veı́culos, sendo as correntes de tráfego representadas de uma forma agregada, nomeadamente por histogramas. Nos do segundo tipo, como os modelos PARAMICS [11] e NETSIM [13], simula-se, e analisa-se em pormenor, o movimento de cada veı́culo. Estes modelos destinam-se, essencialmente, ao estudo do tráfego em redes de arruamentos, estando pouco adaptados à análise do funcionamento de cruzamentos isolados, porque não permitem o ensaio de variados padrões de chegada de veı́culos nem o ensaio de diversificadas condições de actuação do semáforo. A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 27 Não existindo software de origem nacional nem se tendo conhecimento de software de outra proveniência especificamente dedicado a cruzamentos, julgou-se útil conceber um simulador – entendido como “ um programa, ou um conjunto de programas, que permite simular um sistema pertencente a uma classe especı́fica de sistemas, que não requer, ou requer ligeira, programação” [7] – que constituı́sse uma ferramenta eficaz na construção de um modelo de simulação digital de um cruzamento regulado por sinais luminosos de comando de tempo fixo. Como o simulador que foi concebido permite a construção rápida de modelos de cruzamentos, fica ultrapassado o problema dos custos associados ao desenvolvimento deste tipo de modelos, frequentemente elevados em tempo e em dinheiro [7], e que constituem, no caso geral, um dos maiores óbices à utilização dos modelos de simulação digital. 2 O Simulador O simulador possibilita a modelação de cruzamentos com um número qualquer de ramos de entrada, vias exclusivas ou partilhadas por vários movimentos, e filas iniciais. Permite, além disto, a atribuição de diversas vias a um movimento ou corrente de tráfego, a afectação de movimentos a várias fases e qualquer repartição do tempo de ciclo, incluindo tempos de “ tudo vermelho “. O utilizador poderá recorrer a diversas distribuições, designadamente, a Exponencial, a de Erlang e a de Cowan [12] para modelar os intervalos de tempo entre veı́culos sucessivos, à chegada, e recorrer às variáveis antitéticas u e 1 − u, para gerar números aleatórios. Como nem sempre será possı́vel especificar uma distribuição, o simulador inclui funções empı́ricas, possibilitando-se, deste modo, a modelação de qualquer cadência de chegadas de veı́culos, por muito particular ou complexa que seja. A possibilidade de utilização de variadas distribuições, bem como a possibilidade de aferir o desempenho de um cruzamento através de múltiplos indicadores, representa uma superioridade significativa dos modelos de simulação digital construı́dos com o simulador sobre os modelos matemáticos de cruzamentos desenvolvidos até agora – praticamente limitados à distribuição Exponencial e suas variantes. A comparação da valia relativa de soluções alternativas pode ser feita através de onze indicadores de desempenho: atraso total por via, atraso médio por veı́culo e por via, tempo de fila por via, tempo total de espera em fila por via, tempo de espera médio em fila por via, tempo de espera máximo por via, proporção de tempo de fila por via, número de paragens por via, número de verdes saturados, comprimento médio da fila por via e comprimento máximo da fila por via. As variáveis de decisão disponı́veis no simulador permitem definir variadas soluções alternativas, que diferem pela duração ou pela repartição do ciclo, pela configuração do tráfego ou pela configuração geométrica do cruzamento. 2.1 Concepção do simulador Um cruzamento isolado é um sistema dinâmico e discreto em que as entidades são os veı́culos, os eventos, as chegadas e as partidas, e as fronteiras : - as linhas de paragem de todas as vias de entrada; - as linhas que distam das anteriores um comprimento correspondente ao número máximo de veı́culos admitidos em tais vias. 28 A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 O método dos acontecimentos foi o método seguido na estruturação do simulador, [2,14], e o processo de avanço do relógio para a hora de ocorrência do próximo evento, o processo adoptado para o avanço do tempo simulado. O programa de computador é constituı́do pelo programa principal, vinte e uma subrotinas e seis funções (figura 1). As primeiras quinze subrotinas destinam-se à entrada de dados, dos quais se destacam: • o tempo de simulação (A100.Tempo.Simul ) ; • o valor da semente e a escolha da variável antitética u ou 1 − u (B100.Dados.Semente) ; • a especificação das distribuições que modelam os intervalos de tempo entre veı́culos sucessivos, uma por cada corrente de tráfego ou movimento (C100.Dados.Modelo e oito subrotinas correspondentes às oito distribuições disponı́veis no simulador) ; • o número total de vias de entrada do cruzamento, o número de vias atribuı́do a cada corrente de tráfego ou movimento, os números identificadores das vias atribuı́dos a uma corrente de tráfego ou movimento, o tipo de via (partilhada por várias correntes de tráfego ou não), as correntes de tráfego que partilham uma via e o número máximo de veı́culos em fila, por via (D100.Dados.Vias); • a duração do ciclo, o número de fases, a identificação das correntes de tráfego pertencentes a cada fase, o tempo e o inı́cio de verde de cada fase (E100.Dados.Semáforo) ; • o tempo de inı́cio da simulação e a hora de chegada do primeiro veı́culo de cada corrente de tráfego, no caso de o inı́cio da simulação ser diferente de zero; a hora de inı́cio da simulação, a hora de chegada do último veı́culo de cada corrente de táfego e a hora de partida do primeiro veı́culo, no caso de a hora de inı́cio da simulação ser diferente de zero e existirem filas iniciais (F100.Dados.Matriz ). A este conjunto de subrotinas de introdução de dados segue-se a subrotina G100.Inicia, onde é feita a inicialização das variáveis Tempo Acumulado em Fila e Comprimento Acumulado em Fila. Se existirem filas iniciais, os valores destas variáveis são afixados no écran, de forma a poder verificar-se a correcção dos mesmos. O inı́cio da simulação e de cada ciclo, dá-se na subrotina H100.Chegadas.Partidas, que constitui o executivo do simulador. Nesta subrotina, faz-se o controlo do ciclo do simulador e do fim da simulação, identifica-se o próximo evento, o tempo da sua ocorrência e actualiza-se o tempo de simulação. A simulação prossegue através da subrotina correspondente ao evento seleccionado (subrotina H200.Chegadas ou subrotina H210.Partidas, conforme se trate de uma chegada ou de uma partida, respectivamente). Estas duas subrotinas, conjuntamente com as subrotinas H300.Cheg.Vd (chegada com sinal verde) e H300.Cheg.Vm (chegada com sinal vermelho), são as subrotinas dos eventos, subrotinas responsáveis pelas acções que permitem processar o evento seleccionado, designadamente, regular as interacções entre os veı́culos presentes no cruzamento, as vias, os sinais luminosos e marcar futuras chegadas e partidas. De uma destas três últimas subrotinas regressa-se à subrotina H100.Chegadas.Partidas, fechando-se o ciclo. A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 29 Figura 1: Organização do programa A subrotina I100.Resultados e as seis funções constituem o bloco de utilidades do simulador. As funções são ferramentas de apoio às subrotinas que processam os eventos, tendo como missão: - indicar o estado do sinal no momento de chegada de um veı́culo (função Semafro); - calcular o intervalo de tempo que decorre entre o instante de chegada de um veı́culo com sinal vermelho e o instante de passagem do sinal vermelho a verde (função Prox.Verde); - calcular o intervalo de tempo que medeia entre o instante de chegada de um veı́culo com sinal verde e o instante de passagem do sinal verde a vermelho (função Prox.Vermelho); - verificar a posição numa via de um veı́culo pertencente a uma determinada corrente de tráfego ou movimento (função Posição); - gerar números aleatórios (função Uni.Zero.Um); - gerar intervalos de tempo entre veı́culos sucessivos a partir das oito distribuições disponı́veis (função Intervalo). 30 2.2 A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 Calendário dos acontecimentos futuros O registo da informação relevante sobre eventos futuros faz-se numa matriz que tem no programa do simulador a designação Mat. A informação em causa é 1) o tempo de ocorrência dos eventos futuros, 2) o tipo de evento, 3) a via em que irá ocorrer a partida e 4) a corrente de tráfego, ou o movimento, a que pertence o veı́culo envolvido na chegada ou na partida. Nesta matriz: o número de linhas é igual ao dobro do número, n, de correntes de tráfego ou de movimentos; o número de colunas, igual ao número de vias de entrada do cruzamento; e os elementos aij representam os tempos de futuras chegadas ou partidas. O ı́ndice i (i = 1,2...,2n) identifica a corrente de tráfego ou o movimento, e o ı́ndice j, (j = 1,2,...,r), a via atribuı́da ao movimento. As primeiras n linhas estão atribuı́das às chegadas e as restantes, às partidas. Alguns elementos da matriz ficam indefinidos. De facto, o número de vias atribuı́do a cada corrente de tráfego é sempre inferior ao número total de vias de entrada do cruzamento, variando o número daqueles elementos com o número de vias partilhadas e com o número de correntes de tráfego multi-vias. No caso das chegadas, porque a subrotina H200.Chegadas está estruturada de modo a que a calendarização de nova chegada se faça logo à chegada de um veı́culo, ainda antes da selecção da via por onde irá transitar o veı́culo, só será necessário identificar o movimento ou a corrente de tráfego. Assim, uma coluna da submatriz superior é suficiente para se definir a corrente de tráfego a que pertence o veı́culo. Escolheu-se a primeira coluna por uma questão de comodidade. Aos elementos das restantes colunas é atribuı́do um valor arbitrariamente grande, valor superior ao tempo de simulação, que permanecerá inalterado no decorrer de cada corrida. No programa, por omissão, é atribuı́do, a todos esses elementos, um valor igual a cinco vezes o tempo de simulação. Relativamente às partidas, porque já foi escolhida uma via na subrotina H200.Chegadas, são necessários dois identificadores: um, igual a i−n, para identificar o movimento; outro, igual a j, para a via. Aos elementos da submatriz que ficam indefinidos é-lhes atribuı́do um valor igual ao valor fixado para os elementos das colunas não operativas da sub-matriz superior. Com o calendário organizado tal como se descreveu - que, em alternativa, poderia ser constituı́do por um vector, para calendário das chegadas, e uma matriz, para calendário das partidas - a identificação do acontecimento iminente processa-se comparando o elemento de menor valor da primeira coluna da submatriz superior com o menor valor da submatriz inferior. Se o primeiro valor for inferior ao segundo, trata-se de uma chegada e o ı́ndice da linha do elemento identifica a corrente de tráfego a que pertence o veı́culo. Se for superior, tratase de uma partida. Identifica-se a corrente de tráfego, k, subtraindo ao valor do ı́ndice, i, referente à linha, o número total de movimentos (k = i-n); a via é identificada pelo ı́ndice da coluna. Quando os dois valores são iguais, convencionou-se que o acontecimento iminente é uma chegada. Estas operações, bem como a identificação do evento iminente, o adiantamento do relógio de simulação e a consequente passagem do evento iminente a actual faz-se, em cada ciclo, na subrotina H100.Chegadas.Partidas, como foi referido em 2.1. Numa das subrotinas que fazem parte do bloco de operações do simulador (subrotinas H300.Cheg.Vd, H300.Cheg.Vm ou H210.Partidas), actualiza-se o calendário, substituindo-se o valor do elemento seleccionado da matriz Mat por um novo valor. A matriz evolui, assim, de ciclo para ciclo, pela alteração, no máximo, do valor de um dos seus elementos. A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 0 0 0 0 250 250 250 250 250 250 0 250 250 250 250 250 0 0 31 Figura 2: Cruzamento e matriz-calendário no inı́cio da simulação A tı́tulo de exemplo representa-se na figura 2 a matriz-calendário, no inı́cio da simulação, associada a um cruzamento de que se consideraram apenas três vias de entrada, (vias V1,V2 e V3), sem filas iniciais, hora zero para inı́cio da simulação, tempo de simulação igual a 50 segundos e a seguinte repartição do tráfego: - corrente de tráfego 1 – via 1; - corrente de tráfego 2 –vias V2 e V3; - corrente de tráfego 3- via V3. 2.3 Verificação e validação do simulador O programa de computador do simulador resultou da codificação em Qbasic de vinte e oito módulos. O Qbasic é uma linguagem de programação geral que permite a programação estruturada e tem sido utilizada em simulação [2,6,9], e está, ou pode estar, disponı́vel em qualquer computador pessoal em que esteja instalado o Windows 95 ou versões posteriores. Como sucede com outras linguagens de programação geral, várias razões podem justificar a utilização de uma linguagem deste tipo, em vez das linguagens especificamente orientadas para a simulação. Law e Kelton [7] referem, entre outras, as seguintes: 1- uma linguagem de programação geral obriga 32 A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 a prestar atenção a cada pormenor, o que conduz a uma maior compreensão de como funciona a simulação na realidade e, portanto, reduz a possibilidade de se cometerem erros de concepção se, mais tarde, se mudar para uma linguagem de simulação de alto nı́vel; 2- apesar de se dispor actualmente de várias linguagens de simulação muito potentes, é necessário, frequentemente, escrever, pelo menos, partes de simulações em linguagens de programação geral, quando se tem de representar mais fielmente a lógica especı́fica e detalhada de sistemas complexos. Brito e Teixeira [2] salientam o facto de,” num grande número de ferramentas comerciais dedicadas à simulação, o executivo e os blocos de operações e de utilidades estarem mais ou menos encapsulados”. Referem que no SIMSCRIPT, por exemplo, só o executivo é acessı́vel e, no SimFactory, nenhum dos anteriores blocos se encontra directamente acessı́vel ao analista. Ao criar-se o simulador julgou-se conveniente utilizar uma linguagem que tornasse completamente transparente a estrutura do simulador, a sua constituição e o seu funcionamento, facilitando a evolução do programa de computador para qualquer outra linguagem. No processo de verificação do simulador, testou-se cada subprograma isoladamente, tendose, de seguida, rastreado a execução de todo o programa. Depois de sucessivas depurações, julga-se poder concluir que o programa não tem erros de codificação nem erros lógicos e representa o simulador, tal como foi conceptualizado. A validação do simulador fez-se pelo confronto constante da estrutura e do funcionamento de um cruzamento com a estrutura e o funcionamento do simulador. Iniciou-se no momento em que começou a ser concebido o cruzamento mais simples que se pretendia modelar e prosseguiu à medida que foi aumentando a complexidade dos cruzamentos e o número de indicadores de desempenho. À sucessiva reformulação e progressiva clarificação de objectivos corresponderam novas conceptualizações e revalidações de componentes do simulador e, paralelamente, novos testes de módulos e verificação de subrotinas que haviam sido modificadas ou criadas de novo. O conhecimento de que se dispunha, relativamente à gestão de tráfego rodoviário, facilitou o exame rigoroso deste tipo de sistemas e o estabelecimento do conjunto de premissas e proposições lógicas, em que se baseou o desenvolvimento do simulador. Finalizou-se a validação no momento em que se considerou que se dispunha de uma ferramenta segura, com a qual era possı́vel gerar modelos que representem fielmente um conjunto muito diversificado de cruzamentos. Infelizmente, por não se dispor de dados relativos ao funcionamento de sistemas reais, ao processo de validação utilizado, habitualmente designado na literatura da especialidade por racionalista, [2,6], não pôde seguir-se o processo de confronto dos valores de indicadores de desempenho de modelos disponı́veis no simulador com os valores de idênticos indicadores de desempenho de tais sistemas. Construı́ram-se, entretanto, modelos de dois cruzamentos que serviram como exemplos de aplicação de dois modelos que, pela sua importância, são de referência obrigatória na literatura dedicada à regulação do tráfego através de sinalização luminosa. Um desses modelos é o do Transportation Research Board [15]; o outro é o modelo matemático de Webster [16], a partir do qual Costa e Vasconcelos [5] elaboraram um programa de cálculo designado RESINA. Os dados respeitantes aos cruzamentos - aqui designados pela sigla HCM, de Highway Capacity Manual, publicação do organismo anteriormente citado, e RESINA, nome do programa de computador - e os resultados obtidos pelos modelos referidos constam da bibliografia citada [5,15]. O confronto dos modelos dos cruzamentos criados com o simulador com os modelos referidos fez-se por intermédio do indicador de desempenho atraso médio por veı́culo, único indicador utilizado no HCM e no RESINA. Pela mesma razão, a distribuição geradora das correntes de tráfego escolhida foi a exponencial, com valores do A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 33 Quadro 1: Intervalos de confiança a 95% para o valor médio (cruzamento do HCM) Via 1 (58,7 ; 93,1) Via 2 (19,8 ; 21,8) Via 3 (12,0 ; 13,0) Via 4 (17,0 ; 20,8) Quadro 2: Intervalos de confiança a 95% para o valor médio. (cruzamento do RESINA) Via 1 (21,8 ; 23,0) Via 2 (31,6 ; 35,3) Via 3 (45,8 ; 50,6) Via 4 (38,9 ; 41,1) Via 5 (41,7 ; 47,6) Via 6 (45,8 ; 52,8) parâmetro valor médio iguais aos utilizados naqueles modelos. Após a realização de 14 corridas do modelo representativo do cruzamento do HCM e de 16 corridas do modelo do cruzamento do RESINA, obtiveram-se os seguintes intervalos de confiança a 95 % para o valor médio do atraso médio por veı́culo [10]: Nos quadros 3 e 4 apresentam-se os valores obtidos pelos modelos que serviram de termo de comparação - valores retirados da bibliografia consultada, [5,15] - e os valores obtidos com o simulador. 3 Considerações finais O presente trabalho abre perspectivas de aprofundamento, quer no campo de desenvolvimento, quer no das aplicações. O aperfeiçoamento dos processos de entrada e de saı́da de dados deverá ser o primeiro passo para ulteriores desenvolvimentos. De entre estes é de destacar a inclusão de: • uma ou mais funções que calculem a probabilidade de o condutor de um veı́culo parar ou continuar a marcha quando o semáforo está amarelo; • vias de comprimento reduzido; • outros indicadores de desempenho, como o nı́vel de ruı́do, o consumo de combustı́vel e o custo de operação - actualmente só calculáveis a partir dos indicadores já disponı́veis Quadro 3: Atraso médio por veı́culo (cruzamento do HCM) Vias 1 2 3 4 Simulador (valor médio) 75,9 20,8 12,5 18,9 HCM 23,8 12,4 24,5 Variação (em %) -12,6 0,8 -22,8 34 A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 Quadro 4: Atraso médio por veı́culo (cruzamento do RESINA) Vias 1 2 3 4 5 6 Simulador (valor médio) 22,4 33,5 48,2 40,0 44,6 49,3 Fórmula de Webster 22,9 38,6 55,7 42,2 45,3 49,3 Variação (em %) -2,0 -13,1 -13,4 -5,1 -2,9 -0,1 no simulador; • novas distribuições para a modelação dos intervalos de tempo entre chegadas de veı́culos sucessivos. Além disso, será de preconizar a utilização de uma linguagem de programação geral que elimine as limitações de utilização de memória, inerentes ao Qbasic. A animação das chegadas e das partidas dos veı́culos será mais um aperfeiçoamento a ter em conta, e constituiria outro auxiliar para a credibilização de qualquer modelo desenvolvido com o simulador. O Visual Basic estará, então, particularmente indicado dadas as suas capacidades neste campo e a possibilidade de se utilizarem subrotinas que já foram programadas em Qbasic. Considera-se, ainda, que terá interesse avaliar a possibilidade de incluir fases que permitam o avanço de movimentos incompatı́veis e de peões. Estão implı́citas, nas propostas de desenvolvimento anteriores, a acessibilidade a dados relativos ao funcionamento de cruzamentos no nosso Paı́s e a participação de especialistas de gestão de tráfego, de investigação operacional, de estatı́stica e de computação. 4 Bibliografia [1] Abours, S., Aron, Barbier, Sainte Hilaire, F., Cottinet, M. M., Danech Pajout, M., Davee, M.,Degre, T., Foraste, B., Lesort J. B., Morin, J. M., Les Modèles INRETS de Simulation, Synthese INRETS-Institut National de Recherche sur les Transports et leur Securité (1988) [2] Brito, António E.. S. Carvalho, Teixeira, J. M. F., Simulação por Computador. Fundamentos e Implementação de Código em C e C+ . Publindústria, Porto (2001) [3] Binning, J. C., Crabtree, M. R., Burtenshaw, G. L., TRANSYT 12 User Guide. Transport Road Laboratory Report nr AG48 (2003) [4] Costa, A. H. Pires da, Cruzamentos Regulados por Sinais Luminosos. Tese de Doutoramento em Engenharia Civil. FEUP., Porto (1987) [5] Costa, A. H. Pires da, Vasconcelos, António J. A., Regulação de Sinais Luminosos de Tempos Fixos em Cruzamentos Isolados. Programa RESINA. FEUP, Porto (1986) [6] Khoshenevis, B.,Discrete Systems Simulation. McGraw-Hill, Singapore, 1994 [7] Law A. M.; Kelton, D. K., Simulation Modeling and Analysis. McGraw-Hill, Singapore (1991) A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35 35 [8] Laboratório Nacional de Engenharia Civil, O Modelo Matemático de Webster para Sinais Luminosos a Tempos Fixos. Relatório 271/88. Lisboa (1988) [9] Pidd, Michael, Computer Simulation. Wiley, 4 th ed., Chichester (1998) [10] Pinto, A. Cerveira, Simulação do Funcionamento de um Cruzamento Regulado por Sinais Luminosos. Tese de Mestrado em Engenharia Municipal. Universidade do Minho, Guimarães (2000) [11] Speirs, E., Quadstone Paramics V4.2 System Overview. Quadstone Limited (2003) [12] Sullivan, D. P. ; Troutbeck, R. J., The Use of Cowan’s M3 Headway Distribution for Modelling Urban Traffic Flow. Traffic Engineering Control, July/August (1994) 445-450 [13] Sulzberg, J. D., Demetsky, M. J., Demonstration of TRAF-NETSIM for traffic operations management: final report. Federal Highway Administration Record nr 6998, U. S. Department of Transportation (1991) [14] Tavares, L. Valadares, Oliveira, Rui C., Themido, Isabel H., Correia, F. Nunes-Investigação Operacional. McGraw-Hill, Lisboa (1996) [15] Transportation Research Board- Highway Capacity Manual, Special Report 209. Washington D.C. (1994) [16] Webster, F.V. – Traffic Signal Settings, Road Research Technical Paper n. o 39, Her Majesty’ s Stationery Office, London (1958). L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 37 Geração Automática de Modelos de Simulação de uma Linha de Montagem de Auto-Rádios Luı́s Pinto Ferreira ∗ ∗ Guilherme A. Pereira † Ricardo J. Machado ‡ Departamento de Engenharia da Escola Superior de Estudos Industriais e de Gestão, Instituto Politécnico do Porto [email protected] † ‡ Departamento de Produção e Sistemas, Universidade do Minho [email protected] Departamento de Sistemas de Informação, Universidade do Minho [email protected] Abstract This paper reports the development of a computer application to support the decision making, based on an automatic generation of simulation models, according to different control strategies, to support the redefinition of materials flow processing along an electronic industry production line. An auto-radio production line was chosen, where the transport and respective decisions are made automatically and are coordinated by a control system. The simulation environment (ARENA) is employed in order to allow the production engineer to validate the impact of the control strategies on production. This contributes to an improved specification, characterization and definition of the most efficient control system. For this purpose, six strategies were investigated. The innovative part of this system can be seen in its generic character of both the high level of flexibility from the point of view of physical processing and control strategies and its capacity for parameterization - this flexibility is achieved by means of automatic generation of Arena Models. An additional contribution is the integration, in the simulation environment, of an automatic report generator showing the main performance measures of the models, in which information is accessed via graphics, thereby providing a friendly interface for the user. Resumo Neste artigo apresenta-se uma aplicação informática para apoio à decisão, visando a geração automática de modelos de simulação com diferentes estratégias de controlo para a redefinição de fluxos de processamento de materiais ao longo de uma linha de produção da indústria electrónica. Esta linha de produção é constituı́da por linhas de fabrico de autorádios em que o transporte e a respectiva decisão são realizados de uma forma automática, e sob a coordenação de um sistema de controlo. Pretende-se que o recurso à simulação em c 2005 Associação Portuguesa de Investigação Operacional 38 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 ambiente ARENA permita, ao engenheiro de produção, validar o impacto das estratégias de controlo na produção, contribuindo para uma melhor especificação, caracterização e definição do mais eficaz sistema de controlo; para isso, foram analisadas seis estratégias. A caracterı́stica inovadora deste sistema reside no seu carácter genérico; no elevado ı́ndice de flexibilidade, do ponto de vista do processo fı́sico e das estratégias de controlo, e nas facilidades de parametrização - esta flexibilidade é conseguida através da geração automática de Modelos em Arena. Um contributo adicional deste trabalho consistiu na integração no ambiente de simulação de um gerador automático de relatórios, reveladores dos principais ı́ndices de desempenho dos modelos em presença, nos quais o acesso à informação é feito através de gráficos, proporcionando uma interface amigável com o utilizador. Keywords: Simulation, Decision Making Support Models, Production Line Title: Automatic Generation of Simulation Models of an Auto-Radio Production Line 1 Introdução O trabalho desenvolvido foi realizado no âmbito do projecto “MethoDES: Methodologies and Tools for Developing Complex Real-Time E mbedded S ystems”, apoiado pela FCT 1 /MCES2 (POSI CHS/37334/2001), que contou com a colaboração de diversas instituições, a saber: Centro Algoritmi (Universidade do Minho), National Instruments, IDITE-Minho e Instituto Politécnico do Porto. Foi objectivo deste trabalho (Vieira 2002, Ferreira 2003) desenvolver uma ferramenta de apoio à decisão que faculte a geração automática de modelos de simulação, para retratar diferentes cenários de uma linha de montagem de auto-rádios, com recurso à selecção de diferentes estratégias de controlo para a redefinição de fluxos de materiais. Do ponto de vista da abordagem à simulação, e no âmbito deste trabalho, dotou-se a ferramenta Arena da capacidade de gerar automaticamente modelos de simulação, em oposição à abordagem tradicional em que cada modelo é construı́do manualmente para cada cenário. O desenvolvimento desta versão adaptada da ferramenta Arena permite explorar, num reduzido perı́odo de tempo, um número elevado de cenários, e obter, também automaticamente, relatórios com os respectivos ı́ndices de desempenho. Os autores não conhecem abordagens semelhantes a esta, nem tão pouco com este grau de flexibilidade e automatização. Na literatura da especialidade apenas surgem trabalhos que introduzem algum grau de flexibilidade no modelo de simulação a ser construı́do, através da parametrização de diferentes variáveis, de forma a permitir avaliar o seu impacto no desempenho do sistema. Como exemplo desses trabalhos citamos os de (Alvarez et al. 1999) e (Ramis et al. 2001), nos quais a simulação é usada para aferir, no sector da saúde, diferentes alternativas de escalonamento dos recursos. As estratégias analisadas no presente trabalho pretendem facultar a possibilidade de avaliar o impacto que diferentes soluções de gestão de fluxos irão ter na produção. A definição de regras de optimização do desempenho passa, necessariamente, por essa avaliação, de forma a evitar o surgimento de situações que corresponderiam a estados de controlo menos eficazes. Note-se, todavia, que a ferramenta proposta se destina, quase exclusivamente, a dar resposta a um determinado tipo-padrão de configuração de linhas de produção. A linguagem de si1 2 Fundação para a Ciência e a Tecnologia. Ministério da Ciência e do Ensino Superior. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 39 mulação utilizada neste trabalho foi o ARENA (Kelton et al. 2002), dado que a sua estrutura hierárquica oferece diferentes nı́veis de flexibilidade, possibilitando a construção de modelos extremamente complexos, aliados a uma forte componente visual. Todavia, para concretizar o objectivo acima descrito, foi necessário resolver determinados problemas que, cientificamente, formam a base deste trabalho, designadamente: 1. Generalizar diferentes fluxos de materiais, isto é, flexibilizar a ferramenta quer quanto à configuração fı́sica da linha de produção, quer quanto às estratégias de controlo utilizadas na produção. 2. Afectar esses fluxos a estratégias particulares que controlem o acesso dos auto-rádios aos nós3 , de modo a evitar potenciais acidentes (por exemplo, choques de auto-rádios), e possibilitem a avaliação, por parte dos potenciais utilizadores desta ferramenta, do impacto que a implementação de estratégias alternativas de controlo irão ter no desempenho da linha de produção. 3. Integrar no ambiente de simulação, um gerador genérico de relatórios que, no termo do processo de simulação, apresente automaticamente, sob a forma de gráficos, relatórios contenho toda a informação julgada necessária para uma correcta avaliação do processo produtivo. A complexidade dos sistemas de produção, nos nossos dias, vem justificando a utilização de técnicas de simulação, na detecção de problemas crı́ticos durante o projecto, planeamento, implementação e operação de novos sistemas, ou ainda na análise (diagnóstico) de sistemas existentes e no estudo de alterações (prognóstico) com vista à melhoria do seu desempenho (Ferreira 1995). A simulação é uma das ferramentas da Investigação Operacional mais divulgadas e utilizadas na área dos sistemas produtivos (Kalasky 1996). O progresso tecnológico pode ter um impacto dramático no sistema produtivo, em áreas como: a informação, os recursos humanos, os equipamentos e os materiais. Em (Kalasky 1996) conclui-se que a duração dos ciclos de produção está a decrescer significativamente em resultado do aparecimento de novas tecnologias; a sua utilização deve ser feita de um modo equilibrado, designadamente, tendo em atenção o seu contributo para melhorar o desempenho do sistema, os custos e o tempo associados, bem como o valor acrescentado ao produto final. 2 Descrição do Sistema Real O trabalho desenvolvido tem por referência o Sistema de Controlo das Linhas Hidro (SCLH) responsável pela coordenação de um conjunto de linhas de produção de auto-rádios, instaladas na fábrica da BLAUPUNKT AUTO-RÁDIO PORTUGAL, LDA, em Braga, Portugal. As Linhas Hidro consistem em linhas de fabrico de auto-rádios em que o transporte e a condução dos auto-rádios são realizados de uma forma automática e sob a coordenação de um sistema de controlo cuja implementação actual recorre a um autómato programável e a um PC4 . Nestas linhas, o sistema de transporte é composto por várias passadeiras rolantes e 3 4 Zona de processamento. Computador Pessoal. 40 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 γ robô reparação eα start-up afinação HFs montagem controlo eβ eδ LA LB LC χ ζ transfer LD LE gravação embalagem eλ eε LF χ ζ γ Figura 1: Esquema geral das linhas Hidro. elevadores, por onde circulam paletes, sobre as quais se colocam os auto-rádios. É também possı́vel que paletes vazias circulem ao longo da linha, nomeadamente quando um auto-rádio é embalado, pois a palete é reencaminhada para o inı́cio da linha para colocar um novo autorádio em produção (Fernandes 2000, Machado 2000). Estas linhas realizam um processamento em pipeline dos auto-rádios, estando as várias unidades de processamento (postos) dispostas sequencialmente ao longo da linha, com a excepção dos postos de reparação que, apesar de consistirem na primeira unidade de processamento das linhas, não fazem parte do processamento sequencial primário (ver figura 1). Os blocos representados na figura 1 (reparação, start-up, afinação HFs, montagem, controlo, gravação e embalagem) correspondem a zonas de processamento, podendo cada zona ser composta por vários postos de trabalho, todos eles situados nos seus extremos. Através do controlo do acesso dos auto-rádios às diferentes zonas de processamento, é possı́vel generalizar diferentes fluxos de materiais. A cada uma destas zonas é também, dada ao longo deste trabalho, a designação de nó. Assim, sempre que se refira a circunstância de um auto-rádio ter ou não ter acesso ao nó, deverá entender-se como a possibilidade de ele aceder àquelas zonas de processamento. Cada Linha Hidro pode ser composta por cinco ou seis linhas de transporte de auto-rádios, três superiores, designadas de LA , LB , LC , (cada uma com um sistema de passadeiras com um movimento uniforme no sentido crescente do eixo Ox), e duas ou três inferiores, designadas de LD , LE , LF , (cada uma com um sistema de passadeiras com um movimento uniforme no sentido decrescente do eixo OX): 1. Linha de transporte superior LB . Esta linha serve, essencialmente, para transportar auto-rádios entre postos não sequenciais. 2. Linhas de transporte superior LA e LC . Estas linhas servem, principalmente, para fornecer auto-rádios aos buffers dos postos e, eventualmente, para transportar auto-rádios entre postos sequenciais. 3. Linhas de transporte inferior LD , LE e LF . Qualquer uma destas três linhas realiza: L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 41 (a) O encaminhamento de auto-rádios avariados para os postos de reparação (principalmente LD ). (b) A realimentação dos postos que, devido a buffers cheios, não aceitaram mais autorádios. (c) O transporte de paletes vazias até ao inı́cio da linha (principalmente L E ). As diversas Linhas Hidro, instaladas na fábrica da BLAUPUNKT, não possuem todas igual configuração; as diferenças mais flagrantes que entre elas se verificam referem-se ao posicionamento dos elevadores, bem como ao número de linhas de transporte inferiores. Nos casos em que apenas há 2 linhas inferiores, considera-se que não existe a linha LF (Fernandes 2000, Machado 2000). Existe ainda um robô que recebe os auto-rádios provenientes dos sub-processos de fabrico anteriores (inserção de componentes) e que os coloca na linha de transporte L B , logo a seguir ao elevador eα . Os transfers permitem realizar a movimentação de paletes entre linhas de transporte do mesmo plano e entre as linhas de transporte e os elevadores. Adicionalmente, existem, nas implementações actuais, cinco elevadores (designados de e α , eβ , eδ , eε , eλ ) que estabelecem a ligação entre as linhas de transporte, superior e inferior: 1. Elevador eα. Este elevador realiza transportes unicamente de LE para LB , com o objectivo principal de fornecer paletes vazias para que mais auto-rádios dêem entrada nas linhas de transporte superior, por intermédio do robô, para serem processados. 2. Elevador eβ. Este elevador realiza transportes unicamente de LD para LC , essencialmente para encaminhar auto-rádios avariados para os postos de reparação, ou para realimentar postos a jusante (todos os postos estão a jusante de eβ ) que, devido a buffers cheios, não aceitaram mais auto-rádios. 3. Elevadores eδ e eε . Estes elevadores realizam transportes nos dois sentidos: (i) de LC para LD , essencialmente para encaminhar auto-rádios avariados para os postos de reparação, ou para realimentar postos a montante (reparação, start-up, afinação de HFs e montagem e, no caso de eε , também controlo) que, devido a buffers cheios, não aceitaram mais auto-rádios; (ii) de LD para LC , essencialmente para realimentar postos a jusante (controlo e, no caso de eε , também gravação e embalagem) que, devido a buffers cheios, não aceitaram mais auto-rádios. 4. Elevador eλ. Este elevador realiza transportes unicamente de LB para LE , com o objectivo principal de encaminhar paletes vazias, libertadas por auto-rádios entretanto embalados, até ao inı́cio da linha HIDRO e, eventualmente, para realimentar postos a montante (gravação e embalagem) que, devido a buffers cheios, não aceitaram mais auto-rádios, ou para encaminhar auto-rádios avariados para os postos de reparação. Os nós, compostos por transfers, permitem que os auto-rádios possam ser mudados de linha (no mesmo plano) ou que sejam enviados para os elevadores (para mudar de plano). Os elevadores, tal como foi referido anteriormente, estabelecem as ligações entre as linhas do plano superior e as linhas do plano inferior. Apesar dos elevadores fazerem movimentos nos dois sentidos do eixo Oz, o transporte de paletes (com ou sem auto-rádios) pode ser restringido a apenas um sentido (Fernandes 2000, Machado 2000). 42 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 3 Estratégias Analisadas A aplicação informática apresentada neste artigo tem por base o modelo das Linhas Hidro da Blaupunkt, já oportuna e pormenorizadamente descritas, e tem por objectivo ser um protótipo para aferir o impacto que determinadas decisões estratégicas de fluxos de materiais poderão produzir no funcionamento daquele tipo de linhas. A especificação do sistema de controlo ideal responsável pelo fluxo de materiais ao longo das Linhas Hidro requer, necessariamente, uma correcta avaliação do impacto que a definição de diferentes estratégias de controlo ocasiona na produção. Estas estratégias têm por função definir, com o rigor possı́vel, as regras de prioridade a estabelecer, sempre que, no mesmo instante, mais do que um auto-rádio se encontra em condições de acesso aos nós das Linhas Hidro. Na sua formulação, é imperioso ter em conta a impossibilidade de mais que um auto-rádio ocupar, no mesmo instante, no interior dos nós, o mesmo espaço fı́sico, para evitar situações de bloqueio, com choques de auto-rádios, cuja ocorrência afectaria, seriamente, o desempenho global das linhas de transporte. Na aplicação desenvolvida, o destino dos auto-rádios dentro dos nós, zonas de processamento, é gerado aleatoriamente pelo programa, tendo em conta se aı́ existe, ou não, elevador. A este propósito, se refere que não foi objectivo deste trabalho gerir o destino dos auto-rádios, mas sim, controlar o seu acesso aos nós. 3.1 Definição das Estratégias A implementação de um eficaz sistema de controlo responsável pelo fluxo de materiais ao longo das Linhas Hidro exige a prévia caracterização, bem como a definição de diferentes estratégias para, adequadamente, disciplinar o acesso dos auto-rádios aos nós. Nesse sentido, se apresenta em termos genéricos, na figura 2, o fluxograma de controlo do acesso dos auto-rádios aos nós o qual, servindo de suporte a cada uma das seis estratégias definidas no âmbito deste trabalho, permite determinar quais os auto-rádios que podem avançar, de modo a, respeitando a capacidade do nó, previamente parametrizada, evitar potenciais acidentes (v.g. 5 choques de auto-rádios). As estratégias definidas com o objectivo acima explı́cito, apenas divergem entre si, no modo como, para cada uma, se efectua o cálculo dos valores do factor Prioridade, considerando-se prioritário o auto-rádio no qual este factor tenha módulo de menor valor. Por exemplo, um auto-rádio de factor igual a zero terá prioridade, relativamente a outro, cujo factor seja igual a um. Um outro elemento regulador que possibilita o ordenamento dos autorádios quanto ao factor Prioridade, diz respeito a situações nas quais o valor em módulo, desse factor, seja igual. Nestes casos, o critério de decisão estabelece-se em função do valor do ı́ndice da linha, considerando-se prioritário o auto-rádio cujo ı́ndice seja de menor valor. Para a correcta compreensão do fluxograma apresentado na figura 2, se esclarece: • O sentido do termo cruzamento, que integra a citação: “Ocorre cruzamento entre o autorádio que ocupa essa posição e os auto-rádios que constam da Lista de Saı́da?”, significa colisão; uma vez que, em circunstância alguma é possı́vel, dois auto-rádios ocuparem, no mesmo instante, o mesmo espaço fı́sico; para este efeito, ter-se-á em conta a posição de origem e o destino de cada um dos auto-rádios. 5 Verbi Gratia = por exemplo. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 43 • O sentido do termo capacidade, refere-se ao número máximo de auto-rádios que podem circular, em simultâneo, dentro de um determinado nó. • Lista de Entrada é a ordenação dos auto-rádios, pelo seu grau de prioridade, em função do ı́ndice das respectivas linhas. • Lista de Saı́da indica os auto-rádios aos quais, em função do ı́ndice da respectiva linha, será dada autorização para avançar. • Apenas se mandar avançar determinado conjunto de auto-rádios, quando o conjunto anterior tenha já abandonado o nó. Este facto justifica-se pela circunstância de, no sistema real, se utilizar idêntico procedimento. Apresentar-se-ão, em seguida, diferentes cenários, que exemplificam situações tı́picas de funcionamento de cada uma das 6 estratégias de controlo desenvolvidas, bem como serão inseridos alguns comentários, para a correcta compreensão das regras que originaram determinados comportamentos, e se descreve o processo seguido para o cálculo do factor Prioridade. Estratégia 1 • Dar prioridade aos auto-rádios situados nas filas de espera de acesso aos nós de maior comprimento. O objectivo que determinou o desenvolvimento desta estratégia foi minimizar, quanto possı́vel, o tamanho das filas de espera, nas linhas de acesso aos nós. Desta forma, tem a prioridade máxima o auto-rádio situado em primeiro lugar na fila de espera cujo comprimento, comparativamente ao das restantes filas do mesmo nó, seja maior. Assim, para cada linha, conforme figura 2, o cálculo do factor Prioridade obtém-se da seguinte forma: valor = dimensão máxima da fila de espera do respectivo nó factor Prioridade = dimensão da fila de espera - valor Como exemplo da aplicação desta estratégia, na figura 3, observa-se um cenário em que o auto-rádio #2, tem prioridade máxima, pois situa-se na linha LB , cuja fila de espera é de maior comprimento. Deste modo, o auto-rádio #2 tem autorização para entrar no nó, e realizar o seu trajecto para LA . Em consequência, o auto-rádio #1, de menor prioridade, não tem permissão para avançar, uma vez que se cruzaria no seu trajecto com o auto-rádio #2. Assim, em face da aplicação desta estratégia, resulta a decisão de mandar avançar apenas os auto-rádios #2 e #3, cujos ı́ndices das linhas, de acordo com o fluxograma de controlo do acesso dos auto-rádios aos nós (ver figura 2), constam da Lista de Saı́da, referida na tabela da figura 3. Neste cenário, é fisicamente possı́vel realizar a movimentação dos auto-rádios #2 e #3 em paralelo, uma vez que existe um desfasamento temporal na realização dos respectivos percursos. Estratégia 2 • Dar prioridade aos auto-rádios cujo percurso a executar dentro do nó é menor. A implementação desta estratégia teve como objectivo proporcionar ao utilizador desta ferramenta de apoio à decisão, o ensejo de avaliar o impacto causado no desempenho do 44 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Condição inicial: n=1 Início (Nó n) Avança para o próximo Nó (n=n+1) Não Existem auto-rádios no Nó n? Sim Calcula a Prioridade de cada uma das Linhas do Nó n Ordena os auto-rádios pela prioridade (Lista de Entrada)* * Em situação de igual prioridade, o critério de decisão será o índice da linha, considerando-se prioritário o auto-rádio cuja linha tenha menor índice Coloca o auto-rádio prioritário no início da Lista de Saída Adiciona o auto-rádio à Lista de Saída Não Ocorre cruzamento entre o auto-rádio que ocupa essa posição e os auto-rádios que constam da Lista de Saída? Avança uma posição na Lista de Entrada Não Sim Capacidade do Nó n Atingida? Atingiu o Fim da Lista de Entrada ? NÃO Sim Sim Não Os auto-rádios da Lista de Saída anterior já abandonaram o Nó n? SIM Manda avançar (Nó n) os auto-rádios da Lista de Saída Figura 2: Fluxograma de controlo do acesso dos auto-rádios aos nós. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 45 ... Capacidade do Nó = 3 LA ... #1 Lista de Saída Índice da Índice da Factor (Índice da Linha de Linha de Prioridade Linha de Origem Destino Origem) 1 4 -1 2 (Elevador) 2 1 0 3 3 1 -1 0 ... LB #4 ... #2 ... LC #3 ... t1< t2< t3< t4< t5 γ a) t1 χ ζ ... ... LA #1 LA #1 ... #2 ... ... ... LB #2 #4 LB ... #4 ... #3 ... ... LC LC ... #3 ... γ b) t2 c) t3 ζ χ ... ... LA #1 ... #3 #2 LA ... #1 ... ... LB ... #4 LB ... #4 ... ... LC LC ... d) t4 #3 ... e) t5 Figura 3: Cenário de funcionamento da estratégia 1. 46 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 ... Capacidade do Nó = 3 LA ... #1 Índice da Linha de Origem Índice da Linha de Destino Factor Prioridade Lista de Saída (Índice da Linha de Origem) 1 2 3 3 3 3 2 1 0 3 2 1 ... LB ... #2 ... LC t1< t2< t3< t4< t5 ... #3 γ a) t1 χ ζ ... ... LA LA ... #1 ... ... ... LB #2 LB ... ... #1 ... ... LC LC ... #3 ... #2 #3 γ b) t2 c) t3 ζ χ ... ... LA LA ... ... ... ... LB LB ... ... ... ... LC ... #1 d) t4 LC ... #2 #1 e) t5 Figura 4: Cenário de funcionamento da estratégia 2. sistema, quando se considera prioritário o auto-rádio que executa o menor percurso dentro do nó. Nesta estratégia, o cálculo do factor Prioridade realiza-se do seguinte modo: factor Prioridade = ı́ndice da linha de destino – ı́ndice da linha de origem Na figura 4, observa-se um cenário resultante da aplicação desta estratégia, em conformidade com o qual se constata que, apesar de os auto-rádios #1, #2 e #3, apresentarem diferentes nı́veis de prioridade (ver tabela da figura 4), é possı́vel a sua movimentação em paralelo dentro do nó, sem que se verifique a ocorrência de quaisquer cruzamentos. Deste modo, dar-se-á permissão de acesso ao nó, a todos os auto-rádios. Estratégia 3 • Definir diferentes nı́veis de prioridade em função do tipo de auto-rádio. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 47 O objectivo desta estratégia é controlar o acesso dos auto-rádios aos nós, através da atribuição de diferentes nı́veis de prioridade a cada um dos três tipos de auto-rádios existentes no sistema. Assim, em função da hierarquia estabelecida pelo utilizador, será atribuı́do a cada um dos tipos de auto-rádios, um diferente valor para o factor Prioridade. Na figura 5, é possı́vel observar um exemplo do funcionamento desta estratégia, na qual o utilizador considerou, por ordem decrescente de prioridade, os auto-rádios dos tipos, a saber: três (3), dois (2) e um (1). Neste caso, o auto-rádio ao qual é conferida maior prioridade é o auto-rádio do tipo três (3), auto-rádio #3, situado na linha L C . Em consequência da aplicação desta estratégia, usufruem de permissão de acesso ao nó, os auto-rádios #3 (tipo 3) e #2 (tipo 2), os mais prioritários, cujo encaminhamento é possı́vel ser efectuado em paralelo, sem quaisquer hipóteses de se verificarem fenómenos de colisão. Por outro lado, verifica-se que o auto-rádio #1 (tipo 1), situado em LA , terá de aguardar à entrada do nó, que os auto-rádios #3 e #2, executem o seu percurso, uma vez que, a ser-lhe dada autorização para entrar no nó, se cruzaria com os outros auto-rádios. Estratégia 4 • Prioridade definida em função da ordem crescente ou decrescente do ı́ndice de cada uma das linhas de acesso aos nós. O desenvolvimento desta estratégia teve como finalidade proporcionar ao utilizador a simulação de diferentes modelos nos quais o critério de decisão para o estabelecimento da prioridade é definido em função do ı́ndice das linhas de acesso aos nós. Para esse efeito, se disponibilizaram duas opções, a saber: • Por ordem crescente do ı́ndice das linhas (Opção 1). • Por ordem decrescente do ı́ndice das linhas (Opção 2). O cenário representado através da figura 6, elucidativo da implementação da estratégia 4 (Opção 1), revela que os auto-rádios situados nas linhas de menor ı́ndice, são os mais prioritários. Assim sendo, o auto-rádio #1, tem prioridade máxima, pois se situa na linha L A , cuja ı́ndice, igual a um (1), é o menor. Por esta razão, da aplicação desta estratégia resulta a decisão de mandar avançar os auto-rádios #1 e #2, uma vez que, sendo os mais prioritários, podem movimentar-se em paralelo, não se cruzando no seu percurso. Não é possı́vel autorizar o acesso do auto-rádio #3 ao nó pois, o seu acesso à linha LB , ocasionaria, na sua trajectória, uma situação de colisão com o auto-rádio #1, mais prioritário, o qual chegou ao nó através da linha LA e se destina ao elevador. Estratégia 5 No âmbito deste trabalho em que se pretende construir uma ferramenta de simulação que permita aferir o impacto das estratégias de controlo no funcionamento do sistema de produção em estudo, entendeu-se que seria interessante desenvolver estratégias de encaminhamento de auto-rádios ao longo da linha de produção, as quais, em função de determinadas condições do sistema, de uma forma dinâmica e automática, possibilitassem utilizar algumas das estratégias anteriormente referidas, para a geração de fluxos de materiais. Assim, nesta estratégia, o 48 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 ... Capacidade do Nó = 3 LA ... #1 Índice Índice Tipo de Factor Lista de da Linha da Linha Auto-Rádio Prioridade Saída (Índice de de da Linha de Origem Destino Origem) 1 2 3 2 1 2 1 2 3 3 2 1 ... LB 3 2 0 ... #2 ... LC #3 t1< t2< t3< t4< t5 ... γ a) t1 χ ζ ... ... LA LA ... #1 #1 ... #2 ... ... LB LB ... #2 ... #3 ... ... LC LC ... #3 ... γ b) t2 c) t3 ζ χ ... ... LA ... #1 #2 LA ... #1 ... ... LB ... LB ... #3 ... ... LC LC ... d) t4 ... e) t5 Figura 5: Cenário de funcionamento da estratégia 3. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 49 ... Capacidade do Nó = 3 LA Índice da Linha de Origem Índice da Linha de Destino Factor Prioridade Lista de Saída (Índice da Linha de Origem) 1 4 (Elevador) 2 2 1 1 2 3 2 0 2 3 ... #1 ... LB ... #2 ... LC ... #3 t1< t2< t3< t4< t5 γ a) t1 χ ζ ... ... LA #1 LA ... ... ... ... LB #2 LB ... ... #1 ... ... LC LC ... #3 #2 ... #3 γ b) t2 c) t3 ζ χ ... ... LA LA ... ... ... ... LB LB ... ... ... ... LC #3 ... #1 LC ... #3 #1 d) t4 e) t5 Figura 6: Cenário de funcionamento da estratégia 4 (ordem crescente do ı́ndice das linhas). 50 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Condição inicial: n=1 Início (Nó n) Nó n: Atingiu o valor crítico das filas de espera? NÃO SIM (n=n+1) Estratégia 1 (Nó n) Estratégia 2 (Nó n) Figura 7: Fluxograma de controlo (Estratégia 5). utilizador usufrui da possibilidade de, através da parametrização de um determinado valor crı́tico para o tamanho das filas de espera, interferir sobre a estratégia reguladora do acesso dos auto-rádios aos nós. A figura 7 apresenta o fluxograma de controlo desenvolvido para a estratégia 5, permitindo uma melhor percepção do seu funcionamento. Como, através da figura 7, pode visionar-se, é o valor crı́tico das filas de espera que, em cada nó, determina qual a estratégia de prioridade a utilizar em cada instante. Com efeito, é esse valor que permite decidir qual das estratégias anteriormente descritas, estratégia 1 (dar prioridade aos auto-rádios situados nas filas de espera de maior comprimento) ou estratégia 2 (dar prioridade aos auto-rádios cujo percurso é menor), aquela que vai ser utilizada para encaminhar os auto-rádios dentro do nó. A propósito se esclarece que, se o valor crı́tico definido pelo utilizador for igual a 0 (zero), os algoritmos reguladores das estratégias 1 e 5 serão iguais. O desenvolvimento desta estratégia tem por base dois objectivos: por um lado procurar que o tamanho das filas de espera de acesso aos nós não atinja valores elevados, tendo por referência aquele que é o valor crı́tico para o utilizador, por outro, minimizar o percurso dos auto-rádios dentro dos nós. Estratégia 6 Posto que tenhamos em atenção tudo quanto foi referido relativamente à estratégia 5, foi desenvolvida uma nova estratégia que, embora muito semelhante a esta, apresenta uma singularidade. Com efeito, nesta outra estratégia (estratégia 6) sempre que não seja atingido o valor crı́tico das filas de espera definido pelo utilizador e haja auto-rádios cujo destino sejam os postos de trabalho situados nos extremos da linha de produção, ser-lhes-á dada prioridade máxima; nas demais situações o cálculo da prioridade será o já definido para a estratégia 2, na qual é dada prioridade aos auto-rádios cujo percurso a executar dentro do nó seja menor. O fluxograma de controlo desenvolvido para esta estratégia encontra-se representado na figura 8. O interesse que presidiu à formulação desta estratégia reside na necessidade de concretização de diversos objectivos, a saber: L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 51 Condição inicial: n=1 Início (Nó n) Nó n: Atingiu o valor crítico das filas de espera? SIM (n=n+1) NÃO SIM Nó n: Existem auto-rádios para os postos de trabalho? É dada prioridade a estes auto-rádios (Nó n) NÃO Estratégia 1 (Nó n) Estratégia 2 (Nó n) Figura 8: Fluxograma de controlo (Estratégia 6). • Minimizar a extensão das filas de espera de acesso aos nós, sempre que um determinado valor crı́tico parametrizado pelo utilizador seja atingido. • Maximizar os nı́veis de utilização dos postos de trabalho que estão situados nos extremos da linha de produção, facultando acesso prioritário aos auto-rádios que a esses postos se destinem. • Minimizar o percurso a efectuar por cada auto-rádio dentro do nó. Refira-se, porém, que os objectivos antes mencionados se articulam dinamicamente, entre si, em função da ocorrência de determinadas condições representadas na figura 8. Assim, através da implementação desta estratégia, o acesso às diversas zonas de processamento, situadas ao longo da linha de produção, tem um ajuste automático, em função, quer de parâmetros definidos pelo utilizador, quer do destino dos auto-rádios dentro daquelas zonas. Saliente-se que, tal como é assinalado na descrição da estratégia 5, sempre que o valor crı́tico das filas de espera definido pelo utilizador para esta estratégia seja igual a 0 (zero), as estratégias 1 e 6 são iguais. 3.2 Geração Automática Após terem sido descritas as estratégias de controlo que estabelecem os critérios de prioridade para regular o acesso dos auto-rádios aos nós, e respectivo encaminhamento ao longo da linha de produção, na figura 9 é apresentada a interface gráfica que permite ao utilizador seleccionar a estratégia a utilizar para esse efeito; além disso é possı́vel nesta mesma interface parametrizar os tempos de rota dos auto-rádios dentro das zonas de processamento (nós), bem como configurar o intervalo entre amostragens. Estas são algumas das funcionalidades que o desenvolvimento da versão adaptada do Arena passou a disponibilizar. 52 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Figura 9: Módulo de gestão e controlo. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 53 Figura 10: Parâmetros do sistema (Vieira 2002). O trabalho desenvolvido deu origem a uma aplicação de apoio à decisão que engloba todo o processo, desde a construção fı́sica dos modelos (Vieira 2002, Ferreira 2003), ao controlo dos fluxos de materiais (Ferreira 2003), bem como à apresentação dos seus principais ı́ndices de desempenho. Na figura 10 apresenta-se um dos módulos que integra a interface gráfica deste trabalho, na qual é possı́vel configurar os parâmetros fı́sicos do modelo que vai ser construı́do, e os parâmetros de chegada das entidades. Assim, é possı́vel definir, entre outros parâmetros: • Número de linhas (n)6 . • Número de zonas de processamento (m)6 . • Localização dos elevadores. • Intervalo entre chegadas das entidades ao sistema (em cada uma das linhas). Além disso, a figura 10 exemplifica um modelo, que integra três linhas, três nós e dois elevadores, estes localizados no primeiro e último nó, respectivamente. 6 1 ≤ n ≤ 20 e 1 ≤ m ≤ 20. 54 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Word Excel ....... Geração Automática de Gráficos CRYSTAL REPORT Templates ACCESS VB ARENA SIMAN VBA Figura 11: Versão adaptada do Arena para geração automática de modelos e relatórios. Este trabalho pretende promover, junto do utilizador desta aplicação informática, condições para comparar diferentes alternativas de fluxos de materiais e, desse modo, permitir-lhe uma correcta avaliação do desempenho de cada uma. Neste contexto, considerou-se de todo o interesse integrar no ambiente de simulação, um gerador automático de relatórios nos quais se apresenta informação de pormenor sobre os principais ı́ndices de desempenho dos modelos simulados, com o recurso à visualização de gráficos. O trabalho desenvolvido exigiu a integração de diversas aplicações no ambiente de simulação ARENA, as quais são, a saber: • Visual Basic for Applications (VBA) • Visual Basic (VB) • Microsoft Access (Base de Dados) • Crystal Report (Edição de Gráficos) • ARENA / SIMAN Seguidamente, neste artigo, é apresentada em termos genéricos, a forma como se processa a integração daquelas aplicações no sistema desenvolvido para apoio à decisão (ver figura 11). A ferramenta Crystal Report da Crystal Decisions (URL7 : www.crystaldecisions.com), aı́ referenciada, é uma aplicação que disponibiliza, entre outros recursos, a possibilidade de criar relatórios gráficos, a partir de uma base de dados do Microsoft Access. O gerador automático de relatórios implementado, a partir do qual se processa a edição de diferentes gráficos que contêm informação sobre os principais ı́ndices de desempenho dos modelos, destaca-se pelo seu carácter genérico e flexı́vel, uma vez que a edição dos gráficos é independente das caracterı́sticas fı́sicas do sistema que está a ser simulado, assim como das estratégias de controlo utilizadas para realizar o encaminhamento dos auto-rádios ao longo da linha de produção. Neste mesmo contexto, é de salientar o aspecto visual dos gráficos produzidos, os quais proporcionam ao utilizador uma melhor percepção do desempenho dos modelos 7 Universal Resource Locator. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 55 que foram simulados. Dos indicadores de desempenho que foram considerados, destacam-se, entre outros: • Nı́veis de utilização dos postos de trabalho. • Tempos médios / máximos de permanência dos auto-rádios nas filas de espera de acesso aos nós. • Comprimento médio / máximo das filas de espera de acesso aos nós. • Número de operações realizadas em cada posto de trabalho. • Tempo mı́nimo / médio / máximo de produção dos auto-rádios. • Número de auto-rádios produzidos. 3.3 Caracterı́sticas da Aplicação Desenvolvida A aplicação informática desenvolvida no âmbito deste trabalho, com o firme propósito de dar resposta aos objectivos e problemas que lhe servem de fundamento, destaca-se pelo seu carácter, simultaneamente: • Genérico e flexı́vel Na medida em que permite a generalização de diferentes fluxos de materiais, através da flexibilização da ferramenta quer quanto à configuração fı́sica da linha de produção (podem existir n8 linhas de montagem e m8 zonas de processamento), quer quanto às estratégias de controlo utilizadas na produção (foram desenvolvidas 6 estratégias). Além disso, foi integrado na aplicação desenvolvida um gerador de relatórios gráficos, que se distingue pelo seu carácter extremamente genérico, uma vez que apresenta toda a informação sobre o desempenho do sistema, independentemente das suas caracterı́sticas fı́sicas e estratégias seleccionadas. • Parametrizável Na medida em que permite ao utilizador, no inı́cio da simulação, interactuar com o sistema que vai ser desenvolvido, através da introdução de diversos parâmetros (por exemplo: estratégias de controlo, tempos de rota e de processamento) e, desta forma, testar as potencialidades do sistema sob diferentes condições de funcionamento. • Visual Na medida em que representa, no ecrã do computador, o estado do sistema em cada instante, e a sua evolução ao longo do tempo, permitindo deste modo uma melhor comunicação entre o modelo e o utilizador. Com efeito, a forte componente visual dos modelos desenvolvidos torna-os transparentes para os agentes de decisão que, eventualmente, os venham a utilizar pois possibilita que estes assistam às interacções entre as entidades que constituem o modelo, ocasionando uma melhor compreensão dos resultados da simulação. • Automático Na medida em que, introduzidos os dados, dispensa qualquer outra intervenção do utilizador para a construção dos modelos. 8 1 ≤ n ≤ 20 e 1 ≤ m ≤ 20. 56 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Se t2 = t1 + t1 + t2 Se t2 = t1 + t1 Se t2 = t1 + t t ... LA #C ... #A ... LB #D ... #B ... LC Legenda: t1 e t2 - Instantes de Amostragem. ∆t1 - Tempo de Rota do auto rádio #A, dentro do Nó. ∆t < ∆t1 ... #E γ t2 t1 t1 ζ χ Figura 12: Diferentes instantes de amostragem para a tomada de decisão (t 1 < t2 ). A natureza, simultaneamente, genérica, flexı́vel, parametrizável, visual, e automática desta aplicação, faz com que esta seja uma ferramenta de utilização “indispensável” na análise e auxı́lio à tomada de decisões em sistemas produtivos de igual configuração, onde são diversos os aspectos a considerar, bem como as fontes de incerteza e variabilidade. 3.4 Acesso às Zonas de Processamento (Nós) As estratégias analisadas têm por base um conjunto de decisões, reguladoras do acesso dos auto-rádios aos nós. Estas decisões, porém, não são tomadas em tempo-real, mas em intervalos de tempo discretos. Esta técnica consiste em inspeccionar, em intervalos regulares e de uma forma sequencial, cada um dos nós da linha de produção e, a partir daı́, tomar as decisões de encaminhamento. Para melhor compreensão, apresenta-se na figura 12, um esquema 9 representativo do que ocorre, num determinado nó, nos instantes t1 e t2 , em que são tomadas decisões visando determinar quais os auto-rádios que devem avançar. No instante de amostragem t1 (ver figuras 12 e 13), o auto-rádio A acabou de chegar; como o nó está livre e apenas existe este auto-rádio à entrada, ser-lhe-á dada autorização de acesso ao nó. Tenhamos em atenção que apenas se autoriza que determinado conjunto de auto-rádios aceda ao nó, quando o conjunto anterior o tenha já abandonado; ora, no instante de amostragem t2 , dependendo da amplitude do intervalo entre amostragens (t2 – t1 ), podem ocorrer diversas situações (ver figura 12) que influenciarão as decisões de encaminhamento dos autorádios ao longo da linha de produção, a saber: 9 Considera-se que a velocidade de deslocamento de todos os auto-rádios é igual. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 57 Figura 13: Instante de amostragem t1 . • Situação 1 – Instante de amostragem t2 = t1 + ∆t Nesta situação (ver figuras 14 e 12), como o intervalo entre amostragens (neste caso igual a ∆t), é inferior ao tempo de rota do auto-rádio A (∆t1 ), não será dada permissão para avançar a nenhum dos auto-rádios situados à entrada do nó (neste caso apenas o auto-rádio #B). Assim, os dados recolhidos por esta amostragem serão perdidos, considerando-se esta uma amostra supérflua. Deste modo, ainda que as decisões de controlo do acesso dos auto-rádios aos nós fossem tomadas em tempo-real, o resultado obtido seria igual para este tipo de situações. • Situação 2 – Instante de amostragem t2 = t1 + ∆t1 Nesta outra situação (ver figuras 15 e 12), o auto-rádio #A terminou o seu percurso dentro do nó, uma vez que o instante de amostragem t2 é igual a (t1 + ∆t1 ). Nesta circunstância, tal como no caso anterior, as decisões de encaminhamento são tomadas como se o controlo dos fluxos dos auto-rádios ocorresse em tempo-real. • Situação 3 – Instante de amostragem t2 = t1 + ∆t1 + ∆t2 Na figura 16, observa-se uma outra situação (também de acordo com o que se descreve na figura 12), em que o instante de amostragem t2 é igual a (t1 + ∆t1 + ∆t2 ). Nesta situação, existirá um erro residual no processo de simulação, traduzı́vel em termos temporais num valor igual a ∆t2 . Desta forma, durante o intervalo de tempo ∆t2 , existirão diversos auto-rádios à entrada do nó (inicialmente os auto-rádios #B e #C; e depois os auto-rádios #B, #C e #E), estando este livre e, portanto, disponı́vel para operar. Tudo o que foi referido até ao momento, teve como objectivo elucidar o leitor, relativamente à técnica utilizada no controlo do acesso dos auto-rádios aos nós da linha de produção. Como se depreende da explicação acima, esta técnica apresenta, contudo, algumas limitações, 58 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Figura 14: Instante de amostragem t2 = t1 + ∆t. ... LA #C ... ... LB #B ... ... γ LC ... ζ Figura 15: Instante de amostragem t2 = t1 + ∆t1 . χ L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 59 Figura 16: Instante de amostragem t2 = t1 + ∆t1 + ∆t2 . Tabela 1: Intervalo de Amostragem / Intervalo entre Chegadas de Auto-Rádios. Parâmetros Intervalo de Amostragem Intervalo entre Chegadas de Auto-Rádios Situação A 1 Unidade de Tempo 30 Unidades de Tempo Situação B 30 Unidades de Tempo 1 Unidade de Tempo uma vez que existe uma óbvia independência entre o processo de amostragem durante o qual são tomadas as decisões reguladoras do acesso dos auto-rádios aos nós, e as transições de estado no sistema. Assim, é fácil acontecer que entre duas amostragens, e correspondentes decisões de encaminhamento, ocorra um erro residual no processo de simulação (ver Figura 16), comparativamente ao que sucede com a tomada de decisões em tempo-real. Por outro lado, é verdade que a diminuição do intervalo entre amostragens, e consequente aumento da sua frequência10 , permite que esse erro se torne cada vez menor. Todavia, um outro factor a ter em conta, para esse efeito, refere-se à frequência com que os auto-rádios chegam aos nós. Para uma plena compreensão deste facto, seguidamente se enunciam, duas situações bem relevantes da influência que a frequência de amostragem e a da chegada dos auto-rádios aos nós poderão exercer nos resultados finais da simulação. Na situação A (ver tabela 1), em face dos valores parametrizados, poder-se-á afirmar que as decisões de controlo do acesso dos auto-rádios são tomadas em tempo-real, pois o intervalo de amostragem, comparativamente ao intervalo entre chegadas dos auto-rádios, é muito menor. Por outro lado, na situação B, os valores apresentados por aqueles dois intervalos, afectam gravemente os resultados a obter no termo da simulação, pois o intervalo de amostragem é muito maior do que o existente entre chegadas dos auto-rádios. Por tudo isto, entendeu-se por bem disponibilizar ao utilizador do sistema de apoio à decisão implementado, a opção de 10 Frequência de amostragem = 1 / ∆T, em que ∆T é o intervalo entre amostragens. 60 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 configurar o intervalo de amostragem11 . Na literatura cientı́fica da especialidade, o teorema de amostragem conhecido por Teorema de Nyquist (Oppenheim 1989), estabelece um número mı́nimo de amostragens para que, através da informação que proporcionam, seja possı́vel reconstituir um determinado fenómeno. Com efeito, estabelece que a frequência de amostragem deve ser, no mı́nimo, duas vezes superior à maior frequência envolvida no fenómeno (Brito et al. 2001). Deste modo, e tendo em atenção o disposto pelo Teorema de Nyquist, considera-se que o intervalo de amostragem ideal, deve ser no máximo igual a metade do menor intervalo de tempo que medeia a chegada dos auto-rádios aos nós. Assim, poder-se-á obter resultados credı́veis, desde que o utilizador esteja sensibilizado para a influência que uma incorrecta parametrização da frequência de amostragem poderá ter nos resultados finais da simulação. 4 Conclusões O objectivo principal do trabalho apresentado neste artigo consistiu no estudo e desenvolvimento de um sistema de apoio à decisão, o qual possibilita, de uma forma genérica e automática, a geração de modelos com diferentes estratégias de controlo para a redefinição de fluxos de processamento de materiais, sendo possı́vel, deste modo, criar modelos extremamente diversificados, oferecendo ao utilizador o ensejo de optar pela solução que, em seu entender, melhor se adapte ao sistema que pretende projectar. Além do mais, a forte componente visual dos modelos construı́dos facilitará ao utilizador a sua melhor compreensão e aceitação, mesmo que este não possua grande preparação técnica e cientı́fica. Na sequência da realização deste trabalho, um gerador automático de relatórios foi integrado no ambiente de simulação ARENA, de forma a permitir ao utilizador, no final de cada simulação, avaliar o comportamento do modelo construı́do, através da visualização de gráficos que transmitem os valores dos principais ı́ndices de desempenho do sistema. O recurso à simulação num projecto desta natureza, põe em evidência a importância desta técnica na especificação do controlo ideal para a condução de fluxos de materiais, contribuindo para uma melhor especificação, caracterização, definição, e consequente implementação do mais eficaz sistema de controlo. Do ponto de vista estritamente cientı́fico, no âmbito deste trabalho, foram desenvolvidas seis estratégias de controlo, cuja importância resulta do facto de estas terem por objectivo permitir, ao potencial utilizador da ferramenta de apoio à decisão desenvolvida, validar o impacto que a implementação de diferentes estratégias de controlo irá ter na produção. Em termos globais, este trabalho vai na direcção do que hoje se considera como sendo as grandes tendências no desenvolvimento de avançados sistemas de simulação (Ferreira 2003): i) propõe um sistema genérico e flexı́vel de generalização de fluxos de materiais para uma determinada configuração de linhas de produção; ii) permite a geração automática de diferentes modelos de simulação; iii) destaca a importância do desenvolvimento de sistemas de simulação 11 Na aplicação que serve de suporte à construção fı́sica dos modelos já é possı́vel configurar o intervalo entre chegadas dos auto-rádios. L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 61 visuais que facilitem a comunicação entre o agente de decisão e o modelo de simulação, em contraste com as técnicas analı́ticas normalmente utilizadas pela Investigação Operacional, as quais tornam os modelos pouco acessı́veis aos gestores ou agentes de decisão; iv) é acessı́vel aos potenciais utilizadores, porquanto o seu uso não exige grandes conhecimentos técnicos; v) integra no ambiente de simulação, um gerador automático de relatórios gráficos, que apresentam informação sobre o desempenho dos modelos, aspecto essencial num eficaz processo de apoio à decisão. Um trabalho com esta dimensão não pode deixar de ter limitações; todavia, não deve ser catalogado como um produto acabado, no sentido comum em que todos os resultados são ideais. Como exemplo se destaca uma dessas limitações: • As estratégias de controlo poderão não reflectir, integralmente, todas as possı́veis decisões que permitem a movimentação, em concreto, dos auto-rádios ao longo da linha de produção. Dando continuidade às propostas aqui apresentadas, e já numa perspectiva de trabalho futuro, este trabalho poderá vir a ser complementado com a incorporação, na ferramenta de apoio à decisão, de estratégias inteligentes de controlo que permitam a optimização da gestão dos fluxos de materiais, em cada uma das zonas de processamento, ao longo da linha de produção, tendo em atenção o que se passa a jusante daquelas zonas. 5 Referências Alvarez, A.M., Centeno, M. A. (1999). “Enhancing Simulation Models For Emergency Rooms Using VBA”, in Proceedings of 1999 Winter Simulation Conference, P. A. Farrington, H. B. Nembhard, D. T. Sturrock, and G. W. Evans, eds. Brito, A.E.S.C., Teixeira, J.M.F. (2001). ”Simulação por Computador – Fundamentos e Implementação de Código em C e C++ ”, 1a Edição, Publindústria Edições Técnicas, ISBN 972-987262-7. Fernandes, J.M.L. (2000). “MIDAS: Metodologia Orientada ao Objecto para Desenvolvimento de Sistemas Embebidos”, Tese de Doutoramento em Informática, Área de Conhecimento em Engenharia de Computadores, Departamento de Informática, Escola de Engenharia, Universidade do Minho. Ferreira, J.J.P. (1995). “Suporte do Ciclo de Vida dos Sistemas Integrados de Fabrico através de Modelos Executáveis sobre Infra-estruturas de Integração”, Tese de Doutoramento em Engenharia Electrotécnica e de Computadores, Faculdade de Engenharia da Universidade do Porto. Ferreira, L.P. (2003). “Geração Automática de Modelos de Simulação de uma Linha de Produção na Indústria Electrónica”, Dissertação de Mestrado em Engenharia Industrial, Especialidade de Logı́stica e Distribuição, Departamento de Produção e Sistemas, Universidade do Minho, 139 pp., Julho de 2003. Kheir, N.A. (1996). “Systems Modeling and Computer Simulation”, Second Edition, Marcel Dekker, INC., ISBN 0-8247-9421-4, Chapter 7 –“Manufacturing Systems: Modeling and Simulation” (David R. Kalasky – Process Analysis and Improvement, Wheaton, Illinois). Kelton, W.D., Sadowski, R. P., Sadowski, D. A. (2002). “Simulation With ARENA”, Second Edition, McGraw-hill Series in Industrial Engineering and Management Science, ISBN 0-07250739-X. 62 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 Machado, R.J. (2000). “Metodologias de Desenvolvimento em Projectos de Engenharia de Computadores no Suporte à Implementação de Sistemas de Informação Distribuı́dos Não Convencionais (Industriais)”, Tese de Doutoramento em Informática, Área de Conhecimento em Engenharia de Computadores, Escola de Engenharia, Universidade do Minho. Oppenheim, A.V., Schafer, R. W. (1989). “Discrete-Time Signal Processing”, Prentice Hall, ISBN 0-13-216771-9. Ramis, F.J., Palma, J.L. , Baesler, F.F. (2001). “The Use Of Simulation For Process Improvement At An Ambulatory Surgery Center”, in Proceedings of 2001 Winter Simulation Conference, B.A. Peters, J.S. Smith, D.J. Medeiros, and M. W. Rohrer, eds. Vieira, P. (2002). “Gerador Automático de Modelos de Simulação”, Relatório de Estágio da Licenciatura em Engenharia de Sistemas e Informática, Departamento de Informática, Escola de Engenharia, Universidade do Minho. A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 63 Um melhor limite inferior para o problema do caixeiro viajante assimétrico baseado no problema da afectação Ana Ramires ‡ ‡ João Soares∗† Departamento de Matemática Universidade Portucalense 4200 Porto, Portugal. [email protected] † Departamento de Matemática Universidade de Coimbra 3000 Coimbra, Portugal. and Centro de Matemática da Universidade de Coimbra. [email protected] Abstract In this article we decribe how to compute a lower bound for the asymmetric traveling salesman problem that dominates the bound that comes from the assignment relaxation, through the solving of a sequence of assignment problems. The algorithm that we propose is a first-order method based on the exponential penalty function. Directions of movement are derived from a disjunctive relaxation that we proposed as being one of two possible classes, one based on cycles, the other based on cliques. Resumo Neste artigo explicamos como obter um limite inferior para o valor óptimo do problema do caixeiro viajante assimétrico melhor do que o que advém do problema de afectação através da resolução sucessiva de problemas de afectação. O algoritmo que propomos é um método de primeira ordem baseado na função de penalidade exponencial cujas direcções de deslocamento são definidas com base numa relaxação disjuntiva que propomos ser de dois tipos, uma baseada em ciclos e a outra baseada em cliques. Keywords: Optimization, Combinatorial Optimization, Lower Bounds, Asymmetric Traveling Salesman, Disjunctive Programming João Soares acknowledges partial finantial support from Fundação para a Ciência e Tecnologia (Projecto POCTI/MAT/14243/1998). ∗ c 2005 Associação Portuguesa de Investigação Operacional 64 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 Title: An improved lower bound for the asymmetric traveling salesman problem based on the assignment problem 1 O Problema do Caixeiro Viajante Assimétrico Seja G[c] = (V, E) um grafo dirigido simples (i.e., sem laços e arcos múltiplos) com n vértices e m arcos, tal que a cada arco (i, j) ∈ E está associado um escalar real c ij designado por custo do arco (i, j). O problema do caixeiro viajante assimétrico consiste em determinar em G[c] um ciclo Hamiltoniano de custo mı́nimo. Num grafo dirigido, um ciclo Hamiltoniano é um ciclo com todos os arcos orientados na mesma direcção e que passa por todos os vértices uma única vez. Este problema (que em inglês é chamado Asymmetric Traveling Salesman Problem, e por isso denotado ATSP) tem vindo a servir de plataforma de teste para diversas metodologias de resolução em optimização combinatória e, por isso, também foi a classe de problemas escolhida para testar a nossa metodologia. O livro [27] sumaria a investigação no ATSP em todos os seus aspectos até 1985, enquanto que o livro [19] é uma referência mais actual. Em lı́ngua portuguesa e do nosso conhecimento, os trabalhos de sı́ntese sobre o ATSP incluem os artigos de Coelho e Cerdeira [25, 26], a dissertação de Pires [30] e o artigo didáctico de Constantino [10]. De acordo com [12], os códigos mais eficazes para a resolução do ATSP são: o código CDT [7, 6] - método branch-and-bound onde todas as relaxações lineares são problemas da afectação; o código FT-add - coincide com CDT mas após a resolução de cada problema da afectação o limite inferior é melhorado através da resolução de arborescências de custo mı́nimo, tal como é explicado em [13]; o código FT-b&c [14] - um método branch-and-cut que usa diversas desigualdades válidas para o ATSP e onde todas as relaxações lineares são problemas lineares gerais; o código Concorde, disponı́vel em http://www.tsp.gatech.edu// — um método branch-and-cut pensado para o STSP, a versão simétrica do ATSP, do mesmo modo que FTb&c foi pensado para o ATSP. Como qualquer ATSP pode ser reformulado como um STSP, o código Concorde também permite resolver o ATSP. Portanto, as implementações FT-b&c e Concorde usam relaxações lineares muito mais apertadas do que CDT e FT-add. Consequentemente, os limites inferiores gerados são muito mais eficazes na eliminação de nós na árvore do branch-and-bound. Contudo, esses códigos dependem do interface com um código eficiente para programação linear. Hoje em dia, um tal código é sinónimo de um código altamente sofisticado como é o Cplex. A questão especı́fica de obter bons limites inferiores para o ATSP resolvendo uma sucessão de problemas com resolução muito eficiente é abordada em [3], em [13] e em [24]. Bons limites inferiores podem vir a tornar um código como o CDT (e FT-add) mais competitivo. A primeira referência procura generalizar o limite Held-Karp (proposto para o caso simétrico em [23, 22]) para o ATSP enquanto que a segunda referência explora as diversas subestruturas particulares na formulação tradicional do ATSP (afectação, arborescência) e que possuem métodos de resolução especı́ficos muito eficientes. A terceira referência usa a reformulação do ATSP como um STSP, aplica a abordagem Lagrangeana de Held e Karp, e depois retoma o ATSP original. A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 65 Limites inferiores servem também para avaliar o desempenho de heurı́sticas em problemas que não possuem o valor óptimo conhecido ou é moroso obtê-lo. Foi aliás, para esse contexto que foi pensado o limite inferior sugerido em [24]. Motivados pela importância de descobrir bons limites inferiores para o ATSP apresentamos, neste trabalho, uma estratégia de obter um limite inferior para o valor óptimo do ATSP melhor do que o que advém do problema de afectação. O algoritmo que propomos é do tipo Lagrangeano mas, ao contrário da abordagem clássica, não requer a actualização de variáveis duais e obriga apenas à resolução sucessiva de problemas de afectação como subproblemas. No entanto, o algoritmo que propomos neste trabalho requer um estudo computacional mais aprofundado pois as experiências computacionais preliminares que efectuámos permitiram identificar diversas limitações. As limitações são estruturais e não parecem ser simples ajustamentos na implementação. Por isso, não pretendemos neste trabalho demonstrar a viabilidade numérica do nosso algoritmo nem mesmo compará-lo com as abordagens clássicas de relaxação Lagrangeana. Pretendemos tão simplesmente demonstrar que o nosso algoritmo conceptualmente tira grande partido da estrutura especı́fica do ATSP embora ainda não o seja verificado experimentalmente. Na próxima secção, recordamos a formulação clássica para o Problema do Caixeiro Viajante Assimétrico. Na Secções 3 e 4 explicamos como se pode fortalecer uma relaxação linear através relaxações lineares disjuntivas, que usam o facto de que um dado ponto extremo não satisfaz uma restrição de ciclo ou de clique. Explicaremos como optimizar adequadamente uma função linear nessas relaxações lineares disjuntivas. Na Secção 5, propomos um algoritmo que permite obter um limite inferior melhorado para o valor óptimo do ATSP e ilustramos algumas iterações desse algoritmo com um exemplo. Na Secção 6, referimos as conclusões possı́veis do trabalho e identificamos novas questões cientı́ficas. 2 A formulação clássica A formulação clássica do ATSP utiliza uma variável xij ∈ {0, 1} por cada arco (i, j) ∈ E, que indica se o arco (i, j) pertence ou não ao ciclo Hamiltoniano procurado, e é a seguinte: z = min X cij xij (i,j)∈E s.a X xij = 1 (i ∈ V ), (1) xij = 1 (j ∈ V ), (2) ((i, j) ∈ E), (3) (S ⊆ V, S 6= ∅, V ), (4) ((i, j) ∈ E), (5) (i,j)∈δ + (i) X (i,j)∈δ − (j) xij ≥ 0 X xij ≤ |S| − 1 (i,j)∈E(S) xij ∈ Z onde δ + (i) denota o conjunto dos arcos de G que “saem”do vértice i, e δ − (i) denota o conjunto dos arcos de G que “entram”no vértice i. 66 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 As restrições (1)-(3) definem um poliedro que denotaremos por P ASS (ASS de “Assignment”). Os pontos extremos de P ASS satisfazem as restrições (5) e são os vectores caracterı́sticos de ciclos Hamiltonianos e subpercursos de G. O valor de min{cx : x ∈ P ASS } é um limite inferior para z, que pode ser obtido em O(n3 ) operações aritméticas e comparações através do método Húngaro ([27], por exemplo) mesmo que a função objectivo seja definida por números reais. Os vectores caracterı́sticos de ciclos Hamiltonianos em G são os pontos extremos de P ASS que satisfazem as restrições (4) - normalmente designadas por restrições de eliminação de subpercursos - no caso particular apresentado, esta classe de restrições também é designada por restrições de clique. Denotaremos por P ATSP o invólucro convexo das soluções admissı́veis de (1)-(5). O problema min{cx : x ∈ P ATSP } é N P-difı́cil ([27], por exemplo). No entanto, a sua relaxação linear pode ser resolvida em tempo polinomial através do método elipsóide [20], conforme explicado em [18] - aqui já se torna necessário que c seja racional. Essencialmente, isso deve-se ao facto de que dado x̄ satisfazendo as restrições (1)-(3), averiguar se x̄ satisfaz as restrições (4) consiste na resolução de um problema de corte mı́nimo global em G[x̄] porque, para todo o x que satisfaça as restrições (1), tem-se X X X X X xij = xij − xij (6) xij = |S| − i∈S (i,j)∈E(S) (i,j)∈δ + (i) (i,j)∈E : j ∈S / (i,j)∈δ + (S) e, portanto, cada uma das restrições (4) pode ser substituı́da por X xij ≥ 1 (S ⊂ V, S 6= ∅) (7) (i,j)∈δ + (S) sem que a relaxação linear de (1)-(5) fique diferente. As restrições (7) são normalmente designadas por restrições de corte. Uma formulação alternativa a (1)-(5) consiste em substituir as restrições (4) por X xij ≤ |E(C)| − 1 (C ciclo não Hamiltoniano de G). (8) (i,j)∈E(C) Não é difı́cil mostrar que a relaxação linear deste novo problema é de qualidade inferior à relaxação linear de (1)-(5). A sua resolução é também polinomial porque cada uma das restrições (8) pode ser reescrita como X (1 − xij ) ≥ 1 (C ciclo não Hamiltoniano de G) (i,j)∈E(C) que são normalmente designadas por restrições de ciclo. Por isso, averiguar se um vector x̄, que satisfaça (1)-(3), também satisfaz as restrições (8) consiste em determinar em G[1 − x̄] o ciclo não Hamiltoniano de custo mı́nimo. Este problema pode ser resolvido em O(n 4 ) operações aritméticas e comparações através de uma adaptação do algoritmo de Floyd-Warshall [15, 33]. 3 Uma relaxação linear disjuntiva baseada em ciclos Seja C um ciclo não Hamiltoniano de G tal que E(C) = {(i1 , i2 ), (i2 , i3 ), . . . , (iK , i1 )} ⊆ E e seja P um conjunto poliédrico satisfazendo P ATSP ⊆ P ⊆ P ASS . Defina-se a seguinte relaxação A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 67 linear disjuntiva de P ATSP , inspirada em [31] e também usada em [8], PC,i1 ≡ conv K [ k=1 onde P1 P2 P3 PK ≡ ≡ ≡ ··· ≡ Pk ! , P ∩ {x : xi1 i2 = 0}, P ∩ {x : xi1 i2 = 1, xi2 i3 = 0}, P ∩ {x : xi1 i2 = xi2 i3 = 1, xi3 i4 = 0}, P ∩ {x : xi1 i2 = xi2 i3 = . . . = xiK−1 iK = 1, xiK i1 = 0}. (9) (10) Não é difı́cil verificar que PC,i1 é um poliedro que satisfaz X xij ≤ |E(C)| − 1 ⊆ P ⊆ P ASS . P ATSP ⊆ PC,i1 ⊆ P ∩ x : (i,j)∈E(C) Mais, os poliedros P1 , P2 , . . . , PK são faces de P (e de P ATSP ). Basta reparar que, para cada k ∈ {1, 2, . . . , K}, Pk = P ∩ {x : αk x = βk }, com βk = −(k − 1) e αk ∈ Rm um vector linha definido componente a componente por se (i, j) = (ik , ik+1 ), 1 k −1 se (i, j) ∈ {(i1 , i2 ), (i2 , i3 ), . . . , (ik−1 , ik )} , , (i, j) ∈ E. αij = 0 noutros casos, e que αk x ≥ βk para todo o x ∈ P ASS ⊇ P . Não é verdade que, em geral, PC,i1 seja uma face de P . Lema 1 Seja C um ciclo não Hamiltoniano de G e P um conjunto poliédrico satisfazendo P ATSP ⊆ P ⊆ P ASS . Se os pontos extremos de P são pontos extremos de P ASS , então PC,v ≡ PC é independente de v ∈ V (C), e os pontos extremos de PC são os pontos extremos de P que satisfazem X xij ≤ |E(C)| − 1. (11) (i,j)∈E(C) Demonstração. Suponhamos que E(C) = {(i1 , i2 ), (i2 , i3 ), . . . , (iK , i1 )}. Basta provar que K 0 PC,i1 ≡ conv(∪K k=1 Pk ), definido em (9), coincide com PC,i2 ≡ conv(∪k=1 Pk ), definido por Pk0 ≡ P ∩ {x : xi2 i3 = xi3 i4 = . . . = xik ik+1 = 1, xik+1 ik+2 = 0}, admitindo que iK+1 ≡ i1 e iK+2 ≡ i2 . Seja x̄ um ponto extremo de PC,i1 ; então x̄ ∈ Pk para 0 algum k ∈ {1, 2, . . . , K}. Se k ≥ 2, então x̄ ∈ Pk−1 . Se k = 1, então existe l ∈ {1, 2, . . . , K} tal que x̄i2 i3 = x̄i3 i4 = . . . = x̄il il+1 = 1, x̄il+1 il+2 = 0, e, neste caso, x̄ ∈ Pl0 . Em qualquer dos casos, x̄ ∈ PC,i2 . Reciprocamente, seja x̄ um ponto extremo de PC,i2 tal que x̄ ∈ Pk0 . Se x̄i1 i2 = 1, então k ≤ K − 1 e x̄ ∈ Pk+1 ; caso contrário, x̄ ∈ P1 . Em qualquer dos casos, x̄ ∈ PC,i1 . 68 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 Os pontos extremos de PC são os pontos extremos de cada um dos conjuntos Pk , k = 1, 2, . . . , K que, como é fácil verificar, satisfazem (11). Reciprocamente, para o todo o ponto extremo x de P que satisfaça (11) existe um conjunto Pk tal que x ∈ Pk . Então, x terá que ser ponto extremo de PC porque Pk ⊆ P . P Em geral, PC,v ⊆ P ∩ {x : (i,j)∈E(C) xij ≤ |E(C)| − 1}, para todo v ∈ V (C). No caso particular do lema acima, X PC = conv P ∩ x : xij ≤ |E(C)| − 1 ∩ Zm . (i,j)∈E(C) Uma consequência imediata do Lema 1 é a seguinte generalização do procedimento de convexificação sequencial de Balas. Proposição 1 Seja C = {C1 , C2 , . . . , Cl } o conjunto de todos os ciclos não Hamiltonianos do grafo G = (V, E). Então, . (12) P ATSP = . . . PCASS 1 C2 ... Cl Demonstração. Pelo Lema 1, os pontos extremos do conjunto do lado direito de (12) são os pontos extremos de P ASS que satisfazem as desigualdades (8). Abordamos agora a questão da existência de um hiperplano separador entre P C,i1 , para algum ciclo não Hamiltoniano C, e um ponto extremo de P . Lema 2 Seja x̄ um ponto extremo de um poliedro P tal que P ATSP ⊆ P ⊆ P ASS . Então, 1. se existe um ciclo não Hamiltoniano C tal que para todo v ∈ V (C); P (i,j)∈E(C) (1 − x̄ij ) < 1, então x̄ 6∈ PC,v 2. se x̄ij ∈ (0, 1) para algum (i, j) ∈ E, então x̄ 6∈ PC,i para todo o ciclo não Hamiltoniano C que contenha o arco (i, j). P Demonstração. Para a primeira parte, Ppor hipótese, (i,j)∈E(C) x̄ij > |E(C)| − 1, mas para todo v ∈ V (C) e para todo x ∈ PC,v , (i,j)∈E(C) xij ≤ |E(C)| − 1. Concluı́mos que x̄ 6∈ PC,v . Para a segunda parte, se x̄ pertencesse a PC,i , então também seria um ponto extremo de PC,i , o que é absurdo pois todos os pontos extremos de PC,i possuem zero ou um na componente da posição (i, j). Pelo Lema 2, qualquer ciclo não Hamiltoniano que contenha o arco (i, j) associado a uma componente fraccionária de x̄ serve o propósito de identificar um hiperplano separador. Poderemos, por exemplo, escolher o caminho mais curto de j para i no conjunto dos grafos G[1 − x̄] − {k} (k ∈ V \ {i, j}) que conjuntamente com o arco (i, j) define um ciclo pretendido. Em alternativa, podemos resolver o problema do ciclo não Hamiltoniano mais curto em G[1 − x̄] da maneira que explicamos a seguir. Seja G[d] = (V, E) um grafo dirigido, tal que a cada arco (i, j) ∈ E está associado um escalar dij ≥ 0 que designamos por distância do arco (i, j). O mais curto ciclo não Hamiltoniano em A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 G[d] possui distância total igual n n oo k min min πji + dij : (i, j) ∈ E, i, j ∈ V \ {k} , k∈V 69 (13) k denota o comprimento do caminho mais curto em G[d] do vértice j para o vértice i sem onde πji passar pelo vértice k. Para cada k ∈ K fixo, todos aqueles valores podem ser calculados através do algoritmo de Floyd-Warshall [15, 33], que pode funcionar em tempo proporcional a O(n 3 ) [1, Secção 5.6], aplicado ao grafo G[d]−{k}. Portanto, o mais curto ciclo não Hamiltoniano em G[d] pode ser identificado em O(n4 ) operações (este número pode ser reduzido para O(n3 )). Se (13) for inferior a um, então a respectiva solução óptima C é tal que x̄ 6∈ P C,v para todo v ∈ V (C). Se (13) for superior ou igual a um e x̄ij ∈ (0, 1), então o ciclo não Hamiltoniano C de comprimento n o k min πji + dij : k ∈ V \ {i, j} , (14) é tal que x̄ 6∈ PC,i . Em ambos os casos, é possı́vel identificar um hiperplano separador que é óptimo nalgum aspecto. Quando P = P ASS , o problema de optimização linear sobre PC pode ser resolvido em O(n3 ) operações aritméticas e comparações, portanto, comparável ao tempo de resolução de apenas um problema de afectação. De facto, a resolução do problema min cx min cx = min (15) s.a x ∈ PC s.a x ∈ Pk k=1,2,...,K pode fazer-se parametricamente através de uma optimização (envolvendo O(n 3 ) operações) e K − 1 reoptimizações (cada uma envolvendo O(n) operações) da maneira que explicamos a seguir. Suponhamos que se pretende obter um par de soluções primal-dual óptimas para z k+1 = min{cx : x ∈ Pk+1 }, sendo conhecida essa informação para zk = min{cx : x ∈ Pk }. Seja x̄ ∈ {0, 1}m uma solução primal óptima de min cx s.a x ∈ P zk = (16) xij = 1 (i, j) ∈ E(Ck ) ≡ {(i1 , i2 ), (i2 , i3 ), . . . , (ik−1 , ik )} , xij = 0 ((i, j) = (ik , ik+1 )), que é vector caracterı́stico de um emparelhamento perfeito M do grafo bipartido G = (V × V, E), e seja (ū, v̄) ∈ R2n uma solução óptima para o correspondente problema dual X X max vj ui + X cij + zk = j6∈{i2 ,i3 ,...,ik } i6∈{i1 ,i2 ,...,ik−1 } (i,j)∈E(Ck ) s.a ui + vj ≤ cij , ((i, j) ∈ E \ E(Ck+1 )). Relativamente a (16), o novo problema zk+1 = min{cx : x ∈ Pk+1 } possui a restrição “xik ik+1 = 1” no lugar da restrição “xik ik+1 = 0” e uma nova restrição “xik+1 ik+2 = 0”. Consequentemente, no novo problema dual aparece mais uma parcela constante “cik ik+1 ” e desaparecem as variáveis uik e vik+1 da função objectivo, e desaparece a restrição “uik+1 + vik+2 ≤ cik+1 ik+2 ”. Por isso, o vector x̄ já não é primal admissı́vel, mas o vector (ū, v̄) permanece dual admissı́vel no novo 70 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 problema, e “zk + cik ik+1 − ūik − v̄ik+1 ” surge como primeiro limite inferior ao valor de zk+1 . Podemos iniciar o método Húngaro com a solução dual admissı́vel (ū, v̄) e o vector caracterı́stico do emparelhamento M 0 ≡ M \ {(i, ik+1 ), (ik+1 , j), (ik+1 , ik+2 )} ∪ {(ik , ik+1 )} para algum i ∈ / {i1 , i2 , . . . , ik−1 , ik } e j ∈ {i1 , i2 , . . . , ik−1 , ik }. O novo emparelhamento M 0 possui menos dois arcos se (ik+1 , ik+2 ) pertencia ao emparelhamento anterior M ou menos um arco se não pertencia. A solução óptima do novo problema pode ser então obtida em O(n) operações aritméticas e comparações. Como existem, no máximo, K − 1 re-optimizações a fazer e K < n, concluı́mos que o esforço computacional global na resolução do problema (15) é O(n3 ). 4 Uma relaxação linear disjuntiva baseada em cliques Nesta secção, vamos construir uma relaxação disjuntiva de P ATSP que usa cliques do mesmo modo que a relaxação anterior usava ciclos. A nova relaxação requer um número muito mais elevado de disjunções mas, tal como no caso anterior, a optimização nesse poliedro pode ser feita de modo paramétrico. Seja S ⊆ V um conjunto de cardinalidade K < n. O número de caminhos simples em G[S], o subgrafo de G induzido por S, a partir de um determinado vértice de S é, no máximo, igual a K X (K − 1)! (17) = 1 + (K − 1)pK−1 . pK = (K − k)! k=1 Por exemplo, se S = {i1 , i2 , i3 } e i1 é o vértice designado, cada um desses caminhos corresponde a um arco da subárvore da esquerda da árvore enumerativa ilustrada na Figura 1. Por exemplo, o arco 1 está associado ao caminho constituı́do pelo vértice i 1 e nenhum arco, o arco 2 está associado ao caminho i1 (i1 , i2 )i2 , etc. Para um conjunto poliédrico P satisfazendo P ATSP ⊆ P ⊆ P ASS , defina-se a seguinte relaxação linear disjuntiva de P ATSP , PS ≡ conv [ (j1 ,j2 ,...,jk ) : {j1 ,j2 ,...,jk }⊆S,k≥1 P(j1 ,j2 ,...,jk ) , (18) onde cada conjunto P(j1 ,j2 ,...,jk ) é definido pelos pontos x ∈ P tais que xij = 1, (i, j) ∈ E(Ck ), xij = 0, (i, j) ∈ E(S) \ E(Ck ), j ∈ V (Ck ), sendo Ck ≡ {j1 , (j1 , j2 ), j2 , (j2 , j3 ), j3 , . . . , jk−1 , (jk−1 , jk ), jk }. Portanto, o conjunto P(j1 ,j2 ,...,jk ) ∩ Zm é o subconjunto de P ASS ∩ Zm dos vectores que pertencem a P e são caracterı́sticos de conjuntos de arcos que usam o caminho j0 (j0 , j1 )j1 (j1 , j2 )j2 (j2 , j3 )j3 . . . jk (jk , jk+1 )jk+1 para alguns j0 , jk+1 ∈ V \ S - veja-se a Figura 2. No caso do exemplo da Figura 1, existem 15 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 poliedros na definição (18), que apresentamos pela ordem de numeração dos arcos: P(i1 ) P(i2 ) P(i3 ) P(i1 ,i2 ) P(i1 ,i2 ,i3 ) P(i1 ,i3 ) P(i1 ,i3 ,i2 ) P(i2 ,i1 ) P(i2 ,i1 ,i3 ) P(i2 ,i3 ) P(i2 ,i3 ,i1 ) P(i3 ,i1 ) P(i3 ,i1 ,i2 ) P(i3 ,i2 ) P(i3 ,i2 ,i1 ) ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ P P P P P P P P P P P P P P P ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : ∩ {x : x i1 i2 x i2 i1 x i3 i1 x i1 i2 x i1 i2 x i1 i3 x i1 i3 x i2 i1 x i2 i1 x i2 i3 x i2 i3 x i3 i1 x i3 i1 x i3 i2 x i3 i2 = xi2 i1 = xi1 i3 = xi3 i1 = 0}, = xi1 i2 = xi2 i3 = xi3 i2 = 0}, = xi1 i3 = xi3 i2 = xi2 i3 = 0}, = 1, xi2 i1 = xi2 i3 = xi3 i1 = 0}, = xi2 i3 = 1, xi3 i1 = 0}, = 1, xi3 i1 = xi3 i2 = xi2 i1 = 0}, = xi3 i2 = 1, xi2 i1 = 0}, = 1, xi1 i2 = xi1 i3 = xi3 i2 = 0}, = xi1 i3 = 1, xi3 i2 = 0}, = 1, xi3 i1 = xi3 i2 = xi1 i2 = 0}, = xi3 i1 = 1, xi1 i2 = 0}, = 1, xi1 i2 = xi1 i3 = xi2 i3 = 0}, = xi1 i2 = 1, xi2 i3 = 0}, = 1, xi2 i1 = xi2 i3 = xi1 i3 = 0}, = xi2 i1 = 1, xi1 i3 = 0}, Não é difı́cil verificar que PS é um poliedro que satisfaz Figura 1: Árvore de enumeração dos caminhos simples em S = {i1 , i2 , i3 }. Figura 2: P(j1 ,j2 ,...,jk ) . 71 72 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 P ATSP ⊆ PS ⊆ P ∩ x: X xij ≤ |S| − 1 ⊆ P ⊆ P ASS . (i,j)∈E(S) O poliedro PS é o invólucro convexo de, no máximo, p = KpK poliedros em (18). Cada um dos poliedros Pl ≡ P(j1 ,j2 ,...,jk ) , com l = 1, 2, . . . , p, é uma face de P . Mais, se os pontos extremos de P são pontos extremos de P ASS , então os pontos extremos de PS são os pontos extremos de P que satisfazem X xij ≤ |S| − 1. (19) (i,j)∈E(S) De facto, os pontos extremos de PS são os pontos extremos de cada um dos conjuntos Pl para l = 1, 2, . . . , p que satisfazem (19). Além disso, se x ∈ Pl então, para algum k ∈ S, X X X xij = xij ≤ |S| − 1. (i,j)∈E(S) i∈S\{k} j∈S : (i,j)∈E Reciprocamente, para o todo o ponto extremo x de P que seja vector caracterı́stico e satisfaça (19), existe um conjunto Pl tal que x ∈ Pl . Então, x terá que ser ponto extremo de PS porque Pl ⊆ P . Uma consequência imediata é a seguinte generalização do procedimento de convexificação sequencial de Balas. A sua demonstração é idêntica à da Proposição 1. Proposição 2 Seja S = {S1 , S2 , . . . , Sl } a famı́lia de todos os subconjuntos próprios de V . Então . (20) P ATSP = . . . PSASS 1 S2 ... Sl Abordamos agora a questão da existência de um hiperplano separador entre P ATSP e um ponto extremo de uma relaxação linear de P ATSP do tipo descrito. Lema 3 Seja P tal que P ATSP ⊆ P ⊆ P ASS , e seja x̄ um ponto extremo de P tal que x̄uv1 , x̄uv2 ∈ (0, 1) para alguns (u, v1 ), (u, v2 ) ∈ E. Então, P 1. se existe um conjunto S ⊂ V tal que (i,j)∈δ+ (S) x̄ij < 1, então x̄ 6∈ PS ; P 2. para todo o conjunto S tal que (i,j)∈δ+ (S) x̄ij = 1, u, v1 ∈ S e v2 6∈ S, tem-se x̄ 6∈ PS . P Demonstração. Para a primeira parte, atendendo a (6), por hipótese, (i,j)∈E(S) x̄ij > |S| − 1. P Mas para todo x ∈ PS , tem-se (i,j)∈E(S) xij ≤ |S| − 1. Concluı́mos que x̄ 6∈ PS . Para a segunda parte, se x̄ pertencesse a PS , então também seria um ponto extremo de um dos conjuntos Pl , l = 1, 2, . . . , p. Por isso, existe um vértice k ∈ S tal que X X x̄kw ≤ x̄ij = 1. (21) 1= w6∈S : (k,w)∈E (i,j)∈δ + (S) Se k = u chegamos a um absurdo porque x̄uv1 > 0 e v1 ∈ S, o que implica 1. Se k 6= u também chegamos a um absurdo porque, de (21), X x̄uw ≥ x̄uv2 > 0. 0= w6∈S : (u,w)∈E P w6∈S : (u,w)∈E x̄uw < A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 73 Pelo lema anterior, conhecido um ponto extremo x̄ de uma relaxação linear P de P ATSP com uma componente x̄ij fraccionária podemos identificar um conjunto S ⊂ V tal que x̄ 6∈ PS através da resolução do problema do corte global de capacidade mı́nima no grafo G[x̄] da maneira que explicamos a seguir. Seja G[u] = (V, E) um grafo dirigido simples com n vértices e m arcos tal que a cada arco (i, j) ∈ E está associado um escalar real uij ≥ 0 designado por capacidade do arco (i, j). O problema de determinar o corte global de capacidade mı́nima em G pode escrever-se como X min uij : S ⊂ V, S 6= ∅ . (22) + (i,j)∈δ (S) Se englobássemos as restrições s ∈ S e t ∈ V \ S para dois vértices designados, então o problema (22) seria dual do problema de determinar o fluxo máximo de s para t [16]. Não estando especificados os vértices origem s e terminal t, o problema (22) é dual do problema de determinar o maior valor de fluxo que é possı́vel enviar entre qualquer par de vértices de G. Consequentemente, o problema (22) pode ser resolvido após a resolução de n(n − 1)/2 problemas de fluxo máximo com vértices origem e terminal designados. Hao e Orlin [21] propuseram um algoritmo especı́fico que usa apenas uma sequência de 2n−2 problemas de fluxo máximo. A abordagem, que é inspirada no algoritmo preflow-push de Golberg e Tarjan [17] (para o problema do fluxo máximo entre dois vértices designados) e na abordagem de Padberg e Rinaldi [29], resulta num algoritmo que requer O(nm log(n2 /m)) operações aritméticas e comparações, se u for um vector de números racionais. Portanto, o esforço computacional é comparável à resolução de n problemas de fluxo máximo entre dois vértices designados. Se o valor óptimo de (22), para u = x̄, for inferior a um, então a solução óptima S é tal que x̄ 6∈ PS pelo Lema 3. Se o valor óptimo de (22) é igual a um, então um conjunto S, nas condições do Lema 3, pode ser encontrado do seguinte modo. Se f2 = x̄uv2 ∈ (0, 1), então determine-se o fluxo máximo de u para v2 no grafo G[x̄] − {(u, v2 )}, que sabemos saber ser igual a 1 − f2 . Pelo Teorema do Fluxo Máximo-Corte Mı́nimo, existe um conjunto de vértices S, contendo u e todos os vértices v 6= v2 tais que x̄uv ∈ (0, 1), tal que, relativamente ao grafo G − {(u, v2 )}, X x̄ij = 1 − f2 . (i,j)∈δ + (S) P Por isso, relativamente ao grafo G original, (i,j)∈δ+ (S) x̄ij = 1 − f2 + f2 = 1. Pelo Lema 3, x̄ 6∈ PS . Concluı́mos que a determinação de S pode ser, em qualquer dos casos, efectuada em tempo polinomial. Este conjunto S, assim determinado, é óptimo em algum aspecto. Quando P = P ASS , o problema de optimização linear sobre PS pode ser resolvido em O(n3 + (p − 1)n) operações aritméticas e comparações. De facto, a resolução do problema min cx min cx = min (23) s.a x ∈ P(j1 ,j2 ,...,jk ) s.a x ∈ PS (j1 ,j2 ,...,jk ) : {j1 ,j2 ,...,jk }⊆S,k≥1 pode fazer-se parametricamente através de uma optimização (envolvendo O(n 3 ) operações) e K − 1 reoptimizações (cada uma envolvendo O(n) operações) da maneira que explicamos a seguir. 74 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 Sejam Pk e Pk+1 poliedros associados a um arco do nı́vel k e a um arco do nı́vel k + 1, sucessivos, na árvore de enumeração dos caminhos, conforme ilustrado na Figura 1. Vamos explicar como obter um par de soluções primal-dual óptimas para z k+1 = min{cx : x ∈ Pk+1 }, sendo conhecida essa informação para zk = min{cx : x ∈ Pk }. Seja x̄ ∈ {0, 1}m uma solução primal óptima de min cx s.a x ∈ P zk = (24) xij = 1, (i, j) ∈ E(Ck ) ≡ {(j1 , j2 ), (j2 , j3 ), . . . , (jk−1 , jk )}, xij = 0, (i, j) ∈ E(S) \ E(Ck ), j ∈ V (Ck ), que é vector caracterı́stico de um emparelhamento perfeito M do grafo bipartido G = (V × V, E), e seja (ū, v̄) ∈ R2n uma solução óptima para o correspondente problema dual zk = X cij + (i,j)∈E(Ck ) max s.a X ui + i6∈{i1 ,i2 ,...,ik−1 } X vj j6∈{i2 ,i3 ,...,ik } ui + vj ≤ cij , (i, j) ∈ E \ E(S), ui + vj ≤ cij , (i, j) ∈ E(S) \ E(Ck ), j 6∈ V (Ck ). Relativamente a (24), o novo problema zk+1 = min{cx : x ∈ Pk+1 } possui a restrição “xjk jk+1 = 1” no lugar da restrição “xjk jk+1 = 0” e novas restrições “xjk+1 j = 0, j ∈ S \ V (Ck+1 )” e “xijk+1 = 0, i ∈ S \ V (Ck+1 )”. No novo problema dual, aparece mais uma parcela constante “cjk jk+1 ” e desaparecem as variáveis ujk e vjk+1 da função objectivo, e desaparecem as restrições “ujk+1 +vj ≤ cjk+1 j , j ∈ S \V (Ck )”. Por isso, o vector x̄ já não é primal admissı́vel, mas o vector (ū, v̄) permanece dual admissı́vel no novo problema e “zk + cjk jk+1 − ūjk − v̄jk+1 ” surge como limite inferior ao valor óptimo do novo problema. Podemos inicializar o método Húngaro com a solução dual admissı́vel (ū, v̄) e o vector caracterı́stico do emparelhamento M 0 ≡ M \ {(s, jk+1 ), (jk , t), (jk+1 , w)} ∪ {(jk , jk+1 )}, para algum t ∈ / S e s, w ∈ V - não é necessário excluir (jk+1 , w) se w 6∈ S. A solução óptima do novo problema pode ser então obtida em O(n) operações aritméticas e comparações. Como existem, no máximo, p − 1 re-optimizações a fazer, concluı́mos que o esforço computacional global na resolução de (23) é O(n3 + (p − 1)n). Realçamos que se a árvore for percorrida por breath-first-search então as soluções iniciais estarão prontamente disponı́veis se forem armazenadas uma por cada nı́vel. Portanto, não é necessário armazenar mais do que um par primal-dual óptimo por nı́vel. 5 Determinação de um limite inferior melhorado Nesta secção, propomos uma abordagem Lagrangeana para obter um limite inferior melhorado para o valor de z = min{cx : x ∈ P ATSP } que usa apenas a resolução de problemas de afectação como subproblemas. O algoritmo proposto, que é formalmente descrito na Figura 3, é essencialmente um método descendente de primeira ordem para a minimização da função de penalidade K X e(ai x−bi )/ρ − 1 , (25) f (x) ≡ cx + ρ i=1 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 75 onde “ai x ≤ bi ” para i = 1, 2, . . . , K são desigualdades válidas para P ATSP . Este conjunto de desigualdades vai sendo expandido à medida que o algoritmo decorre. Em cada iteração genérica-k do algoritmo proposto, começa-se por identificar uma direcção de descida, usando informação de primeira ordem. Observe-se que ∇f (x) = c + y(x)A, ∇2 f (x) = AT Y (x)A/ρ, onde A é uma matriz K × n, contendo as colunas aTi para i = 1, 2, . . . , K, e Y (x) é uma matriz diagonal K × K cujos elementos diagonais coincidem com o vector y(x) definido componente a componente por yi (x) = e(ai x−bi )/ρ (i = 1, 2, . . . , K). Enquanto não é identificada uma direcção de descida, o parâmetro de penalidade é reduzido. Depois de identificada uma direcção de descida dk = qk − xk para f a partir de xk e para algum qk ∈ arg min{∇f (xk )q : q ∈ P ASS } ∩ Zm , decide-se o tamanho do passo λk ao longo dessa direcção para obter a nova aproximação xk+1 = xk + λk dk . O escalar λk é solução óptima para min{g(λ) ≡ f (x + λd) : λ ∈ (0, 1]}. Se g 0 (1) ≤ 0, então λk = 1 é a solução óptima porque g é convexa. Caso contrário, o escalar λk deve ser aproximado através do método de Newton. Algumas simplificações ocorrem na correspondente fórmula recursiva. Para x e d fixos, temos g(λ) = c(x + λd) + ρ K X e (ai (x+λd)−bi )/ρ − 1 = z0 + λw0 + ρ i=1 K X (yi (λ) − 1) , i=1 onde z0 = cx, w0 = cd, z = Ax − b, w = Ad e y(λ) ≡ y(x + λd) = e(zi +λwi )/ρ . Por isso, g 0 (λ) = (c + y(λ)A) d = w0 + K X wi yi (λ), i=1 00 T T g (λ) = d A Y (λ)Ad/ρ = K X wi2 yi (λ)/ρ, i=1 pelo que o método de Newton consiste na aplicação da seguinte fórmula recursiva a partir de λ(0) = 0, K X w0 + yi (λ(j) )wi 0 (j) g (λ ) i=1 (j = 0, 1, . . .). λ(j+1) = λ(j) − 00 (j) = λ(j) − ρ K X g (λ ) (j) 2 y (λ )w i i i=1 O último passo da iteração genérica-k consiste na identificação do corte global δ + (S) de capacidade mı́nima em G[qk ]. Note-se que qk é um vector de zeros e uns e, por isso, a identificação de δ + (S) pode ser efectuada por um método standard de averiguação de conexidade num grafo. Segue-se a determinação da desigualdade válida para PSASS mais profunda entre qk e PSASS . A determinação desse corte obriga à resolução do seguinte par de problemas para x̄ = q k e S ⊂V: min ||x − x̄|| s.a x ∈ PSASS ≡ max αx̄ − β s.a (α, β) ∈ polar(PSASS ), ||α||∗ ≤ 1. (26) 76 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 Usando o algoritmo modificado de Ph. Wolfe, conforme descrito em [32], obtém-se a solução do problema (26), resolvendo uma sequência de problemas lineares do tipo: min ax s.a x ∈ PSASS = min (j1 ,j2 ,...,jk ) : {j1 ,j2 ,...,jk }⊆S,k≥1 min ax s.a x ∈ P(jASS 1 ,j2 ,...,jk ) , (27) com a modificado ao longo do algoritmo. Tal como foi explicado na Secção 4, esta resolução pode ser feita parametricamente. Finalmente, a inclusão do corte “aK+1 x ≤ bK+1 ” assim obtido na função penalidade só é efectivada se o ângulo entre a sua normal e a normal de cada corte previamente adicionado for suficientemente não nulo. Em [2, 4], Balas, Ceria e Cornuéjols propuseram que se definisse um parâmetro θ < 1, 0.9999 por exemplo, e que só fossem aceites cortes cujos co-senos dos ângulos formados com cada dos cortes já adicionados fossem pelo menos θ. Quando isso acontecer, o corte é inserido na função (25). Resta agora explicar como calcular o limite inferior. A função f goza das seguintes propriedades. Como f (x) ≤ cx para todo x ∈ P ASS tal que ai x ≤ bi para i = 1, 2, . . . , K, então z ≡ min{cx : x ∈ P ATSP } ≥ min{cx : x ∈ P ASS , ai x ≤ bi , i = 1, 2, . . . , K} ≥ min{f (x) : x ∈ P ASS , ai x ≤ bi , i = 1, 2, . . . , K} ≥ min{f (x) : x ∈ P ASS }. Além disso, f é convexa e continuamente diferenciável. Por isso, f (xk ) + ∇f (xk )dk constitui um limite inferior ao valor de z, uma vez que min{f (x) : x ∈ P ASS } ≥ min{f (xk ) + ∇f (xk )(x − xk ) : x ∈ P ASS } = f (xk ) + ∇f (xk )dk . 5.1 Ilustração com um pequeno exemplo Consideremos a instância do problema caixeiro viajante assimétrico, observada na página 381 de [5], cujo custo do arco genérico (i, j) corresponde à entrada (i, j) da matriz da Tabela 1. Esta instância tem valor óptimo 26, que corresponde ao ciclo Hamiltoniano identificado na Figura 4(a) através de G[x∗ ]. Vamos ilustrar seis iterações do algoritmo da Figura 3, utilizando a regra de redução do parâmetro de penalidade ρ := min{ρ/10, ρ1.5 }, inspirada em [9, 11, 28], e a norma l∞ em (26). Como veremos, o primeiro limite inferior é 17 e, após a introdução de três cortes, aumenta para 21.5184. No Passo de Inicialização, o valor óptimo de min{cx : x ∈ P ASS } é 17 e a solução óptima é x0 , ilustrada na Figura 4(b) através de G[x0 ]. O corte global de capacidade mı́nima em G[x0 ] é caracterizado por S = {7, 8}, por exemplo. O corte mais profundo entre x 0 e PSASS é o corte x78 + x87 ≤ 1, obtido pelo algoritmo modificado de Ph. Wolfe. Termina o Passo de Inicialização com a correspondente inserção do corte na função penalidade. A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 Inicialização: Determinar x0 ∈ arg min{cx : x ∈ P ASS } ∩ Zm . Seja δ + (S) o corte global de capacidade mı́nima em G[x0 ]. Obter o corte a1 x ≤ b1 mais profundo entre x0 e PSASS . Inicializar ρ = 1, K = 1, k = 0 e definir f através de (25). Iteração genérica-k: Enquanto xk ∈ arg min{∇f (xk )q : q ∈ P ASS } Reduzir ρ. Se ρ < TOL , então STOP. Seja dk = qk − xk para algum qk ∈ arg min{∇f (xk )q : q ∈ P ASS } ∩ Zm . Determinar λk ∈ arg min{f (xk + λdk ) : λ ∈ (0, 1]}. Afectar xk+1 = xk + λk dk . Seja δ + (S) o corte global de capacidade mı́nima em G[qk ]. Obter o corte aK+1 x ≤ bK+1 mais profundo entre qk e PSASS . Se “aK+1 x ≤ bK+1 ” é suficientemente distinto dos cortes anteriores, então K := K + 1. k := k + 1. Figura 3: Algoritmo para determinar um limite inferior melhorado para o ATSP. Tabela 1: Matriz de custos de 2 11 6 1 5 12 11 9 10 11 11 9 12 8 5 10 11 12 7 10 10 uma instância do ATSP com 8 vértices. 10 8 11 4 2 10 10 8 8 8 1 11 9 6 7 4 12 9 2 12 3 6 6 3 8 10 11 1 5 7 11 10 9 9 3 - 77 78 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 (a) G[x∗ ] (b) G[x0 ] Figura 4: Soluções óptimas inteiras sobre P ATSP e P ASS , respectivamente. Na iteração 0, o primeiro ciclo é interrompido com ρ = 0.1. A solução óptima do problema min{∇f (x0 )q : q ∈ P ASS } é q0 , ilustrada na Figura 5(a). Não se obtém melhoria no limite inferior pois f (x0 ) + ∇f (x0 )(q0 − x0 ) = −102.6718. Com a aplicação do método de Newton, obtém-se λ0 = 0.2361 ao que corresponde x1 = x0 + λ0 (q0 − x0 ), ilustrada na Figura 5(b). O corte global de capacidade mı́nima em G[q0 ] é caracterizado por S = {4, 5, 6, 8}, por exemplo. O corte mais profundo entre q0 e PSASS é o corte x12 + x23 + x37 + x71 ≤ 3, que é acrescentado à função penalidade. (a) G[q0 ] (b) G[x1 ] Figura 5: Iteração 0. Na iteração 1, a solução óptima de min{∇f (x1 )q : q ∈ P ASS } é q1 , ilustrada na Figura 6(a). Obtém-se uma melhoria no limite inferior pois f (x1 ) + ∇f (x1 )(q1 − x1 ) = 18.5673. Com a aplicação do método de Newton, obtém-se λ1 = 0.5933 ao que corresponde x2 = x1 + λ1 (q1 − x1 ), ilustrada na Figura 6(b). O corte global de capacidade mı́nima em G[q 1 ] é caracterizado por S = {1, 2, 3, 7, 8}, por exemplo. O corte mais profundo entre q1 e PSASS é o corte x45 + x56 + x64 ≤ 2, que é acrescentado à função penalidade. Na iteração 2, a solução óptima de min{∇f (x2 )q : q ∈ P ASS } é q2 , ilustrada na Figura 7(a). Não se obtém uma melhoria no limite inferior pois f (x2 ) + ∇f (x2 )(q2 − x2 ) = 15.0568. Com a A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 (a) G[q1 ] 79 (b) G[x2 ] Figura 6: Iteração 1. aplicação do método de Newton, obtém-se λ2 = 0.1213 ao que corresponde x3 = x2 + λ2 (q2 − x2 ), ilustrada na Figura 7(b). O corte global de capacidade mı́nima em G[q 2 ] é caracterizado por S = {7, 8}, por exemplo. O corte mais profundo entre q2 e PSASS é o mesmo que foi obtido no Passo de Inicialização e, por isso, não é acrescentado à função penalidade. (a) G[q2 ] (b) G[x3 ] Figura 7: Iteração 2. Na iteração 3, a solução óptima de min{∇f (x3 )q : q ∈ P ASS } é q3 , ilustrada na Figura 8(a). Obtém-se uma melhoria no limite inferior pois f (x3 ) + ∇f (x3 )(q3 − x3 ) = 20.7516. Com a aplicação do método de Newton, obtém-se λ3 = 0.1801 ao que corresponde x4 = x3 + λ3 (q3 − x3 ), ilustrada na Figura 8(b). O corte global de capacidade mı́nima em G[q 3 ] é caracterizado por S = {7, 8}. O corte mais profundo entre q3 e PSASS é o mesmo que foi obtido no Passo de Inicialização. Na iteração 4, a solução óptima de min{∇f (x4 )q : q ∈ P ASS } é q4 , ilustrada na Figura 9(a). Não se obtém uma melhoria no limite inferior pois f (x4 ) + ∇f (x4 )(q4 − x4 ) = 20.1955. Com a aplicação do método de Newton, obtém-se λ4 = 0.0554 ao que corresponde x5 = x4 + λ4 (q4 − x4 ), ilustrada na Figura 9(b). O corte global de capacidade mı́nima em G[q 4 ] é caracterizado por S = {3, 6, 7, 8}. O corte mais profundo entre q4 e PSASS é o corte x12 + x21 + x45 + x54 ≤ 3, 80 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 (a) G[q3 ] (b) G[x4 ] Figura 8: Iteração 3. que é acrescentado à função penalidade. (a) G[q4 ] (b) G[x5 ] Figura 9: Iteração 4. Na iteração 5, a solução óptima de min{∇f (x5 )q : q ∈ P ASS } é q5 , que coincide com q3 . Obtém-se nova melhoria no limite inferior pois f (x5 ) + ∇f (x5 )(q5 − x5 ) = 21.5184. Com a aplicação do método de Newton, obtém-se λ5 = 0.0647 ao que corresponde x6 = x5 + λ5 (q5 − x5 ), ilustrada na Figura 10. O corte global de capacidade mı́nima em G[q 5 ] é caracterizado por S = {7, 8}. Uma vez mais, o corte mais profundo entre q2 e PSASS é o mesmo que foi obtido no Passo de Inicialização. 6 Conclusões O algoritmo que propomos neste trabalho requer um estudo computacional mais aprofundado. O exemplo pequeno que acompanhámos serviu para testar uma primeira implementação que fizemos em Matlab com chamadas das rotinas INDUS3 e APPMIX disponı́veis na Netlib na biblioteca de algoritmos da ACM, em http://www.netlib.org/toms/750. Experiências computacionais preliminares permitiram identificar diversas limitações. Em primeiro lugar, observámos que o algoritmo de primeira ordem pode tornar-se lento, progredindo com λ’s A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 81 Figura 10: Iteração 5: G[x6 ]. demasiado pequenos. Em segundo lugar e algo inesperadamente, observámos que, em geral, o corte mais profundo entre qk e PSASS é uma desigualdade de ciclo - portanto, até menos profunda que a correspondente desigualdade de clique em S. Num próximo artigo identificaremos para que normas k · k essa desigualdade será sempre o corte mais profundo em (26) quando x̄ é o vector caracterı́stico de um subpercurso. Analisámos também o comportamento do algoritmo se, no último passo da iteração genérica k do algoritmo da Figura 3, substituirmos o vector qk por xk . Neste caso, obtivemos algumas desigualdades que não são de circuito mas também ainda não são desigualdades de clique. Fica também em aberto a questão de saber que tipo de desigualdades conseguiremos gerar se x k satisfizer todas as restrições de clique e for ponto extremo de uma relaxação linear de P ATSP . Referências [1] Ravindra K. Ahuja, Thomas L. Magnanti, and James B. Orlin. Network flows. Prentice Hall Inc., Englewood Cliffs, NJ, 1993. Theory, algorithms, and applications. [2] Egon Balas, Sebastián Ceria, and Gérard Cornuéjols. A lift-and-project cutting plane algorithm for mixed 0-1 programs. Math. Programming, 58(3, Ser. A):295–324, 1993. [3] Egon Balas and Nicos Christofides. A restricted Lagrangian approach to the traveling salesman problem. Math. Programming, 21(1):19–46, 1981. [4] E. Balas, S. Ceria, and G. Cornuejols. Mixed 0-1 programming by lift-and-project in a branchand-cut framework. Management Science, 42(9):1229–1246, Sep 1996. [5] E. Balas and P. Toth. Branch and bound methods. In The traveling salesman problem, WileyIntersci. Ser. Discrete Math., pages 361–401. Wiley, Chichester, 1985. [6] G. Carpaneto, M. Dell’Amico, and P. Toth. Algorithm 750: CDT: a subroutine for the exact solution of large-scale, asymmetric traveling salesman problems. ACM Trans. Math. Software, 21(4):410–415, 1995. [7] G. Carpaneto, M. Dell’Amico, and P. Toth. Exact solution of large-scale, asymmetric traveling salesman problems. ACM Trans. Math. Software, 21(4):394–409, 1995. [8] G. Carpaneto and P. Toth. Some new branching rules and bounding criteria for the asymmetric traveling salesman problem. Management Science, 26:736–743, 1980. 82 A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 [9] R. Cominetti and J.-P. Dussault. Stable exponential-penalty algorithm with superlinear convergence. J. Optim. Theory Appl., 83(2):285–309, 1994. [10] M. Constantino. O problema do caixeiro viajante. In M. Ramos J. N. Silva and Luı́s Trabucho, editors, 2000 Matemática Radical, volume 16 of Textos de Matemática, pages 337–350. Departamento de Matemática, Faculdade de Ciências, Universidade de Lisboa, 2002. [11] Jean-Pierre Dussault. Augmented penalty algorithms. IMA J. Numer. Anal., 18(3):355–372, 1998. [12] Matteo Fischetti, Andrea Lodi, and Paolo Toth. Exact methods for the asymmetric traveling salesman problem. In The traveling salesman problem and its variations, volume 12 of Comb. Optim., pages 169–205. Kluwer Acad. Publ., Dordrecht, 2002. [13] Matteo Fischetti and Paolo Toth. An additive bounding procedure for the asymmetric travelling salesman problem. Math. Programming, 53(2, Ser. A):173–197, 1992. [14] Matteo Fischetti and Paolo Toth. A polyhedral approach to the asymmetric traveling salesman problem. Management Science, 43(11):1520–1536, 1997. [15] R. W. Floyd. Algorithm 97: Shortest path. Communications of the Association for Computing Machinery, 5:345, 1962. [16] L. R. Ford, Jr. and D. R. Fulkerson. Maximal flow through a network. Canad. J. Math., 8:399–404, 1956. [17] Andrew V. Goldberg and Robert E. Tarjan. A new approach to the maximum-flow problem. J. Assoc. Comput. Mach., 35(4):921–940, 1988. [18] Martin Grötschel, László Lovász, and Alexander Schrijver. Geometric algorithms and combinatorial optimization, volume 2 of Algorithms and Combinatorics. Springer-Verlag, Berlin, second edition, 1993. [19] Gregory Gutin and Abraham P. Punnen, editors. The traveling salesman problem and its variations, volume 12 of Combinatorial Optimization. Kluwer Academic Publishers, Dordrecht, 2002. [20] L. G. Hačijan. A polynomial algorithm in linear programming. 244(5):1093–1096, 1979. Dokl. Akad. Nauk SSSR, [21] J. Hao and J. Orlin. A faster algorithm for finding the minimum cut in a directed graph. Journal of Algorithms, 17:424–446, 1994. [22] M. Held and R. Karp. The traveling-salesman problem and minimum spanning trees. Operations Research, 18:1138–1162, 1970. [23] M. Held and R. Karp. The traveling-salesman problem and minimum spanning trees: Part II. Mathematical Programming, 1:6–25, 1971. [24] David S. Johnson, Gregory Gutin, Lyle A. McGeoch, Anders Yeo, Weixiong Zhang, and Alexei Zverovitch. Experimental analysis of heuristics for the ATSP. In The traveling salesman problem and its variations, volume 12 of Comb. Optim., pages 445–487. Kluwer Acad. Publ., Dordrecht, 2002. [25] J.D. Coelho J. O. Cerdeira. Optimização de percursos de distribuição (parte i). Economia, XI:170–214, 1987. [26] J.D. Coelho J. O. Cerdeira. Optimização de percursos de distribuição (parte ii). Economia, XII:69–96, 1988. [27] E. L. Lawler, J. K. Lenstra, A. H. G. Rinnooy Kan, and D. B. Shmoys, editors. The traveling salesman problem. Wiley-Interscience Series in Discrete Mathematics and Optimization. John Wiley & Sons Ltd., Chichester, 1990. A guided tour of combinatorial optimization, Reprint of the 1985 original, A Wiley-Interscience Publication. [28] M. Mongeau and A. Sartenaer. Automatic decrease of the penalty parameter in exact penalty function methods. European Journal of Operational Research, 83:686–699, 1995. A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83 83 [29] M. Padberg and G. Rinaldi. An efficient algorithm for the minimum capacity cut problem. Mathematical Programming, 47:19–36, 1990. [30] J. M. O. Pires. Formulações para o problema do caixeiro viajante assimétrico e sua aplicação a um problema de desenho de redes com topologia em forma de anel. PhD thesis, Universidade de Lisboa, Setembro 2001. [31] T. Smith, V. Srinivasan, and G. Thompson. Computational performance of three subtour elimination algorithms for solving asymmetric traveling salesman problems. Annals of Discrete Mathematics, 1:495–506, 1977. [32] J. Soares and A.R. Santos. Uma abordagem primal para a geração de planos cortantes disjuntivos mais separadores. Maio 2004. [33] Stephen Warshall. A theorem on boolean matrices. J. Assoc. Comput. Mach., 9:11–12, 1962. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 85 Fronteiras DEA Difusas João Carlos C. B. Soares de Mello Lidia Angulo Meza ‡ ∗ Luiz Biondi Neto Eliane Gonçalves Gomes § † Annibal Parracho Sant Anna ∗ ∗ Depto. de Engenharia de Produção - Universidade Federal Fluminense. Rua Passo da Pátria, 156, São Domingos, 24240-240, Niterói, RJ, Brasil [email protected],[email protected] † Embrapa Monitoramento por Satélite. Av. Dr. Júlio Soares de Arruda, 803, Parque São Quirino, 13088-300, Campinas, SP, Brasil [email protected] ‡ Departamento de Ciência dos Materiais - Universidade Federal Fluminense.Av. dos Trabalhadores 420, 27255-125, Volta Redonda, RJ lidia a [email protected] § Depto. de Eng. Eletrônica e Telecomunicações - Universidade do Estado do Rio de Janeiro.Rua São Francisco Xavier, 524, Bl. A-5036, Maracanã, 20550-900, Rio de Janeiro, RJ, Brasil [email protected] Abstract The “fuzzy” DEA frontier is applied in situations where some variables (inputs or outputs) present a certain degree of uncertainty in its measurement, without any assumption about the probability distribution function. we build the efficient frontier taking in account the minor and major values of the input (or output). The efficient frontier is, in that case, a fuzzy set, to which the DMUs have a degree of membership. In order to compute the degree of membership two frontiers are constructed: the optimistic and the pessimistic frontiers. As this indicator isn’t an efficiency score, we introduce the inverted frontier concept, which allows the fuzzy-DEA efficiency score computation. We developed the case where only one variable present a certain degree of uncertainty and it is generalised to the case where some or all variables are uncertain. Resumo A fronteira DEA difusa surge em situações nas quais algumas variáveis (inputs ou outputs) apresentam um certo grau de incerteza na medição, sem que se assuma que os valores obedecem a alguma distribuição de probabilidade. A fronteira eficiente é construı́da considerando-se os limites de incerteza, isto é, os menores e maiores valores possı́veis de serem assumidos pela variável afectada pela incerteza de medição. Dessa forma, constrói-se c 2005 Associação Portuguesa de Investigação Operacional 86 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 uma região em relação à qual as DMUs possuem um certo grau de pertença. Para calcular o grau de pertença são construı́das fronteiras optimistas e pessimistas. Como o grau de pertença não é uma medida de eficiência, é introduzido o conceito de fronteira invertida que permite calcular um ı́ndice de eficiência difuso. É mostrado o caso em que apenas uma variável apresenta incerteza e é generalizado para o caso em que algumas ou todas as variáveis apresentam incertezas. Keywords: DEA, Fuzzy sets, Fuzzy DEA efficiency score. Title: Fuzzy DEA Frontiers 1 Introdução Os modelos de Análise Envoltória de Dados (Data Envelopment Analysis – DEA) clássicos (Cooper et al., 2000) estimam uma fronteira não paramétrica, linear por partes, constituı́da pelas unidades eficientes. Supõem ainda que existe certeza na determinação das medidas usadas. No entanto, isso pode não ocorrer, seja por efectiva incerteza nas medidas, seja porque os dados são considerados intervalares (Cooper et al., 2000). No primeiro caso, a solução clássica é usar a Análise de Fronteira Estocástica (Stochastic Frontier Analysis) (Coelli et al., 1998), que supõe que as incertezas seguem alguma distribuição de probabilidade. Essa abordagem, cuja introdução pode ser vista em Lovell (1993), utiliza métodos econométricos e paramétricos. Na prática, entretanto, essa distribuição de probabilidade pode não ser conhecida. Sant’Anna (2002) propõe um modelo de cálculo probabilı́stico de eficiências, sem levar em conta a distribuição de probabilidade, mas que não gera um ı́ndice único de eficiência. A proposta deste artigo, que estende os resultados de Soares de Mello et al. (2002) [29], é construir um ı́ndice único de eficiência, para a situação em que as variáveis (inputs ou outputs) apresentam incerteza. É feita, inicialmente, a formulação para o caso em que apenas uma variável apresenta incerteza. Para tal, a fronteira eficiente é considerada como um conjunto difuso (Zadeh, 1965) em relação ao qual as unidades em avaliação (Decision Making Units – DMUs) apresentam um certo grau de pertença. Os limites inferior e superior desse conjunto difuso são denominados fronteira pessimista e fronteira optimista quando a variável com incerteza é um output, e inversamente quando a variável de incerteza é o input. A troca dos outputs com inputs conduz a uma fronteira invertida (Yamada et al., 1994; Novaes, 2002; Entani et al., 2002) em relação à qual as DMUs também possuem um grau de pertença. É então possı́vel, com os dois graus de pertença, definir um ı́ndice de eficiência, que será denominado eficiência difusa ou eficiência fuzzy-DEA. Estes mesmos conceitos são estendidos para o caso em que várias variáveis apresentam incerteza. É feita uma formulação geométrica para o caso de um input e um output, que posteriormente é generalizada para o caso multidimensional. Na literatura são encontradas algumas alternativas para a incorporação de incertezas aos modelos DEA. Nessas proposições, os PPLs e/ou as medidas de eficiência assumem funções da lógica difusa. Na abordagem apresentada neste artigo é utilizada somente a filosofia da lógica difusa sem, no entanto, utilizar suas funções caracterı́sticas. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 2 87 Revisão bibliográfica em modelos DEA difusos Uma revisão bibliográfica sobre os distintos enfoques utilizados para lidar com dados imprecisos pode ser encontrada em Zhu (2003). O autor divide a imprecisão em três tipos: dados com limites superior e inferior, dados ordinais e razões de dados com limites superior e inferior. O modelo utilizado para esse caso é o IDEA (Imprecise Data Envelopment Analysis) (Cooper et al., 1999), sendo este um problema de programação não linear que, com pequenas variações, lida com os três tipos de dados imprecisos, com o uso de transformações de escala. Por existirem problemas associados à transformação de escala, o autor propõe um enfoque simplificado, que converte as variáveis utilizadas em dados exactos. Os resultados mostram que os ı́ndices de eficiência assim obtidos são calculados mais facilmente. Lertworasirikul et al. (2003) tratam inputs e outputs imprecisos como conjuntos difusos. Esses modelos são formalizados através de programação linear fuzzy. Como enfoque alternativo, os autores propõem a utilização de “modelos DEA de possibilidades” (possibility DEA models) que incorporam medidas de possibilidade para os eventos difusos na forma de restrições difusas. Uma variável difusa é associada a uma distribuição de possibilidades (Zadeh, 1978). Nesse enfoque, os ı́ndices fuzzy-DEA são únicos, mas dependentes do nı́vel de possibilidade utilizado, isto é, para vários nı́veis de possibilidade utilizados há diversos ı́ndices diferentes correspondentes. O modelo IDEA (Imprecise Data Envelopment Analysis) é usado por Despotis e Smirlis (2002) para lidar com dados imprecisos de dois tipos: dados com limites superior e inferior (dados por intervalos ou interval data) e dados ordinais. A utilização desse modelo não linear é feita através de uma mudança de escala das variáveis, que transforma o modelo não linear em um modelo de programação linear. Como resultado, obtém-se um limite superior e inferior para a eficiência de uma determinada DMU, o que, segundo os autores, permite uma melhor discriminação entre as DMUs com a utilização de modelos post DEA. Os autores propõem ainda um modelo post DEA para determinar inputs alvos para DMUs ineficientes. Entani et al. (2002) empregam um modelo DEA para avaliar DMUs de forma optimista. Esses resultados são utilizados para determinar a eficiência por intervalos, através da proposição de novos modelos DEA. Assim, o ı́ndice de eficiência não é representado por um número, mas sim por um intervalo de eficiência. Por outro lado, com base no modelo Inverted DEA (Yamada et al., 1994) avaliam cada DMU de forma pessimista e calculam ı́ndices de ineficiência por intervalos. Os autores consideram ainda dados por intervalos (interval data) e propõem um modelo para calcular a eficiência e a ineficiência por intervalos, tal como foi feito para os dados com valores únicos e exactos. A avaliação do desempenho de departamentos académicos de uma Universidade é realizada por Lopes e Lanzer (2002). Os resultados de DEA nas dimensões de ensino, pesquisa, extensão e qualidade foram modelados como números difusos e agregados através de um agregador ponderado, o que gera um único ı́ndice de desempenho para cada departamento. Cooper et al. (2001) propõem um modelo IDEA estendido. Esse modelo permite não somente o uso de dados incertos, mas também o uso de restrições aos pesos do tipo regiões de segurança ou cone-ratio. Nesse caso, os limites das variáveis são transformados em ajustes de dados. O modelo é aplicado à avaliação de eficiência de postos de uma companhia de telecomunicações coreana. 88 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 O modelo DEA CCR (Charnes et al., 1978) é estendido para um modelo denominado DEARA por Guo e Tanaka (2001). Esse modelo utiliza conceitos da análise de regressão e é estendido para um modelo DEA difuso que considera inputs e outputs difusos. Os ı́ndices de eficiência resultantes são ı́ndices de eficiência difusos ou intervalares. Kao e Liu (2000) apresentam um procedimento para medir as eficiências das DMUs que envolvem variáveis difusas. O modelo difuso é transformado em uma famı́lia de modelos DEA convencionais baseados em dados exactos, utilizando o enfoque α-cut. Os ı́ndices de eficiência difusos obtidos são expressos por meio de funções intervalares. Dessa maneira, segundo os autores, há maior nı́vel de informação para a gerência. Para medir a eficiência técnica de DMUs, Triantis e Eeckaut (2000) relaxam o conceito de fronteira de produção e propõem uma comparação por pares ao verificar a dominância ou não dominância de uma DMU quando comparada a outra. A utilização de variáveis difusas (dados imprecisos) faz com que o resultado dessa comparação seja uma comparação difusa por pares (fuzzy pair-wise comparison). Os resultados das comparações feitas par a par são apresentados em uma matriz, que mostra dominância em dois sentidos. Assim, não são obtidos ı́ndices de eficiência, mas uma indicação sobre quem domina quem. Deve-se realçar que caso esse modelo fosse usado com dados exactos, geraria um modelo equivalente ao FDH (Free Disposal Hull ) (Deprins et al., 1984). Hougaard (1999) usa intervalos difusos para unir em um ı́ndice de eficiência a informação fornecida pelos ı́ndices de eficiência analı́ticos (DEA) e ı́ndices de eficiência subjectivos baseados em dados que reflectem aspectos qualitativos e organizacionais, expressos na forma de intervalos difusos. Uma função de um intervalo fuzzy representa a forma de especificar a relação entre esses dois tipos de informação. De forma ideal, as duas fontes de informação relacionadas ao desempenho de uma DMU podem ser unidas de forma que a “objectividade” de DEA possa ser utilizada para controlar a “subjectividade” do ponto de vista do especialista, e vice-versa. O resultado é um ı́ndice corrigido expresso na forma de um intervalo difuso. Uma abordagem em três estágios para medir a eficiência técnica em ambiente difuso é proposta por Triantis e Girod (1998). Essa abordagem usa DEA clássico e incorpora conceitos desenvolvidos em programação paramétrica difusa (Carlsson e Korhonen, 1986). Sengupta (1992) explora a teoria dos conjuntos difusos no contexto de DEA. O autor usa três tipos de estatı́sticas difusas (programação matemática difusa, regressão difusa e entropia difusa) para ilustrar os tipos de decisão e de solução que podem ser alcançados quando os dados são vagos e a informação a priori é inexacta e imprecisa. 3 3.1 Formulação para uma variável com incerteza Criação da fronteira DEA difusa A abordagem aqui proposta destaca-se das anteriores por não fazer nenhuma suposição em relação à forma como cada input ou cada output varia. Qualquer que seja a variação são levados em conta apenas os valores máximos e mı́nimos possı́veis de serem assumidos, com o uso posterior de programação linear clássica e modelos DEA tradicionais para a determinação das fronteiras. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 89 Se em um modelo DEA não houver certeza sobre os valores assumidos por um output; não haverá igualmente certeza sobre a exacta localização da fronteira eficiente. Caso os valores do output para algumas DMUs sejam maiores que o suposto, a fronteira estará deslocada “mais acima”, isto é, em uma região de valores superiores para esse output. Caso os valores sejam inferiores ao suposto, a fronteira estará “mais abaixo”. Portanto, neste caso, a fronteira não é um conjunto no sentido clássico do termo, mas um conjunto difuso (Zadeh, 1965). Para esse conjunto não tem sentido dizer que um elemento pertence ou não ao conjunto; deve-se fazer referência ao grau de pertença desse elemento ao conjunto. Dessa forma, em vez de existirem DMUs na fronteira e outras fora da fronteira, haverá DMUs com diferentes graus de pertença à fronteira. Em lógica difusa clássica são postuladas certas funções, denominadas funções de pertença, que determinam o grau de pertença de uma certa variável a um determinado conjunto. No caso da fronteira difusa, o grau de pertença será calculado com base em propriedades geométricas das fronteiras geradas. Para tal, torna-se necessário definir previamente alguns termos. A fronteira localizada “mais acima” é, na verdade, aquela fronteira obtida por um modelo DEA clássico (CCR ou BCC) que leva em conta o máximo valor do output incerto que cada DMU pode atingir. Como, em termos de produção, essa é a melhor situação para todas as DMUs, a fronteira assim obtida denominar-se-á Fronteira Optimista. Analogamente, a fronteira obtida com o modelo DEA clássico que considere o menor valor de output para cada DMU é a Fronteira Pessimista, já que considera a situação menos favorável de produção. A Figura 1 ilustra esses conceitos, para o modelo DEA BCC (Banker et al., 1984). A fronteira difusa é toda a região situada entre as fronteiras pessimista (fronteira inferior) e optimista (fronteira superior). Note-se ainda que uma DMU não é mais representada por um ponto; a incerteza na medição do output faz com que a representação da DMU seja um segmento de recta com extremidades determinadas pelos valores pessimista e optimista desse output. Na Figura 1, OP f o e OP f p referem-se ao output projectado na fronteira optimista e pessimista, respectivamente. c é o comprimento da DMU, ou seja, é a diferença entre os valores optimista e pessimista do output; l é a largura da faixa, isto é, representa para cada DMU a diferença entre o valor do output incerto para as fronteiras optimista e pessimista; p é parte que está na faixa, é a diferença entre o output optimista de cada DMU e a intersecção dessa DMU com a fronteira pessimista. Uma vez definidos a fronteira difusa e os termos c, l e p, deve-se definir o grau de pertença de cada DMU a essa fronteira. Na Figura 2 observa-se que as DMUs A e F estão integralmente contidas na região que define a fronteira difusa. Essas DMUs devem ter grau de pertença 1 à fronteira. Já as DMUs B e C apenas tocam a fronteira e, portanto, o grau de pertença é nulo. Entre esses dois casos extremos, as DMUs poderão ter graus de pertença intermédios. A DMU G contém toda a largura da fronteira difusa, mas tem uma parte da largura da faixa externa à fronteira. Ou seja, na hipótese de outputs pessimistas em DEA clássico, a DMU não seria eficiente. Assim, apesar de não estar totalmente excluı́da da fronteira, a sua pertença também não é total. Em situações semelhantes à da DMU G, a pertença deveria obedecer à relação p/c, unitária quando p = c. Por outro lado, a observação da DMU E, mostra que ela está totalmente 90 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 10 OPfo 8 Output 6 l p 4 c 2 OPfp 0 0 2 4 6 Input Figura 1: Fronteiras optimista e pessimista. 10 8 F Ouput G 6 E 4 D C 2 B A 0 0 1 2 3 4 5 Input Figura 2: Fronteira difusa no modelo BCC. 6 7 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 91 Tabela 1: Pertenças em relação à fronteira difusa. DMU A B C D E F G I 1 2 4 4 4 5 6 Of p 1 1 2 2 4 5 4 Of o 2 2 4 6 6 10 10 c 1 1 2 4 2 5 6 l 1 2 4 4 4 5 5 p 1 0 0 2 2 5 5 ℘ 1,00 0,00 0,00 0,25 0,50 1,00 0,83 contida na fronteira difusa, porém existe uma região da fronteira que não contém a DMU. Então, caso sejam considerados outputs optimistas em DEA clássico, a DMU não é eficiente. Para situações análogas a essa, a pertença deveria ser p/l, unitária quando p = l. Torna-se necessário combinar os dois casos, de forma a garantir que uma DMU só tenha pertença 1 à fronteira difusa se ela for eficiente tanto na hipótese pessimista quanto na optimista. O produto das expressões usadas anteriormente, consideradas como pertenças parciais, satisfaz a essa propriedade. Assim, a pertença à fronteira difusa é definida pela equação (1). ℘= p2 lc (1) A Tabela 1 traz os resultados de cálculo de pertença para as DMUs da Figura 2, onde O f p e Of o são, respectivamente, os valores do output nas fronteiras pessimista e optimista, e I é o valor do input. 3.2 Cálculo algébrico da pertença O cálculo anterior baseia-se em uma definição geométrica e, portanto, só é viável em modelos extremamente simples. Para obter-se uma expressão que possa ser usada em modelos gerais, multidimensionais, em que apenas um output apresenta incerteza, faz-se necessário transformar as grandezas geométricas da equação (1) em quantidades que possam ser extraı́das dos modelos DEA clássicos: outputs optimistas e pessimistas, eficiências com output pessimista em relação à fronteira pessimista (Ef f p ) e com output optimista em relação à fronteira optimista (Ef f o ). Para o caso de um output com incerteza, ao considerarem-se as definições clássicas de DEA orientado a outputs, e que, nesta situação, as eficiências são dadas por números maiores que a unidade, têm-se as equações (2) e (3), nas quais Of o e Of p são os valores nas fronteiras optimista e pessimista deste output. Eff p = OPf p Of p (2) Eff o = OPf o Of o (3) 92 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 A largura da faixa l é a diferença entre o alvo da fronteira optimista e o alvo da fronteira pessimista, ou seja, l = OPf o − OPf p = Of o Eff o − Of p Eff p . O comprimento da DMU c é a diferença entre o output optimista e o pessimista, isto é, c = Of o − Of p . A parte da DMU que está na fronteira p é a diferença entre o output optimista e o alvo do output pessimista na fronteira pessimista, desde que a diferença seja positiva. Isto implica que o output optimista deve estar dentro da faixa da fronteira difusa; caso contrario, p deve ser igual a 0. Em (4) formaliza-se a equação para p. p = Of o − Of p Eff p , se Of o − Of p Eff p ≥ 0 p = 0, caso contrário (4) Ao serem substituı́dos os valores de p (calculado em (4)), l e c (determinados no parágrafo anterior) na expressão (1), é possı́vel obter a expressão que represente algebricamente a pertença. Essa relação é apresentada em (5). 2 (Of o −Of p Eff p ) , se Of o − Of p Eff p ≥ 0 (Of o Eff o −Of p Eff p )(Of o −Of p ) ℘ = 0, caso contrário ℘= (5) Além do caso em que Of o − Of p Eff p < 0, onde o ı́ndice de pertença foi arbitrado como nulo, o cálculo algébrico dessa pertença também é zero caso O f o − Of p Eff p = 0. Por outro lado, como o numerador de (5) está elevado ao quadrado, nunca assume um valor negativo. Na orientação a outputs, o alvo na fronteira optimista é sempre maior que o alvo na fronteira pessimista, e o output optimista é sempre maior que o output pessimista. Dessa forma, o denominador é, igualmente, sempre positivo. Portanto, o ı́ndice de pertença é sempre um número não negativo. Caso as eficiências optimista e pessimista sejam unitárias , o ı́ndice de pertença é (Oo −Op )2 . De outro lado, observa-se que Op Eff p ≥ Op (uma vez que na ori(Oo −Op )(Oo −Op ) = 1 entação a outputs a eficiência é maior ou igual a 1). Portanto, tem-se que O f o − Of p Eff p ≥ Of o Eff o − Of p Eff p . Verifica-se ainda que Of o Eff o − Of p Eff o ≥ Of o − Of p Eff p (haja visto que Of o Eff o ≥ Of o ). Logo, na fração (5) cada termo do denominador é maior ou igual que a raiz quadrada do numerador. Conseqüentemente, o numerador não é maior que o denominador e o ı́ndice de pertença não pode ser maior que a unidade. Deve-se observar ainda que o ı́ndice de pertença (5), embora calculado a partir de eficiências não é uma medida de eficiência. Assim, não precisa respeitar as propriedades das medidas de eficiências. Em particular, o conjunto de DMUs com pertença unitária à fronteira difusa não é necessariamente um conjunto convexo. A Tabela 2 apresenta os valores de eficiências, l, c, p e ℘ com base nas equações (2) a (5), para o exemplo da Figura 2. Destaca-se que como a orientação do modelo é a outputs, as DMUs ineficientes apresentam valor de eficiência maior que 1. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 93 Tabela 2: Valores calculados com base nas relações (2) a (5). DMU A B C D E F G I 1 2 4 4 4 5 6 Of p 1 1 2 2 4 5 4 Of o 2 2 4 6 6 10 10 Ef f p 1,00 2,00 2,00 2,00 1,00 1,00 1,25 Ef f o 1,00 2,00 2,00 1,33 1,33 1,00 1,00 c 1 1 2 4 2 5 6 l 1 2 4 4 4 5 5 6 p 1 0 0 2 2 5 5 ℘ 1,00 0,00 0,00 0,25 0,50 1,00 0,83 IPfp 5 IPfo l Output 4 p 3 c 2 1 0 0 1 2 3 4 Ifo 5 I6fp 7 Input Figura 3: Fronteiras optimista e pessimista para o caso de modelo BCC orientado a inputs. 3.3 Fronteira Difusa com um Input com Incerteza De forma análoga ao que acontece com um output com incerteza, pode-se apresentar o caso em que haja um input com incerteza. Nesse caso, define-se como input optimista, I f o , aquele com o menor valor que o input pode assumir, e input pessimista, If p , o de maior valor que o input pode assumir. Quando se consideram os inputs optimistas para todas as DMUs, tem-se a fronteira optimista; quando são considerados os inputs pessimistas para todas as DMUs, obtém-se a fronteira pessimista. A Figura 3 representa as fronteiras optimista e pessimista para o caso de input com incerteza na mediação. Nessa figura I f o , If p , IPf o e IPf p são, respectivamente, os valores optimista e pessimista do input e os valores do input projectado nas fronteiras optimista e pessimista. O segmento de recta que representa um input com incerteza é horizontal, ao contrário do caso orientado a outputs em que a DMU é representada por um segmento vertical. 94 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 Deduções semelhantes às do caso anterior, permitem definir o ı́ndice de pertença apresentado em (6). As mesmas considerações feitas para a expressão (5), continuam válidas desde que seja considerado que em (6) as eficiências são orientadas a inputs, ou seja, são valores menores ou iguais a 1. 2 (If p Eff p −If o ) , se If p Eff p − If o ≥ 0 (If o Eff o −If p Eff p )(If p −If o ) ℘ = 0, caso contrário ℘= 3.4 (6) Fronteira Invertida e Eficiência Fuzzy -DEA O grau de pertença à fronteira não é uma medida de eficiência. De fato, duas DMUs que tenham grau nulo de pertença à fronteira podem ter posições relativas bem diferentes não detectadas pelo ı́ndice aqui proposto. Ou seja, ao contrário dos modelos DEA clássicos que fornecem muitos empates nos ı́ndices 100% eficientes, o enfoque apresentado neste artigo fornece empates para as DMUs totalmente não pertencentes à fronteira. Para distinguir entre essas DMUs é necessário introduzir o conceito de fronteira invertida (Yamada et al., 1994; Novaes, 2002; Entani et al., 2002), que consiste em considerar os outputs como inputs e os inputs como outputs. Esse enfoque admite pelo menos duas interpretações. A primeira é que a fronteira consiste das DMUs com as piores práticas gerenciais (e poderia ser chamada de fronteira ineficiente); a segunda é que essas mesmas DMUs têm as melhores práticas segundo um ponto de vista oposto. Uma fronteira invertida difusa pode ser utilizada para distinguir entre as diversas DMUs com grau de pertença zero à fronteira difusa original. Para esse caso, quanto maior o grau de pertença à fronteira invertida menor a eficiência da DMU. Para obter um ı́ndice único de eficiência, deve-se englobar os dois graus de pertença e obrigar a que a variação do ı́ndice se dê entre 0 e 1. Esse ı́ndice será chamado de eficiência difusa (ou eficiência fuzzy-DEA) (Ef dif usa ) e é dado pela equação (7), na qual ℘o é o grau de pertença à fronteira original e ℘i é o grau de pertença à fronteira invertida. Efdif usa = (℘o − ℘i + 1) 2 (7) Apesar de, por simplicidade de linguagem, a agregação dos dois ı́ndices de pertença tenha recebido a denominação de eficiência difusa, ele não é um indicador de eficiência no sentido clássico do termo. É apenas uma ponderação normalizada entre um ı́ndice de pertença, e o complementar de outro ı́ndice de pertença. A Figura 4 ilustra os conceitos de fronteira invertida difusa para o caso de um input e um output. Para esse exemplo, os graus de pertença e a eficiência difusa são mostrados na Tabela 3 (dados originais de input e output na Tabela 1). Em vez de usar o complementar da pertença à fronteira invertida é possı́vel trabalhar com um ı́ndice de não pertença a essa fronteira. Para conjuntos clássicos, estas formulações são equivalentes, mas tal não acontece em conjuntos difusos. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 95 10 8 F Ouput G 6 E 4 D C 2 B A 0 0 1 2 3 4 5 6 7 Input Figura 4: Fronteira difusa invertida no modelo BCC. Tabela 3: Graus de pertença e de não pertença e eficiência difusa para as DMUs da Figura 4. DMU A B C D E F G ℘o 1,00 0,00 0,00 0,25 0,50 1,00 0,83 ℘i 1,00 1,00 1,00 0,50 0,00 0,20 1,00 Ef dif usa 0,50 0,00 0,00 0,37 0,75 0,90 0,42 Im℘i 0,00 0,00 0,00 0,00 1,00 0,30 0,00 Ef dif usaIm 0,50 0,00 0,00 0,125 0,75 0,65 0,165 96 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 O ı́ndice de não pertença deverá será tanto maior quanto maior for a relação entre o segmento da DMU localizado fora da fronteira invertida difusa e o segmento de reta que representa a DMU. Deverá ser, também, tanto maior quanto maior a relação entre o que falta à DMU para ocupar totalmente a largura da faixa que constitui a fronteira invertida e a largura total desta faixa. O ı́ndice de não pertença à fronteira invertida, Im℘i , é dado pela equação (8), na qual F 1 e F 2 denotam os limites superior e inferior da fronteira invertida, e U 1 e U 2 os limites superior e inferior da DMU avaliada. Sua generalização é apresentada em (9) para o caso de um input com incerteza. U 1F 1 U 2F 2 x , se F1 > U 2 Im℘i = U 1U 2 F 1F 2 Im℘i = 1, caso contrário (8) (I −I Ef )(I −I Ef ) Im℘i = (Ipp −Iop)(IppEfpo −Ioo Efoo ) , se Ip Efp > Io Im℘i = 1, caso contrário (9) Para os dados da Tabela 1, os resultados obtidos com esta abordagem são os mostrados nas duas últimas colunas da Tabela 3. Embora as ordenações produzidas sejam semelhantes, a DMU mais eficiente foi alterada. A DMU E, totalmente fora da fronteira invertida, toma a posição de mais eficiente da DMU F nesta formulação, penalizada um pouco mais fortemente pela sua pertinência parcial a essa fronteira. 4 4.1 Formulação para várias variáveis com incerteza Conceitos gerais As formulações anteriores são restritas ao caso em que apenas uma variável apresenta incerteza. Pode ocorrer que mais de uma, ou mesmo todas as variáveis apresentem incerteza. Torna-se então necessário generalizar os conceitos anteriores. O ponto mais pessimista é agoira o ponto da DMU que está a ser avaliada com os maiores valores para todos os inputs e os menores para todos os outputs. Analogamente, o ponto mais optimista é o ponto da DMU com os menores valores para todos os inputs e os maiores para todos os outputs. Mais uma vez, a fronteira pessimista é determinada com um modelo DEA para todos os pontos mais pessimistas e, analogamente, a fronteira optimista é calculada com os pontos mais optimistas. Os alvos de cada DMU nas duas fronteiras são os alvos pessimistas e optimistas. No entanto, devido à variação em mais de uma variável, estes alvos são não radiais, e a direcção de projecção é determinada pelo vector que une os pontos extremos de cada DMU. A figura 5 ilustra os conceitos anteriores, no caso de um modelo com apenas 1 input e 1 output, ambos com incerteza. Nela, A é o ponto mais pessimista, C o mais optimista; B é o alvo pessimista e D o optimista. Por analogia com o caso em que só uma das variáveis apresenta incerteza, o ı́ndice de pertença à fronteira difusa é definido pela equação (10). J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 97 16 14 D 12 C Output 10 B 8 A 6 4 2 0 0 1 2 3 4 5 6 7 8 Input Figura 5: Fronteira DEA difusa com input e output com incerteza. ℘= BC BC BD AC (10) O cálculo dos alvos pode ser feito pela intersecção da recta suporte do segmento que define a DMU com as fronteiras pessimista e optimista. Este cálculo, no caso bidimensional apresentado, é relativamente fácil. No entanto, em casos de maior dimensão, seria necessário conhecer as equações de todas as faces, o que é impraticável. Este é um modelo de complexidade exponencial (Fukuda, 1993; Dulá, 2002) e os algoritmos existentes ou não são práticos ou são inviáveis (Gonzalez-Araya, 2003). 4.2 Modelo Multiobjectivo Para contornar o problema de determinação de faces, utiliza-se o modelo multiobjectivo para determinação de alvos (Angulo-Meza, 2002; Angulo-Meza et al., 2002; Soares de Mello et al., 2003), cuja formulação é apresentada em (11), no caso do modelo DEA-CCR. 98 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 Tabela 4: Dados para o exemplo numérico multidimensional. DMU A B C D If p 3 7 2 5 If o 1 4 1 3 Of p 1 12 3 7 Of o 10 15 8 11 max φ1 ... max φs min ϕ1 ... min ϕm sujeito a φr yrj0 = ϕi xij0 = n P j=1 n P (11) yrj λj , ∀r = 1, ..., s xij λj , ∀i = 1, ..., m j=1 φr ≥ 1, ∀r = 1, ..., s ϕi ≤ 1, ∀i = 1, ..., m λj ≥ 0, ∀j = 1, ...n Em (11) optimizam-se as projecções de cada uma das variáveis (s outputs e m inputs) de maneira independente. O modelo fornece como resultado um conjunto de alvos para a DMU que está a ser avaliada (em um total de n DMUs), e o utilizador, ou decisor, é o encarregado de fazer a escolha final do alvo. Neste caso, o alvo procurado é aquele que passa pela recta que une os pontos mais optimistas e mais pessimistas. Uma vez que em um espaço n-dimensional uma recta é definida por n−1 equações lineares, o modelo multiobjectivo transforma-se em um modelo mono-objectivo. 4.3 Exemplo Numérico A Tabela 4 traz os dados para o exemplo numérico multidimensional, ou seja, em que o input e o output apresentam incertezas a medição. Para ilustrar considere-se DMU D, cujo ponto pessimista está dado por (5,7) e o optimista por (3,11). A recta que passa por esses pontos esta dada pela equação apresentada em (12). y = −2x + 17 (12) Logo, a equação da recta que passa pelos alvos pessimista e optimista da DMU é dada pela equação (13). φy = −2ϕx + 17 (13) J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 99 O alvo para a fronteira pessimista é calculado com o emprego do modelo multiobjectivo (11), no qual acrescentou-se a restrição de convexidade para considerar a fronteira definida pelo modelo BCC, conforme mostrado em (14). max 7φ min 5ϕ sujeito a 7φ = λ1 + 12λ2 + 3λ3 + 7λ4 5ϕ = 3λ1 + 7λ2 + 2λ3 + 5λ4 λ1 + λ 2 + λ 3 + λ 4 = 1 φ≥1 ϕ≤1 λj ≥ 0, ∀j (14) Ao substituir-se a equação da recta (12) que passa pelos alvos optimista e pessimista no modelo (14), e sendo x = 5, tem-se o modelo (15). max = −2(5)ϕ + 17 = min 10ϕ min 5ϕ sujeito a −2(5)ϕ + 17 = λ1 + 12λ2 + 3λ3 + 7λ4 5ϕ = 3λ1 + 7λ2 + 2λ3 + 5λ4 λ1 + λ 2 + λ 3 + λ 4 = 1 ϕ≤1 λj ≥ 0, ∀j (15) Já que ambas as funções objectivo estão em função de ϕ, uma delas pode ser eliminada e, dessa forma, o modelo multiobjectivo transforma-se em um modelo mono-objectivo, apresentado em (16). min 5ϕ sujeito a −10ϕ + 17 = λ1 + 12λ2 + 3λ3 + 7λ4 5ϕ = 3λ1 + 7λ2 + 2λ3 + 5λ4 λ1 + λ 2 + λ 3 + λ 4 = 1 ϕ≤1 λj ≥ 0, ∀j (16) Ao correr-se o modelo (16), obtêm-se como resultados 5ϕ = 4, 63, alvo para o input, e, por substituição em (13), 7φ = 7, 74, alvo para o output. O mesmo procedimento deve ser realizado para a fronteira optimista. Dessa forma, o modelo multiobjectivo para calcular o alvo optimista de D é formalizado em (17). 100 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 max 11φ min 3ϕ sujeito a 11φ = 10λ1 + 15λ2 + 8λ3 + 11λ4 3ϕ = λ1 + 4λ2 + λ3 + 3λ4 λ1 + λ 2 + λ 3 + λ 4 = 1 φ≥1 ϕ≤1 λj ≥ 0, ∀j (17) Procedendo-se de maneira análoga ao caso da fronteira pessimista, obtém-se o modelo (18) na fronteira optimista. max −2(3)ϕ + 17 = min 6ϕ min 3ϕ sujeito a −2(3)ϕ + 17 = 10λ1 + 15λ2 + 8λ3 + 11λ4 3ϕ = λ1 + 4λ2 + λ3 + 3λ4 λ1 + λ 2 + λ 3 + λ 4 = 1 ϕ≤1 λj ≥ 0, ∀j (18) Similarmente, o modelo multiobjectivo transforma-se no modelo mono-objectivo (19), cuja resolução resulta em 3ϕ = 2, 36, alvo para o input, e 11φ = 12, 27, alvo para o output. min 3ϕ sujeito a −6ϕ + 17 = 10λ1 + 15λ2 + 8λ3 + 11λ4 3ϕ = λ1 + 4λ2 + λ3 + 3λ4 λ1 + λ 2 + λ 3 + λ 4 = 1 ϕ≤1 λj ≥ 0, ∀j (19) Com esses valores e com a equação (10), calcula-se a pertença, ℘, da DMU D à fronteira difusa, conforme (20). " (4, 63; 7, 74)(3; 11) ℘= (4, 63; 7, 74)(2, 36; 12, 27) #" # (4, 63; 7, 74)(3; 11) = 0, 586 (5; 7)(3, 11) (20) De forma análoga, podem ser calculados alvos para as demais DMUs, bem como os ı́ndices para a fronteira invertida. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 5 101 Conclusões A abordagem proposta neste artigo para incorporação de incertezas aos modelos DEA clássicos tem a vantagem de não arbitrar, nem uma determinada distribuição de probabilidade para as incertezas das variáveis, nem uma função difusa para as mesmas. É, ao mesmo tempo, matematicamente simples, já que os resultados são obtidos através de cálculos algébricos, sem necessidade de usar programação linear difusa. Ao determinar uma região onde se encontra a fronteira difusa e ao construir geometricamente uma função de pertença e, conseqüentemente, a medida de eficiência difusa, os desenvolvimentos deste artigo situam-se próximos à origem dos conjuntos difusos sem, no entanto, usar suas funções caracterı́sticas. Adicionalmente, o ı́ndice proposto para medir a eficiência difusa, permite resolver um dos principais problemas em DEA, qual seja, o de as DMUs poderem ser eficientes atribuindo peso nulo a vários multiplicadores (Estellita-Lins e Angulo-Meza, 2000). Com efeito, para uma DMU possuir alta eficiência, esta deve ter um elevado grau de pertença em relação à fronteira optimista e baixo grau em relação à fronteira pessimista. Dessa forma, todas as variáveis são levadas em conta no ı́ndice final. Assim, não basta a DMU ter bom desempenho naquilo em que ela é melhor; não deve ter também mau desempenho no critério em que for pior. Isso é conseguido sem a atribuição de nenhum peso subjectivo a qualquer critério. Essa caracterı́stica permite eliminar outro dos inconvenientes dos modelos DEA BCC: o fato de a DMU de maior output ser eficiente independentemente dos valores dos inputs (Ali, 1993). No modelo aqui proposto, o valor da eficiência de tal DMU depende também de sua posição em relação à fronteira invertida. Deve ser ressaltado que existem outros métodos para resolver esse problema. Entretanto, ou exigem julgamentos subjectivos, como é o caso das restrições aos pesos (Allen et al., 1997) ou, alternativamente, exigem métodos matemáticos mais sofisticados, como é o caso da suavização da fronteira DEA (Soares de Mello et al., 2002) [30]. O modelo para várias variáveis com incerteza é resolvido de forma eficiente com ajuda da formulação multiobjectivo de DEA. No entanto, devido à quantidade de cálculos envolvidos torna-se necessário o desenvolvimento de um software especifico, de modo que este modelo torne-se prático. 6 Referências [1] Ali, A.I. (1993). Streamlined computation for data envelopment analysis. European journal of operational research, 64, 61-67. [2] Allen, R., Athanassopoulos, A., Dyson, R.G. & Thanassoulis, E. (1997). Weights restrictions and value judgements in data envelopment analysis: evolution, development and future directions. Annals of Operations Research, 73, 13–34. [3] Angulo-Meza, L.(2002). Um Enfoque Multiobjetivo para determinação de Alvos na Análise Envoltória de Dados (DEA). Tese de Doutorado. Programa de Engenharia de Produção. COPPE/UFRJ. [4] Angulo-Meza, L., Gomes, E.G., Soares de Mello, J.C.C.B. & Biondi Neto, L. (2002). Fronteira DEA de dupla envoltória no estudo da evolução da ponte aérea Rio-São Paulo. Panorama 102 J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 Nacional da Pesquisa em Transportes 2003 - Anais do XVII ANPET, 2, 1158-1166. [5] Banker, R.D., Charnes, A. & Cooper, W.W. (1984). SOme models for estimating technical scale inefficiencies in data envelopment analysis. Management science, 30 (9), 1078-1092. [6] Carlsson, C. & Korhonen, P. (1986). A Parametric Approach to Fuzzy Linear Programming. Fuzzy Sets and Systems, 20, 17-33. [7] Charnes, A., Cooper, W.W. & Rhodes, E. (1978). Measuring the efficiency of decision making units. European Journal of Operational Research, 2, 429-454. [8] Coelli, T., Rao, D.S.P. & Battese, G.E. (1998). An Introduction to Efficiency and Productivity Analysis. Kluwer Academic Publishers, Boston. [9] Cooper, W.W., Park, K.S. & Yu, G. (2001). An illustrative application of IDEA (imprecise Data Envelopment Analysis) to a Korean mobile telecommunication company. Operations Research, 49 (6), 807-820. [10] Cooper, W.W., Park, K.S. &Yu, G. (1999). IDEA and AR-IDEA: Models for dealing with imprecise data in DEA. Management Science, 45, 597-607. [11] Cooper, W.W., Seiford, L.M. & Tone, K. (2000). Data Envelopment Analysis: A Comprehensive Text with Models, Applications, References and DEA-Solver Software. Kluwer Academic Publishers, Boston. [12] Deprins, D., Simar, L. & Tulkens, H. (1984). Measuring Labor Inefficiency in Post Offices. In: The Performance of Public Enterprizes: Concepts and Measurements [edited by M. Marchand, P. Pestieau & H.Tulkens]. North-Holland, Amsterdam, 243-267. [13] Despotis, D.K. & Smirlis, Y.G. (2002). Data envelopment analysis with imprecise data. European Journal of Operational Research, 140, 24–36. [14] Dulá, J.H. (2002). Computations in DEA. Pesquisa Operacional, 22 (2), 165-182 [15] Entani, T., Maeda, Y. & Tanaka, H. (2002). Dual Models of Interval DEA and its extensions to interval data. European Journal of Operational Research, 136, 32-45. [16] Estellita-Lins, M.P. & Angulo-Meza, L. (2000). Análise Envoltória de Dados e perspectivas de integração no ambiente de Apoio à Decisão. Editora da COPPE/UFRJ, Rio de Janeiro. [17] Fukuda, K. (1993). cdd.c: C Implementation of the Double Description method for computing all vertices and extremal rays of a convex polyhedron given a system of linear inequalities. Department of Mathematics, Swiss Federal Institute of Technology, Lausanne, Switzerland. [18] González-Araya, M.C. (2003). Projeções Não Radiais em Regiões Fortemente Eficientes da Fronteira DEA - Algoritmos e Aplicações. Tese de Doutorado, Programa de Engenharia de Produção, COPPE/UFRJ, Rio de Janeiro. [19] Guo, P. & Tanaka, H. (2001). Fuzzy DEA: a perceptual evaluation method. Fuzzy Sets and Systems, 119, 149-160. [20] Hougaard, J.L. (1999). Fuzzy scores of technical efficiency. European Journal of Operational Research, 115, 529-541. [21] Kao, C. & Liu, S.T. (2000). Fuzzy efficiency measures in data envelopment analysis. Fuzzy Sets and Systems, 113, 427-437. [22] Lertworasirikul, S., Fang, S.C., Joines, J.A. & Nuttle, H.L.W. (2003). Fuzzy data envelopment analysis (DEA): a possibility approach. Fuzzy Sets and Systems, 139 (2), 379-394. [23] Lopes, A.L.M. & Lanzer, E.A. (2002). Data envelopment analysis – DEA and fuzzy sets to assess the performance of academic departments: a case study at Federal University of Santa Catarina – UFSC. Pesquisa Operacional, 22 (2), 217-230. J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103 103 [24] Lovell, C.A.K. (1993). Production frontiers and production efficiency”. In: The measurement of productive efficiency: techniques and applications [edited by H.O. Fried, C.A.K. Lovell & S.S. Schmidt]. Oxford University Press, New York, 3-67. [25] Novaes, L.F.L. (2002). Envoltória Sob Dupla ótica aplicada na avaliação imobiliária em ambiente do sistema de informação geográfica. Tese de Doutorado, Programa de Engenharia de Produção, UFRJ, Rio de Janeiro, Dezembro. [26] Sant’Anna, A.P. (2002). Cálculo probabilı́stico de produtividades globais no ensino de pósgraduação em Engenharia de Produção. Anais do VIII Encontro de Educação em Engenharia, Petrópolis. [27] Sengupta, J.K. (1992). A fuzzy systems approach in data envelopment analysis. Computers & Mathematics with Applications, 24 (8-9), 259-266. [28] Soares de Mello, J.C.C.B., Angulo-Meza, L., Gomes, E.G., Serapiao, B.P., Estellita-Lins, M.P. (2003). Análise de Envoltória de Dados no estudo da eficiência e dos benchmarks para Companhias Aéreas brasileiras. Pesquisa Operacional, 23 (2), 325-345. [29] Soares de Mello, J.C.C.B., Gomes, E.G., Biondi, L.N., Angulo-Meza, L. (2002). Construção de uma fronteira eficiente difusa na presença de dados com incertezas na medição. Anais do XXXIV Simpósio Brasileiro de Pesquisa Operacional, Rio de Janeiro, Outubro. [30] Soares de Mello, J.C.C.B., Estellita-lins, M.P. & Gomes, E.G. (2002). Construction of a smoothed dea frontier. Pesquisa operacional, 22 (2), 183-201. [31] Triantis, K. & Eeckaut, P.V. (2000). Fuzzy Pair-wise Dominance and Implications for Technical Efficiency Performance Assessment. Journal of Productivity Analysis, 13, 207–230. [32] Triantis, K. & Girod, O. (1998). A Mathematical Programming Approach for Measuring Technical Efficiency in a Fuzzy Environment. Journal of Productivity Analysis, 10 (1), 85-102. [33] Yamada, Y, Matui, T. & Sugiyama, M. (1994). New analysis of efficiency based on DEA. Journal of the Operations Research Society of Japan, 37 (2), 158-167. [34] Zadeh, L. (1965). Fuzzy Sets. Information and Control, 8 (3), 338-353. [35] Zadeh, L. (1978). Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1, 3-28. [36] Zhu, J. (2003). Imprecise data envelopment analysis (IDEA): A review and improvement with an application. European Journal of Operational Research, 144, 513–529. O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 105 Composição de especialistas locais para classificação de dados Omar J. S. Santos ∗ Armando Z. Milioni ∗ ∗ Instituto Tecnológico de Aeronáutica (ITA) Divisão de Engenharia Mecânica-AeronáuticaSão José dos Campos, SP – Brasil – CEP: 12228-900 {omarmai, milioni}@ita.br Abstract In this paper we present a Mixture of Local Experts Model (MLEM) for data classification. The discriminant tools applied are Fisher’s Discriminant Analysis, Logistic Regression and a non-parametric model called Extended DEA-DA (Sueyoshi, 2004). Using real data, we compare the results obtained with the MLEM, which requires data clusterization and solution investigation on each cluster, against results obtained with a more orthodox approach, which is classification over the entire data set. The main conclusion is that even though it seems to be a promising technique, the additional effort in building a MLEM does not assure better results. Resumo Este artigo tem por objetivo apresentar um modelo de Composição de Especialistas Locais (CEL) como instrumento para classificação de dados. As técnicas discriminantes empregadas são a Análise Discriminante de Fisher, Regressão Logı́stica e Modelos não paramétricos denominados “Extended DEA-DA” (Sueyoshi, 2004). Com base em uma massa de dados real, comparamos os resultados obtidos através da utilização do modelo CEL, que exige a clusterização da massa de dados e a busca da solução em cada cluster obtido, contra os resultados obtidos da maneira ortodoxa, que é a da busca de solução sobre a massa de dados global. A principal conclusão é a de que, embora seja uma técnica promissora, o esforço adicional na obtenção de um modelo CEL não assegura melhores resultados. Keywords: Mixture of Local Expert Models; Discriminant Analysis; Clustering; Extended DEA-DA Title: Mixture of Local Experts Model for Data Classification c 2005 Associação Portuguesa de Investigação Operacional 106 1 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 Introdução A classificação de dados tem se constituı́do num assunto de interesse permanente e de uso muito abrangente. Técnicas de análise discriminante fornecem subsı́dios para a classificação de dados em grupos distintos. Implementando essas técnicas em regiões especı́ficas do espaço de dados de um problema qualquer e posteriormente compondo os resultados obtidos em cada região na tentativa de melhor classificar um novo entrante, chegamos a um modelo de Composição de Especialistas Locais (CEL) (ver fundamentos do assunto em Jacobs et alli, 1991; Lima et alli, 2002 e Melo et alli, 2004). Essa composição pode ou não resultar numa melhoria nas classificações desejadas e esse é o tema que será abordado no presente trabalho. Este artigo tem por objetivo apresentar um modelo de Composição de Especialistas Locais (CEL) como instrumento para classificação de dados. Com base em uma massa de dados real, comparamos os resultados obtidos através da utilização da CEL com os resultados obtidos por modelos de análise discriminante aplicados sobre a massa de dados global, verificando a ocorrência ou não de melhoria no número de classificações corretas. Este artigo está estruturado da seguinte maneira: Na Seção 2 abordamos noções gerais de Análise Discriminante. Apresentamos uma breve descrição das técnicas discriminantes empregadas neste trabalho, que são a Análise Discriminante de Fisher, Regressão Logı́stica e modelos do tipo Extended DEA-DA (Sueyoshi, 2004). Na Seção 3 apresentamos os fundamentos da constituição de uma Composição de Especialistas Locais (CEL), sua estrutura e funções utilizadas como fatores de ponderação da classificação final. Na Seção 4 fazemos um estudo de caso usando dados reais, explorando uma aplicação do modelo CEL sobre um conjunto de 95 empresas classificadas como solventes ou insolventes. Mostramos a clusterização feita, o resultado dos modelos discriminantes utilizados, a transformação dos valores dos melhores modelos locais em medidas de pertinência ao grupo das empresas solventes através de escalas de conversão, a construção do modelo CEL e sua comparação com o modelo discriminante que obteve os melhores resultados na massa de dados completa, ou global. Na seção 5 comentamos as conclusões desse trabalho e indicamos sugestões para trabalhos futuros. 2 Análise Discriminante A Análise Discriminante (DA, do inglês Discriminant Analysis) serve para classificar casos em valores categóricos de uma variável dependente freqüentemente dicotômica, ou seja, que pode assumir valores 0 ou 1, o que equivale a identificar esses casos como pertencentes ou não pertencentes a um determinado grupo. Muitas áreas do conhecimento utilizam técnicas de DA para classificação em grupos, tais como medicina, biologia, economia, sensoriamento remoto, interpretação de imagens e outras. Para que possamos classificar indivı́duos (pessoas, plantas, coisas ou tudo o que for objeto O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 107 de estudo) torna-se necessário obter uma função discriminante. Calibrada a partir de uma massa de dados previamente classificada, essa função discriminante serve como modelo para que um entrante novo, i.e., indivı́duo que não sabemos a que grupo pertence, seja classificado em um determinado grupo. Para o desenvolvimento de nosso trabalho escolhemos três modelos de Análise Discriminante: (i) a função discriminante linear de Fisher (1936) (FLDF, do inglês Fisher’s linear discriminant function), por tratar-se de um modelo clássico amplamente citado na literatura, servindo como referência para a avaliação de resultados; (ii) regressão logı́stica, por ter sido o método empregado por Scarpel (2000), que levantou os dados do estudo de caso e (iii) o modelo Extended DEA-DA, modelo de programação mista proposto por Sueyioshi (2004), visando termos um modelo não-paramétrico inserido no contexto. 2.1 Análise Discriminante de FISHER Consiste em separar duas ou mais classes de objetos e prever a pertinência de um novo objeto a uma das classes. Para melhor entendimento vamos considerar o caso de existência de apenas duas classes,G1 e G2 . Os objetos ou atributos são separados ou classificados mediante medidas baseadas em p variáveis, isto é, são associados a vetores do tipo X 0 = [X1 , X2 , X3 , ..., Xp ]. Fisher tinha por objetivo transformar as observações multivariadas X 0 s (ditas variáveis independentes) em observações univariadas Y 0 s(ditas variáveis dependentes), tal que os Y 0 s das classes G1 e G2 fossem distanciados das médias das dados tanto quanto possı́vel. A idéia básica é a de criar uma combinação linear das variáveis independentes de tal forma a definir a variável dependente. Segundo Lam et al (2003), a FLDF se esforça em prover uma função linear pela qual se associam valores a dois ou mais atributos independentes, os quais são combinados produzindo uma simples pontuação de classificação. Esta pontuação é comparada a um valor de corte que separa os dois grupos, permitindo então estabelecer a relação de pertinência do indivı́duo a um dos grupos. Temos, portanto, uma equação linear do tipo L = b1 x1 + b2 x2 + ... + bn xn + c, onde os coeficientes bi são calculados de forma a maximizar a razão entre a variância entre os grupos e a variância entre os indivı́duos do grupo e c é uma constante semelhante ao intercepto de uma regressão linear. A seguir, indivı́duos de uma amostra, oriundos de novas observações, são classificados nos grupos tendo por base os valores de seus atributos, calculados pela equação discriminante. Se consideramos um problema de classificação com um critério determinado e uma amostra com n observações de dois grupos, G1 e G2 , cujos valores do critério estabelecido são conhecidos, podemos formular a FLDF, a partir da fórmula: a1 − a 2 0 S −1 a (1) onde, a1 e a2 são os vetores médios da amostra de, respectivamente, G1 e G2 , S é a matriz de covariância da amostra e a é o vetor de valores de uma observação (ou caso). A regra de classificação baseada nas amostras se dá da seguinte maneira: 108 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 Classifica-se um novo entrante caracterizado por a em G1 se a1 − a 2 0 S −1 a ≥ 0 1 1 a − a2 S −1 a1 + a2 2 (2) onde, (a1 − a2 )0 é o vetor da diferença entre os vetores médios transposto e S −1 é inversa da matriz de covariância. Caso contrário, o novo entrante é classificado em G2 . Dessa forma, o novo entrante pode ser classificado em um dos grupos devido a uma função discriminante oriunda dos dados de calibração. 2.2 Modelo de Regressão Linear Logı́stica Consideremos um vetor p-dimensional X, de variáveis independentes que se relacionam com uma variável dependente ou de resposta y, podendo esta assumir valores 0 ou 1. Sendo β i e α os parâmetros e havendo n casos considerados, a probabilidade P i , referente ao caso i, de que a variável dependente assuma o valor 1 pode ser representada por (ver Pindyck, 1998): Pi = 1 1 = 1 + e−Zi 1 + e−(α+βXi ) (3) onde Zi = α + βXi . Essa expressão é conhecida como função logı́stica acumulada. A probabilidade de que a variável y assuma o valor 0 é dada por: 1 − Pi = e−Zi 1 + e−Zi (4) Fazendo o logaritmo de Pi /1 − Pi o modelo pode ser expresso como uma função linear das variáveis independentes ou preditoras: log Pi = Zi = α + βXi 1 − Pi (5) Segundo Gujarati (2000): a) Enquanto Zi varia de −∞ a +∞, Pi varia entre 0 e 1; b) Pi não se relaciona linearmente com Zi , sendo portanto não-linear com as variáveis independentes Xi , daı́ a necessidade de se fazer o logaritmo de Pi /1 − Pi , tornando esse logaritmo uma relação linear com Xi ; c) Embora Zi seja linear em Xi , as probabilidades propriamente ditas não o são, divergindo de um modelo de probabilidade linear (MPL) onde as probabilidades aumentam linearmente com Xi e apresentam o inconveniente de poderem extrapolar o intervalo [0,1]. d) Uma vez estimados os parâmetros do modelo, podemos calcular a probabilidade de y assumir o valor 1 ou 0, discriminando dois grupos, uma vez estabelecido um valor de corte. O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 109 O método da máxima verossimilhança é adequado à estimação dos parâmetros quando dispomos de observações individuais do pertencimento ou não a um determinado conjunto. Detalhes desse método para estimação dos parâmetros do modelo para o caso geral com mais de uma variável independente podem ser encontrados nos trabalhos de Scarpel (2000) e Scarpel e Milioni (2001 e 2002). 2.3 Modelos do tipo EXTENDED DEA-DA Trata-se de um método não-paramétrico proposto por Sueyioshi (1999, 2001 e 2004) que atua como função discriminante se valendo de dois estágios de desenvolvimento. No primeiro, os elementos são classificados em um dos dois grupos ou numa área de intersecção, composta de elementos que não puderam ser facilmente classificados nesse primeiro estágio. No segundo estágio os elementos da área de intersecção são estudados visando classificá-los em um dos dois grupos. A técnica desenvolvida por Sueyioshi utiliza recursos da Análise de Envoltória de Dados (DEA, do inglês Data Envelopment Analysis) dentro de uma formulação de Análise Discriminante. Para caracterizarmos a estrutura analı́tica do primeiro modelo DEA-DA de Sueyioshi (1999), vamos visualizar uma estrutura de DA e sintetizar o procedimento do modelo. Como em DEA, sejam n DMU’s j (do inglês, Decision Making Units; j = 1, ..., n) e observações com k fatores independentes i (i=1,2,...,k) que caracterizam seu desempenho denotado aqui por Zij . A análise discriminante pressupõe um conhecimento prévio de tal maneira que a partir de suas observações i, cada DMU j, possa ser classificada no grupo 1 (G1 ) ou no grupo 2 (G2 ). Tais grupos possuem, respectivamente, n1 e n2 observações. Como G1 ∩ G2 = ∅ e G1 ∪ G2 = G(conjunto de todas as DMU’s), então n1 + n2 = n. O primeiro modelo DEA-DA foi mais tarde alterado por Sueyoshi (2001) para que pudesse lidar com dados negativos, comuns em análises financeiras, sendo chamado a partir dessa alteração de Extended DEA-DA. Sueyoshi (2004) alterou novamente o modelo para que o segundo estágio do processamento minimizasse o número absoluto de classificações incorretas e ocorresse uma melhoria na eficiência computacional. É esse último modelo de Sueyoshi (2004) que empregamos neste trabalho. O primeiro estágio desse modelo é formulado da seguinte maneira: min s sujeito a: k P i=1 k P i=1 k P i=1 − (λ+ i − λi )Zij − d + s ≥ 0, j ∈ G1 − (λ+ i − λi )Zij − d − s ≤ 0, j ∈ G2 (6) − (λ+ i + λi ) = 1 d, s : irrestrito; ζi+ , ζi− : 0 ou 1; − λ+ i ≥ 0;λi ≥ 0; NLC:(7),(8);NZC:(10) − onde dé um valor limite, ou limiar, s representa um desvio e λ+ i e λi , i = (1, 2...k) são pesos cujo papel passamos a explicar. 110 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 Foram definidas as seguintes variáveis: λ+ = (|λi | + λi )/2 e λ− = (|λi | − λi )/2, para i = 1, ..., k i i Trabalhando algebricamente as definições acima temos as seguintes conseqüências |λ i | = − e λ = λ+ −λ− . Das definições, constatamos a condição de não linearidade (λ + λ− = 0), λ+ +λ i i i i i i i 2 − 2 uma vez que λ+ i λi = (|λi | − λi )/4 = 0. Tal condição exclui a possibilidade de termos, − simultaneamente, λ+ i > 0 e λi > 0. − A separação da variável λi em λ+ i e λi torna possı́vel trabalhar não somente com dados positivos, mas também com dados negativos. Especial atenção foi dada à condição de não linearidade (NLC, do inglês, nonlinear condition) e sua equivalência em programação mista (MIP, do inglês, mixed integer programming). − + Essa condição (λ+ i λi = 0) foi formulada introduzindo restrições com as variáveis bináriasζ i e − ζi , da seguinte maneira: + − − − ζi+ ≥ λ+ (7) i ≥ εζi eζi ≥ λi ≥ εζi ζi+ + ζi− ≤ 1, (i = 1, ..., k) (8) onde ε é um número muito pequeno, no estudo do autor foi utilizado ε = 0, 0005. As desigualdades em (7), que na formulação apresentada em (6) são referenciadas como − NLC:(7), estabelecem os limites superior e inferior de λ+ i e λi . Em (8), referenciado em (6) como NLC:(8), temos que a soma das variáveis binárias é menor ou igual a um. Percebe-se que + − − se tivéssemos λ+ i ≥ ε > 0 e λi ≥ ε > 0 em (7), então encontrarı́amos ζi +ζi = 2 em (8), o que − seria uma solução inviável. Portanto, λ+ i > 0 e λi > 0 não podem ocorrer simultaneamente. Outra situação imposta é a condição de não nulidade (NZC, do inglês, nonzero condition), conforme estabelecida abaixo e que é referenciada em 6 como NZC:(9): k X (ζi+ + ζi− ) = k (9) i=1 − visando evitar λ+ i = 0 e λi = 0, simultaneamente. Tal condição impossibilita a desconsi− deração de uma variável ou fator significativo, o que ocorreria caso fosse possı́vel λ i = λ+ i −λi = 0. −∗ ∗ ∗ ∗ Sejam λ∗i (= λ+∗ i − λi ), d e s as soluções ótimas de (6). Se s < 0 não há área de intersecção entre os elementos dos dois conjuntos, i.e., todas as observações são claramente classificadas em G1 e G2 . Se s∗ ≥ 0, existe uma área de intersecção e todos os dados são classificados num dos subconjuntos abaixo: C1 = ( C2 = ( j ∈ G1 / j ∈ G2 / D1 = G 1 − C 1 , D2 = G 2 − C 2 k P i=1 k P i=1 λ∗i zij > d∗ + s∗ ) , ) λ∗i zij < d∗ − s∗ , A figura 1 mostra a separação nos quatro subconjuntos mencionados. Observamos que a área de intersecção corresponde a D1 ∪ D2 . O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 111 C1 RB Intersecção Linha 1 Linha 2 C2 Figura 1: Classificação no primeiro estágio. Matematicamente, três regiões são definidas no espaço como segue: R1 = ( R2 = ( RB = ( (z1 ...zn )T / (z1 ...zn )T / (z1 ...zn k P i=1 k P i=1 )T /d∗ λ∗i zi > d∗ + s∗ ) , ) λ∗i zi < d∗ − s∗ e − s∗ ≤ k P i=1 λ∗i zi ≤ d∗ + s∗ ) Na figura 3, R1 é o espaço de dados acima da linha 1 (λ∗ Z = d∗ + s∗ ). R2 , o espaço de dados abaixo da linha 2 (λ∗ Z = d∗ − s∗ ). A área de intersecção RB se encontra entre as linhas 1 e 2. No segundo estágio, para tratamento dos dados da área de intersecção, temos a formulação (10). Nessa formulação Mé um número muito grande, como no conceito de Big – M em programação linear. Neste modelo, a variável yj indica a ocorrência de uma classificação incorreta e a função objetivo minimiza o número total de classificações incorretas. min P yj + j∈D1 sujeito a: k P i=1 k P i=1 k P i=1 P yj j∈D2 − (λ+ i − λi )zij − c + M yj ≥ 0, j ∈ D1 − (λ+ i − λi )zij − c − M yj ≤ −ε, j ∈ D2 (10) − (λ+ i + λi ) = 1 c : irrestrito; ζi+ , ζi− , yj = 0 ou 1; − λ+ i ≥ 0; λi ≥ 0 NLC : (7), (8); NZC : (9) Nesse modelo, NLC (7) e (8) e NZC(9) repetem as equações da formulação apresentada em (6). Obtendo as soluções ótimas da formulação acima λ∗ = (λ∗1 , λ∗2 , ..., λ∗k ) e c∗ , onde c é o 112 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 C1 Intersecção Linha 1 RB1 RB2 Linha 2 C2 Figura 2: Classificação no segundo estágio. valor discriminante no segundo estágio, a área de intersecção (R B ), identificada no primeiro estágio, pode ser separada da seguinte maneira: RB1 = ( RB2 = ( (z1 ...zn )T / (z1 ...zn )T / k P i=1 k P i=1 zi λ∗i zi λ∗i ≥ c∗ ≤ c∗ ) ∩ RB , ) − ε ∩ RB A figura 2 mostra a classificação no segundo estágio. Sintetizando, no primeiro estágio o modelo divide os dados em três grupos: G 1 , G2 e uma área ainda indefinida, chamada área de intersecção. No segundo estágio, os dados contidos na área de intersecção sofrem novo tratamento, sendo finalmente classificados em G 1 e G2 . 3 Composição de especialistas locais A idéia básica de uma Composição de Especialistas Locais (CEL) para classificação de dados consiste em clusterizar uma massa de dados, aplicar diferentes técnicas discriminantes ditas “modelos especialistas” em cada clusters, ponderar os resultados das técnicas discriminantes vencedoras, que são aquelas com o maior número de classificações corretas em cada cluster, e obter um valor numérico que permita classificar uma observação nova (novo entrante) como pertencente ou não a um determinado grupo. Aqui cabe levantar uma questão importante. Cada modelo utilizado em análise discriminante gera resultados numéricos que, segundo um critério estabelecido, permite classificar as observações em grupos. A natureza do valor numérico gerado, todavia, difere de modelo para modelo e até mesmo dentro de um mesmo modelo, como é o caso dos modelos de dois estágios de Sueyoshi, em que o valor numérico obtido na análise do segundo estágio não guarda relação com aquele obtido no primeiro estágio. Para contornar a dificuldade de composição desses valores de natureza distinta, converteremos os valores numéricos gerados em medidas que representam o grau de pertinência de uma determinada observação a um determinado grupo. Essa conversão será detalhada na seção 4.3, adiante. O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 Y1 Especialista 1 Entrada g Y2 Especialista 2 X 113 Saída Y g Yk Especialista k 1 g 2 k Rede Supervisora Figura 3: Composição de Especialistas locais. A figura 3 ilustra o conceito de CEL. Nela, uma massa de dados X foi dividida em k clusters. Em cada cluster houve uma técnica discriminante com melhor desempenho (modelo especialista vencedor). Cada modelo vencedor gera um uma saı́da Y i que é transformada numa medida de grau de pertinência a um grupo. As diversas saı́das Yi são ponderadas por uma função gerando uma saı́da única Y que define a classificação final. A saı́da Y é dada por: Y = k X g i yi (11) i=1 Para cálculo do fator de ponderação gi utilizamos o mesmo procedimento de Melo (2003), que se baseia na distância di , definida a seguir: " 1 di = exp − 2 2 kx − ctri k2 2(si /S ) # (12) onde: s2i é a variância do cluster i, S 2 é a maior variância apresentada pelos clusters, isto é, S 2 = M ax(s2i ) e i kx − ctri k é a distância euclidiana da entrada x ao centro do cluster i. Uma vez calculado o valor de di , definimos gi do seguinte modo: gi = di M P di i=1 Dessa forma para M clusters temos que M P i=1 gi = 1. (13) 114 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 Tabela 1: Centróides de três clusters GA RA Cluster No. 1 2,2930 0,1415 Cluster No. 2 6,1659 0,7059 Cluster No. 3 0,7640 -0,1778 Tabela 2: Composição dos clusters obtidos Empresa insolv solv Total 4 Cluster 1 2 33 35 Cluster 2 0 9 9 Cluster 3 31 20 51 Total 33 62 95 Estudo do caso Em nosso estudo de caso investigamos a calibração de um modelo de composição de especialistas locais (CEL) para classificar empresas em dois conjuntos: G1 (insolventes) e G2 (solventes). A massa de dados utilizada é a mesma de Scarpel (2000) e Almeida (2000). Ela é composta por 95 empresas, dentre as quais 33 são insolventes e 62 são solventes. Todas são empresas de capital aberto cujas demonstrações financeiras estavam disponı́veis na Comissão de Valores Mobiliários (CVM) e na BOVESPA (Bolsa de Valores de São Paulo). Como variáveis explicativas, ficaremos com a mesma escolha de Almeida (2000), que foi a seguinte: GA – Índice de Giro do Ativo Total, resultado da relação entre receita anual (vendas) e ativo total, dividido pelo Índice de Endividamento Geral, resultado da relação entre o exigı́vel total (= passivo circulante + exigı́vel a longo prazo) e o ativo total; RA – Taxa de Retorno sobre o Ativo Total, resultado da relação entre o lucro (antes do pagamento de juros + imposto de renda) e o ativo total, dividido pelo Índice de Endividamento Geral. Para a clusterização, estimação da FLDF e da regressão logı́stica, empregamos o software Statistica, versão 5.5 (1999). 4.1 Clusterização As 95 (noventa e cinco) empresas, foram clusterizadas de maneira a agrupá-las por similaridade. Após um estudo de diversas alternativas quanto ao número k de clusters (ver Santos, 2004), optamos por trabalhar com 3 clusters. Na figura 4 podemos visualizar os clusters obtidos. A tabela 1 apresenta os centróides dos 3 clusters obtidos. A tabela 2 resume a composição, i.e., o número de empresas solventes e insolventes em cada um dos 3 clusters obtidos. O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 115 Clusters 2 RA Cluster 1 Cluster 2 1 0 -0,5 Cluster 3 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 GA 9,5 -1 -2 -3 insolventes solventes Centros -4 -5 Figura 4: Clusterização em três grupos 4.2 Resultados dos Modelos Discriminantes Aplicamos a Análise Discriminante de Fisher, Regressão Logı́stica e o modelo Extended DEADA na massa de dados global (i.e., sem clusterização) para verificar qual modelo discriminante apresentaria o maior número de classificações corretas. Esse é o nosso modelo vencedor global e constitui o modelo de referência para comparação com os resultados da utilização do modelo CEL. A tabela 3 resume os resultados obtidos. 116 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 Tabela 3: Resultado na massa de dados global Global acertos insolv AD 31 Logit 28 DEA-DA 28 solv 43 58 59 total 74 86 87 % 77,9 90,5 91,6 Tabela 4: Resultados obtidos no cluster 3 acertos AD Logit DEA-DA insolv 22 27 26 solv 18 16 18 total 40 43 44 % 78,4 84,3 86,3 Como podemos verificar, o modelo Extended DEA-DA foi o vencedor na massa de dados global e, portanto, é a referência de comparação com os resultados do modelo CEL. No Cluster 1, que contém somente duas empresas insolventes, não é razoável aplicar qualquer modelo estatı́stico. Nesse contexto, descartamos a análise discriminante de Fisher e a regressão logı́stica. Fizemos uma tentativa então com o modelo não-paramétrico Extended DEA-DA que, conseqüentemente, por ser o único, foi o modelo vencedor nesse cluster. A calibração apresentou apenas uma empresa que, no segundo estágio, teve seu valor de discriminação situado entre os valores de referência d∗ + s∗ e d∗ − s∗ . Na impossibilidade de definir a pertinência a um dos dois grupos, consideramos essa classificação como errada. Portanto, o modelo apresentou apenas um erro de classificação e um percentual de acerto de 97,1%. O Cluster 2 apresenta somente nove empresas solventes, não sendo necessário qualquer esforço de discriminação. À qualquer empresa desse cluster atribuı́mos 100% de pertinência a G2 (solventes). O Cluster 3 nos permite trabalhar com todos os modelos especialistas considerados. A tabela 4 resume os resultados obtidos pelos modelos especialistas aplicados ao Cluster 3, o qual contém 31 empresas insolventes e 20 solventes. Assim, o modelo especialista vencedor para o cluster considerado foi o Extended DEA-DA. Com isso, nossa composição se reporta a um único modelo aplicado a clusters diferentes, produzindo superfı́cies de separação e funções discriminantes distintas. 4.3 Escala de Conversão Já vimos que o modelo CEL será composto por um único tipo de especialista local, o Extended DEA-DA. Um questionamento que aflora nesse ponto é o de como combinar os valores atribuı́dos a cada caso (empresa), uma vez que os mesmos apresentam ordem de grandeza distinta conforme tenham sido obtidos no primeiro ou no segundo estágio de classificação. A dificuldade maior, quando da conversão dos valores atribuı́dos pelo modelo Extended O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 117 Escala de Conversão Valor empresa mais solv. (V) 1 S d * − s* P 0,5 Figura 5: Escala de conversão em Pertinência (Extended DEA-DA) DEA-DA, recai no fato de termos dois estágios e, portanto, duas escalas distintas. Não há qualquer conexão entre os valores atribuı́dos no primeiro estágio e os valores do segundo estágio. No entanto, tais escalas não devem apresentar comportamentos independentes, ou poderı́amos ter casos em que uma empresa que não pode ser classificada em um dos grupos no primeiro estágio, por ter se localizado na área de intersecção, registraria um grau de pertinência maior do que uma empresa que foi classificada no primeiro estágio. Isso equivaleria a dizer que a segurança na classificação da empresa que apresentou dúvida no primeiro estágio é maior do que o daquela para a qual não houve dúvida, o que não parece ser lógico. Um cuidado essencial nessa conversão é o fato de que os valores percentuais obtidos, quando comparados a um determinado limiar, devem refletir exatamente as classificações obtidas pelo modelo especialista antes da conversão. Nesse contexto as escalas devem apresentar coerência e representar fielmente a classificação atingida pelo modelo. Para contornar tais problemas adotamos a seguinte solução. Para o primeiro estágio, o valor inferior da área de intersecção (d ∗ − s∗ ), que contém os pontos que terão sua classificação definida apenas no segundo estágio, foi arbitrado um valor de pertinência P ao grupo das empresas solventes igual a 0,5. Ao maior valor atribuı́do pelo modelo, que corresponde à empresa, digamos assim, mais claramente solvente, foi arbitrado o valor 1. Montamos então a escala de conversão ilustrada pela figura 5 e expressa pela relação dada em (14): S − (d∗ − s∗ ) P − 0, 5 = V − (d∗ − s∗ ) 1 − 0, 5 (14) onde S é o valor atribuı́do pelo modelo Extended DEA-DA à empresa em questão, V é o valor atribuı́do pelo modelo à empresa “mais claramente solvente” e P é o valor de pertinência a ser obtido para a empresa em questão. Todavia, quando aplicada a novos entrantes, essa escala poderá apresentar distorções, já que, por basear-se em uma amostra, não há garantias de que o valor de P esteja entre 0 e 1. Para que tais valores possam ser vistos como a probabilidade de pertencer a um grupo, utilizamos a solução proposta por Gujarati (2000), limitando em zero os valores de pertinência inferiores a zero e em um os valores de pertinência superiores a um. Dessa forma, esses valores de pertinência podem ser vistos como probabilidades. 118 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 A expressão de conversão para o segundo estágio é a seguinte: P = (Pref S − c∗ − 0, 5) θ.(Ic∗ ) + 0, 5 (15) onde Pref é a probabilidade do caso de referência (classificado como solvente) no primeiro e segundo estágios (com valor mais próximo de c∗ ), S é o valor atribuı́do no segundo estágio do modelo Extended DEA-DA, c∗ é o limiar do segundo estágio, θ é um parâmetro que visa a adequação da escala e I é uma função indicadora que poderá assumir os valores 1 e -1. Essa função indicadora será utilizada somente para adequação do sinal, lembrando que uma empresa para ser considerada solvente deve apresentar valor maior do que 0,5. No caso prático estudado arbitramos θ = 0, 05. 4.4 Modelo CEL O cálculo das ponderações do modelo CEL se dá de acordo com as expressões (13), (14) e (15). A saı́da yi é a probabilidade de pertinência ao grupo das empresas solventes(G 2 ), resultado da conversão em probabilidades dos valores atribuı́dos em cada cluster. Vamos ilustrar o cálculo completo para a empresa de número 95, escolhida ao acaso, que é solvente, pertence ao Cluster 1 e para a qual GA = 1,913 e RA = -0,009. Calculando a variância de cada cluster, obtemos os seguintes valores para os Clusters 1, 2 e 3: s21 = 0, 1523, s22 = 0, 8768 e s23 = 0, 3661. Como a maior variância é a do cluster 2, temos S 2 = 0, 8768. Temos ainda que: kx95 − ctr1 k2 = 0, 167, kx95 − ctr2 k2 = 18, 598 e kx95 − ctr3 k2 = 1, 349, assim, encontramos: d1 = 0, 6183, d2 = 0, 0001 e d3 = 0, 1989, g1 = 0, 7565, g2 = 0, 0001 e g3 = 0, 2434. o que nos leva a: Os modelos locais vencedores em cada cluster aplicados aos dados da empresa 95 geram saı́das que, convertidas pela escala apresentada em 4.3, transformam-se nas seguintes probabilidades de pertinência ao grupo das empresas solventes: Pc1 = 0, 5313, Pc2 = 1 e Pc3 = 0, 6714. Então, calculamos a seguinte probabilidade para o modelo CEL: PCEL = g1 Pc1 + g2 Pc2 + g3 Pc3 = 0, 5654 Como esse número é superior a 0,5 a empresa 95 é classificada como solvente. O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 119 Tabela 5: Comparação entre modelo CEL e Extended DEA-DA acertos CEL DEA-DA insolv 29 28 solv 58 59 total 87 87 % 91,6 91,6 Uma vez calculados os valores para todas as empresas, resta-nos comparar os resultados do modelo CEL com o resultado do especialista vencedor na massa de dados global. A tabela 5 resume a comparação de resultados. Verificamos que, para a massa de dados estudada, não houve melhoria no número de classificações corretas ao adotarmos o modelo CEL, se comparado ao modelo Extended DEA-DA aplicado sobre a massa de dados global. Ambos registram um percentual de acerto de aproximadamente 91,6%. O modelo Extended DEA-DA registra 5 empresas insolventes e 3 empresas solventes incorretamente classificadas. Já o modelo CEL registra 4 empresas insolventes e 4 empresas solventes incorretamente classificadas. 5 Conclusões Neste trabalho abordamos aspectos relativos a técnicas de análise discriminante e construção de uma Composição de Especialistas Locais (CEL) para classificação de dados. Para isso, fizemos uso de três técnicas de discriminação, a saber, Análise Discriminante de Fisher, Regressão Logı́stica e Extended DEA-DA. No decorrer do desenvolvimento, definimos o caso estudado, no qual apresentamos uma massa de dados onde 95 empresas se enquadravam na categoria solvente ou insolvente. Essa massa de dados foi clusterizada e tornou-se a base da calibração do nosso modelo CEL. Os resultados obtidos indicaram o modelo Extended DEA-DA como único vencedor, tanto na massa de dados global quanto na massa de dados clusterizada, exceto no cluster constituı́do somente de empresas solventes. Um aspecto importante foi a necessidade da construção da escala de conversão de valores do modelo discriminante para graus de pertinência ao grupo de empresas solventes. Nesse aspecto não vislumbramos uma solução geral, acreditamos tratar-se de um problema prático que deverá ser contornado caso a caso, como fizemos no nosso estudo de caso. Ao compararmos o modelo CEL com a técnica discriminante vencedora na massa de dados global, os números finais mostraram que ambos apresentaram idêntico número absoluto de classificações corretas, perfazendo um percentual aproximado de 91,6% de acerto na calibração. Esse resultado indica que o esforço adicional empregado na partição da massa de dados em regiões e aplicação de soluções nessas regiões, que implica grande esforço adicional em comparação ao procedimento ortodoxo de aplicar a solução sobre a massa de dados global, não necessariamente assegura melhores resultados. Como sugestões para trabalhos futuros podemos indicar: - um estudo mais geral sobre a construção de escalas de conversão de valores dos modelos discriminantes em valores percentuais que representem graus de pertinência a um determinado 120 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 conjunto; - estudar a adequação do uso do parâmetro subjetivo θ na conversão dos valores obtidos pelo modelo Extended DEA-DA em valores percentuais para outras massa de dados, utilizando simulação. - a utilização de outras ferramentas de classificação de dados, redes neurais e outros especialistas, para obtenção de modelos CEL diferenciados. - a aplicação de modelos CEL numa massa de dados maior, possibilitando separar parte dos dados para calibração e outra parte para teste, verificando-se assim a capacidade de generalização do modelo. 6 Referências ALMEIDA, H. R. Análise de envoltória de dados na tomada de decisão para concessão de crédito. Dissertação (Mestrado em Produção) – Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, 2000 FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics, v. 7, p.179-188, 1936 GUJARATI, D. N. Econometria básica. São Paulo: Makron Books, 2000 JACOBS, R. A.; JORDAN, M. I.; NOWLAN, S. J. & HINTON, G. E. Adaptive Mixture of Local Experts. Neural Computation. Vol. 3, No. 1, pp.79-87, MIT Press, 1991 LAM, K.F.; MOY, J.W. A piecewise linear programming approach to the two- group discriminant problem: an adaptation to Fisher’s linear discriminant function model. European Journal of Operational Research, v.145, p. 471-481, 2003 LIMA, C. A. M.; COELHO, A. L. V.; VON ZUBEN, F. Mixture of Experts Applied to Nonlinear Dynamic Systems Identification:A Comparative Study, Proceedings of the VII Brazilian Sympsium on Neural Networks, Porto de Galinhas, Recife, Brazil, Nov 11-14, 2002, pp 162-167, 2002 MELO, B. Previsão de séries temporais usando modelos de composição de especialistas locais. Dissertação (Mestrado em Produção) - Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, 2003 MELO, B.; NASCIMENTO Jr, C. L.; MILIONI, A. Z.. Daily Sugar Price Forecasting Using Mixture of Local Experts Models. In: ZANASI, A.; EBECKEN, N.f.f.; BREBBIA, C.a. (Org.). Data Mining V: Data Mining, Text Mining and their Business Applications. Londres, v. 10, p.271-281, 2004 PINDYCK, R. S.; RUBINFELD, D. L. Econometric models and economic forecasts. 4. ed. New York: McGraw-Hill, 1998. SANTOS, O. J. S. . Composição de Especialistas Locais para Classificação de Populações. Dissertação (Mestrado em Produção) - Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, 2004 O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121 121 SCARPEL, R. A. Modelos matemáticos em análise financeira de empresas de setores industriais e de crédito. Dissertação (Mestrado em Produção) – Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, 2000 SCARPEL, R. A.; MILIONI, A. Z.. Aplicação de modelagem econométrica à análise financeira de empresas. Revista de Administração (RAUSP), São Paulo, SP, v. 36, n. 2, p. 80-88, 2001 SCARPEL, R. A.; MILIONI, A. Z.. Utilização conjunta de modelagem econométrica e otimização em decisões de concessão de crédito. Pesquisa Operacional, v. 22, n. 1, p.61-72, 2002 STATSOFT INK. STATISTICA 5.5, Software Manual, Tulsa, 1999 SUEYOSHI, T. DEA: discriminant analysis in the view of goal programming. European Journal of Operational Research, v.115, p. 564-582, 1999 SUEYOSHI, T. Extended DEA-discriminant analysis. European Journal of Operational Research, v.131, p. 324-351, 2001 SUEYOSHI, T. Mixed integer programming approach of extend DEA- discriminant analysis. European Journal of Operational Research, v.152, p.45-55, 2004 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 123 Using Optimization to Solve Truss Topology Design Problems Fernando Bastos ∗ ∗ Adelaide Cerveira † Joaquim Gromicho ‡ Departamento de Estatı́stica e Investigação Operacional, FC, UL, Lisboa, Portugal [email protected] † † Departamento de Matemática, UTAD, Vila Real, Portugal [email protected] Vrije Universiteit, Amsterdam & ORTEC International, Gouda, The Netherlands [email protected] Abstract The design of truss structures is an important engineering activity which has traditionally been done without optimization support. Nowadays we witness an increasing concern for efficiency and therefore engineers seek aid on Mathematical Programming to optimize a design. In this article, we consider a mathematical model where we maximize the stiffness with a volume constraint and bounds in the cross sectional area of the bars, [2]. The basic model is a large-scale non-convex constrained optimization problem but two equivalent problems are considered. One of them is a minimization of a convex non-smooth function in several variables (much less than in the basic model), being only one non-negative. The other is a semidefinite programming problem. We solve some instances using both alternatives and we present and compare the results. Keywords: truss topology design, stiffness, non-smooth convex programming, descent method, semidefinite programming, duality, interior point methods Introduction Truss topology design (TTD) deals with constructions like bridges, cantilevers and roof trusses supporting different loading scenarios. For example, a bridge should withstand forces corresponding to morning or evening rush hour traffic and even to an earthquake. c 2005 Associação Portuguesa de Investigação Operacional 124 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 The selection of an optimal configuration for the structure depends on the used criteria, see for instance Refs. [3, 4, 17, 26, 19, 20]. Possible criteria are, for example, characteristics of rigidity such as stiffness and stability of the construction, the total amount of material used, structure lifetime, etc. In this paper we examine the issue of the stiffness of the truss for a given amount of material: we seek the stiffest truss satisfying equilibrium constraints and restrictions on the cross sectional area of the bars. This results in a large-scale non-convex problem, as we show with some detail. An equivalent convex minimization problem is presented and solved by a nonsmooth steepest descent algorithm. This approach is unable to handle large TTD problems with tens of nodes and hundreds of bars, [2]. A more efficient alternative reformulation of the basic model as a semidefinite program (SDP), [10], is also considered. The paper is organized as follows. In section 1 we present the basic notions about TTD problems with a detailed explanation of the problem formulation, emphasizing on the equilibrium constraints. The obtained model is hard to solve, but an easier equivalent convex problem is presented in Section 1.4. In Section 2 we present a reformulation of the last problem as a minimization of a convex non-smooth function with less variables, being only one of them non-negative. In Section 3, we describe a descent algorithm to solve this problem. In Section 5, an alternative reformulation is presented as a semidefinite programming problem. We briefly derive the required linear matrix inequalities, and explore different alternative formulations of the problem, which enable the use of CSDP3.2 package [6, 5]. In order to simplify the exposition we include some important results from linear algebra and Positive Semidefinite Programming (SDP) in Section 4. Finally, in Section 7 we present computational results obtained for both methodologies. 1 Problem Formulation This section starts by introducing the basic engineering concepts that are important to the design of trusses. 1.1 Trusses, Loads and Compliance A truss is a two or three dimensional structure composed of bars linked at nodes or joints which may be fixed, free or supported. In this work, we only consider two dimensional trusses. There is no loss of generality since three dimensional trusses can be approached by similar techniques but with a substantial increase on the number of variables. We distinguish the nodes on their degrees of freedom. A fixed node has 0 degrees of freedom. In the two dimensional case, a free node has 2 degrees of freedom (it can be moved along each direction on the plane) and, a supported node has just 1. The total number of degrees of freedom of the truss is the sum of the corresponding values on its nodes. The bars are all made of the same material. This material has elastic properties which are assumed linear with Young’s modulus E. When external forces, represented by a vector f , are acting on the nodes the structure deforms until the reaction caused by the deformation of the bars balances the external load. We may describe that deformation by the vector of nodal displacements, u, being the work done by external forces f>u. We call compliance to 21 f>u. This is a measure of the stiffness F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 125 Figure 1: Rich and poor topologies. of the truss, of its ability to withstand the load: the smaller the compliance the larger the stiffness of the truss with respect to the load. Initially, we have a basic truss, the so-called ground structure, which is a previously chosen set of nodes and connecting bars. Usually we take a mesh of regularly spaced nodes. If we consider all possible links between the nodes we call it the rich topology, while if we consider only the links between neighboring nodes we call it the poor topology. In Figure 1, we show both alternatives for one set of nodes. The goal is to find the stiffest truss capable of withstand the given load with a total volume that do not exceed a predefined value. We have to distribute the volume of the truss among the bars in order to get the more rigid construction, i.e., the one that minimizes the compliance. Only the bars with nonzero cross-sectional area are part of the final structure. This is what is called “truss topology design”. In order to formulate the problem, we consider a ground planar structure with k nodes, n degrees of freedom, m tentative bars and an external load f ∈ Rn . The design variables in the problem are the cross-sectional area of the bars, ai , with bounds, Li ≤ ai ≤ Ui , i = 1, . . . , m. The predefined maximum volume for the structure will be represented by v(> 0). Denoting by si the length of bar i, the set of all admissible vectors for the cross-sectional area of the bars is ) ( m X a i si ≤ v , L ≤ a ≤ U A = a ∈ Rm : i=1 where a = (a1 , . . . , am ), L = (L1 , . . . , Lm ) and U = (U1 , . . . , Um ). We assume the following: • 0 ≤ Li < Ui , i = 1, . . . , m; • si Ui ≤ v, i = 1, . . . , m; Pm Pm • i=1 si Ui . i=1 si Li < v < Typically m is much larger than n. The truss should be able to withstand the external load. This is assured by the equilibrium equation: K(a)u = f (1) where u ∈ Rn is the nodal displacement vector and K(a) is the n × n stiffness matrix of the structure. In the following subsection, we explain the equilibium equation with some detail. 126 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 The problem can be formulated as follows ([2, 3, 4, 8]) 1 : min f>u (P ) s.t. K(a)u = f a∈A u ∈ Rn . Note that problem (P ) is non-convex due to the equilibrium equation and has a large number of variables (n + m) and constraints (n + 2m + 1). To get an idea of the size of TTD problems, we can easily notice that, in the case of the rich topology, we can get up to m = 21 k(k − 1) bars being the number of the nodes, k, typically large. Fortunately, this problem can be transformed to an equivalent convex programming problem, as we will see in Section 1.4, which can be rewritten as a non-smooth convex problem with only n + 1 variables and 1 constraint (see Section 3) or as a semidefinite problem (see Section 5). 1.2 Equilibrium equation Let ai and si , denote the cross-sectional area and length of bar number i, respectively. The general law for energy conservation, [7], states that: f>u = q>∆s, (2) where q ∈ Rm is the vector of internal bar forces and ∆s ∈ Rm is the vector of the bar elongations. The stress in bar i, σi , given by aqii , measures the intensity of internal forces by unit of area. Each given material has a limit of proportionality, see [7], within which the elastic behavior is linear and the so-called Hooke’s law is valid: σi = E ∆si si with E a constant specific to each material, called the Young’s modulus. As σi = qi ai we can write qi = Eai ∆si = ki ∆si si where ki = E asii is known as the stiffness of the bar i. Similar equations can be written for all m bars of the structure obtaining q = D∆s, (3) where D is a diagonal matrix with Dii = E asii for all i = 1, . . . , m. All deformations are assumed to be small, i.e., it is assumed that the resulting displacements do not significantly affect the geometry of the structure and hence do not affect the forces on the bars [17, 7]. 1 In the objective function, to simplify, we consider twice the compliance. F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 yg 127 ∆s2*..... 6 xl q yl K ......... β . ... * q. 0 ... .... v q........................α.....................β.......................... 6 ?q - ... .. i ∆s1 ..... .. .... .... .. p....................α * hq * 0 ...p..... vp p.......................α............β......................... 6 ? - ... .. - xg 0 (a) Figure 2: (a) Coordinates of bar i hp (b) (b) Bar elongation In order to derive equilibrium constraints we will construct the compatibility matrix B. It relates (small) nodal displacements, u, with (small) bar elongations, ∆s, and relates nodal forces, f , with bar forces, q, by ∆s = Bu , f = B>q. Consider the bar i in the plan with node p = (xp , yp ) as its first end, and node q = (xq , yq ) as its second end (see Figure 2 (a)). We assume that both nodes are free, i.e., that both have two degrees of freedom. The xg 0yg axes refer to the whole structure. The bar itself has a pair of local axes xl and yl . Positive direction of xl is indicated by an arrow which is pointing to the second end of the bar. The axial external load, f , causes displacements of both end nodes, p and q. In the overall referential, consider up = (hp , vp ) and uq = (hq , vq ) where hp and vp denotes the horizontal and vertical displacement of node p, respectively, and hq and vq are the corresponding quantities for node q. Accordingly, the end nodes of the bar move by the amounts ∆s1 and ∆s2 (cf. Figure 2 (b)) parallel to its pxl axis. Hence the new position of the bar is given by p0 and q 0 as shown in the figure. The elongation of this bar is: ∆si = −∆s1 + ∆s2 = −hp cos α − vp sin α + hq cos α + vq sin α, where α is the angle between bar i and the horizontal positive direction x g . In matricial form, we can write: .. . hp vp p q z }| { }| { z ∆si = [ · · · − cos α − sin α · · · cos α sin α · · · ] ... . hq vq .. . The row vector [ · · · − cos α − sin α · · · cos α sin α · · · ] is known as the displacement transformation matrix [B]i for the bar i. 128 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 Let us consider now supported nodes. If the first end node, p, is constrained to move only vertically and the second one, q, only horizontally, then we obtain .. . vp p q z }| { z }| { .. ∆si = [ · · · − sin α · · · cos α · · · ] . . hq .. . Other cases are similar. Writing this equation for all the bars of the structure, we obtain the matricial equation ∆s = Bu, (4) where B ∈ Rm×n , whose ith line is [B]i , is called the compatibility matrix of the structure. By equations (2) and (4), the equality f>u = q>Bu holds for every vector u, so: f> = q>B. Using (3) and (4), we obtain: f = B>q = B>D∆s = B>DBu. Defining K = B>DB, known by stiffness matrix of the structure, we obtain the equilibrium equation: f = Ku, The matrix K (or K(a) to emphasize that it depends on a) can also be obtained by: K(a) = m X a i si K i (5) i=1 where Ki , the stiffness matrix of bar i, can be obtained by the formula Ki = bi b>i , (6) √ being bi = sE [B]i . As we can easily see from (6), Ki is a rank 1 symmetric positive semidefinite i matrix. Moreover, from the engineering point of view, it is standard to assume that B has full rank (Ref.[2]), making K(a) = B>DB to be positive definite if a > 0. In fact, if a > 0 then all the diagonal elements of D are greater than zero and so D is positive definite. Furthermore, as B has full rank then Bx 6= 0, for all x 6= 0 and so, x>K(a)x = x>B>DBx > 0, for all x ∈ Rn \ {0}. 1.3 Examples To illustrate the previous concepts, we present two small examples. In one of them, we consider the structure presented in Figure 3 with 6 nodes and 5 bars. In the lower left corner of the figure the referential to the whole structure is presented. Node F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 129 00000000000000000000000000000000000000 y β x 3 ? 4 2? 1R q -xg - a 5 F yg ? α p /◦◦|000 b Figure 3: Truss with 5 bars and 3 degrees of freedom. (−5, 3)000| (−5, 0)000| yg 6 -xg c 5 (0, 3) d a 3 b 1 } 4 6F 1 2 (0, 0) 4 ◦◦ 0− 000 F2 6 (4, 0) e Figure 4: Truss with 5 bars and 5 degrees of freedom. a is free, node b can be moved in the yg direction. Nodes a and b have, respectively, 2 and 1 degrees of freedom, while the remaining nodes are fixed. As the structure has five bars and three degrees of freedom, B ∈ M5×3 and Ki ∈ M3×3 : B= cos β 0 0 0 −1 cos2 β cos β sin β E sin2 β K1 = 2 cos β sin β s1 0 0 0 0 0 E E K3 = 2 0 0 0 , K4 = 2 s3 s4 0 0 1 sin β 1 0 0 0 0 0 1 sin α 0 0 0 0 0 E 0 , K2 = 2 0 1 0 , s2 0 0 0 0 0 0 0 1 0 0 E 0 0 0 , K5 = 2 0 0 0 . s 5 0 0 sin2 α 0 0 0 The vector u of nodal displacements has three components, u = (ha , va , vb ). The horizontal displacement of a is ha , its vertical displacement is va and vb is the vertical displacement of node b. In Section 7 we present computational results for this structure considering β = 45 ◦ , α = 60◦ and an external load F acting at node a. In the other example, we consider the structure presented in Figure 4. In the lower left corner of the figure the referential to the whole structure is presented. The structure has five bars and five nodes. The node coordinates are given in parenthesis. Nodes d and e are free, 130 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 Table 1: Structure data. bar 1 2 3 4 5 length 5 4 5 3 5 cos α -0.8 -1 1 0 -1 sin α 0.6 0 0 1 0 1st end node e e b a d 2nd end node d a a d c node a can be moved in the xg direction having, respectively, 2, 2 and 1 degrees of freedom, while the remaining nodes are fixed. From the coordinates of the end nodes of each bar we calculate the length and the direction cosines of the bars. The results are summarized in Table 1. As the structure has 5 bars and 5 degrees of freedom then B, Ki ∈ M5×5 . We have K1 = E K3 = 25 B= 0 0 0 0.64 0 −0.48 0 −0.64 0 0.48 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 E 25 0 −0.48 0.36 0.48 −0.36 −0.8 0 0 0 1 0 −1 1 0 0 0 −0.64 0.48 0.64 −0.48 E , K4 = 9 0.6 0 0 1 0 0 0.48 −0.36 −0.48 0.36 0 0 0 0 0 0.8 1 0 0 0 −0.6 0 0 0 0 , E , K2 = 16 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 −1 0 0 0 0 0 0 0 0 0 0 0 −1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 E , K5 = 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 . There are two external loads, F 1 and F 2 , acting in the nodes a and e, respectively, as shown by the depicted arrows. The intensity of load F 1 is 20N and its angle with 0xg is 60◦ . The intensity of load F 2 is 30N and the angle is 90◦ . The vector of nodal displacements has five components, u = (ha , hd , vd , he , ve ), being hi the horizontal displacement of node i (i = a, d, e) and vi the vertical displacement of node i (i = d, e). As for the previous example, we present in Section 7 some computational results. 1.4 An equivalent large-scaled convex problem - (CP ) Problem (P ) is, as already mentioned, hard to solve. However, as shown in [2, 8], it is equivalent to: (CP ) Z1 = min maxn {2f>u − u>K(a)u} . a∈A u∈R F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 131 This is a convex programming problem. But it is still hard to solve directly. In the next section we present an equivalent optimization problem where we minimize a convex nonsmooth function in n + 1 variables, being only one non-negative and the others free. Later, in Section 5, we also present a reformulation of (CP ) as a semidefinite programming problem. 2 A smaller equivalent convex problem - (CP2 ) This section is based mainly on [2]. The model studied in [2] requires the volume of the structure to be equal to a given value, while our version constraints the volume of the structure not to exceed a maximum. This makes the model similar to the semidefinite programming models to be presented later on. To make the present article self-contained we state all the results needed, some of them being modified from those in [2] in order to accommodate for this slight change in the model. Consider the optimization problem: (CP2 ) Z2 = min u∈Rn ,λ∈R+ with F (u, λ) := F0 (u, λ) + m X F (u, λ) si Fi (u, λ) (7) i=1 where > F0 (u, λ) := λv − f u and Fi (u, λ) := max 1 > 1 > u K i u − λ Ui , u K i u − λ Li 2 2 and R+ is the set of nonnegative real numbers. This is a convex minimization problem with n + 1 variables and only one constraint. The objective function, F , is convex: it is the sum of several functions, being one of them linear, and the others convex, as they are the maximum of two convex quadratic functions. However, it is non-smooth. The following theorem sets up a first relation between problems (CP ) and (CP 2 ): Theorem 2.1 ([2, 8]) Z1 = −2Z2 . Next theorem guarantees the existence of an optimal solution of (CP 2 ). We present a proof different from the corresponding one in [2, 8]. Theorem 2.2 There exist u ∈ Rn and λ ∈ R+ such that F (u, λ) = Proof. min u∈Rn ,λ∈R+ F (u, λ). The function F is convex on Rn+1 , and so it is continuous on Rn+1 . For λ ≥ 0, 132 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 considering a ∈ A, a > 0 and the assumptions of page 128, we have > F (u, λ) ≥ λv − f u + m X si a i i=1 ! 1 > u Ki u − λ 2 m X 1 =λ v− a i si K i ai si − f>u + u> 2 i=1 i=1 ! m 1 > X > a i si K i u ≥ −f u + u 2 m X ! u i=1 1 ≥ −kf kkuk + ηa kuk2 , 2 being the last inequality a consequence of the Cauchy-Schwarz inequality and of the RayleighPm Ritz theorem, [14]; ηa is the smallest eigenvalue of the positive definite matrix i=1 ai si Ki and so ηa > 0. For λ < 0, considering the assumptions of pages 125 and 128, we have > F (u, λ) ≥ λv − f u + m X s i Ui i=1 =λ v− m X i=1 Ui s i ! 1 > u Ki u − λ 2 m X 1 − f>u + u> Ui s i K i 2 i=1 ! m X 1 ≥ −f>u + u> Ui s i K i 2 i=1 ! u u 1 ≥ −kf kkuk + ηu kuk2 , 2 where ηu (> 0) is the smallest eigenvalue of the positive definite matrix Pm i=1 Ui si Ki . So, F (u, λ) → +∞ when k(u, λ)k → +∞. This guarantees that F (u, λ) has a minimum on Rn+1 . Let X be the set of all the minima of F (u, λ) on Rn+1 . If X ∩ (Rn × R+ ) 6= ∅, the existence of an optimal solution of (CP2 ) is established. So, let us suppose that X ∩ (Rn × R+ ) = ∅. In this case, being F (u, λ) convex on Rn+1 , the minimum on Rn × R+ exists and has to be on the hyperplane λ = 0. 2 Theorem 2.1 defined a first connection between (CP ) and (CP2 ). The following theorem completes that connection, defining the optimality conditions for (CP2 ) and showing how to obtain an optimal solution of (CP ) from an optimal solution of (CP2 ). Theorem 2.3 ([2, 8]) Consider (u, λ) ∈ Rn × R+ and define the sets 1 > 1 > 1 > − + J := i : u Ki u < λ , J := i : u Ki u > λ J := i : u Ki u = λ . 2 2 2 The pair (u, λ) is an optimal solution of problem (CP2 ) if and only if there exist a ∈ Rn and µ ∈ R+ such that F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 133 1. ai = Li if i ∈ J − ; 2. ai = Ui if i ∈ J + ; 3. Li ≤ ai ≤ Ui if i ∈ J; 4. m X a i si K i u = f ; m X ai si + µ = v; i=1 5. i=1 6. µλ = 0. Moreover, the pair (u, a) is an optimal solution for (CP ). Next, we present a technical result that defines an efficient way to compute λ for a given u. Theorem 2.4 ([2, 8]) Let u ∈ R, λ = arg min F (u, λ), λ∈R+ {i1 , i2 , . . . , im } a permutation of {1, 2, . . . , m} such that u>Ki1 u ≤ uKi2 u ≤ . . . ≤ u>Kim u (8) and, finally, p, the largest integer such that m X j=p Then s i j Ui j + p−1 X s ij L ij ≥ v (p ≤ m). j=1 1 λ = u>Kip u. 2 In the following section we present an algorithm to solve (CP2 ) and, consequently, (CP ). 3 A descend Algorithm to solve CP and CP2 Problem (CP2 ) is a convex problem in Rn ×R+ where the objective function, F , is non-smooth. Since F is convex and finite, it has a non-empty subdifferential at every point (u, λ) ∈ Rn ×R+ , ∂F (u, λ) ([21]). This set was already characterized in ([8]). Using this information, it is possible to apply algorithms based on the separation oracles, such as cutting plane method ([9, 16, 18]) or ellipsoid method ([22, 23, 24]). These methods are characterized by decreasing the search domain until its size be small enough or until other stopping criteria be satisfied. A subgradient, and thus a supporting hyperplane, is all the information needed to reduce 134 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 the search domain in each step. However these methods are difficult to apply because it is necessary to know in advance a compact set including an optimal solution. Descent methods are also traditionally used to solve minimization unconstrained problems, minx∈Rn f (x). Starting at an initial point x0 , a sequence {xk } is constructed forcing the objective function f to decrease at each iteration: f (xk+1 ) < f (xk ) , k = 0, 1, . . . To solve (CP2 ), where λ is non-negative, we apply a descent method to solve (9) min (u,λ)∈Rn+1 F (u, λ); if, at iteration k, the obtained value for λk is negative, we project the corresponding (uk , λk ) over Rn × R+ making λk = 0. 3.1 Descent methods The next iterate, xk+1 , is defined from the current one, xk , in two steps: first, a descent direction dk is computed; after, one computes a stepsize tk > 0 such that the new iterate, xk+1 := xk + tk dk satisfies the condition f (xk + tk dk ) < f (xk ). This procedure is repeated until a stopping criteria is satisfied ([12]). The success of these kind of methods depend on the choice of the step size tk and of the direction dk . They must be carefully chosen. It is known that d is a descent direction of function f : Rn → R at x if one of the following conditions is true: • f 0 (x; d) < 0, where f 0 (x; d) is the directional derivative of f at x in the direction d; • s>d < 0, for all s ∈ ∂f (x); • σ∂f (x) (d) < 0, where σS (x) := sup{s>x : s ∈ S} is the support function of set S. If one chooses d such that f 0 (x; d) be as negative as possible, the so-called steepest descent direction is obtained. However, since the function d 7→ f 0 (x; d) is positively homogeneous of degree one it is also necessary to bound the length of the direction because any negative directional derivative can be indefinitely extended. In the following result, an easy way to obtain a steepest descent direction, ([12, 8]), is presented. Lemma 3.1 Consider a function f : Rn → R such that f 0 (x; d) exists for each x, d ∈ Rn and d 7→ f 0 (x; d) is continuous. Under these conditions, the optimal value of 1 0 2 min f (x; d) + kdk (10) d∈Rn 2 is finite and non-positive. Furthermore, this value is negative if and only if there exists d such that f 0 (x; d) < 0. When f is convex we have the following corollary: F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 135 Corollary 3.1 If f : Rn → R is a convex function and d ∈ Rn is an optimal solution of the problem (10) at x̄ then d = 0 if and only if minx∈Rn f (x) = f (x̄). A steepest descent direction of the function F at (u, λ) is obtained solving the quadratic minimization problem ([12, 2, 8]), 1 2 2 0 (Pd ) min kdk + δ F (u, λ; d, δ) + d∈Rn , δ∈R 2 where F 0 (u, λ; d, δ) is a directional derivative of F at (u, λ) in the direction (d, δ). ˆ δ̂) = (0, 0) then, by Corollary 3.1, the corresponding If the optimal solution of (Pd ) is (d, (u, λ) is the optimal solution. Using some results about directional derivatives ([21, 12]), we have: X X si Ui ((Ki u)>d − δ) + si Li ((Ki u)>d − δ) + F 0 (u, λ; d, δ) = −f>d + vδ + i∈J − + X i∈J + si max {Li ((Ki u)>d − δ) , Ui ((Ki u)>d − δ)} . i∈J Defining v := v − X si Li − J− f := f − X X si Li K i u − J− one gets: s i Ui , J+ X (11) si Ui Ki u, J+ > F 0 (u, λ; d, δ) = vδ − f d + X µi i∈J with, µi := max {si Li ((Ki u)>d − δ) , si Ui ((Ki u)>d − δ)} , i ∈ J, and problem (Pd ) can be written as min vδ − f d + (Pd ) d,δ s.t. X i∈J 1 1 µi + kdk2 + δ 2 2 2 µi ≥ si Ui ((Ki u)>d − δ), i ∈ J µi ≥ si Li ((Ki u)>d − δ), i ∈ J The optimal solution of (Pd ) can be obtained solving its dual ([8]) 2 2 X X τi Ki u − f − 12 τi − v − 21 (Dd ) max τ J s.t. s i L i ≤ τ i ≤ s i Ui , i ∈ J where τ = (τ1 , τ2 , . . . , τk ) with k = #J 2 . 2 #A is the cardinal of set A. J 136 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 This is a quadratic problem with bounded variables that can be efficiently solved. Let τ be an optimal solution for (Dd ). By the primal-dual relations ([1, 21]) an optimal solution of (Pd ), (d, δ), is given by: ! X d=− τ i Ki u − f , i∈J (12) X δ= τ i − v. i∈J Now we are able to apply a steepest descent direction algorithm to solve problem (CP 2 ) and, consequently, using Theorem 2.3, problem (CP ). However, descent methods do not necessarily converge ([25, 12]. An improved convergent version of the descent method is presented in the next section. 3.2 ε-descent methods A way to avoid the non-convergence of descent methods is to consider the ε-subdifferential of f at x instead of the subdifferential. This concept uses information about the function not only in x but also in a neighbourhood of x. Next, we present some definitions. Definition 3.1 ([13]) A vector s ∈ Rn is a ε-subgradient of f at x ∈ dom f if f (y) ≥ f (x) + s>(y − x) − ε, for each y ∈ Rn . The ε-subdifferential, ∂ε f (x), is the set of all ε-subgradient of f at x. Definition 3.2 ([13]) The ε-directional derivative of f at x ∈ dom f relative to d is fε0 (x; d) = sup s>d. s∈∂ε f (x) It can be proven that ∂ε f (x) is a closed and convex set, for all ε > 0. This implies that fε0 (x; d) is always well defined. Definition 3.3 ([13]) A nonzero vector d ∈ Rn is said to be an ε-descent direction for f at x if fε0 (x; d) < 0, in other words, if d defines an hyperplane separating ∂ ε f (x) and {0}. A point x ∈ Rn is said to be an ε-minimum of f if there is no such separating d, i.e. fε0 (x, d) ≥ 0 for all d i.e., 0 ∈ ∂ε f (x). Proposition 3.1 ([13]) A direction d ∈ Rn is ε-descent if and only if f (x + td) < f (x) − ε, for some t > 0. A point x ∈ Rn is an ε-minimum of f if and only if it minimizes f within ε, i.e., f (y) ≥ f (x) − ε, for all y ∈ Rn . F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 137 Next, we describe an ε-descent algorithm for solving minn f (x). x∈R A general ε-descent algorithm Step 0 Start from some x0 ∈ Rn . Choose ε > 0. Set k := 0. Step 1 If 0 ∈ ∂ε f (xk ) Stop. Otherwise compute dk , an ε-descent direction. Step 2 Make a line-search along dk to obtain a step size tk > 0 such that f (xk + tk dk ) < f (xk ) − ε. Step 3 Set xk+1 := xk + tk dk . Replace k by k + 1 and loop to Step 1. In the following we will describe an ε-descent algorithm for problem (CP2 ) which simultaneously solves problem (CP ). This algorithm is similar to the one presented in [2], differing only in what is needed due to the volume constraint being an inequality in our case. For ε > 0 define the following index sets: ε 1 > ˆ J := i : u Ki u − λ ≤ , 2 s i Ui − s i L i 1 ε Jˆ+ := i : u>Ki u − λ > 2 s i Ui − s i L i and Jˆ− := ε 1 i : u>Ki u − λ < − 2 s i Ui − s i L i . As in (11), consider v̂ := v − X i∈Jˆ+ fˆ := f − X i∈Jˆ+ s i Ui − X si Li , i∈Jˆ− s i Ui K i u − X si Li Ki u. i∈Jˆ− The vector (d, δ) is a ε−descent direction for problem (CP2 ) if it is an optimal solution of the following quadratic problem X 1 1 µi + kdk2 + δ 2 v̂δ − fˆ>d + (P̂d ) min d,δ,µ 2 2 i∈Jˆ s.t. with si Ui (d>Ki u − δ + pi ) − µi ≤ 0 , i ∈ Jˆ si Li (d>Ki u − δ + pi ) − µi ≤ 0 , i ∈ Jˆ 1 pi := u>Ki u − λ. 2 Problem (P̂d ) is a perturbation of problem (Pd ). In fact, for every i ∈ Jˆ we have |pi | ≤ For small values of ε we have Jˆ ≈ J and, for ε = 0 both problems coincide. ε si (Ui −Li ) . 138 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 The dual problem of (P̂d ) is the following quadratic optimization problem ([8]): (D̂d ) 2 2 X X X 1 1 max − τi pi − τi K i u − f τi − v − τ 2 2 i∈Jˆ i∈Jˆ i∈Jˆ s.t. ˆ si Li ≤ τi ≤ si Ui , i ∈ J. Let τ̂ be an optimal solution for problem (D̂d ). As in (12), by the primal-dual relationships, ˆ δ̂), is given by: the optimal solution of problem (P̂d ), (d, X dˆ = − τ̂i Ki u − fˆ , ˆ (13) X i∈J δ̂ = τ̂i − v̂. i∈Jˆ By Corollary 3.1, dˆ = 0 and δ̂ = 0 if and only if (u, λ) is an ε-optimal solution for problem (CP2 ). ˆ δ̂), the stepsize can be obtain by: Having an ε−descent direction, (d, ˆ λ + αδ̂). arg min F (u + αd, α≥0 Here we use an inexact line search of the Armijo-Goldstein type as it was made by Ben-Tal and Bendsøe in [2]. The rule is given in Step 2(d) of the following algorithm. Next, we present a ε-descent algorithm to obtain an ε-optimal solution for problem (CP 2 ). An ε-descent algorithm to solve (CP2 ) Step 0 Choose ε > 0, δ > 0, 0 < θ < 12 , set k := 0; Step 1 initialization P 0 (a) Choose an initial P value a0 : a0 > 0, L ≤ a0 ≤ U, m i=1 ai si ≤ v; m 0 0 (b) Solve the system i=1 ai si Ki u = f . Let u be its solution; (c) Compute λ0 in the following way: consider a permutation (i1 , i2 , . . . , im ) of the set {1, 2, . . . , m} such that > > > u 0 K i1 u 0 ≤ u 0 K i2 u 0 ≤ . . . ≤ u 0 K im u 0 ; let p be the largest integer such that Pp−1 Pm (p ≤ m) j=p si Uij + j=1 si Lij ≥ v 1 0> 0 then λ0 := 2 u Kip u ; Step 2 iteration k +1 (uk and λk known): (a) Determine the index sets Jˆk , Jˆk− , Jˆk+ and compute v̂ k and fˆk ; (b) Solve the problem (P̂d ) to obtain (dˆk , δ̂ k ) [solve (D̂d ) to obtain τ̂ k and compute (dˆk , δ̂ k ) by formula (13)] (c) If max(kdˆk k, |δˆk |) < δ Stop. (d) Compute the stepsize αk as been the largest α > 0 such that F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 139 F (uk + αdˆk , λk + αδˆk ) ≤ F (uk , λk ) − αθ(kdk k2 + δ̂k2 ) (*) Note: an approximation for αk can be obtained as: let l(k) be the largest integer such that α = ( 12 )l(k) verify (*), then αk = ( 12 )l(k) . (e) Set: uk+1 := uk + αk dˆk , λk+1 := λk + αk δ̂k . k+1 If λ < 0 then consider λk+1 := 0 (f) Replace k by k + 1 and loop to Step 2; With this algorithm, we obtain (uk , λk ) as an ε-optimal solution for problem (CP2 ) corresponding to the ε-optimal value Z2ε = F (uk , λk ). Using the relations between problems (CP ) and (CP2 ), the ε-optimal solution for problem τ̂ k (CP ) is (a, uk ) with ai = Li for i ∈ Jˆ− , ai = Ui for i ∈ Jˆ+ and ai = j for i ∈ Jˆk and j the k k si corresponding index in vector τ (1 ≤ j ≤ #Jk ). The ε-optimal value is Z1ε = −2F (uk , λk ). As we will see, (CP ) can be formulated as a positive semidefinite problem. Before doing so, we present, in the next section, some useful results from linear algebra and semidefinite programming. 4 Semidefinite Programs In this section, we review some fundamental properties of positive semidefinite matrices. We also introduce a standard form of the primal-dual pair of positive semidefinite programs (SDP). For a more complete explanation see Refs. [14, 15, 11]. Our notation is quite standard: Mn,m denotes the set of n × m matrices, Mn the set of square matrices of dimension n, and Sn the set of the symmetric ones. The trace of matrix A, Tr(A), is the sum of the diagonal elements of A; diag(A) is the vector of the diagonal entries of A ∈ Sn ; Diag(x) is the diagonal matrix with the vector x on its diagonal. Definition 4.1 A ∈ Sn is positive semidefinite (A 0 or A ∈ Sn+ ) if x>Ax ≥ 0 for all x ∈ Rn A ∈ Sn is positive definite (A 0 or A ∈ Sn++ ) if x>Ax > 0 for all x ∈ Rn \ {0}. It is easy to prove that Sn+ is a closed convex cone. This cone induces a partial order on the set of the symmetric matrices: for A, B ∈ Sn , A B (A B) if A − B ∈ Sn+ (A − B ∈ Sn++ ). The standard formulation for the primal-dual pair of problems in positive semidefinite programming is given by (P SDP ) inf c>x m X s.t. xi Fi + F0 = F (x) , i=1 F (x) 0 sup − Tr(F0 Z) (DSDP ) s.t. Tr(Fi Z) = ci , i = 1, . . . , m (14) Z0 140 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 where x ∈ Rm is the primal vector variables, Z is the dual matrix variable, which has the same block structure as the given symmetric matrices F0 , F1 , . . . , Fm , and c ∈ Rm is a given vector. In the previous formulation we considered just one semidefinite matrix variable, F (x). This is not restrictive. In fact, any semidefinite program with several semidefinite matrices variables of varying dimensions can be formulated equivalently within standard (P SDP ), using the following result: A1 0 . . . 0 .. .. . 0 A2 . ()0. (15) A1 ()0, A2 ()0, . . . , Am ()0 ⇐⇒ .. . . . . . . . 0 0 ... 0 Am The optimal value of (DSDP ) is a lower bound on the optimal value of (P SDP ). This property is called the weak duality property. There is also a strong duality property, similar to the one in linear programming: Theorem 4.1 (Strong duality) Assume that there exists a strictly feasible solution Ẑ for (DSDP ) and let ( ) m X ∗ > p = inf c x : xi Fi + F 0 0 i=1 and d∗ = sup {−Tr(F0 Z) : Tr(Fi Z) = ci , i = 1, . . . , m, Z 0} . Then p∗ = d∗ and, if p∗ is finite, it is attained for some x feasible for (P SDP ). It is easy to see that linear programming is a special case of semidefinite programming. Several other convex optimization problems can be formulated as semidefinite programs. To see this, an helpful tool is the Schur Complement Theorem: Theorem 4.2 (Schur Complement) Let A ∈ Sr++ , B ∈ Sq and C ∈ Mr,q . Then A C () 0 ⇐⇒ B () C>A−1 C. > C B The following lemmas are often used results about positive semidefinite matrices that we will need later. Lemma 4.1 If A ∈ Sn+ , then • aii ≥ 0, i = 1, . . . , n; F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 141 • aii = 0 ⇒ aij = aji = 0, j = 1, . . . , n. Lemma 4.2 Let A, B 0. Then, Tr(AB) ≥ 0 and Tr(AB) = 0 if and only if AB = 0. The following lemma is also frequently used: Lemma 4.3 ([10]) For f ∈ Rn and A ∈ Sn , τ f f A > 0 ⇐⇒ τ + u>Au − 2u>f ≥ 0 , ∀ u ∈ Rn . In the next section, we briefly show how problem (CP ) can be formulated as a semidefinite programming problem. 5 An SDP formulation for truss structure design We can write (CP ) as min τ τ,a s.t. τ ≥ 2f>u − u>K(a)u , ∀ u ∈ Rn a ∈ A, where A = {a ∈ Rm : (CP) as: Pm i=1 ai si ≤ v, L ≤ a ≤ U }. Using Lemma 4.3, we can write problem min τ a,τ s.t. τ f> f K(a) m X 0 a i si ≤ v i=1 a−L≥0 −a+U ≥0 The last two inequalities may be written as the following linear matrix inequality: Diag(a − L) Diag(−a + U ) 0. 142 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 Consequently, using (15), we obtain the following semidefinite formulation (SCP ) min τ a,τ s.t. τ f> f K(a) − P a i si + v Diag(a − L) Diag(−a + U ) 0. If we consider m X 1 1 min Lj sj , v− ai := Li + si m+1 j=1 min {Uj − Lj } j=1,...,m , i = 1, . . . , m, τ := f>(K(a))−1 f + 1 we get a strictly P feasible solution: using the assumptions of Section 1, we can conclude that a > L, a < U , m i=1 ai si < v, ai > 0 for i = 1, . . . , m, K(a) 0 and, finally, τ > 0. With this and applying Theorem 4.2, we have > τ f 0. f K(a) Using (15) we conclude immediately that the solution is strictly feasible. Problem (SCP ) is already an instance of (P SDP ) in variables a1 , . . . , am , τ . To see this, just define the following matrices: f F0 := and 0 f> 0 v Diag(−L) Diag(U ) 0 , Fm+1 0 s i K i Fi := −si Diag(ei ) 0 := 0> Diag(−ei ) where ei is the unitary vector with component i equal to 1. 1 0> 0 0 0 , i = 1, . . . , m, 0 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 143 All the matrices has the same block structure: one symmetric block of dimension n + 1 and 3 diagonal blocks, one of dimension 1 and the others of dimension m. In the following subsections, we derive the dual of (SCP ), we get a new semidefinite programming problem equivalent to that dual. In section 6 we conclude that the dual of this new problem is equivalent to problem (P ). 5.1 The dual problem of (SCP ) Using (14), the dual of problem (SCP ) is given by: max − Tr(F0 Z) s.t. Tr(Fi Z) = 0, i = 1, . . . , m Tr(Fm+1 Z) = 1 Z 0, being F0 , F1 , . . . , Fm+1 the matrices defined in the previous section and Z the dual variable with the following block structure: λ z> z Z := Σ θ Ω0 Ω00 , where λ ∈ R, z ∈ Rn , Σ ∈ Sn×n , θ ∈ R and Ω0 , Ω00 are m × m diagonals matrices. The dual problem can be written as max z,θ,Ω0 ,Ω00 ,Σ s.t. (DSCP ) > −2f z − vθ + m X Li Ω0ii i=1 − m X Ui Ω00ii i=1 1 Tr(Ki Σ) = θ + −Ω0ii + Ω00ii , i = 1, . . . , m si 1 z> 0 z Σ θ≥0 Ω0ii ≥ 0 , i = 1, . . . , m Ω00ii ≥ 0 , i = 1, . . . , m. The objective function does not depend on matrix Σ. This fact and the structure of the first two constraints, suggest the possibility of having an equivalent problem without Σ. This would be a much simpler problem than (DSCP ). 144 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 5.2 An equivalent problem to (DSCP ) Lets define the problem max −2f z − vθ + s.t. z,θ,Ω0 ,Ω00 ^) (DSCP > m X Li Ω0ii i=1 1 − m X i=1 z bi > bi z θ + > 1 si Ui Ω00ii (−Ω0ii + θ≥0 Ω00ii ) 0 , i = 1, . . . , m (16) Ω0ii ≥ 0 , i = 1, . . . , m Ω00ii ≥ 0 , i = 1, . . . , m ^ ). In the following theorems, we will prove the equivalence between (DSCP ) and ( DSCP Theorem 5.1 A feasible solution of problem (DSCP ) corresponds to a feasible solution of ^ ) with the same objective value. problem (DSCP Proof. Let (z, θ, Ω0 , Ω00 , Σ) be a feasible solution of (DSCP ).We know, by Theorem 4.2, that 1 z> 0 ⇔ Σ zz>. z Σ Then, as Ki 0, applying Lemma 4.2 and using the equality constraint defined in (DSCP ), we obtain, 1 Tr(Ki zz>) ≤ Tr(Ki Σ) = θ + −Ω0ii + Ω00ii , i = 1, . . . , m. si As, by (6), Ki = bi b>i , Tr(Ki zz>) = Tr (bi b>i zz>) = z>bi b>i z. Then z>bi b>i z = (b>i z)>b>i z ≤ θ + which is equivalent to 1 bi z θ + > 1 −Ω0ii + Ω00ii , i = 1, . . . , m, si z bi > 1 si (−Ω0ii + Ω00ii ) 0, i = 1, . . . , m. ^ ). It has, obviously, the same objective value So, (z, θ, Ω0 , Ω00 ) is a feasible solution of (DSCP 0 00 as (z, θ, Ω , Ω , Σ) in (DSCP ). 2 ^ ) corresponds to an optimal solution of Theorem 5.2 An optimal solution of problem (DSCP problem (DSCP ). F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 145 ^ ). By (16), we obtain Proof. Let (ẑ, θ̂, Ω̂0 , Ω̂00 ) be an optimal solution of (DSCP θ̂ + 1 −Ω̂0ii + Ω̂00ii ≥ b>i ẑ ẑ>bi = Tr ((bi b>i ) ẑ ẑ>) , i = 1, . . . , m. si As Ki = bi b>i , we can write, for each i, θ̂ + 1 −Ω̂0ii + Ω̂00ii ≥ Tr (Ki ẑ ẑ>) . si We will prove that the previous inequality is satisfied, for all i, as an equality, at the optimal solution. In fact, let us suppose that, for an index i, θ̂ + 1 −Ω̂0ii + Ω̂00ii > Tr (Ki ẑ ẑ>) . si With ẑ, Ω̂00ii and θ̂ constants, we can get a greater value for Ω̂0ii such that θ̂ + 1 −Ω̂0ii + Ω̂00ii = Tr (Ki ẑ ẑ>) (≥ 0). si ^ ) with objective value Therefore, if Li > 0 we obtain another feasible solution for (DSCP greater than the optimal one. This is an absurd. If Li = 0 we obtained another feasible ^ ) that satisfies the equality and the objective value is equal to the optimal solution for (DSCP ^ ) that satisfies the equality for every i. one. So, there is an optimal solution of (DSCP Considering Σ̂ = ẑ ẑ>, we get a feasible solution for (DSCP ) with the objective value equal ^ ). Applying Theorem 5.1 we conclude that (ẑ, θ̂, Ω̂0 , Ω̂00 , Σ̂) is to the optimal value of (DSCP an optimal solution for (DSCP ). 2 Defining the matrices Hi (z, θ, Ω0 , Ω00 ) = 1 b>i z 1 0 si (−Ωii b>i z θ + + Ω00ii ) ^ ) can be written as problem (DSCP max − 2f>z − vθ + 0 00 z,θ,Ω ,Ω m X Li Ω0ii − i=1 s.t. A := H1 m X , i = 1, . . . , m, Ui Ω00ii i=1 (z, θ, Ω0 , Ω00 ) .. . Hm (z, θ, Ω0 , Ω00 ) θ Ω0 Ω00 0. 146 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 This problem has 2m + n + 1 variables and the constraint matrix has m symmetric blocks of dimension 2, one block of dimension 1 and two diagonal blocks of dimension m. ^ ) is strictly feasible: if we consider, for example, z = 0, θ = 1, Ω0 = Problem (DSCP 00 I, Ω = I, we will get Hi = I2 and the constraint is strictly verified. By Theorem 4.1, this ^ ) is equal to the optimal value of its dual. implies that the optimal value of (DSCP ^ ) is not the dual of (SCP ), it is an equivalent problem to that dual. Let Problem (DSCP ^ ). We will show, in the next section, that this dual is an us think about the dual of (DSCP alternative formulation of (SCP ). 6 ^) The dual problem of (DSCP ^ ) can be obtained as before, by casting the problem in the standard The dual of problem (DSCP (P SDP ) format and then writing down the dual using (14). Nevertheless, in this case, it looks simpler to derive the dual using directly the Lagrangian duality theory. Considering the dual variable, B 0, defined as B := B1 .. . Bm ξ Λ Φ φ β i i , i = 1, . . . , m, , Bi := β γ i i where φi , βi , γi ∈ R, i = 1, . . . , m, ξ ∈ R, Λ and Φ are m × m diagonal matrices, the Lagrangian function is given by L(z, θ, Ω0 , Ω00 ; φ, β, γ, ξ, Λ, Φ) := −2f>z − vθ + m X Li Ω0ii − i=1 = m X φi + 2 j=1 i=1 + n X m X i=1 Ω0ii zj −fj + m X Ui Ω00ii + Tr(AB) i=1 m X βi (bi )j i=1 γi Li − + Λii si + m X ! + θ −v + Ω00ii i=1 m X γi + ξ i=1 γi −Ui + + Φii si ! ^ ) is given by: and the Lagrangian dual of the problem (DSCP min max L(z, θ, Ω0 , Ω00 ; φ, β, γ, ξ, Λ, Φ). φ,β,γ,ξ,Λ,Φ z,θ,Ω0 ,Ω00 We can easily see that the inner maximization problem is bounded from above only when the F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 147 following conditions hold: v= Li = m X γi + ξ, fj = i=1 γi si − Λii , Ui = m X βi (bi )j , j = 1, . . . , n, i=1 γi si + Φii , i = 1, . . . , m. Under these conditions, the maximum value is 0 00 max L(z, θ, Ω , Ω ; φ, β, γ, ξ, Λ, Φ) = z,θ,Ω0 ,Ω00 m X φi . i=1 The dual problem can now be written as min φ,β,γ,ξ,Λ,Φ m X φi i=1 s.t. f = m X βi bi i=1 m X γi + ξ = v i=1 γi − Λii , i = 1, . . . , m si γi Ui = + Φii , i = 1, . . . , m si φ βi 0, i = 1, . . . , m i β i γi Li = ξ ≥ 0, Λ 0, Φ 0. As we know, So, when γi > 0, we get φi β i β i γi 0 ⇔ φi ≥ 0, γi ≥ 0, φi γi ≥ βi2 . φi ≥ βi2 . γi If we suppose that, at an optimal solution, φi > βi2 , γi as βi2 /γi > 0, it is obvious that we can lower that value of φi to βi2 /γi obtaining yet a feasible solution, with a lower objective value. This is an absurd, so we must have φi = βi2 /γi at an optimal solution. When γi = 0, we get βi = 0. If, at an optimal solution we have φi > 0, again we can lower the value of φi to 0 obtaining yet a feasible solution with a lower objective value. This is an absurd and, so, at an optimal solution, we must have φi = 0. 148 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 Then, at an optimal solution, γi = 0 ⇒ βi = 0, φi = 0 βi2 . γi γi > 0 ⇒ φ i = Moreover, variable ξ can be viewed as slack variable and left out of the problem i.e., m X γi + ξ = v , ξ ≥ 0 ⇔ i=1 m X γi ≤ v. i=1 Defining the sets I0 = {i ∈ {1, . . . , m} : γi = 0} I> = {i ∈ {1, . . . , m} : γi > 0} , the problem can be written as min β,γ,Λ,Φ X β2 i γi i∈I> s.t. f = m X βi bi i=1 ^) (DDSCP m X γi ≤ v i=1 γi − Λii , i = 1, . . . , m si γi Ui = + Φii , i = 1, . . . , m si γi ≥ 0, i = 1, . . . , m Li = βi = 0, i ∈ I0 Λ 0, Φ 0. The following diagram summarizes the relations between all the problems obtained. (P ) ⇐⇒ (CP ) ⇐⇒ (SCP ) duality y ^ ) ⇐⇒ (DSCP ) (DSCP duality y ^) (DDSCP It is reasonable to expect that some equivalence relation holds between problems (CP ) and ^ ) and thus between the original problem (P ) and (D DSCP ^ ). Consider the following (DDSCP ^ ): change of variables in (D DSCP ( γi = a i s i ≥ 0 , for i = 1, . . . , m. βi = γi b>i u F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 149 The objective function becomes, m X β2 X βi γi b>u X i i βi b>i u = f>u, = = γi γi i∈I> i=1 i∈I> ^ ). For the constraints, we where the last equality comes from the first constraint in (D DSCP obtain, m X γi ≤ v ⇔ ai si ≤ v, i=1 i=1 f= m X m X i=1 γi βi bi ⇔ f = m X ai si bi b>i u ⇔ f = i=1 m X ai si Ki u, i=1 − Λii and Λii ≥ 0 ⇔ ai ≥ Li , i = 1, . . . , m, si γi Ui = + Φii and Φii ≥ 0 ⇔ ai ≤ Ui , i = 1, . . . , m. si Li = ^ ) coincides with (P ). Clearly, problem (DSCP 7 Computational Results and Conclusions In this section, we describe some computational experiments we made and we present and compare the obtained results. Used hardware We used for all the described experiments a PC with a 1GHz Celeron processor, with 112MB of RAM, using the Windows Me operating system. The main purpose is compare the performance of the presented ε-descent algorithm with the semidefinite approach. In addition, we also made ^ ) in the a brief comparison of the performance when we solve (SCP ) and when we use ( DSCP semidefinite approach. Used software • To solve (CP2 ), we coded in PASCAL a variant of the previous described ε-descent algorithm. In this variant, we consider, instead of a constant value of ε, a strategy of beginning with a ‘large’ value of ε ∈ [5 × 10− 6, 5 × 10−1 ], decreasing the current value after a defined number of successful iterations and increasing it after a certain amount of iterations without progress. ^ ), we used the Brian Borchers’s CSDP3.2 package, [6, 5]. • To solve (SCP ) and (DSCP This package implements a predictor-corrector variant of the primal-dual interior-point algorithm for semidefinite programming, from Helmberg, Rendl, Vanderbei and Wolkowicz. 150 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 Table 2: Results for the trusses of Figures 3 and 4. ε-descent method CSDP3.2 # it ε ε-opt. value Fig. # it opt. value Fig. Figure 3 8 5, 0 × 10−5 0, 0897 5(a) 24 0, 0897 5(b) Figure 4 588 4, 0 × 10−3 0, 2610 6(a) 26 0, 2616 6(b) 0000 0000 rr rr − − rr rr rrrr rr rr rrrr rr rr rrrr rr rr rrrr rr rrrr rrr rr rrrr rr r rrrr rr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr ◦0 /◦|00 ..− . . .. . . . .... 0000 rrrr − r (a) ε-descent method 0000 0000 0000 rr − − rr rrrr rr rrrr rr rrrr r rrrr rrrr rrrr rrrr rr rrrr rr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrr ◦0 /◦|00 ... ..− ... ... ... .. ... ... ..... 0000 rrrr − r 0000 (b) CSDP3.2 Figure 5: Optimal solution for the structure in Figure 3. Comparing the ε-descent algorithm with the semidefinite approach: used trusses, results and conclusions For all the considered trusses, we used E = 69 GPa = 6, 9 × 1010 N/m2 , the Young’s modulus of the aluminium. 1) The first two cases are of a type different from the others. In these cases, the geometry is considered defined and the goal is to compute the cross sectional area of each bar. We used the trusses already presented in Section 1.3 at Figures 3 and 4. In both, we consider Li = 0 and Ui = 3, i = 1, . . . , m. For the truss of Figure 3, we consider the total volume, v, equal to 30 and for the truss of Figure 4, v = 50. The results are summarised at Table 2. In Figure 5, we can see graphical presentations of the optimal solutions for the truss corresponding to Figure 3. In Figure 6, the same for the truss corresponding to Figure 4. The obtained optimal values for the truss of Figure 3 are similar. This is a consequence of the small value of the final ε. But, observing the thickness of the bars in Figure 5, it is obvious that the optimal solutions are not similar. This possibly indicates the existence of alternative optimal solutions. The final ε for the truss of Figure 4 is not so small and, as consequence, the optimal values are different. 2) Several computational experiments of a different type have been made. In these experiments, we have been concerned, not only with the design of the truss, but also with its topology. We considered three basic cases and some variants of each one: a) A truss with a 3 × 11 nodes mesh, with v = 60, Li = 0 and Ui = 7, i = 1, . . . , m. See Figures 7-10. b) A truss with a 9 × 4 nodes mesh, with v = 40, Li = 0 and Ui = 4, i = 1, . . . , m. See Figures 11-14. F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 00| 0 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqrrrrr rrrrr rrrrr rrrrr rrrrr rrrrr rrrrr rrrrr 6 rrrrr r 000|rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q ... ... ... ... ... 4 − ◦◦ 0000 00| 0 151 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqrqrrrr rrrrr rrrrr rrrrr rrrrr rrrrr rrrrr rrrrr 6 rrrrr r 000|rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qr ... ... ... ... ... 4 − ◦◦ 0000 (a) ε-descent method (b) CSDP3.2 Figure 6: Optimal solution for the structure in Figure 4. Table 3: Structure 3x11, 9x4 and 13x5 corresponds to Figures 7-15. Ground structure n m 62 62 62 62 54 54 68 68 92 344 92 344 107 409 107 409 # iter 460 480 339 755 1546 839 2304 547 ε-Optimal solution ε-opt. ε value 2.03 × 10−4 12.0974 Optimal solution Fig. # iter opt. value Fig. 7 (a) 31 12.0997 7 (b) 2.01 × 10 −2 10.5586 8 (a) 44 10.8118 8 (b) 1.51 × 10 −3 5.9114 9 (a) 33 5.9514 9 (b) 1.29 × 10 −4 5.0452 10 (a) 55 5.0464 10 (b) 5.00 × 10 −6 3.3974 11 (a) 40 3.3974 11 (b) 5.00 × 10 −6 3.3000 12 (a) 43 3.3005 12 (b) 5.00 × 10 −6 6.8582 13 (a) 41 6.8583 13 (b) 3.64 × 10 −3 6.6070 14 (a) 50 6.6116 14 (b) 138 242 – – – – 38 14.3770 15 (a) 138 1718 – – – – 44 10.5602 15 (b) c) A truss with a 15 × 5 nodes mesh, with v = 100, Li = 0 and Ui = 3, i = 1, . . . , m. See Figure 15. The variants were obtained considering different load patterns, different nodes support and two different ground topologies: • The rich topology, where each node is connected with all the others, excluding superposition. • The poor topology, where each node is only connected to its imediate neighbors. For the 3 × 11 nodes structure, we considered two different load patterns. For the 9 × 4 nodes structure, we considered two different load patterns and nodes support. In Table 3 we present some characteristics and results of the solved examples: • the number of degrees of freedom, n, and the number of bars, m, in the ground structure; • the number of iterations needed to solve problem (CP2 ) with the ε-descent method, the final ε, the ε-optimal value, Z1ε , and the reference to the figure that presents the corresponding final solution; 152 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 .q..................qqqqqqqq ... qqqq.q qq qqqq .. ..... q q . q . ........... qqqqqq ..qssqsqsqsqqqqq.qqq.q.qq.q.q.q.q.qq..qq qqqqqqqqqq ............ . . . .. ...........qqqqqqqq ... sssss.sqqqq.q.qq.q.qq.qq.q.qq.qq qqqqqqq.q.q....~ .000 .............= ...... 4 0. − 4 ◦◦ ◦◦ 0− 000 0− 000 ...................................................... ............................................................................ ............ ....... ... ......... .......... ..... . . . ..... .......... ..... .. ..... ..... ... ..... ..... ..... ... ...... ..... ..... .................. ..... ..... .. ... .......... ..... ..... .. ..... ..... ..... .......... ..... ......... .......... ..... ..... ..... ............. ..... ..... ..... ..... ..... .. ..... . ... . . . . . . . . ..... . . . . ........ ...... ...... ...... . .. ... . ......... . . . . . . . . . . . . . . . ..... .. .. ........... . .. . .... ......... . . . . . .. . . ..... .......... . . . . ....... . ........... . ....... ... . . . . . . . ... ....... . . . . . . . ..... ...... .... .... ... .......................................................... .......... ........................................................... . ...................................................... ? ? ? .q . .q qqqq..q .. ..qqqqq qqqq ... ... ... qqqqqqqq q q q qqqqq qqqqq .qqqqqqqq .sssss qqqqqq.qq qqqqq qqqq sssqqqq qqqq q qqqqq ~ = q q qqsq ............qq ............ ..... .......................................................... .............................................................. ..... ......... ......... ............ .. . . . . .......... .. ..... ... ........... ..... ... ..... ..... ... ..... .......... ..... .......... ..... .................. ..... ......... ... ..... .. ......... .. ..... ..... ..... .. .......... .. ...... ..... ..... ..... .................. ..... ......... ..... ... ..... ..... ... ..... .............. ............... .......... ..... ..... ........ . ..... .. ............. . . . . . . ..... . . . . . . . . . . . . . . . . . . . . . . .................................. ................................................ .............. ..................................... .... ..... ... ... ..... .... ..... ............ .. .............. .............. . . . ............ ... ....... ... ... ..... . ... .............. ............... . ..... ....... .... .. . . . . . . . . . . . . ...................................... ................................................................................................................................................................. ..................................... − 0000 ................. ..... .. .... ...... ? ? (a) ε-descent method ? 4 ◦◦ 0− 000 ? ? 4 ◦◦ 0− 000 (b) CSDP3.2 Figure 7: Solution for the 3 × 11 ground structure, considering the poor topology. .......................................... qqqqqqqqqq..q...q.....q...q..q..qqqqqqqqqqq ........................................... ......... ........ ................ ..........q...q..q.qqq ..................... ........ ..................................... qq..q..q...q..q...q.... ................ ........ .................. ......... . . . . . . . . . . . . . . . . . . . .............. .......................................................................................q..q..q....q..q..q...q..q..q.......................................... rrrr......ssssrrrrr ......................................................q..q...q..q..qqqqqq ............................................................................................. ....... ...... q ....... qq . . .....rr s r..r .. . . . . q . . . . . . . . . ............................ = q . . . . . . r r . . .......qqq ..... .. . .... q..... r..... s ..... r .......qq ..... ~ .... ......................... .......q..q... ............................. rqrqrqrqqqq.q...q...q...q..sss.q....q...qqqqqqrrqrqrq ..................................... .............q...q..q..q..q..... − 0000 ......... ? ... .. ... ... ...... . ......... ? ? 4 ◦◦ 0− 000 ? 4 ◦◦ 0− 000 .......................................... ........q..qqqqqqqqqq..q.....q....q.qqqqqqqqq..q..q...q... ........................................... ......... ........ .............................................q....q.....q...qqq qqq................ ..... ................ qqqq q.q......q....q.....q....q..................................... ........ .................. ......... ...... ... ............. . . . . qq ..... ....qq . ..q... .... qq .............. ... . . . . ........... ............................................................... qqqqqq .............................q.q..q................qq.............q.q...q......................... qqqqqq ............................................................... ............. ............ ............ .. qqq qq .q.qq. .. q ... .............. ............... qqqq . . q q . . . . q . . . . ...... .. . ... .............. = qqqq ...........~ . .....................q.q.q.qqq..q.q.................... ... ................qqqqqq . q..q.. ..................................................... ..................................... 0− 000 ......... ? ..... .... ........ 4 − ? 0◦◦ 000 ......... ? ? 4 ◦◦ 0− 000 (b) CSDP3.2 (a) ε-descent method Figure 8: Solution for the 3 × 11 ground structure, considering the rich topology. • the number of iterations needed to solve problem (SCP ) using CSDP 3.2, the corresponding optimal value and the reference to the figure that presents the optimal solution. Figures 7-10 are graphical presentations of the obtained optimal solutions for the 3 × 11 nodes structure, considering both topologies and both solution methods. The same for Figures 11-14 and for the 9 × 4 nodes structure. Here the variant is obtained changing, not only the load scenario, but also the nodes support. Finally, in Figure 15, we graphically present the optimal solution for the 15 × 5 nodes structure. In this case, the ε-descent method was not able to solve the corresponding problem: the computation time per iteration was too high. Analysing the results, we can conclude that there is a clear superiority of the semidefinite programming approach: less iterations, more precision and more solved problems. We have also measured with a wristwatch the time needed to solve the problems and we noticed that, even in the smaller problems, the semidefinite programming approach is clearly better. ........................... ........................................................................................... ................................................................. .... ....... ........................................ .................................... .................................... ..................................... . .... .... . . .t .... .t ...t .. . .t t t t t t t t t t t t t t t r s r t t t t t t t t t t t t t t s ... ... ... ............... .... ..................................................... ................................ . ..t r r s . s r r s . s . . . r r .. ........... .... .. rr ssss ..... ss rrr .... .. ........... ............ ........ .0−.000..................................................q.q.q..q.qqqqqqqrrrrrr ss4s◦◦s.........sssss rrrrrqrqqqq.q.q.q.q..q..q.........................................................4 ◦◦ = ? − 0000 ? (a) ε-descent method ~ − 0000 ..... qrq . ..... qqqqqqqqqrrrrrqqqqqqqqqq ...... ..r.rqqqqqqqqqqqqqqrrqqqqqqqqqqqq.qr.r.r rr qqq r qq rr ............................................................................................. ........................................................................................................................... ................................................................ ... ...... ...... ... ...... ...... ... ...... ...... ... ............. ... ..... ..... ... ..... ..... .. ..... ..... .. .... .. .... ... ........... ... ........... ... ........... ... .......... ..... .......... ..... ... ..... . .. . .. . .. . .... ............... .... ............... .... ............... .... ........ .... ........ .......... ..... .......... ..... .................. ..... .................. ..... .................. ..... ..... ..... ..... ....... ..... ....... ..... ........ ..... ... . ... . . ................................................................................................................................................... ....... ................................................................................................. .. .. . . . ..... . . . . . . . . . . ....... ........... ...... . . . . . ..... ... ........................ ......................... ... ............ ..... ... .............. ..... ................... ... ..... .. ....... .. ........ .. ... ................ .... ............. ... ......... ..... . .. ..... .. ..... ..... . . . . . . ... . ... . .. . . . . . . . .......... ............................................................................. ............................................................... − 0000 rrr qqqqqqqqqqrrrr = ? qqqq rr qqqq qqqqrrqqq 4 ◦◦ 0− 000 rrrr rrrqrqqqqqqqqq (b) CSDP3.2 Figure 9: Same as Figure 7, but with a different load pattern. ? ~ 4 ◦◦ 0− 000 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 .rr.r.rrssssssssssssssssssssssssssssssssssssssss.sss.srr.rr.r.rr... . . . . ....rrrr sssssssssss rrrrr.rr....... . . . s .r........ .........r 4 − ........................................................... .............................................................. ....... . .... ....... ... .... .. ..... .. ... .......... ... .......... ..... .... ..... ..... ..... ..... .. .. ..... ... ..... ... ..... ..... ..... .. .. ..... . . . . . . . . ..... . . . . . . . . . ..... . ... ... .. .. ..... ..... .............. ....... ... ... ..... ..... .. .. . . . . ......... ... . . . . .... ................ . . . . . ... ... ..... ..... . .... . . .... . . ......... . . . . . . . . ... . . . . . . . . . . . ... ..... . ... .. ........... ......... ... .. ..... ......... .... ... . ......... .. .. . . . ... .. ......... ..... ..... ............. ... ... .......... ...... .. . − 0000 = ? 0◦◦ 000 ? ~ 4 ◦◦ 0− 000 .r.rsrsssssssssssssssssssssssssssssssssss.sss.srr.rr.rr.. . . r . . .....rrrr sssssss ssss rrrrr.r.r...... . . . .rr....... ........rr 4−ss 153 ......................................................... ........................................................... ....... ....... . ..... . .... ..... .. ..... .. ... .......... ... .......... ..... .... ..... ..... ..... ..... ..... .. ... ..... ... ... ..... ..... ..... . .. . ..... . . . . . . . . . . . . .. . . . . ..... . ... ... ............ ..... .. .. ..... ......... ... ... ..... ..... ......... ..... .. .. . . .... ................ . . . . . . . . . . . . . . . . . . ..... ... ... .. . ......... ...... .... . . . . ..... . . ..... . ......... .... ... ... . . . . . . . ... .. ............ ..... ...... ......... .. ... ... .......... ..... .......... ............. .. . − 0000 = 0◦◦ 000 ? ? ~ 4 ◦◦ 0− 000 (b) CSDP3.2 (a) ε-descent method Figure 10: Same as Figure 8, but with a different load pattern. .000|... .... .... .... .... . 000|ssss ssss .......... ssss ...... ssss ....... 000| ssss ...... ssss ...... ssss ....... 000| ssss...... .. ...s . .... ssss...s . . . . . s . 000| . sss .... .... ssss . . . . .... sss ? 000| .... sss .... . s . s . ss .... .... ssss 000| s ss sss s s 000| 000| .00.|... 0 ....... ..... ..... ..... ..... ..... ..... 000| ..... ..... ..... ..... ..... ..... .00.|... ..... . ..... 0 ...... ..... ..... ..... ..... ..... ..... ..... ..... ..... . . . ..... . 000| ..... ....... ..... ..... ... . . ..... ... ..... . . . ..... . ..... ........ ..... ..... ..... ... ... .... .......... 000| ... ..... ......... . . . ..... .. ... . . . . . ..... .... .... . . . . . . ......... ... . . . . . . . ... .... . . . . . 000| . . . . ..... ..... .... ..... . . . . . . . ..... ..... .... ..... ..... .00.|... ..... 0 ..... . . . . . ..... .... ..... ..... ..... . . 000| . .... ..... ..... .... ..... .00.|... ssss ssss ssss ssss ssss ssss ssss ssss ssss sss sss s s sss ? sss s s sss sss s s ss sss sss 0 (a) ε-desc. meth. (b) CSDP3.2 Figure 11: Solution for the 9×4 ground structure, considering the poor topology. 0.....000 − ........... .. ... 0◦◦ − 5 sss000 ..... ..... ..... ... ...... ..... ..... ... . . . . .... ... ..... ......................................... ................................... ... ...... . ... . ... ... ....... ..... .......... ..... ......... ... ...... ... ...... .... ....... . ..... .. ..... .......... ......................................... .. ......... .. ............ ..... .... .................. ..... .......... ..... ..... ... .......... ... ...... ... ......... ..... .. ...... . .. . . ............. ............. .............. .... ... .... ........ ............. .... ..... .. ..... ..... .. ... ......... ..... ................. ..... .... ........ ........ .... .... ........ ...... .......................................... ..... ..... ... ..... ..... .. ...... .. ..... ..... .. ..... .............. . . . . .. ........... ..... ... ..... ..... ... ..... ..... .... .......... ..... .. ... . . . . ..................................... .... . ..... .......... ... ...... ..... ... .. ................................... ..... ..... ..... ..... ..... .... 0◦ | ◦ sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss ss q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q .0 N (a) ε-descent method 0.....000 − ........... .. ... 0◦◦ − 5 sss000 sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss sss ss q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q .0 ... ...... ..... ... .... .. .............................................. ... ...... ...... ... ...... ... ............ ... ....... ... ............ ... ...... ..... .. ..... ..... .. ..................................................................................... . . . . ..... ................... ..... ................... ..... ... .......... ... .......... ... ... ........ ....... ... ........ ....... ... ........................................................................................... ... ...... ...... ... ...... ...... ... ..... .................. ..... .................. ..... ... ...... ....... ... ...... ....... ... .. . . .. . .. .................................................................................. ..... .. ...... ...... .. ..... ..... ..... ................ ..... ..... .. ..... ..... .. ..... ....... ..... .. .................................... ..... ........ ..... ..... .... .......... ..... ... ..... ..... .. ..... ....... ..................................... ......... .. ...... ..... .......... .... .. ................................... ..... ..... ..... ..... ..... .... 0◦ | ◦ (b) CSDP3.2 N Figure 13: Same as Figure 11, but with different load pattern and nodes support. .000.|.. .... .... .... .. 000|ssss ..... ssss ...... ssss ...... ssss...... 000| ssss..... sss.s..... ss.s..s... 000| s.s..s.s.. s..s..s..s ..s.s .s..s 000| .s..s. s . s . . s . s . sss.... ? 000| ss..s...... s s sss .... sss........ 000| s s sss .... sss ..... 000| .... . ... ... .000|... .000.|.. .... .... .... .. 000|ssss ..... ssss ...... ssss ...... ssss...... 000| ssss..... sss.s..... ss.s..s... 000| s.s..s..s. s..s..s..s ..s.s .s..s 000| .s..s. s . s . . s . s . sss.... ? 000| ss..s...... s s sss .... sss........ 000| s s sss .... sss ..... 000| .... . ... ... ..000.|. (a) ε-desc. meth. (b) CSDP3.2 Figure 12: Solution for the 9×4 ground structure, considering the rich topology. 0s 000 − ss 0◦◦ 000 − 5 .. ... ss ... ... ss ... ss ... ss ... ss . . ss ... ss ... ... ss ... ss ... ss ... ss ... ss ... ss . ss ..... ss .... ss ... ss .... ss ... ss ... ss .... ss... s...s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......s . . . . . . . . . . . . . . . . . . . . . . . . . .0◦◦| − 5 rrr .−.. rrr ... rrr rrr ... rrr rrr ... rrr rrr ... ... rrrrrrrrr ... rrrrrr ... rrrrr ... rrrrrr ... rrrrr ... rrrrrr ...rrrrr r .|.....................................rr 0000 0◦◦ 000 00◦ ◦ N (a) ε-descent method (b) CSDP3.2 N Figure 14: Same as Figure 12, but with different pattern and nodes support, as in Figure 13. 154 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 ...|qqqqqqqq ... qqqqqqqqqq rr ... .q..... rr rr ..... ...q r? . . |. qqqqq ..... ..........rrqqqqq qqqqq ..... .......... qqqq qqqqq qqqqq ..........q.qq.q.qqq qqqqq q 000.......................................................................................................................................................... .. ... ... . ... ... .. ... 00◦ 0◦ ... ..... ..... ... ..... ..... ... ..... ... .......... ... .......... ... ...... ..... ... ............ ... ............ ... ..... ... ...... ...... ... ...... ...... ... ..... ... . ... . ... . .. ............................................................................................................................................... ........ . . . ............. . ..... ... ...... ......... ..... .......... ......... ..... .................. ..... .................. ... ....... ........ ... ....... ........ ..... .. ..... ..... ......... ........................................................................................ ... ...... .... ......... ..... ... ..... .... ..... ... ..... ..... ... qqqqq qq qqqqq qqqq q q q q q qqqqq qqqq 00|◦ . 0◦ qqqqqqqqq qqq qqqqqq q q ..r...q...q......................q..q....q. r r . r r ..... .. ... rrrr .................... ...... ....... r r r ..... . . r ...... 00|◦ ............................. . rrrrrrr 0◦ ... r r .... rrr r r ... r ... 0rr 00|rrrr ... rrrr ... rrrr ...? r rrrr . 00|◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . rrrr ....... 0◦ . . . . . . . . . ..... rrrr . ..... ... . . . . . . rrrr ............ .... .. rr....qr....q.......................q..q.. qqqq qqqq qqqqqq qqqq qqqqqqq q q q qqqq q 00|◦ q . 0◦ qqqq qqqqq q qqqq q q qqqq qqq q q q qq q q . . q ...... q .....q q . . q ... ... .......... qq ... ......... q qqq q q ... ......... q q ... ...... ... qq ... ...... . q qqqq ...........................................qq q q 00|◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0◦ .....r .. ........ . .. .... .......... .......... .... .......... .......... r rr ... .......... ... .......... ... ........... ... ........... r ... ...... ...... ... ...... ...... r ..... .. ..... ..... r ... ....... . . . . . . . . . . . . . . . . . . . . . ....q......................................................................................................................r q q . . . . . . . . . . . . . q . . . . . qqqq ...... ............ ............ ...... ............ ........... ...... ............ qqqqq .......... ..................................... .......... ..................................... .......... .................... ? q q q 00.|.q..q......................................................................................................................... 0 ..... ..... ... . . . . . .... ... ... ... ... ............. . . . ..... . . . .. ..... (a) Poor topology ..|........................ ....... ............. .................r ........ ... ..... . .. rr 000.................... .. ..... ... ......... ......... ... ......... ... ......... ... ......... ......... ... ......... ... ... ......... ... ... ......... ... ......... ... ... ......... ... ... ......... ... ......... ......... ..... ... ........... ... 00|◦ . ... .. 0◦ . . . ... . .... ... .... ... .... ... .... . ... . . ... .. .... ... ... .... ... .... .... ... ........ ... ............ .. ... ... 00|◦ ............................ 0◦ ......... ... . . . . ... . ........ .. ... ........ .... .... ....... ... ..... .......... . ............... . . . ........ .... . ........... ....... ......... . . . . . . .... ..... ....... . . . . . . . . . . ...... ..... ....... . . . . . . . . . . . ...... ...... ....... ......... 00|◦ ....... . ....... . . . . . . . . . ◦ 0 .... .......... . ....... . . . . . ...... ............ ...... . . . .. ........ . . ....... . . . ............... ....... . . ......... . .. . . . 0 00|....................... ...... . .. .... ........ . . . .... ........ . . . . ....... ....... .... ........ ......... ....... ........ ....... ....... ........ 00|◦ ......... ....... ........ 0◦ . . . . . . ....... ........ .... ....... ........ ....... ........ ....... ....... ....... ...... ........ ........ .. ........ . . . ........ .. ........ ........ ...... ......... ........ ... .... ........ .. .. ........ .. ........................... 00|◦ 0◦ . .. .. ... ............ ........ ... ........ .. . .... .... ... .... .... .. .... . .... .. . .... .. . .... .. . .... .. .... . .... .. . . 00|◦ . ...... . 0◦ ......... ..... . . . .. . . . . . . ... ..... . . . . .. . . . . . ...... . . ..... . . .. . . . . . . ......... ..... ... ......... . . . . .. .. . . . . . ...... . . . . .. . . . . . ...... . . . .. . . . . . . ..... . . . . .. . . . . . ..... ... .............. ... ........... .......... ... ..... r ... ..... rr ? r . . . ... ..... ... ..... rrr ... . r ... .r.r.r.rrr ... rrrr .. rr rrr.r... r . r r . rrr .... rrr ... r r r ... rrr r ... r r r ... rr r r ... . rrrr ... rr r r ... r rrrrr . rrrr .. rrrr . . ? rr .. . rrrrrrr . rrrr .. rrrr . . rrrr rrrr .. rrrr ... rrrr .. rrr.r. . . rr .... rrrrrrrrr ...rrr .. .... ....... rrrrr rrr .. ..... . rrr .... ....... rrr . . . . . . . ........... . ... ..rr ........ ........................ ? ..00|............. 0 (b) Rich topology Figure 15: Optimal solution for the 15 × 5 ground structure, using CSDP3.2. ^ ): used trusses and results Comparing (SCP ) with (DSCP In Table 4 we compare some characteristics and the performance of both problems, (SCP ) ^ ), for some of the examples presented: and (DSCP • the number of variables, nv, the number of blocks in the constraint matrix, nb, and their dimensions, “size of blocks”; • the number of iterations needed to solve each problem using CSDP3.2 and the reference to the figure that presents the optimal solution. We used some of the presented trusses in the preceding experiments. The matricial structure is very different as we can see at the columns “size of blocks”. In spite of this, the only significant difference is in the number of iterations: it is always clearly ^ ). When we compare the needed time to greater in problem (SCP ) than in problem (DSCP solve the problems, there are no evidence of superiority of any of the problems. F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 155 ^). Table 4: Comparison of (SCP ) and (DSCP ^) Problem (DSCP Problem (SCP ) Fig. nv nb size of blocks # it. nv nb size of blocks # it. 7(b) 93 4 {63, 1, 92, 92} 31 245 95 {2,. . . ,2,1,92,92} 21 8(b) 345 4 {63, 1, 344, 344} 44 751 347 {2,. . . ,2,1,344,344} 26 9(b) 93 4 {63, 1, 92, 92} 33 245 95 {2,. . . ,2,1,92,92} 23 10(b) 345 4 {63, 1, 344, 344} 55 751 347 {2,. . . ,2,1,344,344} 27 11(b) 108 4 {55, 1, 107, 107} 40 269 110 {2,. . . ,2,1,107,107} 25 12(b) 410 4 {55, 1, 409, 409} 43 873 412 {2,. . . ,2,1,409,409} 29 13(b) 108 4 {69, 1, 107, 107} 41 283 110 {2,. . . ,2,1,107,107} 26 14(b) 410 4 {69, 1, 409, 409} 50 887 502 {2,. . . ,2,1,409,409} 26 15(a) 243 4 {139, 1, 242, 242} 38 623 245 {2, . . . , 2, 1, 242, 242} 27 15(b) 1719 4 {139, 1, 1718, 1718} 44 3575 1721 {2,. . . ,2,1,1718,1718} 32 References [1] M. S. Bazaraa, H. D. Sherali, and C. M. Shetty, Nonlinear Programming: Theory and Algorithms, John Wiley & Sons, New York, 1993. [2] A. Ben-Tal and M. P. Bendsøe, A new method for optimal truss topology design, SIAM Journal Optimization, 3 (1993), pp. 322–358. [3] A. Ben-Tal and A. Nemirovski, Potential reduction polynomial time method for truss topology design, SIAM Journal Optimization, 4 (1994), pp. 596–612. [4] A. Ben-Tal and A. Nemirovski, Optimal design of engineering structures, Optima, 47 (1995), pp. 4–8. [5] B. Borchers, CSDP, 3.2 User’s Guide, Optimization Methods and Software, 11 (1999), pp. 597– 611. [6] B. Borchers, CSDP, A C library for Semidefinite Programming, Optimization Methods and Software, 11 (1999), pp. 613–623. [7] C. M. Branco, Mecânica dos Materiais, Fundação Calouste Gulbenkian, Lisboa, 1994. [8] M. A. C. Cerveira, Optimização do desenho de estruturas, master’s thesis, Universidade de Lisboa, Portugal, 1997. [9] E. W. Cheney and A. A. Goldstein, A Newton’s method for convex programming and Tchebycheff approximation, Numeric Mathematics, 1 (1959), pp. 253–268. [10] E. de Klerk, C. Roos, and T. Terlaky, Semi-definite problems in truss topology optimization, Tech. Report Nr. 95-128, Faculty of Technical Mathematics and Informatics, Delft University of Technology, November 1995. [11] C. Helmberg, Semidefinite programming for combinatorial optimization, tech. report, KonradZuse-Zentrum für Informationstecghnik Berlin, 2000. [12] J.-B. Hiriart-Urruty and C. Lemaréchal, Convex Analysis and Minimization Algoritms I: Fundamentals, vol. 305 of A Series of Comprehensive Studies in Mathematics, Springer-Verlag, Berlin, 1993. [13] J.-B. Hiriart-Urruty and C. Lemaréchal, Convex Analysis and Minimization Algoritms II: Advanced Theory and Bundle Methods, vol. 305 of A Series of Comprehensive Studies in Mathematics, Springer-Verlag, Berlin, 1993. 156 F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156 [14] R. A. Horn and C. R. Jonhson, Matrix Analysis, Cambridge University Press, Cambridge, 1985. [15] R. A. Horn and C. R. Jonhson, Topics in Matrix Analysis, Cambridge University Press, Cambridge, 1991. [16] J. E. Kelley, The cutting plane method for solving convex problems, Journal of the Society for the Industrial and Applied Mathematics, 8 (1960), pp. 703–712. [17] U. Kirsch, Optimum Structural Design: Concepts, Methods and Applications, McGraw-Hill, New York, 1981. [18] D. G. Luenberger, Linear and Nonlinear Programming, Addison-Wesley, Reading Massachusetts, 1984. [19] J. M. Mulvey, R. J. Vanderbei, and S. A. Zenios, Robust optimization of large-scale systems, Operations Research, 43 (1995), pp. 264–281. [20] M. Patriksson and J. Petersson, A subgradient method for contact structural optimization, LiTH-MAT-R-1995-25, (1995). [21] R. T. Rockafellar, Convex Analysis, Princeton University Press, Princeton, New Jersey, 1970. [22] N. Z. Shor, Convergence rate of the gradient descent method with dilation of the space, Cambridge, 6 (1970), pp. 102–108. [23] N. Z. Shor, Utilization of the operation of space dilation in the minimization of convex functions, Cambridge, 6 (1970), pp. 7–15. [24] N. Z. Shor, Cut-off method with space extension in convex programming problems, Cambridge, 13 (1977), pp. 94–96. [25] N. Z. Shor, Minimization Methods for Non-Differentiable Functions, Springer Series in Computational Mathematics, Springer-Verlag, Berlin, 1985. [26] G. N. Vanderplaats, Numerical Optimization Techniques for Engineering Design: With Applications, Series in Mechanical Engineering, McGraw-Hill, New York, 1984. REVISTA INVESTIGAÇÃO OPERACIONAL Polı́tica Editorial Investigação Operacional (IO) é a revista cientı́fica da APDIO - Associação Portuguesa de Investigação Operacional. A polı́tica editorial da IO é publicar artigos originais e de elevada qualidade que contribuam para a teoria, metodologia, técnicas e software de Investigação Operacional e a sua aplicação a diferentes campos. A Revista também publica artigos com revisões relevantes de temas de IO. Casos de sucesso na aplicação a problemas práticos são especialmente bem vindos. Processo de Aceitação Todos os manuscritos submetidos para publicação são revistos e aceites apenas com base na avaliação da sua qualidade, importância e adequação à polı́tica editorial. Será responsabilidade do Editor interpretar a avaliação dos revisores. A contribuição de cada artigo deve estar claramente evidenciada na Introdução. Critérios como a relação com literatura existente, comprimento e estilo do artigo são tidos em consideração. Uma indicação clara da viabilidade de aceitação do artigo é habitualmente dada na primeira fase de revisão do artigo. Será requerido aos autores de um artigo aceite que transfiram os direitos de autoria para a APDIO, que assegurará a mais ampla disseminação possı́vel de informação. Os volumes da Revista são publicados em papel, e distribuı́dos a todos os associados da APDIO, e em formato electrónico na rede SciELO - Scientific Electronic Library Online. Resumos dos Artigos indexados em IAOR - International Abstracts in Operations Research Instruções aos Autores 1. Submeter artigos para publicação ao editor principal, de preferência por e-mail em Microsoft Word ou “Portable Document Format” (PDF) para [email protected], ou por correio normal (quatro cópias) para o seguinte endereço: Prof. José Fernando Oliveira, Departamento de Engenharia Electrotécnica e de Computadores, Faculdade de Engenharia da Universidade do Porto, Rua Dr. Roberto Frias, 4200-465 PORTO, Portugal. 2. Lı́ngua. Os artigos devem ser escritos em Português, Inglês ou Espanhol. 3. Os Manuscritos devem ser impressos. Numerar as páginas consecutivamente. 4. A primeira página do manuscrito escrito em português ou em espanhol deve ter a seguinte informação: (a) Tı́tulo; (b) nome, e-mail e afiliação institucional dos autores; (c) um resumo; (d) palavras-chave; (e) tı́tulo em inglês (f) um resumo em inglês; (g) palavraschave em inglês; (h) identificação do autor correspondente. Se o manuscrito for escrito em inglês, a primeira página deve ter a seguinte informação: (a) Tı́tulo em inglês; (b) nome, e-mail e afiliação institucional dos autores; (c) um resumo em inglês; (d) palavras-chave em inglês; (e) identificação do autor correspondente. 5. Agradecimentos, incluindo informação sobre apoios, dever ser colocados imediatamente antes da secção de referências. 6. Notas de rodapé devem ser evitadas. 7. Formulas que são referenciadas devem ser numeradas consecutivamente ao longo do manuscrito como (1), (2), etc. do lado direito. 8. Figuras, incluindo grafos e diagramas, devem ser numerados consecutivamente em numeração árabe. 9. Tabelas devem ser numeradas consecutivamente em numeração árabe. 10. Referências. Citar apenas as mais relevantes e listar só as que são citadas no texto. Indicar as citações no texto através de parênteses rectos, e.g., [4]. No final do artigo listar as referências alfabeticamente por apelido do primeiro autor e numerá-las consecutivamente, de acordo com o seguinte formato: Artigos: autore(s), tı́tulo, nome e volume da revista (ou livro, mas neste caso incluir o nome dos editores), ano e páginas. Livros: Autor(es), tı́tulo, editor, ano. 11. Artigos aceites devem ser enviados pelo autor ao editor, de preferência na forma de um ficheiro fonte em LaTeX com ficheiros EPS para as figuras, juntamente com um ficheiro PDF ou Postscript. Em alternativa, ficheiros fonte em Word são também aceites. Para garantir uma boa qualidade gráfica, as figuras devem ser em formato vectorial; formatos raster como JPG, BMP, GIF, etc. devem ser evitados. 12. Provas dos artigos serão enviadas por e-mail como ficheiros PDF para o autor correspondente. Corrigir as provas cuidadosamente, e restringir as correcções apenas aos pontos em que as provas diferem do manuscrito. Desvios à versão aceite pelo editor são apenas possı́veis com a autorização prévia e explı́cita do editor. Trinta separatas de cada artigo são enviados gratuitamente ao autor correspondente. Informação sobre a Publicação Investigação Operacional (ISSN 0874-5161) está registada na Secretaria de Estado da Comunicação Social sob o número 108335. Os volumes da Revista são publicados em papel, e distribuı́dos a todos os associados da APDIO, e em formato electrónico na rede SciELO Scientific Electronic Library Online. O preço da assinatura anual é de 25 euros. Os volumes são enviados por correio normal. Informação adicional sobre assinaturas pode ser solicitada ao Secretariado da APDIO- CESUR, Instituto Superior Técnico, Av. Rovisco Pais, 1049-001 LISBOA, Portugal. Tel. +351 218 407 455 - www.apdio.pt - [email protected] JOURNAL INVESTIGAÇÃO OPERACIONAL Editorial Policy Investigação Operacional (IO) is the scientific journal of APDIO - Associação Portuguesa de Investigação Operacional (the Portuguese Operational Research Association). The editorial policy of IO is to publish high quality and original articles that contribute to theory, methodology, techniques and software of Operational Research (OR) and its application to different fields. It also publishes articles with relevant reviews of OR subjects. Cases of successful application of OR to practical problems are specially welcome. Acceptance Process All manuscripts submitted for publication are refereed and accepted only on the basis of its quality, importance and adequacy to the editorial policy. It will be the responsibility of the Editor to interpret the referee’s assessment. The contribution of each paper should be clearly stated in the introduction. Criteria such as relationship with existing literature, length and style are taken into account. A clear indication on the suitability of a manuscript is usually provided after the first round of refereeing. The authors of an accepted paper will be asked to transfer its copyright to the publisher, which will ensure the widest possible dissemination of information. The volumes of the journal are published in hardcopies, which are distributed to all APDIO associates, and in electronic format in SciELO - Scientific Electronic Library Online. Articles are abstracted/indexed in IAOR - International Abstracts in Operations Research Instructions to Authors 1. Submit papers for publication to the main editor, preferably by e-mail in Microsoft Word or ”Portable Document Format”(PDF) to [email protected], or by ordinary mail (four copies) to the following address: Prof. José Fernando Oliveira, Departamento de Engenharia Electrotécnica e de Computadores, Faculdade de Engenharia da Universidade do Porto, Rua Dr. Roberto Frias, 4200-465 PORTO, Portugal. 2. Language. Papers must be in written in Portuguese, English or Spanish. 3. Manuscripts should be typewritten or typeset. Number the pages consecutively. 4. The first page of the manuscript written in English should contain the following information: (a) Title; (b) names, e-mails and institutional affiliations of the authors; (c) an abstract; (d) keywords (f) identification of the corresponding author. 5. Acknowledgements, including support information, should be placed prior to the references section. 6. Footnotes should be avoided. 7. Formulas that are referred to should be numbered consecutively throughout the manuscript as (1), (2), etc. on the right. 8. Figures, including graphs and diagrams, should be numbered consecutively in Arabic numbers. 9. Tables should be numbered consecutively in Arabic numbers. 10. References. Cite only the most relevant references and list only those cited in the text. Indicate citations in the text by bracketed numbers, e.g., [4]. At the end of the paper list the references alphabetically by the surname of the first author and number them consecutively, according to the following formats: Articles: author(s), title, name and number of the journal (or book, but in this case include the editors names), year, pages. Books: Author(s), title, publisher, year. 11. Accepted papers are to be sent by the author to the editor, preferably in the form of a source file in LaTeX and EPS files for the figures together with a PDF or postscript file. Alternatively, source files in Word are also accepted. To ensure good publishing quality the figures should be in vector formats; raster formats like JPG, BMP, GIF, etc. should be avoided. 12. Page proofs will be e-mailed as a PDF file to the corresponding author. Correct proofs carefully, and restrict corrections to points at which the proof is at variance with the manuscript. Deviations from the version accepted by the editor are only possible with the prior and explicit approval of the editor. Thirty offprints of each paper are supplied free of charge to the corresponding author. Publication information Investigação Operacional (ISSN 0874-5161) is registered in the Secretaria de Estado da Comunicação Social under number 108335. The volumes of the journal are published in hardcopies, which are distributed free of charge to all APDIO associates, and in electronic format in SciELO - Scientific Electronic Library Online. Subscription price is 25 euros. Issues are sent by standard mail. Additional subscription information is available upon request from APDIO Secretariat - CESUR, Instituto Superior Técnico, Av. Rovisco Pais, 1049-001 LISBOA, Portugal. Tel. +351 218 407 455 - www.apdio.pt - [email protected] Revista Investigação Operacional Volume 25 - Número 1 (Junho 2005) ÍNDICE R.V. Vidal Creativity for Operational Researchers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 A.C. Pinto, A.P. Costa Simulação do funcionamento de um cruzamento regulado por sinais luminosos . . . . . . . . . . . . 25 L.P. Ferreira, G.A. Pereira, R.J. Machado Geração Automática de Modelos de Simulação de uma Linha de Montagem de Auto-Rádios37 A. Ramires, J. Soares Um melhor limite inferior para o problema do caixeiro viajante assimétrico baseado no problema da afectação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 J.S. Mello, E.G. Gomes, L.A. Meza, L.B. Neto, A.P. Sant Anna Fronteiras DEA Difusas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 O.J. Santos, A.Z. Milioni Composição de especialistas locais para classificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . .105 F. Bastos, A. Cerveira, J. Gromicho Using Optimization to Solve Truss Topology Design Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . .123