INVESTIGAC¸˜AO OPERACIONAL

Transcrição

INVESTIGAC¸˜AO OPERACIONAL
INVESTIGAÇÃO OPERACIONAL
Volume 25 — no 1 — Junho 2005
Publicação Semestral
Editor Principal:
José F. Oliveira
Universidade do Porto
Comissão Editorial
M. Teresa Almeida
J. Rodrigues Dias
Inst. Sup. Economia e Gestão Univ. de Évora
N. Maculan
Univ. Fed., Rio Janeiro
C. Henggeler Antunes
Univ. de Coimbra
Laureano Escudero
IBM, Espanha
Rui Oliveira
Inst. Superior Técnico
Marcos Arenales
Univ. de São Paulo
Edite Fernandes
Univ. do Minho
J. Pinto Paixão
Univ. de Lisboa
Jaime Barceló
Univ. de Barcelona
J. Soeiro Ferreira
Univ. do Porto
M. Vaz Pato
Inst. Sup. Economia e Gestão
Eberhard E. Bischoff
University of Wales, Swansea
J. Fernando Gonçalves
Univ. do Porto
Mauricio G. Resende
AT&T Labs Research
C. Bana e Costa
Inst. Superior Técnico
Luı́s Gouveia
Univ. de Lisboa
A. Guimarães Rodrigues
Univ. do Minho
M. Eugénia Captivo
Univ. de Lisboa
Rui C. Guimarães
Univ. do Porto
António J. L. Rodrigues
Univ. de Lisboa
Domingos M. Cardoso
Univ. de Aveiro
Joaquim J. Júdice
Univ. de Coimbra
J. Pinho de Sousa
Univ. do Porto
João Clı́maco
Univ. de Coimbra
J. Assis Lopes
Inst. Superior Técnico
Reinaldo Sousa
Univ. Católica, Rio Janeiro
J. Dias Coelho
Univ. Nova de Lisboa
Carlos J. Luz
Inst. Polit. Setúbal
L. Valadares Tavares
Inst. Superior Técnico
João P. Costa
Univ. de Coimbra
Virgı́lio P. Machado
Univ. Nova de Lisboa
B. Calafate Vasconcelos
Univ. do Porto
Ruy Costa
Univ. Nova de Lisboa
Manuel Matos
Univ. do Porto
Luı́s N. Vicente
Univ. de Coimbra
Victor V. Vidal
Technical Univ. of Denmark
Nota da Comissão Directiva da APDIO
Do património da APDIO, a Revista Investigação Operacional é seguramente um dos componentes mais importantes. Com os anos, foi-se tornando um instrumento fundamental de
partilha do conhecimento gerado pela comunidade cientı́fica portuguesa no domı́nio da IO, ao
mesmo tempo que é reconhecida como revista de prestı́gio e de qualidade. Por outro lado,
tem constituı́do para muitos jovens investigadores, uma primeira oportunidade de publicarem
e divulgarem o seu trabalho, criando-lhes assim uma motivação adicional significativa. Esta
crescente valorização deve-se em muito a um esforço continuado de regularidade na publicação
(aspecto fundamental para o sucesso de uma iniciativa desta natureza), mas seguramente
também ao rigor do processo editorial e da avaliação das contribuições submetidas para publicação.
É por todos reconhecido que este sucesso tem um responsável que é o Joaquim João Júdice,
Editor Principal da revista durante mais de 15 anos. O Joaquim João não só teve um papel
fundamental nas transformações que a revista foi sofrendo ao longo dos anos, como foi sempre o
seu principal impulsionador. Excepcionais foram o entusiasmo e a alegria com que, apesar das
dificuldades que todos conhecemos, o Joaquim João realizou, ao longo dos anos, a sua função
de Editor Principal. E tem de reconhecer-se que esse entusiasmo foi sempre um incentivo para
promover a colaboração de todos, autores e revisores.
Neste momento, com uma nova Direcção na APDIO, o Joaquim João cessa as suas funções
(satisfazendo-se o seu desejo de interromper uma actividade que é, naturalmente, exigente e
desgastante). Assim, e enquanto Presidente da Associação, aproveito a oportunidade para
manifestar publicamente o meu enorme apreço pelo trabalho realizado e agradecer profundamente ao Joaquim João o extraordinário contributo que, por um perı́odo tão longo, deu à
APDIO e a à causa da IO no nosso paı́s. O passado recente da revista cria-nos naturalmente
enormes responsabilidades, mas estou certo de que o novo Editor Principal, o nosso colega
José Fernando Oliveira saberá prosseguir e aprofundar o trabalho consolidado ao longo destes
últimos anos pelo Joaquim João.
Jorge Pinho de Sousa
(Presidente da APDIO)
R. Vidal / Investigação Operacional, 25 (2005) 1-24
1
Creativity for Operational Researchers
René Victor Valqui Vidal
∗
∗
Informatics and Mathematical Modelling
Technical University of Denmark
2800 Lyngby, Denmark
Abstract
This paper presents some modern and interdisciplinary concepts about creativity and
creative processes specially related to problem solving. Central publications of CreativityOR are briefly reviewed. Creative tools and approaches suitable to support OR work
are also presented. Finally, the paper outlines the author’s experiences using creative
tools and approaches to: Facilitation of problem solving processes, strategy development
in organisations, and design of optimisation systems for large scale and complex logistic
systems.
Keywords: Creativity, Problem Solving, CPS, Facilitation, Strategy Development, Optimisation.
1
Introduction
The need of using creative thinking in problem solving has been actualised during the last
decades due to the radical changes experienced in industrialised countries. New information,
communication and biological technologies are reshaping the material, human and social basis
of Society. Therefore, decision-makers have been emphasising the crucial need for creativity
and innovation to be able to utilise the new opportunities and to solve the many serious
problems that Society is facing today.
The above-described situation implies that OR workers are facing new demands: problem
solving in collaboration with a group of stakeholders. The main qualification in this respect is
the ability to facilitate change processes, involving participants actively and being able to
regard the problematic situation in relation to a dynamic context of different environments.
The essence is the ability to alternate between modes of rationality, reflection and creativity
in cooperation with the stakeholders, rather than being locked into one of these modes.
c 2005 Associação Portuguesa de Investigação Operacional
2
R. Vidal / Investigação Operacional, 25 (2005) 1-24
Creative thinking is an area that has largely been disregarded in the OR curricula and
almost totally ignored in the quantitative modelling disciplines. Nevertheless, the successful
application of OR in the real world usually depends on a high degree of creativity and ability
to innovate. This situation is even more paradoxically if we take into consideration that the
great masters of our discipline: Russ Ackoff, George Dantzig, Arne Jensen, Stanford Beer to
mention some few, have shown both creative and rational thinking in their work.
The main purpose of this paper is to present some concepts, tools, and approaches from
the broad interdisciplinary field known as Creativity and Problem Solving that will enrich the
toolbox of the OR workers and that will complement the traditional rational approaches.
In Section 2 several conceptualisations of the term “creativity” are discussed, a definition
is presented and a set of common barriers to individual creativity is outlined. The main OR
publications related to the theme of this paper will be briefly reviewed in Section 3, there are
so few publications that an extensive review is easily done. In this section it is concluded that
there is a need to enhance creative thinking in OR.
Interdisciplinary research work related to several aspects of creativity and creative processes
has exploded during the last decades. An overview of this research work is presented in Section
4. From this overview, we have decided to focus on creativity tools and approaches specially
related to problem solving because of their immediate relevance to OR. In Section 5 some
of the most popular tools are shortly presented. The Creative Problem Solving approach, a
6-steps process to deal with large scale and complex problems in a creative way, is presented
in Section 6.
It is usually while facilitating groups in problem solving tasks that OR workers need to
use creative tools and methods. In the next three sections the author’s experiences using
creative thinking will be discussed. Hence, Section 7 presents the concepts behind the socalled Vision Conferences: a participative workshop designed to facilitate creative problem
solving. Strategic development in organisations is the theme of Section 8, while Section 9
is dealing with the design of computerised optimisation systems for large scale and complex
problems. Finally, Section 10 presents the last remarks.
2
What is Creativity?
E. Paul Torrance (Millar, 1997) has been a pioneer in creativity research and education for
more than 50 years. Torrance sees creativity as a process and has developed a battery of tests
of creative thinking abilities. He believes that all individuals are creative and that creativity
can be enhanced or blocked in many ways. He considers creativity developmentally, opposite
to those who believe that a persons creativity was established at an early age (two or three
years old), however his research has shown that creativity does not develop linearly and that it
is possible to use activities, teaching methods, motivation and procedures to produce growth,
even in ageing. Torrance asserts that creativity is an infinite phenomenon; you can be creative
in an endless manner.
You find creativity in many apparently different areas: humour (haha), science (aha) and
art (ah). Koestler (1976) presents the theory that all creative activities - the conscious and
unconscious processes underlying artistic originality, scientific discovery, and comic inspiration
R. Vidal / Investigação Operacional, 25 (2005) 1-24
3
have a basic pattern in common. He calls it ”bisociative thinking” - a concept he coined to
distinguish the various routines of associative thinking from the creative jump which connects
previously unconnected frames of references and makes us experience reality on several planes
at once. Koestler introduced the concept of a ”matrix” to refer to any skill or ability, to
any pattern of activity governed by a set of rules - its ”code”. All ordered behaviour, from
embryonic development to verbal thinking is controlled by the rules of the game, which lend
it coherence and stability, but leave it sufficient degrees of freedom for flexible ”strategies”
adapted to environmental conditions. The term code is deliberately ambiguous, and reflects
a characteristic property of the nervous system: to control all bodily activities by means of
coded signals. The concept of matrices with fixed codes and adaptable strategies, is proposed
as a unifying formula, and it appears to be equally applicable to perceptual, cognitive, and
motor skills and to the psychological structures variously denominated frames of reference,
associative contexts, universal discourse, mental sets, schemata, etc. These silent codes can be
considered as condensation of learning into habit or associative thought. Bisociative thought
is the challenge of habit by creativity.
The creative person
We can characterise at least three types of creative persons. First, the problem solver where
the person (subject) is trying to solve a problem (object) in a creative way, this is the case
of OR workers, engineers, scientists, advisers, etc. Secondly, the artistic person (subject) who
creates a new piece of art (object) usually it will be a close interaction between the subject and
object, the “soul of the artist” will be in the object, this object can be a product (painting,
music, film) or a process (dance, theatre, performance). And thirdly, the persons that adopt
creativity as a life-style being creative at work, at home and everywhere, both in an extrovert
and introvert way (inventors, artists, mode designers, etc).
Amabile (1983) has documented that creativity in each individual has three components:
expertise, creative-thinking skills and motivation. Expertise is in a few words knowledge
in its many forms: technical, procedural and intellectual. Knowledge can be acquired both
theoretically and practically. Learning to learn is an important tool for becoming an expert
in modern Society. Creative-thinking skills determine how flexibly and imaginatively people
approach problems and tasks. It demands courage to be creative because you will be changing
the status quo. Individuals can learn to be more creative and can learn to use creative tools
in problem solving. Motivation is the last component. An inner passion and desire to solve
the problem at hand will lead to solutions far more creative than external rewards, such
as money. This component, usually called intrinsic motivation, is the one that can most
immediately be influenced by the work environment. Amabile’s research has identified six
general categories that support creativity: Challenge, freedom, resources, work-group features,
supervisory encouragement, and organisational support.
Teresa Amabile (1998) after many years of research focusing on creativity within organisations has also concluded that individual creativity gets killed much more often that it gets
supported. Mostly, it is not because management has a vendetta against creativity, it is
undermined unintentionally because of the optimisation of short business imperatives: coordination, productivity, efficiency and control. Her research has shown that it is possible to
develop organisations where both profit and creativity flourish, but you need a conscious strategy. Torrance’s research has also shown that children’s creativity gets killed in the primary
4
R. Vidal / Investigação Operacional, 25 (2005) 1-24
schools and it is possible to design schools and education systems where both rational and
creative work flourish (Goff, 1998). Amabile (1998) has also drawn attention to the crucial
importance of intrinsic motivation in creative endeavour. Business has traditionally rewarded
people extrinsically with pay and promotion but creative actions often arise out of a longstanding commitment to and interest in a particular area. She appreciates this is only one
part of the equation, and that expertise in the domain concerned, and sufficient mental flexibility to question assumptions and play ideas, are also important. In addition, she points out the
critical importance of challenge, for instance, matching people to tasks they are interested in
and have expertise in, permitting people freedom as to how they achieve innovation, setting a
sufficiently diverse team the task of innovation, along with sufficient resources, encouragement
and support.
It is difficult to give a simple and general definition of creativity. It is easier if we focus to
study creativity in relation to problem solving tasks. Herrmann (1996) gives a short definition
that encapsulates many other definitions presented in the literature:
“What is creativity? Among other things, it is the ability to challenge assumptions, recognize patterns, see in new ways, make connections, take risks, and seize upon chance.”
Let us elaborate a little more on this definition: Challenge assumptions means questioning
the basis of the problem formulation; recognise patterns because usually chaos and complexity
are caused by simple patterns which, when recognised, lead us to the solution to the problem; see in new ways means looking for patterns from different perspectives: a rational or
logical, an organisational or procedural, an interpersonal or emotional, and an experimental
or holistic; make connections, or “bisociate”, because many creative ideas are the result of
synergy occurring between two thoughts or perceptions; take risks because there always exists
the probability that your ideas will lead to failure due to many factors out of your control; and
seize upon a chance means to take a calculated risk in order to take advantage of an opening
that allows to move forward toward a creative solution.
In addition, a response is creative if it is heuristic rather than algorithmic. A heuristic is
an incomplete guideline or rule of thumb that can lead to learning or discovery. An algorithm
is a complete mechanical rule for solving a problem or dealing with a situation. Thus, if a task
is algorithmic it imposes its own tried-and-true solution. If a task is heuristic it offers no such
clear path, you must create one.
Barriers to Creativity
To be creative you have to be open to all alternatives. This open mindedness is not always
possible to meet because all humans build up blocks or mental locks in the maturation and
socialisation process. Some of those locks can have external causes, such as family environment,
the educational system, and organisational bureaucracy. Other blocks are internally generated
by our reactions to external factors or by physical factors. A key to improve your creativity
is to become aware of your locks and do something about them. While everyone has blocks
to creativity, blocks vary in quantity and intensity from person to person. Most of us are
not aware of our conceptual blocks. Awareness not only permits us to know our strengths
and weakness better but also gives the needed motivation and knowledge to break down
these blocks. Adams (1986) identifies the mental locks as perceptual, emotional, cultural,
R. Vidal / Investigação Operacional, 25 (2005) 1-24
5
environmental, and intellectual.
Perceptual locks are obstacles that restraint us from clearly perceiving either the problem
itself or the information needed to register the problem. It is well known that our eyes can
deceive us in observing some figures. Our perceptions are not always accurate.
Emotional locks restrict our freedom to investigate and manipulate ideas. They prevent
the communication of our ideas to others. These locks are also called psychological barriers
and are the most significant and prevalent blocks that impede innovation. Fear of something
new is a common characteristic of many individuals in the developed world.
Cultural locks are adapted by exposure to a given set of cultural patterns. The culture of
the industrialised countries trains mental playfulness, fantasy and reflectiveness out of people
by placing stress on the value of efficiency, effectivity and moneymaking. Taboos and myths
are predominant blocks to creative behaviour. Therefore, it needs courage to be creative in a
culture that does not support creative changes.
Our near social and physical environment imposes environmental locks. Creative persons
have usually had a childhood where they were free to develop their own potentialities. We
have seen that Amabile (1998) has documented that organisational climate can be a barrier
or a stimulus to creative activities.
Intellectual locks are caused by conservatism and lack of willingness to use new approaches.
The same approaches, the same tools and the same persons are tackling the same problems
for years. Persons with intellectual locks are usually very negative to changes and are fast to
criticise new proposals.
The Systems View of Creativity
Creativity is usually seen as a mental process but creativity is also a cultural and social activity.
Csikszentmihalyi (2001) asserts that any definition of creativity will have to recognise the fact
that the audience is as important to its constitution as the individual who is producing novelty.
This environment has two main aspects:
• The domain, a cultural or symbolic aspect, and
• The field, a social aspect.
For creativity to occur, a set of rules and practices must be transmitted from the domain
to the individual. The individual (or a group) must then produce a novelty in the content of
the domain. The field for inclusion in the domain then must select the novelty.
Creativity occurs when a person (or a group) makes a change in a domain, a change that
will be transmitted through time. But most novel ideas will be forgotten if some group does
not accept them entitled to make decisions as to what should or should not be included in the
domain. These gatekeepers are the field. The field is the social organization of the domain,
those who decide what belongs to a domain and what does not. Therefore the occurrence
of creativity is not just a function of how many gifted individuals there are, but also of
how accessible the various symbolic systems are and how responsive the social system is to
6
R. Vidal / Investigação Operacional, 25 (2005) 1-24
novel ideas. Csikszentmihalyi has outlined a systems theory of creativity, relating creative
effort by individuals to the state of the domain they are working in and the characteristics
of those who assess the worth of the creative endeavour in the field concerned. This offers
a penetrating analysis of how creative endeavour emerges within a social field. Drawing on
years of research in the field, he hypothesises about the interplay between knowledge about
the domain, gatekeepers in the field and creative individuals. In addition, many of the points
made by him in relation to other domains apply equally well to creativity and innovation
in organisational settings. Csikszentmihalyi has drawn attention to the social context out
of which creativity and innovation emerge. For example he has demonstrated the beneficial
role of working at a place and time in which other individuals are engaged in related creative
activities.
3
Creativity in the OR literature
It is commonly accepted that real life problem solving supported by OR is both a science
and an art (Ackoff, 1978). There are many publications and research work about the science
(the rationality) of problem solving: decision analysis, modelling, optimisation, simulation,
algorithms, heuristics, statistical analysis, validation, and so on. On the other hand, relatively
little has been written about the art (the creativity) of problem solving, this topic has been
largely ignored in spite of the fact that creativity is a powerful element of the OR problem
solving process. There are so few references that an extensive review is easily done.
One of the first papers about creative thinking in modelling is by Morris (1967). He argues
that model building is very much an art, and as such, requires a significant amount of creativity.
He has provided one of the few discussions of this aspect of modelling and emphasises the
modelling process as being intuitive, and as such it can be supported by creative techniques.
Morris suggests specific steps to help individuals acquire modelling skills.
The following book appeared in 1978: The Art of Problem Solving (Ackoff, 1978). This
is probable the first book about creative problem solving in OR. Ackoff has shown decisionmakers the way to more creative, artful problem solving. This book is a practical guide that
shows you step-by-step how to develop an understanding of the art of creative thinking and the
design of creative solutions to planning problems. Later, Ackoff and Vergara (1981) published
a remarkable paper, an invited review of the research on creativity of relevance to problem
solving and planning. This paper presents several approaches for enhancing creativity. In this
context, creativity is restricted to “the ability of a subject in a choice situation to modify selfimposed constraints so as to enable him to select courses of action or produce outcomes that
he would not otherwise select or produce, and are more efficient for or valuable to him than
any he would otherwise have chosen.” Ackoff (1993) recommends the use of idealised design
or redesign of a system and its environment in creating corporate visions for an organisation.
Such a design is one that the stakeholders in the system would have now if they could have
any system they wanted.
Evans (1989, 1991a) has done important work in connecting Creativity and OR. The
first publication is a double paper given the foundations for the second one, the only book
on Creativity and OR. The purposes of these publications were: To review the diversity
of literature about creativity, to examine the use of creative problem solving techniques to
R. Vidal / Investigação Operacional, 25 (2005) 1-24
7
enhance OR methodology, and to offer insights and suggestions for integrating creativity into
the practice and education of OR. In the period of 1991-1993 a series of papers related to Evans’
research were published in Interfaces, see for instance Evans (1991b, 1992, 1993a, 1993b). The
work of Evans has been restricted to mathematical modelling and has not had major impact
in the field.
Saaty (1998) advocates the need for a systemic integration of the diverse approaches used in
quantitative OR within a single framework for all areas, including dependencies and feedback
among influences to maintain the full integrity of the problems we solve using creativity and
intelligence to move the process of creating a theory beyond the traditional process of problem
solving.
Now-a-days it is not sufficient to talk about OR in general, we have to specify whether we
are dealing with hard, soft or critical OR, see Mingers (1992) for a meta-theoretical discussion
of these different modes of practicing OR. Usually, hard or technical OR is focusing on mathematical modelling and model solving, soft or practical OR is concerned with participation and
negotiation using soft methods and critical OR is preoccupied by the problems of alienation
and empowerment while using hard and/or soft OR. Obviously, the creativity tools to be discussed in the next sections are of central relevance to the different modes of OR, it is in this
sense that we can talk about technical creativity, social creativity and critical creativity.
Keys (2000) argues that the place of creativity, design and style in OR has never been
doubted but there has not been a unified approach to understanding the varied and significant
roles they play. In this paper a means of examining creativity, design and style is presented
that seeks to show the key role that they play in explaining how practice in OR goes beyond
the application of technique and involves analyses in a rich mix of processes and activities.
Thus, hard OR leads to an emphasis upon the creativity involved in understanding situations
and designing tools, usually quantitatively or IT based, to support decision makers, such a
focus is called “technical creativity”. On the other hand, soft OR leads to an emphasis upon
the creativity involved in managing the relationships between consultants and clients and the
design of such processes (the facilitation of problem solving processes), such a focus is called
“social creativity”. A further discussion of this hard/soft paradigm related to creativity and
OR problem solving can be found in Tsoukas and Papulias (1996).
It can be concluded that in the different OR schools, there is a tremendous need to:
• Introduce modern interdisciplinary concepts about creativity,
• To adopt creative tools and approaches that can be included in the OR toolbox to
complement the traditional hard and soft rational approaches, and
• To show how creativity methods can be used in the practice of OR workers.
4
Creativity Research
The description of the incubation or discovering process by the French mathematician Henri
Poincaré (1854-1912) was the beginning of creativity research. Based on these experiences the
psychologist Wallas (1926) formulated a four step creative problem solving process: preparation, incubation, illumination, and verification. Incubation and illumination characterise the
8
R. Vidal / Investigação Operacional, 25 (2005) 1-24
individual’s creative process. Incubation involves the flashes of insight while in the process of
puzzling over a problem or dilemma, mulling it over, fitting the pieces together, trying to figure
it out, this the part of the creative process that calls for little or no conscious effort. The flashes
of insight come while you are going to sleep, travelling, dreaming, taking a shower, reading
a newspaper, relaxing or playing (Eureka experience). Research on creativity was intensified
after the Second World War. In the 1950s American psychologists started to investigate the
mental origins of creativity and develop creativity tests, the works of Torrance and Guilford
started at this time. In Europe, Koestler’s research work was carried out during the 1950s and
his monumental book, ”The Art of Creation”, was first published in 1966. Stenberg (1999)
has edited a book presenting an overview of 50 years of research in the creativity field. Nowa-days creativity research work can be classified in the following five domains: the product,
the environment, the personality, the process, and learning and cognition.
The product
Focusing on the tangible that is new, useful, original, surprising, etc., this includes works of art,
scientific discoveries, inventions, consumer goods, problem solving, adaptations, modifications,
etc. Product innovation is usually the main theme in the broad field denominated as Design.
Buchanan (Buchanan and Margolin, 1995) writes: “Design is a humanistic discipline – the
art of conceiving, planning and realizing all of the products that are made by human beings
to serve human beings in accomplishing their individual and collective purposes.” Bionics is
the name given to borrowing ideas for novel products or processes from nature. The list of
improvements inspired by an observation of nature is very long. The inventor of the ballpoint
pen was allegedly walking through a park on a frosty morning and watched some youngsters
rolling a ball down a slope covered with dew. The brilliant idea was to make the connection
between what he saw and the apparently un-connected problem he had on trying to improve
the liquid-ink-based fountain pen.
The environment
Focusing on the organisational culture or climate that encourages or kills creativity. There
will be things that happen either formally or informally and either of these may in turn help
or hinder; there may also be things that the organisation does not do that affect the quality of
problem solving. Environmental factors conducive to creative thinking include: The freedom
to do things differently, an environment that encourages risk taking and self-initiated projects,
and provides help and time for developing ideas and individual efforts; an optimal amount of
work pressure, a no punitive environment, a low level of supervision, resources and realistic
work goals; shared responsibilities, timely feedback, confidence in and respect for co-workers,
and shared decision-making (participation); interaction with others outside the work group;
and open expression of ideas, particularly of-the-wall ideas. All these factors will increase
individual motivation and the happiness of enjoying your work, essential elements for creative
and innovative work. Many organisations do not foster these conditions. Cultural change,
education, and training are necessary within a global strategy to develop an action plan to
make an organisation more creative. Managers at all levels, especially engineers and scientists,
educators, and graduate students have much to gain from understanding how to foster a
creative climate. Barriers to creativity include habits and routines, judgmental thinking,
R. Vidal / Investigação Operacional, 25 (2005) 1-24
9
oppression and hierarchy, and various perceptual, emotional and cultural blocks seen in the
last section, see further Amabile (1983, 1998)
The personality
Focusing on the characteristics of the individual who creates. Factors such as temperament,
personal attitudes, and habits influence creativity. Creative thinking is largely a function of
divergent thinking - the discovery and identification of many alternatives. Psychologists have
performed considerable research on the characteristics of creative individuals that promote
divergent thinking. These included: knowledge, imagination, evaluative skills, awareness and
problem sensitivity, capability to redefine problems, memory, ideational fluency, flexibility,
originality, penetration, self-discipline and persistence, adaptability, intellectual playfulness,
humour, nonconformity, tolerance for ambiguity, risk taking, self-confidence, and scepticism.
Recent research has shown that creativity is more than just divergent thinking. The two
complementary patterns of convergent and divergent thinking must run alongside one another.
Gardner (1983) has identified seven kinds of intelligences or pathways to learning: linguistic
(writers and speakers), logical-mathematical (scientists), musical (composers), spatial (visual
artists), bodily kinaesthetic (dancers, athlete), interpersonal (educators), and intrapersonal
(therapists). It could be possible to think of creativity in the same way. However, creativity
scholars and practitioners have not made any move in this direction, but they have recognised
that there are many ways of being creative. The intelligence testing (IQ) movement originated
in attempts to predict academic competence. Using familiar situations with prior knowledge
and reasoning (intelligence) may be sufficient to solve some problems or dilemmas. However,
there are instances in everyday life in which new and different problems and dilemmas emerge,
which require some cognitive bridging or creativity. Results have been published showing that
there is not a meaningful correlation between intelligence (essentially IQ) and creative problem
solving (Goff, 1998)
Maslow (1987) distinguishes between ”special talent creativeness” and ”self-actualising creativeness” and he found that creativity is a universal characteristic of self-actualising people.
Self-actualisation may be described as the full use and exploitation of talents, capacities, potentialities and the like. Such people seem to be fulfilling themselves and doing the best that
they are capable of doing. He identified the following characteristics of self-actualising creativeness: perception or fresh appreciation and wonder of the basic good of life; expression or
ability to express ideas and impulses spontaneously and without fear of ridicule from others;
childlike or innocence of perception and expressiveness, natural, spontaneous, simple, true,
pure and uncritical; affinity for the unknown; resolution of dichotomies or the ability to synthesise, unify, integrate; and peak experiences or fearless, wonderful, ecstatic experiences which
change the person and his/her perception of life. Their codes of ethics tend to be relatively
autonomous and individual rather than conventional. They regard upon the world with wide,
uncritical, undemanding, innocent eyes, simply noting and observing what is the case, without
either arguing the matter or demanding that it be otherwise. Self-actualising creativeness is
”emitted”, like radioactivity, and it hits all of life, regardless of the problems. Maslow (1987)
mischievously wrote: ”Science could be defined as a technique whereby noncreative people can
create”.
10
R. Vidal / Investigação Operacional, 25 (2005) 1-24
The process
Focusing in the way that creative solutions and products were developed. Wallas’ four-stage
model has given inspiration to the development of approaches to be used by individuals or
groups in the creative solving process. In the next two sections we will see some of these
methods. Some definitions of creativity are closely related to the process of sensing problems,
forming ideas or hypotheses, testing and modifying these assumptions and communicating the
results. In this respect creativity is the ability to see a situation in many ways (divergent
thinking) and continue to question until satisfaction is reached (convergent thinking). The
creative process can involve tiny creative leaps or giant breakthroughs. Both require that an
individual or a group go beyond where they have gone before, embracing the unknown, the
mysterious, the change, and the puzzling without fear. The creative process may be considered
as a new way of seeing, a different point of view, an original idea or a new relationship
between ideas. It is the way or manner in which a problem is solved. It is the process of
bringing something new into being. It is the process of combining previously unrelated ideas
or perceiving a new relationship from previously unrelated ideas. Whether solving problems
alone or in a group, you really must have a guided process i.e. a plan or a map of the steps
to be followed. This is especially so in a group due to the need to align the capabilities of the
members in a positive way. This map is usually called the creative problem solving process
and under this denotation there exists a huge number of methods, tools and techniques to
support the creative process. It is also a good idea to facilitate the group creative process.
The facilitator will support the process, will elaborate a plan of the steps to be followed and will
manage the whole process to secure that an action plan will be elaborated and implemented.
Learning and Cognition
This research area is focusing in the abilities of creative learning, thinking and cognition in
relation to problem solving. All these activities are related to the physiology of thinking
and therefore to the function of the human brain. Creative learning is a natural, healthy
human process that occurs when people become curious or excited about understanding or
knowing more. Anytime we are faced with a problem or dilemma with no learned solution,
some creativity is required. Creativity, by its very nature, requires both sensitivity and independence. In our culture, sensitivity is a feminine virtue while independence is a masculine
virtue. Landrum (1994) outlines some specific differences between male and female approaches
to learning. The female approach can be characterised as based on: negotiations, feelings, understanding, personal relationships, intuition, and win-win outcomes. The male approach is
based on: aggressiveness, competition, ego gratifying, impersonal relationships, and win-lose
outcomes. All people learn trough their senses: touching, smelling, tasting, feeling, hearing
and seeing. According to Matte and Henderson (1995) more than half of the population in the
USA are visual learners (they want to read it). The rest of the population are with fifty percent
probability either auditory (they want to hear it) or kinaesthetic (they want to experience it).
The understanding of different forms of cognition and creativity is related to the structure and
function of the brain, a research area known as neuro-psychology that has undergone a huge
expansion and that has contributed to the understanding of individual creativity.
R. Vidal / Investigação Operacional, 25 (2005) 1-24
5
11
Which tools?
We have seen a variety of abilities that characterises creative individuals or groups. Four of
the key abilities will be discussed in this section as well as tools to enhance them in concrete
problem solving situations. They are: Fluency, flexibility, originality and elaboration. In
this section we will only present some few tools, those being the most popular and especially
suitable for group work. Higgins (1994) presents many other tools and at the end of the list
of references addresses of the best-known creativity home pages are presented.
Fluency
Fluency is the production of multiple problems, ideas, alternatives or solutions. It has been
shown that the more ideas we produce, the more likely we are to find a useful idea or solution.
Fluency is a very important ability especially in the creative problem solving process. To
have too few alternatives is not a good thing in problem solving, especially if you have to
be innovative. There are many tools for producing ideas, alternatives and solutions. Several
researchers have shown that training and practice with these tools cause a better fluency.
One creative tool, which has been widely used with big success for generating many ideas,
is Brainstorming. Osborn (1953) invented it for the sole purpose of producing checklists
of ideas that can be used in developing a solution to a problem. The tool is directed to
generating unconventional ideas by suppressing the common tendency to criticise or reject
them summarily. He tried to separate idea-evaluation from idea generation because he believed
that if evaluation comes early, it reduces the quantity and quality of the ideas produced.
Therefore in a Brainstorming session no criticism is permitted, and freewheeling generation of a
large number of ideas and their combination and development are encouraged. Brainstorming
is founded on the associative premise that the greater the number of associations, the less
stereotyped and more creative the ideas of how to solve a problem will be.
However, nothing in Brainstorming is directed at changing the assumptions or paradigms
that restrict the generation of new ideas. This is an excellent technique for strengthening
fluency, fantasy, and communication skills. It is a good idea to have a facilitator to prepare
and warm-up the Brainstorming session, to lead and support the session, and to evaluate
the whole process. This tool gives the possibility for the group to use more than one brain
achieving a synergetic effect. Generate a multitude of ideas and some of them will be truly
useful, innovative and workable. Asking individuals for inputs gives them an increased sense
of importance and produces an atmosphere for truly creative and imaginative ideas to surface and be acknowledged. Brainstorming combined with other methods has been used for a
wide diversity of problems, including not only marketing and product issues but also strategy development, planning, policy, organisation, leadership, staffing, motivation, control, and
communication. However, this tool is not appropriated for broad and complex problems demanding high-qualified expertise and know-how. Some of the ideas produced may be of low
quality or obvious generalities. Brainstorming is not a good idea for situations that require
trail and error as opposed to judgement.
12
R. Vidal / Investigação Operacional, 25 (2005) 1-24
Flexibility
Flexibility is the ability to process ideas or objects in many different ways given the same
stimulus. It is the ability to delete old ways of thinking and begin in different directions. It is
adaptive when aimed at a solution to a specific problem, challenge or dilemma. Flexibility is
especially important when logical methods fail to give satisfactory results. Looking at modern
paintings requires flexibility, they demand looking from different perspectives in order to see
different objects, images and symbols. Seeing persons or objects in the clouds requires the
flexibility of seeing concrete shapes in cloud formations. Flexible thinking provides for changes
in ideas, detours in thinking to include contradictions, differing viewpoints, alternative plans,
differing approaches and various perspectives of a situation.
A family of creative tools, known as verbal checklists, has been created to enhance flexibility
in the creative process. Usually this is a checklist of questions about an existing product,
service, process, or other item to yield new points of view and thereby lead to innovation.
Osborn (1953) has developed a very extensive verbal checklist while he was a partner of a
major US advertising firm. The idea behind the verbal checklist is that an existing product
or service can be improved if one applies a series of questions to it and pursues the answers
to see where they may lead. The main questions take the form of verbs such as Modify? or
Combine? These verbs indicate possible ways to improve an existing product or service by
making changes to it. Then you add definitional words to the verb, for instance combine ideas,
combine appeals, combine purposes, combine units, etc.
Elberle (1971) developed a short verbal checklist known as the SCAMPER technique to
assist people in improving their flexible thinking. When using such checklist, you will usually
follow the following steps:
• Identify the product or service to be modified
• Apply each of the verbs on the checklist to suggest changes in the product or service
• Make sure you use many definitional words for the listed verbs, and
• Review your changes to determine which one meets your solution criteria.
Another important tool for encouraging flexibility is the use of provocative questions.
These questions will open up a situation to a broader and deeper direction of thinking which
otherwise might not be produced or considered. They encourage people to think about ideas or
concepts they have not thought about previously. Some provocative questions can be: What
would happen if: water tasted like whisky? Cats could bark? Women could fly? How is: A
PC like a ship? A flower like a cat? A sunset like a lake? A car like a fork? What might
happen if: It never was Sunday? It was against the law to be perfectionist? People were not
creative? Image what might happen if: By law it was forbidden to have children? Cars could
fly? Men could have children?
Originality
Originality means getting away from the obvious and commonplace or breaking away from
routine bound thinking. Original ideas are statistically infrequent. Originality is a creative
R. Vidal / Investigação Operacional, 25 (2005) 1-24
13
strength, which is a mental jump from the obvious. Original ideas are usually described as
unique, surprising, wild, unusual, unconventional, novel, weird, remarkable or revolutionary.
You need courage to be creative, because as soon as you propose a new idea, you are a minority
of one. Belonging to a minority is unpleasant. In addition the original thinker must be able
to withstand the ridicule and scepticism, which will be directed toward his/her ideas and
himself/herself. To enhance creativity we have to be respectful of unusual or crazy ideas or
alternatives.
Picture Stimulation is a very popular technique used to provide ideas beyond those that
might be obtained using brainstorming. The members of the group will look at a set of
selected pictures and relate the information gained from the picture to the problem, otherwise
the rules of brainstorming should be followed. Photo excursion uses the same principles of
picture stimulation but instead of using prepared pictures for stimulation, participants are
required to leave the building walk around the area with a (Polaroid or digital) camera, and
take pictures of possible solutions or visual ideas for the problem; when the group reconvenes,
ideas are shared. Another related technique is the Object Stimulation tool where instead of
pictures a variety of different objects (e.g. a hammer, a pencil, a board game, etc.) will be
used. Sometimes you can use words instead of pictures or objects, an associate them to your
problem.
Originality can also be enhanced by analogies and metaphors. An analogy is a comparison
of two things that are essentially dissimilar but are shown through the analogy to have some
similarity. A metaphor is a figure of speech in which two different universes of thought are
linked by some point of similarity. In the broadest sense of the term, all metaphors are simple
analogies, but not all analogies are metaphors. Nature is a good source to provide analogies.
Poetry is a good source of metaphors. Similes are specific types of metaphors that use the
words ”like” and ”as” - for instance, the wind cut like a knife; his hand was as quick as a
frog’s tongue, he sees like a condor and digs as fast as a mole. Similes can be used to suggest
comparisons that offer solutions.
Elaboration
Mind Mapping is a visual and verbal tool usually used to structure complex situations in a
radial and expanding way during the creative problem solving process. A mind map is by
definition a creative pattern of related ideas, thoughts, processes, objects, etc. It is difficult
to identify the origin and the creator of this technique. It is probable that this tool has been
inspired by research on the interplay between the left and the right hemisphere of the brain.
It can also be dated back to experiments with the brain and accelerated learning. It has been,
among others, Buzan (1983) who has made Mind Mapping a well-known technique with many
applications.
The principles to construct mind maps are few and easy to understand. The best way to
learn it is by practice. After short time you will do it automatically. If it is difficult for adults
it is because they think linearly and take notes in a linear way (using the left hemisphere of
the brain). To make mind maps you have to draw ideas from the centre of the paper and move
in a radial and parallel way, to do that you have to use both your creative and your logical
brain. With some experience you develop your own style, your own pallet of colours, your own
symbols, your own icons, etc.
14
R. Vidal / Investigação Operacional, 25 (2005) 1-24
A Mind Map contains usually the following elements:
• The subject or the problem that has to be studied or analysed will be placed in the
centre of the paper
• Keywords (names or verbs) are used to represent ideas, as far as possible only one word
is used in a line
• The keywords are connected to the centrum through a main branch and sub-branches
• Colours and symbols are used to emphasise ideas or to stimulate the brain to identify
new relations
• Ideas and thoughts are permitted to arise free; too much evaluation is avoided during
the period of elaboration of the map.
When constructing a mind map, it is a good idea to start from left to right building main
branches in a circular way. Then, to continue drawing sub-branches moving in a circular way
until the whole sheet of paper is fill up with ideas. That is, you have been moving following an
expanding spiral pattern. Then, move in the reverse way following a contracting spiral pattern
supplementing the map with new ideas and connections. These spiral movements provoke the
interplay between the creative and the logical parts of the brain, combining holistic thinking
with particular details of the subject or the problem in question.
6
The Creative Problem Solving Process
Experience has shown that it is a good idea in a creative problem solving process to start with
divergent thinking to produce as many ideas or solutions as possible and thereafter to switch
to convergent thinking to select the few most promising ideas. This is usually illustrated in
the form of a diamond.
Some of the rules for divergent thinking are:
• Image, reframe and see issues from different perspectives
• Defer judgement (criticism or negativity kills the divergent process), be open to new
experiences
• Quantity breeds quality, to have good ideas you need lots of ideas
• Hitchhiking is permitted, in this way a synergetic effect can be achieved
• Combine and modify ideas, in this way you can create many ideas
• Think in pictures, to create future scenarios you can even simulate potential solutions
• Stretch the ideas, imagine ideas beyond normal limits, and
• Do not be afraid to break paradigms, avoid destructive criticism, and to add value to
the challenged concept.
R. Vidal / Investigação Operacional, 25 (2005) 1-24
15
Some of the rules of convergent thinking are:
• Be systematic, find structure and patterns in the set of produced ideas
• Develop ways to evaluate ideas, assess qualitative and quantitative measures of ideas
• Do not be afraid of using intuition, this is the way most important decisions are taken
• Avoid quickly ruling out an area of consideration, take your time or better sleep on it
• Avoid idea-killer views, try the impossible
• Satisfy, do not expend too much time in looking for the optimal solution of an illstructured multi-criteria problem
• Use heuristics, use common sense and experience based rules, and
• Do not avoid but assess risk, this does not mean being blind to risks, for serious consequences be sure to have a contingency plan.
As we will see below, creative problem solving processes always contain phases of divergent
and convergent thinking. Divergent thinking produces as many solutions as possible within
the available time. The participants will vary in the way they prefer to produce ideas; some
will do it by association, others by unrelated stimulus. Convergent thinking on the other hand
requires the participants to use skills in reality testing, judgement and evaluation to choose the
one or two best options from a number of possibilities. It is not unusual that in a group some
members will very easily diverge, that is build a list of alternatives, while others will converge
very fast by trying to select the best solution from the list and the rest will be passive not
knowing what is required of them. Hence the need of a facilitator, he or she designs a clear
and visible process to align the group.
The CPS (Creative Problem Solving) Approach
Osborn (1953) described several basic steps to support groups and individuals to be more
successful in creative problem solving. Later, based on these proposals, several researchers
have formalised and extended these ideas into a systematic approach to creative problem
solving known as the CPS approach or process. 4-steps, 5-steps and 6-steps models have
been proposed. Here we present the most general version. It is called the 6-diamond model
(Courger, 1995), where the upper part of each diamond represents the divergent sub-processes
and the lower part corresponds to the convergent sub-processes. The 6 steps are:
• Mess finding: Identify areas of concern. Generate ideas about possible problematic situations from a holistic viewpoint. Identify the three most critical and general problems.
Select one for further work.
• Fact finding: Observe carefully, like a video camera, while collecting information and data
about the problem situation. Both objective facts and subjective experiences should be
collected, explored and identified.
16
R. Vidal / Investigação Operacional, 25 (2005) 1-24
• Problem finding: Fly over the challenge or the problem by considering different ways of
regarding it. Think about those possibilities.
• Idea Finding: Search for a variety of ideas, options, alternatives, paths, approaches,
manners, methods and tools. Select potential solutions or ideas.
• Solution finding: Dig about the ideas in new and different ways, from other viewpoints
and criteria. Assess the consequences, implications, and reactions to the selected ideas.
Select ideas and solutions to develop an action plan.
• Acceptance finding: Develop ideas about how to implement the action plan. Search
for ways of making the ideas or solutions more attractive, acceptable, stronger, more
effective, and/or more beneficial. Develop a working plan for implementation.
Considerable research into the CPS process shows that a willingness to consider alternatives, to take some risks, to venture into insecure land, and to tolerate some uncertainty and
ambiguity are important; see further Parnes (1997). Let us now focus on the different types
of creative sub-processes that are needed at each step of the 6-diamond model:
• Mess finding. Here we will have the following creative sub-processes: Fluency, flexibility,
originality, deferred judgement, and evaluation
• Fact finding. Here we will have the following sub-processes: Analysis and evaluation.
• Problem finding. Here the main sub-process is synthesis.
• Idea finding. Here we will have the following sub-processes: Fluency, flexibility, analysis,
originality, and deferred judgement.
• Solution finding. Here the main sub-processes are: Synthesis, elaboration and evaluation.
• Acceptance finding. The following sub-processes are present: Synthesis, evaluation,
originality, and flexibility.
As we can see at all these stages creativity tools can be used, but depending on the problem
or the situation under study, both ”hard” and ”soft” methods can also be applied especially
in the convergent phase of each step in the CPS process.
Depending on the size and complexity of the problem the whole CPS process might take a
long time. During this process the work group at some stages will need a facilitator, an expert,
or a supervisor to support the different types of decisions to be taken. These are some of the
roles that the adviser or mentor of a group of students at the university working on theses
or projects can take. On the other hand, a very important aspect in this respect is learning.
Every person that has a “proactive” stance to life can easily learn the use of creativity tools
and the CPS process. Because of their simplicity many of these tools can be used in everyday
life. Children at school and elderly people can creatively empower their life by being proactive
instead of reactive. Moreover, being creative in a group is usually fun; creative teams at work
usually laugh a lot, see further Goff (1998).
R. Vidal / Investigação Operacional, 25 (2005) 1-24
17
Depending on the actual problematic situation some more specialised approaches could
be used combined with creative tools, for instance: Synectics (Gordon, 1961), Future Workshops (Jungk and Müller, 1987), TKJ (Kobayashi, 1971), SWOT (Sørensen and Vidal, 1999),
The Search Conference (Emery and Purser, 1996), Idealized Design (Ackoff, 1978) and TRIZ
(Kaplan, 1992)
7
The Vision Conference: Facilitating creative processes (Vidal, 2004)
The Vision Conference can be conducted for a wide range of purposes. They are usually used
to help organisations and group of individuals to create visions, ideas, projects, etc., about
the future. These visions will then be used as input to the process of strategy development.
Similarly, they can be suitable for involving diverse groups affected by imminent developments
in the larger systems, which include many actors such as industries, regions and communities.
The Vision Conference ideally brings together 30-60 people representing all relevant stakeholders. The participants must adequately and accurately reflect the different range of interests,
but participation must be voluntary.
This conference will be designed and managed by one or several facilitators. The duration
might be from 3 hours to 3 days depending on the complexity of the task. We have used this
concept to develop IT-strategies for primary schools (Sørensen and Vidal, 2001) and to support
communities in the elaboration of ideas and projects to enhance a sustainable development of
the region (Vidal, 2003).
Purpose
The purpose of the Vision Conference is not only to create ideas and visions about the future
but ideas and visions that are suitable as a basis for the process of strategy development to
be carried out by the organisation in question. The Vision Conference is both a learning and
creative experience characterised by:
• The organisation learns about the different actors’ ideas, wishes and visions;
• The different actors communicate to each other their visions;
• The participants learn to work creatively, collectively, and purposely in a large group;
and
• The participants learn how to design and manage (facilitate) Vision Conferences.
Design and Planning
Achieving such learning outcomes depends very much of how the Vision Conference is designed
and managed. Two critical dimensions of Vision Conference design are: the definition of the
conference task and the social organisation and management of the group. Initial definition of the task and the stages towards its completion is the responsibility of the facilitators
18
R. Vidal / Investigação Operacional, 25 (2005) 1-24
(design-managers) of the Vision Conference. In consultation with the organisation responsible
for the Vision Conference and through some prior research into the relevant issues, facilitators
should first:
• Develop a tentative definition of purpose that will be meaningful to participants; and
• Suggest a program that provides both adequate direction and sufficient scope for the
participants to assume control and responsibility as the conference progresses.
The primary purpose is to create the room and the opportunities for the participants to be
creative, producing their visions for the future. This is possible only if both the information and
ideas come from all the participants and if the group work is organised so that progress towards
task completion is accepted as the participants’ as well as the facilitators- responsibility.
Pre-conference
It is a common belief that detailed planning at the pre-conference stage is essential to ensure
that the facilitators help to create a group work at the conference that focuses on the task
and that this needs tight organisation. Moreover, it is also argued that this first stage is
as important as running the group work at the conference itself because without sufficient
pre-planning the chances of success will be greatly reduced.
On the other hand, it is our experience that too much planning and organisation might kill
spontaneity and creativity in the group work. Therefore, a suitable balance should be found, a
suitable framework that gives space for the development of the rational and irrational processes,
and for adaptive decision-making during the facilitation of the group work. At this stage, it
is of central importance that the facilitators discuss with the organisers of the conference
the purpose, the task, the organisation and the management of the group work. Good time
should be allocated to discuss thoroughly these themes so that at the end of this stage the
organisers of the conference and the facilitators have develop a consensus about the objectives
and development of the conference. This goal compatibility is of extreme importance. In
addition, it should also be discussed the processes, the creative tools and techniques that
might be utilised during the conference. How will the participants react to them? is a central
question to be discussed intensively at this stage.
The Conference
At the beginning of the conference day, it is important that the facilitators explain to the
participants the purpose and the agenda of the conference, before going to work in sub-groups.
Explain that the agenda can be changed if necessary, and that the time schedules have to be
respected to avoid too long waiting times when the participants will be meeting for the plenary
sessions.
In the Vision Conference some creativity tools will be used in the problem solving process.
Usually the four types of tools presented in Sec. 5 are sufficient to support most problem solving
processes. The facilitators should be convinced that the selected tools are the most suitable
R. Vidal / Investigação Operacional, 25 (2005) 1-24
19
for the conference, but if during the sessions it is detected that the tools are not supporting
adequately the facilitator should be capable of switching to other more appropriate creative
tools. One thing is crucial: the participants should feel quite easy with the facilitators, the
process and the used techniques, in this way it is ensured true participation.
Post-conference
After the conference, the facilitators have to write an accurate report of the experience. This
report should include the following themes:
• An outline of the background and purpose of the Vision Conference;
• The results obtained at each sub-group;
• The evaluation by the facilitator of the work in each sub-group;
• The evaluation of the whole conference by the facilitators, including the good and bad
experiences; and
• What did we learn from the experience?
8
Strategy development in organisations
Organisations develop usually from day to day in a smooth evolutionary process, Sometimes,
it can be foreseen that the organisation should not function as usual some changes are needed.
This might occur due to radical changes in the environment (external factors) or/and major
alterations within the organisation itself (internal factors). In such situations radical changes
in the organisation are needed. It is our conviction that in such situations the organisation
should develop a strategy for change to be able to cope with the changes that the future
brings about. Strategy development involves explicit formulation or formation of reachable
objectives (goals and visions) for the future of the organisation. Reachable objectives mean
that although strategy development focuses primarily on objectives, account is taken of means
and resources available.
In real-life, strategy development is conditioned by the way the organisation works while
solving problems and taking decisions. Any organisation has a history and it will have a
tendency to develop strategies in a similar way as problem solving is usually done in the
organisation. Changing this routine demands creativity and innovation.
In highly hierarchical organisations, a strategy will be a set of guidelines to establish direction for the organisation formulated by top management that has been set forth consciously
in advance prior to actions. This is usually denominated strategy as a position, a plan or a
ploy. This conceptualisation of strategy implies the following: Firstly, top management knows
what they wish to achieve, meaning that visions and goals have been identified and explicitly
formulated. Secondly, the strategies are made in advance of the actions to which they apply.
Thirdly, the strategies are made consciously and purposefully. Fourthly, once the strategy has
been formulated what is left is the problem of implementation; this is a rather complex and
uncertain top-down process demanding a lot of planning and control.
20
R. Vidal / Investigação Operacional, 25 (2005) 1-24
A simple and practical approach to strategy development that we have used in several
organisations is composed of three steps:
• Diagnosis: What is the situation of the organisation now?
• Visions: What should the situation of the organisation be in the future?
• Action: What ought to be done?
Each step can be supported by different methods. A method usually used for diagnosis
is SWOT-analysis. SWOT is an acronym formed from strengths, weaknesses, opportunities
and threats. SWOT gives some guidelines for the systematic analyses of the internal and
external environments of an organisation. It involves the assessment and appreciation of the
external factors and from those identifies opportunities and threats posed to the organisation
by the external environment. Similarly, the internal factors are used to list strengths and
weaknesses inherent to the current status of the organisation. The representation of strengths,
weaknesses, opportunities and threats in tabular form, gives origin to the SWOT matrix. This
matrix suggests four different ways of generating strategies by combining the minimisation
of threats and weaknesses, and maximisation of strengths and opportunities. This approach
facilitates the identification and generation of different strategic areas; it does not suggest the
best strategy for a given situation. Conclusions drawn by the author based on practical use of
this approach in a number of different contexts seem to indicate that it does not often bring
entirely new perspectives into consideration: The participants tend to find that the matrix
only confirms views which they currently hold. However, if SWOT-analysis is combined with a
creative workshop, it can become a very powerful approach to strategic management because
new ideas and insights can be brought into the problem. Depending on the actual situation
at hand appropriate creative tools could be used (Sørensen and Vidal, 1999).
At the second step different visions of the future of the organisation will be elaborated
conditioned by an expected state of the environment of the organisation. At this step, the
scenario method is usually the preferred approach to create visions about the future. A scenario
is a story about how the future of the external environment might turn out. When developing
strategic alternatives, it is useful to evaluate what that future environment may look like,
so that an appropriate action plan may be produced (stage three). The following eight-step
procedure is usually denominated the scenario development process (Borges et al, 2002):
• Set the scene,
• Generate predetermined and uncertain factors
• Reduce factors and specify factor ranges
• Choose themes and develop scenario details
• Check consistency of scenarios
• Present scenarios
• Assess impact of scenarios
R. Vidal / Investigação Operacional, 25 (2005) 1-24
21
• Develop ant test strategies
This scenario development process will be carried out as a facilitated conference for a work
group having in principle the same structure as the vision conference presented in the last
section. Conclusions drawn by the author based on practical use of this approach in a number
of different contexts seem to indicate that it is good idea to carry out the eight-step procedure
following the principles of the CPS process, that is at each step we will start with a divergent
phase and thereafter follows a convergent phase.
The last stage, Action, is usually a rational process where both hard and soft methods
could be used see further Sørensen and Vidal, 2004.
9
Design of decision-support systems for complex optimisation
problems
To design something is usually an activity related to innovation and creativity. You usually
design something new and original: an object, a program or a process. In hard OR and
Mathematical Programming, we are usually designing computerised systems and optimisation
software to solve rather complex real-life optimisation problems, but very seldom is this design
process conceptualised in terms of creative processes and tools. Much of the published literature is focusing in algorithm development, tests and implementation, which are convergent
processes, completely disregarding the divergent part of the design process.
Many of my MSc and PhD students in Engineering are dealing in their work with the design
of computerised system to solve real-life optimisation problems in production or logistics. Such
a system has to be tailored to the actual situation although some sub-problems could be solved
using some standard software but the global approach is heuristic (Silver et al, 1980). In
such situations the students have to use the CPS approach to deal with the problem solving
process in a participative and creative way in collaboration with the users or clients and other
stakeholders as planners and programmers. Engineering students are extremely efficient in the
convergent phases but they have difficulties in the divergent phases that demand creativity,
imagination and dialogue with the participants. My task as an advisor is to support the
students in a design of a thesis and to facilitate the students’ creative problem solving processes.
A typical example is a computerised optimisation system for planning of high schools examinations in Denmark. This is a large-scale logistic and combinatorial optimisation problem
that has been solved using both heuristics and standard algorithms. This system has been
described in Hansen and Vidal (1995). The problem solving process followed the principles of
the CPS approach. The OR worker’s tasks were both:
• To design optimisation approaches to be implemented by professional programmers, and
• To facilitate the whole problem solving process using divergent and convergent processes
involving users, planners, administrators and other experts.
This system has been running for nearly 10 years and it has evolved from year to year
improving the way how some sub-problems has been solved. Many of the original stakeholders
22
R. Vidal / Investigação Operacional, 25 (2005) 1-24
and experts have been changed. The only person that has secured continuity has been the OR
facilitator.
10
Final Remarks
Creativity is a young multidisciplinary field that will play a central role at all levels of Society
in this millennium. OR workers in their professional lives, both as facilitators and as (hard and
/or soft) model builders, need creativity concepts and tools to create satisfying ways of dealing
with messes. There is a growing demand that educators all around Society enhance and adopt
creativity in their teaching activities. Creativity is a way to cope with complexity. You need
creativity to avoid the fate of specialisation. According to Heinlein (1973): “Specialization is
for insects”
11
Referências
Adams, J.L. (1986) Conceptual Blockbusting, Reading, MA: Addison-Wesley.
Ackoff, R.L. (1978) The Art of Problem Solving, Wiley, NY.
Ackoff, R.L. (1993) Idealized Design: Creative Corporate Visioning, OMEGA International Journal of Management Science, Vol. 21, No. 4, pp. 401-410.
Ackoff, R.L. and Vergara, E. (1981) Creativity in Problem Solving and Planning: A review,
European Journal of Operational Research, Vol. 7, No. 1, pp. 1-13.
Amabile, T. (1983) The social psychology of creativity, NY: Springer Verlag.
Amabile, T. (1998) How to kill creativity? Harvard Business Review, pp. 77-87.
Borges, P., Sørensen, L., and Vidal, R.V.V. (2002) OR approaches for strategy development,
Investigacão Operacional, Vol 22 (2) pp. 199-212.
Buchanan, R. and Margolin, V. (1995) The Idea of Design, The MIT press.
Buzan, T. (1983) Use both sides of your brain, NY: E.P. Dutton, Inc.
Czikszentmihalyi, M. (2001) A systems perspective on creativity, In Henry, J. (Ed):
Creative Management, pp. 11-26, UK: Sage Publications.
Courger, J.D. (1995) Creative Problem Solving and Opportunity Finding, boyd&fraser publishing
company, Danvers.
De Bono, E. (1995) Serious Creativity, UK: Harper Collins.
Eberle, R.F. (1971) SCAMPER: Games for Imagination Development, NY: D.O.K.
Emery, M. and Purser, R.E. (1996) The Search Conference: A powerful method for planning
organizational change and community action, Jossey-Bass Publishers, San Francisco.
Evans, J.R. (1989) A Review and Synthesis of OR/MS and Creative Problem Solving (Parts 1
and 2), OMEGA International Journal of Management Sciences, Vol. 17, No. 6, pp. 499-524.
Evans, J.R. (1991a) Creative Thinking in the Decision and Management Sciences, College Division, South-Western Publishing Co., Cincinnati.
Evans, J.R. (1991b) Creativity in OR/MS: Creative Thinking, a basis for OR/MS problem solving, Interfaces, Vol. 21, No. 5, pp. 12-15.
R. Vidal / Investigação Operacional, 25 (2005) 1-24
23
Evans, J.R. (1992) Creativity in OR/MS: Improving problem solving through creative thinking,
Interfaces, Vol. 22, No. 2 pp. 87-91.
Evans, J.R. (1993a) Creativity in OR/MS: The multiple dimensions of creativity, Interfaces, Vol.
23, No. 2, pp. 80-83.
Evans, J.R. (1993b) Creativity in OR/MS: Overcoming barriers to creativity, Interfaces, Vol. 23,
No. 6, pp. 101-106.
Gardner, H. (1983) Frame of Mind: A Theory of Multiple Intelligence, NY: Basic Books, Inc.
Goff, K. (1998) Everyday Creativity, Stillwater: Little Ox Books.
Gordon, W. (1961) Synectics, Harper, NY.
Hansen, M.P. and Vidal, R.V.V. (1995) Planning of High Schools Examinations in Denmark,
European Journal of Operational Research, Vol. 87, pp. 519-534.
Heinlein, R.A. (1973) Time Enough For Love, Berkley Publishing.
Herrmann, N. (1996) The Whole Brain Business book, NY: Mc Graw-Hill.
Higgins, J.M. (1994) 101 Creative Problem Solving Techniques, Fl.: New Management Publishing
Co.
Jungk, R. and Müller, N. (1987) Future Workshops: How to create desirable futures, Institute
for Social Inventions, London.
Kaplan, S. (1996) An Introduction to TRIZ, the Russian theory of inventive problem solving,
Ideation International, Detroit.
Keys, P. (2000) Creativity, design and style in MS/OR, OMEGA International Journal of Management Science, Vol. 28, pp. 303-312.
Kobayashi, S. Creative Management, American Management Association, NY.
Koestler, A. (1976) The Act of Creation, London: Hutchinson.
Landrum, G.N. (1994) Profiles of Female Genius, NY: Prometheus Books.
Maslow, A.H. (1987) Motivation and Personality, NY: Harper Collins.
Matte, N.L. and Hendersson, S.H.G. (1995) Success your Style! CA: Wadsworth.
Millar, G.W. (1997) E. Paul Torrance - ”The Creativity Man”, NJ: Ablex Publishing
Mingers, J. (1992) Technical, Practical and Critical OR – Past, Present and Future? In Alvenson,
M. and Willmott, H. (eds.) Critical Management Studies, SAGE publications. Morris, W.T.
(1967) On the Art of Modelling, Management Science, Vol. 13, No. 12, pp. B707-B717.
Osborn, A. (1953) Applied Imagination, Scribner’s, NY.
Parnes, S.J. (1997) Optimize the Magic of your Mind, NY: Bearly Limited.
Ritchie, C. et al (1994) Community Works, PAVIC Publications, Sheffield.
Saaty, T.L. (1998) Reflections and projections on creativity in OR and MS: A pressing need for
shift in paradigm, Operations Research, Vol. 46, No. 1, pp. 9-16.
Silver, E.A., de Werra, D. and Vidal, R.V.V. (1980) An introduction to heuristic methods,
European Journal of Operational Research, Vol. 5, pp. 153-162.
Stenberg R.J. (ed.) (1999) Handbook of Creativity, Cambridge University Press.
Sørensen, L. and Vidal, R.V.V. (1999) Getting an overview with SWOT, CTI working paper n.
54, Technical University of Denmark, p. 17.
Sørensen, L. and Vidal, R.V.V. (2001) Soft Methods in primary schools: Focusing on IT strategies, International Transactions in OR.
24
R. Vidal / Investigação Operacional, 25 (2005) 1-24
Sørensen, L. and Vidal, R.V.V. (2004) Using Soft OR in a small company- The case of Kirby,
European Journal of Operational Research, Vol. 152 (3), pp 559-570.
Tsoukas H. and Papoulias, D.B. (1996) Creativity in OR/MS: From technique to epistemology,
Interfaces, Vol. 26, No. 2, pp. 73-79.
Vidal, R.V.V. (2003) One-day Conference: National and International Cooperation under LEADER+
Program, IMM, DTU, p. 48.
Vidal, R.V.V. (2004) The Vision Conference: Facilitation of creative process, to appear in Systems Practice and Action Research.
Wallas, G. (1926) The Art of Thought, Fla: Harcourt.
Some useful web addresses:
http://members.ozemail.com.au/∼caveman/creativity/index htm/
http://www.thinksmart.com/
http://www.creax.com/creaxnet/creax net.php/
http://www.creativity-portal.com/
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
25
Simulação do funcionamento de um cruzamento
regulado por sinais luminosos
António Cerveira Pinto
∗
Américo H. Pires da Costa
†
∗
Instituto Superior de Engenharia do Porto
R. Dr. António Bernardino de Almeida, 431
4200-072 Porto
†
Faculdade de Engenharia da U.P.
R. Dr. Roberto Frias
4200-465 Porto
Abstract
The installation of traffic lights at street intersections is a common practice in order
to improve vehicle flow. That procedure is highly justified by the proven reduction in
accidents, shorter delays, decreased pollution, namely associated with lower noise levels,
and fuel consumption.
The present paper describes the definition of a traffic simulator so as to enable the
design of digital simulation models for intersections controlled by fixed-time signals. The
intersections may comprise any number of branches and the lanes may be either exclusive or
shared by various movements. It is also possible to ascribe several movements to one lane as
well as to link movements to different phases, with any cycle partition, including periods
of “all-red”. The user may choose from different distributions in order to model time
intervals between arriving vehicles and each movement or traffic stream may be represented
by a selected specific distribution, unrelated to the distributions describing the remaining
movements.
Resumo
É prática corrente em gestão do tráfego rodoviário a instalação de sinais luminosos
em cruzamentos com o objectivo de melhorar o seu desempenho. Este procedimento está
amplamente justificado pela comprovada redução do número de acidentes, dos atrasos, da
poluição ambiental, em particular, a sonora, e do consumo de combustı́vel.
No presente artigo refere-se o modo como foi concebido um simulador que permite
construir modelos de simulação digital de cruzamentos regulados por sinais luminosos de
comando de tempos fixos. Os cruzamentos podem ser constituı́dos por qualquer número
de ramos de entrada e as vias podem ser exclusivas ou partilhadas por várias correntes
c 2005 Associação Portuguesa de Investigação Operacional
26
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
de tráfego. É possı́vel, também, a atribuição de diversas correntes de tráfego a cada
via, a afectação de movimentos a várias fases e qualquer repartição do tempo de ciclo,
incluindo tempos de “tudo-vermelho”. Diversos tipos de distribuições estão disponı́veis
para modelar os intervalos de tempo entre veı́culos sucessivos, à chegada, podendo cada
corrente de tráfego ser representada por uma distribuição diferente das restantes.
Keywords: Discrete-event system simulation, traffic lights, traffic simulator, fixed-time traffic signals.
Title: Traffic simulation of signal controlled intersections
1
Introdução
O interesse na análise do funcionamento de um cruzamento regulado por sinais luminosos com
comando de tempo fixo justifica-se por três razões. A primeira tem a ver com o número elevado
de cruzamentos que dispõem de sinalização com este tipo de comando: salvo os casos de Lisboa
e do Porto, onde predominam os de comando pelo tráfego, os cruzamentos regulados por sinais
luminosos das cidades do nosso Paı́s são, na sua quase totalidade, de comando de tempo fixo. A
segunda, com o facto de os sinais comandados pelos veı́culos funcionarem como se se tratassem
de sinais de comando de tempo fixo para débitos elevados [4]. A terceira, porque os sistemas
de coordenação entre sinais baseiam-se, frequentemente, num ciclo fixo que corresponde às
necessidades do cruzamento chave do sistema - em princı́pio, o mais carregado [8]. Mas, o ensaio
de diversos tipos e valores do débito de chegada, diversas geometrias do cruzamento, diferentes
configurações do tráfego, tempos de ciclo e esquemas de fases, só é possı́vel se se dispuser de um
modelo do cruzamento. De facto, a experimentação é impraticável, se o cruzamento estiver em
funcionamento, ou impossı́vel, se o cruzamento estiver em fase de projecto. Se o cruzamento for
complexo e o ritmo de chegadas muito particular, deve recorrer-se a um modelo de simulação
digital. Com efeito, posta de parte a hipótese de um modelo fı́sico, um sistema como um
cruzamento com múltiplas vias de entrada, possibilidade de viragem à esquerda, seguir em
frente ou viragem à direita, chegadas aleatórias de veı́culos e regulado por sinais luminosos
inviabiliza a utilização de um modelo matemático. Refere Khoshnevis [6] que “um cruzamento
com viragem à esquerda e com padrões tı́picos e realistas de chegadas de veı́culos não pode ser
estudado pela teoria das filas de espera, mesmo com hipóteses simplificadoras (frequentemente
irrealistas)”.
Programas de cálculo automático, que simulam o escoamento do tráfego com o objectivo de
avaliar estratégias de controlo, antes da sua implementação, têm vindo a ser utilizados desde
1950. Os modelos disponibilizados ou são do tipo macroscópico ou do tipo microscópico. Nos
modelos do primeiro tipo, de que são exemplos o TRANSYT [3] e o PHEDRE [1], analisa-se
a evolução de grupos de veı́culos, sendo as correntes de tráfego representadas de uma forma
agregada, nomeadamente por histogramas. Nos do segundo tipo, como os modelos PARAMICS
[11] e NETSIM [13], simula-se, e analisa-se em pormenor, o movimento de cada veı́culo. Estes
modelos destinam-se, essencialmente, ao estudo do tráfego em redes de arruamentos, estando
pouco adaptados à análise do funcionamento de cruzamentos isolados, porque não permitem
o ensaio de variados padrões de chegada de veı́culos nem o ensaio de diversificadas condições
de actuação do semáforo.
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
27
Não existindo software de origem nacional nem se tendo conhecimento de software de outra
proveniência especificamente dedicado a cruzamentos, julgou-se útil conceber um simulador –
entendido como “ um programa, ou um conjunto de programas, que permite simular um
sistema pertencente a uma classe especı́fica de sistemas, que não requer, ou requer ligeira,
programação” [7] – que constituı́sse uma ferramenta eficaz na construção de um modelo de
simulação digital de um cruzamento regulado por sinais luminosos de comando de tempo fixo.
Como o simulador que foi concebido permite a construção rápida de modelos de cruzamentos,
fica ultrapassado o problema dos custos associados ao desenvolvimento deste tipo de modelos,
frequentemente elevados em tempo e em dinheiro [7], e que constituem, no caso geral, um dos
maiores óbices à utilização dos modelos de simulação digital.
2
O Simulador
O simulador possibilita a modelação de cruzamentos com um número qualquer de ramos
de entrada, vias exclusivas ou partilhadas por vários movimentos, e filas iniciais. Permite,
além disto, a atribuição de diversas vias a um movimento ou corrente de tráfego, a afectação
de movimentos a várias fases e qualquer repartição do tempo de ciclo, incluindo tempos de
“ tudo vermelho “. O utilizador poderá recorrer a diversas distribuições, designadamente,
a Exponencial, a de Erlang e a de Cowan [12] para modelar os intervalos de tempo entre
veı́culos sucessivos, à chegada, e recorrer às variáveis antitéticas u e 1 − u, para gerar números
aleatórios. Como nem sempre será possı́vel especificar uma distribuição, o simulador inclui
funções empı́ricas, possibilitando-se, deste modo, a modelação de qualquer cadência de chegadas de veı́culos, por muito particular ou complexa que seja. A possibilidade de utilização de
variadas distribuições, bem como a possibilidade de aferir o desempenho de um cruzamento
através de múltiplos indicadores, representa uma superioridade significativa dos modelos de
simulação digital construı́dos com o simulador sobre os modelos matemáticos de cruzamentos
desenvolvidos até agora – praticamente limitados à distribuição Exponencial e suas variantes.
A comparação da valia relativa de soluções alternativas pode ser feita através de onze
indicadores de desempenho: atraso total por via, atraso médio por veı́culo e por via, tempo
de fila por via, tempo total de espera em fila por via, tempo de espera médio em fila por via,
tempo de espera máximo por via, proporção de tempo de fila por via, número de paragens por
via, número de verdes saturados, comprimento médio da fila por via e comprimento máximo
da fila por via. As variáveis de decisão disponı́veis no simulador permitem definir variadas
soluções alternativas, que diferem pela duração ou pela repartição do ciclo, pela configuração
do tráfego ou pela configuração geométrica do cruzamento.
2.1
Concepção do simulador
Um cruzamento isolado é um sistema dinâmico e discreto em que as entidades são os veı́culos,
os eventos, as chegadas e as partidas, e as fronteiras :
- as linhas de paragem de todas as vias de entrada;
- as linhas que distam das anteriores um comprimento correspondente ao número máximo
de veı́culos admitidos em tais vias.
28
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
O método dos acontecimentos foi o método seguido na estruturação do simulador, [2,14],
e o processo de avanço do relógio para a hora de ocorrência do próximo evento, o processo
adoptado para o avanço do tempo simulado.
O programa de computador é constituı́do pelo programa principal, vinte e uma subrotinas
e seis funções (figura 1). As primeiras quinze subrotinas destinam-se à entrada de dados, dos
quais se destacam:
• o tempo de simulação (A100.Tempo.Simul ) ;
• o valor da semente e a escolha da variável antitética u ou 1 − u (B100.Dados.Semente) ;
• a especificação das distribuições que modelam os intervalos de tempo entre veı́culos
sucessivos, uma por cada corrente de tráfego ou movimento (C100.Dados.Modelo e oito
subrotinas correspondentes às oito distribuições disponı́veis no simulador) ;
• o número total de vias de entrada do cruzamento, o número de vias atribuı́do a cada
corrente de tráfego ou movimento, os números identificadores das vias atribuı́dos a uma
corrente de tráfego ou movimento, o tipo de via (partilhada por várias correntes de
tráfego ou não), as correntes de tráfego que partilham uma via e o número máximo de
veı́culos em fila, por via (D100.Dados.Vias);
• a duração do ciclo, o número de fases, a identificação das correntes de tráfego pertencentes
a cada fase, o tempo e o inı́cio de verde de cada fase (E100.Dados.Semáforo) ;
• o tempo de inı́cio da simulação e a hora de chegada do primeiro veı́culo de cada corrente
de tráfego, no caso de o inı́cio da simulação ser diferente de zero; a hora de inı́cio da
simulação, a hora de chegada do último veı́culo de cada corrente de táfego e a hora de
partida do primeiro veı́culo, no caso de a hora de inı́cio da simulação ser diferente de
zero e existirem filas iniciais (F100.Dados.Matriz ).
A este conjunto de subrotinas de introdução de dados segue-se a subrotina G100.Inicia, onde
é feita a inicialização das variáveis Tempo Acumulado em Fila e Comprimento Acumulado em
Fila. Se existirem filas iniciais, os valores destas variáveis são afixados no écran, de forma a
poder verificar-se a correcção dos mesmos.
O inı́cio da simulação e de cada ciclo, dá-se na subrotina H100.Chegadas.Partidas, que
constitui o executivo do simulador. Nesta subrotina, faz-se o controlo do ciclo do simulador e
do fim da simulação, identifica-se o próximo evento, o tempo da sua ocorrência e actualiza-se
o tempo de simulação.
A simulação prossegue através da subrotina correspondente ao evento seleccionado (subrotina H200.Chegadas ou subrotina H210.Partidas, conforme se trate de uma chegada ou
de uma partida, respectivamente). Estas duas subrotinas, conjuntamente com as subrotinas
H300.Cheg.Vd (chegada com sinal verde) e H300.Cheg.Vm (chegada com sinal vermelho),
são as subrotinas dos eventos, subrotinas responsáveis pelas acções que permitem processar
o evento seleccionado, designadamente, regular as interacções entre os veı́culos presentes no
cruzamento, as vias, os sinais luminosos e marcar futuras chegadas e partidas. De uma destas
três últimas subrotinas regressa-se à subrotina H100.Chegadas.Partidas, fechando-se o ciclo.
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
29
Figura 1: Organização do programa
A subrotina I100.Resultados e as seis funções constituem o bloco de utilidades do simulador.
As funções são ferramentas de apoio às subrotinas que processam os eventos, tendo como
missão:
- indicar o estado do sinal no momento de chegada de um veı́culo (função Semafro);
- calcular o intervalo de tempo que decorre entre o instante de chegada de um veı́culo com
sinal vermelho e o instante de passagem do sinal vermelho a verde (função Prox.Verde);
- calcular o intervalo de tempo que medeia entre o instante de chegada de um veı́culo com
sinal verde e o instante de passagem do sinal verde a vermelho (função Prox.Vermelho);
- verificar a posição numa via de um veı́culo pertencente a uma determinada corrente de
tráfego ou movimento (função Posição);
- gerar números aleatórios (função Uni.Zero.Um);
- gerar intervalos de tempo entre veı́culos sucessivos a partir das oito distribuições disponı́veis (função Intervalo).
30
2.2
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
Calendário dos acontecimentos futuros
O registo da informação relevante sobre eventos futuros faz-se numa matriz que tem no programa do simulador a designação Mat. A informação em causa é 1) o tempo de ocorrência
dos eventos futuros, 2) o tipo de evento, 3) a via em que irá ocorrer a partida e 4) a corrente
de tráfego, ou o movimento, a que pertence o veı́culo envolvido na chegada ou na partida.
Nesta matriz: o número de linhas é igual ao dobro do número, n, de correntes de tráfego ou
de movimentos; o número de colunas, igual ao número de vias de entrada do cruzamento;
e os elementos aij representam os tempos de futuras chegadas ou partidas. O ı́ndice i (i =
1,2...,2n) identifica a corrente de tráfego ou o movimento, e o ı́ndice j, (j = 1,2,...,r), a via
atribuı́da ao movimento. As primeiras n linhas estão atribuı́das às chegadas e as restantes, às
partidas. Alguns elementos da matriz ficam indefinidos. De facto, o número de vias atribuı́do
a cada corrente de tráfego é sempre inferior ao número total de vias de entrada do cruzamento,
variando o número daqueles elementos com o número de vias partilhadas e com o número de
correntes de tráfego multi-vias.
No caso das chegadas, porque a subrotina H200.Chegadas está estruturada de modo a
que a calendarização de nova chegada se faça logo à chegada de um veı́culo, ainda antes da
selecção da via por onde irá transitar o veı́culo, só será necessário identificar o movimento ou
a corrente de tráfego. Assim, uma coluna da submatriz superior é suficiente para se definir a
corrente de tráfego a que pertence o veı́culo. Escolheu-se a primeira coluna por uma questão
de comodidade. Aos elementos das restantes colunas é atribuı́do um valor arbitrariamente
grande, valor superior ao tempo de simulação, que permanecerá inalterado no decorrer de
cada corrida. No programa, por omissão, é atribuı́do, a todos esses elementos, um valor igual
a cinco vezes o tempo de simulação.
Relativamente às partidas, porque já foi escolhida uma via na subrotina H200.Chegadas,
são necessários dois identificadores: um, igual a i−n, para identificar o movimento; outro, igual
a j, para a via. Aos elementos da submatriz que ficam indefinidos é-lhes atribuı́do um valor
igual ao valor fixado para os elementos das colunas não operativas da sub-matriz superior.
Com o calendário organizado tal como se descreveu - que, em alternativa, poderia ser
constituı́do por um vector, para calendário das chegadas, e uma matriz, para calendário das
partidas - a identificação do acontecimento iminente processa-se comparando o elemento de
menor valor da primeira coluna da submatriz superior com o menor valor da submatriz inferior.
Se o primeiro valor for inferior ao segundo, trata-se de uma chegada e o ı́ndice da linha do
elemento identifica a corrente de tráfego a que pertence o veı́culo. Se for superior, tratase de uma partida. Identifica-se a corrente de tráfego, k, subtraindo ao valor do ı́ndice, i,
referente à linha, o número total de movimentos (k = i-n); a via é identificada pelo ı́ndice da
coluna. Quando os dois valores são iguais, convencionou-se que o acontecimento iminente é
uma chegada.
Estas operações, bem como a identificação do evento iminente, o adiantamento do relógio
de simulação e a consequente passagem do evento iminente a actual faz-se, em cada ciclo,
na subrotina H100.Chegadas.Partidas, como foi referido em 2.1. Numa das subrotinas que
fazem parte do bloco de operações do simulador (subrotinas H300.Cheg.Vd, H300.Cheg.Vm
ou H210.Partidas), actualiza-se o calendário, substituindo-se o valor do elemento seleccionado
da matriz Mat por um novo valor. A matriz evolui, assim, de ciclo para ciclo, pela alteração,
no máximo, do valor de um dos seus elementos.
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35









0
0
0
0
250
250
250
250
250
250
0
250
250
250
250
250
0
0
31









Figura 2: Cruzamento e matriz-calendário no inı́cio da simulação
A tı́tulo de exemplo representa-se na figura 2 a matriz-calendário, no inı́cio da simulação,
associada a um cruzamento de que se consideraram apenas três vias de entrada, (vias V1,V2
e V3), sem filas iniciais, hora zero para inı́cio da simulação, tempo de simulação igual a 50
segundos e a seguinte repartição do tráfego:
- corrente de tráfego 1 – via 1;
- corrente de tráfego 2 –vias V2 e V3;
- corrente de tráfego 3- via V3.
2.3
Verificação e validação do simulador
O programa de computador do simulador resultou da codificação em Qbasic de vinte e oito
módulos. O Qbasic é uma linguagem de programação geral que permite a programação estruturada e tem sido utilizada em simulação [2,6,9], e está, ou pode estar, disponı́vel em qualquer
computador pessoal em que esteja instalado o Windows 95 ou versões posteriores. Como sucede
com outras linguagens de programação geral, várias razões podem justificar a utilização de uma
linguagem deste tipo, em vez das linguagens especificamente orientadas para a simulação. Law
e Kelton [7] referem, entre outras, as seguintes: 1- uma linguagem de programação geral obriga
32
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
a prestar atenção a cada pormenor, o que conduz a uma maior compreensão de como funciona
a simulação na realidade e, portanto, reduz a possibilidade de se cometerem erros de concepção
se, mais tarde, se mudar para uma linguagem de simulação de alto nı́vel; 2- apesar de se dispor
actualmente de várias linguagens de simulação muito potentes, é necessário, frequentemente,
escrever, pelo menos, partes de simulações em linguagens de programação geral, quando se
tem de representar mais fielmente a lógica especı́fica e detalhada de sistemas complexos. Brito
e Teixeira [2] salientam o facto de,” num grande número de ferramentas comerciais dedicadas à simulação, o executivo e os blocos de operações e de utilidades estarem mais ou menos
encapsulados”. Referem que no SIMSCRIPT, por exemplo, só o executivo é acessı́vel e, no
SimFactory, nenhum dos anteriores blocos se encontra directamente acessı́vel ao analista. Ao
criar-se o simulador julgou-se conveniente utilizar uma linguagem que tornasse completamente
transparente a estrutura do simulador, a sua constituição e o seu funcionamento, facilitando
a evolução do programa de computador para qualquer outra linguagem.
No processo de verificação do simulador, testou-se cada subprograma isoladamente, tendose, de seguida, rastreado a execução de todo o programa. Depois de sucessivas depurações,
julga-se poder concluir que o programa não tem erros de codificação nem erros lógicos e
representa o simulador, tal como foi conceptualizado.
A validação do simulador fez-se pelo confronto constante da estrutura e do funcionamento
de um cruzamento com a estrutura e o funcionamento do simulador. Iniciou-se no momento em
que começou a ser concebido o cruzamento mais simples que se pretendia modelar e prosseguiu
à medida que foi aumentando a complexidade dos cruzamentos e o número de indicadores de
desempenho. À sucessiva reformulação e progressiva clarificação de objectivos corresponderam
novas conceptualizações e revalidações de componentes do simulador e, paralelamente, novos
testes de módulos e verificação de subrotinas que haviam sido modificadas ou criadas de novo.
O conhecimento de que se dispunha, relativamente à gestão de tráfego rodoviário, facilitou o
exame rigoroso deste tipo de sistemas e o estabelecimento do conjunto de premissas e proposições lógicas, em que se baseou o desenvolvimento do simulador. Finalizou-se a validação
no momento em que se considerou que se dispunha de uma ferramenta segura, com a qual era
possı́vel gerar modelos que representem fielmente um conjunto muito diversificado de cruzamentos. Infelizmente, por não se dispor de dados relativos ao funcionamento de sistemas reais,
ao processo de validação utilizado, habitualmente designado na literatura da especialidade
por racionalista, [2,6], não pôde seguir-se o processo de confronto dos valores de indicadores
de desempenho de modelos disponı́veis no simulador com os valores de idênticos indicadores
de desempenho de tais sistemas. Construı́ram-se, entretanto, modelos de dois cruzamentos
que serviram como exemplos de aplicação de dois modelos que, pela sua importância, são
de referência obrigatória na literatura dedicada à regulação do tráfego através de sinalização
luminosa.
Um desses modelos é o do Transportation Research Board [15]; o outro é o modelo matemático de Webster [16], a partir do qual Costa e Vasconcelos [5] elaboraram um programa
de cálculo designado RESINA. Os dados respeitantes aos cruzamentos - aqui designados pela
sigla HCM, de Highway Capacity Manual, publicação do organismo anteriormente citado, e
RESINA, nome do programa de computador - e os resultados obtidos pelos modelos referidos constam da bibliografia citada [5,15]. O confronto dos modelos dos cruzamentos criados
com o simulador com os modelos referidos fez-se por intermédio do indicador de desempenho
atraso médio por veı́culo, único indicador utilizado no HCM e no RESINA. Pela mesma razão,
a distribuição geradora das correntes de tráfego escolhida foi a exponencial, com valores do
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
33
Quadro 1: Intervalos de confiança a 95% para o valor médio (cruzamento do HCM)
Via 1
(58,7 ; 93,1)
Via 2
(19,8 ; 21,8)
Via 3
(12,0 ; 13,0)
Via 4
(17,0 ; 20,8)
Quadro 2: Intervalos de confiança a 95% para o valor médio. (cruzamento do RESINA)
Via 1
(21,8 ; 23,0)
Via 2
(31,6 ; 35,3)
Via 3
(45,8 ; 50,6)
Via 4
(38,9 ; 41,1)
Via 5
(41,7 ; 47,6)
Via 6
(45,8 ; 52,8)
parâmetro valor médio iguais aos utilizados naqueles modelos. Após a realização de 14 corridas
do modelo representativo do cruzamento do HCM e de 16 corridas do modelo do cruzamento
do RESINA, obtiveram-se os seguintes intervalos de confiança a 95 % para o valor médio do
atraso médio por veı́culo [10]:
Nos quadros 3 e 4 apresentam-se os valores obtidos pelos modelos que serviram de termo
de comparação - valores retirados da bibliografia consultada, [5,15] - e os valores obtidos com
o simulador.
3
Considerações finais
O presente trabalho abre perspectivas de aprofundamento, quer no campo de desenvolvimento,
quer no das aplicações.
O aperfeiçoamento dos processos de entrada e de saı́da de dados deverá ser o primeiro
passo para ulteriores desenvolvimentos. De entre estes é de destacar a inclusão de:
• uma ou mais funções que calculem a probabilidade de o condutor de um veı́culo parar
ou continuar a marcha quando o semáforo está amarelo;
• vias de comprimento reduzido;
• outros indicadores de desempenho, como o nı́vel de ruı́do, o consumo de combustı́vel e
o custo de operação - actualmente só calculáveis a partir dos indicadores já disponı́veis
Quadro 3: Atraso médio por veı́culo (cruzamento do HCM)
Vias
1
2
3
4
Simulador (valor médio)
75,9
20,8
12,5
18,9
HCM
23,8
12,4
24,5
Variação (em %)
-12,6
0,8
-22,8
34
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
Quadro 4: Atraso médio por veı́culo (cruzamento do RESINA)
Vias
1
2
3
4
5
6
Simulador (valor médio)
22,4
33,5
48,2
40,0
44,6
49,3
Fórmula de Webster
22,9
38,6
55,7
42,2
45,3
49,3
Variação (em %)
-2,0
-13,1
-13,4
-5,1
-2,9
-0,1
no simulador;
• novas distribuições para a modelação dos intervalos de tempo entre chegadas de veı́culos
sucessivos.
Além disso, será de preconizar a utilização de uma linguagem de programação geral que elimine
as limitações de utilização de memória, inerentes ao Qbasic.
A animação das chegadas e das partidas dos veı́culos será mais um aperfeiçoamento a ter em
conta, e constituiria outro auxiliar para a credibilização de qualquer modelo desenvolvido com
o simulador. O Visual Basic estará, então, particularmente indicado dadas as suas capacidades
neste campo e a possibilidade de se utilizarem subrotinas que já foram programadas em Qbasic.
Considera-se, ainda, que terá interesse avaliar a possibilidade de incluir fases que permitam
o avanço de movimentos incompatı́veis e de peões.
Estão implı́citas, nas propostas de desenvolvimento anteriores, a acessibilidade a dados
relativos ao funcionamento de cruzamentos no nosso Paı́s e a participação de especialistas de
gestão de tráfego, de investigação operacional, de estatı́stica e de computação.
4
Bibliografia
[1] Abours, S., Aron, Barbier, Sainte Hilaire, F., Cottinet, M. M., Danech Pajout, M., Davee,
M.,Degre, T., Foraste, B., Lesort J. B., Morin, J. M., Les Modèles INRETS de Simulation,
Synthese INRETS-Institut National de Recherche sur les Transports et leur Securité (1988)
[2] Brito, António E.. S. Carvalho, Teixeira, J. M. F., Simulação por Computador. Fundamentos e
Implementação de Código em C e C+ . Publindústria, Porto (2001)
[3] Binning, J. C., Crabtree, M. R., Burtenshaw, G. L., TRANSYT 12 User Guide. Transport Road
Laboratory Report nr AG48 (2003)
[4] Costa, A. H. Pires da, Cruzamentos Regulados por Sinais Luminosos. Tese de Doutoramento em
Engenharia Civil. FEUP., Porto (1987)
[5] Costa, A. H. Pires da, Vasconcelos, António J. A., Regulação de Sinais Luminosos de Tempos
Fixos em Cruzamentos Isolados. Programa RESINA. FEUP, Porto (1986)
[6] Khoshenevis, B.,Discrete Systems Simulation. McGraw-Hill, Singapore, 1994
[7] Law A. M.; Kelton, D. K., Simulation Modeling and Analysis. McGraw-Hill, Singapore (1991)
A. C. Pinto, A. H. P. Costa / Investigação Operacional, 25 (2005) 25-35
35
[8] Laboratório Nacional de Engenharia Civil, O Modelo Matemático de Webster para Sinais Luminosos a Tempos Fixos. Relatório 271/88. Lisboa (1988)
[9] Pidd, Michael, Computer Simulation. Wiley, 4
th
ed., Chichester (1998)
[10] Pinto, A. Cerveira, Simulação do Funcionamento de um Cruzamento Regulado por Sinais Luminosos. Tese de Mestrado em Engenharia Municipal. Universidade do Minho, Guimarães (2000)
[11] Speirs, E., Quadstone Paramics V4.2 System Overview. Quadstone Limited (2003)
[12] Sullivan, D. P. ; Troutbeck, R. J., The Use of Cowan’s M3 Headway Distribution for Modelling
Urban Traffic Flow. Traffic Engineering Control, July/August (1994) 445-450
[13] Sulzberg, J. D., Demetsky, M. J., Demonstration of TRAF-NETSIM for traffic operations management: final report. Federal Highway Administration Record nr 6998, U. S. Department of
Transportation (1991)
[14] Tavares, L. Valadares, Oliveira, Rui C., Themido, Isabel H., Correia, F. Nunes-Investigação
Operacional. McGraw-Hill, Lisboa (1996)
[15] Transportation Research Board- Highway Capacity Manual, Special Report 209. Washington
D.C. (1994)
[16] Webster, F.V. – Traffic Signal Settings, Road Research Technical Paper n. o 39, Her Majesty’ s
Stationery Office, London (1958).
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 37
Geração Automática de Modelos de Simulação de
uma Linha de Montagem de Auto-Rádios
Luı́s Pinto Ferreira
∗
∗
Guilherme A. Pereira
†
Ricardo J. Machado
‡
Departamento de Engenharia da Escola Superior de Estudos Industriais e de Gestão, Instituto
Politécnico do Porto
[email protected]
†
‡
Departamento de Produção e Sistemas, Universidade do Minho
[email protected]
Departamento de Sistemas de Informação, Universidade do Minho
[email protected]
Abstract
This paper reports the development of a computer application to support the decision
making, based on an automatic generation of simulation models, according to different control strategies, to support the redefinition of materials flow processing along an electronic
industry production line. An auto-radio production line was chosen, where the transport
and respective decisions are made automatically and are coordinated by a control system.
The simulation environment (ARENA) is employed in order to allow the production engineer to validate the impact of the control strategies on production. This contributes to an
improved specification, characterization and definition of the most efficient control system.
For this purpose, six strategies were investigated. The innovative part of this system can
be seen in its generic character of both the high level of flexibility from the point of view
of physical processing and control strategies and its capacity for parameterization - this
flexibility is achieved by means of automatic generation of Arena Models. An additional
contribution is the integration, in the simulation environment, of an automatic report generator showing the main performance measures of the models, in which information is
accessed via graphics, thereby providing a friendly interface for the user.
Resumo
Neste artigo apresenta-se uma aplicação informática para apoio à decisão, visando a
geração automática de modelos de simulação com diferentes estratégias de controlo para a
redefinição de fluxos de processamento de materiais ao longo de uma linha de produção da
indústria electrónica. Esta linha de produção é constituı́da por linhas de fabrico de autorádios em que o transporte e a respectiva decisão são realizados de uma forma automática,
e sob a coordenação de um sistema de controlo. Pretende-se que o recurso à simulação em
c 2005 Associação Portuguesa de Investigação Operacional
38 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
ambiente ARENA permita, ao engenheiro de produção, validar o impacto das estratégias
de controlo na produção, contribuindo para uma melhor especificação, caracterização e
definição do mais eficaz sistema de controlo; para isso, foram analisadas seis estratégias. A
caracterı́stica inovadora deste sistema reside no seu carácter genérico; no elevado ı́ndice de
flexibilidade, do ponto de vista do processo fı́sico e das estratégias de controlo, e nas facilidades de parametrização - esta flexibilidade é conseguida através da geração automática
de Modelos em Arena. Um contributo adicional deste trabalho consistiu na integração no
ambiente de simulação de um gerador automático de relatórios, reveladores dos principais
ı́ndices de desempenho dos modelos em presença, nos quais o acesso à informação é feito
através de gráficos, proporcionando uma interface amigável com o utilizador.
Keywords: Simulation, Decision Making Support Models, Production Line
Title: Automatic Generation of Simulation Models of an Auto-Radio Production Line
1
Introdução
O trabalho desenvolvido foi realizado no âmbito do projecto “MethoDES: Methodologies and
Tools for Developing Complex Real-Time E mbedded S ystems”, apoiado pela FCT 1 /MCES2
(POSI CHS/37334/2001), que contou com a colaboração de diversas instituições, a saber:
Centro Algoritmi (Universidade do Minho), National Instruments, IDITE-Minho e Instituto
Politécnico do Porto. Foi objectivo deste trabalho (Vieira 2002, Ferreira 2003) desenvolver
uma ferramenta de apoio à decisão que faculte a geração automática de modelos de simulação,
para retratar diferentes cenários de uma linha de montagem de auto-rádios, com recurso à selecção de diferentes estratégias de controlo para a redefinição de fluxos de materiais. Do ponto
de vista da abordagem à simulação, e no âmbito deste trabalho, dotou-se a ferramenta Arena
da capacidade de gerar automaticamente modelos de simulação, em oposição à abordagem
tradicional em que cada modelo é construı́do manualmente para cada cenário. O desenvolvimento desta versão adaptada da ferramenta Arena permite explorar, num reduzido perı́odo de
tempo, um número elevado de cenários, e obter, também automaticamente, relatórios com os
respectivos ı́ndices de desempenho. Os autores não conhecem abordagens semelhantes a esta,
nem tão pouco com este grau de flexibilidade e automatização. Na literatura da especialidade
apenas surgem trabalhos que introduzem algum grau de flexibilidade no modelo de simulação
a ser construı́do, através da parametrização de diferentes variáveis, de forma a permitir avaliar
o seu impacto no desempenho do sistema. Como exemplo desses trabalhos citamos os de (Alvarez et al. 1999) e (Ramis et al. 2001), nos quais a simulação é usada para aferir, no sector
da saúde, diferentes alternativas de escalonamento dos recursos.
As estratégias analisadas no presente trabalho pretendem facultar a possibilidade de avaliar o impacto que diferentes soluções de gestão de fluxos irão ter na produção. A definição
de regras de optimização do desempenho passa, necessariamente, por essa avaliação, de forma
a evitar o surgimento de situações que corresponderiam a estados de controlo menos eficazes.
Note-se, todavia, que a ferramenta proposta se destina, quase exclusivamente, a dar resposta
a um determinado tipo-padrão de configuração de linhas de produção. A linguagem de si1
2
Fundação para a Ciência e a Tecnologia.
Ministério da Ciência e do Ensino Superior.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 39
mulação utilizada neste trabalho foi o ARENA (Kelton et al. 2002), dado que a sua estrutura
hierárquica oferece diferentes nı́veis de flexibilidade, possibilitando a construção de modelos
extremamente complexos, aliados a uma forte componente visual. Todavia, para concretizar o
objectivo acima descrito, foi necessário resolver determinados problemas que, cientificamente,
formam a base deste trabalho, designadamente:
1. Generalizar diferentes fluxos de materiais, isto é, flexibilizar a ferramenta quer quanto à
configuração fı́sica da linha de produção, quer quanto às estratégias de controlo utilizadas
na produção.
2. Afectar esses fluxos a estratégias particulares que controlem o acesso dos auto-rádios aos
nós3 , de modo a evitar potenciais acidentes (por exemplo, choques de auto-rádios), e possibilitem a avaliação, por parte dos potenciais utilizadores desta ferramenta, do impacto
que a implementação de estratégias alternativas de controlo irão ter no desempenho da
linha de produção.
3. Integrar no ambiente de simulação, um gerador genérico de relatórios que, no termo do
processo de simulação, apresente automaticamente, sob a forma de gráficos, relatórios
contenho toda a informação julgada necessária para uma correcta avaliação do processo
produtivo.
A complexidade dos sistemas de produção, nos nossos dias, vem justificando a utilização
de técnicas de simulação, na detecção de problemas crı́ticos durante o projecto, planeamento,
implementação e operação de novos sistemas, ou ainda na análise (diagnóstico) de sistemas
existentes e no estudo de alterações (prognóstico) com vista à melhoria do seu desempenho
(Ferreira 1995). A simulação é uma das ferramentas da Investigação Operacional mais divulgadas e utilizadas na área dos sistemas produtivos (Kalasky 1996). O progresso tecnológico pode
ter um impacto dramático no sistema produtivo, em áreas como: a informação, os recursos
humanos, os equipamentos e os materiais. Em (Kalasky 1996) conclui-se que a duração dos
ciclos de produção está a decrescer significativamente em resultado do aparecimento de novas
tecnologias; a sua utilização deve ser feita de um modo equilibrado, designadamente, tendo
em atenção o seu contributo para melhorar o desempenho do sistema, os custos e o tempo
associados, bem como o valor acrescentado ao produto final.
2
Descrição do Sistema Real
O trabalho desenvolvido tem por referência o Sistema de Controlo das Linhas Hidro (SCLH)
responsável pela coordenação de um conjunto de linhas de produção de auto-rádios, instaladas
na fábrica da BLAUPUNKT AUTO-RÁDIO PORTUGAL, LDA, em Braga, Portugal.
As Linhas Hidro consistem em linhas de fabrico de auto-rádios em que o transporte e a
condução dos auto-rádios são realizados de uma forma automática e sob a coordenação de
um sistema de controlo cuja implementação actual recorre a um autómato programável e a
um PC4 . Nestas linhas, o sistema de transporte é composto por várias passadeiras rolantes e
3
4
Zona de processamento.
Computador Pessoal.
40 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
γ
robô
reparação
eα
start-up
afinação HFs
montagem
controlo
eβ
eδ
LA
LB
LC
χ
ζ
transfer
LD
LE
gravação
embalagem
eλ
eε
LF
χ
ζ
γ
Figura 1: Esquema geral das linhas Hidro.
elevadores, por onde circulam paletes, sobre as quais se colocam os auto-rádios. É também
possı́vel que paletes vazias circulem ao longo da linha, nomeadamente quando um auto-rádio
é embalado, pois a palete é reencaminhada para o inı́cio da linha para colocar um novo autorádio em produção (Fernandes 2000, Machado 2000). Estas linhas realizam um processamento
em pipeline dos auto-rádios, estando as várias unidades de processamento (postos) dispostas
sequencialmente ao longo da linha, com a excepção dos postos de reparação que, apesar de consistirem na primeira unidade de processamento das linhas, não fazem parte do processamento
sequencial primário (ver figura 1).
Os blocos representados na figura 1 (reparação, start-up, afinação HFs, montagem, controlo, gravação e embalagem) correspondem a zonas de processamento, podendo cada zona ser
composta por vários postos de trabalho, todos eles situados nos seus extremos.
Através do controlo do acesso dos auto-rádios às diferentes zonas de processamento, é
possı́vel generalizar diferentes fluxos de materiais. A cada uma destas zonas é também, dada
ao longo deste trabalho, a designação de nó. Assim, sempre que se refira a circunstância de um
auto-rádio ter ou não ter acesso ao nó, deverá entender-se como a possibilidade de ele aceder
àquelas zonas de processamento.
Cada Linha Hidro pode ser composta por cinco ou seis linhas de transporte de auto-rádios,
três superiores, designadas de LA , LB , LC , (cada uma com um sistema de passadeiras com um
movimento uniforme no sentido crescente do eixo Ox), e duas ou três inferiores, designadas
de LD , LE , LF , (cada uma com um sistema de passadeiras com um movimento uniforme no
sentido decrescente do eixo OX):
1. Linha de transporte superior LB . Esta linha serve, essencialmente, para transportar
auto-rádios entre postos não sequenciais.
2. Linhas de transporte superior LA e LC . Estas linhas servem, principalmente, para fornecer
auto-rádios aos buffers dos postos e, eventualmente, para transportar auto-rádios entre
postos sequenciais.
3. Linhas de transporte inferior LD , LE e LF . Qualquer uma destas três linhas realiza:
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 41
(a) O encaminhamento de auto-rádios avariados para os postos de reparação (principalmente LD ).
(b) A realimentação dos postos que, devido a buffers cheios, não aceitaram mais autorádios.
(c) O transporte de paletes vazias até ao inı́cio da linha (principalmente L E ).
As diversas Linhas Hidro, instaladas na fábrica da BLAUPUNKT, não possuem todas igual
configuração; as diferenças mais flagrantes que entre elas se verificam referem-se ao posicionamento dos elevadores, bem como ao número de linhas de transporte inferiores. Nos casos em
que apenas há 2 linhas inferiores, considera-se que não existe a linha LF (Fernandes 2000, Machado 2000). Existe ainda um robô que recebe os auto-rádios provenientes dos sub-processos
de fabrico anteriores (inserção de componentes) e que os coloca na linha de transporte L B , logo
a seguir ao elevador eα . Os transfers permitem realizar a movimentação de paletes entre linhas
de transporte do mesmo plano e entre as linhas de transporte e os elevadores. Adicionalmente,
existem, nas implementações actuais, cinco elevadores (designados de e α , eβ , eδ , eε , eλ ) que
estabelecem a ligação entre as linhas de transporte, superior e inferior:
1. Elevador eα. Este elevador realiza transportes unicamente de LE para LB , com o objectivo
principal de fornecer paletes vazias para que mais auto-rádios dêem entrada nas linhas
de transporte superior, por intermédio do robô, para serem processados.
2. Elevador eβ. Este elevador realiza transportes unicamente de LD para LC , essencialmente
para encaminhar auto-rádios avariados para os postos de reparação, ou para realimentar
postos a jusante (todos os postos estão a jusante de eβ ) que, devido a buffers cheios, não
aceitaram mais auto-rádios.
3. Elevadores eδ e eε . Estes elevadores realizam transportes nos dois sentidos: (i) de
LC para LD , essencialmente para encaminhar auto-rádios avariados para os postos de
reparação, ou para realimentar postos a montante (reparação, start-up, afinação de HFs e
montagem e, no caso de eε , também controlo) que, devido a buffers cheios, não aceitaram
mais auto-rádios; (ii) de LD para LC , essencialmente para realimentar postos a jusante
(controlo e, no caso de eε , também gravação e embalagem) que, devido a buffers cheios,
não aceitaram mais auto-rádios.
4. Elevador eλ. Este elevador realiza transportes unicamente de LB para LE , com o objectivo
principal de encaminhar paletes vazias, libertadas por auto-rádios entretanto embalados,
até ao inı́cio da linha HIDRO e, eventualmente, para realimentar postos a montante
(gravação e embalagem) que, devido a buffers cheios, não aceitaram mais auto-rádios,
ou para encaminhar auto-rádios avariados para os postos de reparação.
Os nós, compostos por transfers, permitem que os auto-rádios possam ser mudados de
linha (no mesmo plano) ou que sejam enviados para os elevadores (para mudar de plano).
Os elevadores, tal como foi referido anteriormente, estabelecem as ligações entre as linhas do
plano superior e as linhas do plano inferior. Apesar dos elevadores fazerem movimentos nos
dois sentidos do eixo Oz, o transporte de paletes (com ou sem auto-rádios) pode ser restringido
a apenas um sentido (Fernandes 2000, Machado 2000).
42 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
3
Estratégias Analisadas
A aplicação informática apresentada neste artigo tem por base o modelo das Linhas Hidro da
Blaupunkt, já oportuna e pormenorizadamente descritas, e tem por objectivo ser um protótipo
para aferir o impacto que determinadas decisões estratégicas de fluxos de materiais poderão
produzir no funcionamento daquele tipo de linhas. A especificação do sistema de controlo ideal
responsável pelo fluxo de materiais ao longo das Linhas Hidro requer, necessariamente, uma
correcta avaliação do impacto que a definição de diferentes estratégias de controlo ocasiona na
produção. Estas estratégias têm por função definir, com o rigor possı́vel, as regras de prioridade
a estabelecer, sempre que, no mesmo instante, mais do que um auto-rádio se encontra em
condições de acesso aos nós das Linhas Hidro. Na sua formulação, é imperioso ter em conta
a impossibilidade de mais que um auto-rádio ocupar, no mesmo instante, no interior dos nós,
o mesmo espaço fı́sico, para evitar situações de bloqueio, com choques de auto-rádios, cuja
ocorrência afectaria, seriamente, o desempenho global das linhas de transporte. Na aplicação
desenvolvida, o destino dos auto-rádios dentro dos nós, zonas de processamento, é gerado
aleatoriamente pelo programa, tendo em conta se aı́ existe, ou não, elevador. A este propósito,
se refere que não foi objectivo deste trabalho gerir o destino dos auto-rádios, mas sim, controlar
o seu acesso aos nós.
3.1
Definição das Estratégias
A implementação de um eficaz sistema de controlo responsável pelo fluxo de materiais ao longo
das Linhas Hidro exige a prévia caracterização, bem como a definição de diferentes estratégias
para, adequadamente, disciplinar o acesso dos auto-rádios aos nós. Nesse sentido, se apresenta
em termos genéricos, na figura 2, o fluxograma de controlo do acesso dos auto-rádios aos
nós o qual, servindo de suporte a cada uma das seis estratégias definidas no âmbito deste
trabalho, permite determinar quais os auto-rádios que podem avançar, de modo a, respeitando
a capacidade do nó, previamente parametrizada, evitar potenciais acidentes (v.g. 5 choques de
auto-rádios). As estratégias definidas com o objectivo acima explı́cito, apenas divergem entre
si, no modo como, para cada uma, se efectua o cálculo dos valores do factor Prioridade,
considerando-se prioritário o auto-rádio no qual este factor tenha módulo de menor valor. Por
exemplo, um auto-rádio de factor igual a zero terá prioridade, relativamente a outro, cujo
factor seja igual a um. Um outro elemento regulador que possibilita o ordenamento dos autorádios quanto ao factor Prioridade, diz respeito a situações nas quais o valor em módulo, desse
factor, seja igual. Nestes casos, o critério de decisão estabelece-se em função do valor do ı́ndice
da linha, considerando-se prioritário o auto-rádio cujo ı́ndice seja de menor valor.
Para a correcta compreensão do fluxograma apresentado na figura 2, se esclarece:
• O sentido do termo cruzamento, que integra a citação: “Ocorre cruzamento entre o autorádio que ocupa essa posição e os auto-rádios que constam da Lista de Saı́da?”, significa
colisão; uma vez que, em circunstância alguma é possı́vel, dois auto-rádios ocuparem, no
mesmo instante, o mesmo espaço fı́sico; para este efeito, ter-se-á em conta a posição de
origem e o destino de cada um dos auto-rádios.
5
Verbi Gratia = por exemplo.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 43
• O sentido do termo capacidade, refere-se ao número máximo de auto-rádios que podem
circular, em simultâneo, dentro de um determinado nó.
• Lista de Entrada é a ordenação dos auto-rádios, pelo seu grau de prioridade, em função
do ı́ndice das respectivas linhas.
• Lista de Saı́da indica os auto-rádios aos quais, em função do ı́ndice da respectiva linha,
será dada autorização para avançar.
• Apenas se mandar avançar determinado conjunto de auto-rádios, quando o conjunto
anterior tenha já abandonado o nó. Este facto justifica-se pela circunstância de, no
sistema real, se utilizar idêntico procedimento.
Apresentar-se-ão, em seguida, diferentes cenários, que exemplificam situações tı́picas de
funcionamento de cada uma das 6 estratégias de controlo desenvolvidas, bem como serão inseridos alguns comentários, para a correcta compreensão das regras que originaram determinados
comportamentos, e se descreve o processo seguido para o cálculo do factor Prioridade.
Estratégia 1
• Dar prioridade aos auto-rádios situados nas filas de espera de acesso aos nós de maior
comprimento.
O objectivo que determinou o desenvolvimento desta estratégia foi minimizar, quanto
possı́vel, o tamanho das filas de espera, nas linhas de acesso aos nós. Desta forma, tem a
prioridade máxima o auto-rádio situado em primeiro lugar na fila de espera cujo comprimento, comparativamente ao das restantes filas do mesmo nó, seja maior. Assim, para cada
linha, conforme figura 2, o cálculo do factor Prioridade obtém-se da seguinte forma:
valor = dimensão máxima da fila de espera do respectivo nó
factor Prioridade = dimensão da fila de espera - valor
Como exemplo da aplicação desta estratégia, na figura 3, observa-se um cenário em que o
auto-rádio #2, tem prioridade máxima, pois situa-se na linha LB , cuja fila de espera é de maior
comprimento. Deste modo, o auto-rádio #2 tem autorização para entrar no nó, e realizar o seu
trajecto para LA . Em consequência, o auto-rádio #1, de menor prioridade, não tem permissão
para avançar, uma vez que se cruzaria no seu trajecto com o auto-rádio #2. Assim, em face
da aplicação desta estratégia, resulta a decisão de mandar avançar apenas os auto-rádios #2 e
#3, cujos ı́ndices das linhas, de acordo com o fluxograma de controlo do acesso dos auto-rádios
aos nós (ver figura 2), constam da Lista de Saı́da, referida na tabela da figura 3. Neste cenário,
é fisicamente possı́vel realizar a movimentação dos auto-rádios #2 e #3 em paralelo, uma vez
que existe um desfasamento temporal na realização dos respectivos percursos.
Estratégia 2
• Dar prioridade aos auto-rádios cujo percurso a executar dentro do nó é menor.
A implementação desta estratégia teve como objectivo proporcionar ao utilizador desta
ferramenta de apoio à decisão, o ensejo de avaliar o impacto causado no desempenho do
44 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Condição inicial: n=1
Início (Nó n)
Avança
para o
próximo
Nó
(n=n+1)
Não
Existem
auto-rádios
no Nó n?
Sim
Calcula a Prioridade de cada
uma das Linhas do Nó n
Ordena os auto-rádios pela prioridade
(Lista de Entrada)*
* Em situação de igual prioridade, o
critério de decisão será o índice da linha,
considerando-se prioritário o auto-rádio
cuja linha tenha menor índice
Coloca o auto-rádio prioritário
no início da Lista de Saída
Adiciona o auto-rádio
à Lista de Saída
Não
Ocorre cruzamento
entre o auto-rádio que ocupa essa
posição e os auto-rádios que constam
da Lista de Saída?
Avança uma posição
na Lista de Entrada
Não
Sim
Capacidade do
Nó n Atingida?
Atingiu o Fim da
Lista de Entrada ?
NÃO
Sim
Sim
Não
Os auto-rádios da
Lista de Saída anterior
já abandonaram
o Nó n?
SIM
Manda avançar (Nó n) os
auto-rádios da Lista de Saída
Figura 2: Fluxograma de controlo do acesso dos auto-rádios aos nós.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 45
...
Capacidade do Nó = 3
LA
...
#1
Lista de Saída
Índice da Índice da Factor
(Índice da
Linha de Linha de Prioridade
Linha de
Origem Destino
Origem)
1
4
-1
2
(Elevador)
2
1
0
3
3
1
-1
0
...
LB
#4
...
#2
...
LC
#3
...
t1< t2< t3< t4< t5
γ
a) t1
χ
ζ
...
...
LA
#1
LA
#1
...
#2
...
...
...
LB
#2
#4
LB
...
#4
...
#3
...
...
LC
LC
...
#3
...
γ
b) t2
c) t3
ζ
χ
...
...
LA
#1
...
#3
#2
LA
...
#1
...
...
LB
...
#4
LB
...
#4
...
...
LC
LC
...
d) t4
#3
...
e) t5
Figura 3: Cenário de funcionamento da estratégia 1.
46 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
...
Capacidade do Nó = 3
LA
...
#1
Índice da
Linha de
Origem
Índice da
Linha de
Destino
Factor
Prioridade
Lista de Saída
(Índice da Linha de
Origem)
1
2
3
3
3
3
2
1
0
3
2
1
...
LB
...
#2
...
LC
t1< t2< t3< t4< t5
...
#3
γ
a) t1
χ
ζ
...
...
LA
LA
...
#1
...
...
...
LB
#2
LB
...
...
#1
...
...
LC
LC
...
#3
...
#2
#3
γ
b) t2
c) t3
ζ
χ
...
...
LA
LA
...
...
...
...
LB
LB
...
...
...
...
LC
...
#1
d) t4
LC
...
#2
#1
e) t5
Figura 4: Cenário de funcionamento da estratégia 2.
sistema, quando se considera prioritário o auto-rádio que executa o menor percurso dentro do
nó. Nesta estratégia, o cálculo do factor Prioridade realiza-se do seguinte modo:
factor Prioridade = ı́ndice da linha de destino – ı́ndice da linha de origem
Na figura 4, observa-se um cenário resultante da aplicação desta estratégia, em conformidade com o qual se constata que, apesar de os auto-rádios #1, #2 e #3, apresentarem
diferentes nı́veis de prioridade (ver tabela da figura 4), é possı́vel a sua movimentação em paralelo dentro do nó, sem que se verifique a ocorrência de quaisquer cruzamentos. Deste modo,
dar-se-á permissão de acesso ao nó, a todos os auto-rádios.
Estratégia 3
• Definir diferentes nı́veis de prioridade em função do tipo de auto-rádio.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 47
O objectivo desta estratégia é controlar o acesso dos auto-rádios aos nós, através da atribuição de diferentes nı́veis de prioridade a cada um dos três tipos de auto-rádios existentes no
sistema. Assim, em função da hierarquia estabelecida pelo utilizador, será atribuı́do a cada
um dos tipos de auto-rádios, um diferente valor para o factor Prioridade.
Na figura 5, é possı́vel observar um exemplo do funcionamento desta estratégia, na qual o
utilizador considerou, por ordem decrescente de prioridade, os auto-rádios dos tipos, a saber:
três (3), dois (2) e um (1). Neste caso, o auto-rádio ao qual é conferida maior prioridade
é o auto-rádio do tipo três (3), auto-rádio #3, situado na linha L C . Em consequência da
aplicação desta estratégia, usufruem de permissão de acesso ao nó, os auto-rádios #3 (tipo 3)
e #2 (tipo 2), os mais prioritários, cujo encaminhamento é possı́vel ser efectuado em paralelo,
sem quaisquer hipóteses de se verificarem fenómenos de colisão. Por outro lado, verifica-se que
o auto-rádio #1 (tipo 1), situado em LA , terá de aguardar à entrada do nó, que os auto-rádios
#3 e #2, executem o seu percurso, uma vez que, a ser-lhe dada autorização para entrar no
nó, se cruzaria com os outros auto-rádios.
Estratégia 4
• Prioridade definida em função da ordem crescente ou decrescente do ı́ndice de cada uma
das linhas de acesso aos nós.
O desenvolvimento desta estratégia teve como finalidade proporcionar ao utilizador a simulação de diferentes modelos nos quais o critério de decisão para o estabelecimento da prioridade é definido em função do ı́ndice das linhas de acesso aos nós. Para esse efeito, se
disponibilizaram duas opções, a saber:
• Por ordem crescente do ı́ndice das linhas (Opção 1).
• Por ordem decrescente do ı́ndice das linhas (Opção 2).
O cenário representado através da figura 6, elucidativo da implementação da estratégia 4
(Opção 1), revela que os auto-rádios situados nas linhas de menor ı́ndice, são os mais prioritários. Assim sendo, o auto-rádio #1, tem prioridade máxima, pois se situa na linha L A ,
cuja ı́ndice, igual a um (1), é o menor. Por esta razão, da aplicação desta estratégia resulta a
decisão de mandar avançar os auto-rádios #1 e #2, uma vez que, sendo os mais prioritários,
podem movimentar-se em paralelo, não se cruzando no seu percurso. Não é possı́vel autorizar
o acesso do auto-rádio #3 ao nó pois, o seu acesso à linha LB , ocasionaria, na sua trajectória,
uma situação de colisão com o auto-rádio #1, mais prioritário, o qual chegou ao nó através
da linha LA e se destina ao elevador.
Estratégia 5
No âmbito deste trabalho em que se pretende construir uma ferramenta de simulação que
permita aferir o impacto das estratégias de controlo no funcionamento do sistema de produção
em estudo, entendeu-se que seria interessante desenvolver estratégias de encaminhamento de
auto-rádios ao longo da linha de produção, as quais, em função de determinadas condições do
sistema, de uma forma dinâmica e automática, possibilitassem utilizar algumas das estratégias
anteriormente referidas, para a geração de fluxos de materiais. Assim, nesta estratégia, o
48 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
...
Capacidade do Nó = 3
LA
...
#1
Índice Índice
Tipo de
Factor
Lista de
da Linha da Linha Auto-Rádio Prioridade Saída (Índice
de
de
da Linha de
Origem Destino
Origem)
1
2
3
2
1
2
1
2
3
3
2
1
...
LB
3
2
0
...
#2
...
LC
#3
t1< t2< t3< t4< t5
...
γ
a) t1
χ
ζ
...
...
LA
LA
...
#1
#1
...
#2
...
...
LB
LB
...
#2
...
#3
...
...
LC
LC
...
#3
...
γ
b) t2
c) t3
ζ
χ
...
...
LA
...
#1
#2
LA
...
#1
...
...
LB
...
LB
...
#3
...
...
LC
LC
...
d) t4
...
e) t5
Figura 5: Cenário de funcionamento da estratégia 3.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 49
...
Capacidade do Nó = 3
LA
Índice da
Linha de
Origem
Índice da
Linha de
Destino
Factor
Prioridade
Lista de Saída
(Índice da Linha
de Origem)
1
4
(Elevador)
2
2
1
1
2
3
2
0
2
3
...
#1
...
LB
...
#2
...
LC
...
#3
t1< t2< t3< t4< t5
γ
a) t1
χ
ζ
...
...
LA
#1
LA
...
...
...
...
LB
#2
LB
...
...
#1
...
...
LC
LC
...
#3
#2
...
#3
γ
b) t2
c) t3
ζ
χ
...
...
LA
LA
...
...
...
...
LB
LB
...
...
...
...
LC
#3
...
#1
LC
...
#3
#1
d) t4
e) t5
Figura 6: Cenário de funcionamento da estratégia 4 (ordem crescente do ı́ndice das linhas).
50 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Condição inicial: n=1
Início (Nó n)
Nó n: Atingiu o valor
crítico das filas de espera?
NÃO
SIM
(n=n+1)
Estratégia 1
(Nó n)
Estratégia 2
(Nó n)
Figura 7: Fluxograma de controlo (Estratégia 5).
utilizador usufrui da possibilidade de, através da parametrização de um determinado valor
crı́tico para o tamanho das filas de espera, interferir sobre a estratégia reguladora do acesso
dos auto-rádios aos nós.
A figura 7 apresenta o fluxograma de controlo desenvolvido para a estratégia 5, permitindo
uma melhor percepção do seu funcionamento.
Como, através da figura 7, pode visionar-se, é o valor crı́tico das filas de espera que, em
cada nó, determina qual a estratégia de prioridade a utilizar em cada instante. Com efeito, é
esse valor que permite decidir qual das estratégias anteriormente descritas, estratégia 1 (dar
prioridade aos auto-rádios situados nas filas de espera de maior comprimento) ou estratégia
2 (dar prioridade aos auto-rádios cujo percurso é menor), aquela que vai ser utilizada para
encaminhar os auto-rádios dentro do nó.
A propósito se esclarece que, se o valor crı́tico definido pelo utilizador for igual a 0 (zero), os
algoritmos reguladores das estratégias 1 e 5 serão iguais. O desenvolvimento desta estratégia
tem por base dois objectivos: por um lado procurar que o tamanho das filas de espera de
acesso aos nós não atinja valores elevados, tendo por referência aquele que é o valor crı́tico
para o utilizador, por outro, minimizar o percurso dos auto-rádios dentro dos nós.
Estratégia 6
Posto que tenhamos em atenção tudo quanto foi referido relativamente à estratégia 5,
foi desenvolvida uma nova estratégia que, embora muito semelhante a esta, apresenta uma
singularidade. Com efeito, nesta outra estratégia (estratégia 6) sempre que não seja atingido
o valor crı́tico das filas de espera definido pelo utilizador e haja auto-rádios cujo destino sejam
os postos de trabalho situados nos extremos da linha de produção, ser-lhes-á dada prioridade
máxima; nas demais situações o cálculo da prioridade será o já definido para a estratégia 2, na
qual é dada prioridade aos auto-rádios cujo percurso a executar dentro do nó seja menor. O
fluxograma de controlo desenvolvido para esta estratégia encontra-se representado na figura 8.
O interesse que presidiu à formulação desta estratégia reside na necessidade de concretização de diversos objectivos, a saber:
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 51
Condição inicial: n=1
Início (Nó n)
Nó n: Atingiu o valor
crítico das filas de espera?
SIM
(n=n+1)
NÃO
SIM
Nó n: Existem
auto-rádios para os
postos de trabalho?
É dada prioridade
a estes auto-rádios (Nó n)
NÃO
Estratégia 1
(Nó n)
Estratégia 2
(Nó n)
Figura 8: Fluxograma de controlo (Estratégia 6).
• Minimizar a extensão das filas de espera de acesso aos nós, sempre que um determinado
valor crı́tico parametrizado pelo utilizador seja atingido.
• Maximizar os nı́veis de utilização dos postos de trabalho que estão situados nos extremos
da linha de produção, facultando acesso prioritário aos auto-rádios que a esses postos se
destinem.
• Minimizar o percurso a efectuar por cada auto-rádio dentro do nó.
Refira-se, porém, que os objectivos antes mencionados se articulam dinamicamente, entre si,
em função da ocorrência de determinadas condições representadas na figura 8. Assim, através
da implementação desta estratégia, o acesso às diversas zonas de processamento, situadas
ao longo da linha de produção, tem um ajuste automático, em função, quer de parâmetros
definidos pelo utilizador, quer do destino dos auto-rádios dentro daquelas zonas. Saliente-se
que, tal como é assinalado na descrição da estratégia 5, sempre que o valor crı́tico das filas de
espera definido pelo utilizador para esta estratégia seja igual a 0 (zero), as estratégias 1 e 6
são iguais.
3.2
Geração Automática
Após terem sido descritas as estratégias de controlo que estabelecem os critérios de prioridade
para regular o acesso dos auto-rádios aos nós, e respectivo encaminhamento ao longo da linha
de produção, na figura 9 é apresentada a interface gráfica que permite ao utilizador seleccionar a
estratégia a utilizar para esse efeito; além disso é possı́vel nesta mesma interface parametrizar os
tempos de rota dos auto-rádios dentro das zonas de processamento (nós), bem como configurar
o intervalo entre amostragens. Estas são algumas das funcionalidades que o desenvolvimento
da versão adaptada do Arena passou a disponibilizar.
52 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Figura 9: Módulo de gestão e controlo.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 53
Figura 10: Parâmetros do sistema (Vieira 2002).
O trabalho desenvolvido deu origem a uma aplicação de apoio à decisão que engloba todo
o processo, desde a construção fı́sica dos modelos (Vieira 2002, Ferreira 2003), ao controlo dos
fluxos de materiais (Ferreira 2003), bem como à apresentação dos seus principais ı́ndices de
desempenho.
Na figura 10 apresenta-se um dos módulos que integra a interface gráfica deste trabalho,
na qual é possı́vel configurar os parâmetros fı́sicos do modelo que vai ser construı́do, e os
parâmetros de chegada das entidades. Assim, é possı́vel definir, entre outros parâmetros:
• Número de linhas (n)6 .
• Número de zonas de processamento (m)6 .
• Localização dos elevadores.
• Intervalo entre chegadas das entidades ao sistema (em cada uma das linhas).
Além disso, a figura 10 exemplifica um modelo, que integra três linhas, três nós e dois
elevadores, estes localizados no primeiro e último nó, respectivamente.
6
1 ≤ n ≤ 20 e 1 ≤ m ≤ 20.
54 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Word
Excel
.......
Geração
Automática de
Gráficos
CRYSTAL
REPORT
Templates
ACCESS
VB
ARENA
SIMAN
VBA
Figura 11: Versão adaptada do Arena para geração automática de modelos e relatórios.
Este trabalho pretende promover, junto do utilizador desta aplicação informática, condições
para comparar diferentes alternativas de fluxos de materiais e, desse modo, permitir-lhe uma
correcta avaliação do desempenho de cada uma. Neste contexto, considerou-se de todo o interesse integrar no ambiente de simulação, um gerador automático de relatórios nos quais se
apresenta informação de pormenor sobre os principais ı́ndices de desempenho dos modelos simulados, com o recurso à visualização de gráficos. O trabalho desenvolvido exigiu a integração
de diversas aplicações no ambiente de simulação ARENA, as quais são, a saber:
• Visual Basic for Applications (VBA)
• Visual Basic (VB)
• Microsoft Access (Base de Dados)
• Crystal Report (Edição de Gráficos)
• ARENA / SIMAN
Seguidamente, neste artigo, é apresentada em termos genéricos, a forma como se processa
a integração daquelas aplicações no sistema desenvolvido para apoio à decisão (ver figura
11). A ferramenta Crystal Report da Crystal Decisions (URL7 : www.crystaldecisions.com), aı́
referenciada, é uma aplicação que disponibiliza, entre outros recursos, a possibilidade de criar
relatórios gráficos, a partir de uma base de dados do Microsoft Access.
O gerador automático de relatórios implementado, a partir do qual se processa a edição
de diferentes gráficos que contêm informação sobre os principais ı́ndices de desempenho dos
modelos, destaca-se pelo seu carácter genérico e flexı́vel, uma vez que a edição dos gráficos é
independente das caracterı́sticas fı́sicas do sistema que está a ser simulado, assim como das
estratégias de controlo utilizadas para realizar o encaminhamento dos auto-rádios ao longo da
linha de produção. Neste mesmo contexto, é de salientar o aspecto visual dos gráficos produzidos, os quais proporcionam ao utilizador uma melhor percepção do desempenho dos modelos
7
Universal Resource Locator.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 55
que foram simulados. Dos indicadores de desempenho que foram considerados, destacam-se,
entre outros:
• Nı́veis de utilização dos postos de trabalho.
• Tempos médios / máximos de permanência dos auto-rádios nas filas de espera de acesso
aos nós.
• Comprimento médio / máximo das filas de espera de acesso aos nós.
• Número de operações realizadas em cada posto de trabalho.
• Tempo mı́nimo / médio / máximo de produção dos auto-rádios.
• Número de auto-rádios produzidos.
3.3
Caracterı́sticas da Aplicação Desenvolvida
A aplicação informática desenvolvida no âmbito deste trabalho, com o firme propósito de
dar resposta aos objectivos e problemas que lhe servem de fundamento, destaca-se pelo seu
carácter, simultaneamente:
• Genérico e flexı́vel
Na medida em que permite a generalização de diferentes fluxos de materiais, através
da flexibilização da ferramenta quer quanto à configuração fı́sica da linha de produção
(podem existir n8 linhas de montagem e m8 zonas de processamento), quer quanto às
estratégias de controlo utilizadas na produção (foram desenvolvidas 6 estratégias). Além
disso, foi integrado na aplicação desenvolvida um gerador de relatórios gráficos, que
se distingue pelo seu carácter extremamente genérico, uma vez que apresenta toda a
informação sobre o desempenho do sistema, independentemente das suas caracterı́sticas
fı́sicas e estratégias seleccionadas.
• Parametrizável
Na medida em que permite ao utilizador, no inı́cio da simulação, interactuar com o
sistema que vai ser desenvolvido, através da introdução de diversos parâmetros (por
exemplo: estratégias de controlo, tempos de rota e de processamento) e, desta forma,
testar as potencialidades do sistema sob diferentes condições de funcionamento.
• Visual
Na medida em que representa, no ecrã do computador, o estado do sistema em cada
instante, e a sua evolução ao longo do tempo, permitindo deste modo uma melhor comunicação entre o modelo e o utilizador. Com efeito, a forte componente visual dos modelos
desenvolvidos torna-os transparentes para os agentes de decisão que, eventualmente, os
venham a utilizar pois possibilita que estes assistam às interacções entre as entidades que
constituem o modelo, ocasionando uma melhor compreensão dos resultados da simulação.
• Automático
Na medida em que, introduzidos os dados, dispensa qualquer outra intervenção do utilizador para a construção dos modelos.
8
1 ≤ n ≤ 20 e 1 ≤ m ≤ 20.
56 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Se t2 = t1 + t1 + t2
Se t2 = t1 + t1
Se t2 = t1 + t
t
...
LA
#C
...
#A
...
LB
#D
...
#B
...
LC
Legenda:
t1 e t2 - Instantes de Amostragem.
∆t1 - Tempo de Rota do auto
rádio #A, dentro do Nó.
∆t < ∆t1
...
#E
γ
t2
t1
t1
ζ
χ
Figura 12: Diferentes instantes de amostragem para a tomada de decisão (t 1 < t2 ).
A natureza, simultaneamente, genérica, flexı́vel, parametrizável, visual, e automática desta
aplicação, faz com que esta seja uma ferramenta de utilização “indispensável” na análise e
auxı́lio à tomada de decisões em sistemas produtivos de igual configuração, onde são diversos
os aspectos a considerar, bem como as fontes de incerteza e variabilidade.
3.4
Acesso às Zonas de Processamento (Nós)
As estratégias analisadas têm por base um conjunto de decisões, reguladoras do acesso dos
auto-rádios aos nós. Estas decisões, porém, não são tomadas em tempo-real, mas em intervalos
de tempo discretos. Esta técnica consiste em inspeccionar, em intervalos regulares e de uma
forma sequencial, cada um dos nós da linha de produção e, a partir daı́, tomar as decisões
de encaminhamento. Para melhor compreensão, apresenta-se na figura 12, um esquema 9 representativo do que ocorre, num determinado nó, nos instantes t1 e t2 , em que são tomadas
decisões visando determinar quais os auto-rádios que devem avançar.
No instante de amostragem t1 (ver figuras 12 e 13), o auto-rádio A acabou de chegar; como
o nó está livre e apenas existe este auto-rádio à entrada, ser-lhe-á dada autorização de acesso
ao nó.
Tenhamos em atenção que apenas se autoriza que determinado conjunto de auto-rádios
aceda ao nó, quando o conjunto anterior o tenha já abandonado; ora, no instante de amostragem t2 , dependendo da amplitude do intervalo entre amostragens (t2 – t1 ), podem ocorrer
diversas situações (ver figura 12) que influenciarão as decisões de encaminhamento dos autorádios ao longo da linha de produção, a saber:
9
Considera-se que a velocidade de deslocamento de todos os auto-rádios é igual.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 57
Figura 13: Instante de amostragem t1 .
• Situação 1 – Instante de amostragem t2 = t1 + ∆t
Nesta situação (ver figuras 14 e 12), como o intervalo entre amostragens (neste caso igual a
∆t), é inferior ao tempo de rota do auto-rádio A (∆t1 ), não será dada permissão para avançar a
nenhum dos auto-rádios situados à entrada do nó (neste caso apenas o auto-rádio #B). Assim,
os dados recolhidos por esta amostragem serão perdidos, considerando-se esta uma amostra
supérflua. Deste modo, ainda que as decisões de controlo do acesso dos auto-rádios aos nós
fossem tomadas em tempo-real, o resultado obtido seria igual para este tipo de situações.
• Situação 2 – Instante de amostragem t2 = t1 + ∆t1
Nesta outra situação (ver figuras 15 e 12), o auto-rádio #A terminou o seu percurso dentro
do nó, uma vez que o instante de amostragem t2 é igual a (t1 + ∆t1 ). Nesta circunstância, tal
como no caso anterior, as decisões de encaminhamento são tomadas como se o controlo dos
fluxos dos auto-rádios ocorresse em tempo-real.
• Situação 3 – Instante de amostragem t2 = t1 + ∆t1 + ∆t2
Na figura 16, observa-se uma outra situação (também de acordo com o que se descreve na
figura 12), em que o instante de amostragem t2 é igual a (t1 + ∆t1 + ∆t2 ). Nesta situação,
existirá um erro residual no processo de simulação, traduzı́vel em termos temporais num valor
igual a ∆t2 . Desta forma, durante o intervalo de tempo ∆t2 , existirão diversos auto-rádios à
entrada do nó (inicialmente os auto-rádios #B e #C; e depois os auto-rádios #B, #C e #E),
estando este livre e, portanto, disponı́vel para operar.
Tudo o que foi referido até ao momento, teve como objectivo elucidar o leitor, relativamente à técnica utilizada no controlo do acesso dos auto-rádios aos nós da linha de produção.
Como se depreende da explicação acima, esta técnica apresenta, contudo, algumas limitações,
58 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Figura 14: Instante de amostragem t2 = t1 + ∆t.
...
LA
#C
...
...
LB
#B
...
...
γ
LC
...
ζ
Figura 15: Instante de amostragem t2 = t1 + ∆t1 .
χ
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 59
Figura 16: Instante de amostragem t2 = t1 + ∆t1 + ∆t2 .
Tabela 1: Intervalo de Amostragem / Intervalo entre Chegadas de Auto-Rádios.
Parâmetros
Intervalo de Amostragem
Intervalo entre Chegadas
de Auto-Rádios
Situação A
1 Unidade de
Tempo
30 Unidades de
Tempo
Situação B
30 Unidades de
Tempo
1 Unidade de
Tempo
uma vez que existe uma óbvia independência entre o processo de amostragem durante o qual
são tomadas as decisões reguladoras do acesso dos auto-rádios aos nós, e as transições de
estado no sistema. Assim, é fácil acontecer que entre duas amostragens, e correspondentes
decisões de encaminhamento, ocorra um erro residual no processo de simulação (ver Figura
16), comparativamente ao que sucede com a tomada de decisões em tempo-real. Por outro
lado, é verdade que a diminuição do intervalo entre amostragens, e consequente aumento da
sua frequência10 , permite que esse erro se torne cada vez menor. Todavia, um outro factor
a ter em conta, para esse efeito, refere-se à frequência com que os auto-rádios chegam aos
nós. Para uma plena compreensão deste facto, seguidamente se enunciam, duas situações bem
relevantes da influência que a frequência de amostragem e a da chegada dos auto-rádios aos
nós poderão exercer nos resultados finais da simulação.
Na situação A (ver tabela 1), em face dos valores parametrizados, poder-se-á afirmar que as
decisões de controlo do acesso dos auto-rádios são tomadas em tempo-real, pois o intervalo de
amostragem, comparativamente ao intervalo entre chegadas dos auto-rádios, é muito menor.
Por outro lado, na situação B, os valores apresentados por aqueles dois intervalos, afectam
gravemente os resultados a obter no termo da simulação, pois o intervalo de amostragem é
muito maior do que o existente entre chegadas dos auto-rádios. Por tudo isto, entendeu-se
por bem disponibilizar ao utilizador do sistema de apoio à decisão implementado, a opção de
10
Frequência de amostragem = 1 / ∆T, em que ∆T é o intervalo entre amostragens.
60 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
configurar o intervalo de amostragem11 .
Na literatura cientı́fica da especialidade, o teorema de amostragem conhecido por Teorema
de Nyquist (Oppenheim 1989), estabelece um número mı́nimo de amostragens para que, através
da informação que proporcionam, seja possı́vel reconstituir um determinado fenómeno. Com
efeito, estabelece que a frequência de amostragem deve ser, no mı́nimo, duas vezes superior à
maior frequência envolvida no fenómeno (Brito et al. 2001). Deste modo, e tendo em atenção o
disposto pelo Teorema de Nyquist, considera-se que o intervalo de amostragem ideal, deve ser
no máximo igual a metade do menor intervalo de tempo que medeia a chegada dos auto-rádios
aos nós.
Assim, poder-se-á obter resultados credı́veis, desde que o utilizador esteja sensibilizado
para a influência que uma incorrecta parametrização da frequência de amostragem poderá ter
nos resultados finais da simulação.
4
Conclusões
O objectivo principal do trabalho apresentado neste artigo consistiu no estudo e desenvolvimento de um sistema de apoio à decisão, o qual possibilita, de uma forma genérica e automática, a geração de modelos com diferentes estratégias de controlo para a redefinição de
fluxos de processamento de materiais, sendo possı́vel, deste modo, criar modelos extremamente
diversificados, oferecendo ao utilizador o ensejo de optar pela solução que, em seu entender,
melhor se adapte ao sistema que pretende projectar. Além do mais, a forte componente visual
dos modelos construı́dos facilitará ao utilizador a sua melhor compreensão e aceitação, mesmo
que este não possua grande preparação técnica e cientı́fica.
Na sequência da realização deste trabalho, um gerador automático de relatórios foi integrado no ambiente de simulação ARENA, de forma a permitir ao utilizador, no final de cada
simulação, avaliar o comportamento do modelo construı́do, através da visualização de gráficos
que transmitem os valores dos principais ı́ndices de desempenho do sistema.
O recurso à simulação num projecto desta natureza, põe em evidência a importância desta
técnica na especificação do controlo ideal para a condução de fluxos de materiais, contribuindo
para uma melhor especificação, caracterização, definição, e consequente implementação do
mais eficaz sistema de controlo. Do ponto de vista estritamente cientı́fico, no âmbito deste
trabalho, foram desenvolvidas seis estratégias de controlo, cuja importância resulta do facto
de estas terem por objectivo permitir, ao potencial utilizador da ferramenta de apoio à decisão
desenvolvida, validar o impacto que a implementação de diferentes estratégias de controlo irá
ter na produção.
Em termos globais, este trabalho vai na direcção do que hoje se considera como sendo as
grandes tendências no desenvolvimento de avançados sistemas de simulação (Ferreira 2003):
i) propõe um sistema genérico e flexı́vel de generalização de fluxos de materiais para uma determinada configuração de linhas de produção; ii) permite a geração automática de diferentes
modelos de simulação; iii) destaca a importância do desenvolvimento de sistemas de simulação
11
Na aplicação que serve de suporte à construção fı́sica dos modelos já é possı́vel configurar o intervalo entre
chegadas dos auto-rádios.
L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62 61
visuais que facilitem a comunicação entre o agente de decisão e o modelo de simulação, em
contraste com as técnicas analı́ticas normalmente utilizadas pela Investigação Operacional, as
quais tornam os modelos pouco acessı́veis aos gestores ou agentes de decisão; iv) é acessı́vel
aos potenciais utilizadores, porquanto o seu uso não exige grandes conhecimentos técnicos; v)
integra no ambiente de simulação, um gerador automático de relatórios gráficos, que apresentam informação sobre o desempenho dos modelos, aspecto essencial num eficaz processo de
apoio à decisão.
Um trabalho com esta dimensão não pode deixar de ter limitações; todavia, não deve ser
catalogado como um produto acabado, no sentido comum em que todos os resultados são ideais.
Como exemplo se destaca uma dessas limitações:
• As estratégias de controlo poderão não reflectir, integralmente, todas as possı́veis decisões que permitem a movimentação, em concreto, dos auto-rádios ao longo da linha de
produção.
Dando continuidade às propostas aqui apresentadas, e já numa perspectiva de trabalho
futuro, este trabalho poderá vir a ser complementado com a incorporação, na ferramenta de
apoio à decisão, de estratégias inteligentes de controlo que permitam a optimização da gestão
dos fluxos de materiais, em cada uma das zonas de processamento, ao longo da linha de
produção, tendo em atenção o que se passa a jusante daquelas zonas.
5
Referências
Alvarez, A.M., Centeno, M. A. (1999). “Enhancing Simulation Models For Emergency Rooms
Using VBA”, in Proceedings of 1999 Winter Simulation Conference, P. A. Farrington, H. B.
Nembhard, D. T. Sturrock, and G. W. Evans, eds.
Brito, A.E.S.C., Teixeira, J.M.F. (2001). ”Simulação por Computador – Fundamentos e Implementação de Código em C e C++ ”, 1a Edição, Publindústria Edições Técnicas, ISBN 972-987262-7.
Fernandes, J.M.L. (2000). “MIDAS: Metodologia Orientada ao Objecto para Desenvolvimento
de Sistemas Embebidos”, Tese de Doutoramento em Informática, Área de Conhecimento em
Engenharia de Computadores, Departamento de Informática, Escola de Engenharia, Universidade
do Minho.
Ferreira, J.J.P. (1995). “Suporte do Ciclo de Vida dos Sistemas Integrados de Fabrico através
de Modelos Executáveis sobre Infra-estruturas de Integração”, Tese de Doutoramento em Engenharia Electrotécnica e de Computadores, Faculdade de Engenharia da Universidade do Porto.
Ferreira, L.P. (2003). “Geração Automática de Modelos de Simulação de uma Linha de Produção
na Indústria Electrónica”, Dissertação de Mestrado em Engenharia Industrial, Especialidade de
Logı́stica e Distribuição, Departamento de Produção e Sistemas, Universidade do Minho, 139
pp., Julho de 2003.
Kheir, N.A. (1996). “Systems Modeling and Computer Simulation”, Second Edition, Marcel Dekker, INC., ISBN 0-8247-9421-4, Chapter 7 –“Manufacturing Systems: Modeling and Simulation”
(David R. Kalasky – Process Analysis and Improvement, Wheaton, Illinois).
Kelton, W.D., Sadowski, R. P., Sadowski, D. A. (2002). “Simulation With ARENA”, Second
Edition, McGraw-hill Series in Industrial Engineering and Management Science, ISBN 0-07250739-X.
62 L.P. Ferreira, G.A. Pereira, R.J. Machado / Investigação Operacional, 25 (2005) 37-62
Machado, R.J. (2000). “Metodologias de Desenvolvimento em Projectos de Engenharia de Computadores no Suporte à Implementação de Sistemas de Informação Distribuı́dos Não Convencionais (Industriais)”, Tese de Doutoramento em Informática, Área de Conhecimento em Engenharia
de Computadores, Escola de Engenharia, Universidade do Minho.
Oppenheim, A.V., Schafer, R. W. (1989). “Discrete-Time Signal Processing”, Prentice Hall,
ISBN 0-13-216771-9.
Ramis, F.J., Palma, J.L. , Baesler, F.F. (2001). “The Use Of Simulation For Process Improvement
At An Ambulatory Surgery Center”, in Proceedings of 2001 Winter Simulation Conference, B.A.
Peters, J.S. Smith, D.J. Medeiros, and M. W. Rohrer, eds.
Vieira, P. (2002). “Gerador Automático de Modelos de Simulação”, Relatório de Estágio da
Licenciatura em Engenharia de Sistemas e Informática, Departamento de Informática, Escola de
Engenharia, Universidade do Minho.
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
63
Um melhor limite inferior para o problema do
caixeiro viajante assimétrico baseado no problema
da afectação
Ana Ramires
‡
‡
João Soares∗†
Departamento de Matemática
Universidade Portucalense
4200 Porto, Portugal.
[email protected]
†
Departamento de Matemática
Universidade de Coimbra
3000 Coimbra, Portugal.
and Centro de Matemática da Universidade de Coimbra.
[email protected]
Abstract
In this article we decribe how to compute a lower bound for the asymmetric traveling
salesman problem that dominates the bound that comes from the assignment relaxation,
through the solving of a sequence of assignment problems. The algorithm that we propose
is a first-order method based on the exponential penalty function. Directions of movement
are derived from a disjunctive relaxation that we proposed as being one of two possible
classes, one based on cycles, the other based on cliques.
Resumo
Neste artigo explicamos como obter um limite inferior para o valor óptimo do problema
do caixeiro viajante assimétrico melhor do que o que advém do problema de afectação
através da resolução sucessiva de problemas de afectação. O algoritmo que propomos é um
método de primeira ordem baseado na função de penalidade exponencial cujas direcções
de deslocamento são definidas com base numa relaxação disjuntiva que propomos ser de
dois tipos, uma baseada em ciclos e a outra baseada em cliques.
Keywords: Optimization, Combinatorial Optimization, Lower Bounds, Asymmetric Traveling Salesman, Disjunctive Programming
João Soares acknowledges partial finantial support from Fundação para a Ciência e Tecnologia (Projecto
POCTI/MAT/14243/1998).
∗
c 2005 Associação Portuguesa de Investigação Operacional
64
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
Title: An improved lower bound for the asymmetric traveling salesman problem based on the assignment problem
1
O Problema do Caixeiro Viajante Assimétrico
Seja G[c] = (V, E) um grafo dirigido simples (i.e., sem laços e arcos múltiplos) com n vértices
e m arcos, tal que a cada arco (i, j) ∈ E está associado um escalar real c ij designado por custo
do arco (i, j). O problema do caixeiro viajante assimétrico consiste em determinar em G[c] um
ciclo Hamiltoniano de custo mı́nimo. Num grafo dirigido, um ciclo Hamiltoniano é um ciclo
com todos os arcos orientados na mesma direcção e que passa por todos os vértices uma única
vez. Este problema (que em inglês é chamado Asymmetric Traveling Salesman Problem, e por
isso denotado ATSP) tem vindo a servir de plataforma de teste para diversas metodologias de
resolução em optimização combinatória e, por isso, também foi a classe de problemas escolhida
para testar a nossa metodologia.
O livro [27] sumaria a investigação no ATSP em todos os seus aspectos até 1985, enquanto
que o livro [19] é uma referência mais actual. Em lı́ngua portuguesa e do nosso conhecimento,
os trabalhos de sı́ntese sobre o ATSP incluem os artigos de Coelho e Cerdeira [25, 26], a
dissertação de Pires [30] e o artigo didáctico de Constantino [10].
De acordo com [12], os códigos mais eficazes para a resolução do ATSP são: o código CDT
[7, 6] - método branch-and-bound onde todas as relaxações lineares são problemas da afectação;
o código FT-add - coincide com CDT mas após a resolução de cada problema da afectação o
limite inferior é melhorado através da resolução de arborescências de custo mı́nimo, tal como
é explicado em [13]; o código FT-b&c [14] - um método branch-and-cut que usa diversas
desigualdades válidas para o ATSP e onde todas as relaxações lineares são problemas lineares
gerais; o código Concorde, disponı́vel em http://www.tsp.gatech.edu// — um método
branch-and-cut pensado para o STSP, a versão simétrica do ATSP, do mesmo modo que FTb&c foi pensado para o ATSP. Como qualquer ATSP pode ser reformulado como um STSP,
o código Concorde também permite resolver o ATSP.
Portanto, as implementações FT-b&c e Concorde usam relaxações lineares muito mais
apertadas do que CDT e FT-add. Consequentemente, os limites inferiores gerados são muito
mais eficazes na eliminação de nós na árvore do branch-and-bound. Contudo, esses códigos
dependem do interface com um código eficiente para programação linear. Hoje em dia, um
tal código é sinónimo de um código altamente sofisticado como é o Cplex.
A questão especı́fica de obter bons limites inferiores para o ATSP resolvendo uma sucessão
de problemas com resolução muito eficiente é abordada em [3], em [13] e em [24]. Bons limites
inferiores podem vir a tornar um código como o CDT (e FT-add) mais competitivo. A
primeira referência procura generalizar o limite Held-Karp (proposto para o caso simétrico
em [23, 22]) para o ATSP enquanto que a segunda referência explora as diversas subestruturas
particulares na formulação tradicional do ATSP (afectação, arborescência) e que possuem
métodos de resolução especı́ficos muito eficientes. A terceira referência usa a reformulação do
ATSP como um STSP, aplica a abordagem Lagrangeana de Held e Karp, e depois retoma o
ATSP original.
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
65
Limites inferiores servem também para avaliar o desempenho de heurı́sticas em problemas
que não possuem o valor óptimo conhecido ou é moroso obtê-lo. Foi aliás, para esse contexto
que foi pensado o limite inferior sugerido em [24].
Motivados pela importância de descobrir bons limites inferiores para o ATSP apresentamos,
neste trabalho, uma estratégia de obter um limite inferior para o valor óptimo do ATSP
melhor do que o que advém do problema de afectação. O algoritmo que propomos é do tipo
Lagrangeano mas, ao contrário da abordagem clássica, não requer a actualização de variáveis
duais e obriga apenas à resolução sucessiva de problemas de afectação como subproblemas.
No entanto, o algoritmo que propomos neste trabalho requer um estudo computacional
mais aprofundado pois as experiências computacionais preliminares que efectuámos permitiram identificar diversas limitações. As limitações são estruturais e não parecem ser simples
ajustamentos na implementação. Por isso, não pretendemos neste trabalho demonstrar a viabilidade numérica do nosso algoritmo nem mesmo compará-lo com as abordagens clássicas
de relaxação Lagrangeana. Pretendemos tão simplesmente demonstrar que o nosso algoritmo
conceptualmente tira grande partido da estrutura especı́fica do ATSP embora ainda não o seja
verificado experimentalmente.
Na próxima secção, recordamos a formulação clássica para o Problema do Caixeiro Viajante
Assimétrico. Na Secções 3 e 4 explicamos como se pode fortalecer uma relaxação linear através
relaxações lineares disjuntivas, que usam o facto de que um dado ponto extremo não satisfaz
uma restrição de ciclo ou de clique. Explicaremos como optimizar adequadamente uma função
linear nessas relaxações lineares disjuntivas. Na Secção 5, propomos um algoritmo que permite
obter um limite inferior melhorado para o valor óptimo do ATSP e ilustramos algumas iterações
desse algoritmo com um exemplo. Na Secção 6, referimos as conclusões possı́veis do trabalho
e identificamos novas questões cientı́ficas.
2
A formulação clássica
A formulação clássica do ATSP utiliza uma variável xij ∈ {0, 1} por cada arco (i, j) ∈ E, que
indica se o arco (i, j) pertence ou não ao ciclo Hamiltoniano procurado, e é a seguinte:
z = min
X
cij xij
(i,j)∈E
s.a
X
xij = 1
(i ∈ V ),
(1)
xij = 1
(j ∈ V ),
(2)
((i, j) ∈ E),
(3)
(S ⊆ V, S 6= ∅, V ),
(4)
((i, j) ∈ E),
(5)
(i,j)∈δ + (i)
X
(i,j)∈δ − (j)
xij ≥ 0
X
xij ≤ |S| − 1
(i,j)∈E(S)
xij ∈ Z
onde δ + (i) denota o conjunto dos arcos de G que “saem”do vértice i, e δ − (i) denota o conjunto
dos arcos de G que “entram”no vértice i.
66
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
As restrições (1)-(3) definem um poliedro que denotaremos por P ASS (ASS de “Assignment”). Os pontos extremos de P ASS satisfazem as restrições (5) e são os vectores caracterı́sticos de ciclos Hamiltonianos e subpercursos de G. O valor de min{cx : x ∈ P ASS } é um
limite inferior para z, que pode ser obtido em O(n3 ) operações aritméticas e comparações
através do método Húngaro ([27], por exemplo) mesmo que a função objectivo seja definida
por números reais. Os vectores caracterı́sticos de ciclos Hamiltonianos em G são os pontos
extremos de P ASS que satisfazem as restrições (4) - normalmente designadas por restrições de
eliminação de subpercursos - no caso particular apresentado, esta classe de restrições também
é designada por restrições de clique. Denotaremos por P ATSP o invólucro convexo das soluções
admissı́veis de (1)-(5).
O problema min{cx : x ∈ P ATSP } é N P-difı́cil ([27], por exemplo). No entanto, a sua
relaxação linear pode ser resolvida em tempo polinomial através do método elipsóide [20],
conforme explicado em [18] - aqui já se torna necessário que c seja racional. Essencialmente,
isso deve-se ao facto de que dado x̄ satisfazendo as restrições (1)-(3), averiguar se x̄ satisfaz as
restrições (4) consiste na resolução de um problema de corte mı́nimo global em G[x̄] porque,
para todo o x que satisfaça as restrições (1), tem-se


X
X
X
X
X

xij =
xij −
xij
(6)
xij  = |S| −
i∈S
(i,j)∈E(S)
(i,j)∈δ + (i)
(i,j)∈E : j ∈S
/
(i,j)∈δ + (S)
e, portanto, cada uma das restrições (4) pode ser substituı́da por
X
xij ≥ 1
(S ⊂ V, S 6= ∅)
(7)
(i,j)∈δ + (S)
sem que a relaxação linear de (1)-(5) fique diferente. As restrições (7) são normalmente
designadas por restrições de corte. Uma formulação alternativa a (1)-(5) consiste em substituir
as restrições (4) por
X
xij ≤ |E(C)| − 1
(C ciclo não Hamiltoniano de G).
(8)
(i,j)∈E(C)
Não é difı́cil mostrar que a relaxação linear deste novo problema é de qualidade inferior à relaxação linear de (1)-(5). A sua resolução é também polinomial porque cada uma das restrições
(8) pode ser reescrita como
X
(1 − xij ) ≥ 1
(C ciclo não Hamiltoniano de G)
(i,j)∈E(C)
que são normalmente designadas por restrições de ciclo. Por isso, averiguar se um vector x̄, que
satisfaça (1)-(3), também satisfaz as restrições (8) consiste em determinar em G[1 − x̄] o ciclo
não Hamiltoniano de custo mı́nimo. Este problema pode ser resolvido em O(n 4 ) operações
aritméticas e comparações através de uma adaptação do algoritmo de Floyd-Warshall [15, 33].
3
Uma relaxação linear disjuntiva baseada em ciclos
Seja C um ciclo não Hamiltoniano de G tal que E(C) = {(i1 , i2 ), (i2 , i3 ), . . . , (iK , i1 )} ⊆ E e
seja P um conjunto poliédrico satisfazendo P ATSP ⊆ P ⊆ P ASS . Defina-se a seguinte relaxação
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
67
linear disjuntiva de P ATSP , inspirada em [31] e também usada em [8],
PC,i1 ≡ conv
K
[
k=1
onde
P1
P2
P3
PK
≡
≡
≡
···
≡
Pk
!
,
P ∩ {x : xi1 i2 = 0},
P ∩ {x : xi1 i2 = 1, xi2 i3 = 0},
P ∩ {x : xi1 i2 = xi2 i3 = 1, xi3 i4 = 0},
P ∩ {x : xi1 i2 = xi2 i3 = . . . = xiK−1 iK = 1, xiK i1 = 0}.
(9)






(10)





Não é difı́cil verificar que PC,i1 é um poliedro que satisfaz




X
xij ≤ |E(C)| − 1 ⊆ P ⊆ P ASS .
P ATSP ⊆ PC,i1 ⊆ P ∩ x :


(i,j)∈E(C)
Mais, os poliedros P1 , P2 , . . . , PK são faces de P (e de P ATSP ). Basta reparar que, para cada
k ∈ {1, 2, . . . , K}, Pk = P ∩ {x : αk x = βk }, com βk = −(k − 1) e αk ∈ Rm um vector linha
definido componente a componente por


se (i, j) = (ik , ik+1 ),

 1
k
−1 se (i, j) ∈ {(i1 , i2 ), (i2 , i3 ), . . . , (ik−1 , ik )} ,
,
(i, j) ∈ E.
αij =


0
noutros casos,
e que αk x ≥ βk para todo o x ∈ P ASS ⊇ P . Não é verdade que, em geral, PC,i1 seja uma face
de P .
Lema 1 Seja C um ciclo não Hamiltoniano de G e P um conjunto poliédrico satisfazendo
P ATSP ⊆ P ⊆ P ASS . Se os pontos extremos de P são pontos extremos de P ASS , então PC,v ≡ PC
é independente de v ∈ V (C), e os pontos extremos de PC são os pontos extremos de P que
satisfazem
X
xij ≤ |E(C)| − 1.
(11)
(i,j)∈E(C)
Demonstração. Suponhamos que E(C) = {(i1 , i2 ), (i2 , i3 ), . . . , (iK , i1 )}. Basta provar que
K
0
PC,i1 ≡ conv(∪K
k=1 Pk ), definido em (9), coincide com PC,i2 ≡ conv(∪k=1 Pk ), definido por
Pk0 ≡ P ∩ {x : xi2 i3 = xi3 i4 = . . . = xik ik+1 = 1, xik+1 ik+2 = 0},
admitindo que iK+1 ≡ i1 e iK+2 ≡ i2 . Seja x̄ um ponto extremo de PC,i1 ; então x̄ ∈ Pk para
0
algum k ∈ {1, 2, . . . , K}. Se k ≥ 2, então x̄ ∈ Pk−1
. Se k = 1, então existe l ∈ {1, 2, . . . , K}
tal que
x̄i2 i3 = x̄i3 i4 = . . . = x̄il il+1 = 1, x̄il+1 il+2 = 0,
e, neste caso, x̄ ∈ Pl0 . Em qualquer dos casos, x̄ ∈ PC,i2 . Reciprocamente, seja x̄ um ponto
extremo de PC,i2 tal que x̄ ∈ Pk0 . Se x̄i1 i2 = 1, então k ≤ K − 1 e x̄ ∈ Pk+1 ; caso contrário,
x̄ ∈ P1 . Em qualquer dos casos, x̄ ∈ PC,i1 .
68
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
Os pontos extremos de PC são os pontos extremos de cada um dos conjuntos Pk , k =
1, 2, . . . , K que, como é fácil verificar, satisfazem (11). Reciprocamente, para o todo o ponto
extremo x de P que satisfaça (11) existe um conjunto Pk tal que x ∈ Pk . Então, x terá que
ser ponto extremo de PC porque Pk ⊆ P .
P
Em geral, PC,v ⊆ P ∩ {x :
(i,j)∈E(C) xij ≤ |E(C)| − 1}, para todo v ∈ V (C). No caso
particular do lema acima,






X
PC = conv P ∩ x :
xij ≤ |E(C)| − 1 ∩ Zm  .


(i,j)∈E(C)
Uma consequência imediata do Lema 1 é a seguinte generalização do procedimento de convexificação sequencial de Balas.
Proposição 1 Seja C = {C1 , C2 , . . . , Cl } o conjunto de todos os ciclos não Hamiltonianos do
grafo G = (V, E). Então,
.
(12)
P ATSP = . . . PCASS
1
C2
... Cl
Demonstração. Pelo Lema 1, os pontos extremos do conjunto do lado direito de (12) são os
pontos extremos de P ASS que satisfazem as desigualdades (8).
Abordamos agora a questão da existência de um hiperplano separador entre P C,i1 , para
algum ciclo não Hamiltoniano C, e um ponto extremo de P .
Lema 2 Seja x̄ um ponto extremo de um poliedro P tal que P ATSP ⊆ P ⊆ P ASS . Então,
1. se existe um ciclo não Hamiltoniano C tal que
para todo v ∈ V (C);
P
(i,j)∈E(C) (1
− x̄ij ) < 1, então x̄ 6∈ PC,v
2. se x̄ij ∈ (0, 1) para algum (i, j) ∈ E, então x̄ 6∈ PC,i para todo o ciclo não Hamiltoniano
C que contenha o arco (i, j).
P
Demonstração. Para a primeira parte,
Ppor hipótese, (i,j)∈E(C) x̄ij > |E(C)| − 1, mas para
todo v ∈ V (C) e para todo x ∈ PC,v , (i,j)∈E(C) xij ≤ |E(C)| − 1. Concluı́mos que x̄ 6∈ PC,v .
Para a segunda parte, se x̄ pertencesse a PC,i , então também seria um ponto extremo de PC,i ,
o que é absurdo pois todos os pontos extremos de PC,i possuem zero ou um na componente
da posição (i, j).
Pelo Lema 2, qualquer ciclo não Hamiltoniano que contenha o arco (i, j) associado a uma
componente fraccionária de x̄ serve o propósito de identificar um hiperplano separador. Poderemos, por exemplo, escolher o caminho mais curto de j para i no conjunto dos grafos
G[1 − x̄] − {k} (k ∈ V \ {i, j}) que conjuntamente com o arco (i, j) define um ciclo pretendido. Em alternativa, podemos resolver o problema do ciclo não Hamiltoniano mais curto em
G[1 − x̄] da maneira que explicamos a seguir.
Seja G[d] = (V, E) um grafo dirigido, tal que a cada arco (i, j) ∈ E está associado um escalar
dij ≥ 0 que designamos por distância do arco (i, j). O mais curto ciclo não Hamiltoniano em
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
G[d] possui distância total igual
n
n
oo
k
min min πji
+ dij : (i, j) ∈ E, i, j ∈ V \ {k}
,
k∈V
69
(13)
k denota o comprimento do caminho mais curto em G[d] do vértice j para o vértice i sem
onde πji
passar pelo vértice k. Para cada k ∈ K fixo, todos aqueles valores podem ser calculados através
do algoritmo de Floyd-Warshall [15, 33], que pode funcionar em tempo proporcional a O(n 3 )
[1, Secção 5.6], aplicado ao grafo G[d]−{k}. Portanto, o mais curto ciclo não Hamiltoniano em
G[d] pode ser identificado em O(n4 ) operações (este número pode ser reduzido para O(n3 )).
Se (13) for inferior a um, então a respectiva solução óptima C é tal que x̄ 6∈ P C,v para todo
v ∈ V (C). Se (13) for superior ou igual a um e x̄ij ∈ (0, 1), então o ciclo não Hamiltoniano C
de comprimento
n
o
k
min πji
+ dij : k ∈ V \ {i, j} ,
(14)
é tal que x̄ 6∈ PC,i . Em ambos os casos, é possı́vel identificar um hiperplano separador que é
óptimo nalgum aspecto.
Quando P = P ASS , o problema de optimização linear sobre PC pode ser resolvido em O(n3 )
operações aritméticas e comparações, portanto, comparável ao tempo de resolução de apenas
um problema de afectação. De facto, a resolução do problema
min cx
min cx
=
min
(15)
s.a x ∈ PC
s.a x ∈ Pk
k=1,2,...,K
pode fazer-se parametricamente através de uma optimização (envolvendo O(n 3 ) operações) e
K − 1 reoptimizações (cada uma envolvendo O(n) operações) da maneira que explicamos a
seguir.
Suponhamos que se pretende obter um par de soluções primal-dual óptimas para z k+1 =
min{cx : x ∈ Pk+1 }, sendo conhecida essa informação para zk = min{cx : x ∈ Pk }. Seja
x̄ ∈ {0, 1}m uma solução primal óptima de


min cx






s.a x ∈ P
zk =
(16)
xij = 1 (i, j) ∈ E(Ck ) ≡ {(i1 , i2 ), (i2 , i3 ), . . . , (ik−1 , ik )} , 





xij = 0 ((i, j) = (ik , ik+1 )),
que é vector caracterı́stico de um emparelhamento perfeito M do grafo bipartido G = (V ×
V, E), e seja (ū, v̄) ∈ R2n uma solução óptima para o correspondente problema dual
X
X



 max
vj
ui +
X
cij +
zk =
j6∈{i2 ,i3 ,...,ik }
i6∈{i1 ,i2 ,...,ik−1 }


(i,j)∈E(Ck )
s.a
ui + vj ≤ cij , ((i, j) ∈ E \ E(Ck+1 )).
Relativamente a (16), o novo problema zk+1 = min{cx : x ∈ Pk+1 } possui a restrição “xik ik+1 =
1” no lugar da restrição “xik ik+1 = 0” e uma nova restrição “xik+1 ik+2 = 0”. Consequentemente,
no novo problema dual aparece mais uma parcela constante “cik ik+1 ” e desaparecem as variáveis
uik e vik+1 da função objectivo, e desaparece a restrição “uik+1 + vik+2 ≤ cik+1 ik+2 ”. Por isso,
o vector x̄ já não é primal admissı́vel, mas o vector (ū, v̄) permanece dual admissı́vel no novo
70
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
problema, e “zk + cik ik+1 − ūik − v̄ik+1 ” surge como primeiro limite inferior ao valor de zk+1 .
Podemos iniciar o método Húngaro com a solução dual admissı́vel (ū, v̄) e o vector caracterı́stico
do emparelhamento
M 0 ≡ M \ {(i, ik+1 ), (ik+1 , j), (ik+1 , ik+2 )} ∪ {(ik , ik+1 )}
para algum i ∈
/ {i1 , i2 , . . . , ik−1 , ik } e j ∈ {i1 , i2 , . . . , ik−1 , ik }. O novo emparelhamento M 0
possui menos dois arcos se (ik+1 , ik+2 ) pertencia ao emparelhamento anterior M ou menos um
arco se não pertencia. A solução óptima do novo problema pode ser então obtida em O(n)
operações aritméticas e comparações. Como existem, no máximo, K − 1 re-optimizações a
fazer e K < n, concluı́mos que o esforço computacional global na resolução do problema (15)
é O(n3 ).
4
Uma relaxação linear disjuntiva baseada em cliques
Nesta secção, vamos construir uma relaxação disjuntiva de P ATSP que usa cliques do mesmo
modo que a relaxação anterior usava ciclos. A nova relaxação requer um número muito mais
elevado de disjunções mas, tal como no caso anterior, a optimização nesse poliedro pode ser
feita de modo paramétrico.
Seja S ⊆ V um conjunto de cardinalidade K < n. O número de caminhos simples em
G[S], o subgrafo de G induzido por S, a partir de um determinado vértice de S é, no máximo,
igual a
K
X
(K − 1)!
(17)
= 1 + (K − 1)pK−1 .
pK =
(K − k)!
k=1
Por exemplo, se S = {i1 , i2 , i3 } e i1 é o vértice designado, cada um desses caminhos corresponde
a um arco da subárvore da esquerda da árvore enumerativa ilustrada na Figura 1. Por exemplo,
o arco 1 está associado ao caminho constituı́do pelo vértice i 1 e nenhum arco, o arco 2 está
associado ao caminho i1 (i1 , i2 )i2 , etc.
Para um conjunto poliédrico P satisfazendo P ATSP ⊆ P ⊆ P ASS , defina-se a seguinte
relaxação linear disjuntiva de P ATSP ,

PS ≡ conv 
[
(j1 ,j2 ,...,jk ) : {j1 ,j2 ,...,jk }⊆S,k≥1

P(j1 ,j2 ,...,jk )  ,
(18)
onde cada conjunto P(j1 ,j2 ,...,jk ) é definido pelos pontos x ∈ P tais que
xij = 1, (i, j) ∈ E(Ck ),
xij = 0, (i, j) ∈ E(S) \ E(Ck ), j ∈ V (Ck ),
sendo Ck ≡ {j1 , (j1 , j2 ), j2 , (j2 , j3 ), j3 , . . . , jk−1 , (jk−1 , jk ), jk }. Portanto, o conjunto P(j1 ,j2 ,...,jk ) ∩
Zm é o subconjunto de P ASS ∩ Zm dos vectores que pertencem a P e são caracterı́sticos de
conjuntos de arcos que usam o caminho j0 (j0 , j1 )j1 (j1 , j2 )j2 (j2 , j3 )j3 . . . jk (jk , jk+1 )jk+1 para
alguns j0 , jk+1 ∈ V \ S - veja-se a Figura 2. No caso do exemplo da Figura 1, existem 15
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
poliedros na definição (18), que apresentamos pela ordem de numeração dos arcos:
P(i1 )
P(i2 )
P(i3 )
P(i1 ,i2 )
P(i1 ,i2 ,i3 )
P(i1 ,i3 )
P(i1 ,i3 ,i2 )
P(i2 ,i1 )
P(i2 ,i1 ,i3 )
P(i2 ,i3 )
P(i2 ,i3 ,i1 )
P(i3 ,i1 )
P(i3 ,i1 ,i2 )
P(i3 ,i2 )
P(i3 ,i2 ,i1 )
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
∩ {x :
x i1 i2
x i2 i1
x i3 i1
x i1 i2
x i1 i2
x i1 i3
x i1 i3
x i2 i1
x i2 i1
x i2 i3
x i2 i3
x i3 i1
x i3 i1
x i3 i2
x i3 i2
= xi2 i1 = xi1 i3 = xi3 i1 = 0},
= xi1 i2 = xi2 i3 = xi3 i2 = 0},
= xi1 i3 = xi3 i2 = xi2 i3 = 0},
= 1, xi2 i1 = xi2 i3 = xi3 i1 = 0},
= xi2 i3 = 1, xi3 i1 = 0},
= 1, xi3 i1 = xi3 i2 = xi2 i1 = 0},
= xi3 i2 = 1, xi2 i1 = 0},
= 1, xi1 i2 = xi1 i3 = xi3 i2 = 0},
= xi1 i3 = 1, xi3 i2 = 0},
= 1, xi3 i1 = xi3 i2 = xi1 i2 = 0},
= xi3 i1 = 1, xi1 i2 = 0},
= 1, xi1 i2 = xi1 i3 = xi2 i3 = 0},
= xi1 i2 = 1, xi2 i3 = 0},
= 1, xi2 i1 = xi2 i3 = xi1 i3 = 0},
= xi2 i1 = 1, xi1 i3 = 0},
Não é difı́cil verificar que PS é um poliedro que satisfaz
Figura 1: Árvore de enumeração dos caminhos simples em S = {i1 , i2 , i3 }.
Figura 2: P(j1 ,j2 ,...,jk ) .
71
72
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
P ATSP ⊆ PS ⊆ P ∩



x:
X
xij ≤ |S| − 1


⊆ P ⊆ P ASS .

(i,j)∈E(S)
O poliedro PS é o invólucro convexo de, no máximo, p = KpK poliedros em (18). Cada um dos
poliedros Pl ≡ P(j1 ,j2 ,...,jk ) , com l = 1, 2, . . . , p, é uma face de P . Mais, se os pontos extremos
de P são pontos extremos de P ASS , então os pontos extremos de PS são os pontos extremos
de P que satisfazem
X
xij ≤ |S| − 1.
(19)
(i,j)∈E(S)
De facto, os pontos extremos de PS são os pontos extremos de cada um dos conjuntos Pl para
l = 1, 2, . . . , p que satisfazem (19). Além disso, se x ∈ Pl então, para algum k ∈ S,


X
X
X

xij =
xij  ≤ |S| − 1.
(i,j)∈E(S)
i∈S\{k}
j∈S : (i,j)∈E
Reciprocamente, para o todo o ponto extremo x de P que seja vector caracterı́stico e satisfaça
(19), existe um conjunto Pl tal que x ∈ Pl . Então, x terá que ser ponto extremo de PS
porque Pl ⊆ P . Uma consequência imediata é a seguinte generalização do procedimento de
convexificação sequencial de Balas. A sua demonstração é idêntica à da Proposição 1.
Proposição 2 Seja S = {S1 , S2 , . . . , Sl } a famı́lia de todos os subconjuntos próprios de V .
Então
.
(20)
P ATSP = . . . PSASS
1
S2
... Sl
Abordamos agora a questão da existência de um hiperplano separador entre P ATSP e um
ponto extremo de uma relaxação linear de P ATSP do tipo descrito.
Lema 3 Seja P tal que P ATSP ⊆ P ⊆ P ASS , e seja x̄ um ponto extremo de P tal que x̄uv1 , x̄uv2 ∈
(0, 1) para alguns (u, v1 ), (u, v2 ) ∈ E. Então,
P
1. se existe um conjunto S ⊂ V tal que (i,j)∈δ+ (S) x̄ij < 1, então x̄ 6∈ PS ;
P
2. para todo o conjunto S tal que (i,j)∈δ+ (S) x̄ij = 1, u, v1 ∈ S e v2 6∈ S, tem-se x̄ 6∈ PS .
P
Demonstração. Para a primeira parte,
atendendo
a
(6),
por
hipótese,
(i,j)∈E(S) x̄ij > |S| − 1.
P
Mas para todo x ∈ PS , tem-se
(i,j)∈E(S) xij ≤ |S| − 1. Concluı́mos que x̄ 6∈ PS . Para
a segunda parte, se x̄ pertencesse a PS , então também seria um ponto extremo de um dos
conjuntos Pl , l = 1, 2, . . . , p. Por isso, existe um vértice k ∈ S tal que
X
X
x̄kw ≤
x̄ij = 1.
(21)
1=
w6∈S : (k,w)∈E
(i,j)∈δ + (S)
Se k = u chegamos a um absurdo porque x̄uv1 > 0 e v1 ∈ S, o que implica
1. Se k 6= u também chegamos a um absurdo porque, de (21),
X
x̄uw ≥ x̄uv2 > 0.
0=
w6∈S : (u,w)∈E
P
w6∈S : (u,w)∈E
x̄uw <
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
73
Pelo lema anterior, conhecido um ponto extremo x̄ de uma relaxação linear P de P ATSP
com uma componente x̄ij fraccionária podemos identificar um conjunto S ⊂ V tal que x̄ 6∈ PS
através da resolução do problema do corte global de capacidade mı́nima no grafo G[x̄] da
maneira que explicamos a seguir.
Seja G[u] = (V, E) um grafo dirigido simples com n vértices e m arcos tal que a cada arco
(i, j) ∈ E está associado um escalar real uij ≥ 0 designado por capacidade do arco (i, j). O
problema de determinar o corte global de capacidade mı́nima em G pode escrever-se como




X
min
uij : S ⊂ V, S 6= ∅ .
(22)


+
(i,j)∈δ (S)
Se englobássemos as restrições s ∈ S e t ∈ V \ S para dois vértices designados, então o
problema (22) seria dual do problema de determinar o fluxo máximo de s para t [16]. Não
estando especificados os vértices origem s e terminal t, o problema (22) é dual do problema
de determinar o maior valor de fluxo que é possı́vel enviar entre qualquer par de vértices de
G. Consequentemente, o problema (22) pode ser resolvido após a resolução de n(n − 1)/2
problemas de fluxo máximo com vértices origem e terminal designados. Hao e Orlin [21]
propuseram um algoritmo especı́fico que usa apenas uma sequência de 2n−2 problemas de fluxo
máximo. A abordagem, que é inspirada no algoritmo preflow-push de Golberg e Tarjan [17]
(para o problema do fluxo máximo entre dois vértices designados) e na abordagem de Padberg
e Rinaldi [29], resulta num algoritmo que requer O(nm log(n2 /m)) operações aritméticas e
comparações, se u for um vector de números racionais. Portanto, o esforço computacional é
comparável à resolução de n problemas de fluxo máximo entre dois vértices designados.
Se o valor óptimo de (22), para u = x̄, for inferior a um, então a solução óptima S é tal
que x̄ 6∈ PS pelo Lema 3. Se o valor óptimo de (22) é igual a um, então um conjunto S, nas
condições do Lema 3, pode ser encontrado do seguinte modo. Se f2 = x̄uv2 ∈ (0, 1), então
determine-se o fluxo máximo de u para v2 no grafo G[x̄] − {(u, v2 )}, que sabemos saber ser
igual a 1 − f2 . Pelo Teorema do Fluxo Máximo-Corte Mı́nimo, existe um conjunto de vértices
S, contendo u e todos os vértices v 6= v2 tais que x̄uv ∈ (0, 1), tal que, relativamente ao grafo
G − {(u, v2 )},
X
x̄ij = 1 − f2 .
(i,j)∈δ + (S)
P
Por isso, relativamente ao grafo G original, (i,j)∈δ+ (S) x̄ij = 1 − f2 + f2 = 1. Pelo Lema 3,
x̄ 6∈ PS . Concluı́mos que a determinação de S pode ser, em qualquer dos casos, efectuada em
tempo polinomial. Este conjunto S, assim determinado, é óptimo em algum aspecto.
Quando P = P ASS , o problema de optimização linear sobre PS pode ser resolvido em
O(n3 + (p − 1)n) operações aritméticas e comparações. De facto, a resolução do problema
min cx
min cx
=
min
(23)
s.a x ∈ P(j1 ,j2 ,...,jk )
s.a x ∈ PS
(j1 ,j2 ,...,jk ) : {j1 ,j2 ,...,jk }⊆S,k≥1
pode fazer-se parametricamente através de uma optimização (envolvendo O(n 3 ) operações) e
K − 1 reoptimizações (cada uma envolvendo O(n) operações) da maneira que explicamos a
seguir.
74
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
Sejam Pk e Pk+1 poliedros associados a um arco do nı́vel k e a um arco do nı́vel k + 1,
sucessivos, na árvore de enumeração dos caminhos, conforme ilustrado na Figura 1. Vamos
explicar como obter um par de soluções primal-dual óptimas para z k+1 = min{cx : x ∈ Pk+1 },
sendo conhecida essa informação para zk = min{cx : x ∈ Pk }. Seja x̄ ∈ {0, 1}m uma solução
primal óptima de


min cx






s.a x ∈ P
zk =
(24)
xij = 1, (i, j) ∈ E(Ck ) ≡ {(j1 , j2 ), (j2 , j3 ), . . . , (jk−1 , jk )}, 





xij = 0, (i, j) ∈ E(S) \ E(Ck ), j ∈ V (Ck ),
que é vector caracterı́stico de um emparelhamento perfeito M do grafo bipartido G = (V ×
V, E), e seja (ū, v̄) ∈ R2n uma solução óptima para o correspondente problema dual
zk =
X
cij +
(i,j)∈E(Ck )

max




s.a


X
ui +
i6∈{i1 ,i2 ,...,ik−1 }
X
vj
j6∈{i2 ,i3 ,...,ik }





ui + vj ≤ cij , (i, j) ∈ E \ E(S),


ui + vj ≤ cij , (i, j) ∈ E(S) \ E(Ck ), j 6∈ V (Ck ).
Relativamente a (24), o novo problema zk+1 = min{cx : x ∈ Pk+1 } possui a restrição
“xjk jk+1 = 1” no lugar da restrição “xjk jk+1 = 0” e novas restrições “xjk+1 j = 0, j ∈ S \
V (Ck+1 )” e “xijk+1 = 0, i ∈ S \ V (Ck+1 )”. No novo problema dual, aparece mais uma parcela
constante “cjk jk+1 ” e desaparecem as variáveis ujk e vjk+1 da função objectivo, e desaparecem
as restrições “ujk+1 +vj ≤ cjk+1 j , j ∈ S \V (Ck )”. Por isso, o vector x̄ já não é primal admissı́vel,
mas o vector (ū, v̄) permanece dual admissı́vel no novo problema e “zk + cjk jk+1 − ūjk − v̄jk+1 ”
surge como limite inferior ao valor óptimo do novo problema. Podemos inicializar o método
Húngaro com a solução dual admissı́vel (ū, v̄) e o vector caracterı́stico do emparelhamento
M 0 ≡ M \ {(s, jk+1 ), (jk , t), (jk+1 , w)} ∪ {(jk , jk+1 )},
para algum t ∈
/ S e s, w ∈ V - não é necessário excluir (jk+1 , w) se w 6∈ S. A solução óptima
do novo problema pode ser então obtida em O(n) operações aritméticas e comparações. Como
existem, no máximo, p − 1 re-optimizações a fazer, concluı́mos que o esforço computacional
global na resolução de (23) é O(n3 + (p − 1)n). Realçamos que se a árvore for percorrida
por breath-first-search então as soluções iniciais estarão prontamente disponı́veis se forem armazenadas uma por cada nı́vel. Portanto, não é necessário armazenar mais do que um par
primal-dual óptimo por nı́vel.
5
Determinação de um limite inferior melhorado
Nesta secção, propomos uma abordagem Lagrangeana para obter um limite inferior melhorado para o valor de z = min{cx : x ∈ P ATSP } que usa apenas a resolução de problemas de
afectação como subproblemas. O algoritmo proposto, que é formalmente descrito na Figura 3,
é essencialmente um método descendente de primeira ordem para a minimização da função de
penalidade
K X
e(ai x−bi )/ρ − 1 ,
(25)
f (x) ≡ cx + ρ
i=1
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
75
onde “ai x ≤ bi ” para i = 1, 2, . . . , K são desigualdades válidas para P ATSP . Este conjunto de
desigualdades vai sendo expandido à medida que o algoritmo decorre.
Em cada iteração genérica-k do algoritmo proposto, começa-se por identificar uma direcção
de descida, usando informação de primeira ordem. Observe-se que
∇f (x) = c + y(x)A,
∇2 f (x) = AT Y (x)A/ρ,
onde A é uma matriz K × n, contendo as colunas aTi para i = 1, 2, . . . , K, e Y (x) é uma matriz
diagonal K × K cujos elementos diagonais coincidem com o vector y(x) definido componente
a componente por
yi (x) = e(ai x−bi )/ρ
(i = 1, 2, . . . , K).
Enquanto não é identificada uma direcção de descida, o parâmetro de penalidade é reduzido.
Depois de identificada uma direcção de descida dk = qk − xk para f a partir de xk e para
algum qk ∈ arg min{∇f (xk )q : q ∈ P ASS } ∩ Zm , decide-se o tamanho do passo λk ao longo
dessa direcção para obter a nova aproximação xk+1 = xk + λk dk . O escalar λk é solução
óptima para min{g(λ) ≡ f (x + λd) : λ ∈ (0, 1]}. Se g 0 (1) ≤ 0, então λk = 1 é a solução óptima
porque g é convexa. Caso contrário, o escalar λk deve ser aproximado através do método de
Newton. Algumas simplificações ocorrem na correspondente fórmula recursiva. Para x e d
fixos, temos
g(λ) = c(x + λd) + ρ
K X
e
(ai (x+λd)−bi )/ρ
− 1 = z0 + λw0 + ρ
i=1
K
X
(yi (λ) − 1) ,
i=1
onde z0 = cx, w0 = cd, z = Ax − b, w = Ad e y(λ) ≡ y(x + λd) = e(zi +λwi )/ρ . Por isso,
g 0 (λ) = (c + y(λ)A) d = w0 +
K
X
wi yi (λ),
i=1
00
T
T
g (λ) = d A Y (λ)Ad/ρ =
K
X
wi2 yi (λ)/ρ,
i=1
pelo que o método de Newton consiste na aplicação da seguinte fórmula recursiva a partir de
λ(0) = 0,


K
X
 w0 +
yi (λ(j) )wi 


0
(j)
g (λ )


i=1
(j = 0, 1, . . .).
λ(j+1) = λ(j) − 00 (j) = λ(j) − ρ 

K
 X

g (λ )


(j)
2
y (λ )w
i
i
i=1
O último passo da iteração genérica-k consiste na identificação do corte global δ + (S) de capacidade mı́nima em G[qk ]. Note-se que qk é um vector de zeros e uns e, por isso, a identificação
de δ + (S) pode ser efectuada por um método standard de averiguação de conexidade num grafo.
Segue-se a determinação da desigualdade válida para PSASS mais profunda entre qk e PSASS .
A determinação desse corte obriga à resolução do seguinte par de problemas para x̄ = q k e
S ⊂V:
min ||x − x̄||
s.a x ∈ PSASS
≡
max αx̄ − β
s.a
(α, β) ∈ polar(PSASS ), ||α||∗ ≤ 1.
(26)
76
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
Usando o algoritmo modificado de Ph. Wolfe, conforme descrito em [32], obtém-se a solução
do problema (26), resolvendo uma sequência de problemas lineares do tipo:
min ax
s.a x ∈ PSASS
=
min
(j1 ,j2 ,...,jk ) : {j1 ,j2 ,...,jk }⊆S,k≥1
min ax
s.a x ∈ P(jASS
1 ,j2 ,...,jk )
,
(27)
com a modificado ao longo do algoritmo. Tal como foi explicado na Secção 4, esta resolução
pode ser feita parametricamente.
Finalmente, a inclusão do corte “aK+1 x ≤ bK+1 ” assim obtido na função penalidade só é
efectivada se o ângulo entre a sua normal e a normal de cada corte previamente adicionado for
suficientemente não nulo. Em [2, 4], Balas, Ceria e Cornuéjols propuseram que se definisse um
parâmetro θ < 1, 0.9999 por exemplo, e que só fossem aceites cortes cujos co-senos dos ângulos
formados com cada dos cortes já adicionados fossem pelo menos θ. Quando isso acontecer, o
corte é inserido na função (25).
Resta agora explicar como calcular o limite inferior. A função f goza das seguintes propriedades. Como f (x) ≤ cx para todo x ∈ P ASS tal que ai x ≤ bi para i = 1, 2, . . . , K, então
z ≡ min{cx : x ∈ P ATSP } ≥ min{cx : x ∈ P ASS , ai x ≤ bi , i = 1, 2, . . . , K}
≥ min{f (x) : x ∈ P ASS , ai x ≤ bi , i = 1, 2, . . . , K}
≥ min{f (x) : x ∈ P ASS }.
Além disso, f é convexa e continuamente diferenciável. Por isso, f (xk ) + ∇f (xk )dk constitui
um limite inferior ao valor de z, uma vez que
min{f (x) : x ∈ P ASS } ≥ min{f (xk ) + ∇f (xk )(x − xk ) : x ∈ P ASS } = f (xk ) + ∇f (xk )dk .
5.1
Ilustração com um pequeno exemplo
Consideremos a instância do problema caixeiro viajante assimétrico, observada na página 381
de [5], cujo custo do arco genérico (i, j) corresponde à entrada (i, j) da matriz da Tabela 1.
Esta instância tem valor óptimo 26, que corresponde ao ciclo Hamiltoniano identificado na
Figura 4(a) através de G[x∗ ].
Vamos ilustrar seis iterações do algoritmo da Figura 3, utilizando a regra de redução do
parâmetro de penalidade ρ := min{ρ/10, ρ1.5 }, inspirada em [9, 11, 28], e a norma l∞ em (26).
Como veremos, o primeiro limite inferior é 17 e, após a introdução de três cortes, aumenta
para 21.5184.
No Passo de Inicialização, o valor óptimo de min{cx : x ∈ P ASS } é 17 e a solução óptima é
x0 , ilustrada na Figura 4(b) através de G[x0 ]. O corte global de capacidade mı́nima em G[x0 ]
é caracterizado por S = {7, 8}, por exemplo. O corte mais profundo entre x 0 e PSASS é o corte
x78 + x87 ≤ 1,
obtido pelo algoritmo modificado de Ph. Wolfe. Termina o Passo de Inicialização com a
correspondente inserção do corte na função penalidade.
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
Inicialização:
Determinar x0 ∈ arg min{cx : x ∈ P ASS } ∩ Zm .
Seja δ + (S) o corte global de capacidade mı́nima em G[x0 ].
Obter o corte a1 x ≤ b1 mais profundo entre x0 e PSASS .
Inicializar ρ = 1, K = 1, k = 0 e definir f através de (25).
Iteração genérica-k:
Enquanto xk ∈ arg min{∇f (xk )q : q ∈ P ASS }
Reduzir ρ.
Se ρ < TOL , então STOP.
Seja dk = qk − xk para algum qk ∈ arg min{∇f (xk )q : q ∈ P ASS } ∩ Zm .
Determinar λk ∈ arg min{f (xk + λdk ) : λ ∈ (0, 1]}.
Afectar xk+1 = xk + λk dk .
Seja δ + (S) o corte global de capacidade mı́nima em G[qk ].
Obter o corte aK+1 x ≤ bK+1 mais profundo entre qk e PSASS .
Se “aK+1 x ≤ bK+1 ” é suficientemente distinto dos cortes anteriores,
então K := K + 1.
k := k + 1.
Figura 3: Algoritmo para determinar um limite inferior melhorado para o ATSP.
Tabela 1: Matriz de custos de
2 11
6
1
5 12 11 9 10
11 11 9
12 8
5
10 11 12
7 10 10
uma instância do ATSP com 8 vértices.
10
8
11
4
2
10
10
8
8
8
1
11
9
6
7
4
12
9
2
12
3
6
6
3
8
10
11
1
5
7
11
10
9
9
3
-
77
78
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
(a) G[x∗ ]
(b) G[x0 ]
Figura 4: Soluções óptimas inteiras sobre P ATSP e P ASS , respectivamente.
Na iteração 0, o primeiro ciclo é interrompido com ρ = 0.1. A solução óptima do problema
min{∇f (x0 )q : q ∈ P ASS } é q0 , ilustrada na Figura 5(a). Não se obtém melhoria no limite
inferior pois f (x0 ) + ∇f (x0 )(q0 − x0 ) = −102.6718. Com a aplicação do método de Newton,
obtém-se λ0 = 0.2361 ao que corresponde x1 = x0 + λ0 (q0 − x0 ), ilustrada na Figura 5(b). O
corte global de capacidade mı́nima em G[q0 ] é caracterizado por S = {4, 5, 6, 8}, por exemplo.
O corte mais profundo entre q0 e PSASS é o corte
x12 + x23 + x37 + x71 ≤ 3,
que é acrescentado à função penalidade.
(a) G[q0 ]
(b) G[x1 ]
Figura 5: Iteração 0.
Na iteração 1, a solução óptima de min{∇f (x1 )q : q ∈ P ASS } é q1 , ilustrada na Figura 6(a).
Obtém-se uma melhoria no limite inferior pois f (x1 ) + ∇f (x1 )(q1 − x1 ) = 18.5673. Com a
aplicação do método de Newton, obtém-se λ1 = 0.5933 ao que corresponde x2 = x1 + λ1 (q1 −
x1 ), ilustrada na Figura 6(b). O corte global de capacidade mı́nima em G[q 1 ] é caracterizado
por S = {1, 2, 3, 7, 8}, por exemplo. O corte mais profundo entre q1 e PSASS é o corte
x45 + x56 + x64 ≤ 2,
que é acrescentado à função penalidade.
Na iteração 2, a solução óptima de min{∇f (x2 )q : q ∈ P ASS } é q2 , ilustrada na Figura 7(a).
Não se obtém uma melhoria no limite inferior pois f (x2 ) + ∇f (x2 )(q2 − x2 ) = 15.0568. Com a
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
(a) G[q1 ]
79
(b) G[x2 ]
Figura 6: Iteração 1.
aplicação do método de Newton, obtém-se λ2 = 0.1213 ao que corresponde x3 = x2 + λ2 (q2 −
x2 ), ilustrada na Figura 7(b). O corte global de capacidade mı́nima em G[q 2 ] é caracterizado
por S = {7, 8}, por exemplo. O corte mais profundo entre q2 e PSASS é o mesmo que foi obtido
no Passo de Inicialização e, por isso, não é acrescentado à função penalidade.
(a) G[q2 ]
(b) G[x3 ]
Figura 7: Iteração 2.
Na iteração 3, a solução óptima de min{∇f (x3 )q : q ∈ P ASS } é q3 , ilustrada na Figura 8(a).
Obtém-se uma melhoria no limite inferior pois f (x3 ) + ∇f (x3 )(q3 − x3 ) = 20.7516. Com a
aplicação do método de Newton, obtém-se λ3 = 0.1801 ao que corresponde x4 = x3 + λ3 (q3 −
x3 ), ilustrada na Figura 8(b). O corte global de capacidade mı́nima em G[q 3 ] é caracterizado
por S = {7, 8}. O corte mais profundo entre q3 e PSASS é o mesmo que foi obtido no Passo de
Inicialização.
Na iteração 4, a solução óptima de min{∇f (x4 )q : q ∈ P ASS } é q4 , ilustrada na Figura 9(a).
Não se obtém uma melhoria no limite inferior pois f (x4 ) + ∇f (x4 )(q4 − x4 ) = 20.1955. Com a
aplicação do método de Newton, obtém-se λ4 = 0.0554 ao que corresponde x5 = x4 + λ4 (q4 −
x4 ), ilustrada na Figura 9(b). O corte global de capacidade mı́nima em G[q 4 ] é caracterizado
por S = {3, 6, 7, 8}. O corte mais profundo entre q4 e PSASS é o corte
x12 + x21 + x45 + x54 ≤ 3,
80
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
(a) G[q3 ]
(b) G[x4 ]
Figura 8: Iteração 3.
que é acrescentado à função penalidade.
(a) G[q4 ]
(b) G[x5 ]
Figura 9: Iteração 4.
Na iteração 5, a solução óptima de min{∇f (x5 )q : q ∈ P ASS } é q5 , que coincide com q3 .
Obtém-se nova melhoria no limite inferior pois f (x5 ) + ∇f (x5 )(q5 − x5 ) = 21.5184. Com a
aplicação do método de Newton, obtém-se λ5 = 0.0647 ao que corresponde x6 = x5 + λ5 (q5 −
x5 ), ilustrada na Figura 10. O corte global de capacidade mı́nima em G[q 5 ] é caracterizado
por S = {7, 8}. Uma vez mais, o corte mais profundo entre q2 e PSASS é o mesmo que foi obtido
no Passo de Inicialização.
6
Conclusões
O algoritmo que propomos neste trabalho requer um estudo computacional mais aprofundado. O exemplo pequeno que acompanhámos serviu para testar uma primeira implementação
que fizemos em Matlab com chamadas das rotinas INDUS3 e APPMIX disponı́veis na Netlib
na biblioteca de algoritmos da ACM, em http://www.netlib.org/toms/750. Experiências
computacionais preliminares permitiram identificar diversas limitações. Em primeiro lugar,
observámos que o algoritmo de primeira ordem pode tornar-se lento, progredindo com λ’s
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
81
Figura 10: Iteração 5: G[x6 ].
demasiado pequenos.
Em segundo lugar e algo inesperadamente, observámos que, em geral, o corte mais profundo entre qk e PSASS é uma desigualdade de ciclo - portanto, até menos profunda que a
correspondente desigualdade de clique em S. Num próximo artigo identificaremos para que
normas k · k essa desigualdade será sempre o corte mais profundo em (26) quando x̄ é o vector
caracterı́stico de um subpercurso.
Analisámos também o comportamento do algoritmo se, no último passo da iteração genérica
k do algoritmo da Figura 3, substituirmos o vector qk por xk . Neste caso, obtivemos algumas
desigualdades que não são de circuito mas também ainda não são desigualdades de clique. Fica
também em aberto a questão de saber que tipo de desigualdades conseguiremos gerar se x k
satisfizer todas as restrições de clique e for ponto extremo de uma relaxação linear de P ATSP .
Referências
[1] Ravindra K. Ahuja, Thomas L. Magnanti, and James B. Orlin. Network flows. Prentice Hall Inc.,
Englewood Cliffs, NJ, 1993. Theory, algorithms, and applications.
[2] Egon Balas, Sebastián Ceria, and Gérard Cornuéjols. A lift-and-project cutting plane algorithm
for mixed 0-1 programs. Math. Programming, 58(3, Ser. A):295–324, 1993.
[3] Egon Balas and Nicos Christofides. A restricted Lagrangian approach to the traveling salesman
problem. Math. Programming, 21(1):19–46, 1981.
[4] E. Balas, S. Ceria, and G. Cornuejols. Mixed 0-1 programming by lift-and-project in a branchand-cut framework. Management Science, 42(9):1229–1246, Sep 1996.
[5] E. Balas and P. Toth. Branch and bound methods. In The traveling salesman problem, WileyIntersci. Ser. Discrete Math., pages 361–401. Wiley, Chichester, 1985.
[6] G. Carpaneto, M. Dell’Amico, and P. Toth. Algorithm 750: CDT: a subroutine for the exact
solution of large-scale, asymmetric traveling salesman problems. ACM Trans. Math. Software,
21(4):410–415, 1995.
[7] G. Carpaneto, M. Dell’Amico, and P. Toth. Exact solution of large-scale, asymmetric traveling
salesman problems. ACM Trans. Math. Software, 21(4):394–409, 1995.
[8] G. Carpaneto and P. Toth. Some new branching rules and bounding criteria for the asymmetric
traveling salesman problem. Management Science, 26:736–743, 1980.
82
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
[9] R. Cominetti and J.-P. Dussault. Stable exponential-penalty algorithm with superlinear convergence. J. Optim. Theory Appl., 83(2):285–309, 1994.
[10] M. Constantino. O problema do caixeiro viajante. In M. Ramos J. N. Silva and Luı́s Trabucho, editors, 2000 Matemática Radical, volume 16 of Textos de Matemática, pages 337–350. Departamento
de Matemática, Faculdade de Ciências, Universidade de Lisboa, 2002.
[11] Jean-Pierre Dussault. Augmented penalty algorithms. IMA J. Numer. Anal., 18(3):355–372, 1998.
[12] Matteo Fischetti, Andrea Lodi, and Paolo Toth. Exact methods for the asymmetric traveling
salesman problem. In The traveling salesman problem and its variations, volume 12 of Comb.
Optim., pages 169–205. Kluwer Acad. Publ., Dordrecht, 2002.
[13] Matteo Fischetti and Paolo Toth. An additive bounding procedure for the asymmetric travelling
salesman problem. Math. Programming, 53(2, Ser. A):173–197, 1992.
[14] Matteo Fischetti and Paolo Toth. A polyhedral approach to the asymmetric traveling salesman
problem. Management Science, 43(11):1520–1536, 1997.
[15] R. W. Floyd. Algorithm 97: Shortest path. Communications of the Association for Computing
Machinery, 5:345, 1962.
[16] L. R. Ford, Jr. and D. R. Fulkerson. Maximal flow through a network. Canad. J. Math., 8:399–404,
1956.
[17] Andrew V. Goldberg and Robert E. Tarjan. A new approach to the maximum-flow problem. J.
Assoc. Comput. Mach., 35(4):921–940, 1988.
[18] Martin Grötschel, László Lovász, and Alexander Schrijver. Geometric algorithms and combinatorial optimization, volume 2 of Algorithms and Combinatorics. Springer-Verlag, Berlin, second
edition, 1993.
[19] Gregory Gutin and Abraham P. Punnen, editors. The traveling salesman problem and its variations, volume 12 of Combinatorial Optimization. Kluwer Academic Publishers, Dordrecht, 2002.
[20] L. G. Hačijan. A polynomial algorithm in linear programming.
244(5):1093–1096, 1979.
Dokl. Akad. Nauk SSSR,
[21] J. Hao and J. Orlin. A faster algorithm for finding the minimum cut in a directed graph. Journal
of Algorithms, 17:424–446, 1994.
[22] M. Held and R. Karp. The traveling-salesman problem and minimum spanning trees. Operations
Research, 18:1138–1162, 1970.
[23] M. Held and R. Karp. The traveling-salesman problem and minimum spanning trees: Part II.
Mathematical Programming, 1:6–25, 1971.
[24] David S. Johnson, Gregory Gutin, Lyle A. McGeoch, Anders Yeo, Weixiong Zhang, and Alexei
Zverovitch. Experimental analysis of heuristics for the ATSP. In The traveling salesman problem
and its variations, volume 12 of Comb. Optim., pages 445–487. Kluwer Acad. Publ., Dordrecht,
2002.
[25] J.D. Coelho J. O. Cerdeira. Optimização de percursos de distribuição (parte i). Economia,
XI:170–214, 1987.
[26] J.D. Coelho J. O. Cerdeira. Optimização de percursos de distribuição (parte ii). Economia,
XII:69–96, 1988.
[27] E. L. Lawler, J. K. Lenstra, A. H. G. Rinnooy Kan, and D. B. Shmoys, editors. The traveling
salesman problem. Wiley-Interscience Series in Discrete Mathematics and Optimization. John
Wiley & Sons Ltd., Chichester, 1990. A guided tour of combinatorial optimization, Reprint of the
1985 original, A Wiley-Interscience Publication.
[28] M. Mongeau and A. Sartenaer. Automatic decrease of the penalty parameter in exact penalty
function methods. European Journal of Operational Research, 83:686–699, 1995.
A. Ramires, J. Soares / Investigação Operacional, 25 (2005) 63-83
83
[29] M. Padberg and G. Rinaldi. An efficient algorithm for the minimum capacity cut problem. Mathematical Programming, 47:19–36, 1990.
[30] J. M. O. Pires. Formulações para o problema do caixeiro viajante assimétrico e sua aplicação a
um problema de desenho de redes com topologia em forma de anel. PhD thesis, Universidade de
Lisboa, Setembro 2001.
[31] T. Smith, V. Srinivasan, and G. Thompson. Computational performance of three subtour elimination algorithms for solving asymmetric traveling salesman problems. Annals of Discrete
Mathematics, 1:495–506, 1977.
[32] J. Soares and A.R. Santos. Uma abordagem primal para a geração de planos cortantes disjuntivos
mais separadores. Maio 2004.
[33] Stephen Warshall. A theorem on boolean matrices. J. Assoc. Comput. Mach., 9:11–12, 1962.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
85
Fronteiras DEA Difusas
João Carlos C. B. Soares de Mello
Lidia Angulo Meza
‡
∗
Luiz Biondi Neto
Eliane Gonçalves Gomes
§
†
Annibal Parracho Sant Anna
∗
∗
Depto. de Engenharia de Produção - Universidade Federal Fluminense. Rua Passo da Pátria, 156,
São Domingos, 24240-240, Niterói, RJ, Brasil
[email protected],[email protected]
†
Embrapa Monitoramento por Satélite. Av. Dr. Júlio Soares de Arruda, 803, Parque São Quirino,
13088-300, Campinas, SP, Brasil
[email protected]
‡
Departamento de Ciência dos Materiais - Universidade Federal Fluminense.Av. dos Trabalhadores
420, 27255-125, Volta Redonda, RJ
lidia a [email protected]
§
Depto. de Eng. Eletrônica e Telecomunicações - Universidade do Estado do Rio de Janeiro.Rua São
Francisco Xavier, 524, Bl. A-5036, Maracanã, 20550-900, Rio de Janeiro, RJ, Brasil
[email protected]
Abstract
The “fuzzy” DEA frontier is applied in situations where some variables (inputs or outputs) present a certain degree of uncertainty in its measurement, without any assumption
about the probability distribution function. we build the efficient frontier taking in account
the minor and major values of the input (or output). The efficient frontier is, in that case,
a fuzzy set, to which the DMUs have a degree of membership. In order to compute the
degree of membership two frontiers are constructed: the optimistic and the pessimistic
frontiers. As this indicator isn’t an efficiency score, we introduce the inverted frontier
concept, which allows the fuzzy-DEA efficiency score computation. We developed the case
where only one variable present a certain degree of uncertainty and it is generalised to the
case where some or all variables are uncertain.
Resumo
A fronteira DEA difusa surge em situações nas quais algumas variáveis (inputs ou
outputs) apresentam um certo grau de incerteza na medição, sem que se assuma que os
valores obedecem a alguma distribuição de probabilidade. A fronteira eficiente é construı́da
considerando-se os limites de incerteza, isto é, os menores e maiores valores possı́veis de
serem assumidos pela variável afectada pela incerteza de medição. Dessa forma, constrói-se
c 2005 Associação Portuguesa de Investigação Operacional
86
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
uma região em relação à qual as DMUs possuem um certo grau de pertença. Para calcular
o grau de pertença são construı́das fronteiras optimistas e pessimistas. Como o grau de
pertença não é uma medida de eficiência, é introduzido o conceito de fronteira invertida
que permite calcular um ı́ndice de eficiência difuso. É mostrado o caso em que apenas
uma variável apresenta incerteza e é generalizado para o caso em que algumas ou todas as
variáveis apresentam incertezas.
Keywords: DEA, Fuzzy sets, Fuzzy DEA efficiency score.
Title: Fuzzy DEA Frontiers
1
Introdução
Os modelos de Análise Envoltória de Dados (Data Envelopment Analysis – DEA) clássicos
(Cooper et al., 2000) estimam uma fronteira não paramétrica, linear por partes, constituı́da
pelas unidades eficientes. Supõem ainda que existe certeza na determinação das medidas usadas. No entanto, isso pode não ocorrer, seja por efectiva incerteza nas medidas, seja porque
os dados são considerados intervalares (Cooper et al., 2000). No primeiro caso, a solução
clássica é usar a Análise de Fronteira Estocástica (Stochastic Frontier Analysis) (Coelli et
al., 1998), que supõe que as incertezas seguem alguma distribuição de probabilidade. Essa
abordagem, cuja introdução pode ser vista em Lovell (1993), utiliza métodos econométricos e
paramétricos. Na prática, entretanto, essa distribuição de probabilidade pode não ser conhecida. Sant’Anna (2002) propõe um modelo de cálculo probabilı́stico de eficiências, sem levar
em conta a distribuição de probabilidade, mas que não gera um ı́ndice único de eficiência.
A proposta deste artigo, que estende os resultados de Soares de Mello et al. (2002) [29],
é construir um ı́ndice único de eficiência, para a situação em que as variáveis (inputs ou outputs) apresentam incerteza. É feita, inicialmente, a formulação para o caso em que apenas
uma variável apresenta incerteza. Para tal, a fronteira eficiente é considerada como um conjunto difuso (Zadeh, 1965) em relação ao qual as unidades em avaliação (Decision Making
Units – DMUs) apresentam um certo grau de pertença. Os limites inferior e superior desse
conjunto difuso são denominados fronteira pessimista e fronteira optimista quando a variável
com incerteza é um output, e inversamente quando a variável de incerteza é o input.
A troca dos outputs com inputs conduz a uma fronteira invertida (Yamada et al., 1994;
Novaes, 2002; Entani et al., 2002) em relação à qual as DMUs também possuem um grau de
pertença. É então possı́vel, com os dois graus de pertença, definir um ı́ndice de eficiência, que
será denominado eficiência difusa ou eficiência fuzzy-DEA.
Estes mesmos conceitos são estendidos para o caso em que várias variáveis apresentam
incerteza. É feita uma formulação geométrica para o caso de um input e um output, que
posteriormente é generalizada para o caso multidimensional.
Na literatura são encontradas algumas alternativas para a incorporação de incertezas aos
modelos DEA. Nessas proposições, os PPLs e/ou as medidas de eficiência assumem funções da
lógica difusa. Na abordagem apresentada neste artigo é utilizada somente a filosofia da lógica
difusa sem, no entanto, utilizar suas funções caracterı́sticas.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
2
87
Revisão bibliográfica em modelos DEA difusos
Uma revisão bibliográfica sobre os distintos enfoques utilizados para lidar com dados imprecisos
pode ser encontrada em Zhu (2003). O autor divide a imprecisão em três tipos: dados com
limites superior e inferior, dados ordinais e razões de dados com limites superior e inferior. O
modelo utilizado para esse caso é o IDEA (Imprecise Data Envelopment Analysis) (Cooper et
al., 1999), sendo este um problema de programação não linear que, com pequenas variações,
lida com os três tipos de dados imprecisos, com o uso de transformações de escala. Por existirem
problemas associados à transformação de escala, o autor propõe um enfoque simplificado, que
converte as variáveis utilizadas em dados exactos. Os resultados mostram que os ı́ndices de
eficiência assim obtidos são calculados mais facilmente.
Lertworasirikul et al. (2003) tratam inputs e outputs imprecisos como conjuntos difusos.
Esses modelos são formalizados através de programação linear fuzzy. Como enfoque alternativo, os autores propõem a utilização de “modelos DEA de possibilidades” (possibility DEA
models) que incorporam medidas de possibilidade para os eventos difusos na forma de restrições
difusas. Uma variável difusa é associada a uma distribuição de possibilidades (Zadeh, 1978).
Nesse enfoque, os ı́ndices fuzzy-DEA são únicos, mas dependentes do nı́vel de possibilidade
utilizado, isto é, para vários nı́veis de possibilidade utilizados há diversos ı́ndices diferentes
correspondentes.
O modelo IDEA (Imprecise Data Envelopment Analysis) é usado por Despotis e Smirlis
(2002) para lidar com dados imprecisos de dois tipos: dados com limites superior e inferior
(dados por intervalos ou interval data) e dados ordinais. A utilização desse modelo não linear
é feita através de uma mudança de escala das variáveis, que transforma o modelo não linear
em um modelo de programação linear. Como resultado, obtém-se um limite superior e inferior
para a eficiência de uma determinada DMU, o que, segundo os autores, permite uma melhor
discriminação entre as DMUs com a utilização de modelos post DEA. Os autores propõem
ainda um modelo post DEA para determinar inputs alvos para DMUs ineficientes.
Entani et al. (2002) empregam um modelo DEA para avaliar DMUs de forma optimista.
Esses resultados são utilizados para determinar a eficiência por intervalos, através da proposição de novos modelos DEA. Assim, o ı́ndice de eficiência não é representado por um
número, mas sim por um intervalo de eficiência. Por outro lado, com base no modelo Inverted
DEA (Yamada et al., 1994) avaliam cada DMU de forma pessimista e calculam ı́ndices de
ineficiência por intervalos. Os autores consideram ainda dados por intervalos (interval data) e
propõem um modelo para calcular a eficiência e a ineficiência por intervalos, tal como foi feito
para os dados com valores únicos e exactos.
A avaliação do desempenho de departamentos académicos de uma Universidade é realizada
por Lopes e Lanzer (2002). Os resultados de DEA nas dimensões de ensino, pesquisa, extensão
e qualidade foram modelados como números difusos e agregados através de um agregador
ponderado, o que gera um único ı́ndice de desempenho para cada departamento.
Cooper et al. (2001) propõem um modelo IDEA estendido. Esse modelo permite não
somente o uso de dados incertos, mas também o uso de restrições aos pesos do tipo regiões
de segurança ou cone-ratio. Nesse caso, os limites das variáveis são transformados em ajustes
de dados. O modelo é aplicado à avaliação de eficiência de postos de uma companhia de
telecomunicações coreana.
88
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
O modelo DEA CCR (Charnes et al., 1978) é estendido para um modelo denominado
DEARA por Guo e Tanaka (2001). Esse modelo utiliza conceitos da análise de regressão e é
estendido para um modelo DEA difuso que considera inputs e outputs difusos. Os ı́ndices de
eficiência resultantes são ı́ndices de eficiência difusos ou intervalares.
Kao e Liu (2000) apresentam um procedimento para medir as eficiências das DMUs que
envolvem variáveis difusas. O modelo difuso é transformado em uma famı́lia de modelos DEA
convencionais baseados em dados exactos, utilizando o enfoque α-cut. Os ı́ndices de eficiência
difusos obtidos são expressos por meio de funções intervalares. Dessa maneira, segundo os
autores, há maior nı́vel de informação para a gerência.
Para medir a eficiência técnica de DMUs, Triantis e Eeckaut (2000) relaxam o conceito de
fronteira de produção e propõem uma comparação por pares ao verificar a dominância ou não
dominância de uma DMU quando comparada a outra. A utilização de variáveis difusas (dados
imprecisos) faz com que o resultado dessa comparação seja uma comparação difusa por pares
(fuzzy pair-wise comparison). Os resultados das comparações feitas par a par são apresentados
em uma matriz, que mostra dominância em dois sentidos. Assim, não são obtidos ı́ndices de
eficiência, mas uma indicação sobre quem domina quem. Deve-se realçar que caso esse modelo
fosse usado com dados exactos, geraria um modelo equivalente ao FDH (Free Disposal Hull )
(Deprins et al., 1984).
Hougaard (1999) usa intervalos difusos para unir em um ı́ndice de eficiência a informação
fornecida pelos ı́ndices de eficiência analı́ticos (DEA) e ı́ndices de eficiência subjectivos baseados em dados que reflectem aspectos qualitativos e organizacionais, expressos na forma
de intervalos difusos. Uma função de um intervalo fuzzy representa a forma de especificar a
relação entre esses dois tipos de informação. De forma ideal, as duas fontes de informação
relacionadas ao desempenho de uma DMU podem ser unidas de forma que a “objectividade”
de DEA possa ser utilizada para controlar a “subjectividade” do ponto de vista do especialista,
e vice-versa. O resultado é um ı́ndice corrigido expresso na forma de um intervalo difuso.
Uma abordagem em três estágios para medir a eficiência técnica em ambiente difuso é
proposta por Triantis e Girod (1998). Essa abordagem usa DEA clássico e incorpora conceitos
desenvolvidos em programação paramétrica difusa (Carlsson e Korhonen, 1986).
Sengupta (1992) explora a teoria dos conjuntos difusos no contexto de DEA. O autor usa
três tipos de estatı́sticas difusas (programação matemática difusa, regressão difusa e entropia
difusa) para ilustrar os tipos de decisão e de solução que podem ser alcançados quando os
dados são vagos e a informação a priori é inexacta e imprecisa.
3
3.1
Formulação para uma variável com incerteza
Criação da fronteira DEA difusa
A abordagem aqui proposta destaca-se das anteriores por não fazer nenhuma suposição em
relação à forma como cada input ou cada output varia. Qualquer que seja a variação são
levados em conta apenas os valores máximos e mı́nimos possı́veis de serem assumidos, com o
uso posterior de programação linear clássica e modelos DEA tradicionais para a determinação
das fronteiras.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
89
Se em um modelo DEA não houver certeza sobre os valores assumidos por um output; não
haverá igualmente certeza sobre a exacta localização da fronteira eficiente. Caso os valores do
output para algumas DMUs sejam maiores que o suposto, a fronteira estará deslocada “mais
acima”, isto é, em uma região de valores superiores para esse output. Caso os valores sejam
inferiores ao suposto, a fronteira estará “mais abaixo”.
Portanto, neste caso, a fronteira não é um conjunto no sentido clássico do termo, mas um
conjunto difuso (Zadeh, 1965). Para esse conjunto não tem sentido dizer que um elemento
pertence ou não ao conjunto; deve-se fazer referência ao grau de pertença desse elemento ao
conjunto. Dessa forma, em vez de existirem DMUs na fronteira e outras fora da fronteira,
haverá DMUs com diferentes graus de pertença à fronteira.
Em lógica difusa clássica são postuladas certas funções, denominadas funções de pertença,
que determinam o grau de pertença de uma certa variável a um determinado conjunto. No caso
da fronteira difusa, o grau de pertença será calculado com base em propriedades geométricas
das fronteiras geradas. Para tal, torna-se necessário definir previamente alguns termos. A
fronteira localizada “mais acima” é, na verdade, aquela fronteira obtida por um modelo DEA
clássico (CCR ou BCC) que leva em conta o máximo valor do output incerto que cada DMU
pode atingir. Como, em termos de produção, essa é a melhor situação para todas as DMUs, a
fronteira assim obtida denominar-se-á Fronteira Optimista. Analogamente, a fronteira obtida
com o modelo DEA clássico que considere o menor valor de output para cada DMU é a Fronteira
Pessimista, já que considera a situação menos favorável de produção.
A Figura 1 ilustra esses conceitos, para o modelo DEA BCC (Banker et al., 1984). A
fronteira difusa é toda a região situada entre as fronteiras pessimista (fronteira inferior) e
optimista (fronteira superior). Note-se ainda que uma DMU não é mais representada por
um ponto; a incerteza na medição do output faz com que a representação da DMU seja um
segmento de recta com extremidades determinadas pelos valores pessimista e optimista desse
output.
Na Figura 1, OP f o e OP f p referem-se ao output projectado na fronteira optimista e pessimista, respectivamente. c é o comprimento da DMU, ou seja, é a diferença entre os valores
optimista e pessimista do output; l é a largura da faixa, isto é, representa para cada DMU a
diferença entre o valor do output incerto para as fronteiras optimista e pessimista; p é parte
que está na faixa, é a diferença entre o output optimista de cada DMU e a intersecção dessa
DMU com a fronteira pessimista.
Uma vez definidos a fronteira difusa e os termos c, l e p, deve-se definir o grau de pertença
de cada DMU a essa fronteira. Na Figura 2 observa-se que as DMUs A e F estão integralmente
contidas na região que define a fronteira difusa. Essas DMUs devem ter grau de pertença 1 à
fronteira. Já as DMUs B e C apenas tocam a fronteira e, portanto, o grau de pertença é nulo.
Entre esses dois casos extremos, as DMUs poderão ter graus de pertença intermédios.
A DMU G contém toda a largura da fronteira difusa, mas tem uma parte da largura da
faixa externa à fronteira. Ou seja, na hipótese de outputs pessimistas em DEA clássico, a
DMU não seria eficiente. Assim, apesar de não estar totalmente excluı́da da fronteira, a sua
pertença também não é total.
Em situações semelhantes à da DMU G, a pertença deveria obedecer à relação p/c, unitária
quando p = c. Por outro lado, a observação da DMU E, mostra que ela está totalmente
90
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
10
OPfo
8
Output
6
l
p
4
c
2
OPfp
0
0
2
4
6
Input
Figura 1: Fronteiras optimista e pessimista.
10
8
F
Ouput
G
6
E
4
D
C
2
B
A
0
0
1
2
3
4
5
Input
Figura 2: Fronteira difusa no modelo BCC.
6
7
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
91
Tabela 1: Pertenças em relação à fronteira difusa.
DMU
A
B
C
D
E
F
G
I
1
2
4
4
4
5
6
Of p
1
1
2
2
4
5
4
Of o
2
2
4
6
6
10
10
c
1
1
2
4
2
5
6
l
1
2
4
4
4
5
5
p
1
0
0
2
2
5
5
℘
1,00
0,00
0,00
0,25
0,50
1,00
0,83
contida na fronteira difusa, porém existe uma região da fronteira que não contém a DMU.
Então, caso sejam considerados outputs optimistas em DEA clássico, a DMU não é eficiente.
Para situações análogas a essa, a pertença deveria ser p/l, unitária quando p = l. Torna-se
necessário combinar os dois casos, de forma a garantir que uma DMU só tenha pertença 1 à
fronteira difusa se ela for eficiente tanto na hipótese pessimista quanto na optimista.
O produto das expressões usadas anteriormente, consideradas como pertenças parciais,
satisfaz a essa propriedade. Assim, a pertença à fronteira difusa é definida pela equação (1).
℘=
p2
lc
(1)
A Tabela 1 traz os resultados de cálculo de pertença para as DMUs da Figura 2, onde O f p
e Of o são, respectivamente, os valores do output nas fronteiras pessimista e optimista, e I é o
valor do input.
3.2
Cálculo algébrico da pertença
O cálculo anterior baseia-se em uma definição geométrica e, portanto, só é viável em modelos
extremamente simples. Para obter-se uma expressão que possa ser usada em modelos gerais,
multidimensionais, em que apenas um output apresenta incerteza, faz-se necessário transformar
as grandezas geométricas da equação (1) em quantidades que possam ser extraı́das dos modelos
DEA clássicos: outputs optimistas e pessimistas, eficiências com output pessimista em relação
à fronteira pessimista (Ef f p ) e com output optimista em relação à fronteira optimista (Ef f o ).
Para o caso de um output com incerteza, ao considerarem-se as definições clássicas de DEA
orientado a outputs, e que, nesta situação, as eficiências são dadas por números maiores que
a unidade, têm-se as equações (2) e (3), nas quais Of o e Of p são os valores nas fronteiras
optimista e pessimista deste output.
Eff p =
OPf p
Of p
(2)
Eff o =
OPf o
Of o
(3)
92
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
A largura da faixa l é a diferença entre o alvo da fronteira optimista e o alvo da fronteira
pessimista, ou seja, l = OPf o − OPf p = Of o Eff o − Of p Eff p . O comprimento da DMU c é
a diferença entre o output optimista e o pessimista, isto é, c = Of o − Of p . A parte da DMU
que está na fronteira p é a diferença entre o output optimista e o alvo do output pessimista na
fronteira pessimista, desde que a diferença seja positiva. Isto implica que o output optimista
deve estar dentro da faixa da fronteira difusa; caso contrario, p deve ser igual a 0. Em (4)
formaliza-se a equação para p.
p = Of o − Of p Eff p , se Of o − Of p Eff p ≥ 0
p = 0, caso contrário
(4)
Ao serem substituı́dos os valores de p (calculado em (4)), l e c (determinados no parágrafo
anterior) na expressão (1), é possı́vel obter a expressão que represente algebricamente a pertença. Essa relação é apresentada em (5).
2
(Of o −Of p Eff p )
, se Of o − Of p Eff p ≥ 0
(Of o Eff o −Of p Eff p )(Of o −Of p )
℘ = 0, caso contrário
℘=
(5)
Além do caso em que Of o − Of p Eff p < 0, onde o ı́ndice de pertença foi arbitrado como
nulo, o cálculo algébrico dessa pertença também é zero caso O f o − Of p Eff p = 0. Por outro
lado, como o numerador de (5) está elevado ao quadrado, nunca assume um valor negativo.
Na orientação a outputs, o alvo na fronteira optimista é sempre maior que o alvo na fronteira
pessimista, e o output optimista é sempre maior que o output pessimista. Dessa forma, o
denominador é, igualmente, sempre positivo. Portanto, o ı́ndice de pertença é sempre um
número não negativo.
Caso as eficiências optimista e pessimista sejam unitárias , o ı́ndice de pertença é
(Oo −Op )2
. De outro lado, observa-se que Op Eff p ≥ Op (uma vez que na ori(Oo −Op )(Oo −Op ) = 1
entação a outputs a eficiência é maior ou igual a 1). Portanto, tem-se que O f o − Of p Eff p ≥
Of o Eff o − Of p Eff p . Verifica-se ainda que Of o Eff o − Of p Eff o ≥ Of o − Of p Eff p (haja visto
que Of o Eff o ≥ Of o ). Logo, na fração (5) cada termo do denominador é maior ou igual que a
raiz quadrada do numerador. Conseqüentemente, o numerador não é maior que o denominador
e o ı́ndice de pertença não pode ser maior que a unidade.
Deve-se observar ainda que o ı́ndice de pertença (5), embora calculado a partir de eficiências
não é uma medida de eficiência. Assim, não precisa respeitar as propriedades das medidas de
eficiências. Em particular, o conjunto de DMUs com pertença unitária à fronteira difusa não
é necessariamente um conjunto convexo.
A Tabela 2 apresenta os valores de eficiências, l, c, p e ℘ com base nas equações (2) a (5),
para o exemplo da Figura 2. Destaca-se que como a orientação do modelo é a outputs, as
DMUs ineficientes apresentam valor de eficiência maior que 1.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
93
Tabela 2: Valores calculados com base nas relações (2) a (5).
DMU
A
B
C
D
E
F
G
I
1
2
4
4
4
5
6
Of p
1
1
2
2
4
5
4
Of o
2
2
4
6
6
10
10
Ef f p
1,00
2,00
2,00
2,00
1,00
1,00
1,25
Ef f o
1,00
2,00
2,00
1,33
1,33
1,00
1,00
c
1
1
2
4
2
5
6
l
1
2
4
4
4
5
5
6
p
1
0
0
2
2
5
5
℘
1,00
0,00
0,00
0,25
0,50
1,00
0,83
IPfp
5
IPfo
l
Output
4
p
3
c
2
1
0
0
1
2
3
4
Ifo
5
I6fp
7
Input
Figura 3: Fronteiras optimista e pessimista para o caso de modelo BCC orientado a inputs.
3.3
Fronteira Difusa com um Input com Incerteza
De forma análoga ao que acontece com um output com incerteza, pode-se apresentar o caso
em que haja um input com incerteza. Nesse caso, define-se como input optimista, I f o , aquele
com o menor valor que o input pode assumir, e input pessimista, If p , o de maior valor que o
input pode assumir. Quando se consideram os inputs optimistas para todas as DMUs, tem-se
a fronteira optimista; quando são considerados os inputs pessimistas para todas as DMUs,
obtém-se a fronteira pessimista. A Figura 3 representa as fronteiras optimista e pessimista
para o caso de input com incerteza na mediação. Nessa figura I f o , If p , IPf o e IPf p são,
respectivamente, os valores optimista e pessimista do input e os valores do input projectado
nas fronteiras optimista e pessimista.
O segmento de recta que representa um input com incerteza é horizontal, ao contrário do
caso orientado a outputs em que a DMU é representada por um segmento vertical.
94
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
Deduções semelhantes às do caso anterior, permitem definir o ı́ndice de pertença apresentado em (6). As mesmas considerações feitas para a expressão (5), continuam válidas desde
que seja considerado que em (6) as eficiências são orientadas a inputs, ou seja, são valores
menores ou iguais a 1.
2
(If p Eff p −If o )
, se If p Eff p − If o ≥ 0
(If o Eff o −If p Eff p )(If p −If o )
℘ = 0, caso contrário
℘=
3.4
(6)
Fronteira Invertida e Eficiência Fuzzy -DEA
O grau de pertença à fronteira não é uma medida de eficiência. De fato, duas DMUs que tenham
grau nulo de pertença à fronteira podem ter posições relativas bem diferentes não detectadas
pelo ı́ndice aqui proposto. Ou seja, ao contrário dos modelos DEA clássicos que fornecem
muitos empates nos ı́ndices 100% eficientes, o enfoque apresentado neste artigo fornece empates
para as DMUs totalmente não pertencentes à fronteira.
Para distinguir entre essas DMUs é necessário introduzir o conceito de fronteira invertida
(Yamada et al., 1994; Novaes, 2002; Entani et al., 2002), que consiste em considerar os outputs
como inputs e os inputs como outputs. Esse enfoque admite pelo menos duas interpretações.
A primeira é que a fronteira consiste das DMUs com as piores práticas gerenciais (e poderia
ser chamada de fronteira ineficiente); a segunda é que essas mesmas DMUs têm as melhores
práticas segundo um ponto de vista oposto.
Uma fronteira invertida difusa pode ser utilizada para distinguir entre as diversas DMUs
com grau de pertença zero à fronteira difusa original. Para esse caso, quanto maior o grau de
pertença à fronteira invertida menor a eficiência da DMU.
Para obter um ı́ndice único de eficiência, deve-se englobar os dois graus de pertença e
obrigar a que a variação do ı́ndice se dê entre 0 e 1. Esse ı́ndice será chamado de eficiência
difusa (ou eficiência fuzzy-DEA) (Ef dif usa ) e é dado pela equação (7), na qual ℘o é o grau de
pertença à fronteira original e ℘i é o grau de pertença à fronteira invertida.
Efdif usa =
(℘o − ℘i + 1)
2
(7)
Apesar de, por simplicidade de linguagem, a agregação dos dois ı́ndices de pertença tenha
recebido a denominação de eficiência difusa, ele não é um indicador de eficiência no sentido
clássico do termo. É apenas uma ponderação normalizada entre um ı́ndice de pertença, e o
complementar de outro ı́ndice de pertença.
A Figura 4 ilustra os conceitos de fronteira invertida difusa para o caso de um input e um
output. Para esse exemplo, os graus de pertença e a eficiência difusa são mostrados na Tabela
3 (dados originais de input e output na Tabela 1).
Em vez de usar o complementar da pertença à fronteira invertida é possı́vel trabalhar com
um ı́ndice de não pertença a essa fronteira. Para conjuntos clássicos, estas formulações são
equivalentes, mas tal não acontece em conjuntos difusos.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
95
10
8
F
Ouput
G
6
E
4
D
C
2
B
A
0
0
1
2
3
4
5
6
7
Input
Figura 4: Fronteira difusa invertida no modelo BCC.
Tabela 3: Graus de pertença e de não pertença e eficiência difusa para as DMUs da Figura 4.
DMU
A
B
C
D
E
F
G
℘o
1,00
0,00
0,00
0,25
0,50
1,00
0,83
℘i
1,00
1,00
1,00
0,50
0,00
0,20
1,00
Ef dif usa
0,50
0,00
0,00
0,37
0,75
0,90
0,42
Im℘i
0,00
0,00
0,00
0,00
1,00
0,30
0,00
Ef dif usaIm
0,50
0,00
0,00
0,125
0,75
0,65
0,165
96
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
O ı́ndice de não pertença deverá será tanto maior quanto maior for a relação entre o
segmento da DMU localizado fora da fronteira invertida difusa e o segmento de reta que
representa a DMU. Deverá ser, também, tanto maior quanto maior a relação entre o que falta
à DMU para ocupar totalmente a largura da faixa que constitui a fronteira invertida e a largura
total desta faixa.
O ı́ndice de não pertença à fronteira invertida, Im℘i , é dado pela equação (8), na qual F 1
e F 2 denotam os limites superior e inferior da fronteira invertida, e U 1 e U 2 os limites superior
e inferior da DMU avaliada. Sua generalização é apresentada em (9) para o caso de um input
com incerteza.
U 1F 1 U 2F 2
x
, se F1 > U 2
Im℘i = U
1U 2 F 1F 2
Im℘i = 1, caso contrário
(8)
(I −I Ef )(I −I Ef )
Im℘i = (Ipp −Iop)(IppEfpo −Ioo Efoo ) , se Ip Efp > Io
Im℘i = 1, caso contrário
(9)
Para os dados da Tabela 1, os resultados obtidos com esta abordagem são os mostrados
nas duas últimas colunas da Tabela 3. Embora as ordenações produzidas sejam semelhantes,
a DMU mais eficiente foi alterada. A DMU E, totalmente fora da fronteira invertida, toma a
posição de mais eficiente da DMU F nesta formulação, penalizada um pouco mais fortemente
pela sua pertinência parcial a essa fronteira.
4
4.1
Formulação para várias variáveis com incerteza
Conceitos gerais
As formulações anteriores são restritas ao caso em que apenas uma variável apresenta incerteza.
Pode ocorrer que mais de uma, ou mesmo todas as variáveis apresentem incerteza. Torna-se
então necessário generalizar os conceitos anteriores.
O ponto mais pessimista é agoira o ponto da DMU que está a ser avaliada com os maiores
valores para todos os inputs e os menores para todos os outputs. Analogamente, o ponto mais
optimista é o ponto da DMU com os menores valores para todos os inputs e os maiores para
todos os outputs.
Mais uma vez, a fronteira pessimista é determinada com um modelo DEA para todos os
pontos mais pessimistas e, analogamente, a fronteira optimista é calculada com os pontos mais
optimistas. Os alvos de cada DMU nas duas fronteiras são os alvos pessimistas e optimistas.
No entanto, devido à variação em mais de uma variável, estes alvos são não radiais, e a direcção
de projecção é determinada pelo vector que une os pontos extremos de cada DMU.
A figura 5 ilustra os conceitos anteriores, no caso de um modelo com apenas 1 input e
1 output, ambos com incerteza. Nela, A é o ponto mais pessimista, C o mais optimista; B
é o alvo pessimista e D o optimista. Por analogia com o caso em que só uma das variáveis
apresenta incerteza, o ı́ndice de pertença à fronteira difusa é definido pela equação (10).
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
97
16
14
D
12
C
Output
10
B
8
A
6
4
2
0
0
1
2
3
4
5
6
7
8
Input
Figura 5: Fronteira DEA difusa com input e output com incerteza.
℘=
BC BC
BD AC
(10)
O cálculo dos alvos pode ser feito pela intersecção da recta suporte do segmento que define
a DMU com as fronteiras pessimista e optimista. Este cálculo, no caso bidimensional apresentado, é relativamente fácil. No entanto, em casos de maior dimensão, seria necessário conhecer
as equações de todas as faces, o que é impraticável. Este é um modelo de complexidade exponencial (Fukuda, 1993; Dulá, 2002) e os algoritmos existentes ou não são práticos ou são
inviáveis (Gonzalez-Araya, 2003).
4.2
Modelo Multiobjectivo
Para contornar o problema de determinação de faces, utiliza-se o modelo multiobjectivo para
determinação de alvos (Angulo-Meza, 2002; Angulo-Meza et al., 2002; Soares de Mello et al.,
2003), cuja formulação é apresentada em (11), no caso do modelo DEA-CCR.
98
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
Tabela 4: Dados para o exemplo numérico multidimensional.
DMU
A
B
C
D
If p
3
7
2
5
If o
1
4
1
3
Of p
1
12
3
7
Of o
10
15
8
11
max φ1
...
max φs
min ϕ1
...
min ϕm
sujeito a
φr yrj0 =
ϕi xij0 =
n
P
j=1
n
P
(11)
yrj λj , ∀r = 1, ..., s
xij λj , ∀i = 1, ..., m
j=1
φr ≥ 1, ∀r = 1, ..., s
ϕi ≤ 1, ∀i = 1, ..., m
λj ≥ 0, ∀j = 1, ...n
Em (11) optimizam-se as projecções de cada uma das variáveis (s outputs e m inputs) de
maneira independente. O modelo fornece como resultado um conjunto de alvos para a DMU
que está a ser avaliada (em um total de n DMUs), e o utilizador, ou decisor, é o encarregado
de fazer a escolha final do alvo.
Neste caso, o alvo procurado é aquele que passa pela recta que une os pontos mais optimistas e mais pessimistas. Uma vez que em um espaço n-dimensional uma recta é definida por
n−1 equações lineares, o modelo multiobjectivo transforma-se em um modelo mono-objectivo.
4.3
Exemplo Numérico
A Tabela 4 traz os dados para o exemplo numérico multidimensional, ou seja, em que o input
e o output apresentam incertezas a medição. Para ilustrar considere-se DMU D, cujo ponto
pessimista está dado por (5,7) e o optimista por (3,11). A recta que passa por esses pontos
esta dada pela equação apresentada em (12).
y = −2x + 17
(12)
Logo, a equação da recta que passa pelos alvos pessimista e optimista da DMU é dada pela
equação (13).
φy = −2ϕx + 17
(13)
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
99
O alvo para a fronteira pessimista é calculado com o emprego do modelo multiobjectivo
(11), no qual acrescentou-se a restrição de convexidade para considerar a fronteira definida
pelo modelo BCC, conforme mostrado em (14).
max 7φ
min 5ϕ
sujeito a
7φ = λ1 + 12λ2 + 3λ3 + 7λ4
5ϕ = 3λ1 + 7λ2 + 2λ3 + 5λ4
λ1 + λ 2 + λ 3 + λ 4 = 1
φ≥1
ϕ≤1
λj ≥ 0, ∀j
(14)
Ao substituir-se a equação da recta (12) que passa pelos alvos optimista e pessimista no
modelo (14), e sendo x = 5, tem-se o modelo (15).
max = −2(5)ϕ + 17 = min 10ϕ
min 5ϕ
sujeito a
−2(5)ϕ + 17 = λ1 + 12λ2 + 3λ3 + 7λ4
5ϕ = 3λ1 + 7λ2 + 2λ3 + 5λ4
λ1 + λ 2 + λ 3 + λ 4 = 1
ϕ≤1
λj ≥ 0, ∀j
(15)
Já que ambas as funções objectivo estão em função de ϕ, uma delas pode ser eliminada e,
dessa forma, o modelo multiobjectivo transforma-se em um modelo mono-objectivo, apresentado em (16).
min 5ϕ
sujeito a
−10ϕ + 17 = λ1 + 12λ2 + 3λ3 + 7λ4
5ϕ = 3λ1 + 7λ2 + 2λ3 + 5λ4
λ1 + λ 2 + λ 3 + λ 4 = 1
ϕ≤1
λj ≥ 0, ∀j
(16)
Ao correr-se o modelo (16), obtêm-se como resultados 5ϕ = 4, 63, alvo para o input, e, por
substituição em (13), 7φ = 7, 74, alvo para o output.
O mesmo procedimento deve ser realizado para a fronteira optimista. Dessa forma, o
modelo multiobjectivo para calcular o alvo optimista de D é formalizado em (17).
100
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
max 11φ
min 3ϕ
sujeito a
11φ = 10λ1 + 15λ2 + 8λ3 + 11λ4
3ϕ = λ1 + 4λ2 + λ3 + 3λ4
λ1 + λ 2 + λ 3 + λ 4 = 1
φ≥1
ϕ≤1
λj ≥ 0, ∀j
(17)
Procedendo-se de maneira análoga ao caso da fronteira pessimista, obtém-se o modelo (18)
na fronteira optimista.
max −2(3)ϕ + 17 = min 6ϕ
min 3ϕ
sujeito a
−2(3)ϕ + 17 = 10λ1 + 15λ2 + 8λ3 + 11λ4
3ϕ = λ1 + 4λ2 + λ3 + 3λ4
λ1 + λ 2 + λ 3 + λ 4 = 1
ϕ≤1
λj ≥ 0, ∀j
(18)
Similarmente, o modelo multiobjectivo transforma-se no modelo mono-objectivo (19), cuja
resolução resulta em 3ϕ = 2, 36, alvo para o input, e 11φ = 12, 27, alvo para o output.
min 3ϕ
sujeito a
−6ϕ + 17 = 10λ1 + 15λ2 + 8λ3 + 11λ4
3ϕ = λ1 + 4λ2 + λ3 + 3λ4
λ1 + λ 2 + λ 3 + λ 4 = 1
ϕ≤1
λj ≥ 0, ∀j
(19)
Com esses valores e com a equação (10), calcula-se a pertença, ℘, da DMU D à fronteira
difusa, conforme (20).
"
(4, 63; 7, 74)(3; 11)
℘=
(4, 63; 7, 74)(2, 36; 12, 27)
#"
#
(4, 63; 7, 74)(3; 11)
= 0, 586
(5; 7)(3, 11)
(20)
De forma análoga, podem ser calculados alvos para as demais DMUs, bem como os ı́ndices
para a fronteira invertida.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
5
101
Conclusões
A abordagem proposta neste artigo para incorporação de incertezas aos modelos DEA clássicos
tem a vantagem de não arbitrar, nem uma determinada distribuição de probabilidade para
as incertezas das variáveis, nem uma função difusa para as mesmas. É, ao mesmo tempo,
matematicamente simples, já que os resultados são obtidos através de cálculos algébricos, sem
necessidade de usar programação linear difusa.
Ao determinar uma região onde se encontra a fronteira difusa e ao construir geometricamente uma função de pertença e, conseqüentemente, a medida de eficiência difusa, os desenvolvimentos deste artigo situam-se próximos à origem dos conjuntos difusos sem, no entanto,
usar suas funções caracterı́sticas.
Adicionalmente, o ı́ndice proposto para medir a eficiência difusa, permite resolver um dos
principais problemas em DEA, qual seja, o de as DMUs poderem ser eficientes atribuindo peso
nulo a vários multiplicadores (Estellita-Lins e Angulo-Meza, 2000). Com efeito, para uma
DMU possuir alta eficiência, esta deve ter um elevado grau de pertença em relação à fronteira
optimista e baixo grau em relação à fronteira pessimista. Dessa forma, todas as variáveis são
levadas em conta no ı́ndice final. Assim, não basta a DMU ter bom desempenho naquilo em
que ela é melhor; não deve ter também mau desempenho no critério em que for pior. Isso é
conseguido sem a atribuição de nenhum peso subjectivo a qualquer critério.
Essa caracterı́stica permite eliminar outro dos inconvenientes dos modelos DEA BCC: o
fato de a DMU de maior output ser eficiente independentemente dos valores dos inputs (Ali,
1993). No modelo aqui proposto, o valor da eficiência de tal DMU depende também de sua
posição em relação à fronteira invertida. Deve ser ressaltado que existem outros métodos para
resolver esse problema. Entretanto, ou exigem julgamentos subjectivos, como é o caso das
restrições aos pesos (Allen et al., 1997) ou, alternativamente, exigem métodos matemáticos
mais sofisticados, como é o caso da suavização da fronteira DEA (Soares de Mello et al., 2002)
[30].
O modelo para várias variáveis com incerteza é resolvido de forma eficiente com ajuda da
formulação multiobjectivo de DEA. No entanto, devido à quantidade de cálculos envolvidos
torna-se necessário o desenvolvimento de um software especifico, de modo que este modelo
torne-se prático.
6
Referências
[1] Ali, A.I. (1993). Streamlined computation for data envelopment analysis. European journal of
operational research, 64, 61-67.
[2] Allen, R., Athanassopoulos, A., Dyson, R.G. & Thanassoulis, E. (1997). Weights restrictions and
value judgements in data envelopment analysis: evolution, development and future directions.
Annals of Operations Research, 73, 13–34.
[3] Angulo-Meza, L.(2002). Um Enfoque Multiobjetivo para determinação de Alvos na Análise
Envoltória de Dados (DEA). Tese de Doutorado. Programa de Engenharia de Produção.
COPPE/UFRJ.
[4] Angulo-Meza, L., Gomes, E.G., Soares de Mello, J.C.C.B. & Biondi Neto, L. (2002). Fronteira
DEA de dupla envoltória no estudo da evolução da ponte aérea Rio-São Paulo. Panorama
102
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
Nacional da Pesquisa em Transportes 2003 - Anais do XVII ANPET, 2, 1158-1166.
[5] Banker, R.D., Charnes, A. & Cooper, W.W. (1984). SOme models for estimating technical scale
inefficiencies in data envelopment analysis. Management science, 30 (9), 1078-1092.
[6] Carlsson, C. & Korhonen, P. (1986). A Parametric Approach to Fuzzy Linear Programming.
Fuzzy Sets and Systems, 20, 17-33.
[7] Charnes, A., Cooper, W.W. & Rhodes, E. (1978). Measuring the efficiency of decision making
units. European Journal of Operational Research, 2, 429-454.
[8] Coelli, T., Rao, D.S.P. & Battese, G.E. (1998). An Introduction to Efficiency and Productivity
Analysis. Kluwer Academic Publishers, Boston.
[9] Cooper, W.W., Park, K.S. & Yu, G. (2001). An illustrative application of IDEA (imprecise Data
Envelopment Analysis) to a Korean mobile telecommunication company. Operations Research,
49 (6), 807-820.
[10] Cooper, W.W., Park, K.S. &Yu, G. (1999). IDEA and AR-IDEA: Models for dealing with
imprecise data in DEA. Management Science, 45, 597-607.
[11] Cooper, W.W., Seiford, L.M. & Tone, K. (2000). Data Envelopment Analysis: A Comprehensive Text with Models, Applications, References and DEA-Solver Software. Kluwer Academic
Publishers, Boston.
[12] Deprins, D., Simar, L. & Tulkens, H. (1984). Measuring Labor Inefficiency in Post Offices. In:
The Performance of Public Enterprizes: Concepts and Measurements [edited by M. Marchand,
P. Pestieau & H.Tulkens]. North-Holland, Amsterdam, 243-267.
[13] Despotis, D.K. & Smirlis, Y.G. (2002). Data envelopment analysis with imprecise data. European
Journal of Operational Research, 140, 24–36.
[14] Dulá, J.H. (2002). Computations in DEA. Pesquisa Operacional, 22 (2), 165-182
[15] Entani, T., Maeda, Y. & Tanaka, H. (2002). Dual Models of Interval DEA and its extensions to
interval data. European Journal of Operational Research, 136, 32-45.
[16] Estellita-Lins, M.P. & Angulo-Meza, L. (2000). Análise Envoltória de Dados e perspectivas de
integração no ambiente de Apoio à Decisão. Editora da COPPE/UFRJ, Rio de Janeiro.
[17] Fukuda, K. (1993). cdd.c: C Implementation of the Double Description method for computing all vertices and extremal rays of a convex polyhedron given a system of linear inequalities.
Department of Mathematics, Swiss Federal Institute of Technology, Lausanne, Switzerland.
[18] González-Araya, M.C. (2003). Projeções Não Radiais em Regiões Fortemente Eficientes da Fronteira DEA - Algoritmos e Aplicações. Tese de Doutorado, Programa de Engenharia de Produção,
COPPE/UFRJ, Rio de Janeiro.
[19] Guo, P. & Tanaka, H. (2001). Fuzzy DEA: a perceptual evaluation method. Fuzzy Sets and
Systems, 119, 149-160.
[20] Hougaard, J.L. (1999). Fuzzy scores of technical efficiency. European Journal of Operational
Research, 115, 529-541.
[21] Kao, C. & Liu, S.T. (2000). Fuzzy efficiency measures in data envelopment analysis. Fuzzy Sets
and Systems, 113, 427-437.
[22] Lertworasirikul, S., Fang, S.C., Joines, J.A. & Nuttle, H.L.W. (2003). Fuzzy data envelopment
analysis (DEA): a possibility approach. Fuzzy Sets and Systems, 139 (2), 379-394.
[23] Lopes, A.L.M. & Lanzer, E.A. (2002). Data envelopment analysis – DEA and fuzzy sets to assess
the performance of academic departments: a case study at Federal University of Santa Catarina
– UFSC. Pesquisa Operacional, 22 (2), 217-230.
J.C. Mello et al. / Investigação Operacional, 25 (2005) 85-103
103
[24] Lovell, C.A.K. (1993). Production frontiers and production efficiency”. In: The measurement
of productive efficiency: techniques and applications [edited by H.O. Fried, C.A.K. Lovell & S.S.
Schmidt]. Oxford University Press, New York, 3-67.
[25] Novaes, L.F.L. (2002). Envoltória Sob Dupla ótica aplicada na avaliação imobiliária em ambiente
do sistema de informação geográfica. Tese de Doutorado, Programa de Engenharia de Produção,
UFRJ, Rio de Janeiro, Dezembro.
[26] Sant’Anna, A.P. (2002). Cálculo probabilı́stico de produtividades globais no ensino de pósgraduação em Engenharia de Produção. Anais do VIII Encontro de Educação em Engenharia,
Petrópolis.
[27] Sengupta, J.K. (1992). A fuzzy systems approach in data envelopment analysis. Computers &
Mathematics with Applications, 24 (8-9), 259-266.
[28] Soares de Mello, J.C.C.B., Angulo-Meza, L., Gomes, E.G., Serapiao, B.P., Estellita-Lins, M.P.
(2003). Análise de Envoltória de Dados no estudo da eficiência e dos benchmarks para Companhias Aéreas brasileiras. Pesquisa Operacional, 23 (2), 325-345.
[29] Soares de Mello, J.C.C.B., Gomes, E.G., Biondi, L.N., Angulo-Meza, L. (2002). Construção de
uma fronteira eficiente difusa na presença de dados com incertezas na medição. Anais do XXXIV
Simpósio Brasileiro de Pesquisa Operacional, Rio de Janeiro, Outubro.
[30] Soares de Mello, J.C.C.B., Estellita-lins, M.P. & Gomes, E.G. (2002). Construction of a smoothed
dea frontier. Pesquisa operacional, 22 (2), 183-201.
[31] Triantis, K. & Eeckaut, P.V. (2000). Fuzzy Pair-wise Dominance and Implications for Technical
Efficiency Performance Assessment. Journal of Productivity Analysis, 13, 207–230.
[32] Triantis, K. & Girod, O. (1998). A Mathematical Programming Approach for Measuring Technical Efficiency in a Fuzzy Environment. Journal of Productivity Analysis, 10 (1), 85-102.
[33] Yamada, Y, Matui, T. & Sugiyama, M. (1994). New analysis of efficiency based on DEA. Journal
of the Operations Research Society of Japan, 37 (2), 158-167.
[34] Zadeh, L. (1965). Fuzzy Sets. Information and Control, 8 (3), 338-353.
[35] Zadeh, L. (1978). Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1,
3-28.
[36] Zhu, J. (2003). Imprecise data envelopment analysis (IDEA): A review and improvement with
an application. European Journal of Operational Research, 144, 513–529.
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
105
Composição de especialistas locais para classificação
de dados
Omar J. S. Santos
∗
Armando Z. Milioni
∗
∗
Instituto Tecnológico de Aeronáutica (ITA)
Divisão de Engenharia Mecânica-AeronáuticaSão José dos Campos, SP – Brasil – CEP: 12228-900
{omarmai, milioni}@ita.br
Abstract
In this paper we present a Mixture of Local Experts Model (MLEM) for data classification. The discriminant tools applied are Fisher’s Discriminant Analysis, Logistic Regression and a non-parametric model called Extended DEA-DA (Sueyoshi, 2004). Using real
data, we compare the results obtained with the MLEM, which requires data clusterization
and solution investigation on each cluster, against results obtained with a more orthodox
approach, which is classification over the entire data set. The main conclusion is that even
though it seems to be a promising technique, the additional effort in building a MLEM
does not assure better results.
Resumo
Este artigo tem por objetivo apresentar um modelo de Composição de Especialistas
Locais (CEL) como instrumento para classificação de dados. As técnicas discriminantes
empregadas são a Análise Discriminante de Fisher, Regressão Logı́stica e Modelos não
paramétricos denominados “Extended DEA-DA” (Sueyoshi, 2004). Com base em uma
massa de dados real, comparamos os resultados obtidos através da utilização do modelo
CEL, que exige a clusterização da massa de dados e a busca da solução em cada cluster
obtido, contra os resultados obtidos da maneira ortodoxa, que é a da busca de solução
sobre a massa de dados global. A principal conclusão é a de que, embora seja uma técnica
promissora, o esforço adicional na obtenção de um modelo CEL não assegura melhores
resultados.
Keywords: Mixture of Local Expert Models; Discriminant Analysis; Clustering; Extended DEA-DA
Title: Mixture of Local Experts Model for Data Classification
c 2005 Associação Portuguesa de Investigação Operacional
106
1
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
Introdução
A classificação de dados tem se constituı́do num assunto de interesse permanente e de uso muito
abrangente. Técnicas de análise discriminante fornecem subsı́dios para a classificação de dados
em grupos distintos. Implementando essas técnicas em regiões especı́ficas do espaço de dados
de um problema qualquer e posteriormente compondo os resultados obtidos em cada região
na tentativa de melhor classificar um novo entrante, chegamos a um modelo de Composição
de Especialistas Locais (CEL) (ver fundamentos do assunto em Jacobs et alli, 1991; Lima et
alli, 2002 e Melo et alli, 2004). Essa composição pode ou não resultar numa melhoria nas
classificações desejadas e esse é o tema que será abordado no presente trabalho.
Este artigo tem por objetivo apresentar um modelo de Composição de Especialistas Locais
(CEL) como instrumento para classificação de dados. Com base em uma massa de dados real,
comparamos os resultados obtidos através da utilização da CEL com os resultados obtidos
por modelos de análise discriminante aplicados sobre a massa de dados global, verificando a
ocorrência ou não de melhoria no número de classificações corretas.
Este artigo está estruturado da seguinte maneira:
Na Seção 2 abordamos noções gerais de Análise Discriminante. Apresentamos uma breve
descrição das técnicas discriminantes empregadas neste trabalho, que são a Análise Discriminante de Fisher, Regressão Logı́stica e modelos do tipo Extended DEA-DA (Sueyoshi, 2004).
Na Seção 3 apresentamos os fundamentos da constituição de uma Composição de Especialistas Locais (CEL), sua estrutura e funções utilizadas como fatores de ponderação da
classificação final.
Na Seção 4 fazemos um estudo de caso usando dados reais, explorando uma aplicação do
modelo CEL sobre um conjunto de 95 empresas classificadas como solventes ou insolventes.
Mostramos a clusterização feita, o resultado dos modelos discriminantes utilizados, a transformação dos valores dos melhores modelos locais em medidas de pertinência ao grupo das
empresas solventes através de escalas de conversão, a construção do modelo CEL e sua comparação com o modelo discriminante que obteve os melhores resultados na massa de dados
completa, ou global.
Na seção 5 comentamos as conclusões desse trabalho e indicamos sugestões para trabalhos
futuros.
2
Análise Discriminante
A Análise Discriminante (DA, do inglês Discriminant Analysis) serve para classificar casos
em valores categóricos de uma variável dependente freqüentemente dicotômica, ou seja, que
pode assumir valores 0 ou 1, o que equivale a identificar esses casos como pertencentes ou não
pertencentes a um determinado grupo.
Muitas áreas do conhecimento utilizam técnicas de DA para classificação em grupos, tais
como medicina, biologia, economia, sensoriamento remoto, interpretação de imagens e outras.
Para que possamos classificar indivı́duos (pessoas, plantas, coisas ou tudo o que for objeto
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
107
de estudo) torna-se necessário obter uma função discriminante. Calibrada a partir de uma
massa de dados previamente classificada, essa função discriminante serve como modelo para
que um entrante novo, i.e., indivı́duo que não sabemos a que grupo pertence, seja classificado
em um determinado grupo.
Para o desenvolvimento de nosso trabalho escolhemos três modelos de Análise Discriminante: (i) a função discriminante linear de Fisher (1936) (FLDF, do inglês Fisher’s linear
discriminant function), por tratar-se de um modelo clássico amplamente citado na literatura,
servindo como referência para a avaliação de resultados; (ii) regressão logı́stica, por ter sido
o método empregado por Scarpel (2000), que levantou os dados do estudo de caso e (iii) o
modelo Extended DEA-DA, modelo de programação mista proposto por Sueyioshi (2004),
visando termos um modelo não-paramétrico inserido no contexto.
2.1
Análise Discriminante de FISHER
Consiste em separar duas ou mais classes de objetos e prever a pertinência de um novo objeto
a uma das classes. Para melhor entendimento vamos considerar o caso de existência de apenas
duas classes,G1 e G2 . Os objetos ou atributos são separados ou classificados mediante medidas
baseadas em p variáveis, isto é, são associados a vetores do tipo X 0 = [X1 , X2 , X3 , ..., Xp ].
Fisher tinha por objetivo transformar as observações multivariadas X 0 s (ditas variáveis
independentes) em observações univariadas Y 0 s(ditas variáveis dependentes), tal que os Y 0 s
das classes G1 e G2 fossem distanciados das médias das dados tanto quanto possı́vel.
A idéia básica é a de criar uma combinação linear das variáveis independentes de tal forma
a definir a variável dependente.
Segundo Lam et al (2003), a FLDF se esforça em prover uma função linear pela qual se
associam valores a dois ou mais atributos independentes, os quais são combinados produzindo
uma simples pontuação de classificação. Esta pontuação é comparada a um valor de corte que
separa os dois grupos, permitindo então estabelecer a relação de pertinência do indivı́duo a um
dos grupos. Temos, portanto, uma equação linear do tipo L = b1 x1 + b2 x2 + ... + bn xn + c, onde
os coeficientes bi são calculados de forma a maximizar a razão entre a variância entre os grupos
e a variância entre os indivı́duos do grupo e c é uma constante semelhante ao intercepto de
uma regressão linear. A seguir, indivı́duos de uma amostra, oriundos de novas observações, são
classificados nos grupos tendo por base os valores de seus atributos, calculados pela equação
discriminante.
Se consideramos um problema de classificação com um critério determinado e uma amostra com n observações de dois grupos, G1 e G2 , cujos valores do critério estabelecido são
conhecidos, podemos formular a FLDF, a partir da fórmula:
a1 − a 2
0
S −1 a
(1)
onde, a1 e a2 são os vetores médios da amostra de, respectivamente, G1 e G2 , S é a matriz
de covariância da amostra e a é o vetor de valores de uma observação (ou caso). A regra de
classificação baseada nas amostras se dá da seguinte maneira:
108
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
Classifica-se um novo entrante caracterizado por a em G1 se
a1 − a 2
0
S −1 a ≥
0
1 1
a − a2 S −1 a1 + a2
2
(2)
onde, (a1 − a2 )0 é o vetor da diferença entre os vetores médios transposto e S −1 é inversa da
matriz de covariância.
Caso contrário, o novo entrante é classificado em G2 .
Dessa forma, o novo entrante pode ser classificado em um dos grupos devido a uma função
discriminante oriunda dos dados de calibração.
2.2
Modelo de Regressão Linear Logı́stica
Consideremos um vetor p-dimensional X, de variáveis independentes que se relacionam com
uma variável dependente ou de resposta y, podendo esta assumir valores 0 ou 1. Sendo β i e α
os parâmetros e havendo n casos considerados, a probabilidade P i , referente ao caso i, de que
a variável dependente assuma o valor 1 pode ser representada por (ver Pindyck, 1998):
Pi =
1
1
=
1 + e−Zi
1 + e−(α+βXi )
(3)
onde Zi = α + βXi .
Essa expressão é conhecida como função logı́stica acumulada. A probabilidade de que a
variável y assuma o valor 0 é dada por:
1 − Pi =
e−Zi
1 + e−Zi
(4)
Fazendo o logaritmo de Pi /1 − Pi o modelo pode ser expresso como uma função linear das
variáveis independentes ou preditoras:
log
Pi
= Zi = α + βXi
1 − Pi
(5)
Segundo Gujarati (2000):
a) Enquanto Zi varia de −∞ a +∞, Pi varia entre 0 e 1;
b) Pi não se relaciona linearmente com Zi , sendo portanto não-linear com as variáveis
independentes Xi , daı́ a necessidade de se fazer o logaritmo de Pi /1 − Pi , tornando esse
logaritmo uma relação linear com Xi ;
c) Embora Zi seja linear em Xi , as probabilidades propriamente ditas não o são, divergindo de um modelo de probabilidade linear (MPL) onde as probabilidades aumentam
linearmente com Xi e apresentam o inconveniente de poderem extrapolar o intervalo
[0,1].
d) Uma vez estimados os parâmetros do modelo, podemos calcular a probabilidade de y
assumir o valor 1 ou 0, discriminando dois grupos, uma vez estabelecido um valor de
corte.
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
109
O método da máxima verossimilhança é adequado à estimação dos parâmetros quando
dispomos de observações individuais do pertencimento ou não a um determinado conjunto.
Detalhes desse método para estimação dos parâmetros do modelo para o caso geral com mais
de uma variável independente podem ser encontrados nos trabalhos de Scarpel (2000) e Scarpel
e Milioni (2001 e 2002).
2.3
Modelos do tipo EXTENDED DEA-DA
Trata-se de um método não-paramétrico proposto por Sueyioshi (1999, 2001 e 2004) que atua
como função discriminante se valendo de dois estágios de desenvolvimento. No primeiro, os
elementos são classificados em um dos dois grupos ou numa área de intersecção, composta de
elementos que não puderam ser facilmente classificados nesse primeiro estágio. No segundo
estágio os elementos da área de intersecção são estudados visando classificá-los em um dos
dois grupos. A técnica desenvolvida por Sueyioshi utiliza recursos da Análise de Envoltória
de Dados (DEA, do inglês Data Envelopment Analysis) dentro de uma formulação de Análise
Discriminante.
Para caracterizarmos a estrutura analı́tica do primeiro modelo DEA-DA de Sueyioshi
(1999), vamos visualizar uma estrutura de DA e sintetizar o procedimento do modelo.
Como em DEA, sejam n DMU’s j (do inglês, Decision Making Units; j = 1, ..., n) e
observações com k fatores independentes i (i=1,2,...,k) que caracterizam seu desempenho
denotado aqui por Zij . A análise discriminante pressupõe um conhecimento prévio de tal
maneira que a partir de suas observações i, cada DMU j, possa ser classificada no grupo 1
(G1 ) ou no grupo 2 (G2 ). Tais grupos possuem, respectivamente, n1 e n2 observações. Como
G1 ∩ G2 = ∅ e G1 ∪ G2 = G(conjunto de todas as DMU’s), então n1 + n2 = n.
O primeiro modelo DEA-DA foi mais tarde alterado por Sueyoshi (2001) para que pudesse
lidar com dados negativos, comuns em análises financeiras, sendo chamado a partir dessa
alteração de Extended DEA-DA. Sueyoshi (2004) alterou novamente o modelo para que o
segundo estágio do processamento minimizasse o número absoluto de classificações incorretas
e ocorresse uma melhoria na eficiência computacional. É esse último modelo de Sueyoshi
(2004) que empregamos neste trabalho.
O primeiro estágio desse modelo é formulado da seguinte maneira:
min s
sujeito a:
k
P
i=1
k
P
i=1
k
P
i=1
−
(λ+
i − λi )Zij − d + s ≥ 0, j ∈ G1
−
(λ+
i − λi )Zij − d − s ≤ 0, j ∈ G2
(6)
−
(λ+
i + λi ) = 1
d, s : irrestrito; ζi+ , ζi− : 0 ou 1;
−
λ+
i ≥ 0;λi ≥ 0;
NLC:(7),(8);NZC:(10)
−
onde dé um valor limite, ou limiar, s representa um desvio e λ+
i e λi , i = (1, 2...k) são pesos
cujo papel passamos a explicar.
110
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
Foram definidas as seguintes variáveis:
λ+
= (|λi | + λi )/2 e λ−
= (|λi | − λi )/2, para i = 1, ..., k
i
i
Trabalhando algebricamente as definições acima temos as seguintes conseqüências |λ i | =
− e λ = λ+ −λ− . Das definições, constatamos a condição de não linearidade (λ + λ− = 0),
λ+
+λ
i
i i
i
i
i
i
2
−
2
uma vez que λ+
i λi = (|λi | − λi )/4 = 0. Tal condição exclui a possibilidade de termos,
−
simultaneamente, λ+
i > 0 e λi > 0.
−
A separação da variável λi em λ+
i e λi torna possı́vel trabalhar não somente com dados
positivos, mas também com dados negativos.
Especial atenção foi dada à condição de não linearidade (NLC, do inglês, nonlinear condition) e sua equivalência em programação mista (MIP, do inglês, mixed integer programming).
−
+
Essa condição (λ+
i λi = 0) foi formulada introduzindo restrições com as variáveis bináriasζ i e
−
ζi , da seguinte maneira:
+ −
−
−
ζi+ ≥ λ+
(7)
i ≥ εζi eζi ≥ λi ≥ εζi
ζi+ + ζi− ≤ 1, (i = 1, ..., k)
(8)
onde ε é um número muito pequeno, no estudo do autor foi utilizado ε = 0, 0005.
As desigualdades em (7), que na formulação apresentada em (6) são referenciadas como
−
NLC:(7), estabelecem os limites superior e inferior de λ+
i e λi . Em (8), referenciado em (6)
como NLC:(8), temos que a soma das variáveis binárias é menor ou igual a um. Percebe-se que
+
−
−
se tivéssemos λ+
i ≥ ε > 0 e λi ≥ ε > 0 em (7), então encontrarı́amos ζi +ζi = 2 em (8), o que
−
seria uma solução inviável. Portanto, λ+
i > 0 e λi > 0 não podem ocorrer simultaneamente.
Outra situação imposta é a condição de não nulidade (NZC, do inglês, nonzero condition),
conforme estabelecida abaixo e que é referenciada em 6 como NZC:(9):
k
X
(ζi+ + ζi− ) = k
(9)
i=1
−
visando evitar λ+
i = 0 e λi = 0, simultaneamente. Tal condição impossibilita a desconsi−
deração de uma variável ou fator significativo, o que ocorreria caso fosse possı́vel λ i = λ+
i −λi =
0.
−∗
∗
∗
∗
Sejam λ∗i (= λ+∗
i − λi ), d e s as soluções ótimas de (6). Se s < 0 não há área de
intersecção entre os elementos dos dois conjuntos, i.e., todas as observações são claramente
classificadas em G1 e G2 . Se s∗ ≥ 0, existe uma área de intersecção e todos os dados são
classificados num dos subconjuntos abaixo:
C1 =
(
C2 =
(
j ∈ G1 /
j ∈ G2 /
D1 = G 1 − C 1 ,
D2 = G 2 − C 2
k
P
i=1
k
P
i=1
λ∗i zij
>
d∗
+
s∗
)
,
)
λ∗i zij < d∗ − s∗ ,
A figura 1 mostra a separação nos quatro subconjuntos mencionados. Observamos que a área
de intersecção corresponde a D1 ∪ D2 .
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
111
C1
RB
Intersecção
Linha 1
Linha 2
C2
Figura 1: Classificação no primeiro estágio.
Matematicamente, três regiões são definidas no espaço como segue:
R1 =
(
R2 =
(
RB =
(
(z1 ...zn
)T /
(z1 ...zn )T /
(z1 ...zn
k
P
i=1
k
P
i=1
)T /d∗
λ∗i zi
>
d∗
+
s∗
)
,
)
λ∗i zi < d∗ − s∗ e
−
s∗
≤
k
P
i=1
λ∗i zi
≤
d∗
+
s∗
)
Na figura 3, R1 é o espaço de dados acima da linha 1 (λ∗ Z = d∗ + s∗ ). R2 , o espaço de dados
abaixo da linha 2 (λ∗ Z = d∗ − s∗ ). A área de intersecção RB se encontra entre as linhas 1 e 2.
No segundo estágio, para tratamento dos dados da área de intersecção, temos a formulação
(10).
Nessa formulação Mé um número muito grande, como no conceito de Big – M em programação linear.
Neste modelo, a variável yj indica a ocorrência de uma classificação incorreta e a função
objetivo minimiza o número total de classificações incorretas.
min
P
yj +
j∈D1
sujeito a:
k
P
i=1
k
P
i=1
k
P
i=1
P
yj
j∈D2
−
(λ+
i − λi )zij − c + M yj ≥ 0, j ∈ D1
−
(λ+
i − λi )zij − c − M yj ≤ −ε, j ∈ D2
(10)
−
(λ+
i + λi ) = 1
c : irrestrito; ζi+ , ζi− , yj = 0 ou 1;
−
λ+
i ≥ 0; λi ≥ 0
NLC : (7), (8); NZC : (9)
Nesse modelo, NLC (7) e (8) e NZC(9) repetem as equações da formulação apresentada em
(6). Obtendo as soluções ótimas da formulação acima λ∗ = (λ∗1 , λ∗2 , ..., λ∗k ) e c∗ , onde c é o
112
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
C1
Intersecção
Linha 1
RB1
RB2
Linha 2
C2
Figura 2: Classificação no segundo estágio.
valor discriminante no segundo estágio, a área de intersecção (R B ), identificada no primeiro
estágio, pode ser separada da seguinte maneira:
RB1 =
(
RB2 =
(
(z1 ...zn
)T /
(z1 ...zn
)T /
k
P
i=1
k
P
i=1
zi λ∗i
zi λ∗i
≥
c∗
≤
c∗
)
∩ RB ,
)
− ε ∩ RB
A figura 2 mostra a classificação no segundo estágio.
Sintetizando, no primeiro estágio o modelo divide os dados em três grupos: G 1 , G2 e uma
área ainda indefinida, chamada área de intersecção. No segundo estágio, os dados contidos na
área de intersecção sofrem novo tratamento, sendo finalmente classificados em G 1 e G2 .
3
Composição de especialistas locais
A idéia básica de uma Composição de Especialistas Locais (CEL) para classificação de dados
consiste em clusterizar uma massa de dados, aplicar diferentes técnicas discriminantes ditas
“modelos especialistas” em cada clusters, ponderar os resultados das técnicas discriminantes
vencedoras, que são aquelas com o maior número de classificações corretas em cada cluster, e
obter um valor numérico que permita classificar uma observação nova (novo entrante) como
pertencente ou não a um determinado grupo.
Aqui cabe levantar uma questão importante. Cada modelo utilizado em análise discriminante gera resultados numéricos que, segundo um critério estabelecido, permite classificar as
observações em grupos. A natureza do valor numérico gerado, todavia, difere de modelo para
modelo e até mesmo dentro de um mesmo modelo, como é o caso dos modelos de dois estágios
de Sueyoshi, em que o valor numérico obtido na análise do segundo estágio não guarda relação
com aquele obtido no primeiro estágio. Para contornar a dificuldade de composição desses
valores de natureza distinta, converteremos os valores numéricos gerados em medidas que representam o grau de pertinência de uma determinada observação a um determinado grupo.
Essa conversão será detalhada na seção 4.3, adiante.
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
Y1
Especialista
1
Entrada
g
Y2
Especialista
2
X
113
Saída
Y
g
Yk
Especialista
k
1
g
2
k
Rede
Supervisora
Figura 3: Composição de Especialistas locais.
A figura 3 ilustra o conceito de CEL. Nela, uma massa de dados X foi dividida em k
clusters. Em cada cluster houve uma técnica discriminante com melhor desempenho (modelo
especialista vencedor). Cada modelo vencedor gera um uma saı́da Y i que é transformada numa
medida de grau de pertinência a um grupo. As diversas saı́das Yi são ponderadas por uma
função gerando uma saı́da única Y que define a classificação final.
A saı́da Y é dada por:
Y =
k
X
g i yi
(11)
i=1
Para cálculo do fator de ponderação gi utilizamos o mesmo procedimento de Melo (2003), que
se baseia na distância di , definida a seguir:
"
1
di = exp − 2 2 kx − ctri k2
2(si /S )
#
(12)
onde:
s2i é a variância do cluster i,
S 2 é a maior variância apresentada pelos clusters, isto é, S 2 = M ax(s2i ) e
i
kx − ctri k é a distância euclidiana da entrada x ao centro do cluster i.
Uma vez calculado o valor de di , definimos gi do seguinte modo:
gi =
di
M
P
di
i=1
Dessa forma para M clusters temos que
M
P
i=1
gi = 1.
(13)
114
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
Tabela 1: Centróides de três clusters
GA
RA
Cluster
No. 1
2,2930
0,1415
Cluster
No. 2
6,1659
0,7059
Cluster
No. 3
0,7640
-0,1778
Tabela 2: Composição dos clusters obtidos
Empresa
insolv
solv
Total
4
Cluster 1
2
33
35
Cluster 2
0
9
9
Cluster 3
31
20
51
Total
33
62
95
Estudo do caso
Em nosso estudo de caso investigamos a calibração de um modelo de composição de especialistas locais (CEL) para classificar empresas em dois conjuntos: G1 (insolventes) e G2 (solventes).
A massa de dados utilizada é a mesma de Scarpel (2000) e Almeida (2000). Ela é composta
por 95 empresas, dentre as quais 33 são insolventes e 62 são solventes. Todas são empresas
de capital aberto cujas demonstrações financeiras estavam disponı́veis na Comissão de Valores Mobiliários (CVM) e na BOVESPA (Bolsa de Valores de São Paulo). Como variáveis
explicativas, ficaremos com a mesma escolha de Almeida (2000), que foi a seguinte:
GA – Índice de Giro do Ativo Total, resultado da relação entre receita anual (vendas) e ativo
total, dividido pelo Índice de Endividamento Geral, resultado da relação entre o exigı́vel total
(= passivo circulante + exigı́vel a longo prazo) e o ativo total;
RA – Taxa de Retorno sobre o Ativo Total, resultado da relação entre o lucro (antes do
pagamento de juros + imposto de renda) e o ativo total, dividido pelo Índice de Endividamento
Geral.
Para a clusterização, estimação da FLDF e da regressão logı́stica, empregamos o software
Statistica, versão 5.5 (1999).
4.1
Clusterização
As 95 (noventa e cinco) empresas, foram clusterizadas de maneira a agrupá-las por similaridade.
Após um estudo de diversas alternativas quanto ao número k de clusters (ver Santos, 2004),
optamos por trabalhar com 3 clusters. Na figura 4 podemos visualizar os clusters obtidos.
A tabela 1 apresenta os centróides dos 3 clusters obtidos.
A tabela 2 resume a composição, i.e., o número de empresas solventes e insolventes em
cada um dos 3 clusters obtidos.
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
115
Clusters
2
RA
Cluster 1
Cluster 2
1
0
-0,5
Cluster 3
0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
GA 9,5
-1
-2
-3
insolventes
solventes
Centros
-4
-5
Figura 4: Clusterização em três grupos
4.2
Resultados dos Modelos Discriminantes
Aplicamos a Análise Discriminante de Fisher, Regressão Logı́stica e o modelo Extended DEADA na massa de dados global (i.e., sem clusterização) para verificar qual modelo discriminante
apresentaria o maior número de classificações corretas. Esse é o nosso modelo vencedor global
e constitui o modelo de referência para comparação com os resultados da utilização do modelo
CEL. A tabela 3 resume os resultados obtidos.
116
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
Tabela 3: Resultado na massa de dados global
Global
acertos
insolv
AD
31
Logit
28
DEA-DA
28
solv
43
58
59
total
74
86
87
%
77,9
90,5
91,6
Tabela 4: Resultados obtidos no cluster 3
acertos
AD
Logit
DEA-DA
insolv
22
27
26
solv
18
16
18
total
40
43
44
%
78,4
84,3
86,3
Como podemos verificar, o modelo Extended DEA-DA foi o vencedor na massa de dados
global e, portanto, é a referência de comparação com os resultados do modelo CEL.
No Cluster 1, que contém somente duas empresas insolventes, não é razoável aplicar qualquer modelo estatı́stico. Nesse contexto, descartamos a análise discriminante de Fisher e a
regressão logı́stica. Fizemos uma tentativa então com o modelo não-paramétrico Extended
DEA-DA que, conseqüentemente, por ser o único, foi o modelo vencedor nesse cluster.
A calibração apresentou apenas uma empresa que, no segundo estágio, teve seu valor de
discriminação situado entre os valores de referência d∗ + s∗ e d∗ − s∗ . Na impossibilidade
de definir a pertinência a um dos dois grupos, consideramos essa classificação como errada.
Portanto, o modelo apresentou apenas um erro de classificação e um percentual de acerto de
97,1%.
O Cluster 2 apresenta somente nove empresas solventes, não sendo necessário qualquer
esforço de discriminação. À qualquer empresa desse cluster atribuı́mos 100% de pertinência a
G2 (solventes).
O Cluster 3 nos permite trabalhar com todos os modelos especialistas considerados.
A tabela 4 resume os resultados obtidos pelos modelos especialistas aplicados ao Cluster
3, o qual contém 31 empresas insolventes e 20 solventes.
Assim, o modelo especialista vencedor para o cluster considerado foi o Extended DEA-DA.
Com isso, nossa composição se reporta a um único modelo aplicado a clusters diferentes,
produzindo superfı́cies de separação e funções discriminantes distintas.
4.3
Escala de Conversão
Já vimos que o modelo CEL será composto por um único tipo de especialista local, o Extended DEA-DA. Um questionamento que aflora nesse ponto é o de como combinar os valores
atribuı́dos a cada caso (empresa), uma vez que os mesmos apresentam ordem de grandeza
distinta conforme tenham sido obtidos no primeiro ou no segundo estágio de classificação.
A dificuldade maior, quando da conversão dos valores atribuı́dos pelo modelo Extended
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
117
Escala de Conversão
Valor empresa
mais solv. (V)
1
S
d * − s*
P
0,5
Figura 5: Escala de conversão em Pertinência (Extended DEA-DA)
DEA-DA, recai no fato de termos dois estágios e, portanto, duas escalas distintas. Não há
qualquer conexão entre os valores atribuı́dos no primeiro estágio e os valores do segundo estágio.
No entanto, tais escalas não devem apresentar comportamentos independentes, ou poderı́amos
ter casos em que uma empresa que não pode ser classificada em um dos grupos no primeiro
estágio, por ter se localizado na área de intersecção, registraria um grau de pertinência maior
do que uma empresa que foi classificada no primeiro estágio. Isso equivaleria a dizer que a
segurança na classificação da empresa que apresentou dúvida no primeiro estágio é maior do
que o daquela para a qual não houve dúvida, o que não parece ser lógico.
Um cuidado essencial nessa conversão é o fato de que os valores percentuais obtidos, quando
comparados a um determinado limiar, devem refletir exatamente as classificações obtidas pelo
modelo especialista antes da conversão.
Nesse contexto as escalas devem apresentar coerência e representar fielmente a classificação
atingida pelo modelo. Para contornar tais problemas adotamos a seguinte solução. Para o
primeiro estágio, o valor inferior da área de intersecção (d ∗ − s∗ ), que contém os pontos que
terão sua classificação definida apenas no segundo estágio, foi arbitrado um valor de pertinência
P ao grupo das empresas solventes igual a 0,5. Ao maior valor atribuı́do pelo modelo, que
corresponde à empresa, digamos assim, mais claramente solvente, foi arbitrado o valor 1.
Montamos então a escala de conversão ilustrada pela figura 5 e expressa pela relação dada em
(14):
S − (d∗ − s∗ )
P − 0, 5
=
V − (d∗ − s∗ )
1 − 0, 5
(14)
onde S é o valor atribuı́do pelo modelo Extended DEA-DA à empresa em questão, V é o valor
atribuı́do pelo modelo à empresa “mais claramente solvente” e P é o valor de pertinência a ser
obtido para a empresa em questão.
Todavia, quando aplicada a novos entrantes, essa escala poderá apresentar distorções, já
que, por basear-se em uma amostra, não há garantias de que o valor de P esteja entre 0 e
1. Para que tais valores possam ser vistos como a probabilidade de pertencer a um grupo,
utilizamos a solução proposta por Gujarati (2000), limitando em zero os valores de pertinência
inferiores a zero e em um os valores de pertinência superiores a um. Dessa forma, esses valores
de pertinência podem ser vistos como probabilidades.
118
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
A expressão de conversão para o segundo estágio é a seguinte:
P = (Pref
S − c∗
− 0, 5)
θ.(Ic∗ )
+ 0, 5 (15)
onde Pref é a probabilidade do caso de referência (classificado como solvente) no primeiro e
segundo estágios (com valor mais próximo de c∗ ), S é o valor atribuı́do no segundo estágio
do modelo Extended DEA-DA, c∗ é o limiar do segundo estágio, θ é um parâmetro que visa
a adequação da escala e I é uma função indicadora que poderá assumir os valores 1 e -1.
Essa função indicadora será utilizada somente para adequação do sinal, lembrando que uma
empresa para ser considerada solvente deve apresentar valor maior do que 0,5. No caso prático
estudado arbitramos θ = 0, 05.
4.4
Modelo CEL
O cálculo das ponderações do modelo CEL se dá de acordo com as expressões (13), (14) e (15).
A saı́da yi é a probabilidade de pertinência ao grupo das empresas solventes(G 2 ), resultado
da conversão em probabilidades dos valores atribuı́dos em cada cluster.
Vamos ilustrar o cálculo completo para a empresa de número 95, escolhida ao acaso, que
é solvente, pertence ao Cluster 1 e para a qual GA = 1,913 e RA = -0,009.
Calculando a variância de cada cluster, obtemos os seguintes valores para os Clusters 1, 2
e 3:
s21 = 0, 1523, s22 = 0, 8768 e s23 = 0, 3661.
Como a maior variância é a do cluster 2, temos S 2 = 0, 8768.
Temos ainda que:
kx95 − ctr1 k2 = 0, 167,
kx95 − ctr2 k2 = 18, 598 e
kx95 − ctr3 k2 = 1, 349,
assim, encontramos:
d1 = 0, 6183,
d2 = 0, 0001 e
d3 = 0, 1989,
g1 = 0, 7565,
g2 = 0, 0001 e g3 = 0, 2434.
o que nos leva a:
Os modelos locais vencedores em cada cluster aplicados aos dados da empresa 95 geram
saı́das que, convertidas pela escala apresentada em 4.3, transformam-se nas seguintes probabilidades de pertinência ao grupo das empresas solventes:
Pc1 = 0, 5313,
Pc2 = 1 e
Pc3 = 0, 6714.
Então, calculamos a seguinte probabilidade para o modelo CEL:
PCEL = g1 Pc1 + g2 Pc2 + g3 Pc3 = 0, 5654
Como esse número é superior a 0,5 a empresa 95 é classificada como solvente.
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
119
Tabela 5: Comparação entre modelo CEL e Extended DEA-DA
acertos
CEL
DEA-DA
insolv
29
28
solv
58
59
total
87
87
%
91,6
91,6
Uma vez calculados os valores para todas as empresas, resta-nos comparar os resultados
do modelo CEL com o resultado do especialista vencedor na massa de dados global. A tabela
5 resume a comparação de resultados.
Verificamos que, para a massa de dados estudada, não houve melhoria no número de classificações corretas ao adotarmos o modelo CEL, se comparado ao modelo Extended DEA-DA
aplicado sobre a massa de dados global. Ambos registram um percentual de acerto de aproximadamente 91,6%. O modelo Extended DEA-DA registra 5 empresas insolventes e 3 empresas
solventes incorretamente classificadas. Já o modelo CEL registra 4 empresas insolventes e 4
empresas solventes incorretamente classificadas.
5
Conclusões
Neste trabalho abordamos aspectos relativos a técnicas de análise discriminante e construção de
uma Composição de Especialistas Locais (CEL) para classificação de dados. Para isso, fizemos
uso de três técnicas de discriminação, a saber, Análise Discriminante de Fisher, Regressão
Logı́stica e Extended DEA-DA.
No decorrer do desenvolvimento, definimos o caso estudado, no qual apresentamos uma
massa de dados onde 95 empresas se enquadravam na categoria solvente ou insolvente. Essa
massa de dados foi clusterizada e tornou-se a base da calibração do nosso modelo CEL. Os
resultados obtidos indicaram o modelo Extended DEA-DA como único vencedor, tanto na
massa de dados global quanto na massa de dados clusterizada, exceto no cluster constituı́do
somente de empresas solventes.
Um aspecto importante foi a necessidade da construção da escala de conversão de valores
do modelo discriminante para graus de pertinência ao grupo de empresas solventes. Nesse
aspecto não vislumbramos uma solução geral, acreditamos tratar-se de um problema prático
que deverá ser contornado caso a caso, como fizemos no nosso estudo de caso.
Ao compararmos o modelo CEL com a técnica discriminante vencedora na massa de dados
global, os números finais mostraram que ambos apresentaram idêntico número absoluto de
classificações corretas, perfazendo um percentual aproximado de 91,6% de acerto na calibração.
Esse resultado indica que o esforço adicional empregado na partição da massa de dados
em regiões e aplicação de soluções nessas regiões, que implica grande esforço adicional em
comparação ao procedimento ortodoxo de aplicar a solução sobre a massa de dados global,
não necessariamente assegura melhores resultados.
Como sugestões para trabalhos futuros podemos indicar:
- um estudo mais geral sobre a construção de escalas de conversão de valores dos modelos
discriminantes em valores percentuais que representem graus de pertinência a um determinado
120
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
conjunto;
- estudar a adequação do uso do parâmetro subjetivo θ na conversão dos valores obtidos
pelo modelo Extended DEA-DA em valores percentuais para outras massa de dados, utilizando
simulação.
- a utilização de outras ferramentas de classificação de dados, redes neurais e outros especialistas, para obtenção de modelos CEL diferenciados.
- a aplicação de modelos CEL numa massa de dados maior, possibilitando separar parte
dos dados para calibração e outra parte para teste, verificando-se assim a capacidade de generalização do modelo.
6
Referências
ALMEIDA, H. R. Análise de envoltória de dados na tomada de decisão para
concessão de crédito. Dissertação (Mestrado em Produção) – Instituto Tecnológico
de Aeronáutica, São José dos Campos, SP, Brasil, 2000
FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, v. 7, p.179-188, 1936
GUJARATI, D. N. Econometria básica. São Paulo: Makron Books, 2000
JACOBS, R. A.; JORDAN, M. I.; NOWLAN, S. J. & HINTON, G. E. Adaptive Mixture
of Local Experts. Neural Computation. Vol. 3, No. 1, pp.79-87, MIT Press, 1991
LAM, K.F.; MOY, J.W. A piecewise linear programming approach to the two- group
discriminant problem: an adaptation to Fisher’s linear discriminant function model.
European Journal of Operational Research, v.145, p. 471-481, 2003
LIMA, C. A. M.; COELHO, A. L. V.; VON ZUBEN, F. Mixture of Experts Applied to
Nonlinear Dynamic Systems Identification:A Comparative Study, Proceedings of the
VII Brazilian Sympsium on Neural Networks, Porto de Galinhas, Recife, Brazil,
Nov 11-14, 2002, pp 162-167, 2002
MELO, B. Previsão de séries temporais usando modelos de composição de
especialistas locais. Dissertação (Mestrado em Produção) - Instituto Tecnológico de
Aeronáutica, São José dos Campos, SP, Brasil, 2003
MELO, B.; NASCIMENTO Jr, C. L.; MILIONI, A. Z.. Daily Sugar Price Forecasting Using Mixture of Local Experts Models. In: ZANASI, A.; EBECKEN, N.f.f.;
BREBBIA, C.a. (Org.). Data Mining V: Data Mining, Text Mining and their
Business Applications. Londres, v. 10, p.271-281, 2004
PINDYCK, R. S.; RUBINFELD, D. L. Econometric models and economic forecasts. 4. ed. New York: McGraw-Hill, 1998.
SANTOS, O. J. S. . Composição de Especialistas Locais para Classificação
de Populações. Dissertação (Mestrado em Produção) - Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, 2004
O. J. S. Santos, A. Z. Milioni / Investigação Operacional, 25 (2005) 105-121
121
SCARPEL, R. A. Modelos matemáticos em análise financeira de empresas de
setores industriais e de crédito. Dissertação (Mestrado em Produção) – Instituto
Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, 2000
SCARPEL, R. A.; MILIONI, A. Z.. Aplicação de modelagem econométrica à análise
financeira de empresas. Revista de Administração (RAUSP), São Paulo, SP, v. 36,
n. 2, p. 80-88, 2001
SCARPEL, R. A.; MILIONI, A. Z.. Utilização conjunta de modelagem econométrica e
otimização em decisões de concessão de crédito. Pesquisa Operacional, v. 22, n. 1,
p.61-72, 2002
STATSOFT INK. STATISTICA 5.5, Software Manual, Tulsa, 1999
SUEYOSHI, T. DEA: discriminant analysis in the view of goal programming. European
Journal of Operational Research, v.115, p. 564-582, 1999
SUEYOSHI, T. Extended DEA-discriminant analysis. European Journal of Operational Research, v.131, p. 324-351, 2001
SUEYOSHI, T. Mixed integer programming approach of extend DEA- discriminant
analysis. European Journal of Operational Research, v.152, p.45-55, 2004
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
123
Using Optimization to Solve Truss Topology Design
Problems
Fernando Bastos
∗
∗
Adelaide Cerveira
†
Joaquim Gromicho
‡
Departamento de Estatı́stica e Investigação Operacional, FC, UL,
Lisboa, Portugal
[email protected]
†
†
Departamento de Matemática, UTAD,
Vila Real, Portugal
[email protected]
Vrije Universiteit, Amsterdam & ORTEC International,
Gouda, The Netherlands
[email protected]
Abstract
The design of truss structures is an important engineering activity which has traditionally been done without optimization support. Nowadays we witness an increasing concern
for efficiency and therefore engineers seek aid on Mathematical Programming to optimize a
design. In this article, we consider a mathematical model where we maximize the stiffness
with a volume constraint and bounds in the cross sectional area of the bars, [2]. The basic
model is a large-scale non-convex constrained optimization problem but two equivalent
problems are considered. One of them is a minimization of a convex non-smooth function in several variables (much less than in the basic model), being only one non-negative.
The other is a semidefinite programming problem. We solve some instances using both
alternatives and we present and compare the results.
Keywords: truss topology design, stiffness, non-smooth convex programming, descent method, semidefinite programming, duality, interior point methods
Introduction
Truss topology design (TTD) deals with constructions like bridges, cantilevers and roof trusses
supporting different loading scenarios. For example, a bridge should withstand forces corresponding to morning or evening rush hour traffic and even to an earthquake.
c 2005 Associação Portuguesa de Investigação Operacional
124
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
The selection of an optimal configuration for the structure depends on the used criteria,
see for instance Refs. [3, 4, 17, 26, 19, 20]. Possible criteria are, for example, characteristics of
rigidity such as stiffness and stability of the construction, the total amount of material used,
structure lifetime, etc. In this paper we examine the issue of the stiffness of the truss for
a given amount of material: we seek the stiffest truss satisfying equilibrium constraints and
restrictions on the cross sectional area of the bars. This results in a large-scale non-convex
problem, as we show with some detail.
An equivalent convex minimization problem is presented and solved by a nonsmooth steepest descent algorithm. This approach is unable to handle large TTD problems with tens of
nodes and hundreds of bars, [2]. A more efficient alternative reformulation of the basic model
as a semidefinite program (SDP), [10], is also considered.
The paper is organized as follows. In section 1 we present the basic notions about TTD
problems with a detailed explanation of the problem formulation, emphasizing on the equilibrium constraints. The obtained model is hard to solve, but an easier equivalent convex
problem is presented in Section 1.4. In Section 2 we present a reformulation of the last problem as a minimization of a convex non-smooth function with less variables, being only one
of them non-negative. In Section 3, we describe a descent algorithm to solve this problem.
In Section 5, an alternative reformulation is presented as a semidefinite programming problem. We briefly derive the required linear matrix inequalities, and explore different alternative
formulations of the problem, which enable the use of CSDP3.2 package [6, 5]. In order to
simplify the exposition we include some important results from linear algebra and Positive
Semidefinite Programming (SDP) in Section 4. Finally, in Section 7 we present computational
results obtained for both methodologies.
1
Problem Formulation
This section starts by introducing the basic engineering concepts that are important to the
design of trusses.
1.1
Trusses, Loads and Compliance
A truss is a two or three dimensional structure composed of bars linked at nodes or joints which
may be fixed, free or supported. In this work, we only consider two dimensional trusses. There
is no loss of generality since three dimensional trusses can be approached by similar techniques
but with a substantial increase on the number of variables. We distinguish the nodes on their
degrees of freedom. A fixed node has 0 degrees of freedom. In the two dimensional case, a
free node has 2 degrees of freedom (it can be moved along each direction on the plane) and,
a supported node has just 1. The total number of degrees of freedom of the truss is the sum
of the corresponding values on its nodes. The bars are all made of the same material. This
material has elastic properties which are assumed linear with Young’s modulus E.
When external forces, represented by a vector f , are acting on the nodes the structure
deforms until the reaction caused by the deformation of the bars balances the external load.
We may describe that deformation by the vector of nodal displacements, u, being the work
done by external forces f>u. We call compliance to 21 f>u. This is a measure of the stiffness
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
125
Figure 1: Rich and poor topologies.
of the truss, of its ability to withstand the load: the smaller the compliance the larger the
stiffness of the truss with respect to the load.
Initially, we have a basic truss, the so-called ground structure, which is a previously chosen
set of nodes and connecting bars. Usually we take a mesh of regularly spaced nodes. If we
consider all possible links between the nodes we call it the rich topology, while if we consider
only the links between neighboring nodes we call it the poor topology. In Figure 1, we show
both alternatives for one set of nodes.
The goal is to find the stiffest truss capable of withstand the given load with a total volume
that do not exceed a predefined value. We have to distribute the volume of the truss among the
bars in order to get the more rigid construction, i.e., the one that minimizes the compliance.
Only the bars with nonzero cross-sectional area are part of the final structure. This is what is
called “truss topology design”.
In order to formulate the problem, we consider a ground planar structure with k nodes, n
degrees of freedom, m tentative bars and an external load f ∈ Rn . The design variables in the
problem are the cross-sectional area of the bars, ai , with bounds, Li ≤ ai ≤ Ui , i = 1, . . . , m.
The predefined maximum volume for the structure will be represented by v(> 0). Denoting
by si the length of bar i, the set of all admissible vectors for the cross-sectional area of the
bars is
)
(
m
X
a i si ≤ v , L ≤ a ≤ U
A = a ∈ Rm :
i=1
where a = (a1 , . . . , am ), L = (L1 , . . . , Lm ) and U = (U1 , . . . , Um ). We assume the following:
• 0 ≤ Li < Ui , i = 1, . . . , m;
• si Ui ≤ v, i = 1, . . . , m;
Pm
Pm
•
i=1 si Ui .
i=1 si Li < v <
Typically m is much larger than n.
The truss should be able to withstand the external load. This is assured by the equilibrium
equation:
K(a)u = f
(1)
where u ∈ Rn is the nodal displacement vector and K(a) is the n × n stiffness matrix of the
structure. In the following subsection, we explain the equilibium equation with some detail.
126
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
The problem can be formulated as follows ([2, 3, 4, 8]) 1 :
min f>u
(P )
s.t.
K(a)u = f
a∈A
u ∈ Rn .
Note that problem (P ) is non-convex due to the equilibrium equation and has a large
number of variables (n + m) and constraints (n + 2m + 1). To get an idea of the size of
TTD problems, we can easily notice that, in the case of the rich topology, we can get up
to m = 21 k(k − 1) bars being the number of the nodes, k, typically large. Fortunately, this
problem can be transformed to an equivalent convex programming problem, as we will see in
Section 1.4, which can be rewritten as a non-smooth convex problem with only n + 1 variables
and 1 constraint (see Section 3) or as a semidefinite problem (see Section 5).
1.2
Equilibrium equation
Let ai and si , denote the cross-sectional area and length of bar number i, respectively.
The general law for energy conservation, [7], states that:
f>u = q>∆s,
(2)
where q ∈ Rm is the vector of internal bar forces and ∆s ∈ Rm is the vector of the bar
elongations.
The stress in bar i, σi , given by aqii , measures the intensity of internal forces by unit of area.
Each given material has a limit of proportionality, see [7], within which the elastic behavior is
linear and the so-called Hooke’s law is valid:
σi = E
∆si
si
with E a constant specific to each material, called the Young’s modulus.
As σi =
qi
ai
we can write
qi =
Eai
∆si = ki ∆si
si
where ki = E asii is known as the stiffness of the bar i. Similar equations can be written for all
m bars of the structure obtaining
q = D∆s,
(3)
where D is a diagonal matrix with Dii = E asii for all i = 1, . . . , m.
All deformations are assumed to be small, i.e., it is assumed that the resulting displacements
do not significantly affect the geometry of the structure and hence do not affect the forces on
the bars [17, 7].
1
In the objective function, to simplify, we consider twice the compliance.
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
yg
127
∆s2*.....
6
xl
q
yl
K ......... β
.
...
*
q. 0
... ....
v
q........................α.....................β.......................... 6
?q
-
...
..
i
∆s1 .....
..
....
....
..
p....................α
*
hq
* 0
...p.....
vp
p.......................α............β......................... 6
?
-
...
..
-
xg
0
(a)
Figure 2: (a) Coordinates of bar i
hp
(b)
(b) Bar elongation
In order to derive equilibrium constraints we will construct the compatibility matrix B.
It relates (small) nodal displacements, u, with (small) bar elongations, ∆s, and relates nodal
forces, f , with bar forces, q, by
∆s = Bu , f = B>q.
Consider the bar i in the plan with node p = (xp , yp ) as its first end, and node q = (xq , yq )
as its second end (see Figure 2 (a)). We assume that both nodes are free, i.e., that both have
two degrees of freedom. The xg 0yg axes refer to the whole structure. The bar itself has a pair
of local axes xl and yl . Positive direction of xl is indicated by an arrow which is pointing to
the second end of the bar.
The axial external load, f , causes displacements of both end nodes, p and q. In the overall
referential, consider up = (hp , vp ) and uq = (hq , vq ) where hp and vp denotes the horizontal and
vertical displacement of node p, respectively, and hq and vq are the corresponding quantities
for node q. Accordingly, the end nodes of the bar move by the amounts ∆s1 and ∆s2 (cf.
Figure 2 (b)) parallel to its pxl axis. Hence the new position of the bar is given by p0 and q 0
as shown in the figure. The elongation of this bar is:
∆si = −∆s1 + ∆s2
= −hp cos α − vp sin α + hq cos α + vq sin α,
where α is the angle between bar i and the horizontal positive direction x g . In matricial form,
we can write:


..
 . 
 hp 


 vp 
p
q


z
}|
{
}|
{
z


∆si = [ · · · − cos α − sin α · · · cos α sin α · · · ]  ...  .


 hq 


 vq 


..
.
The row vector [ · · · − cos α − sin α · · · cos α sin α · · · ] is known as the displacement
transformation matrix [B]i for the bar i.
128
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
Let us consider now supported nodes. If the first end node, p, is constrained to move only
vertically and the second one, q, only horizontally, then we obtain


..
 . 
 vp 
p
q


z }| {
z }| {
 .. 
∆si = [ · · · − sin α · · · cos α · · · ]  .  .


 hq 


..
.
Other cases are similar. Writing this equation for all the bars of the structure, we obtain the
matricial equation
∆s = Bu,
(4)
where B ∈ Rm×n , whose ith line is [B]i , is called the compatibility matrix of the structure.
By equations (2) and (4), the equality f>u = q>Bu holds for every vector u, so:
f> = q>B.
Using (3) and (4), we obtain:
f = B>q = B>D∆s = B>DBu.
Defining K = B>DB, known by stiffness matrix of the structure, we obtain the equilibrium
equation:
f = Ku,
The matrix K (or K(a) to emphasize that it depends on a) can also be obtained by:
K(a) =
m
X
a i si K i
(5)
i=1
where Ki , the stiffness matrix of bar i, can be obtained by the formula
Ki = bi b>i ,
(6)
√
being bi = sE
[B]i . As we can easily see from (6), Ki is a rank 1 symmetric positive semidefinite
i
matrix. Moreover, from the engineering point of view, it is standard to assume that B has full
rank (Ref.[2]), making K(a) = B>DB to be positive definite if a > 0. In fact, if a > 0 then all
the diagonal elements of D are greater than zero and so D is positive definite. Furthermore,
as B has full rank then Bx 6= 0, for all x 6= 0 and so,
x>K(a)x = x>B>DBx > 0, for all x ∈ Rn \ {0}.
1.3
Examples
To illustrate the previous concepts, we present two small examples.
In one of them, we consider the structure presented in Figure 3 with 6 nodes and 5 bars.
In the lower left corner of the figure the referential to the whole structure is presented. Node
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
129
00000000000000000000000000000000000000
y
β
x
3 ? 4
2?
1R
q
-xg
-
a
5
F
yg ?
α
p /◦◦|000
b
Figure 3: Truss with 5 bars and 3 degrees of freedom.
(−5, 3)000|
(−5, 0)000|
yg
6
-xg
c
5
(0, 3)
d
a
3
b
1
}
4
6F
1
2
(0, 0)
4
◦◦
0−
000
F2
6
(4, 0)
e
Figure 4: Truss with 5 bars and 5 degrees of freedom.
a is free, node b can be moved in the yg direction. Nodes a and b have, respectively, 2 and 1
degrees of freedom, while the remaining nodes are fixed.
As the structure has five bars and three degrees of freedom, B ∈ M5×3 and Ki ∈ M3×3 :



B=


cos β
0
0
0
−1
cos2 β
cos β sin β
E
sin2 β
K1 = 2 cos β sin β
s1
0
0


0 0 0
E
E
K3 = 2  0 0 0  , K4 = 2
s3
s4
0 0 1
sin β
1
0
0
0
0
0
1
sin α
0








0
0 0 0
E
0  , K2 = 2  0 1 0  ,
s2
0
0 0 0




0 0
0
1 0 0
E
 0 0
0  , K5 = 2  0 0 0  .
s
5
0 0 sin2 α
0 0 0
The vector u of nodal displacements has three components, u = (ha , va , vb ). The horizontal
displacement of a is ha , its vertical displacement is va and vb is the vertical displacement of
node b. In Section 7 we present computational results for this structure considering β = 45 ◦ ,
α = 60◦ and an external load F acting at node a.
In the other example, we consider the structure presented in Figure 4. In the lower left
corner of the figure the referential to the whole structure is presented. The structure has five
bars and five nodes. The node coordinates are given in parenthesis. Nodes d and e are free,
130
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
Table 1: Structure data.
bar
1
2
3
4
5
length
5
4
5
3
5
cos α
-0.8
-1
1
0
-1
sin α
0.6
0
0
1
0
1st end node
e
e
b
a
d
2nd end node
d
a
a
d
c
node a can be moved in the xg direction having, respectively, 2, 2 and 1 degrees of freedom,
while the remaining nodes are fixed.
From the coordinates of the end nodes of each bar we calculate the length and the direction
cosines of the bars. The results are summarized in Table 1.
As the structure has 5 bars and 5 degrees of freedom then B, Ki ∈ M5×5 . We have

K1 =

E 

K3 =

25 


B=


0
0
0 0.64
0 −0.48
0 −0.64
0 0.48
1 0
0 0
0 0
0 0
0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
E 


25 
0
−0.48
0.36
0.48
−0.36

−0.8
0
0
0
1
0
−1
1
0
0
0
−0.64
0.48
0.64
−0.48

E

 , K4 =
9






0.6
0
0
1
0
0
0.48
−0.36
−0.48
0.36
0
0
0
0
0
0.8
1
0
0
0
−0.6
0
0
0
0




,



E 


 , K2 =

16 

0 0
0 0
0 1
0 0
0 0
0 0
0 0
0 0
0 0
0 0
1
0
0
−1
0

0
0
0
0
0
0
0
0
0
0
−1
0
0
1
0

0
0
0
0
0
0
1
0
0
0

E 


 , K5 =

25 

0
0
0
0
0
0
0
0
0
0





0
0
0
0
0
0
0
0
0
0



.

There are two external loads, F 1 and F 2 , acting in the nodes a and e, respectively, as
shown by the depicted arrows. The intensity of load F 1 is 20N and its angle with 0xg is 60◦ .
The intensity of load F 2 is 30N and the angle is 90◦ .
The vector of nodal displacements has five components, u = (ha , hd , vd , he , ve ), being hi
the horizontal displacement of node i (i = a, d, e) and vi the vertical displacement of node i
(i = d, e). As for the previous example, we present in Section 7 some computational results.
1.4
An equivalent large-scaled convex problem - (CP )
Problem (P ) is, as already mentioned, hard to solve. However, as shown in [2, 8], it is equivalent
to:
(CP ) Z1 = min maxn {2f>u − u>K(a)u} .
a∈A u∈R
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
131
This is a convex programming problem. But it is still hard to solve directly. In the
next section we present an equivalent optimization problem where we minimize a convex nonsmooth function in n + 1 variables, being only one non-negative and the others free. Later, in
Section 5, we also present a reformulation of (CP ) as a semidefinite programming problem.
2
A smaller equivalent convex problem - (CP2 )
This section is based mainly on [2]. The model studied in [2] requires the volume of the
structure to be equal to a given value, while our version constraints the volume of the structure
not to exceed a maximum. This makes the model similar to the semidefinite programming
models to be presented later on. To make the present article self-contained we state all the
results needed, some of them being modified from those in [2] in order to accommodate for
this slight change in the model.
Consider the optimization problem:
(CP2 )
Z2 =
min
u∈Rn ,λ∈R+
with
F (u, λ) := F0 (u, λ) +
m
X
F (u, λ)
si Fi (u, λ)
(7)
i=1
where
>
F0 (u, λ) := λv − f u and Fi (u, λ) := max
1 >
1 >
u K i u − λ Ui ,
u K i u − λ Li
2
2
and R+ is the set of nonnegative real numbers. This is a convex minimization problem with
n + 1 variables and only one constraint. The objective function, F , is convex: it is the sum of
several functions, being one of them linear, and the others convex, as they are the maximum
of two convex quadratic functions. However, it is non-smooth.
The following theorem sets up a first relation between problems (CP ) and (CP 2 ):
Theorem 2.1 ([2, 8])
Z1 = −2Z2 .
Next theorem guarantees the existence of an optimal solution of (CP 2 ). We present a proof
different from the corresponding one in [2, 8].
Theorem 2.2 There exist u ∈ Rn and λ ∈ R+ such that
F (u, λ) =
Proof.
min
u∈Rn ,λ∈R+
F (u, λ).
The function F is convex on Rn+1 , and so it is continuous on Rn+1 . For λ ≥ 0,
132
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
considering a ∈ A, a > 0 and the assumptions of page 128, we have
>
F (u, λ) ≥ λv − f u +
m
X
si a i
i=1
!
1 >
u Ki u − λ
2
m
X
1
=λ v−
a i si K i
ai si − f>u + u>
2
i=1
i=1
!
m
1 > X
>
a i si K i u
≥ −f u + u
2
m
X
!
u
i=1
1
≥ −kf kkuk + ηa kuk2 ,
2
being the last inequality a consequence of the Cauchy-Schwarz inequality and of the
RayleighPm
Ritz theorem, [14]; ηa is the smallest eigenvalue of the positive definite matrix i=1 ai si Ki
and so ηa > 0.
For λ < 0, considering the assumptions of pages 125 and 128, we have
>
F (u, λ) ≥ λv − f u +
m
X
s i Ui
i=1
=λ v−
m
X
i=1
Ui s i
!
1 >
u Ki u − λ
2
m
X
1
− f>u + u>
Ui s i K i
2
i=1
!
m
X
1
≥ −f>u + u>
Ui s i K i
2
i=1
!
u
u
1
≥ −kf kkuk + ηu kuk2 ,
2
where ηu (> 0) is the smallest eigenvalue of the positive definite matrix
Pm
i=1 Ui si Ki .
So, F (u, λ) → +∞ when k(u, λ)k → +∞. This guarantees that F (u, λ) has a minimum on
Rn+1 . Let X be the set of all the minima of F (u, λ) on Rn+1 .
If X ∩ (Rn × R+ ) 6= ∅, the existence of an optimal solution of (CP2 ) is established. So, let
us suppose that X ∩ (Rn × R+ ) = ∅. In this case, being F (u, λ) convex on Rn+1 , the minimum
on Rn × R+ exists and has to be on the hyperplane λ = 0.
2
Theorem 2.1 defined a first connection between (CP ) and (CP2 ). The following theorem
completes that connection, defining the optimality conditions for (CP2 ) and showing how to
obtain an optimal solution of (CP ) from an optimal solution of (CP2 ).
Theorem 2.3 ([2, 8]) Consider (u, λ) ∈ Rn × R+ and define the sets
1 >
1 >
1 >
−
+
J := i : u Ki u < λ , J := i : u Ki u > λ J := i : u Ki u = λ .
2
2
2
The pair (u, λ) is an optimal solution of problem (CP2 ) if and only if there exist a ∈ Rn and
µ ∈ R+ such that
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
133
1. ai = Li if i ∈ J − ;
2. ai = Ui if i ∈ J + ;
3. Li ≤ ai ≤ Ui if i ∈ J;
4.
m
X
a i si K i u = f ;
m
X
ai si + µ = v;
i=1
5.
i=1
6. µλ = 0.
Moreover, the pair (u, a) is an optimal solution for (CP ).
Next, we present a technical result that defines an efficient way to compute λ for a given
u.
Theorem 2.4 ([2, 8]) Let u ∈ R,
λ = arg min F (u, λ),
λ∈R+
{i1 , i2 , . . . , im } a permutation of {1, 2, . . . , m} such that
u>Ki1 u ≤ uKi2 u ≤ . . . ≤ u>Kim u
(8)
and, finally, p, the largest integer such that
m
X
j=p
Then
s i j Ui j +
p−1
X
s ij L ij ≥ v
(p ≤ m).
j=1
1
λ = u>Kip u.
2
In the following section we present an algorithm to solve (CP2 ) and, consequently, (CP ).
3
A descend Algorithm to solve CP and CP2
Problem (CP2 ) is a convex problem in Rn ×R+ where the objective function, F , is non-smooth.
Since F is convex and finite, it has a non-empty subdifferential at every point (u, λ) ∈ Rn ×R+ ,
∂F (u, λ) ([21]). This set was already characterized in ([8]). Using this information, it is
possible to apply algorithms based on the separation oracles, such as cutting plane method
([9, 16, 18]) or ellipsoid method ([22, 23, 24]). These methods are characterized by decreasing
the search domain until its size be small enough or until other stopping criteria be satisfied.
A subgradient, and thus a supporting hyperplane, is all the information needed to reduce
134
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
the search domain in each step. However these methods are difficult to apply because it is
necessary to know in advance a compact set including an optimal solution.
Descent methods are also traditionally used to solve minimization unconstrained problems,
minx∈Rn f (x). Starting at an initial point x0 , a sequence {xk } is constructed forcing the
objective function f to decrease at each iteration:
f (xk+1 ) < f (xk ) , k = 0, 1, . . .
To solve (CP2 ), where λ is non-negative, we apply a descent method to solve
(9)
min
(u,λ)∈Rn+1
F (u, λ);
if, at iteration k, the obtained value for λk is negative, we project the corresponding (uk , λk )
over Rn × R+ making λk = 0.
3.1
Descent methods
The next iterate, xk+1 , is defined from the current one, xk , in two steps: first, a descent
direction dk is computed; after, one computes a stepsize tk > 0 such that the new iterate,
xk+1 := xk + tk dk satisfies the condition f (xk + tk dk ) < f (xk ). This procedure is repeated
until a stopping criteria is satisfied ([12]).
The success of these kind of methods depend on the choice of the step size tk and of the
direction dk . They must be carefully chosen. It is known that d is a descent direction of
function f : Rn → R at x if one of the following conditions is true:
• f 0 (x; d) < 0, where f 0 (x; d) is the directional derivative of f at x in the direction d;
• s>d < 0, for all s ∈ ∂f (x);
• σ∂f (x) (d) < 0, where σS (x) := sup{s>x : s ∈ S} is the support function of set S.
If one chooses d such that f 0 (x; d) be as negative as possible, the so-called steepest descent
direction is obtained. However, since the function d 7→ f 0 (x; d) is positively homogeneous
of degree one it is also necessary to bound the length of the direction because any negative
directional derivative can be indefinitely extended. In the following result, an easy way to
obtain a steepest descent direction, ([12, 8]), is presented.
Lemma 3.1 Consider a function f : Rn → R such that f 0 (x; d) exists for each x, d ∈ Rn and
d 7→ f 0 (x; d) is continuous. Under these conditions, the optimal value of
1
0
2
min f (x; d) + kdk
(10)
d∈Rn
2
is finite and non-positive.
Furthermore, this value is negative if and only if there exists d such that f 0 (x; d) < 0.
When f is convex we have the following corollary:
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
135
Corollary 3.1 If f : Rn → R is a convex function and d ∈ Rn is an optimal solution of the
problem (10) at x̄ then d = 0 if and only if minx∈Rn f (x) = f (x̄).
A steepest descent direction of the function F at (u, λ) is obtained solving the quadratic
minimization problem ([12, 2, 8]),
1
2
2
0
(Pd )
min
kdk + δ
F (u, λ; d, δ) +
d∈Rn , δ∈R
2
where F 0 (u, λ; d, δ) is a directional derivative of F at (u, λ) in the direction (d, δ).
ˆ δ̂) = (0, 0) then, by Corollary 3.1, the corresponding
If the optimal solution of (Pd ) is (d,
(u, λ) is the optimal solution.
Using some results about directional derivatives ([21, 12]), we have:
X
X
si Ui ((Ki u)>d − δ) +
si Li ((Ki u)>d − δ) +
F 0 (u, λ; d, δ) = −f>d + vδ +
i∈J −
+
X
i∈J +
si max {Li ((Ki u)>d − δ) , Ui ((Ki u)>d − δ)} .
i∈J
Defining
v := v −
X
si Li −
J−
f := f −
X
X
si Li K i u −
J−
one gets:
s i Ui ,
J+
X
(11)
si Ui Ki u,
J+
>
F 0 (u, λ; d, δ) = vδ − f d +
X
µi
i∈J
with,
µi := max {si Li ((Ki u)>d − δ) , si Ui ((Ki u)>d − δ)} , i ∈ J,
and problem (Pd ) can be written as
min vδ − f d +
(Pd )
d,δ
s.t.
X
i∈J
1
1
µi + kdk2 + δ 2
2
2
µi ≥ si Ui ((Ki u)>d − δ), i ∈ J
µi ≥ si Li ((Ki u)>d − δ), i ∈ J
The optimal solution of (Pd ) can be obtained solving its dual ([8])

2
2 

X
X

τi Ki u − f − 12 τi − v − 21 (Dd )
max
τ


J
s.t.
s i L i ≤ τ i ≤ s i Ui , i ∈ J
where τ = (τ1 , τ2 , . . . , τk ) with k = #J 2 .
2
#A is the cardinal of set A.
J
136
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
This is a quadratic problem with bounded variables that can be efficiently solved.
Let τ be an optimal solution for (Dd ). By the primal-dual relations ([1, 21]) an optimal
solution of (Pd ), (d, δ), is given by:
!
X
d=−
τ i Ki u − f ,
i∈J
(12)
X
δ=
τ i − v.
i∈J
Now we are able to apply a steepest descent direction algorithm to solve problem (CP 2 )
and, consequently, using Theorem 2.3, problem (CP ). However, descent methods do not
necessarily converge ([25, 12].
An improved convergent version of the descent method is presented in the next section.
3.2
ε-descent methods
A way to avoid the non-convergence of descent methods is to consider the ε-subdifferential of
f at x instead of the subdifferential. This concept uses information about the function not
only in x but also in a neighbourhood of x.
Next, we present some definitions.
Definition 3.1 ([13]) A vector s ∈ Rn is a ε-subgradient of f at x ∈ dom f if
f (y) ≥ f (x) + s>(y − x) − ε,
for each y ∈ Rn . The ε-subdifferential, ∂ε f (x), is the set of all ε-subgradient of f at x.
Definition 3.2 ([13]) The ε-directional derivative of f at x ∈ dom f relative to d is
fε0 (x; d) =
sup s>d.
s∈∂ε f (x)
It can be proven that ∂ε f (x) is a closed and convex set, for all ε > 0. This implies that fε0 (x; d)
is always well defined.
Definition 3.3 ([13]) A nonzero vector d ∈ Rn is said to be an ε-descent direction for
f at x if fε0 (x; d) < 0, in other words, if d defines an hyperplane separating ∂ ε f (x) and {0}.
A point x ∈ Rn is said to be an ε-minimum of f if there is no such separating d, i.e.
fε0 (x, d) ≥ 0 for all d i.e., 0 ∈ ∂ε f (x).
Proposition 3.1 ([13]) A direction d ∈ Rn is ε-descent if and only if
f (x + td) < f (x) − ε,
for some t > 0.
A point x ∈ Rn is an ε-minimum of f if and only if it minimizes f within ε, i.e., f (y) ≥
f (x) − ε, for all y ∈ Rn .
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
137
Next, we describe an ε-descent algorithm for solving minn f (x).
x∈R
A general ε-descent algorithm
Step 0 Start from some x0 ∈ Rn . Choose ε > 0. Set k := 0.
Step 1 If 0 ∈ ∂ε f (xk ) Stop. Otherwise compute dk , an ε-descent direction.
Step 2 Make a line-search along dk to obtain a step size tk > 0 such that
f (xk + tk dk ) < f (xk ) − ε.
Step 3 Set xk+1 := xk + tk dk . Replace k by k + 1 and loop to Step 1.
In the following we will describe an ε-descent algorithm for problem (CP2 ) which simultaneously solves problem (CP ). This algorithm is similar to the one presented in [2], differing
only in what is needed due to the volume constraint being an inequality in our case.
For ε > 0 define the following index sets:
ε
1 >
ˆ
J := i : u Ki u − λ ≤
,
2
s i Ui − s i L i
1
ε
Jˆ+ := i : u>Ki u − λ >
2
s i Ui − s i L i
and
Jˆ− :=
ε
1
i : u>Ki u − λ < −
2
s i Ui − s i L i
.
As in (11), consider
v̂ := v −
X
i∈Jˆ+
fˆ := f −
X
i∈Jˆ+
s i Ui −
X
si Li ,
i∈Jˆ−
s i Ui K i u −
X
si Li Ki u.
i∈Jˆ−
The vector (d, δ) is a ε−descent direction for problem (CP2 ) if it is an optimal solution of the
following quadratic problem



X
1
1 
µi + kdk2 + δ 2
v̂δ − fˆ>d +
(P̂d )
min
d,δ,µ 
2
2 
i∈Jˆ
s.t.
with
si Ui (d>Ki u − δ + pi ) − µi ≤ 0 , i ∈ Jˆ
si Li (d>Ki u − δ + pi ) − µi ≤ 0 , i ∈ Jˆ
1
pi := u>Ki u − λ.
2
Problem (P̂d ) is a perturbation of problem (Pd ). In fact, for every i ∈ Jˆ we have |pi | ≤
For small values of ε we have Jˆ ≈ J and, for ε = 0 both problems coincide.
ε
si (Ui −Li ) .
138
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
The dual problem of (P̂d ) is the following quadratic optimization problem ([8]):
(D̂d )

2
2 
X
X

 X
1
1
max
−
τi pi − τi K i u − f τi − v − 
τ

2
2
i∈Jˆ
i∈Jˆ
i∈Jˆ
s.t.
ˆ
si Li ≤ τi ≤ si Ui , i ∈ J.
Let τ̂ be an optimal solution for problem (D̂d ). As in (12), by the primal-dual relationships,
ˆ δ̂), is given by:
the optimal solution of problem (P̂d ), (d,


X
dˆ = − 
τ̂i Ki u − fˆ ,
ˆ
(13)
X i∈J
δ̂ =
τ̂i − v̂.
i∈Jˆ
By Corollary 3.1, dˆ = 0 and δ̂ = 0 if and only if (u, λ) is an ε-optimal solution for problem
(CP2 ).
ˆ δ̂), the stepsize can be obtain by:
Having an ε−descent direction, (d,
ˆ λ + αδ̂).
arg min F (u + αd,
α≥0
Here we use an inexact line search of the Armijo-Goldstein type as it was made by Ben-Tal
and Bendsøe in [2]. The rule is given in Step 2(d) of the following algorithm.
Next, we present a ε-descent algorithm to obtain an ε-optimal solution for problem (CP 2 ).
An ε-descent algorithm to solve (CP2 )
Step 0 Choose ε > 0, δ > 0, 0 < θ < 12 , set k := 0;
Step 1 initialization
P
0
(a) Choose an initial P
value a0 : a0 > 0, L ≤ a0 ≤ U, m
i=1 ai si ≤ v;
m
0
0
(b) Solve the system i=1 ai si Ki u = f . Let u be its solution;
(c) Compute λ0 in the following way: consider a
permutation (i1 , i2 , . . . , im ) of the set {1, 2, . . . , m} such that
>
>
>
u 0 K i1 u 0 ≤ u 0 K i2 u 0 ≤ . . . ≤ u 0 K im u 0 ;
let p be the largest integer such that
Pp−1
Pm
(p ≤ m)
j=p si Uij +
j=1 si Lij ≥ v
1 0>
0
then λ0 := 2 u Kip u ;
Step 2 iteration k +1 (uk and λk known):
(a) Determine the index sets Jˆk , Jˆk− , Jˆk+ and compute v̂ k and fˆk ;
(b) Solve the problem (P̂d ) to obtain (dˆk , δ̂ k )
[solve (D̂d ) to obtain τ̂ k and compute (dˆk , δ̂ k ) by formula (13)]
(c) If max(kdˆk k, |δˆk |) < δ Stop.
(d) Compute the stepsize αk as been the largest α > 0
such that
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
139
F (uk + αdˆk , λk + αδˆk ) ≤ F (uk , λk ) − αθ(kdk k2 + δ̂k2 )
(*)
Note: an approximation for αk can be obtained as:
let l(k) be the largest integer such that α = ( 12 )l(k) verify (*),
then αk = ( 12 )l(k) .
(e) Set:
uk+1 := uk + αk dˆk ,
λk+1 := λk + αk δ̂k .
k+1
If λ
< 0 then consider λk+1 := 0
(f) Replace k by k + 1 and loop to Step 2;
With this algorithm, we obtain (uk , λk ) as an ε-optimal solution for problem (CP2 ) corresponding to the ε-optimal value Z2ε = F (uk , λk ).
Using the relations between problems (CP ) and (CP2 ), the ε-optimal solution for problem
τ̂ k
(CP ) is (a, uk ) with ai = Li for i ∈ Jˆ− , ai = Ui for i ∈ Jˆ+ and ai = j for i ∈ Jˆk and j the
k
k
si
corresponding index in vector τ (1 ≤ j ≤ #Jk ). The ε-optimal value is Z1ε = −2F (uk , λk ).
As we will see, (CP ) can be formulated as a positive semidefinite problem. Before doing
so, we present, in the next section, some useful results from linear algebra and semidefinite
programming.
4
Semidefinite Programs
In this section, we review some fundamental properties of positive semidefinite matrices. We
also introduce a standard form of the primal-dual pair of positive semidefinite programs (SDP).
For a more complete explanation see Refs. [14, 15, 11].
Our notation is quite standard: Mn,m denotes the set of n × m matrices, Mn the set of
square matrices of dimension n, and Sn the set of the symmetric ones. The trace of matrix A,
Tr(A), is the sum of the diagonal elements of A; diag(A) is the vector of the diagonal entries
of A ∈ Sn ; Diag(x) is the diagonal matrix with the vector x on its diagonal.
Definition 4.1
A ∈ Sn is positive semidefinite (A 0 or A ∈ Sn+ ) if x>Ax ≥ 0 for all x ∈ Rn
A ∈ Sn is positive definite (A 0 or A ∈ Sn++ ) if x>Ax > 0 for all x ∈ Rn \ {0}.
It is easy to prove that Sn+ is a closed convex cone. This cone induces a partial order on the
set of the symmetric matrices: for A, B ∈ Sn , A B (A B) if A − B ∈ Sn+ (A − B ∈ Sn++ ).
The standard formulation for the primal-dual pair of problems in positive semidefinite
programming is given by
(P SDP )
inf c>x
m
X
s.t.
xi Fi + F0 = F (x) ,
i=1
F (x) 0
sup − Tr(F0 Z)
(DSDP )
s.t. Tr(Fi Z) = ci , i = 1, . . . , m (14)
Z0
140
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
where x ∈ Rm is the primal vector variables, Z is the dual matrix variable, which has the same
block structure as the given symmetric matrices F0 , F1 , . . . , Fm , and c ∈ Rm is a given vector.
In the previous formulation we considered just one semidefinite matrix variable, F (x). This is
not restrictive. In fact, any semidefinite program with several semidefinite matrices variables
of varying dimensions can be formulated equivalently within standard (P SDP ), using the
following result:


A1 0 . . . 0


.. 

..
.
 0 A2
. 
 ()0.
(15)
A1 ()0, A2 ()0, . . . , Am ()0 ⇐⇒ 

 .. . . . .
 .
.
. 0 


0
...
0
Am
The optimal value of (DSDP ) is a lower bound on the optimal value of (P SDP ). This
property is called the weak duality property. There is also a strong duality property,
similar to the one in linear programming:
Theorem 4.1 (Strong duality) Assume that there exists a strictly feasible solution Ẑ for
(DSDP ) and let
(
)
m
X
∗
>
p = inf c x :
xi Fi + F 0 0
i=1
and
d∗ = sup {−Tr(F0 Z) : Tr(Fi Z) = ci , i = 1, . . . , m, Z 0} .
Then p∗ = d∗ and, if p∗ is finite, it is attained for some x feasible for (P SDP ).
It is easy to see that linear programming is a special case of semidefinite programming.
Several other convex optimization problems can be formulated as semidefinite programs. To
see this, an helpful tool is the Schur Complement Theorem:
Theorem 4.2 (Schur Complement) Let A ∈ Sr++ , B ∈ Sq and C ∈ Mr,q . Then


A C
 () 0 ⇐⇒ B () C>A−1 C.

>
C B
The following lemmas are often used results about positive semidefinite matrices that we will
need later.
Lemma 4.1 If A ∈ Sn+ , then
• aii ≥ 0, i = 1, . . . , n;
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
141
• aii = 0 ⇒ aij = aji = 0, j = 1, . . . , n.
Lemma 4.2 Let A, B 0. Then, Tr(AB) ≥ 0 and Tr(AB) = 0 if and only if AB = 0.
The following lemma is also frequently used:
Lemma 4.3 ([10]) For f ∈ Rn and A ∈ Sn ,


τ
f
f
A

>
 0 ⇐⇒ τ + u>Au − 2u>f ≥ 0 , ∀ u ∈ Rn .
In the next section, we briefly show how problem (CP ) can be formulated as a semidefinite
programming problem.
5
An SDP formulation for truss structure design
We can write (CP ) as
min τ
τ,a
s.t. τ ≥ 2f>u − u>K(a)u , ∀ u ∈ Rn
a ∈ A,
where A = {a ∈ Rm :
(CP) as:
Pm
i=1 ai si
≤ v, L ≤ a ≤ U }. Using Lemma 4.3, we can write problem
min τ
a,τ

s.t. 
τ
f>
f
K(a)
m
X

0
a i si ≤ v
i=1
a−L≥0
−a+U ≥0
The last two inequalities may be written as the following linear matrix inequality:


Diag(a − L)
Diag(−a + U )

 0.
142
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
Consequently, using (15), we obtain the following semidefinite formulation
(SCP )
min τ
a,τ

s.t.
τ

f>


 f







K(a)
−
P
a i si + v
Diag(a − L)
Diag(−a + U )





 0.




If we consider
 

m

X
1 
1
min
Lj sj  ,
v−
ai := Li +
 si
m+1
j=1
min {Uj − Lj }
j=1,...,m


, i = 1, . . . , m,

τ := f>(K(a))−1 f + 1
we get a strictly
P feasible solution: using the assumptions of Section 1, we can conclude that
a > L, a < U , m
i=1 ai si < v, ai > 0 for i = 1, . . . , m, K(a) 0 and, finally, τ > 0. With this
and applying Theorem 4.2, we have


>
τ
f

 0.
f K(a)
Using (15) we conclude immediately that the solution is strictly feasible.
Problem (SCP ) is already an instance of (P SDP ) in variables a1 , . . . , am , τ . To see this,
just define the following matrices:



f


F0 := 




and

0 f>
0
v
Diag(−L)
Diag(U )

0





,





Fm+1


0 s i K i


Fi := 
−si



Diag(ei )



0


:= 





0>
Diag(−ei )
where ei is the unitary vector with component i equal to 1.

1 0>
0
0
0





 , i = 1, . . . , m,




0










F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
143
All the matrices has the same block structure: one symmetric block of dimension n + 1
and 3 diagonal blocks, one of dimension 1 and the others of dimension m.
In the following subsections, we derive the dual of (SCP ), we get a new semidefinite
programming problem equivalent to that dual. In section 6 we conclude that the dual of this
new problem is equivalent to problem (P ).
5.1
The dual problem of (SCP )
Using (14), the dual of problem (SCP ) is given by:
max − Tr(F0 Z)
s.t. Tr(Fi Z) = 0, i = 1, . . . , m
Tr(Fm+1 Z) = 1
Z 0,
being F0 , F1 , . . . , Fm+1 the matrices defined in the previous section and Z the dual variable
with the following block structure:


λ z>


z


Z := 




Σ
θ
Ω0
Ω00





,




where λ ∈ R, z ∈ Rn , Σ ∈ Sn×n , θ ∈ R and Ω0 , Ω00 are m × m diagonals matrices.
The dual problem can be written as
max
z,θ,Ω0 ,Ω00 ,Σ
s.t.
(DSCP )
>
−2f z − vθ +
m
X
Li Ω0ii
i=1
−
m
X
Ui Ω00ii
i=1
1
Tr(Ki Σ) = θ +
−Ω0ii + Ω00ii , i = 1, . . . , m
si


1 z>

0
z Σ
θ≥0
Ω0ii ≥ 0 , i = 1, . . . , m
Ω00ii ≥ 0 , i = 1, . . . , m.
The objective function does not depend on matrix Σ. This fact and the structure of the
first two constraints, suggest the possibility of having an equivalent problem without Σ. This
would be a much simpler problem than (DSCP ).
144
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
5.2
An equivalent problem to (DSCP )
Lets define the problem
max
−2f z − vθ +
s.t.

z,θ,Ω0 ,Ω00
^)
(DSCP
>
m
X
Li Ω0ii
i=1

1
−
m
X
i=1
z bi
>
bi z θ +
>
1
si
Ui Ω00ii
(−Ω0ii
+
θ≥0
Ω00ii )

 0 , i = 1, . . . , m
(16)
Ω0ii ≥ 0 , i = 1, . . . , m
Ω00ii ≥ 0 , i = 1, . . . , m
^ ).
In the following theorems, we will prove the equivalence between (DSCP ) and ( DSCP
Theorem 5.1 A feasible solution of problem (DSCP ) corresponds to a feasible solution of
^ ) with the same objective value.
problem (DSCP
Proof. Let (z, θ, Ω0 , Ω00 , Σ) be a feasible solution of (DSCP ).We know, by Theorem 4.2, that


1 z>
 0 ⇔ Σ zz>.

z Σ
Then, as Ki 0, applying Lemma 4.2 and using the equality constraint defined in (DSCP ),
we obtain,
1
Tr(Ki zz>) ≤ Tr(Ki Σ) = θ +
−Ω0ii + Ω00ii , i = 1, . . . , m.
si
As, by (6), Ki = bi b>i , Tr(Ki zz>) = Tr (bi b>i zz>) = z>bi b>i z. Then
z>bi b>i z = (b>i z)>b>i z ≤ θ +
which is equivalent to


1
bi z θ +
>
1
−Ω0ii + Ω00ii , i = 1, . . . , m,
si
z bi
>
1
si
(−Ω0ii
+
Ω00ii )

 0, i = 1, . . . , m.
^ ). It has, obviously, the same objective value
So, (z, θ, Ω0 , Ω00 ) is a feasible solution of (DSCP
0
00
as (z, θ, Ω , Ω , Σ) in (DSCP ).
2
^ ) corresponds to an optimal solution of
Theorem 5.2 An optimal solution of problem (DSCP
problem (DSCP ).
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
145
^ ). By (16), we obtain
Proof. Let (ẑ, θ̂, Ω̂0 , Ω̂00 ) be an optimal solution of (DSCP
θ̂ +
1 −Ω̂0ii + Ω̂00ii ≥ b>i ẑ ẑ>bi = Tr ((bi b>i ) ẑ ẑ>) , i = 1, . . . , m.
si
As Ki = bi b>i , we can write, for each i,
θ̂ +
1 −Ω̂0ii + Ω̂00ii ≥ Tr (Ki ẑ ẑ>) .
si
We will prove that the previous inequality is satisfied, for all i, as an equality, at the optimal
solution. In fact, let us suppose that, for an index i,
θ̂ +
1 −Ω̂0ii + Ω̂00ii > Tr (Ki ẑ ẑ>) .
si
With ẑ, Ω̂00ii and θ̂ constants, we can get a greater value for Ω̂0ii such that
θ̂ +
1 −Ω̂0ii + Ω̂00ii = Tr (Ki ẑ ẑ>) (≥ 0).
si
^ ) with objective value
Therefore, if Li > 0 we obtain another feasible solution for (DSCP
greater than the optimal one. This is an absurd. If Li = 0 we obtained another feasible
^ ) that satisfies the equality and the objective value is equal to the optimal
solution for (DSCP
^ ) that satisfies the equality for every i.
one. So, there is an optimal solution of (DSCP
Considering Σ̂ = ẑ ẑ>, we get a feasible solution for (DSCP ) with the objective value equal
^ ). Applying Theorem 5.1 we conclude that (ẑ, θ̂, Ω̂0 , Ω̂00 , Σ̂) is
to the optimal value of (DSCP
an optimal solution for (DSCP ).
2
Defining the matrices

Hi (z, θ, Ω0 , Ω00 ) = 
1
b>i z
1
0
si (−Ωii
b>i z θ +
+ Ω00ii )
^ ) can be written as
problem (DSCP
max
− 2f>z − vθ +
0
00
z,θ,Ω ,Ω
m
X
Li Ω0ii −
i=1







s.t. A := 





H1
m
X

 , i = 1, . . . , m,
Ui Ω00ii
i=1
(z, θ, Ω0 , Ω00 )
..

.
Hm (z, θ, Ω0 , Ω00 )
θ
Ω0
Ω00






 0.





146
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
This problem has 2m + n + 1 variables and the constraint matrix has m symmetric blocks
of dimension 2, one block of dimension 1 and two diagonal blocks of dimension m.
^ ) is strictly feasible: if we consider, for example, z = 0, θ = 1, Ω0 =
Problem (DSCP
00
I, Ω = I, we will get Hi = I2 and the constraint is strictly verified. By Theorem 4.1, this
^ ) is equal to the optimal value of its dual.
implies that the optimal value of (DSCP
^ ) is not the dual of (SCP ), it is an equivalent problem to that dual. Let
Problem (DSCP
^ ). We will show, in the next section, that this dual is an
us think about the dual of (DSCP
alternative formulation of (SCP ).
6
^)
The dual problem of (DSCP
^ ) can be obtained as before, by casting the problem in the standard
The dual of problem (DSCP
(P SDP ) format and then writing down the dual using (14). Nevertheless, in this case, it looks
simpler to derive the dual using directly the Lagrangian duality theory.
Considering the dual variable, B 0, defined as







B := 






B1
..
.
Bm
ξ
Λ
Φ







φ
β
i
i

 , i = 1, . . . , m,
 , Bi := 

β
γ
i
i




where φi , βi , γi ∈ R, i = 1, . . . , m, ξ ∈ R, Λ and Φ are m × m diagonal matrices, the Lagrangian function is given by
L(z, θ, Ω0 , Ω00 ; φ, β, γ, ξ, Λ, Φ) := −2f>z − vθ +
m
X
Li Ω0ii −
i=1
=
m
X
φi + 2
j=1
i=1
+
n
X
m
X
i=1
Ω0ii
zj
−fj +
m
X
Ui Ω00ii + Tr(AB)
i=1
m
X
βi (bi )j
i=1
γi
Li − + Λii
si
+
m
X
!
+ θ −v +
Ω00ii
i=1
m
X
γi + ξ
i=1
γi
−Ui + + Φii
si
!
^ ) is given by:
and the Lagrangian dual of the problem (DSCP
min
max L(z, θ, Ω0 , Ω00 ; φ, β, γ, ξ, Λ, Φ).
φ,β,γ,ξ,Λ,Φ z,θ,Ω0 ,Ω00
We can easily see that the inner maximization problem is bounded from above only when the
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
147
following conditions hold:
v=
Li =
m
X
γi + ξ, fj =
i=1
γi
si
− Λii ,
Ui =
m
X
βi (bi )j , j = 1, . . . , n,
i=1
γi
si
+ Φii , i = 1, . . . , m.
Under these conditions, the maximum value is
0
00
max L(z, θ, Ω , Ω ; φ, β, γ, ξ, Λ, Φ) =
z,θ,Ω0 ,Ω00
m
X
φi .
i=1
The dual problem can now be written as
min
φ,β,γ,ξ,Λ,Φ
m
X
φi
i=1
s.t. f =
m
X
βi bi
i=1
m
X
γi + ξ = v
i=1
γi
− Λii , i = 1, . . . , m
si
γi
Ui =
+ Φii , i = 1, . . . , m
si


φ βi
 0, i = 1, . . . , m
 i
β i γi
Li =
ξ ≥ 0, Λ 0, Φ 0.
As we know,
So, when γi > 0, we get


φi β i
β i γi

 0 ⇔ φi ≥ 0, γi ≥ 0, φi γi ≥ βi2 .
φi ≥
βi2
.
γi
If we suppose that, at an optimal solution,
φi >
βi2
,
γi
as βi2 /γi > 0, it is obvious that we can lower that value of φi to βi2 /γi obtaining yet a feasible
solution, with a lower objective value. This is an absurd, so we must have φi = βi2 /γi at an
optimal solution. When γi = 0, we get βi = 0. If, at an optimal solution we have φi > 0,
again we can lower the value of φi to 0 obtaining yet a feasible solution with a lower objective
value. This is an absurd and, so, at an optimal solution, we must have φi = 0.
148
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
Then, at an optimal solution,
γi = 0 ⇒ βi = 0, φi = 0
βi2
.
γi
γi > 0 ⇒ φ i =
Moreover, variable ξ can be viewed as slack variable and left out of the problem i.e.,
m
X
γi + ξ = v , ξ ≥ 0 ⇔
i=1
m
X
γi ≤ v.
i=1
Defining the sets
I0 = {i ∈ {1, . . . , m} : γi = 0}
I> = {i ∈ {1, . . . , m} : γi > 0} ,
the problem can be written as
min
β,γ,Λ,Φ
X β2
i
γi
i∈I>
s.t. f =
m
X
βi bi
i=1
^)
(DDSCP
m
X
γi ≤ v
i=1
γi
− Λii , i = 1, . . . , m
si
γi
Ui =
+ Φii , i = 1, . . . , m
si
γi ≥ 0, i = 1, . . . , m
Li =
βi = 0, i ∈ I0
Λ 0, Φ 0.
The following diagram summarizes the relations between all the problems obtained.
(P ) ⇐⇒
(CP )
⇐⇒ (SCP )

duality
y
^ ) ⇐⇒ (DSCP )
(DSCP

duality
y
^)
(DDSCP
It is reasonable to expect that some equivalence relation holds between problems (CP ) and
^ ) and thus between the original problem (P ) and (D DSCP
^ ). Consider the following
(DDSCP
^ ):
change of variables in (D DSCP
(
γi = a i s i ≥ 0
, for i = 1, . . . , m.
βi = γi b>i u
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
149
The objective function becomes,
m
X β2
X βi γi b>u X
i
i
βi b>i u = f>u,
=
=
γi
γi
i∈I>
i=1
i∈I>
^ ). For the constraints, we
where the last equality comes from the first constraint in (D DSCP
obtain,
m
X
γi ≤ v ⇔
ai si ≤ v,
i=1
i=1
f=
m
X
m
X
i=1
γi
βi bi ⇔ f =
m
X
ai si bi b>i u ⇔ f =
i=1
m
X
ai si Ki u,
i=1
− Λii and Λii ≥ 0 ⇔ ai ≥ Li , i = 1, . . . , m,
si
γi
Ui =
+ Φii and Φii ≥ 0 ⇔ ai ≤ Ui , i = 1, . . . , m.
si
Li =
^ ) coincides with (P ).
Clearly, problem (DSCP
7
Computational Results and Conclusions
In this section, we describe some computational experiments we made and we present and
compare the obtained results.
Used hardware
We used for all the described experiments a PC with a 1GHz Celeron processor, with 112MB of
RAM, using the Windows Me operating system. The main purpose is compare the performance
of the presented ε-descent algorithm with the semidefinite approach. In addition, we also made
^ ) in the
a brief comparison of the performance when we solve (SCP ) and when we use ( DSCP
semidefinite approach.
Used software
• To solve (CP2 ), we coded in PASCAL a variant of the previous described ε-descent
algorithm. In this variant, we consider, instead of a constant value of ε, a strategy of
beginning with a ‘large’ value of ε ∈ [5 × 10− 6, 5 × 10−1 ], decreasing the current value
after a defined number of successful iterations and increasing it after a certain amount
of iterations without progress.
^ ), we used the Brian Borchers’s CSDP3.2 package, [6, 5].
• To solve (SCP ) and (DSCP
This package implements a predictor-corrector variant of the primal-dual interior-point
algorithm for semidefinite programming, from Helmberg, Rendl, Vanderbei and Wolkowicz.
150
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
Table 2: Results for the trusses of Figures 3 and 4.
ε-descent method
CSDP3.2
# it
ε
ε-opt. value
Fig.
# it
opt. value
Fig.
Figure 3
8
5, 0 × 10−5
0, 0897
5(a)
24
0, 0897
5(b)
Figure 4
588
4, 0 × 10−3
0, 2610
6(a)
26
0, 2616
6(b)
0000
0000
rr
rr
−
−
rr
rr
rrrr
rr
rr
rrrr
rr
rr
rrrr
rr
rr
rrrr
rr
rrrr rrr
rr
rrrr rr
r
rrrr rr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr ◦0
/◦|00
..−
.
.
..
.
.
.
....
0000
rrrr
−
r
(a) ε-descent method
0000
0000
0000
rr
−
−
rr
rrrr
rr
rrrr
rr
rrrr
r
rrrr
rrrr rrrr
rrrr rr
rrrr rr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrr ◦0
/◦|00
... ..−
... ...
... ..
... ...
.....
0000
rrrr
−
r
0000
(b) CSDP3.2
Figure 5: Optimal solution for the structure in Figure 3.
Comparing the ε-descent algorithm with the semidefinite approach: used
trusses, results and conclusions
For all the considered trusses, we used E = 69 GPa = 6, 9 × 1010 N/m2 , the Young’s modulus
of the aluminium.
1) The first two cases are of a type different from the others. In these cases, the geometry is
considered defined and the goal is to compute the cross sectional area of each bar.
We used the trusses already presented in Section 1.3 at Figures 3 and 4. In both, we
consider Li = 0 and Ui = 3, i = 1, . . . , m. For the truss of Figure 3, we consider the total
volume, v, equal to 30 and for the truss of Figure 4, v = 50.
The results are summarised at Table 2. In Figure 5, we can see graphical presentations of
the optimal solutions for the truss corresponding to Figure 3. In Figure 6, the same for the
truss corresponding to Figure 4.
The obtained optimal values for the truss of Figure 3 are similar. This is a consequence
of the small value of the final ε. But, observing the thickness of the bars in Figure 5, it is
obvious that the optimal solutions are not similar. This possibly indicates the existence of
alternative optimal solutions.
The final ε for the truss of Figure 4 is not so small and, as consequence, the optimal values
are different.
2) Several computational experiments of a different type have been made. In these experiments, we have been concerned, not only with the design of the truss, but also with its
topology. We considered three basic cases and some variants of each one:
a) A truss with a 3 × 11 nodes mesh, with v = 60, Li = 0 and Ui = 7, i = 1, . . . , m. See
Figures 7-10.
b) A truss with a 9 × 4 nodes mesh, with v = 40, Li = 0 and Ui = 4, i = 1, . . . , m. See
Figures 11-14.
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
00|
0
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqrrrrr
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr 6
rrrrr
r
000|rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q
...
...
...
...
...
4
−
◦◦
0000
00|
0
151
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqrqrrrr
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr 6
rrrrr
r
000|rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qr
...
...
...
...
...
4
−
◦◦
0000
(a) ε-descent method
(b) CSDP3.2
Figure 6: Optimal solution for the structure in Figure 4.
Table 3: Structure 3x11, 9x4 and 13x5 corresponds to Figures 7-15.
Ground
structure
n
m
62
62
62
62
54
54
68
68
92
344
92
344
107
409
107
409
# iter
460
480
339
755
1546
839
2304
547
ε-Optimal solution
ε-opt.
ε
value
2.03 × 10−4
12.0974
Optimal solution
Fig.
# iter
opt. value
Fig.
7 (a)
31
12.0997
7 (b)
2.01 × 10
−2
10.5586
8 (a)
44
10.8118
8 (b)
1.51 × 10
−3
5.9114
9 (a)
33
5.9514
9 (b)
1.29 × 10
−4
5.0452
10 (a)
55
5.0464
10 (b)
5.00 × 10
−6
3.3974
11 (a)
40
3.3974
11 (b)
5.00 × 10
−6
3.3000
12 (a)
43
3.3005
12 (b)
5.00 × 10
−6
6.8582
13 (a)
41
6.8583
13 (b)
3.64 × 10
−3
6.6070
14 (a)
50
6.6116
14 (b)
138
242
–
–
–
–
38
14.3770
15 (a)
138
1718
–
–
–
–
44
10.5602
15 (b)
c) A truss with a 15 × 5 nodes mesh, with v = 100, Li = 0 and Ui = 3, i = 1, . . . , m. See
Figure 15.
The variants were obtained considering different load patterns, different nodes support and
two different ground topologies:
• The rich topology, where each node is connected with all the others, excluding superposition.
• The poor topology, where each node is only connected to its imediate neighbors.
For the 3 × 11 nodes structure, we considered two different load patterns. For the 9 × 4
nodes structure, we considered two different load patterns and nodes support.
In Table 3 we present some characteristics and results of the solved examples:
• the number of degrees of freedom, n, and the number of bars, m, in the ground structure;
• the number of iterations needed to solve problem (CP2 ) with the ε-descent method,
the final ε, the ε-optimal value, Z1ε , and the reference to the figure that presents the
corresponding final solution;
152
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
.q..................qqqqqqqq
...
qqqq.q
qq
qqqq ..
.....
q
q
.
q
.
........... qqqqqq ..qssqsqsqsqqqqq.qqq.q.qq.q.q.q.q.qq..qq qqqqqqqqqq ............
.
.
.
.. ...........qqqqqqqq ... sssss.sqqqq.q.qq.q.qq.qq.q.qq.qq qqqqqqq.q.q....~
.000
.............=
...... 4
0.
−
4
◦◦
◦◦
0−
000
0−
000
......................................................
............................................................................
............
.......
... ......... ..........
.....
. . .
..... ..........
..... .. .....
..... ...
.....
.....
..... ... ......
..... ..... ..................
.....
..... ..
... ..........
.....
..... .. ..... .....
..... .......... ..... ......... ..........
..... .....
.....
............. .....
..... .....
..... .....
..
.....
.
...
.
.
.
.
.
.
.
.
.....
.
.
.
.
........
......
......
......
.
..
...
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..... .. .. ...........
. ..
.
.... .........
.
.
.
.
.
.. .
.
..... ..........
.
.
.
.
.......
.
...........
.
....... ...
.
.
.
.
.
.
.
... .......
.
.
.
.
.
.
.
..... ...... ....
....
... ..........................................................
..........
...........................................................
.
......................................................
?
?
?
.q . .q
qqqq..q .. ..qqqqq
qqqq ... ... ... qqqqqqqq
q
q
q
qqqqq
qqqqq .qqqqqqqq .sssss qqqqqq.qq
qqqqq
qqqq sssqqqq
qqqq
q
qqqqq ~
=
q
q
qqsq
............qq
............
.....
..........................................................
..............................................................
..... ......... .........
............
.. .
.
. .
..........
..
..... ...
...........
..... ... ..... ..... ...
..... ..........
..... .......... ..... .................. ..... .........
...
..... .. ......... .. .....
.....
..... .. .......... .. ......
.....
..... ..... .................. ..... .........
..... ... ..... ..... ...
..... .............. ............... ..........
.....
.....
........
.
..... ..
.............
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..................................
................................................
.............. .....................................
....
.....
...
...
..... .... ..... ............
.. .............. ..............
.
.
.
............ ...
.......
...
...
.....
.
... .............. ...............
.
..... ....... .... ..
.
.
.
.
.
.
.
.
.
.
.
.
...................................... ................................................................................................................................................................. .....................................
−
0000
.................
.....
.. .... ......
?
?
(a) ε-descent method
?
4
◦◦
0−
000
?
?
4
◦◦
0−
000
(b) CSDP3.2
Figure 7: Solution for the 3 × 11 ground structure, considering the poor topology.
.......................................... qqqqqqqqqq..q...q.....q...q..q..qqqqqqqqqqq ...........................................
......... ........ ................ ..........q...q..q.qqq ..................... ........ ..................................... qq..q..q...q..q...q.... ................ ........ ..................
.........
. .
. . .
. .
.
.
. .
.
.
.
.
.
.
.
.
.............. .......................................................................................q..q..q....q..q..q...q..q..q.......................................... rrrr......ssssrrrrr ......................................................q..q...q..q..qqqqqq .............................................................................................
.......
......
q
....... qq
.
.
.....rr s r..r
..
.
.
.
.
q
.
.
.
.
.
.
.
.
.
............................ =
q
.
.
.
.
.
.
r
r
.
.
.......qqq ..... ..
. .... q.....
r..... s ..... r
.......qq ..... ~
.... .........................
.......q..q...
.............................
rqrqrqrqqqq.q...q...q...q..sss.q....q...qqqqqqrrqrqrq
..................................... .............q...q..q..q..q.....
−
0000
.........
?
... ..
... ...
......
.
.........
?
?
4
◦◦
0−
000
?
4
◦◦
0−
000
.......................................... ........q..qqqqqqqqqq..q.....q....q.qqqqqqqqq..q..q...q... ...........................................
......... ........ .............................................q....q.....q...qqq qqq................ ..... ................ qqqq q.q......q....q.....q....q..................................... ........ ..................
.........
......
... .............
.
.
.
.
qq ..... ....qq . ..q... .... qq .............. ...
.
.
.
.
........... ............................................................... qqqqqq .............................q.q..q................qq.............q.q...q......................... qqqqqq ............................................................... .............
............ ............ ..
qqq qq .q.qq. ..
q
... .............. ............... qqqq
.
.
q
q
.
.
.
.
q
.
.
.
.
...... ..
.
... .............. =
qqqq ...........~
.
.....................q.q.q.qqq..q.q....................
... ................qqqqqq
.
q..q.. .....................................................
.....................................
0−
000
.........
?
..... ....
........
4
−
?
0◦◦
000
.........
?
?
4
◦◦
0−
000
(b) CSDP3.2
(a) ε-descent method
Figure 8: Solution for the 3 × 11 ground structure, considering the rich topology.
• the number of iterations needed to solve problem (SCP ) using CSDP 3.2, the corresponding optimal value and the reference to the figure that presents the optimal solution.
Figures 7-10 are graphical presentations of the obtained optimal solutions for the 3 ×
11 nodes structure, considering both topologies and both solution methods. The same for
Figures 11-14 and for the 9 × 4 nodes structure. Here the variant is obtained changing, not
only the load scenario, but also the nodes support. Finally, in Figure 15, we graphically present
the optimal solution for the 15 × 5 nodes structure. In this case, the ε-descent method was not
able to solve the corresponding problem: the computation time per iteration was too high.
Analysing the results, we can conclude that there is a clear superiority of the semidefinite
programming approach: less iterations, more precision and more solved problems.
We have also measured with a wristwatch the time needed to solve the problems and we
noticed that, even in the smaller problems, the semidefinite programming approach is clearly
better.
........................... ........................................................................................... .................................................................
.... ....... ........................................ .................................... .................................... .....................................
.
.... ....
.
.
.t
....
.t
...t
..
.
.t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
r
s
r
t
t
t
t
t
t
t
t
t
t
t
t
t
t
s
...
...
...
............... ....
.....................................................
................................
.
..t
r
r
s
.
s
r
r
s
.
s
.
.
.
r
r
.. ........... .... .. rr ssss ..... ss rrr .... .. ........... ............
........
.0−.000..................................................q.q.q..q.qqqqqqqrrrrrr ss4s◦◦s.........sssss rrrrrqrqqqq.q.q.q.q..q..q.........................................................4
◦◦
=
?
−
0000
?
(a) ε-descent method
~
−
0000
.....
qrq
.
..... qqqqqqqqqrrrrrqqqqqqqqqq ......
..r.rqqqqqqqqqqqqqqrrqqqqqqqqqqqq.qr.r.r
rr qqq r qq rr
.............................................................................................
...........................................................................................................................
................................................................
... ...... ...... ... ...... ...... ... ...... ...... ...
.............
... ..... ..... ... ..... ..... .. ..... ..... ..
.... .. ....
... ........... ... ........... ... ........... ... .......... ..... ..........
..... ... .....
. .. . .. . .. .
.... ............... .... ............... .... ............... .... ........ .... ........ .......... ..... .......... ..... .................. ..... .................. ..... .................. .....
..... .....
..... ....... ..... ....... ..... ........ ..... ...
.
...
.
.
...................................................................................................................................................
.......
.................................................................................................
..
..
.
.
.
.....
.
.
.
.
.
.
.
.
.
.
....... ........... ......
.
.
.
.
.
.....
... ........................ ......................... ... ............
..... ... .............. ..... ................... ...
..... .. ....... .. ........ ..
... ................ .... ............. ... .........
..... . .. ..... .. ..... ..... .
.
.
.
.
.
... . ...
.
.. .
.
.
.
.
.
.
..........
.............................................................................
...............................................................
−
0000
rrr
qqqqqqqqqqrrrr
=
?
qqqq rr qqqq
qqqqrrqqq
4
◦◦
0−
000
rrrr
rrrqrqqqqqqqqq
(b) CSDP3.2
Figure 9: Same as Figure 7, but with a different load pattern.
?
~
4
◦◦
0−
000
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
.rr.r.rrssssssssssssssssssssssssssssssssssssssss.sss.srr.rr.r.rr...
.
.
.
.
....rrrr sssssssssss rrrrr.rr.......
.
.
.
s
.r........
.........r
4
−
...........................................................
..............................................................
.......
. ....
.......
...
.... ..
..... ..
... ..........
... ..........
..... ....
..... .....
.....
.....
..
..
.....
...
.....
...
.....
.....
.....
..
..
.....
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
.....
.
...
...
..
..
.....
.....
..............
.......
...
...
.....
.....
..
..
.
.
.
.
......... ...
.
.
.
.
.... ................
.
.
.
.
.
...
...
.....
..... . ....
.
.
....
.
.
.........
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
...
.....
.
... .. ...........
......... ... ..
..... .........
....
...
.
......... .. ..
.
.
.
... .. .........
..... .....
.............
...
...
..........
......
..
.
−
0000
=
?
0◦◦
000
?
~
4
◦◦
0−
000
.r.rsrsssssssssssssssssssssssssssssssssss.sss.srr.rr.rr..
.
.
r
.
.
.....rrrr sssssss ssss rrrrr.r.r......
.
.
.
.rr.......
........rr 4−ss
153
.........................................................
...........................................................
.......
.......
. .....
. ....
..... ..
..... ..
... ..........
... ..........
..... ....
..... .....
.....
.....
.....
..
...
.....
...
...
.....
.....
.....
.
..
.
.....
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.....
.
...
...
............
.....
..
..
.....
.........
...
...
.....
.....
......... .....
..
..
.
.
.... ................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
...
... ..
.
.........
......
....
.
.
.
.
.....
.
.
.....
.
......... .... ...
...
.
.
.
.
.
.
.
... .. ............
..... ......
......... .. ...
...
..........
.....
..........
.............
..
.
−
0000
=
0◦◦
000
?
?
~
4
◦◦
0−
000
(b) CSDP3.2
(a) ε-descent method
Figure 10: Same as Figure 8, but with a different load pattern.
.000|...
....
....
....
....
.
000|ssss
ssss ..........
ssss ......
ssss .......
000|
ssss ......
ssss ......
ssss .......
000|
ssss...... ..
...s .
.... ssss...s
.
.
.
.
.
s
.
000|
.
sss
....
.... ssss
.
.
.
.
....
sss ?
000|
....
sss
....
.
s
.
s
.
ss
....
.... ssss
000|
s
ss
sss
s
s
000|
000|
.00.|...
0 .......
.....
.....
.....
.....
.....
.....
000|
.....
.....
.....
.....
.....
.....
.00.|...
.....
.
.....
0 ......
.....
.....
.....
.....
.....
.....
.....
.....
.....
.
.
.
.....
.
000|
.....
.......
.....
..... ...
.
.
.....
... .....
.
.
.
.....
.
..... ........
.....
..... .....
...
...
....
..........
000|
...
..... .........
.
.
.
.....
..
...
.
.
.
.
.
..... ....
....
.
.
.
.
.
.
.........
...
.
.
.
.
.
.
.
...
....
.
.
.
.
.
000|
.
.
.
.
.....
.....
....
.....
.
.
.
.
.
.
.
.....
.....
....
.....
.....
.00.|...
.....
0
.....
.
.
.
.
.
.....
....
.....
.....
.....
.
.
000|
.
....
.....
.....
....
.....
.00.|...
ssss
ssss
ssss
ssss
ssss
ssss
ssss
ssss
ssss
sss
sss
s
s
sss ?
sss
s
s
sss
sss
s
s
ss
sss
sss
0
(a) ε-desc. meth.
(b) CSDP3.2
Figure 11: Solution for the 9×4 ground structure, considering the poor topology.
0.....000
−
...........
.. ...
0◦◦
−
5
sss000
.....
.....
.....
... ......
.....
.....
...
.
.
.
.
....
...
.....
.........................................
...................................
... ......
. ...
.
...
... ....... ..... .......... ..... .........
... ...... ... ...... .... .......
.
..... .. .....
..........
.........................................
..
.........
..
............
.....
.... .................. ..... .......... .....
.....
... .......... ... ...... ... .........
..... .. ......
. .. . .
.............
............. ..............
....
...
....
........
.............
....
..... .. ..... ..... ..
... ......... ..... ................. .....
.... ........ ........ ....
.... ........
......
..........................................
..... ..... ...
..... ..... ..
...... ..
..... ..... ..
..... ..............
.
.
.
.
..
...........
..... ... .....
..... ... .....
..... .... ..........
.....
..
...
.
.
.
.
.....................................
....
.
..... ..........
... ......
.....
...
..
...................................
.....
.....
.....
.....
.....
....
0◦
|
◦
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
ss
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
.0
N
(a) ε-descent
method
0.....000
−
...........
.. ...
0◦◦
−
5
sss000
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
sss
ss
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
.0
... ......
.....
...
....
..
..............................................
... ...... ...... ... ......
... ............ ... .......
... ............ ... ......
.....
.. ..... ..... ..
.....................................................................................
. .
.
.
..... ................... ..... ................... .....
... .......... ... .......... ...
... ........ ....... ... ........ ....... ...
...........................................................................................
... ...... ...... ... ...... ...... ...
..... .................. ..... .................. .....
... ...... ....... ... ...... ....... ...
..
. . ..
. ..
..................................................................................
.....
.. ...... ...... ..
.....
..... ..... ................ .....
..... .. ..... ..... ..
..... ....... ..... ..
....................................
.....
........
.....
..... .... ..........
..... ... .....
..... ..
.....
.......
.....................................
.........
.. ......
..... ..........
....
..
...................................
.....
.....
.....
.....
.....
....
0◦
|
◦
(b) CSDP3.2
N
Figure 13: Same as Figure 11, but with different load pattern and nodes support.
.000.|..
....
....
....
..
000|ssss .....
ssss ......
ssss ......
ssss......
000|
ssss.....
sss.s.....
ss.s..s...
000|
s.s..s.s..
s..s..s..s
..s.s
.s..s
000|
.s..s.
s
.
s
.
.
s
.
s
.
sss.... ?
000|
ss..s......
s
s
sss ....
sss........
000|
s
s
sss ....
sss .....
000| ....
.
...
...
.000|...
.000.|..
....
....
....
..
000|ssss .....
ssss ......
ssss ......
ssss......
000|
ssss.....
sss.s.....
ss.s..s...
000|
s.s..s..s.
s..s..s..s
..s.s
.s..s
000|
.s..s.
s
.
s
.
.
s
.
s
.
sss.... ?
000|
ss..s......
s
s
sss ....
sss........
000|
s
s
sss ....
sss .....
000| ....
.
...
...
..000.|.
(a) ε-desc. meth.
(b) CSDP3.2
Figure 12: Solution for the 9×4 ground structure, considering the rich topology.
0s
000
−
ss
0◦◦
000
−
5
..
...
ss
...
...
ss
...
ss
...
ss
...
ss
.
.
ss
...
ss
...
...
ss
...
ss
...
ss
...
ss
...
ss
...
ss
.
ss .....
ss ....
ss ...
ss ....
ss ...
ss ...
ss ....
ss...
s...s
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......s
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.0◦◦|
−
5
rrr
.−..
rrr
...
rrr
rrr
...
rrr
rrr
...
rrr
rrr
...
... rrrrrrrrr
... rrrrrr
... rrrrr
... rrrrrr
... rrrrr
... rrrrrr
...rrrrr
r
.|.....................................rr
0000
0◦◦
000
00◦
◦
N
(a) ε-descent
method
(b) CSDP3.2
N
Figure 14: Same as Figure 12, but with different pattern and nodes support, as in Figure 13.
154
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
...|qqqqqqqq
... qqqqqqqqqq
rr
... .q.....
rr
rr
.....
...q
r?
.
.
|. qqqqq
..... ..........rrqqqqq
qqqqq
..... .......... qqqq
qqqqq
qqqqq
..........q.qq.q.qqq
qqqqq
q
000..........................................................................................................................................................
.. ...
... . ...
... .. ...
00◦
0◦
... ..... ..... ... ..... ..... ... .....
... .......... ... .......... ... ......
.....
... ............ ... ............ ...
.....
... ...... ...... ... ...... ...... ...
.....
... .
... . ...
. ..
...............................................................................................................................................
........
.
.
.
.............
.
.....
... ...... ......... ..... .......... .........
..... .................. ..... ..................
... ....... ........ ... ....... ........
..... .. .....
.....
.........
........................................................................................
... ......
.... .........
.....
...
.....
....
.....
...
.....
.....
...
qqqqq
qq
qqqqq
qqqq
q
q
q
q
q
qqqqq qqqq
00|◦
.
0◦
qqqqqqqqq
qqq qqqqqq
q
q
..r...q...q......................q..q....q.
r
r
.
r
r ..... .. ...
rrrr .................... ...... .......
r
r
r
..... .
.
r
......
00|◦
.............................
. rrrrrrr
0◦
...
r
r
....
rrr
r
r
...
r
...
0rr
00|rrrr
...
rrrr
...
rrrr
...?
r
rrrr
.
00|◦
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
rrrr
.......
0◦
.
.
.
.
.
.
.
.
.
.....
rrrr
.
..... ...
.
.
.
.
.
.
rrrr ............ .... ..
rr....qr....q.......................q..q..
qqqq qqqq
qqqqqq
qqqq qqqqqqq
q
q
q
qqqq
q
00|◦
q
.
0◦
qqqq
qqqqq
q
qqqq
q
q
qqqq
qqq
q
q
q
qq
q
q
.
.
q
......
q
.....q
q
.
.
q
... ... .......... qq
... ......... q
qqq
q
q
... .........
q
q
... ...... ... qq
... ......
. q
qqqq
...........................................qq
q
q
00|◦
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0◦
.....r
.. ........
. ..
.... .......... .......... .... .......... .......... r
rr
... .......... ... ..........
... ........... ... ...........
r
... ...... ...... ... ...... ...... r
..... .. .....
..... r
... .......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....q......................................................................................................................r
q
q
.
.
.
.
.
.
.
.
.
.
.
.
.
q
.
.
. .
.
qqqq ...... ............ ............ ...... ............ ........... ...... ............
qqqqq .......... ..................................... .......... ..................................... .......... .................... ?
q
q
q
00.|.q..q.........................................................................................................................
0
.....
.....
...
.
.
.
.
.
....
...
...
...
...
.............
.
.
.
.....
.
.
.
..
.....
(a) Poor topology
..|........................
....... .............
.................r
........
... .....
. ..
rr
000....................
.. .....
... .........
.........
...
.........
...
.........
...
.........
.........
...
.........
...
...
.........
...
...
.........
...
.........
...
...
.........
...
...
.........
...
.........
......... .....
...
...........
...
00|◦
.
...
..
0◦
.
.
.
...
.
....
...
....
...
....
...
....
.
...
.
.
...
.. ....
...
... ....
...
.... ....
...
........
... ............
.. ... ...
00|◦
............................
0◦
......... ...
.
.
.
.
... .
........ .. ...
........ .... ....
.......
... .....
..........
.
...............
.
.
.
........
.... .
...........
....... .........
.
.
.
.
.
.
....
.....
.......
.
.
.
.
.
.
.
.
.
.
......
.....
.......
.
.
.
.
.
.
.
.
.
.
.
......
......
.......
.........
00|◦
.......
.
.......
.
.
.
.
.
.
.
.
.
◦
0
.... ..........
.
.......
.
.
.
.
.
...... ............
......
.
.
.
.. ........
.
.
.......
.
.
.
...............
.......
.
.
.........
.
..
.
.
.
0
00|.......................
......
.
..
.... ........
.
.
.
.... ........
.
.
.
.
....... .......
....
........ .........
.......
........
.......
.......
........
00|◦
.........
.......
........
0◦
.
.
.
.
.
.
.......
........
....
.......
........
.......
........
.......
.......
....... ......
........
........ ..
........
.
.
.
........
.. ........
........
......
.........
........ ... ....
........ .. ..
........ ..
...........................
00|◦
0◦
. .. ..
... ............
........
...
........
..
.
.... ....
...
.... ....
..
....
.
....
..
.
....
..
.
....
..
.
....
..
....
.
....
..
.
.
00|◦
.
......
.
0◦
......... .....
.
.
.
..
.
.
.
.
.
.
...
.....
.
.
.
.
..
.
.
.
.
.
......
.
.
.....
.
.
..
.
.
.
.
.
.
.........
.....
...
.........
.
.
.
.
..
..
.
.
.
.
.
......
.
.
.
.
..
.
.
.
.
.
......
.
.
.
..
.
.
.
.
.
.
.....
.
.
.
.
..
.
.
.
.
.
.....
... ..............
... ...........
..........
... .....
r
... .....
rr ?
r
.
.
.
... .....
... ..... rrr
...
. r
... .r.r.r.rrr
... rrrr
.. rr
rrr.r...
r
.
r
r .
rrr ....
rrr
...
r
r
r
...
rrr
r
...
r
r
r
...
rr
r
r
...
. rrrr
...
rr
r
r
...
r
rrrrr
.
rrrr
..
rrrr
.
. ?
rr
..
. rrrrrrr
.
rrrr
..
rrrr
.
.
rrrr
rrrr
..
rrrr ...
rrrr ..
rrr.r.
.
. rr
.... rrrrrrrrr
...rrr
..
.... ....... rrrrr
rrr
.. .....
.
rrr
.... .......
rrr
.
.
.
.
.
.
.
...........
.
... ..rr
........ ........................ ?
..00|.............
0
(b) Rich topology
Figure 15: Optimal solution for the 15 × 5 ground structure, using CSDP3.2.
^ ): used trusses and results
Comparing (SCP ) with (DSCP
In Table 4 we compare some characteristics and the performance of both problems, (SCP )
^ ), for some of the examples presented:
and (DSCP
• the number of variables, nv, the number of blocks in the constraint matrix, nb, and their
dimensions, “size of blocks”;
• the number of iterations needed to solve each problem using CSDP3.2 and the reference
to the figure that presents the optimal solution.
We used some of the presented trusses in the preceding experiments.
The matricial structure is very different as we can see at the columns “size of blocks”. In
spite of this, the only significant difference is in the number of iterations: it is always clearly
^ ). When we compare the needed time to
greater in problem (SCP ) than in problem (DSCP
solve the problems, there are no evidence of superiority of any of the problems.
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
155
^).
Table 4: Comparison of (SCP ) and (DSCP
^)
Problem (DSCP
Problem (SCP )
Fig.
nv
nb
size of blocks
# it.
nv
nb
size of blocks
# it.
7(b)
93
4
{63, 1, 92, 92}
31
245
95
{2,. . . ,2,1,92,92}
21
8(b)
345
4
{63, 1, 344, 344}
44
751
347
{2,. . . ,2,1,344,344}
26
9(b)
93
4
{63, 1, 92, 92}
33
245
95
{2,. . . ,2,1,92,92}
23
10(b)
345
4
{63, 1, 344, 344}
55
751
347
{2,. . . ,2,1,344,344}
27
11(b)
108
4
{55, 1, 107, 107}
40
269
110
{2,. . . ,2,1,107,107}
25
12(b)
410
4
{55, 1, 409, 409}
43
873
412
{2,. . . ,2,1,409,409}
29
13(b)
108
4
{69, 1, 107, 107}
41
283
110
{2,. . . ,2,1,107,107}
26
14(b)
410
4
{69, 1, 409, 409}
50
887
502
{2,. . . ,2,1,409,409}
26
15(a)
243
4
{139, 1, 242, 242}
38
623
245
{2, . . . , 2, 1, 242, 242}
27
15(b)
1719
4
{139, 1, 1718, 1718}
44
3575
1721
{2,. . . ,2,1,1718,1718}
32
References
[1] M. S. Bazaraa, H. D. Sherali, and C. M. Shetty, Nonlinear Programming: Theory and
Algorithms, John Wiley & Sons, New York, 1993.
[2] A. Ben-Tal and M. P. Bendsøe, A new method for optimal truss topology design, SIAM
Journal Optimization, 3 (1993), pp. 322–358.
[3] A. Ben-Tal and A. Nemirovski, Potential reduction polynomial time method for truss topology
design, SIAM Journal Optimization, 4 (1994), pp. 596–612.
[4] A. Ben-Tal and A. Nemirovski, Optimal design of engineering structures, Optima, 47 (1995),
pp. 4–8.
[5] B. Borchers, CSDP, 3.2 User’s Guide, Optimization Methods and Software, 11 (1999), pp. 597–
611.
[6] B. Borchers, CSDP, A C library for Semidefinite Programming, Optimization Methods and
Software, 11 (1999), pp. 613–623.
[7] C. M. Branco, Mecânica dos Materiais, Fundação Calouste Gulbenkian, Lisboa, 1994.
[8] M. A. C. Cerveira, Optimização do desenho de estruturas, master’s thesis, Universidade de
Lisboa, Portugal, 1997.
[9] E. W. Cheney and A. A. Goldstein, A Newton’s method for convex programming and Tchebycheff approximation, Numeric Mathematics, 1 (1959), pp. 253–268.
[10] E. de Klerk, C. Roos, and T. Terlaky, Semi-definite problems in truss topology optimization,
Tech. Report Nr. 95-128, Faculty of Technical Mathematics and Informatics, Delft University of
Technology, November 1995.
[11] C. Helmberg, Semidefinite programming for combinatorial optimization, tech. report, KonradZuse-Zentrum für Informationstecghnik Berlin, 2000.
[12] J.-B. Hiriart-Urruty and C. Lemaréchal, Convex Analysis and Minimization Algoritms I:
Fundamentals, vol. 305 of A Series of Comprehensive Studies in Mathematics, Springer-Verlag,
Berlin, 1993.
[13] J.-B. Hiriart-Urruty and C. Lemaréchal, Convex Analysis and Minimization Algoritms II:
Advanced Theory and Bundle Methods, vol. 305 of A Series of Comprehensive Studies in Mathematics, Springer-Verlag, Berlin, 1993.
156
F. Bastos, A. Cerveira, J. Gromicho / Investigação Operacional, 25 (2005) 123-156
[14] R. A. Horn and C. R. Jonhson, Matrix Analysis, Cambridge University Press, Cambridge,
1985.
[15] R. A. Horn and C. R. Jonhson, Topics in Matrix Analysis, Cambridge University Press,
Cambridge, 1991.
[16] J. E. Kelley, The cutting plane method for solving convex problems, Journal of the Society for
the Industrial and Applied Mathematics, 8 (1960), pp. 703–712.
[17] U. Kirsch, Optimum Structural Design: Concepts, Methods and Applications, McGraw-Hill, New
York, 1981.
[18] D. G. Luenberger, Linear and Nonlinear Programming, Addison-Wesley, Reading Massachusetts, 1984.
[19] J. M. Mulvey, R. J. Vanderbei, and S. A. Zenios, Robust optimization of large-scale systems,
Operations Research, 43 (1995), pp. 264–281.
[20] M. Patriksson and J. Petersson, A subgradient method for contact structural optimization,
LiTH-MAT-R-1995-25, (1995).
[21] R. T. Rockafellar, Convex Analysis, Princeton University Press, Princeton, New Jersey, 1970.
[22] N. Z. Shor, Convergence rate of the gradient descent method with dilation of the space, Cambridge, 6 (1970), pp. 102–108.
[23] N. Z. Shor, Utilization of the operation of space dilation in the minimization of convex functions,
Cambridge, 6 (1970), pp. 7–15.
[24] N. Z. Shor, Cut-off method with space extension in convex programming problems, Cambridge,
13 (1977), pp. 94–96.
[25] N. Z. Shor, Minimization Methods for Non-Differentiable Functions, Springer Series in Computational Mathematics, Springer-Verlag, Berlin, 1985.
[26] G. N. Vanderplaats, Numerical Optimization Techniques for Engineering Design: With Applications, Series in Mechanical Engineering, McGraw-Hill, New York, 1984.
REVISTA INVESTIGAÇÃO OPERACIONAL
Polı́tica Editorial
Investigação Operacional (IO) é a revista cientı́fica da APDIO - Associação Portuguesa de
Investigação Operacional. A polı́tica editorial da IO é publicar artigos originais e de elevada
qualidade que contribuam para a teoria, metodologia, técnicas e software de Investigação
Operacional e a sua aplicação a diferentes campos. A Revista também publica artigos com
revisões relevantes de temas de IO. Casos de sucesso na aplicação a problemas práticos são
especialmente bem vindos.
Processo de Aceitação
Todos os manuscritos submetidos para publicação são revistos e aceites apenas com base na
avaliação da sua qualidade, importância e adequação à polı́tica editorial. Será responsabilidade
do Editor interpretar a avaliação dos revisores. A contribuição de cada artigo deve estar
claramente evidenciada na Introdução. Critérios como a relação com literatura existente,
comprimento e estilo do artigo são tidos em consideração. Uma indicação clara da viabilidade
de aceitação do artigo é habitualmente dada na primeira fase de revisão do artigo.
Será requerido aos autores de um artigo aceite que transfiram os direitos de autoria para a
APDIO, que assegurará a mais ampla disseminação possı́vel de informação. Os volumes da
Revista são publicados em papel, e distribuı́dos a todos os associados da APDIO, e em formato
electrónico na rede SciELO - Scientific Electronic Library Online.
Resumos dos Artigos indexados em
IAOR - International Abstracts in Operations Research
Instruções aos Autores
1. Submeter artigos para publicação ao editor principal, de preferência por e-mail em Microsoft Word ou “Portable Document Format” (PDF) para [email protected], ou por correio
normal (quatro cópias) para o seguinte endereço: Prof. José Fernando Oliveira, Departamento de Engenharia Electrotécnica e de Computadores, Faculdade de Engenharia da
Universidade do Porto, Rua Dr. Roberto Frias, 4200-465 PORTO, Portugal.
2. Lı́ngua. Os artigos devem ser escritos em Português, Inglês ou Espanhol.
3. Os Manuscritos devem ser impressos. Numerar as páginas consecutivamente.
4. A primeira página do manuscrito escrito em português ou em espanhol deve ter a seguinte
informação: (a) Tı́tulo; (b) nome, e-mail e afiliação institucional dos autores; (c) um
resumo; (d) palavras-chave; (e) tı́tulo em inglês (f) um resumo em inglês; (g) palavraschave em inglês; (h) identificação do autor correspondente. Se o manuscrito for escrito em
inglês, a primeira página deve ter a seguinte informação: (a) Tı́tulo em inglês; (b) nome,
e-mail e afiliação institucional dos autores; (c) um resumo em inglês; (d) palavras-chave
em inglês; (e) identificação do autor correspondente.
5. Agradecimentos, incluindo informação sobre apoios, dever ser colocados imediatamente
antes da secção de referências.
6. Notas de rodapé devem ser evitadas.
7. Formulas que são referenciadas devem ser numeradas consecutivamente ao longo do
manuscrito como (1), (2), etc. do lado direito.
8. Figuras, incluindo grafos e diagramas, devem ser numerados consecutivamente em numeração árabe.
9. Tabelas devem ser numeradas consecutivamente em numeração árabe.
10. Referências. Citar apenas as mais relevantes e listar só as que são citadas no texto.
Indicar as citações no texto através de parênteses rectos, e.g., [4]. No final do artigo
listar as referências alfabeticamente por apelido do primeiro autor e numerá-las consecutivamente, de acordo com o seguinte formato: Artigos: autore(s), tı́tulo, nome e volume
da revista (ou livro, mas neste caso incluir o nome dos editores), ano e páginas. Livros:
Autor(es), tı́tulo, editor, ano.
11. Artigos aceites devem ser enviados pelo autor ao editor, de preferência na forma de um
ficheiro fonte em LaTeX com ficheiros EPS para as figuras, juntamente com um ficheiro
PDF ou Postscript. Em alternativa, ficheiros fonte em Word são também aceites. Para
garantir uma boa qualidade gráfica, as figuras devem ser em formato vectorial; formatos
raster como JPG, BMP, GIF, etc. devem ser evitados.
12. Provas dos artigos serão enviadas por e-mail como ficheiros PDF para o autor correspondente. Corrigir as provas cuidadosamente, e restringir as correcções apenas aos pontos
em que as provas diferem do manuscrito. Desvios à versão aceite pelo editor são apenas
possı́veis com a autorização prévia e explı́cita do editor. Trinta separatas de cada artigo
são enviados gratuitamente ao autor correspondente.
Informação sobre a Publicação
Investigação Operacional (ISSN 0874-5161) está registada na Secretaria de Estado da Comunicação Social sob o número 108335. Os volumes da Revista são publicados em papel,
e distribuı́dos a todos os associados da APDIO, e em formato electrónico na rede SciELO Scientific Electronic Library Online. O preço da assinatura anual é de 25 euros. Os volumes
são enviados por correio normal. Informação adicional sobre assinaturas pode ser solicitada
ao Secretariado da APDIO- CESUR, Instituto Superior Técnico, Av. Rovisco Pais, 1049-001
LISBOA, Portugal. Tel. +351 218 407 455 - www.apdio.pt - [email protected]
JOURNAL INVESTIGAÇÃO OPERACIONAL
Editorial Policy
Investigação Operacional (IO) is the scientific journal of APDIO - Associação Portuguesa de
Investigação Operacional (the Portuguese Operational Research Association). The editorial
policy of IO is to publish high quality and original articles that contribute to theory, methodology, techniques and software of Operational Research (OR) and its application to different
fields. It also publishes articles with relevant reviews of OR subjects. Cases of successful
application of OR to practical problems are specially welcome.
Acceptance Process
All manuscripts submitted for publication are refereed and accepted only on the basis of its
quality, importance and adequacy to the editorial policy. It will be the responsibility of the
Editor to interpret the referee’s assessment. The contribution of each paper should be clearly
stated in the introduction. Criteria such as relationship with existing literature, length and
style are taken into account. A clear indication on the suitability of a manuscript is usually
provided after the first round of refereeing. The authors of an accepted paper will be asked
to transfer its copyright to the publisher, which will ensure the widest possible dissemination
of information. The volumes of the journal are published in hardcopies, which are distributed
to all APDIO associates, and in electronic format in SciELO - Scientific Electronic Library
Online.
Articles are abstracted/indexed in
IAOR - International Abstracts in Operations Research
Instructions to Authors
1. Submit papers for publication to the main editor, preferably by e-mail in Microsoft Word
or ”Portable Document Format”(PDF) to [email protected], or by ordinary mail (four copies) to the following address: Prof. José Fernando Oliveira, Departamento de Engenharia Electrotécnica e de Computadores, Faculdade de Engenharia da Universidade do
Porto, Rua Dr. Roberto Frias, 4200-465 PORTO, Portugal.
2. Language. Papers must be in written in Portuguese, English or Spanish.
3. Manuscripts should be typewritten or typeset. Number the pages consecutively.
4. The first page of the manuscript written in English should contain the following information: (a) Title; (b) names, e-mails and institutional affiliations of the authors; (c) an
abstract; (d) keywords (f) identification of the corresponding author.
5. Acknowledgements, including support information, should be placed prior to the references section.
6. Footnotes should be avoided.
7. Formulas that are referred to should be numbered consecutively throughout the manuscript as (1), (2), etc. on the right.
8. Figures, including graphs and diagrams, should be numbered consecutively in Arabic
numbers.
9. Tables should be numbered consecutively in Arabic numbers.
10. References. Cite only the most relevant references and list only those cited in the text.
Indicate citations in the text by bracketed numbers, e.g., [4]. At the end of the paper
list the references alphabetically by the surname of the first author and number them
consecutively, according to the following formats: Articles: author(s), title, name and
number of the journal (or book, but in this case include the editors names), year, pages.
Books: Author(s), title, publisher, year.
11. Accepted papers are to be sent by the author to the editor, preferably in the form of a
source file in LaTeX and EPS files for the figures together with a PDF or postscript file.
Alternatively, source files in Word are also accepted. To ensure good publishing quality
the figures should be in vector formats; raster formats like JPG, BMP, GIF, etc. should
be avoided.
12. Page proofs will be e-mailed as a PDF file to the corresponding author. Correct proofs
carefully, and restrict corrections to points at which the proof is at variance with the
manuscript. Deviations from the version accepted by the editor are only possible with
the prior and explicit approval of the editor. Thirty offprints of each paper are supplied
free of charge to the corresponding author.
Publication information
Investigação Operacional (ISSN 0874-5161) is registered in the Secretaria de Estado da Comunicação Social under number 108335. The volumes of the journal are published in hardcopies,
which are distributed free of charge to all APDIO associates, and in electronic format in SciELO - Scientific Electronic Library Online. Subscription price is 25 euros. Issues are sent
by standard mail. Additional subscription information is available upon request from APDIO Secretariat - CESUR, Instituto Superior Técnico, Av. Rovisco Pais, 1049-001 LISBOA,
Portugal. Tel. +351 218 407 455 - www.apdio.pt - [email protected]
Revista Investigação Operacional
Volume 25 - Número 1 (Junho 2005)
ÍNDICE
R.V. Vidal
Creativity for Operational Researchers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
A.C. Pinto, A.P. Costa
Simulação do funcionamento de um cruzamento regulado por sinais luminosos . . . . . . . . . . . . 25
L.P. Ferreira, G.A. Pereira, R.J. Machado
Geração Automática de Modelos de Simulação de uma Linha de Montagem de Auto-Rádios37
A. Ramires, J. Soares
Um melhor limite inferior para o problema do caixeiro viajante assimétrico baseado no problema da afectação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
J.S. Mello, E.G. Gomes, L.A. Meza, L.B. Neto, A.P. Sant Anna
Fronteiras DEA Difusas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
O.J. Santos, A.Z. Milioni
Composição de especialistas locais para classificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . .105
F. Bastos, A. Cerveira, J. Gromicho
Using Optimization to Solve Truss Topology Design Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . .123

Documentos relacionados