Transgenic Visual-and-Sound Compositions - NICS

Transcrição

Transgenic Visual-and-Sound Compositions - NICS
Editorial
Este é o nono número da revista online NICS Reports (NR), a quarta e última edição publicada no ano de
2014, a NR9. Esta edição traz, como de costume, uma seleção de cinco trabalhos de pesquisadores e alunos do
Núcleo Interdisciplinar de Comunicação Sonora (NICS). O objetivo das publicações NR é divulga os trabalhos
acadêmicos do NICS que já foram publicados em outros meios de comunicação, tais como: simpósios, congressos
e revistas indexadas. Neste número, apresentamos cinco artigos divulgados em anais de eventos científicos
nacionais e internacionais. Todos estes abordam temas relacionados à ciência e arte da produção e do
entendimento da música, em suas diferentes nuances, perspectivas a utilizações, tais como: a cognição musical, a
musicologia, as performances multimodais, a música computacional, a psicoacústica e a emoção musical.
O primeiro artigo, intitulado “Transgenic Visual-and-Sound Compositions”, de autoria de Artemis Moroni,
Rafael Bocaletto Maiolla e Jonatas Manzolli, apresenta os resultados com formas num ambiente computacional
evolutivo aplicado à produção gráfica.
O segundo artigo, intitulado “Composição musical a partir da análise sonora de técnicas instrumentais, via
descritores de áudio”de autoria de Ivan Eiji Yamauchi Simurra, trata da composição e da performance musical,
como importantes frentes de trabalho as quais estão inseridas no universo complexo do criação musical, onde
analisa, na história da música, o trabalho colaborativo entre o planejamento e as estratégias composicionais com
as práticas interpretativas e execução musical.
O terceiro artigo, intitulado “Projeto Destino Pirilampo: Um Estudo sobre a Composição de MetaSoundscapes em Música Ubíqua”, de Luzilei Aliel e José Fornari, trata da música ubíqua como uma derivação
natural da música eletroacústica nas quais equipamentos eletronicos são amplamente interconectados para juntos
criarem meta-soundscapes.
O quarto artigo, intitulado “An Evolutionary Algorithm to Create Artificial Soundscapes of Birdsongs”, de
José Fornari, descreve um sistema computacional evolutivo desenvolvido em PureData para a criação de uma
paisagem sonora artificial que emula sons de cantos de pássaros.
Por fim, o quinto artigo, intitulado “Aplicações artísticas de ubimus”, de José Fornari, traz exemplos de 7
aplicações computacionais desenvolvidas pelo autor que são aplicadas em pesquisas e performances de música
ubíqua.
Esperamos que os trabalhos aqui apresentados, no nono número do NICS Reports (NR9) sejam de
interessante amplo e diversificado, sendo pertinentes e úteis a todos os leitores, e assim venham a contribuir para
a divulgação e o desenvolvimento da pesquisa em artes sonoras e música mediada pela computação, para todos
aqueles que estudam aprofundadamente, ou apenas se interessam pela indefinível e indecifrável fronteira entre a
ciência e a arte.
Campinas, outubro de 2014
Equipe Editorial da NR
NICS / UNICAMP
Transgenic Visual-and-Sound Compositions
Artemis Moroni1
Rafael Bocaletto Maiolla
Jônatas Manzolli
1
Robotics and Computer Vision Division
1
Renato Archer Research Center
Rod. Dom Pedro I, km 143,6
13069-901, Campinas, SP, Brazil
1
E-mail: [email protected]
Abstract
Here we present some results obtained in Shapes, an evolutionary environment applied to artistic production in
visual domain. In Shapes environment the user can interactively create and evolve visual compositions by using
random variations of pre-programmed objects. Pixels of these compositions can be used in another evolutionary
environment, ArTVox, to direct a sound sequence creating, in this way, “transgenic” visual-and-sound
compositions. The genetic algorithm is described. Both environments, Shapes and ArTVox, were developed by the
authors, in Java.
Introduction
Recently, a new generation of computing researchers discovered that by using simulated evolution
techniques it is relatively easy to obtain novelty, complex novelty. On the other hand, it is
correspondingly difficult to direct the flow that novelty takes. Often, the novelty is not useful. The
challenge faced by the designers of evolutionary composition systems is how develop structures and
knowledge into the evolutionary loop, to lead the evolutionary search to an interesting region.
Evolutionary techniques have been used for searching large spaces using simulated systems of
variation and selection. The loop, in an evolutionary system, is a rather simple one: it generates, tests and
repeats. Such systems maintain a population of potential solutions; they have a selection process and
some “genetic operators”, typically mathematical functions that simulate crossover and mutation.
Basically, a population is generated; the individuals of the population are tested according to certain
criteria, and the best are kept. The process is repeated by generating a new population of individuals – or
things, or solutions – based on the old ones. This loop continues until the results are satisfactory
according to the criteria being used. The effective challenge is to specify what “to generate” and “to test”
mean [1, 2].
All evolutionary approaches do, however, share many features. They are all based, like the diagram
in Figure 1, on the general framework provided by J. H. Holland’s original genetic algorithm (GA) [3]. In
nearly every case, new populations of potential solutions to problems are created, generation after
generation, through three main processes: 1. by making sure that better solutions to the problem will
prevail over time, more copies of currently better solutions are put into the next generation; 2. by
introducing new solutions into the population; that is, a low level of mutation operates on all acts of
reproduction, so that some offspring will have characteristics changed randomly; 3. by employing sexual
crossover to combine good components between solutions; that is the “genes” of the parents are mixed to
form offspring with aspects of both. With these three processes taking place, the evolutionary loop can
efficiently explore many points of the solution space in parallel, and good solutions can often be found
very quickly.
Initial
Population
Reproduction Cycle
01000100101000
01010011010001
00101010001010
…
01001000001010
Selection
Crossover
Mutation
Fitness
Modified
Population
01000000101000
01010011111001
00100000001010
…
01000000101010
Figure 1: The simple genetic algorithm.
Figure 1 shows the diagram of the simple genetic algorithm. The population is initialized with
random solutions. Parent solutions are chosen randomly from the “parent population”. Then, crossover
and mutation operators are applied, generating a modified population, and the evolutionary cycle begins
again. In the next section, we will detail some of the processes involved in this kind of populational
search.
Evolution Applied to Visual Domain
Both biological and simulated evolutions involve the basic concepts of genotype and phenotype, and the
processes of expression, selection, and reproduction with variation. The genotype is the genetic
information that codes for the creation of an individual. The phenotype is the individual itself, or the form
that results from the developmental rules and the genotype. Expression is the process by which the
phenotype is generated from the genotype. For example, expression can be a biological developmental
process that reads and executes the information from DNA strands, or a set of procedural rules that use a
set of genetic parameters to create a simulated structure. Usually, there is a significant amplification of
information between the genotype and phenotype [4].
Here, we applied this approach to the generation and evolution of abstract pictures [5]. By abstract
picture we denote that kind of picture that does not depict objects in the natural world, but instead uses
color and form in a non-representational way. For a system to automatically produce “aesthetically
pleasing” images, two fundamental components must interact. The first component encompasses the
mechanisms to create images. The second component, the hardest in this case, must evaluate the images
and choose the next move. Obviously, producing an image is not producing art, as issues of other kind
such as aesthetics and expressiveness are involved in the latter. A discussion on aesthetics in this context
would imply taking into account artistic variables such as color, composition, proportion, motion, form,
shape, to name but a few, and, as a matter of fact, the way they are translated into computational terms.
This is a very open question, subject to a flurry of interest and research recently. By this moment, what
we have is a new method to generate images by means of genetic algorithms.
Genotype, Phenotype and Expression. In biological systems, genotypes are normally composed of
DNA. In simulated evolutions there are many possible representations of genotypes, such as strings of
binary digits, sets of procedural parameters, or symbolic expressions. In our development, simulated
evolution was applied to the generation and evolution of abstract pictures. Each picture has a chromosome
associated to it - its genotype – that could be briefly described as follows:
picture = (object1, object2, object3, object4, object5, …)
In this chromosome, each object has its specific attributes, all randomly initialized, corresponding to
the fields of the computational geometric function that is used to generate the object. The dimensions of
the picture are pre-defined, and the background is treated as another object. The phenotype is the
generated picture, and expression is the necessary process, the sequence of computational steps, to show
the picture.
Reproduction. Reproduction is the process by which new genotypes are generated from an existing
genotype or genotypes. For evolution to progress there must be variation or mutations in new genotypes,
with some frequency. Mutations are usually probabilistic. Sexual combination can allow genetic material
of more than one parent to be mixed together in some way to create new genotypes. This permits features
to evolve independently and later be combined into an individual genotype. In Figure 2, we show two
pictures, which are the parents of the pictures presented in Figure 3. Figure 2.a has only one type of object
that we call Sun, while Figure 2.b has only Triangle objects. The pictures were created in our most recent
visual environment, Shapes, a work in progress, developed in Java. This environment has a library of
routines for the generation of different types of objects. Such objects have parametric features, which are
instantiated with random values when they are generated. There are so many possibilities of combination
that it is almost impossible that two identical objects occur.
Figure 3 depicts the offspring obtained from the compositions presented in Figure 2. Note that, if the
parent compositions have only objects of type Sun or Triangle, in the offspring we can see compositions
with combinations of both objects. These compositions can be evaluated by the user and become the
parents of the next generation. They can even be edited in our environment. This would be equivalent to
manipulate them genetically before reproduction. In Figure 4 we present some of the objects that are
ready to be used in the compositions, with variation. Most of them were inspired by Kandinsky
Composition VIII 1923 [6].
Crossover and Mutation. Offspring are generated by the use of the crossover operator, which randomly
allocates genes from each parent’s genotype to each offspring’s genotype. Given two parents:
picture1 = (object11, object21, object31, object41, object51)
picture2 = (object12, object22, object32, object42, object52)
and a random crossover point on position 3, for example, the two offspring generated by the simple GA
would be:
offspring1 = (object11, object21, object31, object42, object52)
offspring2 = (object12, object22, object32, object41, object51)
Crossover is used about 70% of the time to generate offspring; the remaining 30% are simply clones
of their parents. Mutation is then applied to offspring, usually with a low probability. In our case, each
object has a specific mutation operator. Once the object is chosen, one of its characteristics is also
randomly selected and modified. In Figure 5, we can see some mutations applied in the eclipse object.
The pictures are presented as they were obtained, but they are not necessarily subsequent. Sometimes the
result of the mutation operator is almost imperceptible.
Evaluation. The evaluation function is the only means of judging the quality of the evolved solutions.
Remember that evolutionary systems maintain a population of potential solutions. In our case, each
composition is a solution among all possible compositions with our objects. The interaction between the
evaluation of the solutions and the variation operators (crossover, mutation) to a large part determines the
effectiveness of the overall search. Carefully designing suitable evaluation functions requires considerable
insight into how the evolutionary algorithm is likely to proceed [7].
(a)
(b)
Figure 2: Abstract compositions generated in Shapes.
But here we find a huge problem. Our function of evaluation is an aesthetic function. Aesthetics is
always assumed to be subjective, but aesthetics choices can reflect the opinion of a person, a group of
people, or a standard observer that represents some kind of universal aesthetic opinion [8]. How can we
measure aesthetics? There are efforts in evolutionary computation that are looking at the question of the
aesthetical judgment [9, 10], but like in other evolutionary environments applied to artistic production in
the visual domain, here, the aesthetical judgment was left to the user, who observes and evaluates each
composition. According to his/her own judgment, the user assigns a score to each composition, in a range
of 0 to 10. These scores are then used to determine how many copies of the chromosome of the
composition are placed in a temporary area, often termed the “mating pool”, where the crossover and the
mutation operators are applied. The higher the fitness of the composition, the more copies are made.
In Figure 6 and 7, we present some visual compositions created in our environment.
Evolution Applied to Sound Domain
Within the last decades, the decreasing cost of technology has fired a revival of interest in the practical
association of color-music, or visual and sound domains. Can a chromosome generate a visual and sound
composition? We have two other previous evolutionary applications, Vox Populi [11, 12], in sound
domain, and ArtLab, in visual domain, which later evolved to ArTVox. ArTVox has features for the
automatic generation of abstract compositions which can be translated to sound trajectories. We can also
use image pixels to generate a sound sequence, in ArTVox. This does not mean that image and sound are
strongly correlated, but it is possible.
New problems arise: how can visual and sound features be associated? In his famous book,
Kandinsky [13] establishes a parallel between color, form and music. These associations gave rise to two
interface features in the ArTVox environment. The first, when active, associates objects with instruments.
The second associates color with instruments. The set of relationships applied are those suggested by
Kandinsky, but the features of the interface are also open to the user, who can decide his own mappings.
After all, according to Kandinsky, “any parallel between color and music can only be relative. Just as a
violin can give various shades of tone, so yellow has shades, which can be expressed by various
instruments.”
Nowadays, computers have features to create works in both domains. Since “transgenic” organisms
are defined as those containing one or more genes that came artificially from other species, carrying
attributes from one environment - visual - to the other - sound, we have transgenic compositions!
(a)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
Figure 3: The offspring obtained from the compositions in Figure 4.
Figure 4: These are some of the objects that are ready to be used in the visual compositions.
Figure 5: The mutation applied to the eclipse object.
(a)
(b)
Figure 6: Above, the parents.
Conclusions
Programs using evolutionary algorithms can generate unexpected structures in different domains: visual,
graphic, or musical arts, or in chemistry, engineering, or robotics. The main question surrounding visual
and sound compositions does not concern the number of elements, but rather the balanced use of a
relatively small family of elements. It seems that if in the past technological problems arose in building
engines that worked in the visual and sound domain, the current issue is of a more conceptual nature; a
new aesthetical era begins.
(a)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
Figure 7: And now, the descendents.
Acknowledgements
We would like to thank Leonardo Laface de Almeida and Daniel Gurian Domingues, who worked in the
development of JaVox and ArTVox environments. We would like to thank PIBIC/CNPq program and
CenPRA, for making this research possible. This research work is part of the AURAL project, supported
by FAPESP process 05/56186-9.
References
[1] A. Moroni, J. Manzolli, F. J. Von Zuben, R. Gudwin, Vox Populi: An Interactive Evolutionary System
for Algorithmic Music Composition, Leonardo Music Journal, 10, pp. 49-54, 2000.
[2] P. M. Todd, G. M. Werner, Frankensteinian Methods for Evolutionary Music Composition in Griffith,
N. & Todd, P. M. (eds) Musical Networks: Parallel Distributed Perception and Performance,
Cambridge: The MIT Press, pp. 313-339, 1999.
[3] J. H. Holland, Genetic Algorithms, Scientific American, July, 1992.
[4] K. Sims, Evolving Three-Dimensional Morphology and Behaviour, in Bentley, P. (ed.), Evolutionary
Design by Computers, San Francisco: Morgan Kaufmann, pp. 297-321, 1999.
[5] A. Moroni, F. J. Von Zuben, J. Manzolli, ArTbitration: Human-Machine Interaction in Artistic
Domains, Leonardo, 35(2), pp. 185 – 188, 2002.
[6] W. Kandinsky, Concerning the Spiritual in Art. Dover Publications, 1977.
[7] Z. Michalewicz, D. B. Fogel, How to Solve It: Modern Heuristics. New York: Springer, 1998.
[8] F. Hoenig, Defining Computational Aesthetics, Computational Aesthetics 2005, Eurographics
Workshop on Computational Aesthetics in Graphics, Visualization and Imaging, pp. 13-16, 2005.
[9] S. Baluja, D. Pomerleau, T. Jochem, Towards Automated Artificial Evolution for Computer-generated
Images in Griffith, N. & Todd, P. M. (eds) Musical Networks: Parallel Distributed Perception and
Performance, The MIT Press, 341 – 370, 1999.
[10] P. Machado, J. Romero, B. Manaris, A. Santos, & A. Cardoso. Power to the critics - a framework for
the development of artificial art critics in IJCAI’2003 Workshop on Creative Systems, Acapulco,
Mexico, 2003.
[11] A. Moroni, J. Manzolli, F. J. Von Zuben, R. Gudwin, Vox Populi: Evolutionary Computation for
Music Evolution, in Bentley, P. and Corne, D. (eds.) Creative Evolutionary Systems, San Francisco, USA:
Morgan Kaufmann, pp. 205 - 221, 2002.
[12] A. Moroni, J. Manzolli, F. J. Von Zuben, ArTbitrating JaVox: Evolution Applied to Visual and
Sound Composition. in Brunet, P., Correia, N., Baranoski, G. (eds.) Ibero-American Symposium in
Computer Graphics 2006, Santiago de Campostela, Eurographics Chapter Proceedings, Eurographics
Association, pp. 97 – 108, 2006.
[13] W. Kandinsky, Concerning the Spiritual in Art. Dover Publications, 1977.
Composição)musical)a)partir)da)análise)sonora)de)técnicas)
instrumentais,)via)descritores)de)áudio)
!
Ivan Eiji Yamauchi Simurra
[email protected]
Núcleo Interdisciplinar de Comunicação Sonora – NICS/UNICAMP e
Instituto de Artes – IA/UNICAMP
Palavras-chave: (3 a 5)
Composição Musical; Composição Assistida por Computador; Descritores de Áudio; Análise Musical;
Performance Musical
Contextualização.do.problema.e.justificativa.
Composição! e! Performance! são! importantes! frentes! de! trabalho! os! quais! inserem8se! no!
universo! complexo! do! criação! musical.! Verifica8se,! ao! longo! de! toda! História! da! Música,! o!
trabalho! colaborativo! entre! o! planejamento! e! as! estratégias! composicionais! com! as! práticas!
interpretativas!e!execução!musical.!
Paralelamente! à! trajetória! supracitada,! verifica8se! uma! preocupação! cada! vez! mais!
acentuada! no! que! refere8se! a! resultados! timbrísticos! mais! refinados! e! particulares,! tanto! no!
âmbito! do! planejamento! composicional! quanto! pela! realização! instrumental/vocal.! Neste!
sentido,! as! áreas! de! pesquisa! em! composição! assistida! por! computador,! computação! musical,!
processamento!de!áudio!digital!e!outras!áreas!do!conhecimento,!como!a!matemática,!oferecem!
ferramentas!significativas!para!a!análise!e!descrição!do!fenômeno!sonoro.!!!
Apresentamos! a! utilização! de! descritores! de! áudio! para! o! planejamento! composicional! e!
orquestração! os! quais! analisam! diversas! técnicas! de! execução! instrumental! de! diversos!
registros! sonoros.! Utilizamos! essa! metodologia! na! elaboração! da! obra! “O" azeite," a" lua" e" o" rio”!
(2013).!
Objetivo.Principal.
•
Relacionar!composição,!descritores!de!áudio!e!performance!musical!na!elaboração!
da!obra!“O"azeite,"a"lua"e"o"rio"–"numa"ilha"rodeada"de"ouro,"com"água"até"o"joelho”!
(2013),!para!flauta;!clarinete/clarone!e!violoncelo.!!
Fundamentação.Teórico>Metodológica.utilizada.
No! contexto! da! composição! assistida! por! computador,! há! trabalhos! os! quais! destacam! o!
uso! de! técnicas! de! processamento! de! sinais! [Malt! e! Jourdan,! 2008];! de! manipulação! da!
informação!musical!simbólica![Assayag!et.!at.,!1999]!e![Laurson!et.!al.,!2002];!e!os!ambientes!os!
quais!possibilitam!o!tratamento!e!à!síntese!de!áudio!em!tempo!real![Zicarelli,!1998]!e![Puckette,!
1996].!
A! utilização! de! modelagem! matemática! para! o! estudo! de! processos! de! orquestração!
musical! reporta8nos! à! pesquisa! realizada! por! Manzolli! (1988).! ! Especificamente,! o! sistema!
Orchidée! [Carpentier,! 2008]! foi! desenvolvido! para! assistir! à! orquestração! musical,! utilizando!
fundamentos!da!computação!evolutiva!e!algoritmos!genéticos.!!
Em!paralelo,!uma!significativa!área!de!desenvolvimento!científico!a!qual!concentra8se!em!
recuperar!a!informação!musical!de!um!determinado!registro!ou!performance!sonora!denomina8
se! Music" Information" retrieval! (MIR)! [Byrd! e! Fingerhut,! 2001].! Nela,! utiliza8se! recursos! do!
processamento! de! áudio! digital! para! extrair! medidas! estatísticas 1 !as! quais! descrevem! o!
comportamento!timbrístico!de!um!som.!
A! primeira! etapa! do! processo! de! planejamento! composicional! de! “O"azeite,"a"lua"e"o"rio”!
concentrou8se!em!analisar,!via!descritores!de!áudio,!a!“orquestração”!dos!registros!sonoros!de!
modos! de! ataque! e! articulação! da! flauta,! do! clarinete/clarone! e! violoncelo 2 .! Utilizou8se! a!
biblioteca! de! funções! de! análise! sonora! PDescriptors! implementada,! em! ambiente! PureData!
(PD),! por! Monteiro! (2012),! no! NICS/UNICAMP3.! O! diagrama,! a! seguir,! ilustra! as! etapas! do!
trabalho!de!elaboração!da!obra:!
!
Figura)1:)Diagrama)das)etapas)do)processo)de)trabalho:)a))banco)de)dados)sonoros;)b))“orquestração”)
ou)sobreposição)dos)registros)de)áudio;)c))análise)via)descritores)de)áudio)e)d))composição)com)os)resultados)
de)análise)
Utilizou8se!os!descritores!de!áudio!os!quais!relacionam8se!com!análise!da!diferença!entre!
magnitudes! de! componentes! espectrais! adjacentes! e! com! uma! medida! psicoacústica! relativa! à!!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
1!Tais!
como! Centróide! Espectral,! Desvio! Padrão! Espectral,! irregularidade! Espectral,! Loudness,! dentre!
outros.!!
2!Utilizamos!o!Banco!de!Dados!Sonoros!“SOL”,!desenvolvido!por!Fabien!Lévy.!Para!mais!informações!em!!!
3!Disponível!em!xxxx.!Data!de!acesso!28/08/2013!
percepção! de! intensidade! sonora.! Denominam8se! esses! descritores! como! Irregularidade!
Espectral! e! Loudness,! respectivamente.! A! irregularidade! espectral! identifica! e! discrimina!
contornos! timbrísticos! “suaves! e! aveludados”! (baixa! irregularidade)! daqueles! mais! “estriados”!
ou!“serrilhados”!(alta!irregularidade)![BRENT,!2010].!A!seguir,!apresentamos!os!quatro!pilares!
de!referência!timbrística!estabelecido!em!“O"azeite,"a"lua"e"o"rio”:!
Pilares)de)Referência)
“O"azeite,"a"lua"e"o"rio"–"numa"ilha"rodeada"de"ouro,"com"água"até"o"joelho”))
Baixa!Irregularidade!e!Alta!
Intensidade!Sonora!
Alta!Irregularidade!e!Alta!
Intensidade!Sonora!
Baixa!Irregularidade!e!
Baixa!Intensidade!Sonora!
Alta!Irregularidade!e!Baixa!
Intensidade!Sonora!
Loudness)
1!
0!
Irregularidade)Espectral)
0!
1!
!
Figura)2:)Planejamento)composicional)com)critérios)estabelecidos)pelos)descritores)de)áudio.)Os)valores)
“1”dos)eixos)indicam)alta)irregularidade)e)intensidade)sonora.)
Principais.conclusões..
Os! procedimentos! composicionais! e! metodológicos,! aqui! reportados,! não! objetivam!
estabelecer!um!tratado!contemporâneo!de!orquestração!e!instrumentação!auxiliado!por!suporte!
computacional.! ! No! entanto,! este! trabalho! propõe! o! desenvolvimento! de! ambientes! para! criar!
objetos!sonoros/musicais!os!quais!podem!ser!observados!a!partir!dos!métodos!de!recuperação!
das! informações! musicais.! Neste! contexto,! a! primeira! etapa! do! processo! de! planejamento!
composicional! e! orquestral! concentra8se! em! coletar! o! material! de! trabalho! composicional! via!
análise! estatística! do! comportamento! espectral! das! gravações! sonoras! de! execução!
instrumental.!
A! escolha! do! descritores! de! áudio! utilizados! para! a! análise! do! material! composicional!
refina!as!tomadas!de!decisão!do!compositor.!A!irregularidade!espectral!e!o!loudness!descrevem!
o!comportamento!timbrísticos!de!sonoridade!mais!aveludadas!ou!estriadas!e!sonoridades!com!
maior!ou!menor!intensidade,!respectivamente.!
Os! próximos! desenvolvimentos! de! trabalho! concentram8se! nas! etapas! reportadas,! a!
seguir,!em!perspectiva:!
•
Analisar! e! discutir! os! dados! coletados! pelos! descritores! de! irregularidade!
espectral!e!loudness.!!
•
Avaliar!as!distâncias!entre!o!planejamento!composicional,!via!descritores!de!áudio,!
com!a!gravação!sonora!da!composição!finalizada!
•
Aperfeiçoar!o!ambiente!computacional!de!análise!sonora.!!
Referências.Bibliográficas.
ASSAYAG,!G.;!RUEDA,!C.;!LAURSON,!M.;!AGON,!C.;!DELERUE,!O.!Computer>assisted"composition"at"
ircam:"From"patchwork"to"openmusic.!Computer!Music!Journal,!vol.!23,!no.!3,!pp.!59!–!72,!1999.!
BRENT,! W.! A! Timbre! Analysis! and! Classification! Toolkit! for! PureData.! University! of! California,!
San!Diego,!Center!for!Research!in!Computing!and!The!Arts,!2010!
BYRD,!D;!FINGERHUT,!M.!The"History"of"ISMIR"–"A"Short"Happy"Tale.!D8lib!Magazine,!Vol.!8,!No.!
11,!2002.!
CARPENTIER, G. Approche! Computationelle! de! l’orchestration! musicale.! Optimization!
multicritère!sous!contraintes!des!combinaison!instrumentales!dans!de!grandes!banques!de!sons.!
2008. Universidade Paris VI. pgs. 247!
LAURSON,!M.,!KUUSKANKARE,!M.!PWGL:!A!Novel!Visual!Language!based!on!Common!Lisp,!CLOS!
and! OpenGL.! Em! Proceedings! of! International! Computer! Music! Conference,! pages! 142–
145,Gothenburg,!Sweden,!September!2002.!
MALT,M.;! JOURDAN,E.! Zsa.Descriptors:" a" library" for" real>time" descriptors" analysis.! In! 5th! Sound!
And!Music!Computing! Conference,!Berlin,!Allemagne,!31th!july!to!August,!3rd,!2008
MANZOLLI,!J.!Um!Modelo!Matemático!para!Timbre!Orquestral,!dissertação!de!mestrado,!IMECC,!
Unicamp,!1988.!
MONTEIRO,! A.! Criação! e! Performance! Musical! no! Contexto! dos! Instrumentos! Digitais.!
Dissertação!de!Mestrado.!NICS/UNICAMP.!2012.!!159!pgs.!
PUCKETTE,! M.! S.! Pure! Data.! Proceedings,! International! Computer! Music! Conference.! San!
Francisco:!International!Computer!Music!Association.!1996.!pgs.!269–272.!1996.!
ZICARELLI,! D.! An" Extensible" Real>Time" Signal" Processing" Environment" for" MAX.! Proceedings! of!
the! 1998! International! Computer! Music! Conference.! San! Francisco:! International! Computer!
Music!Association.!1998,!pgs.!463–466.
!
Título do artigo: Projeto Destino Pirilampo: Um Estudo sobre a Composição de MetaSoundscapes em Música Ubíqua
Luzilei Aliel
José Fornari
Resumo: Música ubíqua é aqui entendida como uma derivação natural da música eletroacústica nas quais
equipamentos eletrônicos são ubiquamente interconectados para juntos criarem música. Com este ambiente
informacional, é atualmente possível fazer uma composição de paisagens sonoras (soundscapes) criada de
material sonoro advindo de distantes e distintos soundscapes. Nós chamamos a este resultado de “metasoundscape”. Este artigo apresenta e discute o processo de criação e desenvolvimento da instalação de arte
sonora intitulada "Destino Pirilampo" (DP) que explora esta premissa. DP é uma instalação performática
multimodal desenvolvida para gerar meta-soundscapes (soundscape composto de diversos, distintas e distantes
soundscapes). Esta explora a interação remota entre soundscapes cujo material é manipulado em tempo-real por
um único performer. DP usa um aplicativo de VoIP (voice over internet protocol) para coletar e enviar dados
sonoros dos soundscapes para o performer. Juntos, estes se tornam agentes de um sistema aberto e complexo,
com significado estético emergente através de um processo de auto-organização. Sem utilizar sons gravados, DP
cria um meta-soundscape interativo e artificial, que é um ambiente sonoro composto por um processo de música
ubíqua contendo objetos sonoros sintetizados e naturais, manipulados em tempo-real pelo performer. Este
trabalho é também um estudo de sonologia.
Palavras-chave: paisagens sonoras, sonologia, música eletroacústica
Title: Studying the Composition of Meta-Soundscapes in Ubiquitous Music
Abstract: Ubiquitous music is here understood as a natural derivation of electroacoustic music, in which
electronic devices are now ubiquitously interconnected to make music together. With that apparatus, it is
now possible to create a soundscape composition made of sonic material from distant and distinct
soundscapes. We call that a meta-soundscape. This article presents and discusses the process of creation
and development of a sonic art installation entitled “Firefly Destination” (DP) that explores this premiss.
DP is a multimodal interactive artwork developed to generate meta-soundscapes. It explores the remote
interaction between soundscapes whose material is manipulated in real-time by a single performer. DP
uses a VoIP application (voice over internet protocol) to gather sonic information from soundscapes and
deliver it to the performer. Together they act as agents of a complex open system where aesthetical
meaning emerges by self-organization. Without using recorded sounds, DP creates an interactive artificial
meta-soundscape, which is a sonic environment built by a process of ubiquitous music composition of
synthetic and natural sound objects modulated in real-time by the performer. This work is also an study of
sonology.
Keywords: soudscapes, sonology, electroacoustic music
1. Introdução
Atualmente, com os recursos tecnológicos disponíveis, é cabível ponderar sobre o
quanto as distâncias geográficas ainda de fato nos separam. Sabe-se que as tecnologias
digitais, de comunicação e informação, permitem a interação perceptualmente imediata de
dados digitais de áudio, imagem e controle, entre indivíduos localizados em diferentes e
distantes partes deste nosso planeta. Tal interação proporcionada pela tecnologia atual possui
mediação eletrônica digital que, em muitos casos, ocorre sem mediação perceptual (a
percepção consciente da existência de um atraso entre a transmissão e a recepção de uma
mensagem, no caso, acústica ou óptica), porém sempre com mediação tecnológica, já que
sempre existirá um atraso em qualquer tipo de comunicação, conforme definido em [Barbosa
2010]. Esta situação pode vir a criar, em determinadas circunstâncias, uma distonia perceptiva
dos sentidos da visão e audição (que, por meio da tecnologia, podem atualmente processar
informação remota em tempo-real), em relação aos outros sentidos, como o tato, o olfato ou o
paladar (que não há atualmente tecnologia capaz de proporcionar que estes transponham o
vinculo territorial, imposto pelos limites da localização espacial da ocorrência do fenômeno),
Exemplificando, podemos assistir uma transmissão ao vivo de alguém preparando um bolo,
onde podemos ver e escutar o cozinheiro perceptualmente sem atrasos, porém não podemos
tocar, cheirar ou saborear o bolo, em tempo-real.
Entretanto, pode-se aqui sustentar que a interatividade audiovisual promovida pela
tecnologia computacional é atualmente suficiente e bastante para, no mínimo, prover as
urgências e os propósitos básicos da comunicação à distância. Na última década, a tecnologia
convergiu para a produção em massa de sensores eletrônicos, fomentada pela sua
miniaturização e queda de custo. Estes são equipamentos que convertem grandezas físicas em
sinais eletrônicos discretos (digitais), tais como os: microfones (intermediados por
conversores analógico-digitais); câmeras de vídeo digital; circuitos integrados de
acelerômetros, giroscópios, bússolas; GPS (sistema de posicionamento global) e afins. Estes
equipamentos permitem a aquisição de dados dinâmicos da localização, do movimento e dos
gestos, que podem ser transmitidos remotamente, em tempo-real, de forma dinâmica e quase
que instantânea. Exemplificando, pode-se atualmente transmitir os dados de um sensor de
movimentos, como um acelerômetro, ou giroscópio, e possibilitar que dois indivíduos
remotamente localizados joguem, em tempo-real, uma partida de pingue-pongue, mesmo
ambos estando localizados remotamente. A interatividade destes novos sistemas de
informação e comunicação parece convergir a propiciar a exploração de múltiplas mídias, tais
como: som, gestos e informações visuais, que agem como peças estruturais para a possível
construção de uma experiência multimodal imersiva, que pode promover a criação de um
ambiente sonoro não limitado a uma única localização geográfica, mas que abrange, permeia
e intersecciona distintos e diversos espaços sonoros remotamente distribuídos. A aquisição e a
transmissão de dados multimodais, de forma perceptualmente imediata, permitiu a criação do
projeto aqui apresentado, intitulado: "Destino Pirilampo" (DP). Este artigo abordará a
exploração de possibilidades multimodais que podem ser geridas em três níveis de interação:
1) o som, 2) a imagem e 3) o gesto. O projeto DP tem como objetivo estender o conceito
composicional inicialmente introduzido pela eco-composição, transcendendo, através da
geração de meta-soundscapes (paisagens sonoras, ou soundscape formado por diversos
soundscapes), o efeito de source-bounding, definido em [Smalley 1990] como um conceito
que trata do viés cognitivo automático, ou gestáltico, que imediatamente associa eventos
sonoros às suas respectivas e prováveis fontes sonoras. Tal ligação contextual pode ser
entendida como um fluxo informacional entre objetos sonoros e suas respectivas origem
generativas.
Entretanto, os avanços tecnológicos ainda não são totalmente capazes de garantir que
uma performance de música formal (aquela cuja boa execução depende, entre outros, da
inexistência de atraso sonoro perceptível entre os interpretes, como, por exemplo, a execução
de um quarteto de cordas) pudesse de fato atuar ao ser formado por músicos distribuídos em
locais remotos, mas atuando juntos, numa performance musical mediada por recursos
computacionais. Até o momento, diversas experiências nesse sentido foram elaboradas, como
as performances remotas exibidas na série de vídeos, intitulada "Virtual Choir", de Eric
Whitacre (disponíveis no link: http://goo.gl/NbmnfO) . Entretanto, tais experiências ainda
parecem estar em seus estágios iniciais de desenvolvimento, ainda necessitando de uma
grande quantidade de edição, pós-produção e acertos manuais, para exprimirem seu conteúdo
estético, e mesmo assim, por não ocorrerem em tempo-real, ainda se submetem ao inexorável
atraso de transmissão digital presente em qualquer comunicação de dados online.
Como sugerido, um grande problema para a interatividade remota computacional em
performances musicais – especialmente para a música formal, conforme definida acima – é o
atraso, também chamado pela engenharia de processamento digital de sinais de “latência”.
Este fator é especialmente percebido em interações separadas por grandes distâncias físicas. A
latência ocorre devido ao limite físico do intervalo temporal que a informação sonora
necessita para viajar entre a sua fonte de geração acústica e a sua recepção (o ouvinte). De
acordo com [Fornari 2010], este é um dos elementos que podem ter contribuído para que a
orquestra clássica, ao longo de sua evolução histórica, alcançasse um limite específico em
termos de tamanho de sua distribuição física, dado pelo espalhamento e disposição geográfica
dos músicos que compõem uma orquestra convencional, e assim, do tamanho dos palcos
construídos especialmente para atender a tais performances musicais. Este limite é de
aproximadamente 34 metros. O som leva cerca de 1/10 de segundo (100 m/s) para viajar 34m
no ar, em condições normais de temperatura, pressão e umidade. Este é aproximadamente o
intervalo de tempo requerido para que o sistema auditivo perceba conscientemente o atraso na
comunicação sonora, criando efeitos acústicos tais como a reverberação e o eco. Este foi
nomeado de LIS (Limite de Interatividade Simultânea). Qualquer comunicação sonora entre
músicos (que normalmente necessitam de um alto grau de sincronização durante uma
performance) separados por uma distância maior do que LIS (34m) tenderá a gerar déficits de
sincronização, devido à ocorrência da percepção do atraso na cooperação performática.
Seguindo este mesmo princípio, para interações entre músicos através da internet, a
ocorrência de latência, apesar da distância entre os interpretes, propõe um limite similar ao
LIS. Consequentemente, problemas similares de sincronização musical podem ser
encontrados até mesmo em interações remotas. De acordo com [Barbosa 2010], mesmo
considerando uma situação hipotética em que alguém tenha conseguido acesso à maior
velocidade possível de processamento de dados, em determinadas circunstâncias, um atraso
significativo de comunicação ainda seria percebido. Este autor menciona que, mesmo
considerando a mais rápida comunicação possível numa ligação ponto-a-ponto (peer-to-peer)
entre dois indivíduos localizados em lados opostos do nosso planeta, estes estariam separados
por uma distância de cerca de 20.000 Km, correspondente à metade da distância da
circunferência terrestre, que é de cerca de 40.000 Km. Mesmo que os dados dessa hipotética
interação fossem transferidos na velocidade da luz (cerca de 300.000 Km/s), a latência
perceptual ainda assim estaria presente, a qual iria ser de aproximadamente 133,4 ms, que é
maior do que o tempo correspondente para transpor o LIS (100ms), e que assim implicaria em
distorções de sincronização entre músicos numa performance realizada em tais condições, que
dependesse da sincronia para a sua atuação.
Tal fato nos faz concluir que não há uma maneira possível de evitar a ocorrência de
latência nas interações musicais remotas. Devido a esta constatação, algumas pesquisas
recentes, em performances de música eletroacústica, ao invés de tentarem evita-la, utilizam a
latência como mais um elemento estético no desenvolvimento artístico e exploração
computacional [Traub 2005]. Considerando este contexto, o trabalho aqui apresentado
também não busca superar a intransponível latência, mas sim minimiza-la, produzindo uma
comunicação sonora dinâmica e em tempo-real. O projeto DP desenvolve um modelo sonoro
interativo que incorpora a inexorável barreira da latência, presente em qualquer comunicação
remota. DP não depende da sincronização entre os seus agentes formantes, uma vez que o
resultado final é a criação de um meta-soundscape; aqui definido como um soundscape
(paisagem sonora) produzido por múltiplos, distantes e distintos soundscapes, o qual é uma
forma de arte sonora que não dependente particularmente da sincronização de seus agentes,
como acontece normalmente no caso de música tradicional formal. Uma definição detalhada
de soundscape de ser obtida em [Truax 1992].
Com isto, este trabalho também alinha-se ao campo da sonologia, conforme definido
em [Iazzetta 2008]. Segundo este autor, conceito de sonologia engloba as “novas músicas,
feitas com novos instrumentos, observadas com novas teorias e escutadas com novos
ouvidos”. O termo “sonologia”, já conhecido e utilizado em diversos países como “sonology”.
Segundo Iazzetta, este “...sempre esteve conectado [a] uma concepção musical cujas práticas
se avizinhavam das ciências e da tecnologia. Remete a uma música que incorpora as mídias e
os artefatos da era eletrônica, os conhecimentos da acústica e psicoacústica, as ferramentas
lógicas de auxílio à criação aliadas ao artesanato característico dos fazeres mais tradicionais”.
Este é um termo atualmente adotado por pesquisadores e instituições brasileiras e
internacionais – como o Institute of Sonology, no Royal Conservatory of The Hague1 – para
fazer referência a um campo híbrido de pesquisas musicais, onde o som é estudado como o
elemento permeante entre diversas áreas do conhecimento, tal como a: acústica, psicoacústica,
cognição, análise, composição e performance musical.
A seção seguinte descreve o projeto artístico DP; a instalação artística e suas relações
com os conceitos de eco-composição [Keller 1999; Keller 2000; Lockhart e Keller 2006] e
paisagem sonora, ou soudscape [Truax 1992].
2. O Projeto DP
O principal objetivo do projeto Destino Pirilampo (DP) é possibilitar a exploração e
promover a interatividade na manipulação de eventos sonoros vindos de soundscapes
remotamente distantes, através da transmissão de dados para um único performer que orienta
o processo generativo. O motivo que inspirou o nome deste projeto foi comparar o único
performer com uma fonte de luz que atrai insetos voadores; no caso, eventos sonoros. Há
ainda, como fonte inspiradora, a teoria do "efeito borboleta", de Lorenz (explicada em
detalhes mais adiante) onde se crê que um sentido estético sonoro pode vir a emergir de um
ambiente informacional inicialmente caótico. A licença poética aqui utilizada se baseia na
seguinte suposição: se um inseto voador, quando atraído em direção a uma fonte de luz,
eventualmente encontra a sua própria morte; um pirilampo (vaga-lume), que tem em si uma
1
http://goo.gl/a8M0AD
fonte luminosa, ao ser atraído para uma fonte de luz maior, encontra a si próprio. O performer
é aqui representando pela metáfora da “fonte de luz”, que atrai, manipula e transmuta objetos
sonoros (os “pirilampos”) vindos de distantes paisagens sonoras e formando assim um metasoundscape. Isto tenta representar metaforicamente o retorno dos eventos sonoros, dos
soundscapes remotos, a um estado similar ao de suas origens, ou seja, um novo soundscape.
A estruturação deste meta-soundscape, através da interação cibernética entre performer e
modelo computacional, é dada pela realimentação sistêmica e controle de eventos sonoros
gerados espontaneamente pelos soundscapes naturais. Porém, o meta-soundscape gerado
apresenta uma sonoridade única e ubíqua, que transcende a limitação artística do tempoespaço, uma vez que tal meta-soundscape não habita um local físico ou tempo sincrônico,
mas um local virtual e atemporal; o ambiente adimensional do ciberespaço.
O performer rege o desenvolvimento dessa nova sonoridade através de gestos lúdicos
e intuitivos. O sistema possibilita o performer explorar e desenvolver um repertório de gestos,
transformando dinamicamente o conteúdo sonoro das múltiplas entradas de objetos sonoros.
Este conceito centra-se na correlação do áudio remoto com a animação gráfica, ambas geradas
em tempo-real. Esta compõe o apoio visual da criação e mediação do áudio digital de
múltiplos agentes.
[Barreiro e Keller 2010] propõem que as criações musicais ou atividades sonoras
podem ser inseridas numa das três seguintes categorias: 1) atividades individuais sem
resultados sonoros diretos; 2) atividades individuais almejando resultados imediatos audíveis;
e 3) a interação social por meio da participação ativa de múltiplos usuários. Esta última
categoria pode vir a implicar na interação entre os indivíduos imersos em suas paisagens
sonoras. Estes poderiam promover novas formas de ação a partir da realização ou do ajuste de
si próprios como agentes num novo ambiente. Em DP, o ambiente pode ser apontado como
um conteúdo originados a partir de suas possíveis interações sonoras. Grande parte do
material sonoro essencial para a construção deste soundscape vem desta forma de interação.
A reciprocidade ocorre no ciberespaço, quando os participantes (no papel de agentes) enviam
conteúdos na forma de áudio em tempo-real que são processados e controlados num único
ambiente, onde o artista e o público estão localizados, criando assim um meta-soundscape.
No escopo do modelamento ecológico, existem dois tipos de estratégias relatadas de
interação entre o compositor e o ouvinte: 1) a aplicação de nichos artificiais (aqueles que não
são encontrados na natureza) e 2) a exploração de “affordances” naturais (canais naturais de
interação entre os seres humanos e nichos ecológicos) [Barreiro e Keller 2010]. Tais formas
de percepção podem surgir a partir de vários fatores, tornando a experiência sonora única. O
processo criativo de DP está relacionado com a interação entre ouvinte e compositor,
permitindo a coleta de informações de nichos ecológicos naturais para a produção de metasoundscapes artificiais. No limiar de tal permuta processual, o resultado sonoro pode
apresentar características originais, enquanto que, contextualmente, este permanece sendo
cognitivamente semelhante, o que é uma condição que satisfaz os princípios fundamentais das
paisagens sonoras e da eco-composição.
3. Do Soundscape à Eco-composição
Alguns estudiosos analisam a música eletroacústica a partir de três perspectivas
distintas: 1) o compositor, 2) o material sonoro e 3) o processo criativo. A música acusmática,
que prima pela busca e utilização de aspectos fundamentais do som – colocando-os aparte de
qualquer referência ou contexto além dos aspectos sonoros intrínsecos – descende diretamente
do pensamento Schaefferiano e se concentra principalmente na figura do compositor [Chion
2009]. Neste tipo de abordagem, o material é compilado e tratado dentro da estética almejada
pelo compositor. Desse modo, a música acusmática pode ser definida por uma postura estética
que se baseia na compreensão da mente do compositor, atuando com um arquiteto supremo,
absoluto e inquestionável de todas as decisões composicionais de sua obra [Barreiro e Keller
2010], tal como pode ser observado nas obras de John Cage, Iannis Xenakis e Karlheinz
Stockhausen. A postura de colocar o compositor em primeiro plano à sua obra contrasta com
outras abordagens composicionais, tais como a composição de paisagens sonoras, ou
soundscapes [Schafer 2001].
Ao contrário da música acusmática, a composição de soundscapes concentra-se
principalmente no material sonoro. Este tipo de composição teve inicio na Simon Fraser
University localizada no Canadá, onde o compositor e educador Murray Schafer, junto com
outros compositores, criou o “World Soundscape Project”. Foi Schafer quem cunhou o
neologismo Soundscape (paisagem sonora), seguindo uma associação das palavras
“paisagem” (landscape) e “som” (sound), substituindo a palavra "land" (região) de
"landscape", por “sound”. A composição de soundscapes prima pela inclusão de material
sonoro inicialmente considerado como “não-musical” na criação musical contemporânea
[Keller 2004], bem como a classificação de qualquer meio físico como possível gerador
espontâneo de sons [Schafer 1997]. Paisagens sonoras naturais são geradas por múltiplas
fontes sonoras naturais, que podem ser representadas como os agentes externos de um sistema
aberto e complexo que apresenta propriedades emergentes de auto-organização de significado
sonoro.
Através do processo de auto-organização, um contexto sonoro pode vir a emergir deste
sistema, indicando aspectos perceptivos que caracterizam as regularidades e distinguem uma
paisagem sonora de outra, tornando a informação acústica singular e continuamente original,
já que esta de fato nunca se repete. Entretanto, este ambiente sonoro é auto-similar, ou seja,
apresenta a reexposição, ao longo do tempo, de características sonoras que são
perceptualmente similares entre si. Por esta razão, gerar um soundscape artificial, ou mesmo
propor métodos de sua composição de fato (e não a mera utilização de trechos de gravações
do seu áudio, numa forma de colagem sonora) não é uma tarefa trivial. Soundscapes são
entidades sonoras dinâmicas e elusivas. Uma vez registrada, na forma de um arquivo de
áudio, a paisagem sonora de fato deixa de existir. A gravação de uma paisagem sonora é
apenas um registro imaterial do seu fenômeno sonoro; do mesmo modo que uma fotografia é
apenas um registro visual de uma paisagem, e não a paisagem em si. Uma vez iniciada, a
paisagem sonora não mais se repete. Aquilo que foi gravado é o registro de um fenômeno
auditivo dinâmico, cognitivamente semelhante e acusticamente único. Entretanto, o termo
"composição de paisagem sonora" normalmente se refere a uma forma de composição que
utiliza como material, sons gravados de paisagens sonoras diversas.
Um tipo comum de composição de paisagens sonoras é o método denominado de Ecocomposição. Este sistema é baseado na organização dos fragmentos de áudio de uma
paisagem sonora, em estruturas modulares que formam assim uma peça musical (ou de arte
sonora). A eco-composição cria estruturas composicionais usando conceitos simples, como a
modulação e a acumulação de material sonoro. Por meio da interatividade, o compositor (ou
mesmo os ouvintes) podem se adaptar dinamicamente à estrutura de composição de uma peça
musical dessa natureza, criando uma experiência de audição que visa envolver o ouvinte,
possibilitando-o que também este seja um dos agentes compositores deste ambiente sonoro.
Essas são características fundamentais da eco-composição, que foca no processo
composicional, ao invés de primar pelo material sonoro (como na composição de paisagens
sonoras) ou pelo compositor (como na música acusmática).
Este trabalho tem como objetivo estender o conceito composicional inicialmente
introduzido pela eco-composição. O projeto DP oferece uma possibilidade de entrelaçar
dinamicamente materiais de paisagens sonoras oriundos simultaneamente de locais distintos e
distantes. Ao invés de usar sons gravados, DP usa o streaming de áudio digital coletado
diretamente da geração dinâmica das paisagens sonoras. O performer recebe esta mistura
contrastante de eventos sonoros de distintos soundscapes e os manipula através da
intervenção de um modelo computacional em Pd, controlando através de dados gestuais a
criação de uma nova paisagem sonora gerada por elementos das paisagens sonoras remotas,
deste modo transcendendo o conceito de "source bonding" (traduzido aqui como “pregnância
à fonte sonora”). Tal ligação contextual pode ser entendida como um fluxo informacional
entre objetos sonoros e suas respectivas origem generativas. Em DP, este fluxo é guiado pelo
interprete que, por vezes, torna esta associação clara, enquanto que em outros momentos, tal
associação torna-se difusa, perdendo a ligação referencial entre o som e a sua origem. Esta
nova paisagem sonora é aqui chamada de meta-soundscape. Tem-se assim, no projeto DP, um
processo de composição dinâmica onde o fluxo informacional viabiliza a emergência de
novos significados sonoros para a percepção e a compreensão desta obra de arte sonora
computacional. Tais significados necessariamente condensam-se num conjunto de conceitos
cognitivos em comum, entre compositor/performer e os ouvintes, o que permeia esta obra e o
seu público. Assim como na linguagem verbal, onde o significado semântico das palavras e
suas estruturas sintáticas apenas podem ser entendidos se o ouvinte conhece a estrutura da
linguagem, em artes sonoras não-verbais como DP (onde não existe referência sintática ou
semântica) é essencial que os ouvintes tenham um conhecimento a-priori da comunicação
sonora que está sendo elaborada e desenvolvida [Denora 2000].
Como visto, a interação é parte fundamental da proposta da eco-composição, mesmo
na interação coletiva, onde a figura de um único compositor centralizador torna-se difusa ou
mesmo inexistente. Em tais condições, materiais, métodos, formas e a audiência, são as partes
essenciais que integram esse processo de composição, tornando a experiência deste ato
performático altamente significativa para os esforços artísticos [Keller 2004]. Encontra-se no
método de criação sonora de DP uma proposta em aberto, validando mudanças entre agentes e
objetos em locais remotos, transcendendo assim os limites geográficos do espaço e do tempo.
DP expande o conceito de eco-composição, permitindo a comunicação entre os agentes e
objetos, separados fisicamente, manipulando-os e transpondo o obstáculo usual imposto à
criação musical, por sua permanência numa única localização espaço-tempo. Em suma, DP
visa criar um meta-soundscape através de material sonoro adquirido de sons naturais distantes
e distintos, onde o performer, como agente que angaria e manipula toda a informação sonora
coletada dos soundscapes, guia a geração auto-organizada dessa nova paisagem sonora (o
meta-soundscape), criada pela manipulação lúdica e interativa de múltiplas dimensões de
sonificação, aproximando assim DP dos processos composicionais da música ubíqua.
4. DP e a Música Ubíqua
Em termos gerais, música ubíqua é aquela desenvolvida através da interação de
múltiplos usuários conectados entre si por meios tecnológicos, utilizando uma ampla gama de
métodos eletrônicos digitais para a comunicação de informação [Pimenta et. al. 2009]. Este
conceito está relacionado com a fusão entre a computação e o meio ambiente natural,
conforme proposto por Mark Weiser, em meados dos anos 1980 [Weiser 1991]. Pode-se dizer
assim que a música ubíqua é proveniente do contexto da computação ubíqua aplicada à
música, onde o advento da computação móvel, a independência e a interconexão de
dispositivos heterogêneos, a infraestrutura sem-fio (que possibilita penetrância e ubiquidade
informacional), a conscientização conceitual, a mobilidade e a portabilidade, são todos
cooperativos e complementares, objetivando uma incorporação generalizada de métodos e
modelos tecnológicos que constituem um ambiente cibernético. Estas associações tendem a
permitir a constituição de uma rede dinâmica de interações entre agentes, objetos e ambientes
[Radanovitsck 2011].
No projeto DP, todas as áreas mencionadas acima foram compreendidas, conforme é
explicado a seguir. As maciças sonoridades contidas em paisagens sonoras naturais são
recebidas, manipuladas e sintetizadas pelo intérprete. Esta estrutura tende a ser guiada por um
controle intuitivo, uma vez que tais eventos sonoros possuem um elevado grau de
aleatoriedade e imprevisibilidade. Por exemplo, se um dos agentes está localizado num
parque, e envia continuamente o seu conteúdo sonoro para o performer de DP; se
subitamente, um pássaro ao redor começa a silvar, este será um evento imprevisível (e talvez
de improvável repetição) para o interprete que recebe remotamente toda a informação e
manipula os objetos sonoros no meta-soundscape. Os elementos e eventos caóticos que
constantemente permeiam a produção sonora de DP referem-se ao conceito de autoorganização, conforme explicado a seguir.
5. Do Efeito Borboleta à Auto-Organização
O efeito borboleta é um termo comumente utilizado para se referir à teoria
desenvolvida por Edward Lorenz, em meados de 1962, que trata de modelos matemáticos
para uma determinada classe de movimentos caóticos. Lorenz, um meteorologista, constatou
que em determinadas circunstâncias, pequenas variações nos parâmetros de determinadas
equações matemáticas (tais como algumas equações utilizadas na predição de aspectos
climáticos) podem ocasionar resultados imprevisíveis, impossíveis de serem determinados ou
analisados objetivamente. Os efeitos dessas mudanças são tanto quantitativos quanto
qualitativos. Estas observações levaram Lorenz a cunhar a celebre frase: "o bater de asas de
uma borboleta de um lado do planeta pode desencadear um tufão do outro lado (“a butterfly
flapping its wings in one part of the world might ultimately cause a hurricane in another part
of the world”).
Sistemas caóticos têm como princípio fundamental o grau de desordem (entropia),
onde tanto a ordem quanto à desordem são considerados como válidos aspectos sistêmicos.
[Naveira 1998] propõe que a teoria do caos seja entendida como uma possível alternativa para
a formalização matemática, onde os resultados são, em teoria, perfeitamente previsíveis, e a
incerteza de modelos estocásticos, onde as ocorrências de eventos que não podem ser
previstos, são normalmente descartados. Deve-se entender que a utilização do termo "caos",
que comumente é associado a distúrbios, é de fato enganosa. Na teoria do caos, o termo
“caos” não é necessariamente associado à desordem, mas à "ordem mascarada de
aleatoriedade" [Naveira 1998]. Este conceito é utilizado em DP. Todo o material enviado via
internet é considerado como importante e válido, enfatizando-o não como desordem ou mero
erro, mas como uma ordem codificada, disfarçada em aleatoriedade. Como explicado na seção
2, o próprio título do projeto DP ("Destino Pirilampos") é baseado nesta premissa estética,
associando o bater das asas de um inseto (no caso, um pirilampo) com a emergência de
ordem, onde o efeito final, não é apenas organizado, mas também independente e distinto do
resultado (tufão) à soma de suas causas (o bater das asas da borboleta).
O recurso de organização espontânea de um fluxo caótico de dados desvenda a
informação significativa anteriormente como que disfarçada de caos, o que é aqui entendido
como um processo de auto-organização; onde um sistema complexo e aberto produz a
emergência espontânea de regularidades que são posteriormente percebidas como significado
[Ashby 1947]. Este conceito se entrelaça e avizinha à vários outros conceitos usados na
contemporaneidade, tais como: as organizações em rede, as equipes autogeridas, e a
aprendizagem organizacional; conforme definidos em [Naveira 1998]. Relacionando música
com auto-organização, [Furlanete e Manzolli 2005] apresentou uma proposta de criação de
um jogo sonoro em rede que possuía a premissa de conectar vários indivíduos afins que os
mesmos possam se comunicar sonoramente. Estes eventos ocorrem através de ciclos
reflexivos e retroalimentados. Estes são definidos pela: 1) maneira pela qual o compositor
inicia sua obra, 2) o número de ciclos da interação sonora, 3) forma musical que gradualmente
emerge. [Manzolli 1996] ressalta que a auto-organização no processo composicional tende a
tornar-se uma vantajosa ferramenta uma vez que permite que a espontaneidade faça parte do
processo criativo, como um dos aspectos estruturais do sistema. Isto permite a adaptação dos
modelos computacionais interativos para serem incorporados como agentes autoorganizadores do sistema, numa forma eficiente de aumentar a autonomia criativa do
compositor. Sistemas de composição com base em modelos interativos, como aquele definido
em [Mazzolli 1996], referem-se particularmente ao aspecto da interatividade, desconsiderando
a magnitude ou a duração dos eventos sonoros. O que se valida assim é a dinâmica da
composição e suas fusões temporais. Isso acontece no campo musical quando a figura do
compositor e a do intérprete se funde num único agente composicional, o que permite que as
estruturas formais interativas e gestuais (ou improvisacionais) intercorram e cooperem
[Manzolli 1996].
6. Métodos e Resultados
O modelo computacional de DP foi desenvolvido no ambiente de programação
Puredata, também conhecido como Pd (www.puredata.info)) inicialmente desenvolvida por
[Puckette 1996]. Pd é uma plataforma de programação visual de código aberto (open-source),
multiplataforma (Linux, OSX e Windows) e gratuita, que viabiliza a criação de algoritmos
(chamado em Pd de “patch”) para: o controle, a análise, a transformação e a síntese de dados
multimidiáticos (áudio, vídeo, controle, etc.) em tempo-real. Para o desenvolvimento
computacional do projeto DP, inicialmente foi utilizada a versão do Pd-extended instalada no
sistema operacional Linux. Entretanto, devido a problemas técnicos que impediam a
comunicação de dados do áudio com o modelo computacional de DP, este foi instalado no
sistema operacional Windows. Todo conteúdo do software Pd funciona a partir dos patches.
Patches podem ser considerados estruturas pelas quais os algoritmos são desenvolvidos,
gerenciados e controlados em Pd. Estes utilizam à manipulação de objetos (conteúdos
singulares ao software Pd) para o desenvolvimento dos algoritmos desejáveis pelo
desenvolvedor. Para o projeto DP, três patches foram construídos, juntos estes abrangem
todas as seis áreas de música ubíqua, conforme detalhado na seção 4.
O primeiro patch (figura 1) foi desenvolvido com o intuito de gerar e manipular
objetos gráficos (formas geométricas ou estruturas lineares), associados aos aspectos sonoros
recebidos, que se modificam dinamicamente em termos de formas e cores, criando uma
associação com os dados de áudio recebido e os dados gestuais. Ou seja, quando o som
recebido através do software voip e as imagens captadas pela webcam são introduzidos no
patch número 1, as variações deste conteúdo podem alterar os comandos algorítmicos dos
objetos gráficos, os tornando conteúdos mutáveis, dependentes das variações sonoras.
Fig. 1: Imagem do primeiro patch do projeto DP
Desse modo, o primeiro patch também contém o módulo de aquisição de dados
gestuais que são coletados em tempo-real a partir de gestos do performer (ver figura 2). Eles
são dinamicamente capturados pela webcam de um laptop comum, onde o Pd é executado.
Durante o procedimento foi utilizado uma webcam comum, imbuída no notebook, que
trabalha diretamente com algoritmo desenvolvido em Pd (figura 2).
Fig. 2: Imagem do patch da captação dos gestos através do webcam.
A figura 1 e 2 demostram o conteúdo produzido para o primeiro patch do sistema em
sua forma detalhada, sendo possível, caso necessário, sua reutilização em outros sistemas.
A interface gestual aqui utilizada não se baseia num sensor em contato direto com o
performer, mas apenas lê os gestos à distância. Por este fato, esta é chamada de interface
gestual imaterial, conforme descrita em [Fornari 2012], onde é dito que esta categoria de
interfaces gestuais captam os gestos do artista sem a necessidade de contato físico com seu
corpo. Os instrumentos musicais tradicionais necessitam do contato com o corpo do
instrumentista para que a música seja executada. Desse modo o artista tem que se adaptar à
interface gestual física. Já os instrumentos virtuais cuja interface gestual é imaterial, como é o
caso do DP, o gesto artístico não precisa se adaptar à uma interface. Desse modo, este pode
explorar intuitivamente e desenvolver seu próprio repertório de gestos que corresponderão à
sonoridades desejadas.. A figura 3 apresenta um momento desta performance.
Fig. 3: Imagem de um momento da performance do projeto DP, detalhando um gesto do interprete,
que controla a geração sonora e também gráfica, observada na estrutura verde-amarelo ao fundo. Esta é gerada
dinamicamente pelo modelo computacional contido no primeiro patch.
O segundo patch é um modelo computacional de síntese sonora subtrativa dinâmica
que emula sons contínuos e ruidosos, como o característico som de vento ou de ondas do mar.
Para isto foi utilizado um objeto do Pd que cumpre a função de um gerador de ruído branco
(ver na figura 3, o objeto “noise~”). O áudio produzido por este objeto foi, em seguida,
processado por outro objeto que implementa o algoritmo Chamberlin de filtro de estadovariável. Este implementa 3 filtros simultâneos: passa-baixa, passa-alta, passa-faixa, e rejeita-
faixa (ver o objeto "svf~"). No caso deste patch, utilizou-se apenas a saída correspondente ao
filtro passa-baixa (low-pass). Este modelo de síntese visa proporcionar uma sonorização para
o streaming de áudio digital, dinamicamente controlado, coletado de múltiplas paisagens
sonoras.
Devido à inesperada característica de variação de dados de áudio deste sistema, foi
necessário elaborar uma estratégia que ajudasse a manter o conteúdo sonoro mais interessante
durante toda a performance. Observou-se durante os testes que ocorriam momentos onde o
fluxo de áudio mantinha-se pouco intenso ou pouco variante, tornando a performance
monótona. A maneira de minimizar este efeito foi a utilização do módulo de síntese sonora
subtrativa, que gera sons parecidos ao “som de vento”. Isto propiciou maior apelo estético à
performance, intercalando-se ao áudio proveniente das paisagens sonoras e permitindo assim
com que este se tornasse mais inerente e contextualizado ao resultado sonora da peça; o metasoundscape. O som sintetizado é controlado pela intensidade dos gestos do interprete, que
através da exploração dinâmica e intuitiva com este sistema computacional, desenvolveu seu
próprio repertório gestual. Os dados destes gestos (neste caso, dado o posicionamento da
câmera, foram em sua maioria gestos corporais acima da cintura do interprete, envolvendo
movimentos de dorso, braços e cabeça) são coletados pela câmera de vídeo do laptop, que
alimenta o modelo computacional do primeiro patch (figura 1 e 2), funcionando este como
uma interface imaterial. Detalhes da implementação desta interface podem ser encontradas em
[Fornari 2012].
Fig4: Imagem do segundo patch do projeto DP
O terceiro patch é um modelo de aquisição de áudio digital que recebe os dados de um
aplicativo VoIP (voz sobre protocolo de internet). Neste experimento, o VoIP utilizado foi o
Skype um conhecido software de comunicação utilizado por milhões de usuários. Este
permite a comunicação por voz em tempo-real de vários usuários simultaneamente. Toda a
comunicação é feita pela internet. A proposta artística aqui apresentada utiliza dados de áudio
de várias paisagens sonoras localizadas remotamente. Os dados desses ambientes são coletado
em tempo-real e transmitido a um único local, através de uma conexão do VoIP em modo
“conferência' (conference call), onde todos os dados de informação de todas as diversas
paisagens sonoras são canalizados a um único fluxo de áudio. Este fluxo de áudio é recebido
pelo terceiro patch (figura 5) e mixado com o áudio resultante da síntese subtrativa do
segundo patch, que é intuitivamente controlada em tempo real pelos gestos do performer de
DP. Os mesmos gestos também controlam a animação em tempo-real que é dinamicamente
renderizada pelo primeiro patch. Juntos, estes três patches criam a experiência multimídia
imersiva, dinâmica e ubíqua que se expressa na forma daquilo que é aqui chamado de metasoundscape.
Fig. 5: Imagem do terceiro patch do projeto DP
7. A comunicação entre softwares
Durante a implementação deste projeto, constatou-se que a comunicação de áudio
entre Pd e VoIP não era uma tarefa trivial, como se imaginava a princípio, ao se utilizar o Pd
em Linux. Ao pesquisar aplicações de softwares gratuitos e de código-livre que realizassem
tal tarefa encontrou-se uma aplicação open-source simples, desenvolvida apenas para
Windows, que foi capaz de realizar com sucesso a tarefa de comunicação de áudio entre estes
softwares. Este aplicativo é denominado Virtual Audio Cable (VAC)2. Trata-se de um
aplicativo gratuito capaz de transferir canais de áudio de um software para outro dentro do
mesmo ambiente computacional. Podem existir outras aplicações disponíveis com função
similar. No entanto, de todas aquelas testadas para Linux e Windows, apenas o VAC foi capaz
de reconhecer e ser reconhecido pelo VoIP utilizado; o Skype. A fim de permitir a
transferência de áudio do Skype para Pd através do VAC, deve-se criar dois "cabos virtuais"
neste software, que apresenta diversas entradas e saídas para vários canais de áudio. Uma vez
que estes cabos virtuais são criados, o Skype e o Pd são instantaneamente reconhecidos e
conectados. Para a interação dos envolvidos foi utilizado uma rede de internet de alta
velocidade (banda larga). Esta integração será aqui apresentada em forma de um diagrama
com o intuito de apresentar os mecanismos capazes de propiciar a interação do software
Skype com a plataforma Pd. A figura a seguir demonstra a delineação da integração destes
três softwares (Pd, Skype e VAC) em execução e comunicando áudio entre si, em tempo-real.
Fig. 6: Diagrama da conexão entre os 3 aplicativos utilizados nessa obra. Através desta interligação, foi
viabilizada a comunicação de áudio em tempo-real, que constitui o sistema computacional do projeto DP.
8. Conclusão
Este projeto teve como objetivo a exploração artística de criação do que é aqui
2
http://www.virtualaudiocable.net
referido pelo nome de "meta-soundscape"; uma paisagem sonora criada pelos dados de
distantes e distintas paisagens sonoras, através da coleta e transmissão em tempo-real de seus
eventos sonoros. O objetivo almejado inicialmente neste projeto de investigar a possibilidade
de unificar múltiplos soundscapes em um único local foi alcançado, através da superação das
limitações físicas impostas pela localidade geográfica. Para tal, empregaram-se recursos
tecnológicos que permitiram a redução virtual das distâncias entre paisagens sonoras
localizadas remotamente criando um fluxo informacional sonoro, enviado para um único
local onde a performance artística do projeto DP ocorre.
O fato de que contemporaneamente cada vez mais indivíduos estão se conectados
através do ciberespaço e compartilhando diversos tipos de dados, em distintos formatos e
mídias, interagindo simultaneamente com múltiplos usuários, faz com que projetos artísticos
como DP sejam uma consequência natural da exploração artística proporcionada pelos novos
meios tecnológicos. Esta é uma performance artística multimodal, que pode futuramente
ocorrer através das redes sociais da internet. Sua intenção estética não é pré-estabelecida,
mas sim espontaneamente auto-organizada. Este se baseia num modelo computacional
interativo que media várias paisagens sonoras remotamente localizadas. Os dados de áudio
destas múltiplas paisagens sonoras são transmitidas através de VoIP, permitindo assim a
criação de um meta-soundscape que é dinamicamente manipulado por um único performer.
DP não pretende ser uma proposta iconoclasta, mas representar uma continuação e expansão
da exploração artística do sistema de eco-composição. Enquanto este preserva a figura
gerenciadora do artista, a composição é ao mesmo tempo fruto da interação e da colaboração
de todos os eventos sonoros das paisagens sonoras distantes, que atuam como produtores de
novas possibilidades e significados sonoros, expressos nos objetos da meta-soundscape
resultante. Uma das premissas deste projeto é considerar o caos como facilitador de um
processo auto-organizacional, que gera meta-soundscapes. Através de uma simples
associação com o efeito borboleta, de Lorenz, este projeto também aceita e usa os resultados
sonoros imprevisíveis, mantendo a natureza acústica típica das paisagens sonoras. O
desenvolvimento computacional centrou na criação de uma interface modular capaz de
gerenciar múltiplos fluxos de áudio, criando padrões sonoros que podem ser controlados em
tempo-real, durante o período da performance. Este processo foi concebido e implementado
por meio de uma interligação entre o modelo computacional de DP, composto pelo: Pd (em
três patches), o VoIP (que viabiliza a coleta e a transmissão de dados de áudio) e o VCA
(que permite a transferência que dados de áudio entre o VoIP e o Pd). O conceito de
manipulação simultânea de várias paisagens sonoras estende a premissa inicialmente
desbravada pela eco-composição, permitindo a exploração ubíqua de múltiplos fluxos de
material sonoro, o que é aqui considerado como uma singela porém valiosa contribuição para
futuras pesquisas acadêmicas e desenvolvimentos artísticos computacionais, para
compositores de música contemporânea interativa.
Referência
ASHBY, W. R. (1947). Principles of the self-organizing dynamic system. Journal of General
Psychology 37: 125–128.
BARBOSA, A. 2010. Performance Musical em Rede in Criação musical e tecnologias: teoria e
prática interdisciplinar, pp. 188-208 - Goiânia: Anppom (Série Pesquisa em Música no Brasil,
v. 2). ISBN: 978-85-63046-01-7.
BARREIRO, D. L.; KELLER, D. (2010). “Composição com modelos sonoros: fundamentos
e aplicações eletroacústicas”. In: Damián Keller e Rogério Budasz (ed.). Criação Musical e
Tecnologias: Teoria e Prática Interdisciplinar. Goiânia: ANPPOM, p.97-126.
<http://anppom.com.br/editora/Pesquisa_em_Musica-02.pdf>
BASANTA, A. (2010). Syntax as Sign: The use of ecological models within a semiotic
approach to electroacoustic composition. Organised Sound 15, 125-132. (Doi:
10.1017/S1355771810000117.)
BURTNER, M. (2005). Ecoacoustic and shamanic technologies for multimedia composition
and performance. Organised Sound 10 (1), 3-19. (Doi: 10.1017/S1355771805000622.)
CHION, M. (1982) La musique électroacoustique. Paris: PUF (Presses Universitaires de
France).
DENORA, T. (2003) After Adorno: Rethinking Music Sociology. Cambridge University
Press. UK. 2003. P.02-39
FORNARI, J (2010) Percepção, Cognição e Afeto Musical. In: Anais do XX Congresso da
ANPPOM. Criação Musical e Tecnologias: Teoria e Prática Interdisciplinar, CD-ROM.
FORNARI, J (2010) Interatividade Musical à Distância. Anais do 6º Encontro de Música e
Mídia. 15-17 Setembro 2010. ECA - USP
FORNARI, J. (2012). Designing Bodiless Musical Instruments. In: AES BRASIL 2012. 8 10 maio. Expo Center Norte. São Paulo. Os anais da AES Brasil estão disponíveis no link:
http://aesbrasil.org/congressos/anais/.
FURLANETE, F. P.; MAZOLLI, J. . Interações Musicais em Rede. In: X Simpósio
Brasileiro de Computação e Música, 2005, Belo Horizonte. X Simpósio Brasileiro de
Computação e Música. Belo Horizonte: Hugo Bastos de Paula, 2005. p. 325-328.
IAZZETTA, F. (2008). Proceedings do III Seminário de Música, Ciência e Tecnologia SMCT 2008. http://www.eca.usp.br/mobile/smct2008/. Disponível no link:
http://www.eca.usp.br/mobile/smct2012/f/SMCT-2008.pdf
KELLER, D. (1999). touch'n'go: Ecological Models in Composition. Master's Thesis in
Interdisciplinary Arts, Simon Fraser University, Burnaby, BC, Canada.
http://www.sfu.ca/sonic-studio/srs/EcoModelsComposition/Title.html.
KELLER, D.; CAPASSO, A. (2000). Social and perceptual processes in the installation The
Trade. Organised Sound 5 (2), 85-94. (Doi: 10.1017/S1355771800002053.)
KELLER, D. (2000). Compositional processes from an ecological perspective. Leonardo
Music Journal, 55-60. (Doi: 10.1162/096112100570459.)
http://muse.jhu.edu/journals/leonardo_music_journal/v010/10.1keller.pdf.
KELLER, D.; BARROS, A. E. B.; FARIAS, F. M.; NASCIMENTO, R. V.; PIMENTA, M.
S.; FLORES, L. V.; MILETTO, E. M.; RADANOVITSCK, E. A. A.; SERAFINI, R. O. &
BARRAZA, J. F. (2009). Música ubíqua: conceito e motivação. In Anais do Congresso da
Associação Nacional de Pesquisa e Pós-Graduação em Música - ANPPOM (pp. 539-542).
Goiânia, GO: ANPPOM.
KELLER, D. (2004) Paititi: a multimodal journey to El Dorado. Tese de Doutorado em
Artes Musicais. Stanford University. Stanford, CA. 2004.
https://ccrma.stanford.edu/~dkeller/pdf/Paititi2004.pdf
LOCKHART, A.; KELLER, D. (2006). Exploring cognitive process through music
composition. In Proceedings of the International Computer Music Conference (ICMC 2006)
(pp. 9-12). Ann Arbor, MI: MPublishing, University of Michigan Library.
http://quod.lib.umich.edu/cgi/p/pod/dod-idx/exploring-cognitive-process-through-musiccomposition.pdf?c=icmc;idno=bbp2372.2006.026.
MANZOLLI, J. (1996) Auto-organização um Paradigma Composicional. In AutoOrganização: Estudos Interdisciplinares, Campinas, CLE/Unicamp, ed. Debrun, M.
Gonzales, M.E.Q. Pessoa Jr. O. 1996. p.417-435.
NAVEIRA, R. B. (1998) Caos e complexidade nas organizações. Dissertação de Mestrado.
Departamento de Engenharia da Universidade Federal do Rio de Janeiro. Rio de Janeiro:
UFRJ.
PIMENTA, M. S., FLORES, L. V., CAPASSO, A., TINAJERO, P. & KELLER, D. (2009).
Ubiquitous music: concept and metaphors. In Proceedings of the Brazilian Symposium on
Computer Music (XII SBCM) (pp. 139-150). Recife, PE: SBC.
PUCKETTE, M. (1996). Pure Data: another integrated computer music environment. Proceedings, Second Intercollege Computer Music Concerts, Tachikawa,(pp. 37-41) Japan.
PUCKETTE, M. (1996). Pure Data. Proceedings, International Computer Music Conference. (pp. 269-272.) San Francisco: International Computer Music Association,.
PUCKETTE, M. (1997). Pure Data: recent progress. Proceedings, Third Intercollege Computer Music Festival. (pp. 1-4) Tokyo, Japan.
PUCKETTE, M., APEL, T. (1998). Real-time audio analysis tools for Pd and MSP. Proceedings, International Computer Music Conference. (pp. 109-112) San Francisco: International
Computer Music Association.
RADANOVITSCK, E. A. A., KELLER, D., FLORES, L. V., PIMENTA, M. S. &
QUEIROZ, M. (2011). mixDroid: Marcação temporal para atividades criativas. In
Proceedings of the XIII Brazilian Symposium on Computer Music (SBCM 2011). Vitória,
ES: SBC. http://compmus.ime.usp.br/sbcm/2011.
SCHAFER, R. M. (2001) A afinação do mundo. São Paulo: Ed. UNESP.
SMALLEY, D. (1990) Spectro-morphology and Structuring Processes In The Language of
Electroacoustic Music, ed. Emmerson, 1990. p. 61-93.
TRAUB, P. (2005) Sounding the Net: Recent Sonic Works for the Internet and Computer
Networks. Contemporary Music Review. Vol. 24, 2005. p. 459 – 481.
TRUAX, B. (1992). Electroacoustic Music and the Soundscape: The inner and the Outer
World. In Paynter, John. Companion to Contemporary Musical Thought. Routledge. pp.
374–398.
TRUAX, B. (2002). Genres and techniques of soundscape composition as developed at
Simon Fraser University. Organised Sound 7 (1), 5-14. (Doi: 10.1017/S1355771802001024.)
WEISER, M. (1991) The Computer for the Twenty-First Century. Scientific American, v.
265, n. 3, 1991. p. 94-101.
WESTERKAMP, H. (2002). Linking soundscape composition and acoustic ecology.
Organised Sound 7, 51-56. (Doi: 10.1017/S1355771802001085.)
Websites
Primeira performance do projeto DP [Internet]. UNICAMP, Campinas/SP (Brasil): 2013 [em
Setembro de 2013]. Disponível em: http://youtu.br/xtxr2XMaM18
Int. J. , Vol. x, No. x, xxxx
1
An Evolutionary Algorithm to Create Artificial
Soundscapes of Birdsongs
José Fornari
Interdisciplinary Nucleus for Sound Communication (NICS),
University of Campinas (UNICAMP)
Campinas, São Paulo, Brazil.
[email protected]
Abstract. Birdsongs are an integral part of many landscapes, in urban and
countryside areas. Together they constitute an ecological network of interacting
sonic agents that are self-organized into an open complex system of similar
cognitive aspects, yet with original acoustic content. This work presents a
preliminary study and development of an Evolutionary Algorithm (EA) used here
for the generation of virtual birdsongs that create an artificial sonic landscape; a
soundscape of birdsongs. They are reproduced by genetic operators that build
sequences of parameters to control instantiations of a computer model that emulates
a bird syrinx. Such models are capable of synthesizing a wide range of realistic
birdsongs that altogether compound a dynamic network of artificial bird calls. This
system can also be interactive as external input data can be received in real-time
through instant text messages from the micro-blog Twitter. These messages are
mapped as new individuals living in the EA system population set. As further
described, by means of an aimless evolutionary process, the EA system presented
here is capable of creating realistic artificial soundscapes of birdsongs.
Keywords: Evolutionary Algorithm, Soundscape, Computer model, Birdsongs.
1 Introduction
It's remarkable the amount and variety of places where birdsongs can be
found and heard. These chunks of acoustical information are exchanged
between birds whose identity can even be analysed by specific sonic
aspects of their birdcalls. Together they create a sonic network that forms a
natural landscape of sounds, known as Soundscape. This term was coined
by Murray Schafer and refers to an immersive sonic environment.
Soundscapes are immediately perceived by listeners that do not require
any training or expertise to recognise them. Most of the time listeners are
also immersed in the soundscape and consequently become the agents that
are also part of its creation [1]. Such organic-like sonic textures are
effortlessly recognizable by means of the automatic sound cognition
processes of our mind. Yet, in terms of its acoustical aspects, soundscapes
are constantly changing and virtually never repeated. Schafer mostly
worked with natural soundscapes, such as the ones found in forests,
Copyright © 2012 Inderscience Enterprises Ltd.
Jose Fornari
waterfalls, or nearby seashores. However, these natural soundscapes are
nowadays merged with other man-made soundscapes, such as the ones
generated by operating machines, traffic jams and crowds. Instead of
being mutually exclusive, they are blended together creating new types of
soundscapes, which can be seen as an immersive cybernetic sonic
environment, ubiquitously found in most areas where humans inhabit [2].
This intertwinement of organisms and mechanisms – both acting as the
agents that constitute an open complex open system – creates a sonic
environment with emergent regularities that are acoustically new and
cognitively similar.
This work presents an evolutionary system that aims to emulate part of
the sonic natural emergent capacity of soundscapes. For that, an
evolutionary computer model was used here to generate some of the
natural characteristics of a true soundscape. This system is able to create a
stream of sounds that is, at the same time, similar and novel. This work
presents the development of this system; an introductory volutionary
algorithm (EA) designed to create artificial soundscapes of birdsongs.
1.1 Inspired by nature
The physiological apparatus that allow birds to generate sounds with
perceptual diversity and enriching acoustics is utmost sophisticated. Its
core is found inside a tiny little organ known as Syrinx, which is roughly
the equivalent of human Larynx. Several researchers have developed and
presented computer models emulating some of the sonic behaviour of a
syrinx, in the attempt of understanding and emulating its sonic properties.
Examples of such works are found in [7,8]. However, a syrinx computer
model has a large number independent control parameters that need to be
properly set in order to generate a specific bird-like sound. This can turn
the exploration of new artificial birdcalls, by means of manual tweaking,
very difficult, counter-intuitive and cumbersome. Indeed, the simultaneous
control of a large number of parameters is a hard task to be conducted by
formal (deterministic) mathematical models (such as a system of linear
equations) and controlled by typical gestural interfaces (such as the
computer mouse and keyboard).
On the other hand, natural evolutionary systems, such as the human
motor cortex, are capable of easily performing similar tasks, such as
simultaneously controlling a large number of parameters involved in each
human gesture. The control of all body parts, joints rotations, limbs
displacements, and so forth, is a task that is extremely hard to be
performed by a deterministic computer model. However, an evolutionary
approach can be successfully used to handle complex problems of such
category. Similar to the control of multiple body parts that compound a
movement, and the control of multiple syrinx models that compound a
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
soundscape of birdsongs are both complex tasks that involve a very large
number of parameters to be controlled simultaneously. The system here
presented intends to reach this goal, by simultaneously controlling several
syrinx models, while also handling the dynamic processes of reproduction
and selection of individuals, which will altogether generate the artificial
soundscape of birdsongs.
The control of a large number of independent parameters in the pursue
of solving a complex unbounded problem has been approached by the
usage of adaptive computer models. A significant part of the research in
this area came from the computing field known as Artificial Intelligence
(AI). As many other fields of human knowledge, AI was also inspired by
the direct observation of natural strategies of problem solving. Although
there are many others, [9] mentions two fundamental sources of
inspiration: 1) Human brain, 2) Natural evolution. From the study of
human brain, came the development of neural-networks and nonsupervised methodologies to deal with complex systems, such as the
researches in the field known as Artificial Neural Networks (ANN). From
the observation of Natural evolution – as described by the Darwinian
theory of natural evolution of biological species – new computing
methodologies were developed, such as the Evolutionary Algorithm (EA)
approach that is used in this work.
However, here the EA approach is used in a novel manner. Instead of
having the evolutionary process guided towards generating and finding a
best possible solution, here the evolutionary process is aimless. There is
no final goal to be reached or any specific problem to be solved, but to
maintain the continuous evolutionary process of soundscape generation.
All solutions generated (the birdsongs) are simultaneously part of the
artificial soundscape. This EA system is said to be aimless because it is not
trying to find unique solutions as there is no specific solution that is the
best one. Which is important here is not reaching a final goal but keeping
an evolutionary process running. In other words, the result of our EA
system is the evolutionary process in itself.
The current implementation of our EA system controls up to 20
individuals in a varying-size population set. Each individual is an
instantiation of a syrinx model (as described in section 2) which is
controlled by a sequence of 16 parameters; the genotype of each
individual. Thus, the artificial soundscape of birdsongs is created by all
individuals in the population set.
1.2 The computing environment
Our EA system was implemented in Pd (www.puredata.info); a free,
open-source, multi-platform software environment designed for the
programming of real-time data processing. We used an enhanced (also
Jose Fornari
free) version of Pd, named: “Pd-extended”. This one can handle several
types of data, such as: control, audio, image and video; to create computer
models for media analysis, transformation and synthesis. Individuals were
programmed as a separated model. Each individual is an instantiation of
this model: the artificial syrinx model; a procedural physical modelling
sound synthesis, controlled by the sequence of 16 parameters (i.e. the
genotype). Each instantiation controlled by one genotype generates the
sonic behaviour of one perceptually unique birdsong, which turns to its
individual's phenotype.
Instead of using audio samples recorded from real birds singing –
which would in fact make it impossible to create a true artificial
soundscape of birdsongs – this work uses a artificial syrinx model, which
allows full control of its sonic features and consequently the creation of a
virtually infinite amount of realistic and distinct birdsongs. Therefore, in
the work here presented, there are no audio recordings of actual birdsongs,
or of any other sort, nor any type of permanent data being stored.
Nevertheless, most of the time, the artificial soundscape generated by our
EA system brings about sonorities that are considered by many listeners as
being very realistic, even sometimes leading them to mistakenly believe
that our implementation actually embeds audio data from real birdsongs.
This EA system has total control on the creation and selection of new
individuals, although sometimes it can also generate birdsongs that are
quite distinct, but still keeping an inheritable similarity with their
predecessors, which bounds them together as belonging to the same
population set, so the balance between novelty and similarity is always
maintained. For that reason, each individual has its own genotype,
represented by a text file containing a sequence of parameters to control
one instantiation of the physical modelling sound synthesis. The slight
change of values in this genotype corresponds to a clear perceptual
modification in the generated birdsong in the population set. It means that
the sound of a birdsong generated by this computer model, as perceived by
the human auditory system, varies significantly when its genotype is
changed.
Inside the population set, individuals are born, reproduce in pairs and –
after completing their lifespan – they die. In each instant, the sound
generated by all “alive” individuals creates the unique soundscape.
To start the system, it is required to have at least two individuals'
genotypes. They can be randomly generated or provided by the user, as
specific birdsong sonorities chosen to start the evolutionary process. A
single pair of individuals, by means of the reproduction process, is enough
to generate a steady yet variable number of individuals in the population
set.
The current implementation of our EA system has 4 global control
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
parameters: 1) recombination rate (or crossover rate), 2) mutation rate, 3)
lifespan rate (how much, on average, each individual will remain alive)
and 4) proliferation rate (how fast each pair of individuals will reproduce).
By default these parameters are set to a steady generation of overlapped
birdsongs that will hold enough of their sonic identity, at the same time
that keeping it novel – although, as further explained, this system will
virtually never create clones. These parameters can be changed while the
system is running, in order to let the user to explore new and unusual
sonorities emerging from different parametrizations of the artificial
soundscape being generated.
1.3 Tweeting genotypes
A fundamental condition to have true emergence of self-organization in
a complex system is to allow internal and external agents acting on it, thus
turning it into an open system [15]. In order to turn the population set of
our EA system into an open system, it has to be able to receive external
data. The chosen way to receive external data, and also turning this an
interactive EA system, was through data input from Twitter; the famous
internet micro-blog social network service (www.twitter.com). By sending
messages to a specific Twitter account, linked to our EA system, it is
possible to insert in it new genotypes, mapped from the incoming Twitter
text message, thus becoming new virtual birdsong, as further explained.
Interesting enough, birdsongs also inspired the creation of Twitter. This
micro-blog had its name chosen after a metaphor; by comparing birds
tweets with small text messages exchanged among users of this social
network. Together they create a single contextual meaning for groups of
small text messages. In the interview referred in [3], Jack Dorsey, the
creator of Twitter, compares this micro-blog with a soundscape of
birdsongs. He says that, “in nature, chirps of birds may initially sound like
something seemingly devoid of meaning, order or intention; however, the
context is inferred by the cooperation between these birds, as individuals
that each one can transmit (by singing) and receive (by listening to the
songs) data (birdsongs) with each other. The same applies to Twitter,
where many messages, when taken out of context, seem as being
completely random or meaningless, but in a thread of correlated messages,
they gain significance that unifies them into a single context.”
The work presented here followed a similar path, during its
development. When receiving Twitter messages, our EA system maps their
text characters into a new individual's genotype. The entire EA system was
implemented as a Pd patch; a modular, reusable unit of code written in Pd,
forming an standalone program. The individuals were implemented as a
separated Pd patch that acts as a sub-patch for the main EA patch. This is
given by a Pd encapsulation mechanism known as “abstraction”. Each
Jose Fornari
individual within the population set is an instantiation of this abstraction.
Therefore, each Twitter message received into our EA system requires it to
instantiate a new individual in the population set which is controlled by
the respective genotype mapped from its Twitter message. By inserting a
new individual into the population set, the users creates not only a new
birdsong but also influences the evolutionary process of the entire EA
system, once that this individual will eventually participate into the
reproduction process.
The reproduction occurs in individuals' pairs. They are chosen by
proximity and proliferation rate. At each time interval set by the
proliferation rate the closest pair of individuals are chosen to participate in
the reproduction process. The selection process is in charge of eliminating
individuals whose genotype is too different from the average genotype of
the population set. This helps to keep the number of individuals within the
population set under 20 (as said before, the maximum amount of
individuals allowed in this current implementation). This also contributes
to maintain the entire population set within an approximate cognitive
similarity (i.e. the individuals phenotypes will be alike).
It's important to notice that this EA system does not necessarily require
external input data to create an artificial soundscape of birdsongs. Through
the action of the mutation operation an artificial soundscape can be
successfully generated by running our EA system even without
interactivity (i.e. without receiving external data from Twitter messages).
The contribution of interactivity in this current implementation is still
secondary. We plan to further explore the sonic contributions of
interactivity in future and more complex implementations. Also as an
enhancement, a simple visual feedback for the population set was built. In
this graphical interface, individuals are represented by numbers (from 1 to
20) depicting as random walk icons inside a square plane; a window in the
computer screen. Through this graphical representation, we can see
interesting moments of the evolutionary process, as individuals getting
closer (thus prone to reproduce) or disappearing (when they die). This
currently intends to offer a complementary information through the realtime visualization of the soundscape behaviour while it's is being
generated (and heard). This may enhance the possibility of an immersive
experience for the listeners, considering that in a natural soundscape sonic
information is most of the time accompanied by its visual reference. This
graphical implementation was also programmed in Pd-extended, using the
GEM library, embedded in the main EA system patch.
As further described, the implementation here presented is a simple yet
unusual aimless EA system. Instead of trying to find a final solution for a
complex problem, our system constantly generates a variety of original yet
similar solutions with the same aesthetical goal, for the creation of a
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
soundscape of birdsongs. As often observed in nature and arts, in this EA
system there are also no problems to be solved but solutions to be created.
2 Emulating Birdsongs
Songbirds belong to the biological order known as Passeriformes. This
group is very large and diverse, formed by approximately 5,400 species,
representing more than half of all known birds. They are divided into two
sub-groups: 1) Tyranno (Suboscines, also known as "shouter birds") and 2)
Passeri (Oscines, also known as "singing birds"). Both ones have syrinxes
as the main organ responsible for the creation of their birdcalls [4].
Unlike humans, birds can independently control their lungs, which
allow them to inhale with one lung while exhaling with the other. This
allow them to simultaneously sing and breathe, so they can generate very
long melodies; way beyond the volumetric capacity of their tiny lungs. In
the anatomy of birds, the syrinx corresponds to the larynx in mammals.
Syrinx has three groups of muscles that can be independently controlled;
one for the trachea and other two for the bronchi. By constricting and
expanding these muscles, birds can modify the anatomical aspects of the
syrinx, thus modifying the sound generated by it, in a broad range of
perceptual possibilities. Inside of the syrinx there is a membrane
suspended by a cartilaginous cavity; the tympanic membrane. This is
placed on the top of an inflated air bag; the clavicular sac, that let the
membrane to freely move sideways. This is the main oscillator of the
syrinx and can be compared with the reed of a woodwind musical
instrument, such as an Oboe.
Birds can also control the flux of air flowing in the trachea, that passes
through the clavicular sac and each bronchus. they can also control the
sturdiness of the tympanic membrane, by the action of minute lateral and
medial muscles muscles located in it, similarly to the ones found in human
lips [5]. Figure 1 shows the major parts of a syrinx, depicting the three
groups of muscles and the tympanic membrane, where the sound of a
birdsong is initially generated.
Jose Fornari
Figure 1. Basic diagram of a syrinx.
There are several computer models developed to emulate the syrinx
behaviour [6]. Our work uses the one created by Hans Mikelson,
originally developed in Csound programming language [7]. This algorithm
was later improved and implemented as a Pd patch, by Andy Farnell, who
created an algorithm that emulates the entire birdsong (timbre generation
and melodic phrase) [8]. Figure 2 shows a simplified version of the
algorithmic structure of the Pd patch used in the syrinx emulation. This is
a basic version of this procedural physical modelling sound synthesis
programming code. Physical modelling is a sound synthesis technique that
emulates by the use of dynamic equations the physical properties and
behaviour of a sound source [17]. Figure 2 also shows the dynamic
equation of this physical modelling sound synthesis of the syrinx. This one
is used as a part of the Pd abstraction sub-patch of the individual, whose
instantiations create all individuals in the population set of our EA system.
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
Figure 2. PD patch and corresponding equation of a simplified physical modelling version of
the syrinx, where 3 sine-wave oscillators (objects osc~) are controlled by 5 parameters (A1,
F1, A2, F2 and Fi).
As seen in Figure 2, the core of the syrinx model requires only 5
parameters to create the timbre of a birdsong. The other 11 parameters – of
the total of 16 elements of the genotype – are used to control the creation
of the melodic phrase of a birdsong, as further explained.
3 The Evolutionary Algorithm
Evolutionary Algorithms (EA) have been used as a non-supervised
approach for problem solving. EA is a subset of Evolutionary
Computation (EC); an adaptive computing methodology inspired in the
biological strategy of automatically searching for the best possible
solution for a generic and often complex problem [9]. Such methods are
commonly used in the attempt of finding the best solution for an
unbounded problem, specially when there is insufficient information to
model it using formal (deterministic) computational methods.
Different from the typical EA usage, the generation of an artificial
soundscape is not an optimization problem. There is no evolutionary
search towards a single best solution, once that there is no actual problem
Jose Fornari
to be solved at the end of the evolutionary path. Instead, the system is
designed to maintain a steady process of creating similar and variant
solutions. Thus, this EA system doesn't deal with the reduction of a
convergence time [19]. As it is, the convergence time of our EA system
can be seen as limitless. In typical EA applications, convergence time is an
obstacle that can be eventually minimized but never eliminated, as a
computer model will always require a time duration (often above the
designers expectations) to evolve possible solutions and find the best one.
Thus, typical EA systems frequently have problems to operate in real time.
In this work however, our EA system keeps the steady generation of
solutions (birdsongs) and all of them are used as part of the soundscape
once that it is formed by the sonic merging of all birdsongs. Thus, our EA
system has no trouble to operate in real-time because its convergence time,
instead of being very small, is infinite.
Our EA system carries on the evolutionary process indefinitely and
takes advantage of one interesting evolutionary byproduct; given by the
fact that in the evolutionary path, created by the action of the reproduction
and selection processes, new solutions are created but usually not repeated
(clones), which is particularly interesting in terms of generating true
soundscapes, where sounds are also usually not repeated.
The concept of using an EA system to create a soundscape belongs to a
thread of previous works. The most influentials ones are: 1) Vox Populi; a
system able to generate complex musical phrases and harmony by using
genetic operators [10], 2) Roboser; a system created in collaboration with
the SPECS UPF group, in Barcelona, that uses Adaptive Control
Distribution to develop a correlation between the adaptive behaviour in
robotic algorithmic compositions [11], and mostly important 3) ESSynth,
the evolutionary synthesis of sound segments (waveforms); an EA method
that uses waveforms as individuals within a population set that is
manipulated by reproduction and selection processes, with a fitness
function given by a distance measurement of the perception of acoustic
aspects, known as psychoacoustic features [12].
ESSynth was used in several artwork installations. For instance, it was
used to create RePartitura; a multimodal evolutionary artwork installation
that is based on a synaesthetic computational system that mapped graphic
objects from a series of conceptual drawings into sound objects that
became dynamically evolving individuals in the population set of an EA
system [13].
The first version of ESSynth already showed the potential of generating
sound segments perceptually similar but never identical, which is, as said
before, one of the fundamental features of natural soundscape. This system
was later expanded to include parameters of spatial sound location for
each individual, thus allowing the creation of a more realistic soundscape
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
and also the implementation of sexual (in pairs) reproduction process, now
being done through pairs of genderless individuals, instead of in an
asexual manner, such as a mitotic reproduction [14]. Both features (spatial
sound location and sexual reproduction) are also implemented in the
current version of our EA system.
The implementation of our EA system was developed as a Pd patch
named “evopio.pd”. As said, individuals are instances of a Pd abstraction
named “ind.pd”. Each instance of ind.pd generates an individual which
corresponds to a birdsong belonging to the population set inside evopio.pd.
Each instantiation is an independent physical modelling synthesizer of a
syrinx. Each genotype is stored as a text file within a folder accessed by
evopio.pd, each one corresponding to a single instantiation of ind.pd,
manipulated by evopio.pd. Details of the genotype implementation are
described in the next section.
3.1. Genes, Chromosomes and Genotypes
These 16-element sequences that control each instantiation of ind.pd
represents a single and unique genotype. However, in the current
implementation, the genotype of our EA system is compounded of one
single chromosome. Therefore, this is also seen here as a chromosome.
The system temporarily stores these sequence as text files, in a folder that
contains all genotypes of the individuals currently alive in the population
set. Each element of the sequence is here seen as a gene, which
corresponds to one single parameter of physical modelling synthesis
(syrinx model) responsible for the birdsong generation. In the current
implementation there is still no gender assigned to individuals nor
dominance-recessiveness chromosomic hierarchy. Therefore, in our EA
system, the 16-element chromosome will control the entire birdsong along
its lifespan.
When using external data from Twitter messages to inject new
genotypes into the population set, each message is mapped into a new
genotype. Once that each Twitter message can have up to 140 ASCII
characters, all these ones are currently mapped into a single 16-element
genotype. The ASCII characters of a Twitter message can be easily
mapped to integers between 0 and 127, each number corresponding to a
specific ASCII character. For instance, the message “H e l l o W o r l d”
corresponds to the numeric sequence “72 101 108 108 111 87 111 114
108 100”. Then, each number of the numeric sequence can be normalized
from 0 to 1, and subdivided into sequences of 16 elements, each one
corresponding to a chromosome. As the Twitter message can have up to
140 elements, each message can be mapped in up to 8 chromosomes per
message. For simplicity this current implementation uses only the first
chromosome of each message. In future implementations, the other
Jose Fornari
chromosomes will be used, specially to handle multi-gender and polyploid
genotypes.
In this work, although reproducing in pairs, all individuals are
genderless and haploids. They control all parameters of the procedural
synthesis of a birdsong, as described by the Pd model in [8]. This is an
extension of the syrinx model that also handles the articulation of throat
(tracheal cavity) muscles and beak, thus not only the characteristic timbre
of each birdsong is parametrized by each chromosome, but also the entire
melodic phrase that corresponds to the birdsong. The 16 genes that
compound the single chromosome of the individual's genotype are:
1) Ba: Beak articulation (control the beak openness rate)
2) Rt: Random “Tweet-ness” (control the rate of the tweet random
generator)
3) Ff: Frequency of the first formant (for the first bronchus in the syrinx)
4) Af: Amplitude of the first formant (for the first bronchus in the syrinx)
5) Fs: Frequency of the second formant (for the second bronchus in the
syrinx)
6) As: Amplitude of the second formant (for the second bronchus in the
syrinx)
7) F0: Fundamental frequency (fundamental frequency, for the entire
birdsong)
8) Fe: Fundamental Extent (fundamental sweep extent, for the entire
birdsong)
9) Fm: Fundamental frequency Modulation Amount
10) Fb: Fundamental frequency Modulation Base
11) Ft: Frequency of the first tracheal formant
12) At: Amplitude of the first tracheal formant
13) Fj: Frequency of the second tracheal formant
14) Aj: Amplitude of the second tracheal formant
15) Tr: Trachea resonance rate (trachea filter resonance)
16) Ao: Overall amplitude (for the entire birdsong)
Figure 3 depicts the organizational sequence of the 16 genes in the
single chromosome sequence that constitutes the genotype.
Figure 3. The single chromosome sequence of one artificial birdsong genotype.
3.2. Fitness function
Once that our EA system conducts an aimless evolutionary process, in
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
theory, to generate an artificial soundscape of birdsongs, this system
would not require a fitness function. However, in order to help the
evolutionary process to maintain a closer sonic similarity while avoiding
the occurrence of super-population, a fitness function was also used here.
This one calculates a psychoacoustic distance (D) as explained in [12]. D
is given by the Euclidean distance between the values of three
psychoacoustic descriptors: 1) Loudness (L), the perception of sound
intensity; 2) Pitch (P), the perception or clarity of a fundamental
frequency; and 3) Spectral centroid (S), the median of frequency
distribution in the sound spectrum. D is given by the following equation:
D= √ (( L1− L2) +( P1− P2) +(S1−S2) )
2
2
2
(1)
The psychoacoustic parameters: L, P and S, can be easily calculated by
lower-level acoustic descriptors that are commonly found in MIR (Music
Information Retrieval), as the ones described in [16].
Selection process calculates Di, the psychoacoustic distance of each
newborn individual created in the population set, and also Dp; the average
D of all individuals in the population set.
The individual whose |Di – Dp| is larger than a threshold T will be
marked to not participate in the reproduction process, which means that
this individual will live its entire lifespan in the population set but will not
pass its genetic traits to further generations. In the current implementation
T is hardcoded as T = Da, which means that if a newborn individual has its
Di > 2.Da, it will not participate in the reproduction process.
3.3. Genetic operators
The reproduction process in this EA system uses the two classic genetic
operators: 1) Recombination (or crossover) and 2) Mutation. Acting
together, they generate a new individual genotype out of the genotypical
information of a pair of individuals in the population set. As said, all
individuals in the current implementation are genderless and their
genotypes are made of one single haploid chromosome. Recombination
creates a new chromosome by calculating the weighed average of the
respective genes in each chromosome of the the individual's pairs,
according to the reproduction rate.
They are chosen by the EA system to reproduce according to their
mutual proximity in the population set. This one is calculated by their
virtual sound location. In order to have a more realistic soundscape, we
emulated each individuals' location in a virtual space by using two simple
strategies: Inter-aural Time Difference (ITD) and Inter-aural Level
Difference (ILD) [14]. By varying these locations parameters – which is
Jose Fornari
automatically done by the system, in this current version – the birdsongs
are actually heard as if their sounds were moving around an horizontal
plan. To hear this effect, the computer running this system needs to be
connected to a stereophonic (two-channel) sound system, and this effect is
even more realistic through headphones. Mutation operators inserts weighvariability to the new chromosome by multiplying each gene value of the
new chromosome with random variables bound to a mutation rate.
Let's suppose that there is a pair of individuals whose chromosomes: A
and B, in a certain moment, are the closest ones in the entire population set
(in terms of the spatial sound location parameters of their respective
individuals). If the proliferation rate is such that requires the system to
have a reproduction process, then A and B are chosen to create a new
individual chromosome: C. This new chromosome will be calculated by
the product of each correspondent gene in the 16-element sequences of A
and B, but with a weight determined by the recombination rate, tr. This e
a scalar real value between -1 and 1, which determines how A and B will
be mixed in C. Considering that there would be no action of the mutation
operator, if tr = -1, the chromosome C wuold be identical to A. Similarly,
if tr = 1, the chromosome C would be identical to B. If tr = 0, each gene of
C would be the arithmetic average of the correspondent genes of A and B.
If recombination were the only operator, the birdsongs would, at some
point, tend to repeat themselves, as there wouldn't be variability inserted in
the population set (also considering that this system did not receive any
external genotype input data). By default, tr = 0, which delivers a uniform
mixing of chromosomes pairs. The equation (2) shows the calculation of
the reproduction operator, for the ith gene:
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
(2)
What guarantees that there will be no repetition of birdsongs (or, at
least, that it will be extremely rare) is the action of the mutation operator.
As already suggested, mutation operator is responsible for inserting
novelty into the new genotypes, thus helping to avoid the occurrence of
clones in the population set. Its action is regulated by the mutation rate,
tm, that varies between 0 and 1.This one determines the amount of
variability that will be inserted into the genotype of a new individual. This
variation is given by the product of each gene in the 16-element genotype
sequence by the corresponding elements of another 16-element sequence
of random real values (known as the novelty sequence) ranging between
[(1-tm), 1]. If tm = 0, the novelty sequence is equivalent to a sequence of
ones, so there is no variability inserted into this new chromosome once
that the products of the gene values by ones are equal to the same original
values. If tm = 1, the sequence of C will be multiplied by a novelty
sequence of random values ranging from 0 to 1. Thus, the resulting
chromosome will also be another random sequence with values ranging
from 0 to 1. This means that all genotypical information of the original
chromosome is lost, as there will be no traces of the chromosome
previously calculated by the recombination operator. For that reason, it is
advisable that mutation rate should be kept small. By default, our system
has tm=0.1. This way there will be only 10% of novelty inserted into the
new genotypes, while remaining with most of the information related to
the sonic aspects of the parents. Equation (3) shows the calculation for the
mutation operator, where rand is a random variable ranging from 0 to 1,
and i is the ith gene of the 16-element chromosome sequence:
(3)
Both rates (recombination and mutation) are global controls of our EA
system. They are continuous variables that can be dynamically modified
by the user while the evolutionary process is running. This allows the user
to explore new evolutionary (and consequent sonorities) of the artificial
soundscape being generated. Other important global controls are: lifespan
and proliferation rates.
Lifespan rate controls the average lifespan of each individual in the
population set. For each individual, the system by default includes a
random variable of about 10% of the global lifespan rate. This guarantees
Jose Fornari
that although lifespan is globally controlled, each individual will have a
slight different lifespan. In future implementations the lifespan may
become influenced by a new gene inserted into the individual's genotype.
In the current version, usual values for the birdsongs lifespan range from 1
to 60 seconds.
Proliferation rate controls the rate of reproductions in the population set.
This is done by inserting a time delay in the calculation of genetic operator
(recombination and mutation). In the current version, usual values of the
proliferation rate range from 0.5 to 3 seconds. Together, lifespan and
proliferation rates can guide the variable-size population set to opposite
extremes. If the procreation rate is kept always smaller than the lifespan
rate, individuals will die faster than they reproduce and the number of
them in the population set will decrease until its extinction. On the other
hand, if the procreation rate is kept bigger than the lifespan rate,
individuals will reproduce faster than others are dying, so the number of
individuals in the population set will increase until it becomes
overpopulated. If the superior limit of 20 individuals in the population set
were not hardcoded, in the occurrence of overpopulation the system would
eventually consume all processing and memory resources of the machine
running it and the EA system would be halted by overflow. In the current
implementation, however, this will not happen. The system will keep
running with the top capacity of 20 individuals in the population set until
the user changes the lifespan and proliferation rates, or manually stop this
evolutionary process.
4 Artificial Soundscapes
This section explains the perceptual sonic results of the current version
of this EA system. As briefly described in the introduction, soundscapes
are immersive landscapes of sounds, mostly found in nature – such as the
sonic environment created by waterfalls, storms, birdsongs, and so forth –
but also found in urban areas – such as in traffic jams, building
constructions and crowds. Any listener can immediately recognize a
soundscape that he/she had previously experienced. Often, listeners are
also agents of their composition (e.g. as in a traffic jam, where each driver
is listening and also creating its typical soundscape). Therefore,
soundscapes are immersive environments also because their listers are
frequently their formant agents [1].
Soundscape are the result of 3 processes: 1) Sensation, 2) Perception
and 3) Interaction. According to Schafer, these processes can be classified
by the following cognitive aspects: 1) Close-up, 2) Background, 3)
Contour, 4) Pace, 5) Space, 6) Density, 7) Volume, and 8) Silence.
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
Soundscapes can be formed by five categories of sonic analytical
concepts. They are: 1) Tonic, 2) Signs, 3) Sound marks, 4) Sound objects,
and 5) Sound symbols. Tonics are the active and omnipresent sounds,
usually in the background of the listener's perception. Signs are the sounds
in the foreground that quickly draw listener's conscious attention, once
they may contain important information (i.e. a lion roaring, squealing tires,
a thunder etc.). Sound marks are sounds that are unique of a specific
soundscape, that can not be found elsewhere. Sound objects, as defined by
Pierre Schaeffer (who coined its term) are acoustic events that perceived
by the listener as a single and unique sonic information. For that reason,
sound objects represent the systemic agents that compound a soundscape.
Symbols are sounds that evoke cognitive (memory) and affective
(emotional) responses, according to listeners' ontogenic and phylogenic
background.
These cognitive aspects are emergent features that imbue contextual
meaning for the self-organizing process of complex open systems that
create soundscapes. As such, these units can be retrieved and analysed in
order to classify the soundscapes features. However, they are not sufficient
to define a process of artificial soundscape generation. In order to do so, it
is necessary to have a generating process of symbols with inherent
characteristics of similarity and variability. In this work, this was achieved
by the usage of an aimless EA system. Such adaptive computer model
proved to be able of generating an effective artificial soundscape of
birdsong. By the interaction of individuals (sound objects) within the
evolutionary population set (soundscape), our system spontaneously
presents tonics, signals and sound marks, as defined by Schafer. In a
systemic viewpoint, a soundscape can be seen as a self-organized complex
open system formed by sound objects acting as dynamic agents. Together
they orchestrate a sonic environment rich of interacting sound objects that
are always acoustically unique and perceptually similar, which allow their
immediate identification and discrimination by any listener who had
already heard a birdsong.
5 Experimental Results
The experimental results described here show that this EA system was
able to generate artificial soundscapes of birdsongs even without receiving
messages from Twitter messages. This external input is an enhancement of
the current system to turn it interactive. By the action of recombination
and mutation operators, this system could create realistic soundscapes of
birdsongs, similar to the ones found in nature, also without the usage of
recorded audio data from real birdsongs.
Jose Fornari
The insertion of external data through Twitter messages is, for this
current implementation, an enhancement that turns the population set in an
actual open system. However, this is not required to actually create a
convincing soundscape as the variability is provided by the action of the
mutation operator. The following link presents an audio recording of our
EA system running without receiving external data, for about 3 minutes:
http://soundcloud.com/tutifornari/evopio.
This other link presents a video of this EA system creating a true
soundscape of birdsongs, also without receiving any external messages
(http://youtu.be/o8LtGbRa-FI). This video shows a 3-minute talk at
TEDxSummit 2012, in Doha, where the author presented this EA system.
This video can be found in Youtube, under the title “Jose Fornari: An
algorithm to mimic nature's birdsongs”.
Finally, the following link shows a video of the computer screen of a
typical run of our EA system. It is available in Youtube under the title
“EVOPIO” and its direct link is: http://youtu.be/q544QrL4-Nw. In this
demonstration, the system starts with 50% of crossover rate and 30% of
mutation rate. The first birdsong is heard in the instant 0m03s. In 0m37s
mutation rate is lowered to zero. In consequence, the soundscape of
birdsongs becomes less variant. In 1m10s, mutation rate is raised to 50%
which allows the slow emerging of distinct and unusual birdsongs. In
1m38s lifespan rate is lowered, which slowly shorten the birdsongs
duration. In 2m04s proliferation rate is raised, then, in 2m17s, it is lowered
to its minimum, which raises the amount of short birdsongs in the
population set. In 2m40s lifespan is raised again. In 3m07s proliferation
rate is raised and lifespan rate is lowered to its minimum. In 3m27s
proliferation rate is raised to almost its maximum, which makes
impossible for the EA system to create new individuals faster than other
individuals are dying (resulted by the small lifespan rate). The result is
that the entire population is finally extinct. All these modifications were
done to demonstrate the sonic perceptual changes in the soundscape
generated in real-time by the manipulation of global parameters in the
current implementation of our EA system.
6 Discussion and Conclusions
This paper presented a preliminary study on the creation of a computer
model that generates artificial soundscapes of birdsongs by means of a
novel EA system that carries an aimless evolutionary process. This one
proved to be effective in the creation of artificial soundscapes, a task that
seems impossible to be reached by means of deterministic methods. The
major difference between our EA system and a typical one is that it does
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
not seek for the best possible solution but focus on the process itself, as a
steady generation of similar and variant solutions that together compound
the soundscape.
This EA system has an infinite convergence time where similar yet
variant birdsongs are born, reproduce and die. For that reason our EA
system can easily operate in real-time, performing its major task of
keeping a process of generating and controlling an artificial soundscape.
This system was enhanced by incorporating a visual real-time
representation of the soundscape that can be watched in the videos
previously mentioned. This simple graphical representation of the
individuals moving inside the population set shows their basic behaviours.
Each individual is represented by a number. The variation of the position
of each individual is represented by the corresponding variation of spatial
sound location parameters that control ITD and ILT algorithms, as
described in [14]. The reproduction is triggered by the proximity between
pairs of individuals through the calculation of the values of these sound
location parameters. Although represented in a plane (i.e. a windows in a
computer screen) individuals actually move in the three dimensions of
space. The size of the number in the windows (representing the individual)
corresponds to the depth of this individual's location (i.e. the bigger the
number, the near is the birdsong). When the individual dies, its number
disappear for awhile and reappears when it is reallocated by the system, as
a new birdsong. Therefore, each number works as a slot for a birdsong that
is currently active (alive).
The maximum number of 20 simultaneous individuals in the population
set was chosen not because of computational but cognitive capacity. When
experimenting with larger populations set for this current EA systems, we
realised that more than 20 individuals would not make a perceptual
difference in the sonification process. Any typical computers nowadays
can easily run this computer model without major processing or memory
restrictions. The full version of this Pd implementation can be downloaded
by the following link:
http://sites.google.com/site/tutifornari/academico/pd-patches.
Each birdsongs is a sound object of the artificial soundscape. Sound
objects are generated by the instantiation of a physical modelling synthesis
algorithm of a generic syrinx computer model controlled by a sequence of
16-element parameters (genes). In the current implementation, this
sequence represents both the chromosome and the genotype (as the
genotype here is compounded of one single chromosome). The initial
genotypes of the population set are randomly created or inserted by the
user. This can be done manually or through a Twitter text message, while
the system is running. As said, this external input is an enhancement that
our EA system does not really depend upon to create a realistic
Jose Fornari
soundscape of birdsongs, but that turns its population set into an open
system, which is one of the fundamental conditions to have the emergence
of self-organization. We aim to further explore this interesting feature in
future and more complex implementations of this EA system.
As said, this current implementation still lacks individuals' gender,
although in this system individuals already reproduce in pairs. Future
implementations may explore the design of multiple genders and
experiment with them about the distinctions in the sonic aspects of
soundscapes generated by n-gender individuals. Currently, individuals'
pairs are selected by spatial sound location proximity. Each individual
moves aimlessly inside a sonic field defined by their location parameters.
In future implementations this continuous aimless movement can be
replaced by a goal-oriented movement, such as individuals foraging for
energy intake and preservation (i.e. food, shelter) whose performance may
also influence individual's lifespan.
From time to time, the selection process seeks and eliminates
individuals with genotype too distant from population average. That helps
the entire population set to maintain a certain phenotypical similarity
among individuals, specially after long periods of running. However that
does not avoid the opposite problem; the occurrence of clones. Mutation is
the most important process that avoids the creation of clones. By the
action of this operator, the chances of having a clone in the population set
are virtually null. Considering that each gene had a numeric scale of only
one decimal place (e.g. 0.5) the probability of having a clone (i.e. the same
exact 16-element genotype sequence), is (10 -1)16 = 10-16, which implies in
the probability of having one single clone after 1,000,000,000,000,000
reproductions.
The syrinx model was developed as a physical modelling sound
synthesizer. As said, this is an adaptation of the algorithm originally
introduced by Hans Mikelson and extended by Andy Farnell. This late one
also incorporated extra 11 parameters for the emulation of an entire bird
melodic phrase, which is (with minor adjustments and adaptations) the
computer model used in this work to generate these birdsongs. This syrinx
model is very sensitive to parametric changes, which means that the
birdsong generated by the syrinx model noticeably changes by any small
change of its control parameters. This control is given by the 16-element
sequence that is the single chromosome genotype of the EA system. This
sequence is inserted into the population set by the reproduction process or,
less frequently, by external input data from Twitter messages.
In this work, the Twitter interface was implemented using JSON
(JavaScript Object Notation) library (www.json.org); a lightweight datainterchange format that handles the communication between Twitter and
Pd. This one uses a JSON-based library built for Processing
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
(www.processing.org), which is another computer environment for realtime data processing, based on Java text programming; instead of visual
programming, as Pd. This implementation is called TwitterStream and was
able to receive a timeline data from a Twitter account specifically created
for this project (named @evopio), and send its retrieved data from
Processing via OSC (Open Sound Protocol) to Pd, where the EA system
was built. Besides the seemingly computational awkwardness of this
implementation, the overall system worked well and was able to retrieve
messages from the Twitter account and map them into birdsongs.
As said, with external input data, the population set behaves as a CAS
(Complex Adaptive Systems) with emergent properties, that is selforganized and thus presenting eventual and unexpected sonic changes,
created by sound objects acting as interacting agents immersed into an
artificial evolutionary process. This complex open system which selfsimilar features presents a flow of information built by independent and
interacting agents; the birdsongs. This CAS presents emergent properties
similar to the ones found in natural systems, created by means of natural
evolution [15]. Future implementations of this EA system may explore the
possibility of self-organizing soundscapes through data insertion of other
types, such as from computer vision (e.g. images retrieved from people
walking inside an art installation running this EA system); by motion
detection, light sensors, temperature variations; and so forth. This may
allow the interaction of multiple users with a single EA system.
Although this multiple-user interaction was not tested yet, it seems
feasible to suppose that it may create feedbacks between users and the EA
system similar to the ones observed in cybernetic sonic environments,
created by the interaction of birds and machines, mostly found in urban
areas. This can also be enhanced by the usage of a yet to be implemented
computer graphic model that generates visual objets corresponding to the
sound objects created by each external input data, thus informing each
human agent (i.e. users) which one is his/her birdsong in the population
set. In the current development of these work, the graphical objects
generated here were built by a Pd-extended sub-patch developed using
objects from GEM library. The current version of the visual feedback of
our EA system aims to help the users to grasp some of the swarming
behaviour of individuals participating the evolutionary process. Future
implementations may explore the development and implementation of
herds and band movement behaviours, as defined by [18]. With that, a
future version of this EA system can have the emulation of flocks of
individuals moving within a larger and more complex population set.
In this current implementation, it may become difficult for the user to
observe the birdsong corresponding to his/her Twitter message (if any) as
the individuals are represented by numbers. In future implementations
Jose Fornari
individuals can present a more elaborate graphical representation, thus
contributing to create a visual metaphor of its sound objects, as an
animation more likely to identify and resemble the development of
birdsongs. With this, the EA system will have two layers of systemic
interactivity: 1) internal and 2) external. The internal one will be given by
the individuals interaction throughout the processes of selection and
reproduction, compounding the soundscape created by a mesh of
simultaneous sound-synthesis processes corresponding to the various sorts
of similar yet variants birdsongs flourishing from the aimless evolutionary
process. The external one will be given by the insertions of external data
(Twitter messages, sensors, etc.) from multiple users that will influence
the overall genetic pool of the population set. Users will be able to
visualized the behaviour of the genotypes they inserted in the population
set, by a further and more realistic graphical representation of these
individuals, phenotypically expressed as virtual birdsongs.
In future works, these two interactive degrees are expected to
corroborate with the initial premiss of this work, which is the creation of
an evolutionary computer model able to successfully emulate the emerging
properties of a complex open system composed by internal and external
agents that altogether self-organize the population set into a recognizable
and meaningful sonic context; a true artificial soundscape of birdsongs.
References
[1] Schafer, M., R. (1977) "The soundscape: our sonic environment and
the soundscape." Destiny Books. ISBN 0-89281-455-1.
[2] Wiener, N. (1968) "Cybernetics and society: the human use of human
beings." New York: Cultrix.
[3] Dorsey, Jack. (2009) "Twitter creator Jack Dorsey illuminates the site's
founding document." LA Times. David Sarno. February 18 2009,
http://latimesblogs.latimes.com/technology/2009/02/twittercreator.html (accessed February, 2014).
[4] Clarke, Julia A. (2004) "Morphology, Phylogenetic Taxonomy, and
Systematics of Ichthyornis and Apatornis (Avialae: Ornithurae)." Bulletin
of the American Museum of Natural History 286: 1-179.
A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs
[5] Allison J. Doupe (1999) BIRDSONG AND HUMAN SPEECH:
Common Themes and Mechanisms, Neuroscience, 22, 567-631.
[6] Ole Naesbye Larsen and Franz Goller (1999) Role of Syringeal
vibrations in bird vocalizations, The Royal Society, 266, 1609-1615.
[7] Mikelson, Hans. (2000) Bird calls. Csound Magazine, Winter, 2000.
[8] Farnell, A. (2010) "Designing Sound". MIT Press, Cambridge,
Massachusetts, London, England.
[9] Eiben, AE, Smith, JE, (2007) "Introduction to Evolutionary
Computing." 2nd Ed, Springer Natural Computing Series.
[10] Moroni, A., Manzolli, J., Von Zuben, F., Gudwin, R. (2000) "Vox
populi: an interactive evolutionary system for algorithmic music
composition." Leonardo Music Journal 10, 49-54.
[11] Manzolli, J., Verschure, P. (2005) "Robots: A real-world composition
system." Computer Music Journal 29 (3), 55-74. 2005
[12] Fornari, J., Maia, A., Manzolli J., (2008) "Soundscape Design
Through Evolutionary Engines." Journal of the Brazilian Computer
Society, 2008, Volume 14, Number 3, Pages 51-64
[13] Manzolli, J., Shellard M. C.; Oliveira, L. F.; Fornari, J., (2010).
"Abduction and Meaning in Evolutionary Soundscapes", 01/2010,
Científico Internacional, MODEL-BASED REASONING IN SCIENCE
AND TECHNOLOGY - Abduction, Logic, and Computational Discovery
(MBR_BRAZIL), Vol. 1, pp.407-428, CAMPINAS, SP, BRASIL, 2010
[14] Fornari, J. Shellard, M., Manzolli, J. (2009) "Creating soundscapes
with gestural evolutionary time." Article and presentation. SBCM Brazilian Symposium on Computer Music.
[15] Holland, J. (2006) "Studying Complex Adaptive Systems." Journal of
Systems Science and Complexity 19 (1): 1-8.
Jose Fornari
[16] Fornari, J. and Eerola, T. (2009) “The Pursuit of Happiness in Music:
Retrieving Valence with Contextual Music Descriptors.” Lecture Notes in
Computer Science, 2009, Volume 5493, Computer Music Modeling and
Retrieval. Genesis of Meaning in Sound and Music, Pages 119-133
[17] Smith, J. O. “A Basic Introduction to Digital Waveguide Synthesis,
for the Technically Inclined.”
http://ccrma.stanford.edu/~jos/swgt/swgt.html (Last accessed: February
2014)
[18] Reynolds, C. W. (1987). “Flocks, Herds, and Schools: A Distributed
Behavioral Model”, in Computer Graphics, 21(4) (SIGGRAPH '87
Conference Proceedings) pages 25-34.
[19] Asoh H and Muhlenbein H (1994). “On the mean convergence time
of evolutionary algorithms without selection and mutation”. Parallel
Problem Solving from Nature III. Proc. Int. Conf. Evol. Comput. (Lecture
Notes in Computer Science vol 866) pp 88-97.
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
Aplicações artísticas de ubimus
MODALIDADE: PAINEL Desafios da pesquisa em música ubíqua
José Fornari (Tuti)
NICS / UNICAMP – e-mail: [email protected]
Resumo: Ubimus, ou música ubíqua, trata da música computacional feita por diversos usuários,
próximos ou remotamente localizados, cuja interatividade é propiciada e mediada pela tecnologia
informacional, tais como os recursos oferecidos pela: internet, telefonia móvel e redes sociais do
cyberspace. Este trabalho apresenta 7 frentes de pesquisa relacionadas ao ubimus que, apesar de
distintas, se interseccionam e convergem no sentido de fomentar o desenvolvimento de aplicações
artísticas para este específico e original tipo de arte sonora computacional.
Palavras-chave: Música ubíqua. Arte sonora computacional. Interfaces gestuais, Síntese sonora
Title of the Paper in English Challenges of the ubiquitous music research: ubimus artistic
applications
Abstract: Ubimus, or ubiquitous music, is the computer music made by many users, nearby or
remotely located, whose interaction is fostered and mediated by information technology resources,
such as the ones offered by: internet, mobile communication and the social networks of
cyberspace. This paper presents 7 fields of research directly related to the ubimus that, although
distinct from each other, intersect and converge toward the development of artistic applications for
this specific and unique type of computational sound art.
Keywords: Ubiquiotus music. Computational sound art. Gestural interfaces. Sound synthesis.
1. Introdução
Música ubíqua, ou Ubimus (de Ubiquitous Music), pode ser definida como a
música feita por múltiplos usuários, usando uma variedade de dispositivos tecnológicos, tanto
fixos quanto portáteis [Keller 2009]. A idéia desta forma musical está relacionada à fusão
entre a computação e o ambiente, tal como proposta por Mark Weiser no final dos anos 1980,
que iniciou o trabalho em computação ubíqua [Weiser 1991]. Atualmente existem diversos
grupos trabalhando em música móvel (por exemplo, a música criada com celulares e
smartphones). Porém, até 2008, ao que se sabe, não existia qualquer proposta formal e
sistemática de estudo e performance de música ubíqua.
Este trabalho apresentará distintas linhas de pesquisa da música ubíqua, primando
pelas suas aplicações artísticas e aspectos performáticos musicais. Tais linhas convergem para
a Ubimus através da criação de métodos e modelos frequentemente utilizados em
performances de música ubíqua. Neste trabalho, serão apresentadas as seguintes linhas de
pesquisa: Métodos adaptativos; Descritores musicais; Interfaces gestuais; Arte sonora remota;
Arte sonora interativa; Multimodalidade; e Música Auto-Organizada.
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
2. Métodos adaptativos
Métodos adaptativos são modelos computacionais capazes de, até certo ponto, de
modificarem sua estrutura algorítmica, de acordo com o comportamento de sua entrada. Um
desses é a computação evolutiva, que é inspirados no processo de evolução das espécies, tal
como inicialmente formulado por Darwin, e baseado nos processos de reprodução e seleção.
Dentre estes modelos, destaca-se aqui a instalação multimidiática RePartitura. Este trabalho
trata do mapeamento sinestésico de uma série de desenhos em objetos sonoros, que compõem
uma paisagem sonora (soundscape). A imagem de um desenho é aqui vista não como um fim,
mas como a representação de uma forma no decorrer do tempo. Esta por sua vez é o registro
de um gesto, que é um movimento contendo uma intenção expressiva. O som, aqui visto
como objeto sonoro, é uma unidade formadora de um sistema maior que evolui através de
processos adaptativos na direção de uma paisagem sonora sintética auto-organizada.
Repartitura foi um dos ganhadores do prêmio Itaú Cultural Rumos, na categoria: Arte
Cibernética [Shellard 2009]
Uma outra aplicação de computação evolutiva na criação de soundscapes é o
“EvoPio”. Este é um algoritmo adaptativo que cria uma paisagem sonora artificial de cantos
de pássaros dinâmica e interativa. Estes são criados através de um modelo físico de siringe.
Não existem sons gravados neste modelo. A paisagem sonora criada jamais se repete, mas
sempre mantém uma similaridade acústica. Os usuários podem inserir novos "pios" na
população virtual através do Twitter. Basta enviar uma mensagem com a palavra "evopio"
que esta será transformada em tempo-real num novo "indivíduos", ou seja, um canto de
pássaro que fará parte dessa população artificial. Link: http://goo.gl/Kku7xZ. EvoPio foi
apresentado durante o TEDxSummit de 2012, no Qatar; numa breve apresentação do autor,
que pode ser assistida através do link: http://goo.gl/qVtAHF.
3. Descritores musicais
Descritores musicais são algoritmos capazes de coletar informação de aspectos
sonoros específicos, tal como a audição humana é capaz de realizar. A utilização destes
descritores em Ubimus permite a criação de modelos mais alinhadas ao processo humano de
percepção e cognição musical. O desenvolvimento de descritores vem da área de MIR (Music
Information Retrieval); uma ciência interdisciplinar, iniciada no final da década de 1990, se
dedicada a estudar e coletar aspectos musicais tais como são percebidos pela audição e
identificados pela mente humana. A literatura de MIR define “descritor musical” como um
modelo computacional capaz de predizer aspectos musicais emulando a capacidade perceptual
e cognitiva humana. Um aspecto musical é uma característica única da informação musical
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
que é facilmente distinguida pela mente. Estes podem ser qualitativos (ex: gênero musical),
ou quantitativos (ex: pulsação rítmica, complexidade harmônica). Descritores simbólicos
predizem aspectos musicais pela coleta de dados paramétricos musicais, como os da notação
musical (partituras) e de arquivos MIDI (Musical Interface Digital Instrument). Descritores
acústicos coletam dados de arquivos de áudio. A música, como expressão artística, apresenta
três áreas de atuação: Análise musical (o estudo da lógica de estruturação de uma peça
musical), Composição (o processo de estruturação de uma criação musical) e Performance (a
manifestação sônica da estrutura composicional). Este projeto deu prosseguimento à pesquisa
do autor em seu PosDoc no projeto Europeu: Braintuning (www.braintuning.fi) onde
desenvolveu algoritmos de aquisição de aspectos musicais que apresentaram grande
eficiência, tais como em [Fornari 2008]. Este projeto tratou de estudar, classificar e
desenvolver novos descritores musicais, afim de aplicá-los em processos de análise,
performance e composição musical e foi financiado pela FAPESP, processo: 2010/06743-7.
Utilizando o desenvlvimento dos descritores mencionados acima, [HIGUCHI
2010] desenvolveu um estudo sobre a distinção automática de performances pianísticas de
cunho expressivo e de cunho técnico. Segundo a autora, estudos anteriores têm demonstrado
uma forte correlação entre técnica e expressividade na execução pianística. Este trabalho
objetivou entender melhor a influência da cognição e da emoção na expressividade musical.
Para tanto, execuções pianísticas de nove interpretes, com atenção direcionada aos aspectos
cognitivos, foram comparadas com execuções de outros 9 pianistas, porém com a atenção
voltada aos aspectos emocionais. Para tanto foram utilizados dois descritores musicais. Estes
demonstraram que as performances afetivas, apresentaram mais legatos e menor precisão
rítmica, quando comparadas às cognitivas. Os resultados deste estudo apontaram para o fato
de ser possível utilizar descritores musicais para auxiliar na classificação de performances
pianísticas. [HIGUCHI 2010].
4. Interfaces gestuais
Interfaces gestuais são ferramentas essências nas performances de ubimus. Estas permitem
coletar dados do movimento em tempo real e transmiti-los de modo a controlarem modelos
computacionais de processamento ou síntese sonora. Dentre estas aplicações, destacamos aqui
CybeRITMO. Esta é uma performance de arte interativa onde um grupo convidado de
percussionistas irão realizar um evento performático com instrumentos musicais virtuais,
desenvolvidos através de interfaces gestuais comerciais (Wiimotes) que se comunicam com
patches de PD (PureData) e assim realizam em tempo real a síntese de diversos instrumentos
musicais percussivos. Utilizam-se aqui diversas técnicas de síntese sonora, entre elas a Linear
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
Aditiva, a Karplus-Strong, a Wavetable, a Subtrativa e a de Filtragem, para a criação das
formantes vogais (voz digital). Os instrumentos virtuais inicialmente se apresentam bastante
parecidos com os instrumentos tradicionais (ex. um surdo, um chocalho, um berimbau, etc.)
porém, estes podem realizar parametrizações extremas de suas propriedades pseudo-físicas,
atingindo facilmente sonoridades impossíveis aos instrumentos tradicionais, desse modo
possibilitando ao interprete a exploração intuitiva de recursos artísticos estendidos, que são
fisicamente intangíveis. Este projeto foi finalista do Festiva Internacional de Linguagem
Eletrônica de São Paulo, o FILE PRIX LUX 2010, na modalidade: Arte Interativa. [Fornari
2010]
O Cyberitmo foi desenvolvido a partir da vivência proporcionada pelo projeto de
extensão comunitára PREAC 2009, na Casa de Cultura Tainã (www.taina.org.br). Esta é uma
entidade cultural e social sem fins lucrativos fundada em 1989 por moradores da Vila Castelo
Branco e região de Campinas, SP. Sua missão é possibilitar o acesso à informação,
fortalecendo a prática da cidadania e a formação da identidade cultural, visando contribuir
para a formação de indivíduos conscientes e atuantes na comunidade, atendendo em média
450 crianças e adolescentes a cada mês e 1.350 pessoas indiretamente, através de atividades
sociais, oficinas e shows, realizados dentro ou fora da entidade. Uma entrevista com o
coordenador da Casa Tainã e uma performance musical com tais modelos computacionais,
pode ser assistida no link: http://goo.gl/Zb3SL0.
Estas interfaces gestuais também foram utilizadas por outras importantes ocasiões
acadêmicas. Citando uma delas, tivamos a apresentação com o grupo da Monash University,
liderada pelo Prof. Reiner (http://goo.gl/9WlfKQ), um professor associado de música, na
universidade de Monash, Austrália. Em abril de 2010, ele e sua equipe visitaram a UNICAMP
e também o NICS. Durante esta visita, apresentamos para ele diversas interfaces gestuais que
havíamos desenvolvido para a criação de Ubimus. Ele, juntamente com o Prof. Jônatas
Manzolli, coordenador do NICS, e seu aluno de doutorado, Adriano Monteiro, realizaram
uma performance improvisacional utilizando estas interfaces gestuais, criadas a partir de
acelerômetros que coletam movimentos em tempo real, transmitem estes dados por ondas
digitais de rádio, em protocolo bluetooth, e controlam modelos computacionais de sínteses
sonoras programados em Pd (www.puredata.info). O vídeo desta apresentação pode ser
assistido através do link: http://goo.gl/latHsQ
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
5. Arte sonora remota
A atividade performática em Ubimus se beneficia em muito através da utilização
de recursos computacionais de comunicação remota em tempo real. Desse modo diversos
usuários podem interagir musicalmente mesmo que distanciados geograficamente. Esta ideia
culminou num projeto aprovado pelo CNPq Universal, processo 474012/2010-7. Este projeto
criou um ambiente virtual, através do cyberspace da internet, para propiciar a interatividade
musical remota, entre artistas localizados em diferentes localidades geográficas, mas que
podem criar música juntos, em tempo-real, através do processamento de modelos
computacionais que emulem instrumentos musicais virtuais através de métodos de síntese
sonora que são controlados dinamicamente por dados gestuais dos participantes remotamente
distribuídos. Com isso pretendeu-se tornar possível a exploração dinâmica e intuitiva de
técnicas musicais contemporâneas de modelamento ecológico e música acusmática.
Seguindo esta premissa, foi desenvolvida a performance de arte sonora remota "A
Pedra". Esta explora a arte tecnológica contextual interativa, envolvendo a transversalidade
entre: Poesia Digital, Paisagem Sonora Artificial, Gestualidade Livre e Sonoridade
Improvisacional. Este projeto é inspirado no poema: "Havia uma pedra no meio do Caminho"
de Carlos Drummond de Andrade, e na tradução do conto: "The Rock", de Neale D. Walsch.
A primeira parte da narração é dada pela gravação original do poema "Havia uma pedra no
meio do caminho" narrada pelo autor (Carlos Drummond de Andrade). Em seguida, tem-se a
narração da tradução do conto "The Rock", pelo autor deste projeto. Através da câmera do
laptop, o usuário (no caso, o autor) controla o deslocamentos de 3 figuras icônicas, que
orbitam a grande esfera apresentada na animação interativa. Os deslocamentos dessas figuras
também geram os objetos sonoros agregados à narração. Desse modo uma paisagem sonora é
gerada através do controle gestual improvisado pelo usuário, agregando conteúdo e sendo
influenciado pela transversalidade entre poesia digital e paisagem sonora artificial. Este
trabalho foi selecionado para participar do FILE Mídia Arte que fez parte da exposição do
FILE São Paulo 2012 - Festival Internacional de Linguagem Eletrônica, que aconteceu no
Centro Cultural do SESI, localizado na Av. Paulista, 1313, na cidade de São Paulo, de 16 de
julho a 19 de agosto de 2012. Uma performance pode ser assistida através do link:
http://goo.gl/Uj4ZMZ
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
6. Arte sonora interativa
Em termos de interatividade, tEIMAS foi uma bem-sucedida experiência
performática em Ubimus. Esta é uma performance artística especialmente desenvolvida para o
EIMAS. Trata-se de um modelo de síntese aditiva interativa escrita em Pd. Em tEIMAS, temse 10 colunas de geração de dados simbólicos de controle da notação musical. Estes são
conectados com objetos de síntese sonora FM (frequency modulation) com randomização de
dados paramétricos, de acordo com os dados simbólicos. Estes são inicialmente gerados por
um objeto de análise de ataque sonoro (onset detection).
Outro interessante exemplo foi o “Patch Preto e Branco”, ou PPB. Trata-se de um
modelo computacional escrito na linguagem de programação de código-livre, especialmente
projetada para o desenvolvimento
de sistemas de performance de arte tecnológica; o
PureData, ou Pd . Em Pd, um modelo computacional é desenvolvido em um ambiente visual
de conexão de blocos de processamento de dados em tempo-real. Cada estrutura visual é
chamada de “patch”. O nome “Patch em Preto e Branco” é uma alegoria às teclas do piano, ao
pentagrama musical e ao ambiente visual do PD; todos estes são canvas “pretos e brancos”
desenvolvidos para viabilizar a criação de estruturas artísticas e musicais. Neste trabalho, foi
desenvolvida uma estrutura virtual de um octágono com nove retângulos de tamanho variável
(nos oito lados do octágono e no seu centro). Cada retângulo é um objeto sonoro
determinístico (tonal) e cada haste entre estes é um objeto sonoro estocástico (ruidoso). A
figura abaixo mostra esta estrutura.
Esta estrutura capta o som externo, pelo microfone do laptop, e calcula o seu pitch
(altura muscal) para criar os objetos sonoros dos retângulos e das hastes. Neste trabalho, temse dois laptops rodando simultaneamente estes patches. Um latop preto, roda um patch branco
e preto (como o da figura acima). O outro laptop roda um ptach com uma estrutura de cor
invertida (retângulos e hastes brancas e fundo preto). O resultado parcial (sem interatividade,
com um instrumento musical acústico e o segundo laptop) pode ser visto no link:
http://goo.gl/iW8gu2.
7. Multimodalidade
Multimodalidade trata da possibilidade de cooperação artística entre distintas
formas artísticas. Considerando que o Brasil é um país extremamente rico em cultura popular,
especialmente no que tange a criação de ritmos e suas respectivas danças. Ritmo e dança estão
assim intrinsecamente relacionados no contexto do gesto corporal e sua interveniente
correspondência musical. Se o movimento com intenção é o gesto, a dança pode ser definida
como a arte do gesto. Do mesmo modo, a música é
a arte dos sons, com intenção ou
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
significado. Sabe-se que os elementos que o compõe a música são: melodia, harmonia e
ritmo. De todos, o ritmo é o elemento musical mais intimamente relacionado ao gesto
corporal, seja referindo-se à ação corporal que gera o ritmo ou àquela que compõe a dança.
Atualmente, novas tecnologias permitem resgatar o gesto à arte computacional,
que havia sido relegada, frente à limitada capacidade de expressão oferecida pelas tradicionais
interfaces computacionais, tais como: o teclado alfanumérico do computador e o mouse.
Através da utilização de novas interfaces gestuais comerciais, como o Wii remote, é agora
mais factível capturar os gestos de dança e ritmo e intercorrelaciona-los, de modo a criar uma
interação sincrônica entre ambos, no contexto de uma didática coreográfica e musical. Este
projeto foi elaborado com o título: "Interatividade Gestual Dinâmica entre Danças e Rítmos
Brasileiros" desenvolvido na Casa de Cultura Tainã, em Campinas. Vídeos dessas atividades
podem ser vistos nos links: Improviso coletivo com diversos modelos de música
computacional interativa http://goo.gl/ipuQI2. Improviso da percussionista Glória Cunha com
o coordenador da Casa de cultura Tainã , TC Silva, utilizando os modelos gestuais:
Cyberitmos http://goo.gl/KMUuZl.
8. Música auto-organizada
Por fim, foi explorara a possibilidade geracional de notação musical através de
controle de modelos computacionais a partir de aspectos musicais de uma performance
improvisacional. Este projeto foi posteriormente intitulado de: SOM (Self-Organized Music),
que foi iniciado em cooperação entre o NICS e o CIDDIC. Este projeto foi aprovado pela
FAEPEX, Linha extensão: Auxílio às atividades artísticas, científicas e culturais (Convênio:
519.292 Correntista: 722/10). Originalmente SOM propunha criar uma apresentação musical
com a orquestra sinfônica da Unicamp, explorando o original conceito de música autoorganizada, chamada pelo autor deste projeto, pelo acronismo: SOM (Self-Organized Music).
Através da utilização de modelos computacionais dinamicamente controlados por interfaces
gestuais (equipamentos portáteis e sem-fio, de aquisição dinâmica de coleta de dados do gesto
artístico), serão desenvolvidos para este projeto, algoritmos computacionais de criação
musical dinâmica, de maneira que o gesto artístico passa a controlar a geração em tempo-real
de notação musical, que é continuamente executada pela orquestra durante a performance
artística. Em SOM, a performance musical da orquestra é realimentada pela contínua
interação acústico-cognitivo-gestual, onde os músicos executam a partitura que está sendo
dinamicamente criada pelo gesto. O resultado, após a performance, pretende ser uma partitura
orquestral original, que foi criada enquanto era executada, pela primeira vez, durante a
performance musical.
XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014
No segundo semestre de 2012, o CIDDIC aprovou o SOM como participante do
projeto PERFORMANCE, onde foram alocados 12 músicos da OSU (Orquestra Sinfônica da
UNICAMP) e um saxofonista que desenvolvia uma tese de doutorado em Improvisação livre
(Manuel Falleiros). O resultado foi registrado numa série de 4 vídeos que demonstram a
partitura sendo gerado pelo modelo computacional. Estes vídeos podem ser vistos no segunite
link: SOM - 1º Cordas (http://goo.gl/lqy2JB), 2º Madeiras (http://goo.gl/4lKom0), 3º Metais
(http://goo.gl/MMC6NC), 4º Orquestra (http://goo.gl/Wl3GCH)
9. Referências bibliográficas
WEISER, M. The Computer for the Twenty-First Century. Scientific American, v. 265,
n. 3, p. 94-101, 1991.
KELLER, D.; BARROS, A. E. B.; FARIAS, F. M.; NASCIMENTO, R. V.; PIMENTA,
M. S.; FLORES, L. V.; MILETTO, E. M.; RADANOVITSCK, E. A. A.; SERAFINI, R. O.;
BARRAZA, J. F. Música Ubíqua: Conceito e Motivação. In: CONGRESSO DA ANPPOM,
19., 2009, Curitiba. Anais... Curitiba: PPGM/UFPR, 539-542, 2009.
SHELLARD, M., Fornari. A Imagem É o Som. Article and Presentation. XIX
Congresso da ANPPOM. UFPR. Curitiba, PR. 24 - 28 de Agosto de 2009.
FORNARI, J., T. Eerola. Prosody of Expressivity in Music and Speech. Expressivity in
Music and Speech - EMUS. AGORA contemporary Music Festival. Paris, France. (2008).
FORNARI, J., T. Eerola. The pursuit of happiness in music: retrieving valence with
high-level musical descriptors. Computer Music Modeling and Retrieval - CMMR.
Copenhagen, Denmark. (2008).
FORNARI, J., T. Eerola. Automatic Estimation of Harmonic Complexity. Audio
Engineering Society Brazil Section - AES Brasil. Sao Paulo, Brasil. (2008).
FORNARI, J., T. Eerola. Estimating the Perception of Complexity in Musical Harmony.
The 10th International Conference on Music Perception and Cognition - ICMPC 10. Sapporo,
Japan. (2008).
HIGUCHI, Márcia K., José Fornari, João Pereira Leite. A Influência da Técnica
Pianística e da Expressividade na Articulação e Métrica da Execução Pianística. Trabalho
escrito aprovado, Música e Interface - Cognição. ANAIS da Anppom pg. 757 - 762. XX
Congresso da ANPPOM. Florianópolis - 23 a 27 de agosto de 2010.
FORNARI, J., CyberRITMOs: Interfaces Gestuais Musicais Inspiradas em Percussões
Brasileiras. Poster no III SIMTEC - Simpósio de Profissionais da Unicamp. de 25 e 26 de
Maio de 2010, no Centro de Convenções da Unicamp.
FORNARI, J., Interatividade Musical à Distância. 6o Encontro de Música e Mídia. 15 17 Setembro 2010. ECA - USP.