Environmental Scene Design

Transcrição

Environmental Scene Design
Environmental Scene Design
Räumliche Audiokulissen
für immersive VR-Umgebungen
Diplomarbeit
von Rolf Gassner
Online Medien
Sommer 2006
Betreuung:
Prof. Dr. Bruno Friedmann
Betreuung:
Prof. Daniel Fetzner
1
2
Inhaltsverzeichnis
Abstract......................................................................................................... 6
1 Einleitung.................................................................................................. 7
1.1 Medien im Wandel.......................................................................................... 7
1.2 Grundbegriffe der VR..................................................................................... 7
1.3 Die Säulen der VR.......................................................................................... 8
1.4 Die Rolle von Audio in der VR ...................................................................... 9
2 Konzept und Einsatzgebiete.................................................................... 10
2.1 Konzept und Vorgehensweise....................................................................... 10
2.2 Motivation und Einsatzgebiete..................................................................... 10
2.2.1 Persönliche Motivation: Die Welt ist vergänglich.................................. 11
2.2.2 Verschiedene Einsatzszenarien der Gegenwart.................................... 11
2.2.2.1 Entertainment....................................................................................... 11
2.2.2.2 Virtual und Augmented Reality in Forschung und Entwicklung.............13
2.2.2.3 VR und AR in der Lehre ........................................................................ 14
2.2.3 Zukunft: Konstruktion neuer Erlebnisräume......................................... 16
3 Environmental Scene Analysis (ESA)...................................................... 18
3.1 Begriff, Einordnung und Abgrenzung........................................................... 18
3.1.1 Der perzeptive Ansatz.......................................................................... 18
3.1.2 Der umweltpsychologischer Ansatz...................................................... 18
3.1.3 Einordnung und Begriff......................................................................... 20
3.2 Analyse von Aussenaufnahmen:................................................................... 22
3.2.1 Ausstattung und Audioformat............................................................... 22
3.2.2 Stadtszenen......................................................................................... 22
3.2.2.1 Abstraktion: Sprachliche Einheit.......................................................... 26
3.2.2.2 Kategorisierung: Gruppenbildung/Hierarchisierung............................. 26
3.2.2.3 Beschreibung: Besonderheiten und Auffälligkeiten............................. 30
4 Environmental Scene Design................................................................... 32
4.1 Der Weg und das Ziel................................................................................... 32
4.2 Reduktion..................................................................................................... 33
4.2.1 Reduktion durch Bewertung................................................................. 34
4.2.2 Reduktion durch Verschmelzung.......................................................... 36
4.3 Gruppenbildung/Einteilung.......................................................................... 38
4.4 Klangliche Verfremdung............................................................................... 39
4.4.1 Veränderung der Tonhöhe.................................................................... 40
4.4.2 Tempoänderung .................................................................................. 40
4.4.2.1 Timestretching...................................................................................... 40
3
4.4.2.2 Pitching................................................................................................. 40
4.4.3 Reverse Playback ................................................................................ 41
4.4.4 Temporal Patterning............................................................................. 41
4.4.4.1 Timer.....................................................................................................41
4.4.4.2 Delay.....................................................................................................41
4.4.5 Lautstärke-Variation............................................................................. 42
4.4.6 Equalizer und Filter............................................................................... 42
4.5 Übersicht Stadtszenen ................................................................................. 42
4.6 Synthese-Formel........................................................................................... 43
5 Komposition von Geräuschkulissen......................................................... 44
5.1 Wahl der Programmiersprache.................................................................... 44
5.2 Konzept und Aufbau..................................................................................... 44
5.3 Implementierung.......................................................................................... 46
5.3.1
5.3.2
5.3.3
5.3.4
5.3.5
Der Regenpatcher................................................................................
Subpatcher und Scripting.....................................................................
Position und Bewegung........................................................................
Open Sound Control.............................................................................
Der Szenerator.....................................................................................
46
48
48
49
49
5.4 Ergebnisse.................................................................................................... 51
6 Mehrkanal-Ausgabe................................................................................. 53
6.1 Wahl des Ausgabeformats............................................................................ 53
6.1.1 Ambisonic............................................................................................. 53
6.1.2 Wellenfeldsynthese.............................................................................. 53
6.2 WFS-Produkte............................................................................................... 55
6.2.1 Kommerzielle Produkte......................................................................... 55
6.2.1.1 IOSONO ................................................................................................ 55
6.2.1.2 Sonic Emotion....................................................................................... 55
6.2.2 Open Source: swonder......................................................................... 55
6.3 Installation VR-Labor.................................................................................... 57
6.3.1
6.3.2
6.3.3
6.3.4
Hardware..............................................................................................
Software...............................................................................................
Zusammenspiel aller Komponenten.....................................................
Weitere Möglichkeiten..........................................................................
57
58
59
59
6.4 Erkenntnisse................................................................................................. 60
6.5 Empfehlungen für das neue VR-Labor.......................................................... 61
6.5.1 Authoring-Software.............................................................................. 61
6.5.2 Audio-PC............................................................................................... 61
6.5.3 Verstärker und Lautsprecher................................................................ 62
7 Fazit......................................................................................................... 63
7.1 Interessante Abzweigungen......................................................................... 63
7.2 Unerledigtes................................................................................................. 63
4
7.3 Zusammenfassung........................................................................................ 64
7.4 Nachwort...................................................................................................... 64
Anhang......................................................................................................... 65
I Hardware........................................................................................................ 65
Ausstattung PC 1........................................................................................... 65
Ausstattung PC 2........................................................................................... 65
Sonstiges....................................................................................................... 65
II Software......................................................................................................... 66
Linux (PC 1)................................................................................................... 66
Windows XP (PC 2 + PrivatPC)....................................................................... 66
III Glossar.......................................................................................................... 67
IV Abbildungsverzeichnis.................................................................................. 70
V Literaturliste................................................................................................. 71
VI Datenträger................................................................................................... 72
5
Abstract
Die Bedeutung einer angemessenen Vertonung wird in vielen
Medienproduktionen, so auch in VR-Anwendungen, gerne unterschätzt. Letztere
müssen sogar häufig ohne Ton oder mit einer räumlich ineffektiven Stereo- oder
5.1-Beschallung auskommen.
Ziel dieser Arbeit ist, durch auditive Untermalung das Präsenzgefühl in einer
virtuellen Umgebung zu steigern. Es soll ein Gesamtkonzept entwickelt und
prototypisch umgesetzt werden, um passend zu einer räumlichen Visualisierung
eine räumliche Auralisierung zu komponieren.
In einem ersten Schritt wurde eine Anwendung erstellt, die möglichst flexibel
verschiedene, glaubwürdige Geräuschkulissen generiert. Dazu wurden MikrofonAufnahmen geeigneter Szenen im Real Life gemacht und anschließend analysiert,
um durch induktive Methodik Designvorgaben abzuleiten, die auf eine Vielzahl von
Alltagskulissen anwendbar sind. Diese Gestaltungsmuster fanden ihren
Niederschlag im Aufbau und den Algorithmen des Szenengenerator-Prototyps.
Im zweiten Schritt sollte diese Kulisse über ein räumlich präzises
Wiedergabeverfahren ausgegeben werden. Die Wahl fiel auf Wellenfeldsynthese –
eine experimentelle Lowbudget-Anlage wurde im (ersten) VR-Labor der
Hochschule Furtwangen errichtet.
Abschließend wurde noch eine Steuerung in dem mit Max/MSP erstellten SzenenKompositionstool implementiert, die es ermöglicht, einzelne Quellen der Kulisse im
Wellenfeld zu positionieren und zu bewegen.
Dadurch entstand ein komplettes Audioframework, das flexibel mit einer visuellen
VR-Anwendung verknüpft werden kann.
6
1 Einleitung
1.1 Medien im Wandel
Im Bereich der Mediennutzung vollzieht sich seit dem Siegeszug der
Computerspiele ein Paradigmenwechsel, den ich treffenderweise die
Panoramatische Apperzeption nennen möchte:
den „Eintritt des Beobachters in den Bildraum“1.
Im Gegensatz zu den Bildmedien, die mit dem Schema der Identifikation und, im
Falle der Bewegtbildmedien, mit der aristotelischen Dramaturgie („Furcht und
Mitleid“) arbeiten, ist der Mediennutzer im Zeitalter der Telepräsenz nicht mehr
auf die Rolle des Konsumenten von Inhalten beschränkt – die dritte Person wird
abgelöst durch die erste Person, die vorgegebene Linearität der Handlung wird
aufgehoben, um durch die Möglichkeiten der Interaktion einer (schier)
grenzenlosen Freiheit Platz zu schaffen. Dem Blick durch das „finistra aperta“
folgt das (gefühlte) Eintreten in den Wahrnehmungsraum: Es ist dieses Eintauchen
in eine geschaffene Realität, welches den Reiz von 3D-Spielen ausmacht – selber
der Held, der Akteur zu sein, in die Rolle des Diebes (Thief), des Soldaten (Soldier
of Fortune, Call of Duty), des Auftragskillers (Hitman), des Königs (Age of
Empires), eines Fantasiewesens (World of Warcraft) oder einfach die des
Nachbarn (Die Sims) zu schlüpfen. Nervenkitzel und Kurzweil ist dabei garantiert,
eine Gefahr für Leib und Leben besteht, von dem Suchtpotenzial abgesehen, kaum.
1.2 Grundbegriffe der VR
Immersion (lat. „Eintauchen“) ist auch einer der zentralen Begriffe im Kontext von
virtueller Realität.
Doch was bedeutet virtuelle Realität?
Diese Frage führt schnurstracks auf die glatte, dünne Eisdecke eines zugefrorenen
Sees, über dessen Tiefe, Beschaffenheit, oder gar Existenz mindestens seit Platons
Ideenlehre spekuliert wird. Daher klammern wir die philosophischen Implikationen
von Realität kurzerhand aus und geben uns in diesem bescheidenen Rahmen mit
banalen Synonymen wie „Dinglichkeit, Gegebenheit, tatsächliche Lage,
Wirklichkeit“2 zufrieden.
Eine unverfänglichere Definition findet sich für virtuell:
„lat: anlagemässig, der Kraft oder Möglichkeit nach vorhanden aber sich nicht
auswirkend, scheinbar“3
Das Begriffspaar (englisch: virtual reality) hat denn auch eine speziellere
Bedeutung, die sich nicht aus den Definitionen der einzelnen Wörter erschließt:
Virtual reality is a high-end user-computer interface that
involves real-time simulation and interactions through multiple
1
2
3
http://de.wikipedia.org/wiki/Panoramatische_Apperzeption
Dultz, Wilhelm (Herausgeber): Das Fremdwörterlexikon, Ullstein Verlag, Frankfurt/M.-Berlin, 1965, S. 444
Dultz, Fremdwörterlexikon, a.a.O., S.
7
sensorial channels. These sensorial modalities are visual,
auditory, tactile, smell, and taste.4
Während Riechen und Schmecken bislang noch keinerlei Bedeutung in virtuellen
Umgebungen haben, wird umso mehr Wert auf die restlichen drei, Sehen, Hören
und Tasten gelegt, wobei Tasten als Oberbegriff für Navigieren und Interagieren
steht.
Das herausragende Merkmal einer virtuellen Umgebung ist die Einführung der
dritten Dimension, was üblicherweise durch stereoskopische Projektion oder Head
Mounted Displays erreicht wird.
Im Unterschied zum Computerspieler vor dem Bildschirm hat der Nutzer einer VREinrichtung so die Möglichkeit, tatsächlich und körperlich den
Wahrnehmungsraum zu betreten und, je nach Stand der Technik, sich auch darin
zu bewegen.
Der Beobachter, der den Bildraum betritt, ist also fortan nicht mehr ausschließlich
Beobachter, sondern auch Handelnder und Entscheidungsträger.
1.3 Die Säulen der VR
Die drei I's der VR5 geben eine komprimierte Übersicht über die wichtigen Größen
von virtuellen Umgebungen:
•
Interaktivität
•
Immersion
•
Imagination
Abb. 1: Die drei I's der Virtuellen Realität
Imagination ist laut Burdea „problemlösendes Denken“ und die „Fähigkeit des
Geistes, nicht existente Dinge wahrzunehmen“6.
Diese Begriffsbestimmung scheint selbst in vorliegendem, technologisch
eingegrenzten Rahmen zu tief gegriffen und muss erweitert werden:
Imagination ist jene (Vorstellungs-)Kraft, die die Unvollkommenheit der
Benutzerschnittstelle und sonstige Unzulänglichkeiten des technischen Ambiente
4
5
6
Burdea, Coiffet: Virtual reality technology, Wiley-IEEE Press, 2nd edition, New Jersey, 2003 , S. 3
Burdea et al., a.a.O., S. 3
Burdea et al., a.a.O., S. 3
8
transzendiert, wodurch aus der virtuellen Szene ein intensives kognitives und
emotionales Erlebnis erwachsen kann (vgl. dazu: „suspension of disbelief“, Kap.
4.1).
1.4 Die Rolle von Audio in der VR
Shilling und Shinn-Cunningham7 schreiben treffend, dass dem auditiven Teil beim
Design von virtuellen Umgebungen wenig Aufmerksamkeit gewidmet werde.
Angesichts der entscheidenden Rolle, die Hören in unserem Alltag zukommt, sei
das wenig verständlich. Schallereignisse steigerten das Bewusstwerden von
Umgebungen, lenkten die visuelle Aufmerksamkeit und übermittelten eine Vielzahl
komplexer Informationen ohne den Gesichtssinn zu beanspruchen.
Als Quintessenz des Gesagten können wir festhalten, dass durch eine passend
vertonte VR das Gefühl der Anwesenheit im virtuellen Raum gesteigert wird.
Weiter schreiben sie:
The entertainment industry has recognized that sound is a vital
aspect of creating ambience and emotion for films. George
Lucas, best recognized by the public for stunning visual effects
in his movies, has stated that sound is 50% of the movie
experience (THX, 2000)8
Schlussfolgerung: Die starke gefühlsmässige Einbindung ins Geschehen, die durch
eine Geräuschkulisse erreicht wird, erhöht den Immersionsgrad des Mediums.
Schäfer-Schönthal schreibt über die auditive Wahrnehmung:
Liegen dem menschlichen Wahrnehmungssystem unterschiedliche
Informationen von Auge und Ohr zur Beurteilung einer Situation
vor, so entscheidet sich der Mensch meistens nach der
akustischen Information. Dies liegt zum einen an der archaischen
Verbindung von Gefühlssituationen mit dem Gehörsinn. Zum anderen
hat der Mensch mehr Vertrauen zu diesem Sinn, da das Ohr nicht
so leicht zu täuschen ist wie das Auge. Das dreidimensionale
Sehen kann falsche Eindrücke über den Abstand eines Objektes
vermitteln, während der Abstand oder die Position einer
Schallquelle vom Ohr nur schwer getäuscht werden kann.9
Demzufolge lohnt es sich, ein räumlich exaktes Wiedergabeverfahren einzusetzen,
um dem Gehör überzeugende Informationen zu dem virtuellen Szenario zu liefern
und dadurch das Präsenzgefühl zu erhöhen:
In immersiven VR-Umgebungen erfordern räumliche Visualisierungen eine
räumliche Beschallung.
Vorteile hat ein räumliches Wiedergabeverfahren auch für die Interaktion: Der
Nutzer kann durch gezielte, positionierte Geräusche oder Stimmen in seiner
Aufmerksamkeit gelenkt werden (Dramaturgie) oder Orientierungshilfen erhalten,
akustische Landmarks gewissermaßen. (vgl. 2.1.2.3: VR in der Lehre – VERTEX)
7
8
9
Stanney, Kay M.(Editor): Handbook of Virtual Environments – Design, Implementation and Applications, Lawrence
Erlbaum Publishers, New Jersey / London, 2002, S. 65
Stanney, Handbook of Virtual Environments, a.a.O, S. 66
Schäfer-Schönthal, A.: Audiotechnik (Skript Nr. 257), Lehrmaterial der Hochschule Furtwangen, 2004, S. 21
9
2 Konzept und Einsatzgebiete
2.1 Konzept und Vorgehensweise
Ein Kompositionstool soll entwickelt werden, das ein auditives Szenario erzeugt,
welches einer realen Umgebung nachempfunden ist. Anschließend wird die Szene
über ein Beschallungssystem verräumlicht, das ebenfalls entworfen und realisiert
werden soll.
Die Anwendung soll Audiosamples, die durch Namenskonventionen inhaltlich
gruppiert sind, nach einem vorgegebenen Muster abspielen und nach Bedarf mit
Effekten versehen oder sie auf andere Art in ihren Eigenschaften den
Erfordernissen anpassen.
Die zeitliche Anordnung der Geräusche bei der Wiedergabe, die Häufigkeit ihrer
Wiederholung, ihre Verfremdung und ihre Position (gegebenenfalls auch
Bewegung) im Raum, sind dabei die Kernfunktionen des Programms.
Der Prototyp soll ein Innenstadtszenario generieren, das einem VR-Projekt im
Wintersemester 2005/06 entstammt (ausführliche Beschreibung unter 2.2.2.3):
Straßenkreuzung in einer Großstadt mit Tramhaltestelle.
Wichtig ist die Skalierbarkeit der Applikation, es sollen im Schnellverfahren neue
Szenarien vertont werden können durch Bereitstellen einer geringen Anzahl an
Samples: größtmöglicher Realismus mit kleinstmöglichem Aufwand.
Um die Audioszene zu modellieren, muss zuerst verstanden werden, woraus sie
typischerweise zusammengesetzt ist. Dazu sind Aufnahmen an repräsentativen
Stellen unerlässlich, die auf ihre Zusammensetzung hin untersucht werden.
Dann können Kriterien erarbeitet werden, die einen flexiblen Nachbau der Kulisse
erlauben. Diese Vorgaben entscheiden über die Arbeitsweise der Anwendung.
Anschließend werden geeignete Audioschnipsel zusammengetragen und
zurechtgeschnitten, als Grundlage für eine teilweise automatisierte
Szenenkomposition.
Die Steuerung wird auf die Ausgabeplattform abgestimmt.
Dabei ist ein intuitives Benutzerinterface anzustreben, das ein schnelles
Erfolgserlebnis ermöglicht.
Eine Dokumentation erläutert die Möglichkeiten des Prototypen und klärt Fragen
zu Anwendung, Funktion und Erweiterungen.
2.2 Motivation und Einsatzgebiete
Wozu akustische Simulation von Alltagsszenarien?
Eine solch fundamentale Frage kann selbstverständlich nicht in einem Satz
erschöpfend beantwortet werden, daher möchte ich die Antwort aus verschiedenen
Blickwinkeln formulieren: persönlich, pragmatisch-kommerziell, zukunftsorientiert.
10
2.2.1 Persönliche Motivation: Die Welt ist vergänglich
Wir befinden uns inmitten eines großen Umbruchs. Klimawandel,
Umweltzerstörung, Treibhausgase die eine Veränderung der Erdatmosphäre
bewirken, Regenwaldabbau bei gleichzeitig erhöhter Verbrennung fossiler
Energieträger auf der einen Seite, sowie ein brodelndes Kriegsszenario im Nahen
Osten, entfesselt durch den Wahnsinn einer neoliberalistischen westlichen
Supermacht samt ihrem Gefolge auf der anderen Seite führen dem informierten
Betrachter die Unausweichlichkeit einer Katastrophe vor Augen – ob sukzessiv
schleichend durch gedankenlos entfesselte Naturgewalten, oder explosiv per
Knopfdruck eines selbsternannten Weltretters, wird sich noch zeigen.
Kurzum: Die Menschheit ist dabei, sich auszulöschen, ohne auch nur ansatzweise
sich selbst oder die Welt, die sie in Heuschreckenmanier bevölkert, verstanden zu
haben.
Sollten eines Tages die Ausserirdischen landen, und einen „Film auf ihr
strahlendes, weisses Raumschiff projizieren“10, dann möchte ich einen Beitrag
dazu geleistet haben, dieser Nachwelt, wie auch immer sie geartet sein wird, einen
Einblick in die Welt der „Wilden“11 zu erlauben, die einst diesen Planeten
bewohnten.
Dabei verstehe ich mein Wirken nicht als abgekoppelte, eigenständige
Entwicklung. Es ist mein Wunsch, dass andere Entwickler von Realität oder
virtueller Realität darauf zurückgreifen, es weiterentwickeln in ihrem Sinne, sei es
durch Erweiterung um andere auditive Szenarien, oder als Ergänzung zu einem
visuell orientierten Projekt.
Auch geht mein Ansatz über das simple Erfassen des Gegebenen im Sinne von
Aufzeichnen hinaus: Es ist mir wichtig einen kleinen Blick auf die gestalterische
Arbeitsweise der tonangebenden Akteure auf der alltäglichen Klangbühne zu
erhaschen, um dem geneigten Publikum das bestmögliche Ergebnis auch ohne
diese Bühne, mittels technischer Hilfsmittel (was gemeinhin als Simulation oder
Virtualität bekannt ist), präsentieren zu können.
2.2.2 Verschiedene Einsatzszenarien der Gegenwart
Selbstredend kann ich meiner Phantasie noch weitere Anwendungsmöglichkeiten
entlocken, als den melodramatischen Versuch, einer postapokalyptischen
Zivilisation mediale Grabbeilagen eines verflossenen dunklen Zeitalters zu liefern
(wir sprechen in der Tat vom Informationszeitalter, auch wenn es treffender als
„Die Sozialdarwinistische Konsumära“ in die Geschichtswikis eingehen sollte).
Ich möchte die möglichen Anwendungsgebiete in drei Hauptzweige gliedern:
Unterhaltung, Forschung, Lehre.
2.2.2.1 Entertainment
Hier handelt es sich um einen stark expandierenden Wirtschaftszweig, die
Spaßgesellschaft verpulvert in zunehmendem Maße das schwerverdiente Geld für
10 Hirsch, Ludwig: „1928“ vom Album „Komm großer schwarzer Vogel“, Polydor (Universal) 1987
11 Hirsch, Ludwig, a.a.O.
11
Eskapismus in Gestalt (vorwiegend) digitaler Erlebniswelten.
Bei Filmen und Computerspielen werden meistens Studios mit der Tongestaltung
beauftragt (kleinere Studios sind oft Einmannbetriebe).
Dabei ist das Studio nur für die Produktion der Effekte und u.U. auch für die
Komposition der Musik zuständig, die Einbindung der fertigen Sounddateien
erledigen die Programmierer. Die sogenannte Game Engine sorgt für die passende
Ausgabe der Sounds – hier ist seit einigen Jahren bereits Dolby Surround 5.1
(neben der altehrwürdigen Stereowiedergabe) Standard.
Nichtsdestotrotz kann die von mir entwickelte Applikation dazu benutzt werden,
bei kleineren Projekten „auf die Schnelle“ einen passenden Ton für vorhandene
Bilder bzw. Spielszenen zu zaubern.
Die ständige Weiterentwicklung der Games, was die Annäherung an vollkommenen
Realismus im graphischen Bereich anbelangt, wird bald auch in der
Soundwiedergabe zu neuen Standards und Produkten führen.
Die nächste Stufe wäre (sowohl für Spiele, als auch für Filme) räumlich exakte
Wiedergabe. Dieses Feature kann Wellenfeldsynthese bieten, wobei auch in einem
kompletten Kinosaal die Räumlichkeit erhalten bleibt, unabhängig von der
Sitzposition.
Da bereits Wellenfeldsynthese-Anlagen zur Marktreife gelangt sind, bleibt meine
bescheidene Forschung auf einen experimentellen Lowbudget-Bereich beschränkt,
den die momentan verfügbaren Systeme mit Sicherheit (auch in Zukunft) nicht
abdecken werden.
Es ist in meinen Augen nur eine Frage der Zeit, wann Wellenfeldsynthese in den
Medien als das ultimative Spiele- und Filmerlebnis angepriesen wird.
Spätestens seit Schillers Briefen „Über die ästhetische Erziehung des Menschen",
denen der berühmte Ausspruch „Der Mensch spielt nur, wo er in voller Bedeutung
des Wortes Mensch ist, und er ist nur da ganz Mensch, wo er spielt." entstammt,
wissen wir, dass Spiel mehr bedeutet als Beschäftigungstherapie für die Kleinen.
Erwachsene Menschen spielen ebenfalls gerne und tun dies zunehmend am
Computer, daher ist es auch verständlich, dass die Spieleindustrie mittlerweile zu
einer der stärksten Antriebsfedern gehört, was die Entwicklung leistungsstärkerer,
perfomanterer Hardware angeht.
12
Abb. 2: Screenshot aus Oblivion: ausgedehnte, glaubwürdige Welt
Wir können bereits in naher Zukunft mit riesigen künstlichen Welten rechnen, wie
sie bereits der kürzlich erschienene Titel „The Elder Scrolls IV – Oblivion“12 bietet,
sowohl online, für eine vernetzte Spielergemeinde, als auch offline (im
Einzelkämpfer- oder Einzelerkunder-Modus), in welchen das Gelände bzw. die
Räume der Spielwelt von der KI13 nach vorgegebenen Gestaltungskriterien in
einem parametrisierten Rahmen „zufällig“ erzeugt werden. Um die realistische
Anmutung der Spielewelt zu vervollkommnen und dem Spieler ein möglichst hohes
Präsenzgefühl zu vermitteln, muss sinnvollerweise auch ein
Gestaltungsalgorithmus für die passende Audiokulisse definiert werden.
Die Entwicklung eines solchen Algorithmus' ist Thema meiner Arbeit.
2.2.2.2 Virtual und Augmented Reality in Forschung und Entwicklung
In der Forschung, sei es nun Medizin oder Fahrzeugbau, kommt es bei
funktionalen, oft minimalistischen 3D-Szenarien meistens auf die Exaktheit
bestimmter Details an. Übertragen auf die akustische Komponente von VR oder
AR14 bedeutet dies, dass eine exakte räumliche Platzierung der Geräusche
zusätzlich zu einem gewünschten Sounddesign wichtig wird.
So ist beispielsweise das Design des Motorgeräusches aktueller Kraftfahrzeuge
eine Anwendung, die aus wirtschaftlichen Gründen wie geschaffen ist für die
12 Bethesda Soft, The Elder Scrolls 4: Oblivion, seit März 2006 im Handel
13 Künstliche Intelligenz, s. Glossar
14 Augmented Reality, s. Glossar
13
Entwicklung in einem virtuellen Fahrzeug, d.h. In einem VR-Labor mit
entsprechender räumlicher auditiver Wiedergabe. Hier kann das Fahrzeug
mitsamt dem Motor visuell und akustisch nachgebildet werden, um dann mit
verschiedenen Einspritzpumpen, Hubraumvolumina, Kolbenmaßen, Ölpumpen u.ä.
getestet zu werden.
Abb. 3: Bilder der akustischen Kamera
Die Zeitschrift „Technology Review“ berichtet in der Ausgabe 6/2006 über eine
„akustische Kamera“, mit deren Hilfe Geräusche in einem 3D-Modell des
untersuchten Fahrzeugs visualisiert werden können, um so beispielsweise die
Quelle von Störgeräuschen zu ermitteln:
Das Ergebnis des ganzen Aufwandes sind Computer-Bilder des
Objektes mit darübergelegten Farb-Informationen über Quellen und
Lautstärken von Geräuschen.
...
„Das Interesse an diesen 3D-Aufnahmen ist groß“, sagt Ralf
Schröder, Leiter des Bereichs Akustische Kamera bei der GfaI.
Demnächst sollen erste Messungen bei Airbus in Toulouse
vorgenommen werden.15
Dieses Beispiel fügt sich nahtlos in das eben beschriebene Szenario einer
audiogestützten VR-Anwendung für die Industrie ein.
2.2.2.3 VR und AR in der Lehre
Medizin
Ein Beispiel aus der Medizin wäre etwa die Simulation einer wie auch immer
gearteten Operation eines (virtuellen) Patienten für einen Studierenden der
Medizin zu Übungszwecken, wo eine entsprechende Audiokulisse, mit verorteten
Geräuschquellen für OP-Assistentenstimme, diverse Diagnosegeräte
(Herzrhythmus), Narkosearztstimme usw. ebenfalls einen grossen Anteil an dem
erlebten Präsenzgefühl haben. Die Echtheit der Szene kann für didaktische
Zwecke in einem Bereich, in dem schnelle Entscheidungen und wenige Handgriffe
auf die Gesundheit oder gar das Leben eines Menschen Einfluss nehmen, nicht
hoch genug sein – „realistisch“ als Vorgabe ist hier wörtlich zu nehmen.
Vorstellen kann man sich auf diese Art natürlich auch ferngesteuerte Operationen,
die von Fachärzten in einem speziellen VR-Labor durchgeführt werden, während
15 Technology Review, „Lärm in Bildern“, Nr. 6/2006, S. 26
14
der (echte) Patient samt OP-Assistenz an einem anderen Ort der Welt in einer
Spezialklinik die Behandlung erfährt. Auch hier ist eine räumliche Wiedergabe des
echten Operationssaales höchst wünschenswert, da die Ärzte in einer solchen
heiklen Lage auf möglichst präzise Informationen ihrer Umwelt angewiesen sind.
Kommunikationsforschung
Ein weiteres Beispiel aus dem Umfeld der Fakultät Digitale Medien der
Hochschule Furtwangen ist das Projekt VERTEX. Es wurde initiiert vom Image,
Space and Interaction Center Furtwangen:
Das Image, Space and Interaction Center Furtwangen (ISIC)
betreibt bildwissenschaftliche Forschung mit Hilfe innovativer
Technologien in den drei Bereichen Bild – Raum – Interaktion.
(...) In Forschung und Lehre werden die performativen, sozialen,
immersiven sowie interaktiven Effekte von Bildmedien untersucht.
Die Mitglieder von ISIC bündeln dafür fachübergreifend
Kompetenzen aus Konzeption, Gestaltung, Medieninformatik und
empirischer Sozialforschung.16
VERTEX steht als Akronym für Virtual Environment Test Experiment und „ist eine
quantitative Methode zur Messung der Stärke unbewusster Bild- und
Plakatwahrnehmung durch die Simulation natürlicher Wahrnehmungskontexte in
virtuellen Umgebungen.“17
Abb. 4: Teil der Münchner Innenstadt als begehbares 3D-Modell (Screenshot)
16 http://isic.dm.fh-furtwangen.de/index.php?article_id=92
17 http://isic.dm.fh-furtwangen.de/index.php?article_id=132
15
Im Rahmen mehrerer Lehrveranstaltungen mit praktischem Schwerpunkt wurde
von Studierenden der Fakultät ein 3D-Modell der Münchner Innenstadt erstellt
und mit der Authoring-Software Virtools18 zu einem interaktiven Rundgang
umgestaltet, der – zunächst als Plakatwirkungstest konzipiert – Testpersonen einen
virtuellen Spaziergang vom Stacchus zum Hauptbahnhof erlaubte.
Die Genauigkeit der Ergebnisse von Bildwirkungsforschung hängen eng mit der
Realitätsnähe des Modells zusammen. Eine adäquate Vertonung des Testszenarios
steigert die Immersivität und ermöglicht zudem eine unkomplizierte Adressierung
der Probanden: durch aufgezeichnete Sprechertexte können dramaturgische
Elemente („Wo bin ich“, „Was tue ich hier“) oder Navigations-Anweisungen
integriert werden. Am Ende des Tests bietet sich eine mit Sprachsamples
realisierte Befragung innerhalb des Modells an, um einen Medienbruch zu
vermeiden.
VERTEX wird nunmehr seit vier Semestern kontinuierlich weiterentwickelt19 und
profitiert zusätzlich von der Vernetzung verschiedener Projekte und
Diplomarbeiten, die sich unterschiedlichen Aspekten der Themenkreise Virtuelle
Realität und audiovisuelle Medien widmen, als da wären: Audio, 3D-Grafik,
Dramaturgie, Authoring, Tracking, Steuerung/Interaktion, Augmented Vision.
2.2.3 Zukunft: Konstruktion neuer Erlebnisräume
Last but not least bleibt die Zukunft spannend und bietet Raum für Ideen und
Spekulationen. Unterhaltung ist, wie wir bereits feststellen durften, ein
expandierender Markt in den liberalistisch geprägten Konsum- und
Spaßgesellschaften.
Während die neuesten Spiele für PC und Konsolen bereits aussehen wie interaktive
Filme, formiert sich im Internet eine große Fangemeinde um sogenannte OnlineSpiele. Jenseits der in Performance und Grafik spartanischen Browserspiele gibt es
inzwischen etliche grafisch anmutige, immersive Spiele, deren Hauptteile auf dem
Client laufen, während die Welt zu Spielzeiten in Beschaffenheit und Population
mit den Online-Servern abgeglichen wird. Titel wie EVE Online20 oder World of
Warcraft21 erfreuen sich einer stetig wachsenden Fangemeinde, trotz monatlich
anfallender Gebühren.
Wenn man aktuelle Trends konsequent weiterspinnt, so kann man auch ohne
prophetische Gabe für das bereits heute verfügbare Breitband-Internet noch
weitere populäre Anwendungen vorausahnen:
•
18
19
20
21
Semantic Web: Das Internet ist via Sprachsteuerung zugänglich und die
Browser der Zukunft beherrschen ebenfalls Sprachausgabe (eine in sehr
vielen Science Fiction Romanen und Filmen vorweggenommene
Entwicklung: die Maschinen sprechen die Sprache des Menschen). Da der
Cyberspace ein Raum ist, muss wohl oder übel eine angemessene
Beschallungsanlage im Wohnzimmer der Zukunft stehen, vor allem für
Leute, die den Tragekomfort von HMDs, Kopfhörern und ähnlichen
http://www.virtools.com/
http://webuser.fh-furtwangen.de/~fetzner/medialab/index.php?pagename=Main.VerTex
http://eve-online.com/
http://www.wow-europe.com/de/
16
Implantaten nicht zu schätzen wissen.
•
Immersive Chaträume, gestaltet in der Art aktueller 3D-Spiele können von
zahlreichen Nutzern bevölkert werden. Eine räumliche Audiowiedergabe
gehört hier zur Pflichtausstattung, ein Gespräch mit anderen Avataren
erfordert eine (virtuelle) räumliche Nähe (Stichwort: Cybercafé).
Im offline-Bereich, angelehnt an das choreographisch anmutende
Datenhandschuh-Userinterface in Minority Report22, kann ich mir eine CAVE 23
vorstellen, die ebenfalls über eine auditive Steuerung verfügt und den bzw die
Nutzer anhand von Trackingdaten optimal mit einer angepassten Soundkulisse
versorgen kann. Die weitere Entwicklung geht hier in Richtung „Holodeck“24,
weniger was die Darstellungsart (Holografie) angeht, sondern eher das Integrieren
der Steuergeräte z.B. in die Kleidung (Stichwort: Ubiquituous Computing), sodass
eine freie Bewegung in der virtuellen Umgebung möglich ist.
22 Minority Report, beklemmender Science-Fiction-Thriller mit packender Story von Steven Spielberg, 2002
23 Cave Automatic Virtual Environment, s. Glossar
24 Begriff aus dem Star Trek Universum: Raum, in dem lebensechte Simulationen möglich sind, futuristische CAVE
17
3 Environmental Scene Analysis (ESA)
3.1 Begriff, Einordnung und Abgrenzung
Bregman beschreibt in der Einleitung zu „Auditory Scene Analysis“25 zwei
unterschiedliche Forschungsansätze, die sich seit Mitte der 1960er Jahre aus der
bis dahin einheitlich perzeptiven Forschungsrichtung zum Thema Hören
entwickelten:
•
den (weiterhin) perzeptiven Ansatz
•
den umweltpsychologischen Ansatz
3.1.1 Der perzeptive Ansatz
Seine Vertreter beschäftigen sich mit Fragestellungen zur Funktionsweise des
Hörens und wie dadurch ein inneres Abbild unserer Umgebung erzeugt wird. Als
übergeordnete Disziplin ist hier die Kognitive Psychologie26 zu nennen.
Gaver27 bezeichnet diese Richtung sogar als den kognitiven Ansatz, im
Vordergrund stehe dabei das „musical listening“: Dabei werde Wert gelegt auf
eine wissenschaftliche Kategorisierung von Klängen, insbesondere von Klängen
diverser Musikinstrumente, die dann in ihren sensorischen Qualitäten beschrieben
werden, nämlich in Begriffen von Tonhöhe, Klangfarbe, Dauer, Lautstärke et
cetera und der Veränderung dieser Eigenschaften über die Zeit.
Auch Bregman kann man dieser Disziplin zuordnen, in „Auditory Scene Analysis“28
versucht er die Gesetzmäßigkeiten der Gestaltpsychologie von der visuellen auf die
auditive Wahrnehmung zu übertragen.
3.1.2 Der umweltpsychologischer Ansatz
In Abgrenzung zum „musikalischen Hören“ der kognitiven Forschung spricht
Gaver hier von „everyday listening“, also dem Alltagshören.
Vertreter dieses „ecological approach“, zu denen auch Gaver selbst gehört,
versuchen auf eher pragmatische Art und Weise das Alltagshören des Menschen zu
eruieren, das in erster Linie ein interpretierendes Hören ist: In einer alltäglichen
Umgebung hören wir demzufolge keine disharmonischen Sägezahnschwingungen
mit vielen Obertönen und einem hohen Rauschanteil, sondern wir hören
Automotoren, Stimmen, Vogelzwitschern und so weiter. Hören wird hier in erster
Linie als die Wahrnehmung von den Schallereignissen selber verstanden und nicht,
wie etwa in der Psychoakustik (die ebenfalls der Kognitiven Psychologie
untergliedert ist), als das Auftreffen von Schwingungen unterschiedlicher
Frequenz in der Hörschnecke und die Weiterleitung der Signale zum Gehirn.
25 Bregman, Auditory Scene Analysis. Cambridge, MIT Press, 1990
26 http://en.wikipedia.org/wiki/Perception
27 Gaver, William S.: What in the World Do We Hear? + How Do We Hear in the World?, Ecological Psychology, 1993
s. Literaturverzeichnis
28 Bregman, a.a.O.
18
Laut Bregmann beschäftigen sich die Fragestellungen auf diesem Gebiet mit dem
„wie unsere Umwelt üblicherweise die Geräusche um uns herum formt“29.
Gaver hat damit begonnen ein grundlegendes Framework zur Klassifizierung
möglichst aller in unserer Umwelt vorkommenden Geräusche zu entwickeln.
Wie das aussieht, zeigt Abbildung 5.
Er versucht, in den beiden Artikeln „What in the World Do We Hear?: An
Ecological Approach to Auditory Event Perception“ und „How Do We Hear in the
World?: Explorations in Ecological Acoustics“30 – beide erschienen im Journal
„Ecological Psychology“ – alle nichtmusikalischen Umweltgeräusche in einem
zweidimensionales System anzuordnen.
Die zentralen Aussagen sind:
sounds are caused by and convey information about the
interaction of materials at a location in an environment.31
Was soviel bedeutet wie: Geräusche werden verursacht von und vermitteln
Information über die Interaktion von Materialien an einem Ort in einer Umgebung.
Weiter schreibt er, dass akustische Alltagswahrnehmung viele detaillierte
Aussagen über die Ereignisse, die Klänge produzieren, ermögliche, so z.B. über:
Material, Form, Größe, Beschaffenheit der Oberfläche, Wucht/Masse,
Geschwindigkeit usw.
29 Bregman, ebda, S. 1
30 s. Literaturliste, Anhang V
31 Gaver, How Do We Hear in the World?, Ecological Psychology 5(4) S. 288
19
Abb. 5: Das phänomenologische Framework Gavers
Diese These ist die Grundlage der systematischen, phänomenologischen
Klassifizierung von Alltagsgeräuschen, die er tabellarisch nach zwei Merkmalen
beschreibt:
1. Als Element, das an dem Klangereignis beteiligt ist:
feststofflich, flüssig, gasförmig (angelehnt an die 4 Elemente, lässt er die
Fragen für weitere Forschungen auf diesem Gebiet offen, ob Feuer oder
Elektrizität als 4. Element in Frage kommt, oder zusätzlich eine Sparte für
computergenerierte Klänge sinnvoll ist)
2. Nach der Zusammensetzung des Klangereignisses unterscheidet er
zwischen
•
basic level events:
hier ist nur ein Element an der Klangentstehung beteiligt
•
temporal patterning:
zeitliche Muster (der Anordnung, Wiederholung) eines basic level
events, wie Laufen, Klopfen, Zerreissen
•
compound events:
bestehen aus verschiedenen basic level events (Schreiben, Bowling)
•
hybrid events:
Materialen verschiedener Elemente tragen zur Klangentstehung bei,
so beispielsweise bei Regen flüssige und feste
Zusätzlich zu dieser Klassifizierung folgert Gaver, dass wenn Klangereignisse
Informationen über die physikalische Beschaffenheit der beteiligten Objekte
übermitteln, eine physikalische Beschreibung dieser Objekte hinreichend sein
muss, um das entsprechende Klangereignis computergestützt zu modellieren, oder
es von einer Applikation erkennen zu lassen.
Verschiedene basic level events werden in Form von Algorithmen beschrieben, die
ihre Synthese mittels vorhandener oder selbstgeschriebener Programme
ermöglichen sollen.
Weitere Vertreter des umweltpsychologischen Ansatzes sind Priscilla Chueng und
Stefania Serafin, deren Beiträge zu einem minimalistischen Design-Ansatz zur
Verstärkung des Präsenzgefühls in virtuellen Umgebungen in den folgenden
Abschnitten dieses Kapitels näher untersucht werden.
3.1.3 Einordnung und Begriff
Wiewohl Gaver mit seiner Arbeit Neuland betritt und sein Ansatz sowohl reizvoll
als auch vielversprechend wirkt, geht er für die Absichten, die ich mit meinem
designorientierten Ansatz verfolge, zu weit.
Ich verwende aufgenommene Geräusche als Grundelemente meiner Klangkulissen,
um die Glaubwürdigkeit und das Präsenzgefühl zu steigern. Experimente mit
synthetisierten Klängen würden sowohl den Rahmen dieser Arbeit als auch den
dafür benötigten Aufwand in die unermesslichen Weiten des Alls sprengen.
In meiner Arbeit soll es nicht um eine physikalisch korrekte Wiedergabe von
20
Audiokulissen mit den dazugehörigen Raumeigenschaften, wie sie etwa von
Raytracingmodellen o.ä. berechnet werden, gehen.
Im Mittelpunkt steht hier ganz klar das Alltagshören und nicht das musikalische
Hören der perzeptiven Forschung. Dennoch gehe ich nicht so weit wie Gaver,
einzelne Geräusche auf der Ebene ihrer Entstehung zu synthesisieren, sondern
benutze sogenannte Samples, kurze aufgezeichnete Fragmente, als Bausteine für
die Komposition von Geräuschkulissen.
Das „Environmental“ des Titels geht auf einen Ausspruch von Friedmann32 zurück,
einem Betreuer dieser Arbeit. Seiner Ansicht nach kann die Reproduktion von
Alltagsgeräuschen folgendem Schema folgen:
„trockene“, arrangierte Aufnahmen +
ERTF (environment related transfer functions/akustische
Raumeigenschaften)
-------------------------------------------------------= wiedergegebenes Klangereignis
Wie bereits erwähnt, beschäftige ich mich nicht mit den exakten physikalischen
Eigenschaften der Geräusche – da der gestalterische Aspekt im Vordergrund steht,
auch nicht eingehend mit den räumlichen Eigenschaften.
Dem Einfluss der Umgebung (environment) auf die einzelnen Audioszenen sind
einige Worte in Kapitel 4 (Environmental Scene Design) gewidmet.
Die technische Machbarkeit der genannten Formel bei der räumlichen Wiedergabe
wird im Kapitel 5 (WFS) angesprochen.
Zur Abgrenzung vom ecological approach, aber auch um die inhaltliche Nähe zu
diesem zu verdeutlichen, behalte ich das Synonym environmental für den Titel bei.
Selbst wenn der Rest des Titels – Scene Analysis – eine Nähe zu Bregman
„Auditory Scene Analysis“ suggeriert, existieren zwar Parallelen, aber wenig
Gemeinsamkeiten: Bregman betreibt mit seinem Werk33 kognitive Forschung
(Mustererkennung, Gestalttheorie), der Tenor vorliegender Publikation ist jedoch
überwiegend pragmatisch und designorientiert.
In Kürze noch einmal die Zielsetzungen, die mit dieser Arbeit verfolgt werden:
I.
Das Extrahieren von Designvorgaben für Alltagsszenen aus realen
Beispielen, sowie das Abgleichen der gewonnenen Erkenntnisse mit ähnlich
gearteten Forschungsergebnissen. (Kap. 3 und 4)
II. Die prototypische Umsetzung dieser Designvorgaben in einer
Programmiersprache (Kap. 5)
III. Ausgabe der Audioszenen über ein räumliches Wiedergabeverfahren (Kap.
6)
IV. Bewertung der Ergebnisse aus I. bis III. (Kap. 7)
32 Friedmann, Bruno, Meeting zur Besprechung der Diplomarbeit, 30.05.2006
33 Bregman, Auditory Scene Analysis. Cambridge, MIT Press, 1990
21
3.2 Analyse von Aussenaufnahmen:
3.2.1 Ausstattung und Audioformat
Für die Aufzeichnungen vewendete ich folgende Ausstattung:
•
Kemsonic 1627 Messmikrofon, Elektret, kugelförmige Richtcharakteristik,
annähernd linearer Frequenzgang von 20 Hz – 20 kHz
•
Stage Line MPA-102 Mikrofon-Vorverstärker, batteriebetrieben, mit fein
justierbarem Ausgangspegel
•
Sony MD Walkman MZ-NH900, Hi-Mini-Disc Gerät; Speicherkapazität der
Medien: 1 GB
Die Aufnahmen wurden digital und unkomprimiert mit 16 bit, 44,1 kHz auf dem
MD-Medium gespeichert und später auf die Festplatte übertragen. Ausser
Normalisierung auf -3 dB erfolgte keinerlei Veränderung der Dateien – daher ist an
manchen, wenigen Stellen ein intensives Störgeräusch zu vernehmen, dass durch
Wind und mangels eines entsprechenden Windschutzes für das Mikrofon
entstanden ist.
Zur Aufnahme von Regengeräuschen im Wald bastelte ich einen provisorischen
Windschutz aus Verpackungsschaumstoff, der für den Zweck ausreichte.
Abb. 6: Equipment für Audioaufnahmen
3.2.2 Stadtszenen
Diese Aussenaufnahmen entstanden am 23. März 2006, zwischen 16 und 17:45
Uhr.
Um einen Vergleich der Geräuschstruktur verschiedener Innenstadtszenen
anstellen zu können, schnitt ich an verschiedenen, mir geeignet erscheinenden
Örtlichkeiten mit der eben beschriebenen Ausrüstung Audiodateien zwischen
zweieinhalb und knapp vier Minuten mit. Die genauen Standpunkte können der
22
folgenden Stadtplanskizze (Abb. 7) entnommen werden, zusätzlich sind die
Strassennamen in Tabelle 1 erwähnt.
Abb. 7: Die sechs Standorte der Aufnahmen in der Freiburger Innenstadt
Diese Aufnahmen analysierte ich nach umweltpsychologischen Gesichtspunkten,
also unter Beschreibung der Schallereignisse. Ein hierfür eingesetzter In-EarOhrhörer sorgte für das Ausblenden jeglicher Umweltgeräusche (die u.U. kaum
von dem aufgezeichneten zu unterscheiden wären) und garantierte ein
störungsfreies Abhören.
Die erste Tabelle (Tab. 1) enthält eine Auflistung aller vorkommenden Geräusche
samt der Häufigkeit ihres Vorkommens.
Bei der Häufigkeit unterscheide ich zwischen
•
punktförmig auftretenden Schallereignissen von maximal 4 Sekunden
Länge, die durch einen Punkt „.“ markiert werden
•
länger (als 4 Sekunden) anhaltenden Geräuschen, die mittels einer Tilde
„~“ symbolisiert werden
•
Schallereignisse, die sich über die komplette Länge der jeweiligen
Aufzeichnung erstrecken, werden durch ein Gleichheitszeichen „=“
veranschaulicht.
Hier soll erwähnt werden, dass – trotz allen Strebens nach objektiven Ergebnissen
– eine absolut exakte Erfassung aller in den Aufnahmen auftretenden
Schallereignisse weder sinnvoll noch gewünscht ist.
Dies hat vor allem den Grund, dass dieselbe Aufnahme kein zweites Mal gemacht
werden kann, auch wenn noch so viele Parameter übereinstimmen (Länge der
Aufnahme, selber Ort, selbe Tageszeit). Es werden immer unterschiedliche
Klangereignisse aufgezeichnet werden, auch mit einer hohen Fluktuation in der
Dichte ihres Auftretens, so z.B. mal mehr Passantenstimmen, mal mehr anfahrende
Autos usw.
23
Sinnvoll erscheint daher eine Kombination aus quantitaver und qualitativer
Erfassung, nämlich:
1. Welche Geräusche spielen sich an einem bestimmten Platz mit einer hohen
Wahrscheinlichkeit ab und mit welcher Häufigkeit?
2. Welche Geräusche verleihen dem Platz einen einzigartigen klanglichen
Charakter?
Mit Frage 2 beschäftigen wir uns im Kapitel „Environmental Scene Design“ näher,
wenn es um Reduktion der Klangelement geht.
Zuerst versuchen wir, um Frage 1 beantworten zu können, dem Chaos in dieser
ersten Analyse Herr zu werden.
24
Nr.
Ort:
Beschreibung
Dateiname,
Länge
Schallereignisse
Häufigkeit
1
Werthmann-Rotteck-Ring
Ecke Ratshausgasse:
vierspurige Hauptstrasse,
Leute aus der
Fußgängerzone strömen
über eine Fußgängerampel,
auf dem Gehweg sind
etliche Marktstände
alternativmarkt.wav
- Schritte auf Asphalt
- Stöckelschuhe
- Gesprächsfetzen
- Kinderstimmen
- Gitarrenspiel
- Männergespräch
- Lachen
- Autos, Motoren
- Anfahrgeräusche
- Vogelstimmen
.....
~..
...
..
.~.
..~.
....
....~...
..~..~.
.~~~
Niemensstr.:
Fußgängerzone,
Straßencafes (zu der Zeit
noch ohne Tische draußen)
seitenstr.fuze.wav
- Vögelzwitschern
- indifferentes Rumpeln
- Stöckelschuhe
- andere Schritte
(Kopfsteinpflaster)
- Dialogfetzen
- Fahrradklappern
- Türenquietschen/schlagen
- Gläserklirren/Thekenlärm
- Lachen
- Hintergrundrauschen
.~~..(=)
.
~.~~
...
- Vogelstimmen
- Hubschrauber
- Tram (Brücke)
- Flugzeug
- Schritte
- knirschende Schritte
(Kies)
- Trolley
- Rufe, Schreien
-- Kinder (Spielplatz)
-- Betrunkener
- Autos
- Wind
- Kirchenglocke
=~~
~
~~
~
~~~~
~~
- Busbremsenquietschen
- Schritte
- Fahrrad
- Kanaldeckelgeräusche
- Dialogfetzen
- Motorengeräusche
(aufgemotzte Motoren)
- Tram
.
~..
.
..
..~.
~....~.
~.
.
- Hundekläffer
- div. Unterhaltungen
- Wind
- Kinderstimmen
- Trameinfahrt + Bremsen
- Kirchenglocke
- Schritte unterschiedlicher
Frequenz
- Tramklingel
- Anfahr- und
Abfahrgeräusche
- Jugendliche lachen
- Schienenquietschen
- Rufe
- laufende Motoren
- Verkehrslärm
- Türenöffnen (Zischen)
.
...
...
~ ...
...~.
.
2
3
4
5
Stühlingerpark:
hinter dem Hauptbahnhof,
ca 2-3 Hektar,
umsäumt von Bahngleisen,
Trambrücke und großer
Kirche
3' 50“
3' 21“
stuehlingerpark.wav
3' 50“
Platz der Alten Synagoge
Gehweg gegenüber
Stadttheater:
vierspurige Straße kreuzt
Fußgängerzone,
Fußgängerampel,
Bushaltestelle in der
Straßenmitte
visavis.theather.wav
Stadtbahnbrücke,
Haltestelle Bus und Tram:
Brücke (Fußgängerzone)
führt über die Gleise des
Hauptbahnhofs,
relativ lange Haltestelle für
etliche Bus- und Tramlinien
tram.bhfbruecke.wav
2' 25'
3' 42“
25
...~..
.~~
...
...
.~~
=
~
.
.
....
~
~
..~.
.
..~.~
..
.
..
..
=
...
Nr.
Ort:
Beschreibung
Dateiname,
Länge
Schallereignisse
Häufigkeit
6
Konrad-Adenauer-Platz
zwischen Stadtbahn- und
Stühlingerbrücke:
vierspurige Hauptstraße,
Fußgängerampel,
Busbahnhof
fugae-ampel.bhf.wav
- metallisches Schaben
- viele Motoren gleichzeitig
- Anfahren
- laute Motoren
- Hupen
- Bremsquietschen
.
~~
~~~
..
.
..
2' 30“
Tab. 1
Die simple Auflistung der Schallereignisse in Vokabeln, die dem „everyday
listening“ entsprechen, wirkt überaus unübersichtlich und uneinheitlich.
Im Sinne einer besseren Übersicht und um die Komplexität zu verringern, muss ein
Ordnungssystem eingeführt werden, das eine Klassifizierung der einzelnen
Geräusche ermöglicht.
3.2.2.1 Abstraktion: Sprachliche Einheit
Der erste Schritt besteht darin, einheitliche sprachliche Ausdrücke für ähnliche
akustische Ereignisse zu gebrauchen, etwa:
Dialogfetzen, Gespräche, Unterhaltungen meinen alle dasselbe und können
fernerhin unter einem Begriff, z.B. Gespräch, firmieren. In einer urbanen
Geräuschkulisse kommt es ohnehin nicht auf den Inhalt der Unterhaltung an,
daher kann man Gespräch weglassen und gleich die Lautäußerung (Lachen,
Schreien) oder die sich unterhaltende Alters- bzw. Geschlechtsgruppe einsetzen.
Um jedoch keine Ungenauigkeiten aufgrund von wegfallenden
Eigenschaftswörtern, wie etwa: knirschende bzw. hektische Schritte oder laute
Motoren hinnehmen zu müssen, werden die Attribute zusammengefasst unter dem
beschreibenden Substantiv aufgelistet, etwa so:
Motoren (laut, anfahrend, abfahrend, laufend)
Die aufgemotzten Motoren (beispielsweise) sind nun ebenfalls laut.
3.2.2.2 Kategorisierung: Gruppenbildung/Hierarchisierung
Das letzte Beispiel führt uns nahtlos zur nächsten Vereinfachung, nämlich dem
Suchen nach geeigneten Oberbegriffen, um sinnvolle Gruppen von
Geräuscheinheiten innerhalb einer Aufnahme bilden zu können.
Was sinnvoll ist, messen wir auf der (pragmatischen) Skala der Nützlichkeit.
Da es nach der Analyse- und Designphase darum geht, Audiokulissen
nachzubilden, erscheint eine Einteilung nach den Verursachern der Geräusche,
nach den Akteuren, sinnvoll, denn dieses Schema wird auch von den Herstellern
von Geräusch-CDs (zum Zweck der Vertonung medialer Produktionen) eingesetzt.
26
Abb. 8: Beispiel Inhaltsausschnitt einer Geräusch-CD
Analog können nun verschiedene verbale Akte menschlicher Akteure
folgendermaßen untergliedert werden:
~ Mensch
•
verbal (bzw. vokal, schließt auch nichtsprachliche Kehlkopflaute ein)
•
Kinder (Gespräch)
•
Männer (Gespräch)
•
Lachen
Am Ende sollten, zusätzlich zu ihrer entstehungsspezifischen Verwandtschaft, auch
in ihrem Klang ähnliche Geräusche sich in einer Gruppe wiederfinden.
Dieser Ansatz wird im Kapitel Design weiterverfolgt, hier jedoch will ich es bei
folgender Klassifizierung bewenden lassen, beruhend auf der Auswertung der
Stadt- und Kneipenaufnahmen:
~ Mensch
•
Kommunikation (vokal)
•
Gespräch (gemischt, Männer, Kinder)
•
Lachen
•
Schreien
•
Bewegung (mobil)
•
sonstige (musisch)
~ Tier
•
vokal
•
...
~ Umwelt
27
•
•
Wetter
•
Wind
•
Regen
Gebäude
•
Türe
•
Tische
•
Kicker
•
Gläser
~ Maschinen
•
Motoren (laufen, beschleunigen, laut)
•
Bewegung (Bremsenquietschen, Schienengeräusch)
•
Sonstiges
•
Türen öffnen/schließen (pneumatisch)
•
Hintergrundrauschen/Verkehrslärm
•
Rumpeln/Getöse
•
Hupen
Nach dieser Einteilung sind wir spätestens auf der dritten Ebene entweder bei
dem Urheber des Schalls, oder sogar schon bei einem Attribut eines
Schallerzeugers.
Wenn wir diese Abstraktionen auf obige Tabelle (Tab. 1) mit den 6 InnenstadtAufnahmen anwenden, erhalten wir folgendes Ergebnis (Tab. 2):
28
Nr.
Dauer
1. Ordnung
2. Ordnung
Schallereignisse
(Attribute)
Häufigkeit
Typisch?
1
Mensch
mobil
- Schritte (Teer)
(Stöckelschuhe)
- Gespräch (gemischt)
(Kinder)
(Männer)
- Lachen
- Gitarrenspiel
- fahren
- beschleunigen
- Vogel
.....
~ ..
...
..
~ ...
....
~ ..
~ .......
~~ .....
~~~ .
+++
- Schritte (Stöckelschuhe)
(Kopfsteinpflaster)
- Fahrradklappern
- Gespräch
- Lachen
- Rumpeln
- Hintergrundrauschen
- Türen (schließen)
- Theke
- Vogel
~~~ .
...
~~ .
~ .....
~~ .
.
=
...
...
=
+++
- Schritte (Teer)
(Kies)
- Trolley
- Schreien (Kinder)
(Betrunkener)
- Hubschrauber (fern)
- Tram (Brücke)
- Flugzeug (fern)
- Autos
- Kirchenglocke
- Wind
- Vögel
~~~~
~~
~
.
.
~
~~
~
...
~
~
=
+++
- Schritte
- Fahrrad
- Gespräch
- Auto
(laut)
- Tram
- Bremsenquietschen
- Kanaldeckel (klappert)
~ ..
.
~ ...
~~ .....
~.
.
.
..
++
+
++
+++
- Schritte (verschieden schnell)
- Gespräch (gemischt)
(Kinder)
- Lachen
- Schreien
(laufende)
- Tram (Einfahrt)
(Abfahrt)
- Bremsen
- Schienenquietschen
- Tramklingel
- Verkehrslärm
- Türen (pneumatisch)
- Kirchenglocke
- Wind
- Hund (kläfft)
~ ...
...
~ ...
...
.
...
~ ...
~~ ...
~.
~~ ..
.
=
...
.
...
.
+++
++
vokal
3' 50“
2
Maschine
musisch
Motor
Tier
vokal
Mensch
mobil
3' 21“
3
vokal
Maschine
Sonstiges
Umwelt
Gebäude
Tier
vokal
Mensch
mobil
3' 50“
4
2' 25“
vokal
Maschine
sonstiges
Umwelt
Tier
Gebäude
Wetter
vokal
Mensch
mobil
Maschine
vokal
Motor
Bewegung
5
Umwelt
Straße
Mensch
mobil
vokal
3' 42“
Maschine
Motor
Bewegung
Sonstiges
Umwelt
Sonstiges
Tier
vokal
29
+++
++
+
+++
++
++
+++
++
o
+++
+
+
++
o
+
+
+(+)
+
+
+
+
+++
+
++
+
+
o
+++
++
+++
+(++)
+++
++
o
o
+
Nr.
Dauer
1. Ordnung
2. Ordnung
Schallereignisse
(Attribute)
Häufigkeit
Typisch?
6
Maschine
Motor
Autos (viele)
(anfahrend)
(laut)
- Bremsen
- Hupen
- metallisches Schaben
~~
~~~
..
..
.
.
+++
2' 30“
Bewegung
Sonstiges
++
++
o
Tab. 2
3.2.2.3 Beschreibung: Besonderheiten und Auffälligkeiten
Um die Analyse abzurunden, halte ich eine kurze Beschreibung der einzelnen
Szenen für sinnvoll, wobei ich hier nur die auffallenden Merkmale der jeweiligen
Aufnahmen erwähne, wozu auch emotionale Eindrücke zählen, die beim Hören
entstehen.
Einige dieser Besonderheiten werden im nächsten Kapitel referenziert.
Szene 1:
Hier ist, vor allem im Vergleich zu den anderen Innenstadtszenen, der Kontrast
zwischen dem Strassenlärm und der fremdländischen, heiteren Unterhaltung der
Männergruppe auffällig, die von gelegentlichem Gitarrenspiel begleitet wird.
Szene 2:
Erwähnenswert sind hier zwei Dauergeräusche – zum einen Vogelgezwitscher aus
mehreren Kehlen, zum anderen ein indifferenter, vom Pegel gleichbleibender
Verkehrslärm, den man als Hintergrundrauschen bezeichnen kann.
Szene 3:
Sehr intensiv und vordergründig ist hier das Vogelgezwitscher mehrerer
Singvögel.
Das aufdringlichste, weil lauteste Geräusch ist gegen Ende der Aufnahme die
Kirchenglocke, die viertel vor fünf schlägt.
Szene 4:
Hier ist ein zyklisches, kollektives Anschwellen der Motorengeräusche, vermutlich
ausgelöst durch die Ampelschaltung, zu vernehmen.
Szene 5:
Dies ist von der Geräuschhäufigkeit eine der dichteren Szenen, was angesichts der
Hektik an einer Tramhaltestelle oberhalb des Hauptbahnhofs auch nicht
verwundert.
So sind hier öfters auch schnellere Schritte zu vernehmen, sowie ein ständiges Anund Abfahren von Bussen und Bahnen, die insgesamt – subjektiv betrachtet –
jedoch nicht den Stresspegel der Fußgängerampelaufnahme in Szene 6
verursachen.
Szene 6:
Ganz deutlich sind zwei Ampelschaltungen auf Grün herauszuhören, und zwar
30
vernimmt man das typische Anfahren vieler Autos gleichzeitig. Sehr gut zu sehen
auch im folgenden Ausschnitt der Datei „fugae-ampel.bhf.wav“, geöffnet im
Audioeditor Audacity (s. Anhang II):
Abb. 9: Geöffnete Wave-Datei in Audacity
Zu den beiden Zeitpunkten 1:10 und 2:20 erkennt man eine deutliche
Pegelzunahme durch die anfahrenden Fahrzeuge.
Vom gefühlsmäßigen Empfinden wirkt diese Audioszene nervig, stressig, der
Verkehrslärm und das gelegentliche Hupen löst Gefühle der allgemeinen Hektik,
des Weiterkommenmüssens, der Bewegung und Aktionszwang aus.
31
4 Environmental Scene Design
4.1 Der Weg und das Ziel
Die Analyse des letzten Kapitels brachte eine Struktur in die Elemente der
aufgezeichneten Kulissen, sowie eine quantitavie Auswertung der Häufigkeit ihres
Vorkommens.
Dieses Kapitel widmet sich dem Herausarbeiten von Gestaltungsrichtlinien, deren
programmiertechnische Umsetzung in der Realisierung und Wiedergabe von
glaubwürdigen, der Realität nachempfundenen ambienten auralen Kulissen
münden soll.
Folgende Kriterien werden dabei als richtungsweisend definiert:
✔
Hoher Realismus der Ergebnisse (bei gleichzeitigem)
✔
Minimalismus der benötigten Fragmente
✔
Skalierbarkeit der Anwendung
Das Ziel einer immersiven VR-Umgebung ist die Kreation einer sogenannten
„suspension of disbelief“ (wörtlich: Aufheben der Ungläubigkeit) – der Punkt, an
dem ein Nutzer die Unzulänglichkeiten der Technik in Kauf nimmt oder gar
vergisst und in die künstliche Welt eintaucht, die ab diesem Zeitpunkt für ihn zum
primären Aktions- und Wahrnehmungsraum wird.
Eine Steigerung des Immersionsgrades im Zusammenspiel mit einer visuellen VR
ist bereits in der Forderung nach hohem Realismus enthalten.
Bei der Umsetzung dieser Zielvorgaben baue ich auf der Vorarbeit von Serafin34
auf, deren Erkenntnisse ich bereits an anderer Stelle35 exzerpiert und strukturiert
beschrieben habe:
Nach Serafin steigt der Grad der Immersion einer audiogestützten VR durch
folgende Faktoren:
•
sich bewegende Schallquellen
•
interaktionsabhängige Klangereignisse
(besonders effektiv in Verbindung mit User Tracking)
•
Vielfalt der Geräusche (wenig Wiederholungen, kein erkennbares Muster)
•
bewusste Übertreibung von Klängen (Nachvertonung, Foley-Effekte36)
•
klangliche Erfüllung der Erwartungshaltung eines VR-Nutzers
(Klischees bedienen, die durch häufigen Medienkonsum entstehen)
Somit können wir schließen, dass eine akustische Untermalung nach den eben
genannten Kriterien in einer VR-Umgebung ein stärkeres Präsenzgefühl erzeugt.37
Der erste Punkt ist im Wesentlichen die Aufgabe des Wiedergabesystems (s. Kap.
34
35
36
37
Stefania & Giovanni Serafin, „Sound Design to Enhance Presence in Photorealistic Virtual Reality“ s. Literatur (2)
Gassner, Rolf: Audio und VR, Ausarbeitung in der WPV E-Space bei Prof. Fetzner
s. Glossar
Gassner, Audio und VR, S. 1
32
6), wird aber auch bei der Kategorisierung der Samples berücksichtigt.
Punkt 2 (Interaktionsgeräusche) wird unter 4.2 angesprochen.
Für eine Vielfalt der Elemente sorgt, trotz der geforderten Beschränkung in
Abschnitt 4.4 (Klangliche Verfremdung) eine Veränderung verschiedener, den
Klang beeinflussender Parameter.
Was die Foley-Effekte angeht, so ist eine Übertreibung der Klangereignisse nicht
nötig, da hier kein Einfluss auf die Emotionen der User beabsichtigt ist. Es sollte
genügen, die Klischees zu bedienen – der geforderte Realismus ist daher auch
nicht im Sinne eines akribischen Nachahmens von Real Life Szenen gemeint,
sondern bezogen auf die Wirkung – eine Szene wirkt realistisch, wenn die (zumeist
unbewussten, auf Erfahrungswerten und Prägungen durch Medienkonsum
beruhenden) Assoziationen der Hörer mit der klanglich dargestellten Szene
harmonieren.
Der Erwartungshaltung der Nutzer wurde bereits bei der Analyse Rechnung
getragen und ist auch Thema im Abschnitt 4.2.
Um nun ein gewünschtes auditives Szenario nachzuahmen, sind folgende Schritte
nötig:
1. Definition des Zieles und grobe Wegskizze (dieser Abschnitt)
2. Auswahl der vorkommenden Grundelemente (Reduktion, Herausarbeiten
der wesentlichen klangbestimmenden Ereignisse)
3. Kategorisierung nach dem Grundschema einer Audioszene
4. Möglichkeiten der klanglichen Beeinflussung aufzeigen
5. Dramaturgische Elemente und Hintergrund bestimmen
6. Synthese einer neuen Szene unter Berücksichtigung von 1-5
4.2 Reduktion
Nun können wir uns der Frage aus 3.2.2 widmen:
„Welche Geräusche verleihen dem Platz einen einzigartigen klanglichen
Charakter?“
Diese Frage haben sich bereits Chueng38 und Marsden39 gestellt und zum Thema
Erwartungshaltung und Unterscheidung („discrimination“) Papers verfasst, die
einen minimalistischen Ansatz zur Gestaltung von Audiokulissen für virtuelle
Umgebungen behandeln.
Dabei unterstreichen sie insbesondere jene „sound events“, die für ein hohes
Präsenzgefühl in der jeweiligen Umgebung sorgen. Das sind ihrer Meinung nach
die Klangereignisse, die
1. von dem Nutzer an einem Ort erwartet werden
38 Chueng P., Designing sound canvas: The role of expectation and discrimination, Extended abstracts of CHI 2002
Conference on Human Factors in Computing Systems (2002)
39 Chueng, P., Marsden, P., Designing Auditory Spaces to Support Sense of Place: The Role of Expectation. Position
paper for The Role of Place in On-line Communities Workshop, CSCW2002, New Orleans, November 2002
33
2. einzigartig sind am jeweiligen Ort und dadurch einen hohen
Wiedererkennungswert besitzen
4.2.1 Reduktion durch Bewertung
Unter Berücksichtigung dieser Kriterien bewerte ich die nunmehr in Gruppen
eingeteilten Elemente der Aufnahmen auf einer Skala von 0 bis 4 folgendermaßen
nach ihrem Grad der Repräsentativität für die jeweilige Umgebung:
•
o
untypisch
•
+
kommt hin und wieder vor
•
++
kommt häufig vor, erfüllt die Erwartungshaltung
•
+++ typisch bis einzigartig, hoher Unterscheidungsgrad
Sicherlich könnte man Studien, Evaluationen und Tests zur Repräsentativität von
bestimmten Elementen in Geräuschkulissen durchführen, um zu einer objektiveren
Gewichtung dieser Elemente zu gelangen.
Da es sich jedoch hier eher um Gestaltungsfragen handelt denn um eine
wissenschaftliche Analyse von Hörgewohnheiten und kulturell bedingten
Prägungen, erübrigt sich dieser Aufwand und ich bewerte die Elemente in erster
Linie subjektiv vor dem Hintergrund meiner Erfahrung und pragmatisch im
Hinblick auf die Applikation, die ebensolche Szenarien generieren soll.
Selbstverständlich bezieht sich die Bewertung auf den jeweiligen Ort der
Aufnahme (s. Beschreibung in Tab. 1) – so z.B. erwartet niemand Singvögel an
einer Straßenkreuzung, im Park hingegen durchaus.
Pauschal gelten folgende Orientierungshilfen bei der Bewertung:
•
Bewertet werden die Schallereignisse, nicht die Attribute
•
Elemente, die höchstens einmal pro Minute vorkommen, erhalten ein 'o'
oder '+'
•
Elemente, die häufiger vorkommen: '++' oder '+++' (dazu gehören auch
die Dauergeräusche '=')
•
Häufigkeit einer Tilde '~' (länger als 4 Sek.) entspricht etwa 2 bis 3
Punkten '.'
Die nach diesem Schema ausgedünnte Stadtszenentabelle sieht folgendermaßen
aus:
34
Nr.
Dauer
1. Ordnung
2. Ordnung
Schallereignisse
(Attribute)
Häufigkeit
Typisch
1
Mensch
mobil
- Schritte (Teer)
(Stöckelschuhe)
- Gespräch (gemischt)
(Kinder)
(Männer)
- Lachen
- Gitarrenspiel
- fahren
- beschleunigen
- Vogel
.....
~ ..
...
..
~ ...
....
~ ..
~ .......
~~ .....
~~~ .
+++
- Schritte
- Fahrrad
- Gespräch
- Auto
(laut)
- Tram
- Bremsenquietschen
- Kanaldeckel (klappert)
~ ..
.
~ ...
~~ .....
~.
.
.
..
++
+
++
+++
- Schritte (verschieden schnell)
- Gespräch (gemischt)
(Kinder)
- Lachen
- Schreien
(laufende)
- Tram (Einfahrt)
(Abfahrt)
- Bremsen
- Schienenquietschen
- Tramklingel
- Verkehrslärm
- Türen (pneumatisch)
- Kirchenglocke
- Wind
- Hund (kläfft)
~ ...
...
~ ...
...
.
...
~ ...
~~ ...
~.
~~ ..
.
=
...
.
...
.
+++
++
Autos (viele)
(anfahrend)
(laut)
- Bremsen
- Hupen
- metallisches Schaben
~~
~~~
..
..
.
.
+++
vokal
3' 50“
4
2' 25“
Maschine
musisch
Motor
Tier
vokal
Mensch
mobil
Maschine
vokal
Motor
Bewegung
5
Umwelt
Straße
Mensch
mobil
vokal
3' 42“
Maschine
Motor
Bewegung
Sonstiges
6
2' 30“
Umwelt
Sonstiges
Tier
vokal
Maschine
Motor
Bewegung
Sonstiges
+++
++
+
+++
++
+
++
+
+
o
+++
++
+++
+(++)
+++
++
o
o
+
++
++
o
Tab. 3
Szene 2 und 3 fallen weg, da sie nicht vollständig der Beschreibung
„Straßenkreuzung mit Tramhaltestelle Nähe Fußgängerzone“ entsprechen.
Dennoch habe ich mir erlaubt, die beiden Szenen zu analysieren, um
1. Unterschiede in der Zusammensetzung von Kulissen zu zeigen, die beide zu
Innenstadtszenen gehören (gleiche Umgebung), jedoch von
unterschiedlichen Orten herrühren.
2. die Zweckmäßigkeit der thematischen Einteilung aus Kap. 3 zu testen.
In einem ersten Schritt werden nun systematisch alle Elemente entfernt, die eine
Bewertung von 'o' und '+' haben.
Daraus ergibt sich Tabelle 4:
35
Nr.
Dauer
1. Ordnung
2. Ordnung
Schallereignisse
(Attribute)
Häufigkeit
Typisch
1
Mensch
mobil
- Schritte (Teer)
(Stöckelschuhe)
- Gespräch (gemischt)
(Kinder)
(Männer)
- Lachen
- fahren
- beschleunigen
- Vogel
.....
~ ..
...
..
~ ...
....
~ .......
~~ .....
~~~ .
+++
- Schritte
- Gespräch
- Auto
(laut)
- Bremsenquietschen
~ ..
~ ...
~~ .....
~.
.
++
++
+++
- Schritte (verschieden schnell)
- Gespräch (gemischt)
(Kinder)
(laufende)
- Tram (Einfahrt)
(Abfahrt)
- Bremsen
- Schienenquietschen
- Tramklingel
- Verkehrslärm
- Türen (pneumatisch)
~ ...
...
~ ...
...
~ ...
~~ ...
~.
~~ ..
.
=
...
+++
++
Autos (viele)
(anfahrend)
(laut)
- Bremsen
- Hupen
~~
~~~
..
..
.
+++
vokal
3' 50“
Maschine
Motor
Tier
vokal
4
Mensch
2' 25“
Maschine
mobil
vokal
Motor
5
3' 42“
Mensch
mobil
vokal
Maschine
Motor
Bewegung
Sonstiges
6
2' 30“
Maschine
Motor
Bewegung
Sonstiges
+++
++
+++
++
++
+++
++
+++
+(++)
+++
++
++
++
Tab. 4
4.2.2 Reduktion durch Verschmelzung
In einem zweiten Schritt fasse ich die 4 Szenen zu einer einzigen zusammen.
Elemente, die in weniger als 2 Szenen vorkommen, werden nicht weiter
berücksichtigt.
Eine Ausnahme bildet hier die Tramklingel, da sie einen sehr hohen
Wiedererkennungswert besitzt.
Die durchschnittliche Häufigkeit der verbleibenden Ereignisse pro Minute wird
(am Beispiel Schritte) folgendermaßen errechnet ('~' entspricht 2,5 x '.'):
(Szene1(Schritte)/Minuten + Sz2(Schr)/min + Sz3(Schr)/min + Sz4(Schr)/min) / 4
= ((9,5/3,83) + (4,5/2,42) + (5,5/3,7) + (0/2,5)) / 4 =
= (2,48 + 1,86 + 1,49) / 4 =
= 1,46 Schritte/Minute
So sieht die Szene nach dieser Operation aus:
36
Nr.
1. Ordnung 2. Ordnung
Schallereignis (Attribut) Häufigkeit/Minute
(Gruppe gesamt)
1
2
3
4
5
6
7
8
9
10
11
12
13
Mensch
- Schritte
- Gespräch
- Auto (laufend)
(anfahrend)
(laut)
- Tram (Einfahrt)
(Abfahrt)
- Bremsen
- Schienenquietschen
- Türen (pneumatisch)
- Tramklingel
- Hupen
- Verkehrslärm
Maschine
mobil
vokal
Motor
Bewegung
Sonstiges
1,46
2,03
2,93
(4,89)
1,40
0,56
0,37
(0,91)
0,54
0,54
0,47
0,20
0,07
0,10
dauernd
Gerundet +
Korrigiert
1,5
2
3
1,4
0,6
0,4
0,5
0,5
0,5
1
0,5
0,5
=
Tab. 5
Zwar liefert die Tabelle ziemlich genaue Werte über die Häufigkeit von einzelnen
Schallereignissen (pro Minute), doch ohne Plausibilitätsprüfung auf erfahrungsund empfindungsgemäße Stimmigkeit kann man sie nicht stehen lassen:
1. In 2 Minuten laufen 3 Menschen vorbei: scheint ok.
2. 2 Gespräche (Gesprächsfetzen) pro Minute erscheint stimmig.
3. 3 laufende Automotoren pro Minute: ok.
4. 3 anfahrende Autos alle 2 Minuten: ok.
5. 1 lauter Automotor alle 2 Minuten: ok
6. Alle 2 bis 2,7 min. fährt eine Tram in die Haltestelle ein und wieder ab:
realistisch (ergibt bei 2 Richtungen eine Taktzeit von ca. 5 min.). Der Wert
in Klammern (0,91) kann so interpretiert werden, dass ca. jede Minute eine
Tram entweder ein- oder abfährt.
7. (s. 6.)
8. 1x quietschende Bremsen alle 2 Minuten: ok
9. Alle 2 Minuten Schienenquietschen: ok
10. Alle 5 min. zischende Türen: zu wenig (zischen beim Öffnen + Schließen)
11. Alle 14 min. eine Tramklingel ist bei dem 5-Minuten-Takt nicht angemessen.
Hinzu kommt, dass eine häufigere Wiederholung von Geräuschen, die einen
hohen Wiedererkennungswert besitzen, als Stilmittel eingesetzt werden
kann, um den VR-Nutzer in seinem Anwesenheitsgefühl zu bestärken.
12. Alle 10 min. ein Hupen scheint für eine mittlere bis große Kreuzung zu
wenig, alle 2 Minuten klingt realistischer.
13. Wenn man an einer Kreuzung steht, ist ständig das Rauschen des
Verkehrslärms zu hören.
Das gestalterische Vorgehen erlaubt einen flexiblen Umgang mit den Zahlen.
An dieser Stelle muss nochmal betont werden, dass die meisten Menschen visuelle
Typen, und dementsprechend auf die optischen Reize der virtuellen Szene fixiert
sind. Die akustische Kulisse wird unbewusst aufgenommen und nur in bestimmten
37
Situationen erfolgt eine bewusste Konzentration auf die Hörinhalte.
Aus diesem Grund ist es legitim, die Häufigkeitsverteilung besonders
repräsentativer Merkmale zu korrigieren, was wiederum der Forderung nach
hohem Realismus entgegen kommt.
4.3 Gruppenbildung/Einteilung
Angelehnt an das Gestalttheorem des Figur-Grund-Kontrasts40, woraus sich eine
Aufteilung einer visuellen Arbeit in Vordergrund und Hintergrund ergibt, kann
man auch beim Hören bzw. in der akustischen Wahrnehmung der Umwelt
zwischen aufdringlichen Geräuschen, die bewusst wahrgenommen werden, und
einer Umgebungskulisse, die unsere Aufmerksamkeit wenig bis gar nicht
beansprucht, unterscheiden.
Auch Serafin41 geht auf dieses Phänomen ein, sie unterscheidet zwischen
•
„ambient sounds“ – Hintergrundgeräusche
•
„sound events/foley effects“
1) Aktionsgeräusche des Users (Schritte, Türe öffnen)
2) vorhersehbare Geräusche (des Environments, z.B. vorbeifahrendes
Auto)
In einer früheren Ausarbeitung, die während der Arbeit an einem VERTEX-Projekt
erstellt wurde (s. 2.2.2.3.) beziehe ich mich auf diese Einteilung wie folgt:
„Beim Analysieren von Geräuschkulissen realer Räume lassen sich drei wichtige
Komponenten ausmachen:
1) Hintergrundgeräusche (Atmo/Ambient):
Lassen sich durch geeignete Loops von (Archiv-)Aufnahmen abbilden.
Dabei wird der Raumcharakter durch Versehen der Aufnahme mit
entsprechenden Effekten nachgeahmt.
2) Punktschallquellen:
b) Vertonte Objekte (Werbetafel, Passanten im Gespräch)
Klangmaterial ist an das Objekt gebunden und muss in Echtzeit
berechnet werden (Rendering). Als Grundlage dient ein passendes
Sample einer Aufnahme, eventuell als Loop.
c) Interaktionen des Nutzers (Schritte, Türe öffnen)
Lassen sich durch einmaliges Abspielen von Samples darstellen, z.B. bei
Kollissionen mit sichtbaren 3D- oder unsichtbaren, akustischen Objekten.
Zusammengefasst ergibt sich die einfache Formel:
Objektgeräusche + Interaktionsgeräusche + Hintergrund = Auditive VR“42
Interaktionsgeräusche möchte ich vorneweg ausklammern, diese Arbeit
konzentriert sich auf Hintergrund und Objektklänge. Interaktionssounds sind
40 Fries, Christian: Grundlagen der Mediengestaltung, C. Hanser München Wien, 2004, S. 42
41 Serafin, Stefania & Giovanni, „Sound Design to Enhance Presence in Photorealistic Virtual Reality“ s. Literatur
42 Gassner: Audio und virtuelle Umgebungen, S. 2
38
jedoch die gleichen Klangobjekte wie Objektgeräusche und können bei Bedarf
entsprechend eingebunden werden – sie erfordern lediglich von der visuellen VRAnwendung einen Auslöser samt Positionsdaten.
Übrig bleiben also die Hintergrund- und die Objektgeräusche, wobei erstere
statisch sind, das heisst entweder als Diffusschall im Raum vorhanden oder eine
fixe Position einnehmend, während letztere (den Anforderungen entsprechend) im
Klangraum bewegt werden (können).
Die Objektgeräusche werden wir noch weiter unterteilen nach den Möglichkeiten
ihrer Veränderung – mehr dazu im nächsten Abschnitt.
Vorerst ergeben sich die beiden Gruppen:
•
Hintergrund: Verkehrlärm (Rauschen)
•
Klangobjekte: alle anderen Geräusche aus Tabelle 5
4.4 Klangliche Verfremdung
An dieser Stelle sei nochmal erwähnt, dass für das Zusammensetzen einer
Innenstadtkulisse Samples verwendet werden, die aus einem ebensolchen Szenario
herausgeschnitten wurden. Warum ich auf eine (mit Sicherheit mögliche) Synthese
einzelner Elemente in dieser Arbeit nicht eingehe, habe ich bereits in 3.1.3
erwähnt.
Im Sinne einer Skalierbarkeit der Anwendung – speziell meine ich die einfache
Erweiterung um zusätzliche Audiokulissen – halte ich es für sinnvoll, die Anzahl
der verwendeten Samples auf ein Mindestmaß zu begrenzen. Das trägt dazu bei,
dass der Aufwand für das Erzeugen einer gewünschten Kulisse sich auf das
Zusammentragen (und eventuell Zurechtschneiden) einiger weniger Fragmente
beschränkt, die leicht auf Geräusch-CDs (vorgesehen für die Vertonung von
Multimediaproduktionen), oder in Sound-Bibliotheken43 im Internet zu finden sind.
Wenn man einen Blick auf Gavers Framework wirft, dann erkennt man schnell,
dass die von ihm als „temporal patterning“ bezeichneten Klangereignisse aus
mehreren „basic level events“ zusammengesetzte Geräusche sind. Denkt man in
dem Zusammenhang etwa an Schritte, dann klingt natürlich nicht jeder einzelne
davon gleich, sondern es herrscht eine gewisse Variation in Abhängigkeit vom
Untergrund, der Geschwindigkeit, Steigung oder Gefälle des Geländes, der
Laufrichtung beim Treppensteigen usw.
Denkbar wäre, ein einziges Trittgeräusch zu benutzen und durch passende
Algorithmen bestimmte Parameter zu beeinflussen, sodass sich durch eine
Wiederholung des Samples die auditive Szene eines dahinschreitenden Menschen
ergibt.
Ein Beispiel für die Möglichkeiten, die sich hierdurch bieten, ist der Regenpatcher
in Kapitel 5, der mit lediglich 2 Samples eine in der Intensität regelbare und im
Panorama verteilte Regenkulisse erzeugt.
Mit Blick auf die Tabelle der Stadtszene stellt sich die Frage, wieweit die
43 http://www.findsounds.com/ (als Beispiel)
39
klangliche Verwandtschaft der Elemente innerhalb einer Gruppe dazu benutzt
werden kann, unterschiedliche Unterelemente aus einer einzigen Aufnahme
abzuleiten und welche technischen Mittel dazu in Frage kommen.
Für diese Betrachtung wählen wir Tabelle 4, die durch Auflistung verschiedener
Attribute eine gewisse Varianz der Schallereignisse bietet.
So könnte man beispielsweise fragen, wie durch ein einziges Automotorensample
•
verschiedene Autotypen, wie PKW, LKW
•
verschiedene Geschwindigkeiten
•
verschiedene PS-Klassen
hörbar gemacht werden können.
Unter Zuhilfenahme verschiedener Instrumente aus dem Werkzeugkoffer des
Toningenieurs ergeben sich diverse Möglichkeiten:
4.4.1 Veränderung der Tonhöhe
Durch sogenanntes „Pitchshifting“ – eine Änderung der Tonhöhe bei
gleichbleibender Dauer eines Samples – werden Männer- zu Frauen- oder
Kinderstimmen und visa versum. Auch auf Lachen ließe sich dieser Effekt
anwenden, Schritte erhalten eine andere Klangfärbung (werden heller oder
dunkler), Automotoren klingen dumpfer oder heller.
4.4.2 Tempoänderung
4.4.2.1 Timestretching
Das Gegenteil von Pitchshifting ist Timestretching, was eine Veränderung der
Samplelänge ohne Einfluss auf die Tonhöhe bewirkt – dabei ist hier nicht nur
Dehnen, sondern auch Verkürzen des Samples gemeint.
Anwenden lässt sich dieser Effekt auf Regentropfen, Bremsenquietschen,
Schienenquietschen, Schritte und Türenzischen, jedoch muss die höchstmögliche
Abweichung im Experiment ermittelt werden, um eine comichafte, lächerlich
klingende Verzerrung der Samples zu vermeiden. Letzteres gilt für alle hier
genannten Effekte – eine Übertreibung ins Komische muss vermieden werden, um
den Primat des Realismus nicht zu gefährden.
4.4.2.2 Pitching
„Pitch“ bedeutet Tonhöhe und „pitchen“44 – ein Begriff aus dem DJ-Jargon – meint
das Verändern der Abspielgeschwindigkeit von Tonträgern. Der Unterschied zum
Pitchshifting besteht darin, dass sich mit der Geschwindigkeit auch die Tonhöhe
ändert: wird eine Hörprobe schneller abgespielt, steigt ihre Tonlage, wird sie
langsamer abgespielt, verschiebt sich ihre Frequenz nach unten, in beiden Fällen
direkt proportional zur Geschwindigkeitsänderung.
44 http://de.wikipedia.org/wiki/Beatmatching
40
Somit ist Pitching bereits ein zusammengesetzter Effekt aus Timestretching und
Pitchshifting.
Sinnvoll anwenden könnte man ihn auf: Regentropfen, Schritte, Motorgeräusche,
anfahrende Autos, Bremsenquietschen, Hupen.
4.4.3 Reverse Playback
Durch ein einfaches Unkehren der Abspielrichtung eines Samples kann bei einigen
wenigen akustischen Samples ein Umkehren des Ereignisses imitiert werden, so
etwa beim Einfahren einer Tram in die Haltestelle (klingt ein bisschen wie
Ausatmen). Auch mit Regentropfen habe ich diesen Effekt erfolgreich getestet.
Ob das Zischen beim Türenöffnen einer Tram durch Umkehrung zu einem
Türenschließen wird, muss noch getestet werden.
Weitere Anwendungsbeispiele können mit Sicherheit in anderen Szenarien
gefunden werden.
4.4.4 Temporal Patterning
Ich bediene mich des Begriffs, den Gaver für sein Framework verwendet (s. 3.1.2),
aufgrund seiner komprimierten Aussagekraft und mangels eines adäquaten
deutschen Ausdrucks (zeitliche Musterbildung klänge doch etwas skurril).
Bei komplexen Geräuschen, die aus mehreren gleichartigen Einzelelementen
zusammengesetzt sind, lassen sich grundsätzlich zwei unterscheiden:
1. Geräuschmuster, die aus einer regelmäßigen Wiederholung bestehen
(Beispiel: Schritte)
2. auf (zeitlich) chaotisch verteilten Elementen beruhende Muster (Beispiel:
Regen)
4.4.4.1 Timer
Im ersten Fall kann ein simpler Timer dazu genutzt werden, eine festgelegte (oder
auch per Zufallsgenerator ermittelte) Anzahl von Wiederholungen im gleichen
zeitlichen Abstand auszulösen, um ein gleichförmiges Muster wie Schritte, das
Ticken einer Uhr, Fließbandgeräusche u.ä. zu erzeugen. In der Audiotechnik
spricht man von einem Taktsignal oder Clock.
4.4.4.2 Delay
Für den zweiten Fall kommt ein Echoeffekt (Delay = Echo) in Frage, bei dem die
zeitliche Verzögerung justierbar ist. Zusammen mit einem Zufallsgenerator können
beliebig dichte Flächen erzeugt werden, um etwa einen Regenschauer zu
imitieren. Der Effekt kann auch für Vogelzwitschern oder Hupen verwendet
werden (viele Autofahrer hupen gerne zwei- oder dreimal kurz hintereinander).
41
4.4.5 Lautstärke-Variation
Veränderung der Lautstärke von Samples können verschiedene Wirkungen haben,
am häufigsten wird dieses Mittel beim Abmischen im Tonstudio zur Simulation von
Nähe oder Ferne genutzt. Es beruht auf der simplen Wahrnehmungstäuschung,
dass leise Töne als weiter weg und laute als näher empfunden werden.
Weiterhin kann mittels Ein- und Ausblenden von Samples ein näherkommendes
oder sich entfernendes Klangobjekt suggeriert werden.
Einen dramaturgischen Effekt kann man hierdurch erzielen, wenn man
beispielsweise das Hintergrundrauschen des Verkehrs etwa alle 70 Sekunden kurz
anschwellen und dann wieder abschwellen lässt, um die Grünphase einer Ampel
nachzuahmen.
Eine weitere interessante Möglichkeit bietet das Variieren der Lautstärke bei
Panoramaeffekten:
Der Regenpatcher etwa arbeitet mit zwei getrennten Kanälen, wobei jeder
dasselbe Sample abspielt, jedoch in per Zufallsgenerator veränderter Lautstärke.
Dadurch entsteht beim Hörer der Eindruck, die Tropfen fielen wahllos im
Stereopanorama verteilt, es entsteht ein räumlicher „Rundum“-Effekt.
4.4.6 Equalizer und Filter
Abschließend möchte ich noch kurz auf die Möglichkeiten der Klangveränderung
durch Equalizer eingehen:
Mit Equalizern können bestimmte Frequenzbereiche angehoben oder abgesenkt
werden. So läßt sich durch Absenken der Bässe beispielsweise Dröhnen entfernen,
und durch eine Höhenanhebung erscheinen Aufnahmen brillanter.45
Einfache Beispiele sind das Einstellen eines Hoch- oder Tiefpass'46, wodurch die
Frequenzen eines Samples unter bzw. über einem bestimmten Wert (bekannt als
Grenzfrequenz) weggefiltert werden. Im ersten Fall lassen sich Geräusche mehr in
den Vordergrund rücken, indem Mitten und Höhen stärker betont werden,
während beim Tiefpass aufdringliche Geräusche wie Pfeifen und Quietschen
gedämpft werden und dadurch mehr in den Hintergrund treten.
Die Möglichkeiten von Equalizern sind vielfältig und haben zumeist gestalterische
Funktionen. In der Stadtszene könnte man auf diese Art verschiedene Betonungen
eines Gesprächssamples erreichen, z.B. durch Anheben der Mitten im einen Fall
(präsente, nahe Unterhaltung) und durch einen Tiefpass im anderen (Flüstern,
gedämpfte Unterhaltung).
4.5 Übersicht Stadtszenen
Die beschriebenen Klangeffekte können nun übersichtlich mit den Klangobjekten
in eine Beziehung/Struktur gebracht werden.
45 Sandmann, Thomas: Effekte & Dynamics, S. 13
46 Equalizer und Filter werden üblicherweise getrennt behandelt, dieser Unterschied ist im erwähnten Zusammenhang
jedoch irrelevant. Auch gibt es mittlerweile Equalizer, deren Dämpfung so hoch ist, dass man von Auslöschung
sprechen kann.
42
Pitch
Tempo
Reverse
Temp.Patterns Volume
EQ
Menschen:
vokale Komm.
+
gesamte
„Tempo“-Spalte
Bremsen
Schienen
Schritte
Türen
Hupen
Regentropfen
Trameinfahrt
Türen?
Regentropfen
Regentropfen
Schritte
Hupen
Vogellaute
Verkehrslärm
(Hintergrund)
Dialoge
Dramaturgie
Dramaturgie
Tab. 6
Hier kann man im Ansatz bereits eine gewisse anwendungsorientierte, funktionelle
Gliederung erkennen:
In den Zeilen stelle man sich untereinander verschiedene Samples vor, die in
horizontaler Richtung fortschreitend einer (wahlweisen) Veränderung unterworfen
werfen um dann in der letzten Spalte ihre Positionsangaben für den Abhörraum zu
erhalten, bevor sie in analoge Signale gewandelt und von den Lautsprechern
wiedergegeben werden.
4.6 Synthese-Formel
Um die Grundlage für die Umsetzung der erarbeiteten Designmuster in ein
Programm zu schaffen, lasse ich die Ergebnisse dieses Kapites in die Formel von
Friedmann aus Kap. 3.1.3 einfließen und erweitere sie folgendermaßen:
Samples (Objekte/Interaktion)
+ Transformation/Effekte
+ zeitliche Verteilung
+ Position/Bewegung im Raum
+ akustische Raumeigenschaften
+ Hintergrund (Atmosphäre)
-----------------------------= Environmental Scene
Wie bereits erwähnt, spielen Interaktionsgeräusche für den entwickelten
Prototypen keine Rolle, können aber bei Bedarf ebenfalls eingebunden werden.
Die zeitliche Verteilung ist aus Tab. 5 ersichtlich.
Position und Bewegung im Raum soll frei wählbar sein, hierfür wird eine
Steuerung entwickelt.
Die akustischen Raumeigenschaften werden in Kapitel 6 aufgegriffen.
Als Hintergrund kommt eine unaufdringliche, flächige Aufnahme in Frage, die zum
jeweiligen Szenario passt und in einer Schleife abgespielt werden kann.
Bei der Stadszene wäre das beispielsweise das Hintergrundrauschen des Verkehrs.
Freeman und Lessiter fanden in einer Studie47 heraus, dass allein das Hinzufügen
von niederfrequenten Geräuschanteilen (beispielsweise durch einen
Basslautsprecher) in einem Testszenario das Präsenzgefühl bei den Probanden
erhöhte. Somit wird die Bedeutung des Hintergrunds weiter verdeutlicht –
selbstverständlich muss eine Anpassung der Lautstärke möglich sein, wodurch
sich auch dramaturgische Effekte, wie eine Ampelschaltung simulieren lassen.
47 J. Freeman and J. Lessiter, “Here, there and everywhere: The effect of multichannel audio on presence.” in Proc.
ICAD, 2001
43
5 Komposition von Geräuschkulissen
5.1 Wahl der Programmiersprache
Bei der Auswahl der Programmiersprache waren zwei Kriterien ausschlaggebend:
1. Sie muss leicht zu erlernen sein, um den gewünschten Fortschritt in der
knappen Zeit zu gewährleisten.
2. Audiosignalverarbeitung muss einen Schwerpunkt in der Ausrichtung der
Sprache darstellen.
Diese Kriterien werden erfüllt von den beiden Sprachen PureData und MaxMSP,
die sich in ihrer Funktionalität sehr ähnlich sind:
Beide sind schwerpunktmässig für Echtzeigsignalverarbeitung ausgelegt und
ermöglichen eine relativ schnelle Einarbeitung. Da es sich um sogenannte
Patcherprogrammierung handelt, kommen sie fast ohne die syntaktischen
Strukturen herkömmlicher Skript- und Hochsprachen aus. Stattdessen
„programmiert“ der Benutzer graphisch, durch Verknüpfen (Patchen)
vorgegebener Objekte und Verändern ihrer Attribute.
Ein ausführlicher Vergleich ähnlicher graphischer Programmierumgebungen
findet sich in „Max/MSP – mögliche Integration in die Lehre und alternative
Lösungen für die Fakultät Digitale Medien“ von Ö. Toprak48.
Während PureData Open Source ist, handelt es sich bei Max/MSP um eine
kommerzielle Software. Da sie jedoch in der Fakultät Digitale Medien eingesetzt
wird und ich zu Beginn dieser Arbeit bereits Vorkenntnisse besaß, entschied ich
mich dafür, den Prototypen in Max/MSP zu erstellen.
5.2 Konzept und Aufbau
Das Programmdesign ist weitestgehend festgelegt durch die Formel aus Kapitel
4.5.
Um die Skalierbarkeit zu gewährleisten und spätere Umbau- und
Erweiterungsarbeiten zu begünstigen, lege ich Wert auf einen modularen Aufbau
des Patchers (Patcher heissen die mit Max/MSP erstellten Applikationen). So
können die einzelnen Module bei Bedarf leicht veändert und vervielfacht werden,
während die Übersicht erhalten bleibt.
Die benötigten Programmfunktionen können folgendermaßen umrissen werden:
Audiosample > Verteilung mit Zufallsgenerator > Lautstärke >
Effekte (wahlweise) > verändertes Audiosignal + Positionsangaben
> Ausgabe
Dabei ergibt sich für jedes Sample derselbe Signalverarbeitungsweg:
Durch Veränderung verschiedener Parameter erfährt das ursprüngliche Signal
48 Ö.A. Toprak, „ Max/MSP – mögliche Integration in die Lehre und alternative Lösungen für die Fakultät Digitale
Medien“, Diplomarbeit im WS 2005/06 an der Hochschule Furtwangen
44
eine gewünschte Veränderung, bevor es an eine Ausgabe weitergeleitet wird.
Unter Berücksichtigung der Ausgabeplattform (Kapitel 6) entschied ich mich für
drei Geräuschquellen plus einen Hintergrund. Diese Beschränkung liegt dem
hardwaretechnischen Versuchsaufbau zugrunde: Mit der handelsüblichen
Soundkarte im Max/MSP-Rechner lassen sich maximal 4 Mono-Signale ausgeben
(als 2 Stereopaare). Die drei Quellen können beispielsweise phänomenologischen
Oberbegriffen wie: Mensch, Maschine, Umwelt zugeordnet werden.
Dabei kann bei jedem der drei Signalwege aus verschiedenen Samples ausgewählt
werden, damit die geforderte Vielfalt gewährleistet ist. Auf eine Automatisierung
(zeitliche Umschaltung) dieser Samplewahl habe ich verzichtet, der Benutzer ist
selber angehalten, seinen kompositorischen Fähigkeiten freien Lauf zu lassen.
Selbstverständlich können eigene Samples eingefügt werden, sie müssen lediglich
den Namenskonventionen genügen:
Signalweg 1:
Signalweg 2.
Signalweg 3:
Hintergrund:
s101, s102, s103
s201, s202, s203
s301, s302, s303
b01, b02, b03
Diese Samples sind allesamt Wavedateien, Mono, und liegen im selben Ordner wie
der Patcher selber.
Zusammengefasst ergeben sich die folgende Struktogramme für Signalweg 1
(analog für die anderen beiden) und für den Hintergrund:
45
Abb. 10 und 11: Struktogramme
5.3 Implementierung
5.3.1 Der Regenpatcher
Als Vorläufer zum eigentlichen Prototypen erstellte ich einen experimentellen
Patcher, mit dem ich verschiedene Algorithmen in Max/MSP ausprobieren konnte.
Dieses Programm hat lediglich einen Signalweg und einen zuschaltbaren
Hintergrund. Es arbeitet mit einer justierbaren, zufallsgesteuerten Verteilfunktion,
die ein zeitlich sehr kurzes Tropfgeräusch (ca. 60 ms) in unregelmässigen
Abständen nacheinander abspielt. Es kann jeweils eins von drei Samples
ausgewählt werden. Die mittlere Wiederholrate kann über einen Schieberegler von
50 bis 530 Millisekunden angepasst werden.
Ein interessantes Feature dieses einfachen Patchers ist die Verteilung der
einzelnen Tropfen im Stereopanorama. Das wird erreicht, indem die beiden Kanäle
links und rechts über getrennte Zufallsfunktionen in ihrer Lautstärke beeinflusst
46
werden, sodass eine ständig wandernde Phantomschallquelle (als Summe der
ständig unterschiedlichen Kanalpegel) und damit der Eindruck einer räumlichen
Verteilung entsteht.
Zudem experimentierte ich mit einem Echoeffekt, der die Tropfhäufigkeit
zusätzlich erhöhte und bei geringen Verzögerungszeiten auch einen natürlicheren,
breiteren Klang bewirkte.
Für Abwechslung sorgte die Veränderung der Wiedergabegeschwindigkeit –
ebenfalls zufallsgesteuert – im Bereich von 0,6 bis 2,2fach.
Abb. 12: Regenpatcher Version 0.7
Gut zu erkennen in Abbildung 12 ist der modulare Aufbau des Patchers:
Jedes der acht Rechtecke birgt eine Funktion, teilweise (der Übersichtlichkeit
halber) „unter der Haube“. In der Reihenfolge von oben nach unten und von links
nach rechts sind das:
–
Startknopf
–
Pitch
–
Ausgabe
–
Wiederholrate (Tropfhäufigkeit)
–
Samplewahl
–
Lautstärkevariation
–
Delay
–
Hintergrund-Lautstärke
47
5.3.2 Subpatcher und Scripting
Da sich die Komplexität der Szenengenerator-Applikation im Vergleich zum
Regenpatcher um einiges erhöht, ist es wichtig, Funktionen auszulagern.
Dies ist möglich durch sogenannte Subpatcher, vergleichbar mit ineinander
geschachtelten Klassen in einer objektorientierten Programmiersprache.
Durch diese Verschachtelung bleibt das Hauptfenster halbwegs übersichtlich,
während die ausgelagerten Funktionen in eigenen Fenstern ebenfalls leicht zu
warten und anzupassen sind.
Leider kann dieselbe Funktion (als Subpatcher verpackt) in Max/MSP nicht von
verschiedenen Punkten aus aufgerufen werden: Sobald ein Subpatcher
aufrufendes Objekt kopiert wird, entsteht gleichzeitig eine Kopie (Instanz) des
Subpatchers selber. Die dadurch entstehende höhere Anzahl von Subpatchern bei
drei Signalwegen muss durch entsprechende Namensgebung möglichst
übersichtlich gehalten werden. Die Analogie zu Klassen hinkt insofern, dass nun
jeder Subpatcher sein Eigenleben führt und nicht mehr durch Editieren des
Ursprungspatchers beeinflusst wird.
Immerhin ist es möglich, durch Übergabe einer ID vom Typ integer, allgemein
gehaltene Subpatcher zu schreiben, ein Beispiel (Auszug aus [delayscr]):
sprintf script connect tapout0%i 0 dac0%i 0
Für %i wird die integer-ID eingesetzt, sodass bei Kopieren des kompletten DelayModuls jeweils nur die ID geändert werden muss, nicht aber die Kopie des
Subpatchers.
Eine weitere wichtige Funktionalität von Max/MSP ist die Möglichkeit, zu Laufzeit
des Programms – also bei gesperrter Oberfläche – Objekte zu verbinden oder neue
Objekte zu erzeugen. Dieses sogenannte Scripting ermöglicht mächtige
Operationen unter der Oberfläche zu Laufzeiten des Programms.
Im Szenengenerator, den ich der Einfachheit kurz Szenerator getauft habe,
benütze ich Scripting zum Ein- und Ausschalten der Effekte: Pitch und Delay
werden so wahlweise in den Signalweg mit eingebunden oder herausgetrennt.
Ein Beispiel ist die eben aufgeführte Codezeile aus dem Delay-An/Aus-Subpatcher:
Die Zeile sorgt für eine Verbindung zwischen zwei benannten Objekten.
5.3.3 Position und Bewegung
Die Möglichkeit der Positionierung ist im prototypischen Szenerator essentiell,
insbesondere im Hinblick auf die gewählte Ausgabeart. Daher bedarf es einer
zweidimensionalen Steuerungsmöglichkeit, welche die einzelnen Klangobjekte
sowohl im Raum platzieren als auch durch denselben bewegen kann.
Mithilfe des „Picture-based Sliders“ ist es mir gelungen, eine zweckmässige
Steuerung zu realisieren. Dabei wird ein Anfasser auf einer rechteckigen
Oberfläche bewegt, wobei das Objekt dessen x- und y-Koordinaten weitergibt.
48
Abb. 13: Picture-based Slider, ohne und mit Hintergrundbild
Die Möglichkeit der Einbindung einer geeigneten Grafik als Hintergrund (z.B.
Skizze des Abhörraums, mit Lautsprecherpositionen) machen das Objekt zum
perfekten Kandidaten für diese Aufgabe. Auch für den Schiebeknopf lässt sich eine
zweckmässigere Grafik einbinden, sogar mit freier Gestaltung der Zustände
„aktiv“, „geklickt“, „inaktiv“.
Die Anzahl der x- und y-Werte (Auflösung) lässt sich einstellen und muss mit einer
geeigneten Verschiebung auf das Koordinatensystem der Ausgabeplattform
transformiert werden.
5.3.4 Open Sound Control
Die Kommunikationsschnittstelle zur Ausgabeplattform heisst „Open Sound
Control“49 – ein einfach gehaltenes, bidirektionales Steuerprotokoll, das wahlweise
über TCP oder UDP50 funktioniert. Dabei werden an einen einzustellenden Port
einer bestimmten IP-Nummer Steuerbefehle geschickt, die einem vorgegebenen
Formatierungsschema entsprechen, wie beispielsweise:
/WFS/source/position 1 -0.75 0.25
Max/MSP verfügt nicht von Haus aus über OSC-Objekte, es bietet aber die
Möglichkeit, sogenannte Extras zu installieren.
Das benötigte Extra kann von der Website des „Center for New Music and Audio
Technologies“51 (CNMAT) geladen werden (dort finden sich auch OSC-Plugins für
viele andere Audioprogramme). Sinnigerweise wurden die OSC-Objekte nur für
UDP implementiert (sowohl für Senden, als auch für den Empfang) –
Fehlerkorrektur, das Nachsenden von Datenpaketen und das Aufrechterhalten
einer Verbindung sind in diesem Kontext überflüssig.
5.3.5 Der Szenerator
Die meisten Bestandteile des Prototypen wurden kurz erwähnt und teilweise auch
beschrieben.
An dieser Stelle empfiehlt sich ein kurzer Test des Programms (Abb. 14) – es
befindet sich auf dem Datenträger am Ende der gedruckten Fassung oder kann
hier geladen werden:
49 http://www.opensoundcontrol.org/
50 Transport Control Protocol und User Datagramm Protocol, die Standard- Kommunikationsprotokolle für Ethernet
51 http://www.cnmat.berkeley.edu/OpenSoundControl/Max/
49
http://webuser.hs-furtwangen.de/friedmann/ax/pmwiki.php?n=
AktuelleDiplomarbeiten.EnvironmentalSceneDesign
Vorher bitte die DSP-Einstellungen von Max/MSP überprüfen: Im I/O-Mapping
sollte für die Kanäle 3 – 6 die Einstellungen „Vorne L/R“ und „Hinten L/R“ gewählt
werden.
Dazu noch eine kurze Einführung in die Bedienung des Programms:
1. Alle Bedienelemente ausser den Checkboxen sind farbig gekennzeichnet,
der (unbedienbare) Rest ist in Grautönen gehalten.
2. Jedes Sample kann von links nach rechts den Bedürfnissen angepasst
werden.
3. Links oben einschalten.
4. Alle Volumeregler auf 0, ausser dem aktuellen.
5. Wiederholrate (Frequency) so einstellen, dass das Sample zu hören ist.
6. Alle 3 Samples mit „open s...“ vorhören und das Gewünschte einschalten.
7. Wiederholhäufigkeit auf den gewünschten Richtwert „x mal pro Minute“
stellen.
8. Pitch wahlweise dazuschalten: Checkbox an.
9. Wenn ein Echo gewünscht ist, mit den beiden Schiebereglern die Zeiten (in
Millisekunden) für Minimum und Maximum einstellen: das Echo wird nach
einem zufällig erzeugten Wert zwischen den beiden Einstellungen aktiviert.
10. Positionsfeld aktivieren und das X dahinschieben, wo das Sample erklingen
soll (nur möglich in Verbindung mit swonder, s. Kap. 6)
11. Schritte 3. bis 10. wiederholen für Sample Nr. 2 und Nr. 3.
12. Hintergrund auswählen, Schleifenbildung kann deaktiviert werden.
13. Alle Parameter können zu Laufzeit geändert werden, inklusive Bewegung
der einzelnen Quellen.
50
Abb. 14: Version 1.1 des Prototypen, Stand 31. Juli 2006
Die mitgelieferten Samples sind selbstverständlich nur eine Möglichkeit der
Nutzung dieses Patchers.
Eine Beschäftigung mit dem Programm ohne den Wunsch nach einem bestimmten
Ergebnis fördert mit Sicherheit witzige bis künstlerisch anmutende
Geräuschcollagen zu Tage – es ist alles eine Frage der Bestückung, des
Ausgangsmaterials.
5.4 Ergebnisse
Der Patcher ist seiner vorliegenden Form ist für die experimentelle
Ausgabeplattform im VR-Labor optimiert und liefert mit seinen 3 Kanälen plus
Hintergrund für das Innenstadtszenario eine zu wenig abwechslungsreiche
Kulisse.
Auch sonst gibt es einige Dinge, die verbesserungswürdig sind:
1. Samples dürfen nicht unterbrochen/neugestartet werden, während sie
51
laufen.
2. Am Anfang sollten nicht alle Kanäle gleich loslegen – Verzögerungen sind
sinnvoll.
3. Einstellungen für den Pitchbereich (min/max) verbessern die Qualität.
4. „Etiketten“ zur Beschriftung der Samples sind erforderlich, dann lässt sich
gezielter komponieren.
5. Möglichkeit des automatisierten Ablaufs – die Samples pro Kanal werden
zufällig hintereinander gespielt, um eine höhere Abwechslung zu erreichen.
Die in Kapitel 4 aufgeführten Effekte wurden nicht alle integriert, einfach weil der
Aufwand dafür zu hoch war.
Wenn man allerdings bedenkt, dass es sich um einen Prototypen handelt, nicht um
ein vollständig funktionierendes Programm, wurden die erforderlichen
Anforderungen erfüllt:
Skalierbarkeit ist gegeben durch den modularen Aufbau einerseits – so können
leicht ganze Signalwege dupliziert werden, um die Varietät zu erhöhen – und
durch die austauschbare Samplebase andererseits.
Der minimalistische Ansatz konnte erfüllt werden durch die Integration von 12
Samples in der Version 1.1 des Szenengenerators.
Eine hohe Abwechslung und dadurch der geforderte Realismus ergibt sich durch
die richtige Bedienung des Programms – dazu müssen die Samples nur oft genug
per Maus getriggert werden.
Eine Beurteilung des Realismus sollte jedoch in Verbindung mit einem passenden
Film oder einer animierten 3D-Szene vorgenommen werden, nachdem die Samples
unterbrechungsfrei abgespielt werden. Dazu kämen ein paar simple Tests mit
Freiwilligen in Frage.
Die OSC-Steuerung funktioniert, das Wellenfeld lässt sich ein- und ausschalten
(„Go!“-Checkbox), die Schallquellen können mit Hilfe der grünen Bedienfelder
bewegt werden.
Eine Version 1.2 des Szenerators ist in Arbeit.
52
6 Mehrkanal-Ausgabe
6.1 Wahl des Ausgabeformats
6.1.1 Ambisonic
Hier handelt es sich um das erste echte Surround-Format, es wurde Anfang der
1970er Jahre von M.A. Gerzon, P. Fellgett und J. Hayes in Großbritannien
entwickelt.52
Aufnahmen können mit speziell hierfür entwickelten Soundfield-Mikrofonen
gemacht werden, die jeweils aus vier einzelnen Mikrofonen zusammengesetzt sind.
Eines davon hat eine Kugelcharakteristik und zeichnet ein Monosignal auf,
während die restlichen drei Achtcharakteristiken aufweisen und jeweils senkrecht
zueinander angeordnet sind: Sie zeichnen den gerichteten Schall auf entsprechend
der drei Raumkoordinaten.
Dementsprechend sieht auch das B-Format vier Kanäle zur Speicherung der
akustischen Informationen vor: W,X,Y,Z (Ambisonic erster Ordnung).
Ein Encoder ist nötig um das Format zu speichern, ein Decoder um es auf einem
Lautsprechersetup mit mehr als zwei Speaker wiederzugeben.
Die Gleichungen für die Codierung sind jedoch frei verfügbar.53
Ambisonic hat folgende Vorteile:
•
Abwärtskompatibel zu Stereo
•
Unabhängig vom Lautsprechersetup:
•
flexible Aufstellung der Boxen
•
Anzahl der Boxen kann variieren (paarweise)
•
Erzeugt ein dreidimensionales Schallfeld (inklusive Höhe)
•
Angeblich schon guter Raumklang mit vier Speaker
Trotz dieser Vorteile hat sich Ambisonic bis heute nicht durchsetzen können,
sowohl eine hohe Verbreitung als auch der kommerzielle Erfolg blieben bislang
aus.
6.1.2 Wellenfeldsynthese
Einen anderen Weg als Ambisonic, das unter Berücksichtigung psychoakustischer
Effekte ein Schallfeld an einer bestimmten Position nachahmt
(Phantomschallquellen), geht die Wellenfeldsynthese (kurz WFS): den Weg der
exakten Berechnung eines Klang- oder Wellenfeldes.
Ausgehend von dem Huygensschen Prinzip, nach dem „jeder Punkt einer
Wellenfront als Ausgangspunkt einer neuen Welle, der sog. Elementarwelle,
52 http://en.wikipedia.org/wiki/Ambisonics
53 Jan Jacob Hofmann, Workshop Ambisonics , 4th LAC, 2006, April 28th, Slides unter
http://lac.zkm.de/2006/abstracts.shtml#jan_jacob_hofmann
53
betrachtet werden kann“54, ermöglicht diese Methode in einer zweidimensionalen
Hörzone die physikalisch korrekte Reproduktion von Schallquellen55, wodurch
sowohl eine exakte Lokalisation, als auch der höchstmögliche Grad an
Wiedergabegenauigkeit gegeben ist.
Schallquellen können sogar inmitten der Hörzone platziert werden, wobei lediglich
zwischen den Lautsprechern und der synthetisierten Quelle Artefakte auftreten:
Abb 15: Synthetisierte Punktschallquelle vor dem Speakerarray
Zu den weiteren Vorteilen der WFS gehören die umfassenden Möglichkeiten der
Beeinflussung des Raumklangs:
Einerseits können die akustischen Unzulänglichkeiten des Hörraums ausgebügelt
werden, andererseits können gewünschte raumakustische Eigenschaften (wie z.B.
die Akustik eines Konzertsaales) in die Berechnung mit einfließen.
Zwar gibt es keine Möglichkeit, speziell für diese Wiedergabeart Aufnahmen zu
machen, doch sind mittlerweile etliche Konzepte für die unterschiedlichsten
Einsatzszenarien entwickelt worden.56
Eine simple Form von Downmixing stellt beispielsweise die Emulation eines 5.1Systems dar, mit dem Vorteil, dass bei einer geschickten Positionierung der fünf
Kanäle (hinter den WFS-Lautsprecherarrays) der Sweet Spot aufgedehnt wird.
Sweet Spots gibt es bei WFS nicht mehr, die Hörzone wird begrenzt durch die
Positionierung der Lautsprecher.
Damit wären wir auch schon bei dem Nachteil, den man bei dieser Technik in Kauf
nehmen muss: eine beträchtliche Anzahl an Lautsprechern ist nötig, um ein
räumlich exaktes Schallfeld wiederzugeben, weniger als 16 sind nicht
empfehlenswert.
Da für das Medienlabor im Neubau der Hochschule bereits ein
Ausstattungskonzept mit WFS vorgesehen war, entschied ich mich schon zu
Beginn für diese Ausgabeform – um wertvolle Erfahrungen zu sammeln und auch
um eine Arbeit zu hinterlassen, auf der aufgebaut werden kann.
Nach einer ausführlichen Recherche hielt ich jedoch die Diskussion einer
Alternative für berechtigt und sinnvoll.
Bei einer Gegenüberstellung unter Abwägen von Vor- und Nachteilen gebe ich
54 http://de.wikipedia.org/wiki/Huygenssches_Prinzip
55 C. Ihssen, Auditive VR – Erzeugung virtueller Klangräume durch die Methode der WFS, Diplomarbeit 2005,
Hochschule Furtwangen, S. 35
56 http://hauptmikrofon.de/wfs.htm
54
nach wie vor WFS vor Ambisonic den Vorzug – es sind insbesondere die exakte
Steuerung von Punktschallquellen, sowie ihre mögliche Platzierung mitten im
Hörraum die entscheidenden Kriterien, die für den Anwendungsbereich VR
ausschlaggebend sind.
6.2 WFS-Produkte
Obwohl die Forschung an WFS erst Ende der 1980er Jahren begann57, sind bis
heute bereits mehrere Komplettsysteme zur Marktreife gelangt. Komplett bedeutet
dabei: Authoring (Abmischen und Steuern), Signalverarbeitung und Synthese,
Verstärkung, variable Anzahl von Lautsprecherpaneelen für die Ausgabe.
6.2.1 Kommerzielle Produkte
6.2.1.1 IOSONO
Das Fraunhofer-Institut für digitale Medientechnologie58 in Ilmenau forschte
etliche Jahre an dieser neuartigen Technologie, u.a. im Kontext des internationalen
CAROUSO-Projektes59, um 2004 das gesammelte Wissen in eine Produktgruppe
einfließen zu lassen, die auf den Namen IOSONO getauft wurde.
Die Produkte werden von der gleichnamigen GmbH vertrieben60 und können
beispielsweise im Kino Ilmenau live im Einsatz erlebt und begutachtet werden.
6.2.1.2 Sonic Emotion
In der Schweiz ist ebenfalls eine Firma ansässig, die WFS-Anlagen anbietet.
Im Unterschied zu IOSONO sind die für die Ausgabe verwendeten „zsonic panels“
Flachlautsprecher, sogenannte Multi Actuator Panels (MAPs). Sie bestehen aus
einer Membran und acht Exciter, die wie acht einzelne Lautsprecher fungieren.
Durch ihr dezentes Design sind diese Panels äußerst unauffällig und können auch
als Projektionsfläche genutzt werden.
Selbstverständlich sind die Berechnungs- und Steuerungsapplikationen dieser
beiden Systeme Closed Source und können nicht ohne Weiteres von den Nutzern
verändert oder erweitert werden.
6.2.2 Open Source: swonder
Abseits der kommerziellen Lösungen gibt es in der Open Source Welt bereits ein
Projekt, dass sich der Thematik Wellenfeldsynthese widmet:
swonder61, ein Kompositionstool für elektronische Musik, wird seit ca. zwei Jahren
von Marije Baalman an der TU Berlin entwickelt.
57 Berkhout, A.J. 1988, A Holographic Approach to Acoustic Control, Journal of the Audio Engineering Society,
36(12):977-995
58 http://www.idmt.fraunhofer.de
59 http://cordis.europa.eu/ist/ka3/iaf/projects/carrouso.htm
60 http://www.iosono-sound.com/
61 http://swonder.sourceforge.net
55
Für die komplizierten mathematischen Berechnungen ist das Programm bruteFIR62
eingebunden, ebenfalls Open Source.
Die wichtigsten Features von swonder (früher: Wonder) im Überblick:
•
Definition eines Lautsprecherarrays mit zugehörigen Abständen und
Winkeln
•
Einzeichnen eines Abhörraums
•
Berechnung eines gewünschten Grids – eine zweidimensionale Matrix, die
dazu dient, Punktschallquellen zu bewegen, Die Auflösung (d.h. die Nähe
der Punkte) ist einstellbar.
•
Festlegen einer Anzahl von Punktschallquellen oder ebenen Wellen.
Als Schallquellen kommen entweder Sounddateien in Frage, die auf der
Festplatte des swonder-Rechners liegen, oder die Signale werden über
Eingänge der Soundkarte eingespeist.
•
Hinzufügen eines einfachen Raummodells mit vier Wänden, deren
Reflexionsfaktor angegeben wird.
•
Wahlweise: Erstellen einer Komposition durch Festlegen von
Bewegungsabläufen und Zeiten für die einzelnen Punktquellen
•
Berechnung des Wellenfeldes
•
Realtime-Steuerung der einzelnen Klangquellen mit der Maus.
•
Fernsteuerung des Abspielvorgangs und der Bewegungen über Open Sound
Control (siehe 5.3.4), d.h. von einem anderen Rechner aus.
Abb. 16: swonder 2.1.0, zwei Punktschallquellen auf einem Grid
62 http://www.ludd.luth.se/~torger/brutefir.html
56
Als Punktschallquellen lassen sich die Objektgeräusche des Szenerators einbinden,
also die ersten drei Samples. Für den Hintergrund eignet sich die Wiedergabe als
„ebene Welle“.
Zur Raumakustik muss noch gesagt werden, dass das einfache Raummodell mit
den vier Wänden eine äusserst unbefriedigende Lösung darstellt und den
Möglichkeiten des WFS-Verfahrens keineswegs gerecht wird.
Ideal wäre die Einbindung von Raumimpulsantworten in die Faltungsoperationen,
damit könnte ein gewünschter, ausgemessener Raum simuliert werden.
Die Autorin Marije Baalman arbeitet bereits an einer Lösung, die möglicherweise
mit der nächsten Version des Programms ausgeliefert wird. Dabei geht es um das
Berechnen von Raumimpulsantworten mit der Auralisationssoftware EASE63.
Aktuell ist swonder 2.1.0, Version 3 mit wichtigen Bugfixes und Verbesserungen ist
für Ende 2006 angekündigt.
6.3 Installation VR-Labor
6.3.1 Hardware
Ohne Hardware nützt das beste Programm nichts, daher begann ich (etwas
voreilig, wie sich später herausstellen sollte), mit der Installation von
Lautsprechern und einem PC-System im „alten“ VR-Labor der Fakultät.
Das Labor war bereits mit einem 5.1-System bestückt. Da für WFS nur
Lautsprecher desselben Typs miteinander kombiniert werden dürfen, lag es nahe,
weitere zwei Systeme desselben Typs anzuschaffen. Damit füllte ich die Lücken
des Abhörraums so aus, dass die Abstände zwischen den einzelnen Satelliten
gleich ausfielen.
63 http://www.auralisation.de/home/ease40.php
57
Abb. 17: Lautsprecher im VR-Labor mit Sicht auf Leinwand
Weiterhin wurden drei Billigsoundkarten mit je 6 Kanälen angeschafft, passend zu
den drei 5.1-Boxensets.
Die Mittel waren jedoch äusserst knapp bemessen und durch diese Anschaffungen
bereits erschöpft, sodass ich einen Großteil des Rechners mit eigenem Material
zusammenbauen musste. Es reichte immerhin für einen Pentium III, 800 MHz, mit
384 MB Arbeitsspeicher und 20 GB Festplatte (s. Anhang I).
Die 3 Soundkarten sowie eine Netzwerkkarte fanden auch ihren Platz auf den 5
PCI-Slots, leider stellte sich nach ausdauernden Tests mit verschiedenen
Konfigurationen heraus, dass zuwenig IRQs für alle 4 Geräte zur Verfügung stehen
– somit musste ich mit nur 2 Soundkarten weiterarbeiten (auf die Netzwerkkarte
konnte ich wegen der OSC-Steuerung nicht verzichten).
6.3.2 Software
Nach einem kurzen Abenteuer mit Ubuntu 5.05, welches sich als reines
Anwenderbetriebssystem entpuppte, installierte ich debian 3.1 übers Netzwerk.
Nach dem Zurechtfinden in der neuen Arbeitsumgebung „gnome“ begann das
Abenteuer der swonder-Installation.
Bevor es soweit war, mussten erst einige andere Kleinigkeiten installiert werden,
nämlich C++-Bibliotheken, um überhaupt den Sourcecode kompilieren zu können,
die Qt-Bibliotheken (nötig für die Darstellung von kde-Software), lib-OSC für die
Open Sound Steuerung und schließlich bruteFIR als Mathematikengine.
Vermutlich war es höchste Zeit für mich, eine etwas intimere Liaison mit der
Kommandozeile einzugehen, da ich bereits Gefahr lief, den Rest meines Lebens
(freiwillig) als Windows-DAU mit einer chronischen Sehnenscheidenentzündung im
58
rechten (Maus)Arm zuzubringen.
Schließlich lief swonder mitsamt dem OSC-Server und ich begann mich in das
Programm einzuarbeiten.
6.3.3 Zusammenspiel aller Komponenten
Gleichzeitig nahm ich noch einen weiteren Rechner im MediaLab in Betrieb, eine
400-MHz-Krücke, den ich mit einer Windows XP Installation beglückte. Er sollte
mir, mit installiertem Max/MSP, als Kompositionsrechner dienen, den SzeneratorPatcher ausführen und die Signale über zwei Stereoklinken an den swonderRechner weitergeben, der sie entsprechend positioniert und das Wellenfeld
berechnet.
Abbildung 18 zeigt die gesamte Installation im Überblick:
Auf der Grundlage einer Samplebasis (s. 5.2) generiert die Max/MSP-Applikation
über 4 Mono-Kanäle verschiedene Klangereignisse, die von der Soundkarte in PC 1
zu den beiden Soundkarten in PC 2 übermittelt werden. swonder liest einerseits
die Audiosignale ein und empfängt darüberhinaus mit Hilfe seines OSC-Servers die
Positions- bzw. Bewegungsdaten der drei Punktschallquellen. Im berechneten
Schallfeld breiten sich diese natürlich kugelförmig aus (die geometrischen
Symbole der Skizze dienen der Unterscheidung der drei Quellen), während der
Hintergrundloop als Diffusschall den Hörraum erfüllt.
Abb. 18: Workflow-Skizze
6.3.4 Weitere Möglichkeiten
Selbstverständlich handelt es sich hier nur um einen Versuchsaufbau mit
einfachsten Mitteln, doch in ihren Grundzügen zeigt die Skizze ein ähnliches
Szenario, wie es Cornelius Ihssen bereits in seinem Konzeptvorschlag für das
59
Verbundlabor angedacht hat.64
Auch in vorliegender Skizze kann anstelle von PC 1 mit Max/MSP ein System mit
beliebiger VR-Rendering-Software eingesetzt werden, beispielsweise Virtools, das
an der Fakultät benutzt wird. Durch Übermittlung von Positionsdaten der Objekte,
die vertont werden sollen, kann der Kalkulations-PC direkt angesprochen werden,
um ein passendes Sample an der übermittelten Position abzuspielen. Ein kleines
Skript oder Plugin (bei Virtools eventuell ein Building Block) wäre für den Zweck
der Koordinatenübergabe und Sampleauswahl zu erstellen.
6.4 Erkenntnisse
Der Aufbau einer WFS-Anlage ist nicht vollständig gelungen.
Es war mir möglich, swonder mit 8 Lautsprechern zu testen, alle anderen
Konfigurationen (geplant waren 12 bis 15 Kanäle) schlugen fehl. Das lag einerseits
an der veralteten Hardware, weswegen statt 3 Soundkarten nur 2 eingesetzt
werden konnten, andererseits sind die Billigsoundkarten nicht für einen solchen
Einsatz geeignet. Es gelang mir zwar, eine Konfigurationsdatei zu erstellen,
welche die beiden Audiointerfaces zu einem virtuellen Device zusammenfasste,
aber aufgrund der fehlenden Synchronisation kam es beim Starten der WellenfeldBerechnung regelmässig zu einer Überlastung des Systems. BruteFIR muss die
Hardware im richtigen Moment ansprechen können, damit das Wellenfeld korrekt
wiedergegeben werden kann.
Auch hier startete ich einen Versuch, nach einer Anleitung im Internet65 durch
Lötarbeit die Karten über einen Quartz synchron zu takten. Als Ergebnis spielte
die Hardware Audiodateien mit doppelter Geschwindigkeit oder gar nicht mehr ab.
Mit den 8 Kanälen war es zwar um die Räumlichkeit nicht gut bestellt – eine
Lokalisation der Quellen war nicht möglich – doch es gelang mir wenigstens,
swonder ausgiebig zu testen und der Entwicklerin einige Bugs mitzuteilen. Sie
zeigte sich überaus kooperativ und ist offen für sinnvolle Vorschläge, was die
Verbesserung und Erweiterung ihrer Software angeht.
Ein weiterer Punkt waren die Abstände der Boxen. Durch den voreiligen Aufbau
war ich nicht ausreichend informiert und errechnete später aufgrund der Abstände
von 40 cm eine Aliasing-Frequenz von ca. 400 Hz. Das bedeutet, dass bei
Frequenzen oberhalb dieses Wertes die Lokalisationsschärfe rapide abnimmt.
Natürlich ist das ein völlig inakzeptabler Wert und es wäre vermutlich effektiver
gewesen, die 8 Lautsprecher mit minimalem Abstand in einem Linearray
anzuordnen (in dem Fall könnte man die Aliasfrequenz in Abhängigkeit von der
Länge des Arrays berechnen).
Durch das viele Herumexperimentieren konnte ich einige Zusammenhänge in
punkto Aufbau einer WFS-Anlage verstehen und lasse meine Erfahrungen auch
gerne in die Neugestaltung des VR-Labors mit einfließen.
64 C. Ihssen, a.a.O., S. 56, 63 f
65 http://quicktoots.linuxaudio.org/toots/el-cheapo/
60
6.5 Empfehlungen für das neue VR-Labor
Auf Grundlage meiner Recherchen und der Erfahrungen, die ich mit dem Aufbau
einer Lowbudget-WFS-Anlage im VR-Labor gemacht habe, kann ich die folgenden
Komponenten zur Zusammenstellung eines WFS-Systems im neuen „kleinen“
MediaLab der Fakultät empfehlen.
6.5.1 Authoring-Software
Als Wellenfeldsynthese-Applikation habe ich die Konstellation swonder/bruteFIR
getestet.
Obwohl swonder noch nicht ganz fehlerfrei läuft und die Installation (samt
Kompilierung) dazu in der Lage ist, einen Linux-Anfänger in den Wahnsinn zu
treiben, sprechen unbestechliche Argumente für seinen Einsatz:
1. Das Programm wird weiterentwickelt. Marije Baalman hat mir während
meiner Arbeit mehrfach „über Nacht“ einen Bugfix geschickt, als Antwort
auf E-Mail-Anfragen. Ausserdem ist die nächste Version in Arbeit.
2. Es ist meines Wissens das einzige WFS-Programm, das unter einer Public
License veröffentlicht wurde und im Sourcecode vorliegt. Da das
Medienlabor in erster Linie für Studierende des Bachelors
Medieninformatik eingerichtet wird, bringen diese mit ihren C++
Kenntnnissen die besten Voraussetzungen mit, um eventuell nötige
Anpassungen selber vornehmen zu können.
3. Swonder ist kostenlos. Linux ist kostenlos. Der WFS-Rechner (s. Abb. 18)
reduziert sich somit auf seine Hardware-Anschaffungskosten.
4. Die OSC-Steuerung bietet eine bequeme Schnittstelle zur Fernbedienung
von swonder, der beste Beweis dafür ist vorliegende Arbeit. Max/MSP kann
auch als Zwischenglied, als OSC-Plugin eingesetzt werden, wenn von
anderen Anwendungen auf die WFS-Anlage zugegriffen werden soll. Max
eignet sich auch für „Programmiermuffel“.
6.5.2 Audio-PC
Als Hardware für den Betrieb von swonder sollte ein x86-PC mit mindestens 2 GHz
CPU und 512 MB Hauptspeicher genügen.
Für den schnellen Zugriff auf Audiodaten bietet sich der Einsatz eines S-ATA-Raids
an.
Die Bildschirmauflösung sollte 1280x1024 Punkte nicht unterschreiten.
Als Soundkarte kommt nach meinem Dafürhalten nur eine RME in Frage. Die
Hammerfall-Serie ist so gebaut, dass keine Prozessorlast bei Nutzung sämtlicher
Kanäle anfällt. Eine günstige Lösung wäre die RME Hammerfall LE 9636, mit 2x
ADAT – damit kann man 16 Kanäle ansprechen.
Für etwas mehr Geld gibt es die RME 9652 HDSP, mit der 24 Kanäle möglich sind.
Die RME-Karten sind in der Praxis im Einsatz mit WFS-Systemen verbreitet,
61
Konfigurationsdateien für Multichannelbetrieb (.asoundrc) unter Linux finden sich
im Netz.
6.5.3 Verstärker und Lautsprecher
Da die Hammerfall digitale Signale über ADAT liefert, ist eine analoge Wandlung
vonnöten, bevor sie verstärkt und über Lautsprecher ausgegeben werden.
Ab hier gibt es prinzipiell zwei Wege:
1. D/A-Wandler anschaffen (2 x 8 Kanäle) und im Eigenbau Lautsprecher zu
4er- oder 8er-Arrays zusammenschrauben – bei nur 16 Kanälen bieten sich
4er-Arrays aufgrund der flexibleren Aufstellung an.
2. Auf kommerzielle Lösungen von IOSONO oder Sonic Emotion
zurückgreifen.
Lösung 1 macht natürlich mehr Arbeit und erfordert Aktivboxen, die alle in der
gleichen Lautstärke betrieben werden müssen – eventuell hapert es hier an der
nötigen Feinjustierung. Könnte sich als kostengünstigere Variante herausstellen,
allerdings kann ich zur Zeit noch keine konkrete Empfehlung für bestimmte
Lautsprecher geben.
Lösung 2 hat den Vorteil, dass ADAT direkt an die Verstärker angeschlossen wird.
Man sollte annehmen, dass bei dieser Lösung Amps und Speaker harmonieren.
Sonic Emotion arbeitet mit flachen Lautsprechern (MAPs), was angesichts der
Größe des Raumes positiv ins Gewicht fiele.
Auf Wunsch stehe ich in dieser Angelegenheit gerne weiterhin beratend zur Seite.
62
7 Fazit
7.1 Interessante Abzweigungen
Zeitweilig wirkte der Aufwand, den ich für diese Arbeit betrieb, wie das Gewicht
von zwei Diplomarbeiten: Analyse, Design und Szenenpatcher einerseits und die
Problematik der Low-Budget-WFS-Anlage andererseits, von den Schwierigkeiten
mit Linux mal ganz zu schweigen.
Während des Voranschreitens der Diplomarbeit gab es noch einige
vielversprechende Richtungen und Wege, die ich jedoch aufgrund der Fülle an
Arbeit und Knappheit an Zeit nicht einschlagen oder beschreiten konnte. Trotzdem
möchte ich sie kurz aufzählen:
1. Audiomaterial in eine szenegraphische Struktur bringen. Um die
Möglichkeit der Anbindung an die visuelle Programmierung zu erleichtern
und grösstmögliche Kompatibilität zu gewährleisten, scheint es sinnvoll und
möglich, Audioszenen in Form von Szenegraphen zu beschreiben.
2. Analysieren von Audiokulissen aus aktuellen interaktiven Medien,
vorzugsweise Spielen (aufgrund ihrer Ähnlichkeit zu VR-Anwendungen).
Insbesondere interessierte mich die Dichte der Kulissen, die Auswahl an
Geräuschen, sowie die psychoemotionalen Effekte, die durch ebendiese
Auswahl hervorgerufen werden.
3. Eine genauere Betrachtung von Raumakustik und das Nachahmen
bestimmter Räume. Hierfür könnten diverse Effekte eingesetzt werden, die
beispielsweise die frühen Reflexionen und den Nachhall dergestalt
beeinflussen, dass ein Raumklang entsteht, der wiederum einen
gewünschter Klangraum simuliert.
4. Testen der generierten Audiokulissen an lebendigen Menschen:
Welche Einstellungsbereiche der verschiedenen Parameter verstärken oder
vermindern das Präsenzgefühl bei den Versuchspersonen?
Überprüfen der erarbeiteten Designvorgaben durch geeignete Testreihen.
Hierfür wäre natürlich eine funktionierende WFS-Anlage von Vorteil.
7.2 Unerledigtes
Zusätzlich zu der Stadtszene war eine zweite Szene „in der Kneipe“ geplant,
Aufnahmen dafür wurden bereits gemacht in einer Gaststätte in Furtwangen und
in einer Studentenkneipe.
Eine Auswertung und Analyse dieser Szene war zeitlich jedoch nicht mehr möglich,
ebensowenig wie die Extraktion von Samples bzw. deren Beschaffung für eine
Audioszene.
Der Patcher sollte nach einem dreistufigen Plan entwickelt werden:
•
Regen: einfach
63
•
Kneipe: mittel
•
Stadtszene: schwierig, da viele Möglichkeiten, aber gut als Demonstration
für die Gültigkeit der erarbeiteten Designkriterien
7.3 Zusammenfassung
Eingangs stellte ich das Konzept vor und malte einige Anwendungsszenarien aus,
sowohl für räumliche Mehrkanalbeschallung als auch für das Kompositionstool.
Anschliessend verortete ich die Arbeit im wissenschaftlichen Kontext.
Sodann begann der praktische Teil mit der Analyse der Aufnahmen und ihrer
Kategorisierung nach Verursachern.
Exemplarisch wählte ich das Innenstadtszenario, das im Designkapitel auf das
Wesentliche reduziert und einer qualitativen sowie quantitativen Bewertung
unterzogen wurde. Weiterhin fand ich verschiedene Verfremdungsmethoden, um
möglichst viel Klang aus wenig Material herauszuholen. Am Schluss des
Environmental Scene Design präsentierte ich eine Formel, den Bauplan für das
Erzeugen auditiver Szenen und gleichzeitig die Blaupause für den zu
entwickelnden Patcher.
Das fünfte Kapitel beschreibt die sukzessive Fertigstellung des Szenerators, mit
einer abschließenden Bewertung der Ergebnisse und einer Auflistung der
wichtigsten Verbesserungswünsche.
Alsdann diskutiere ich kurz die zwei aktuellen Hauptvertreter der räumlichen
Mehrkanalwiedergabesysteme und wäge sie gegeneinander ab. Mit einem
Überblick zu aktuellen Wellenfeldsyntheseprodukten und -applikationen leite ich
über zur eigenen Lowbudget-Installation im VR-Labor der Hochschule.
Dabei greife ich den Faden aus dem vorherigen Kapitel wieder auf und vereine das
audiosignalverarbeitende Max/MSP-Programm mit der Ausgabeplattform in
Gestalt eines Workflow-Diagramms. Die Ergebnisse werden kurz zusammengefasst
und Empfehlungen für die Neueinrichtung des VR-Labors ausgesprochen.
7.4 Nachwort
Mit der Einrichtung des Verbundlabors an der Hochschule Furtwangen beginnt ein
neues Zeitalter für die Studierenden der Fakultät Digitale Medien.
Bisher fühlte man sich der Wirtschaft verpflichtet, finanzkräftige Unterstützung
und streng anwendungsorientierte Projekte im Auge behaltend.
Die Automobilindustrie erobert die Welt früh genug.
Die virtuelle Welt ist noch nicht von dem Gespenst des Utilitarismus und den
Agenten der Profitmaximierung vereinnahmt – sie bietet noch eine Chance für
kreative Phantasie, für jugendlichen Leichtsinn, für den forschen Geist – die
Chance ist noch kein allgemein anerkanntes Geschäftsmodell, sie hat zahllose
Gesichter und manchmal trägt sie den Namen:
Kunst
64
Anhang
I Hardware
Ausstattung PC 1
Pentium III 800 auf Slot1-Adapter, FSB 133 MHz
Aopen Board A6BXC mit BX440 Chipsatz (Slots: 2 ISA, 4 PCI, 1 AGP)
384 MB SD-RAM
2 Soundkarten vom Typ: C-Media CM8738 mit je 6 Kanälen
Netzwerkadapter Realtek 8083, 10/100 Mbit/s
Seagate HDD mit 10,2 GB
IBM HDD mit 2,6 GB
CDRom
Floppy
Midi-Tower, ATX
17“ Röhrenmonitor, Auflösung 1280x1024 bei 60 Hz
Tastatur, 3-Tasten-Maus
Ausstattung PC 2
Pentium II 400 MHz
128 MB RAM
10/100 Mbit/s Netzwerkadapter
Soundkarte Soundblaster Live!
CDRom
Floppy
15“ TFT-Display, max. 1024x768 bei 60 Hz
Tastatur, Scrollmaus
Sonstiges
3 Inspire P5800 5.1 Surround Lautsprechersets von Creative
Wandhalterungen (Aluwinkel), Dübel, Schrauben
Kabelschächte (Verkleidung)
30 m Cinch-Kabel verlegt (zusätzlich zu den in den Speakersets enthaltenen Kabel)
2 x 5 m Klinke (3,5 mm) auf Klinke-Kabel für Signalübertragung von PC 1 zu PC 2
65
II Software
Linux (PC 1)
Debian 3.1 Linux, Kernel 2.6.15
gnome: Graphische Benutzeroberfläche und Fenstermanager
ALSA: Soundarchitektur, Treiber, Konfiguration der Soundkarten
Qt-Libraries: C++ Bibliotheken für Darstellung + GUIs
libOSC++: Bibliotheken für den Open Sound Control Server
bruteFIR: Convolution Engine (Programm für Faltungsoperationen, die in
raumakustischen Berechnungen eine wichtige Rolle spielen, z.B. bei Reflexionen)
swonder 2.1.0: Wellenfeldsynthese-Kompositions-Tool
Windows XP (PC 2 + PrivatPC)
Max/MSP: wie Puredata, jedoch kommerziell
Audacity, Open Source Audioeditor
Photoshop (Adobe), Bildbearbeitung
Open Office 2.0, Textverarbeitung
Firefox, Browser
Babylon, Übersetzungsprogramm (einzelne Wörter)
Sonic Stage, DRM-Programm von Sony für den Transfer von Hi-MD-Aufnahmen
66
III Glossar
Audification (engl.)
„Informationsvermittlung durch Wiedergabe von früher aufgenommenen
(=gesampelten) Geräuschen (Gegenteil: Sonification).“66
Augmented Reality
„Unter Erweiterte Realität (englisch augmented reality) versteht man die (meist
visuelle) rechnergestützte Überlagerung, das heißt Erweiterung der Realität mit
virtueller Information in Echtzeit. Dabei soll die Information möglichst am
richtigen geometrischen Ort dargestellt werden. Zum Einsatz kommen Techniken
der virtuellen Realität.“67
Auralisation
„heißt 'Hörbarmachung', aural: au|ral (zu lat. auris = dt. 'Ohr' = aurikular) ist ein
Verfahren, das unter Verwendung von
•
Simulation von Spiegelschallquellen
•
Raytracing
•
Errechnung des Diffusschalls
eine Hörbarmachung eines Raumes unter Berücksichtigung seiner geometrischen
und akustischen Eigenschaften möglich macht.“68
CAVE
Cave Automatic Virtual Environment (rekursives Akronym) meint eine VRUmgebung mit mehreren Projektionsflächen und hohem Immersionsgrad.
„Die Bezeichnung "Cave" erinnert bewusst an das Höhlengleichnis in Platons
"Republik", das sich mit dem Verhältnis von Wahrnehmung und Erkenntnis sowie
Realität und Illusion beschäftigt.“69
Delay (Echo)
„Ein Delay ist ein Verzögerungseffekt ∆t, der in der Musikproduktion bei der
Laufzeitstereofonie, als Predelay beim Nachhall und bei der PA
(Beschallungsanlage) eingesetzt wird.“ 70
Foley
„(...) bezeichnet die nach Jack Foley benannte Kunst des Nachvertonens von
Geräuschen in Film und Fernsehen bei Szenen, deren O-Ton aus unterschiedlichen
Gründen nicht verwendet werden kann, sei es in technischer (verzerrt, verrauscht)
oder künstlerischer Hinsicht (falscher Ausdruck, zu lauter und unruhiger
Hintergrund für die Intention einer Szene). Des Weiteren werden Geräusche des
66
67
68
69
70
Döbeli, Beat: Beschreibung und Manipulation von Alltagsgeräuschen, Diplomarbeit, ETH Zürich, 1996, S. 46
http://de.wikipedia.org/wiki/Augmented_Reality
http://de.wikipedia.org/wiki/Auralisation
http://de.wikipedia.org/wiki/Cave_Automatic_Virtual_Environment
http://de.wikipedia.org/wiki/Delay_(Musik)
67
Originaltons vom Geräuschemacher verstärkt, um deren Wichtigkeit für die
Filmhandlung hervorzuheben. Mit Geräuschen wird der Blick auf das Wesentliche
im Film gelenkt, Stichwort selektives Hören.“71
Head Mounted Display (HMD)
Brille mit integrierten LCD-Bildschirmen, die durch Wiedergabe zweier leicht
verschobener Bilder dreidimensionales Sehen ermöglicht. Alternative zu
stereoskopischer Projektion.
Künstliche Intelligenz (KI, häufig auch AI – Artificial Intelligence)
In Computerspielen sind dies Algorithmen, die ein intelligentes Verhalten der
Nichtspielercharaktere simulieren oder für Variationen in Darstellung und Inhalt
sorgen. Hat mit biologischer Intelligenz wenig gemein, folgt ausschließlich
zufallsgesteuerten und/oder logischen Softwareroutinen.
Sample
Beispiel, Muster, Probe72
„ein Ausschnitt einer (Musik)aufnahme, der in einem anderen musikalischen
Kontext wiederverwendet wird“73
Sonifikation
„('Verklanglichung') ist die Umsetzung von Daten jeder Art in Klangereignisse“74
Beispiele: Sonar, Strahlenmessgerät (Dosimeter), Windows-Audioschema
Stereoskopische Projektion
„Ein Stereoskop ist eine optische Apparatur, mit der man zwei stereoskopische
Halbbilder so betrachten kann, dass eine räumliche Tiefenwirkung wahrnehmbar
ist. Mittels Spiegeln oder Linsen werden die zwei ortsverschiedenen Halbbilder so
ins Blickfeld gebracht, dass bei binokularer Betrachtung ein virtuelles Raumbild
entsteht.“75
Spatialization (engl.)
Verräumlichung, bezieht sich auf das Hinzufügen von Raumeigenschaften (z.B.
Hall) zu trockenen Tonsignalen
Szenengraph
„Ein Szenengraph bzw. Szenengraf ist eine Datenstruktur, die häufig bei der
Entwicklung computergrafischer Anwendungen eingesetzt wird. Es handelt sich
um eine objektorientierte Datenstruktur, mit der die logische, in vielen Fällen auch
die räumliche Anordnung der darzustellenden zwei- oder dreidimensionalen Szene
beschrieben wird.“76
Umweltpsychologie (englisch: ecological or environmental psychology)
„befasst sich mit der Mensch-Umwelt-Wechselwirkung, wie z. B. mit den
71
72
73
74
75
76
http://de.wikipedia.org/wiki/Foley
Babylon, Übersetzungsprogramm (s. Anhang II)
http://de.wikipedia.org/wiki/Sampling_(Musik)
http://de.wikipedia.org/wiki/Sonifikation
http://de.wikipedia.org/wiki/Stereoskop
http://de.wikipedia.org/wiki/Szenengraph
68
Auswirkungen der physisch-materiellen und kulturellen Außenwelt sowie den
räumlich-sozialen Einflussfaktoren auf das menschliche Erleben und Verhalten und
umgekehrt den Auswirkungen des menschlichen Verhaltens auf diese Umwelt.“77
Es handelt sich um einen interdisziplinären Wissenschaftszweig, dessen
Schwerpunkte sich durch Zusammenführung verschiedener Forschungsrichtungen
– wie Kybernetik, Kognitive und Verhaltenspsychologie, Biologie, Geologie –
verdichten.
77 http://de.wikipedia.org/wiki/Umweltpsychologie
69
IV Abbildungsverzeichnis
1.
G. Burdea, P. Coiffet: Virtual Reality Technology. Wiley-IEEE Press, 2nd
edition, New Jersey, 2003 , S. 4
2.
The Elder Scrolls IV – Oblivion, Bethesda Soft
3.
http://www.acoustic-camera.com/images/historie/3DExamples.gif
4.
http://webuser.fh-furtwangen.de/~fetzner/medialab/index.php?
pagename=Main.ModellingVERTEXAdbusting
5.
Gaver, What in the World Do We Hear?, Ecological Psychology 5(1) S. 24
6.
eigene Aufnahme
7.
bearbeitete Stadtplanskizze,
http://www.freiburg.de/cityguide/800x600.html
8.
Inlay der Geräusch-CD: Digiffects A01 City
9.
Teil eines Screenshots des Audioeditors Audacity
10.
Struktogramm erstellt mit Editor StruktEd, http://www.strukted.de/
11.
wie 10.
12.
Screenshot aus Max/MSP, http://cycling74.com/
13.
wie 12.
14.
wie 12.
15.
http://recherche.ircam.fr/equipes/salles/WFS_WEBSITE/Index_wfs_site.ht
m
16.
Screenshot von swonder, http://swonder.sourceforge.net
17.
eigene Aufnahme
18.
eigene Grafik
70
V Literaturliste
(1)
Bregman, A. S.: Auditory Scene Analysis: The Perceptual Organization of
Sound. Cambridge (USA), MIT Press, 1990
(2)
G. Burdea, P. Coiffet: Virtual Reality Technology. Wiley-IEEE Press, 2nd
edition, New Jersey, 2003
(3)
Chueng, Priscilla: „Designing sound canvas: The role of expectation and
discrimination“, Extended abstracts of CHI 2002 Conference on Human
Factors in Computing Systems (2002)
(4)
Chueng, P., Marsden, P., Designing Auditory Spaces to Support Sense of
Place: The Role of Expectation. Position paper for The Role of Place in Online Communities Workshop, CSCW2002, New Orleans, November 2002
(5)
Döbeli, Beat: Beschreibung und Manipulation von Alltagsgeräuschen,
Diplomarbeit Informatik, ETH Zürich, 1996
(6)
Dultz, Wilhelm (Herausgeber): Das Fremdwörterlexikon, Ullstein Verlag,
Frankfurt/M.-Berlin, 1965
(7)
Fries, Christian: Grundlagen der Mediengestaltung, Carl Hanser Verlag
München Wien, 2004, 2. Auflage
(8)
J. Freeman and J. Lessiter, “Here, there and everywhere: The
effect of multichannel audio on presence.” in Proc. ICAD, 2001
(9)
Gaver, William W.: What in the World Do We Hear? An Ecological
Approach to Auditory Event Perception. Ecological Psychology, 1993, Vol.
5, No. 1, Pages 1-29
(10) Gaver, William W.: How Do We Hear in the World? Explorations in
Ecological Acoustics. Ecological Psychology, 1993, Vol. 5, No. 4, Pages
285-313
(11) Ihssen, Cornelius: Auditive VR – Erzeugung virtueller Klangräume durch
die Methode der WFS, Diplomarbeit, Hochschule Furtwangen, 2005
(12) Sandmann, Thomas: Effekte & Dynamics, PPV Verlag Bergkirchen, 2.
Auflage 2001
(13) Schäfer-Schönthal, A.: Audiotechnik (Skript Nr. 257), internes
Lehrmaterial der Fakultät Digitale Medien an der Hochschule
Furtwangen, 2004
(14) Serafin, Stefania & Giovanni: „Sound Design to Enhance Presence in
Photorealistic Virtual Reality“, Proceedings of ICAD 04 – Tenth Meeting of
the International Conference on Auditory Display, Sydney, Australia, July
6-9, 2004
(15) Stanney, Kay M.(Editor): Handbook of Virtual Environments – Design,
Implementation and Applications, Lawrence Erlbaum Publishers, New
Jersey / London, 2002
71
(16) Technology Review (Zeitschrift), Nr. 6/2006, Heise Zeitschriften Verlag
(17) Toprak, Ö.A.: „Max/MSP – mögliche Integration in die Lehre und
alternative Lösungen für die Fakultät Digitale Medien“, Diplomarbeit,
Hochschule Furtwangen, 2006
VI Datenträger
Auf der CDRom befinden sich folgende Ordner:
•
Aufnahmen
•
Patcher
•
Material
Ausführliche Informationen bitte der Liesmich.txt im Stammverzeichnis
entnehmen.
72

Documentos relacionados