Environmental Scene Design
Transcrição
Environmental Scene Design
Environmental Scene Design Räumliche Audiokulissen für immersive VR-Umgebungen Diplomarbeit von Rolf Gassner Online Medien Sommer 2006 Betreuung: Prof. Dr. Bruno Friedmann Betreuung: Prof. Daniel Fetzner 1 2 Inhaltsverzeichnis Abstract......................................................................................................... 6 1 Einleitung.................................................................................................. 7 1.1 Medien im Wandel.......................................................................................... 7 1.2 Grundbegriffe der VR..................................................................................... 7 1.3 Die Säulen der VR.......................................................................................... 8 1.4 Die Rolle von Audio in der VR ...................................................................... 9 2 Konzept und Einsatzgebiete.................................................................... 10 2.1 Konzept und Vorgehensweise....................................................................... 10 2.2 Motivation und Einsatzgebiete..................................................................... 10 2.2.1 Persönliche Motivation: Die Welt ist vergänglich.................................. 11 2.2.2 Verschiedene Einsatzszenarien der Gegenwart.................................... 11 2.2.2.1 Entertainment....................................................................................... 11 2.2.2.2 Virtual und Augmented Reality in Forschung und Entwicklung.............13 2.2.2.3 VR und AR in der Lehre ........................................................................ 14 2.2.3 Zukunft: Konstruktion neuer Erlebnisräume......................................... 16 3 Environmental Scene Analysis (ESA)...................................................... 18 3.1 Begriff, Einordnung und Abgrenzung........................................................... 18 3.1.1 Der perzeptive Ansatz.......................................................................... 18 3.1.2 Der umweltpsychologischer Ansatz...................................................... 18 3.1.3 Einordnung und Begriff......................................................................... 20 3.2 Analyse von Aussenaufnahmen:................................................................... 22 3.2.1 Ausstattung und Audioformat............................................................... 22 3.2.2 Stadtszenen......................................................................................... 22 3.2.2.1 Abstraktion: Sprachliche Einheit.......................................................... 26 3.2.2.2 Kategorisierung: Gruppenbildung/Hierarchisierung............................. 26 3.2.2.3 Beschreibung: Besonderheiten und Auffälligkeiten............................. 30 4 Environmental Scene Design................................................................... 32 4.1 Der Weg und das Ziel................................................................................... 32 4.2 Reduktion..................................................................................................... 33 4.2.1 Reduktion durch Bewertung................................................................. 34 4.2.2 Reduktion durch Verschmelzung.......................................................... 36 4.3 Gruppenbildung/Einteilung.......................................................................... 38 4.4 Klangliche Verfremdung............................................................................... 39 4.4.1 Veränderung der Tonhöhe.................................................................... 40 4.4.2 Tempoänderung .................................................................................. 40 4.4.2.1 Timestretching...................................................................................... 40 3 4.4.2.2 Pitching................................................................................................. 40 4.4.3 Reverse Playback ................................................................................ 41 4.4.4 Temporal Patterning............................................................................. 41 4.4.4.1 Timer.....................................................................................................41 4.4.4.2 Delay.....................................................................................................41 4.4.5 Lautstärke-Variation............................................................................. 42 4.4.6 Equalizer und Filter............................................................................... 42 4.5 Übersicht Stadtszenen ................................................................................. 42 4.6 Synthese-Formel........................................................................................... 43 5 Komposition von Geräuschkulissen......................................................... 44 5.1 Wahl der Programmiersprache.................................................................... 44 5.2 Konzept und Aufbau..................................................................................... 44 5.3 Implementierung.......................................................................................... 46 5.3.1 5.3.2 5.3.3 5.3.4 5.3.5 Der Regenpatcher................................................................................ Subpatcher und Scripting..................................................................... Position und Bewegung........................................................................ Open Sound Control............................................................................. Der Szenerator..................................................................................... 46 48 48 49 49 5.4 Ergebnisse.................................................................................................... 51 6 Mehrkanal-Ausgabe................................................................................. 53 6.1 Wahl des Ausgabeformats............................................................................ 53 6.1.1 Ambisonic............................................................................................. 53 6.1.2 Wellenfeldsynthese.............................................................................. 53 6.2 WFS-Produkte............................................................................................... 55 6.2.1 Kommerzielle Produkte......................................................................... 55 6.2.1.1 IOSONO ................................................................................................ 55 6.2.1.2 Sonic Emotion....................................................................................... 55 6.2.2 Open Source: swonder......................................................................... 55 6.3 Installation VR-Labor.................................................................................... 57 6.3.1 6.3.2 6.3.3 6.3.4 Hardware.............................................................................................. Software............................................................................................... Zusammenspiel aller Komponenten..................................................... Weitere Möglichkeiten.......................................................................... 57 58 59 59 6.4 Erkenntnisse................................................................................................. 60 6.5 Empfehlungen für das neue VR-Labor.......................................................... 61 6.5.1 Authoring-Software.............................................................................. 61 6.5.2 Audio-PC............................................................................................... 61 6.5.3 Verstärker und Lautsprecher................................................................ 62 7 Fazit......................................................................................................... 63 7.1 Interessante Abzweigungen......................................................................... 63 7.2 Unerledigtes................................................................................................. 63 4 7.3 Zusammenfassung........................................................................................ 64 7.4 Nachwort...................................................................................................... 64 Anhang......................................................................................................... 65 I Hardware........................................................................................................ 65 Ausstattung PC 1........................................................................................... 65 Ausstattung PC 2........................................................................................... 65 Sonstiges....................................................................................................... 65 II Software......................................................................................................... 66 Linux (PC 1)................................................................................................... 66 Windows XP (PC 2 + PrivatPC)....................................................................... 66 III Glossar.......................................................................................................... 67 IV Abbildungsverzeichnis.................................................................................. 70 V Literaturliste................................................................................................. 71 VI Datenträger................................................................................................... 72 5 Abstract Die Bedeutung einer angemessenen Vertonung wird in vielen Medienproduktionen, so auch in VR-Anwendungen, gerne unterschätzt. Letztere müssen sogar häufig ohne Ton oder mit einer räumlich ineffektiven Stereo- oder 5.1-Beschallung auskommen. Ziel dieser Arbeit ist, durch auditive Untermalung das Präsenzgefühl in einer virtuellen Umgebung zu steigern. Es soll ein Gesamtkonzept entwickelt und prototypisch umgesetzt werden, um passend zu einer räumlichen Visualisierung eine räumliche Auralisierung zu komponieren. In einem ersten Schritt wurde eine Anwendung erstellt, die möglichst flexibel verschiedene, glaubwürdige Geräuschkulissen generiert. Dazu wurden MikrofonAufnahmen geeigneter Szenen im Real Life gemacht und anschließend analysiert, um durch induktive Methodik Designvorgaben abzuleiten, die auf eine Vielzahl von Alltagskulissen anwendbar sind. Diese Gestaltungsmuster fanden ihren Niederschlag im Aufbau und den Algorithmen des Szenengenerator-Prototyps. Im zweiten Schritt sollte diese Kulisse über ein räumlich präzises Wiedergabeverfahren ausgegeben werden. Die Wahl fiel auf Wellenfeldsynthese – eine experimentelle Lowbudget-Anlage wurde im (ersten) VR-Labor der Hochschule Furtwangen errichtet. Abschließend wurde noch eine Steuerung in dem mit Max/MSP erstellten SzenenKompositionstool implementiert, die es ermöglicht, einzelne Quellen der Kulisse im Wellenfeld zu positionieren und zu bewegen. Dadurch entstand ein komplettes Audioframework, das flexibel mit einer visuellen VR-Anwendung verknüpft werden kann. 6 1 Einleitung 1.1 Medien im Wandel Im Bereich der Mediennutzung vollzieht sich seit dem Siegeszug der Computerspiele ein Paradigmenwechsel, den ich treffenderweise die Panoramatische Apperzeption nennen möchte: den „Eintritt des Beobachters in den Bildraum“1. Im Gegensatz zu den Bildmedien, die mit dem Schema der Identifikation und, im Falle der Bewegtbildmedien, mit der aristotelischen Dramaturgie („Furcht und Mitleid“) arbeiten, ist der Mediennutzer im Zeitalter der Telepräsenz nicht mehr auf die Rolle des Konsumenten von Inhalten beschränkt – die dritte Person wird abgelöst durch die erste Person, die vorgegebene Linearität der Handlung wird aufgehoben, um durch die Möglichkeiten der Interaktion einer (schier) grenzenlosen Freiheit Platz zu schaffen. Dem Blick durch das „finistra aperta“ folgt das (gefühlte) Eintreten in den Wahrnehmungsraum: Es ist dieses Eintauchen in eine geschaffene Realität, welches den Reiz von 3D-Spielen ausmacht – selber der Held, der Akteur zu sein, in die Rolle des Diebes (Thief), des Soldaten (Soldier of Fortune, Call of Duty), des Auftragskillers (Hitman), des Königs (Age of Empires), eines Fantasiewesens (World of Warcraft) oder einfach die des Nachbarn (Die Sims) zu schlüpfen. Nervenkitzel und Kurzweil ist dabei garantiert, eine Gefahr für Leib und Leben besteht, von dem Suchtpotenzial abgesehen, kaum. 1.2 Grundbegriffe der VR Immersion (lat. „Eintauchen“) ist auch einer der zentralen Begriffe im Kontext von virtueller Realität. Doch was bedeutet virtuelle Realität? Diese Frage führt schnurstracks auf die glatte, dünne Eisdecke eines zugefrorenen Sees, über dessen Tiefe, Beschaffenheit, oder gar Existenz mindestens seit Platons Ideenlehre spekuliert wird. Daher klammern wir die philosophischen Implikationen von Realität kurzerhand aus und geben uns in diesem bescheidenen Rahmen mit banalen Synonymen wie „Dinglichkeit, Gegebenheit, tatsächliche Lage, Wirklichkeit“2 zufrieden. Eine unverfänglichere Definition findet sich für virtuell: „lat: anlagemässig, der Kraft oder Möglichkeit nach vorhanden aber sich nicht auswirkend, scheinbar“3 Das Begriffspaar (englisch: virtual reality) hat denn auch eine speziellere Bedeutung, die sich nicht aus den Definitionen der einzelnen Wörter erschließt: Virtual reality is a high-end user-computer interface that involves real-time simulation and interactions through multiple 1 2 3 http://de.wikipedia.org/wiki/Panoramatische_Apperzeption Dultz, Wilhelm (Herausgeber): Das Fremdwörterlexikon, Ullstein Verlag, Frankfurt/M.-Berlin, 1965, S. 444 Dultz, Fremdwörterlexikon, a.a.O., S. 7 sensorial channels. These sensorial modalities are visual, auditory, tactile, smell, and taste.4 Während Riechen und Schmecken bislang noch keinerlei Bedeutung in virtuellen Umgebungen haben, wird umso mehr Wert auf die restlichen drei, Sehen, Hören und Tasten gelegt, wobei Tasten als Oberbegriff für Navigieren und Interagieren steht. Das herausragende Merkmal einer virtuellen Umgebung ist die Einführung der dritten Dimension, was üblicherweise durch stereoskopische Projektion oder Head Mounted Displays erreicht wird. Im Unterschied zum Computerspieler vor dem Bildschirm hat der Nutzer einer VREinrichtung so die Möglichkeit, tatsächlich und körperlich den Wahrnehmungsraum zu betreten und, je nach Stand der Technik, sich auch darin zu bewegen. Der Beobachter, der den Bildraum betritt, ist also fortan nicht mehr ausschließlich Beobachter, sondern auch Handelnder und Entscheidungsträger. 1.3 Die Säulen der VR Die drei I's der VR5 geben eine komprimierte Übersicht über die wichtigen Größen von virtuellen Umgebungen: • Interaktivität • Immersion • Imagination Abb. 1: Die drei I's der Virtuellen Realität Imagination ist laut Burdea „problemlösendes Denken“ und die „Fähigkeit des Geistes, nicht existente Dinge wahrzunehmen“6. Diese Begriffsbestimmung scheint selbst in vorliegendem, technologisch eingegrenzten Rahmen zu tief gegriffen und muss erweitert werden: Imagination ist jene (Vorstellungs-)Kraft, die die Unvollkommenheit der Benutzerschnittstelle und sonstige Unzulänglichkeiten des technischen Ambiente 4 5 6 Burdea, Coiffet: Virtual reality technology, Wiley-IEEE Press, 2nd edition, New Jersey, 2003 , S. 3 Burdea et al., a.a.O., S. 3 Burdea et al., a.a.O., S. 3 8 transzendiert, wodurch aus der virtuellen Szene ein intensives kognitives und emotionales Erlebnis erwachsen kann (vgl. dazu: „suspension of disbelief“, Kap. 4.1). 1.4 Die Rolle von Audio in der VR Shilling und Shinn-Cunningham7 schreiben treffend, dass dem auditiven Teil beim Design von virtuellen Umgebungen wenig Aufmerksamkeit gewidmet werde. Angesichts der entscheidenden Rolle, die Hören in unserem Alltag zukommt, sei das wenig verständlich. Schallereignisse steigerten das Bewusstwerden von Umgebungen, lenkten die visuelle Aufmerksamkeit und übermittelten eine Vielzahl komplexer Informationen ohne den Gesichtssinn zu beanspruchen. Als Quintessenz des Gesagten können wir festhalten, dass durch eine passend vertonte VR das Gefühl der Anwesenheit im virtuellen Raum gesteigert wird. Weiter schreiben sie: The entertainment industry has recognized that sound is a vital aspect of creating ambience and emotion for films. George Lucas, best recognized by the public for stunning visual effects in his movies, has stated that sound is 50% of the movie experience (THX, 2000)8 Schlussfolgerung: Die starke gefühlsmässige Einbindung ins Geschehen, die durch eine Geräuschkulisse erreicht wird, erhöht den Immersionsgrad des Mediums. Schäfer-Schönthal schreibt über die auditive Wahrnehmung: Liegen dem menschlichen Wahrnehmungssystem unterschiedliche Informationen von Auge und Ohr zur Beurteilung einer Situation vor, so entscheidet sich der Mensch meistens nach der akustischen Information. Dies liegt zum einen an der archaischen Verbindung von Gefühlssituationen mit dem Gehörsinn. Zum anderen hat der Mensch mehr Vertrauen zu diesem Sinn, da das Ohr nicht so leicht zu täuschen ist wie das Auge. Das dreidimensionale Sehen kann falsche Eindrücke über den Abstand eines Objektes vermitteln, während der Abstand oder die Position einer Schallquelle vom Ohr nur schwer getäuscht werden kann.9 Demzufolge lohnt es sich, ein räumlich exaktes Wiedergabeverfahren einzusetzen, um dem Gehör überzeugende Informationen zu dem virtuellen Szenario zu liefern und dadurch das Präsenzgefühl zu erhöhen: In immersiven VR-Umgebungen erfordern räumliche Visualisierungen eine räumliche Beschallung. Vorteile hat ein räumliches Wiedergabeverfahren auch für die Interaktion: Der Nutzer kann durch gezielte, positionierte Geräusche oder Stimmen in seiner Aufmerksamkeit gelenkt werden (Dramaturgie) oder Orientierungshilfen erhalten, akustische Landmarks gewissermaßen. (vgl. 2.1.2.3: VR in der Lehre – VERTEX) 7 8 9 Stanney, Kay M.(Editor): Handbook of Virtual Environments – Design, Implementation and Applications, Lawrence Erlbaum Publishers, New Jersey / London, 2002, S. 65 Stanney, Handbook of Virtual Environments, a.a.O, S. 66 Schäfer-Schönthal, A.: Audiotechnik (Skript Nr. 257), Lehrmaterial der Hochschule Furtwangen, 2004, S. 21 9 2 Konzept und Einsatzgebiete 2.1 Konzept und Vorgehensweise Ein Kompositionstool soll entwickelt werden, das ein auditives Szenario erzeugt, welches einer realen Umgebung nachempfunden ist. Anschließend wird die Szene über ein Beschallungssystem verräumlicht, das ebenfalls entworfen und realisiert werden soll. Die Anwendung soll Audiosamples, die durch Namenskonventionen inhaltlich gruppiert sind, nach einem vorgegebenen Muster abspielen und nach Bedarf mit Effekten versehen oder sie auf andere Art in ihren Eigenschaften den Erfordernissen anpassen. Die zeitliche Anordnung der Geräusche bei der Wiedergabe, die Häufigkeit ihrer Wiederholung, ihre Verfremdung und ihre Position (gegebenenfalls auch Bewegung) im Raum, sind dabei die Kernfunktionen des Programms. Der Prototyp soll ein Innenstadtszenario generieren, das einem VR-Projekt im Wintersemester 2005/06 entstammt (ausführliche Beschreibung unter 2.2.2.3): Straßenkreuzung in einer Großstadt mit Tramhaltestelle. Wichtig ist die Skalierbarkeit der Applikation, es sollen im Schnellverfahren neue Szenarien vertont werden können durch Bereitstellen einer geringen Anzahl an Samples: größtmöglicher Realismus mit kleinstmöglichem Aufwand. Um die Audioszene zu modellieren, muss zuerst verstanden werden, woraus sie typischerweise zusammengesetzt ist. Dazu sind Aufnahmen an repräsentativen Stellen unerlässlich, die auf ihre Zusammensetzung hin untersucht werden. Dann können Kriterien erarbeitet werden, die einen flexiblen Nachbau der Kulisse erlauben. Diese Vorgaben entscheiden über die Arbeitsweise der Anwendung. Anschließend werden geeignete Audioschnipsel zusammengetragen und zurechtgeschnitten, als Grundlage für eine teilweise automatisierte Szenenkomposition. Die Steuerung wird auf die Ausgabeplattform abgestimmt. Dabei ist ein intuitives Benutzerinterface anzustreben, das ein schnelles Erfolgserlebnis ermöglicht. Eine Dokumentation erläutert die Möglichkeiten des Prototypen und klärt Fragen zu Anwendung, Funktion und Erweiterungen. 2.2 Motivation und Einsatzgebiete Wozu akustische Simulation von Alltagsszenarien? Eine solch fundamentale Frage kann selbstverständlich nicht in einem Satz erschöpfend beantwortet werden, daher möchte ich die Antwort aus verschiedenen Blickwinkeln formulieren: persönlich, pragmatisch-kommerziell, zukunftsorientiert. 10 2.2.1 Persönliche Motivation: Die Welt ist vergänglich Wir befinden uns inmitten eines großen Umbruchs. Klimawandel, Umweltzerstörung, Treibhausgase die eine Veränderung der Erdatmosphäre bewirken, Regenwaldabbau bei gleichzeitig erhöhter Verbrennung fossiler Energieträger auf der einen Seite, sowie ein brodelndes Kriegsszenario im Nahen Osten, entfesselt durch den Wahnsinn einer neoliberalistischen westlichen Supermacht samt ihrem Gefolge auf der anderen Seite führen dem informierten Betrachter die Unausweichlichkeit einer Katastrophe vor Augen – ob sukzessiv schleichend durch gedankenlos entfesselte Naturgewalten, oder explosiv per Knopfdruck eines selbsternannten Weltretters, wird sich noch zeigen. Kurzum: Die Menschheit ist dabei, sich auszulöschen, ohne auch nur ansatzweise sich selbst oder die Welt, die sie in Heuschreckenmanier bevölkert, verstanden zu haben. Sollten eines Tages die Ausserirdischen landen, und einen „Film auf ihr strahlendes, weisses Raumschiff projizieren“10, dann möchte ich einen Beitrag dazu geleistet haben, dieser Nachwelt, wie auch immer sie geartet sein wird, einen Einblick in die Welt der „Wilden“11 zu erlauben, die einst diesen Planeten bewohnten. Dabei verstehe ich mein Wirken nicht als abgekoppelte, eigenständige Entwicklung. Es ist mein Wunsch, dass andere Entwickler von Realität oder virtueller Realität darauf zurückgreifen, es weiterentwickeln in ihrem Sinne, sei es durch Erweiterung um andere auditive Szenarien, oder als Ergänzung zu einem visuell orientierten Projekt. Auch geht mein Ansatz über das simple Erfassen des Gegebenen im Sinne von Aufzeichnen hinaus: Es ist mir wichtig einen kleinen Blick auf die gestalterische Arbeitsweise der tonangebenden Akteure auf der alltäglichen Klangbühne zu erhaschen, um dem geneigten Publikum das bestmögliche Ergebnis auch ohne diese Bühne, mittels technischer Hilfsmittel (was gemeinhin als Simulation oder Virtualität bekannt ist), präsentieren zu können. 2.2.2 Verschiedene Einsatzszenarien der Gegenwart Selbstredend kann ich meiner Phantasie noch weitere Anwendungsmöglichkeiten entlocken, als den melodramatischen Versuch, einer postapokalyptischen Zivilisation mediale Grabbeilagen eines verflossenen dunklen Zeitalters zu liefern (wir sprechen in der Tat vom Informationszeitalter, auch wenn es treffender als „Die Sozialdarwinistische Konsumära“ in die Geschichtswikis eingehen sollte). Ich möchte die möglichen Anwendungsgebiete in drei Hauptzweige gliedern: Unterhaltung, Forschung, Lehre. 2.2.2.1 Entertainment Hier handelt es sich um einen stark expandierenden Wirtschaftszweig, die Spaßgesellschaft verpulvert in zunehmendem Maße das schwerverdiente Geld für 10 Hirsch, Ludwig: „1928“ vom Album „Komm großer schwarzer Vogel“, Polydor (Universal) 1987 11 Hirsch, Ludwig, a.a.O. 11 Eskapismus in Gestalt (vorwiegend) digitaler Erlebniswelten. Bei Filmen und Computerspielen werden meistens Studios mit der Tongestaltung beauftragt (kleinere Studios sind oft Einmannbetriebe). Dabei ist das Studio nur für die Produktion der Effekte und u.U. auch für die Komposition der Musik zuständig, die Einbindung der fertigen Sounddateien erledigen die Programmierer. Die sogenannte Game Engine sorgt für die passende Ausgabe der Sounds – hier ist seit einigen Jahren bereits Dolby Surround 5.1 (neben der altehrwürdigen Stereowiedergabe) Standard. Nichtsdestotrotz kann die von mir entwickelte Applikation dazu benutzt werden, bei kleineren Projekten „auf die Schnelle“ einen passenden Ton für vorhandene Bilder bzw. Spielszenen zu zaubern. Die ständige Weiterentwicklung der Games, was die Annäherung an vollkommenen Realismus im graphischen Bereich anbelangt, wird bald auch in der Soundwiedergabe zu neuen Standards und Produkten führen. Die nächste Stufe wäre (sowohl für Spiele, als auch für Filme) räumlich exakte Wiedergabe. Dieses Feature kann Wellenfeldsynthese bieten, wobei auch in einem kompletten Kinosaal die Räumlichkeit erhalten bleibt, unabhängig von der Sitzposition. Da bereits Wellenfeldsynthese-Anlagen zur Marktreife gelangt sind, bleibt meine bescheidene Forschung auf einen experimentellen Lowbudget-Bereich beschränkt, den die momentan verfügbaren Systeme mit Sicherheit (auch in Zukunft) nicht abdecken werden. Es ist in meinen Augen nur eine Frage der Zeit, wann Wellenfeldsynthese in den Medien als das ultimative Spiele- und Filmerlebnis angepriesen wird. Spätestens seit Schillers Briefen „Über die ästhetische Erziehung des Menschen", denen der berühmte Ausspruch „Der Mensch spielt nur, wo er in voller Bedeutung des Wortes Mensch ist, und er ist nur da ganz Mensch, wo er spielt." entstammt, wissen wir, dass Spiel mehr bedeutet als Beschäftigungstherapie für die Kleinen. Erwachsene Menschen spielen ebenfalls gerne und tun dies zunehmend am Computer, daher ist es auch verständlich, dass die Spieleindustrie mittlerweile zu einer der stärksten Antriebsfedern gehört, was die Entwicklung leistungsstärkerer, perfomanterer Hardware angeht. 12 Abb. 2: Screenshot aus Oblivion: ausgedehnte, glaubwürdige Welt Wir können bereits in naher Zukunft mit riesigen künstlichen Welten rechnen, wie sie bereits der kürzlich erschienene Titel „The Elder Scrolls IV – Oblivion“12 bietet, sowohl online, für eine vernetzte Spielergemeinde, als auch offline (im Einzelkämpfer- oder Einzelerkunder-Modus), in welchen das Gelände bzw. die Räume der Spielwelt von der KI13 nach vorgegebenen Gestaltungskriterien in einem parametrisierten Rahmen „zufällig“ erzeugt werden. Um die realistische Anmutung der Spielewelt zu vervollkommnen und dem Spieler ein möglichst hohes Präsenzgefühl zu vermitteln, muss sinnvollerweise auch ein Gestaltungsalgorithmus für die passende Audiokulisse definiert werden. Die Entwicklung eines solchen Algorithmus' ist Thema meiner Arbeit. 2.2.2.2 Virtual und Augmented Reality in Forschung und Entwicklung In der Forschung, sei es nun Medizin oder Fahrzeugbau, kommt es bei funktionalen, oft minimalistischen 3D-Szenarien meistens auf die Exaktheit bestimmter Details an. Übertragen auf die akustische Komponente von VR oder AR14 bedeutet dies, dass eine exakte räumliche Platzierung der Geräusche zusätzlich zu einem gewünschten Sounddesign wichtig wird. So ist beispielsweise das Design des Motorgeräusches aktueller Kraftfahrzeuge eine Anwendung, die aus wirtschaftlichen Gründen wie geschaffen ist für die 12 Bethesda Soft, The Elder Scrolls 4: Oblivion, seit März 2006 im Handel 13 Künstliche Intelligenz, s. Glossar 14 Augmented Reality, s. Glossar 13 Entwicklung in einem virtuellen Fahrzeug, d.h. In einem VR-Labor mit entsprechender räumlicher auditiver Wiedergabe. Hier kann das Fahrzeug mitsamt dem Motor visuell und akustisch nachgebildet werden, um dann mit verschiedenen Einspritzpumpen, Hubraumvolumina, Kolbenmaßen, Ölpumpen u.ä. getestet zu werden. Abb. 3: Bilder der akustischen Kamera Die Zeitschrift „Technology Review“ berichtet in der Ausgabe 6/2006 über eine „akustische Kamera“, mit deren Hilfe Geräusche in einem 3D-Modell des untersuchten Fahrzeugs visualisiert werden können, um so beispielsweise die Quelle von Störgeräuschen zu ermitteln: Das Ergebnis des ganzen Aufwandes sind Computer-Bilder des Objektes mit darübergelegten Farb-Informationen über Quellen und Lautstärken von Geräuschen. ... „Das Interesse an diesen 3D-Aufnahmen ist groß“, sagt Ralf Schröder, Leiter des Bereichs Akustische Kamera bei der GfaI. Demnächst sollen erste Messungen bei Airbus in Toulouse vorgenommen werden.15 Dieses Beispiel fügt sich nahtlos in das eben beschriebene Szenario einer audiogestützten VR-Anwendung für die Industrie ein. 2.2.2.3 VR und AR in der Lehre Medizin Ein Beispiel aus der Medizin wäre etwa die Simulation einer wie auch immer gearteten Operation eines (virtuellen) Patienten für einen Studierenden der Medizin zu Übungszwecken, wo eine entsprechende Audiokulisse, mit verorteten Geräuschquellen für OP-Assistentenstimme, diverse Diagnosegeräte (Herzrhythmus), Narkosearztstimme usw. ebenfalls einen grossen Anteil an dem erlebten Präsenzgefühl haben. Die Echtheit der Szene kann für didaktische Zwecke in einem Bereich, in dem schnelle Entscheidungen und wenige Handgriffe auf die Gesundheit oder gar das Leben eines Menschen Einfluss nehmen, nicht hoch genug sein – „realistisch“ als Vorgabe ist hier wörtlich zu nehmen. Vorstellen kann man sich auf diese Art natürlich auch ferngesteuerte Operationen, die von Fachärzten in einem speziellen VR-Labor durchgeführt werden, während 15 Technology Review, „Lärm in Bildern“, Nr. 6/2006, S. 26 14 der (echte) Patient samt OP-Assistenz an einem anderen Ort der Welt in einer Spezialklinik die Behandlung erfährt. Auch hier ist eine räumliche Wiedergabe des echten Operationssaales höchst wünschenswert, da die Ärzte in einer solchen heiklen Lage auf möglichst präzise Informationen ihrer Umwelt angewiesen sind. Kommunikationsforschung Ein weiteres Beispiel aus dem Umfeld der Fakultät Digitale Medien der Hochschule Furtwangen ist das Projekt VERTEX. Es wurde initiiert vom Image, Space and Interaction Center Furtwangen: Das Image, Space and Interaction Center Furtwangen (ISIC) betreibt bildwissenschaftliche Forschung mit Hilfe innovativer Technologien in den drei Bereichen Bild – Raum – Interaktion. (...) In Forschung und Lehre werden die performativen, sozialen, immersiven sowie interaktiven Effekte von Bildmedien untersucht. Die Mitglieder von ISIC bündeln dafür fachübergreifend Kompetenzen aus Konzeption, Gestaltung, Medieninformatik und empirischer Sozialforschung.16 VERTEX steht als Akronym für Virtual Environment Test Experiment und „ist eine quantitative Methode zur Messung der Stärke unbewusster Bild- und Plakatwahrnehmung durch die Simulation natürlicher Wahrnehmungskontexte in virtuellen Umgebungen.“17 Abb. 4: Teil der Münchner Innenstadt als begehbares 3D-Modell (Screenshot) 16 http://isic.dm.fh-furtwangen.de/index.php?article_id=92 17 http://isic.dm.fh-furtwangen.de/index.php?article_id=132 15 Im Rahmen mehrerer Lehrveranstaltungen mit praktischem Schwerpunkt wurde von Studierenden der Fakultät ein 3D-Modell der Münchner Innenstadt erstellt und mit der Authoring-Software Virtools18 zu einem interaktiven Rundgang umgestaltet, der – zunächst als Plakatwirkungstest konzipiert – Testpersonen einen virtuellen Spaziergang vom Stacchus zum Hauptbahnhof erlaubte. Die Genauigkeit der Ergebnisse von Bildwirkungsforschung hängen eng mit der Realitätsnähe des Modells zusammen. Eine adäquate Vertonung des Testszenarios steigert die Immersivität und ermöglicht zudem eine unkomplizierte Adressierung der Probanden: durch aufgezeichnete Sprechertexte können dramaturgische Elemente („Wo bin ich“, „Was tue ich hier“) oder Navigations-Anweisungen integriert werden. Am Ende des Tests bietet sich eine mit Sprachsamples realisierte Befragung innerhalb des Modells an, um einen Medienbruch zu vermeiden. VERTEX wird nunmehr seit vier Semestern kontinuierlich weiterentwickelt19 und profitiert zusätzlich von der Vernetzung verschiedener Projekte und Diplomarbeiten, die sich unterschiedlichen Aspekten der Themenkreise Virtuelle Realität und audiovisuelle Medien widmen, als da wären: Audio, 3D-Grafik, Dramaturgie, Authoring, Tracking, Steuerung/Interaktion, Augmented Vision. 2.2.3 Zukunft: Konstruktion neuer Erlebnisräume Last but not least bleibt die Zukunft spannend und bietet Raum für Ideen und Spekulationen. Unterhaltung ist, wie wir bereits feststellen durften, ein expandierender Markt in den liberalistisch geprägten Konsum- und Spaßgesellschaften. Während die neuesten Spiele für PC und Konsolen bereits aussehen wie interaktive Filme, formiert sich im Internet eine große Fangemeinde um sogenannte OnlineSpiele. Jenseits der in Performance und Grafik spartanischen Browserspiele gibt es inzwischen etliche grafisch anmutige, immersive Spiele, deren Hauptteile auf dem Client laufen, während die Welt zu Spielzeiten in Beschaffenheit und Population mit den Online-Servern abgeglichen wird. Titel wie EVE Online20 oder World of Warcraft21 erfreuen sich einer stetig wachsenden Fangemeinde, trotz monatlich anfallender Gebühren. Wenn man aktuelle Trends konsequent weiterspinnt, so kann man auch ohne prophetische Gabe für das bereits heute verfügbare Breitband-Internet noch weitere populäre Anwendungen vorausahnen: • 18 19 20 21 Semantic Web: Das Internet ist via Sprachsteuerung zugänglich und die Browser der Zukunft beherrschen ebenfalls Sprachausgabe (eine in sehr vielen Science Fiction Romanen und Filmen vorweggenommene Entwicklung: die Maschinen sprechen die Sprache des Menschen). Da der Cyberspace ein Raum ist, muss wohl oder übel eine angemessene Beschallungsanlage im Wohnzimmer der Zukunft stehen, vor allem für Leute, die den Tragekomfort von HMDs, Kopfhörern und ähnlichen http://www.virtools.com/ http://webuser.fh-furtwangen.de/~fetzner/medialab/index.php?pagename=Main.VerTex http://eve-online.com/ http://www.wow-europe.com/de/ 16 Implantaten nicht zu schätzen wissen. • Immersive Chaträume, gestaltet in der Art aktueller 3D-Spiele können von zahlreichen Nutzern bevölkert werden. Eine räumliche Audiowiedergabe gehört hier zur Pflichtausstattung, ein Gespräch mit anderen Avataren erfordert eine (virtuelle) räumliche Nähe (Stichwort: Cybercafé). Im offline-Bereich, angelehnt an das choreographisch anmutende Datenhandschuh-Userinterface in Minority Report22, kann ich mir eine CAVE 23 vorstellen, die ebenfalls über eine auditive Steuerung verfügt und den bzw die Nutzer anhand von Trackingdaten optimal mit einer angepassten Soundkulisse versorgen kann. Die weitere Entwicklung geht hier in Richtung „Holodeck“24, weniger was die Darstellungsart (Holografie) angeht, sondern eher das Integrieren der Steuergeräte z.B. in die Kleidung (Stichwort: Ubiquituous Computing), sodass eine freie Bewegung in der virtuellen Umgebung möglich ist. 22 Minority Report, beklemmender Science-Fiction-Thriller mit packender Story von Steven Spielberg, 2002 23 Cave Automatic Virtual Environment, s. Glossar 24 Begriff aus dem Star Trek Universum: Raum, in dem lebensechte Simulationen möglich sind, futuristische CAVE 17 3 Environmental Scene Analysis (ESA) 3.1 Begriff, Einordnung und Abgrenzung Bregman beschreibt in der Einleitung zu „Auditory Scene Analysis“25 zwei unterschiedliche Forschungsansätze, die sich seit Mitte der 1960er Jahre aus der bis dahin einheitlich perzeptiven Forschungsrichtung zum Thema Hören entwickelten: • den (weiterhin) perzeptiven Ansatz • den umweltpsychologischen Ansatz 3.1.1 Der perzeptive Ansatz Seine Vertreter beschäftigen sich mit Fragestellungen zur Funktionsweise des Hörens und wie dadurch ein inneres Abbild unserer Umgebung erzeugt wird. Als übergeordnete Disziplin ist hier die Kognitive Psychologie26 zu nennen. Gaver27 bezeichnet diese Richtung sogar als den kognitiven Ansatz, im Vordergrund stehe dabei das „musical listening“: Dabei werde Wert gelegt auf eine wissenschaftliche Kategorisierung von Klängen, insbesondere von Klängen diverser Musikinstrumente, die dann in ihren sensorischen Qualitäten beschrieben werden, nämlich in Begriffen von Tonhöhe, Klangfarbe, Dauer, Lautstärke et cetera und der Veränderung dieser Eigenschaften über die Zeit. Auch Bregman kann man dieser Disziplin zuordnen, in „Auditory Scene Analysis“28 versucht er die Gesetzmäßigkeiten der Gestaltpsychologie von der visuellen auf die auditive Wahrnehmung zu übertragen. 3.1.2 Der umweltpsychologischer Ansatz In Abgrenzung zum „musikalischen Hören“ der kognitiven Forschung spricht Gaver hier von „everyday listening“, also dem Alltagshören. Vertreter dieses „ecological approach“, zu denen auch Gaver selbst gehört, versuchen auf eher pragmatische Art und Weise das Alltagshören des Menschen zu eruieren, das in erster Linie ein interpretierendes Hören ist: In einer alltäglichen Umgebung hören wir demzufolge keine disharmonischen Sägezahnschwingungen mit vielen Obertönen und einem hohen Rauschanteil, sondern wir hören Automotoren, Stimmen, Vogelzwitschern und so weiter. Hören wird hier in erster Linie als die Wahrnehmung von den Schallereignissen selber verstanden und nicht, wie etwa in der Psychoakustik (die ebenfalls der Kognitiven Psychologie untergliedert ist), als das Auftreffen von Schwingungen unterschiedlicher Frequenz in der Hörschnecke und die Weiterleitung der Signale zum Gehirn. 25 Bregman, Auditory Scene Analysis. Cambridge, MIT Press, 1990 26 http://en.wikipedia.org/wiki/Perception 27 Gaver, William S.: What in the World Do We Hear? + How Do We Hear in the World?, Ecological Psychology, 1993 s. Literaturverzeichnis 28 Bregman, a.a.O. 18 Laut Bregmann beschäftigen sich die Fragestellungen auf diesem Gebiet mit dem „wie unsere Umwelt üblicherweise die Geräusche um uns herum formt“29. Gaver hat damit begonnen ein grundlegendes Framework zur Klassifizierung möglichst aller in unserer Umwelt vorkommenden Geräusche zu entwickeln. Wie das aussieht, zeigt Abbildung 5. Er versucht, in den beiden Artikeln „What in the World Do We Hear?: An Ecological Approach to Auditory Event Perception“ und „How Do We Hear in the World?: Explorations in Ecological Acoustics“30 – beide erschienen im Journal „Ecological Psychology“ – alle nichtmusikalischen Umweltgeräusche in einem zweidimensionales System anzuordnen. Die zentralen Aussagen sind: sounds are caused by and convey information about the interaction of materials at a location in an environment.31 Was soviel bedeutet wie: Geräusche werden verursacht von und vermitteln Information über die Interaktion von Materialien an einem Ort in einer Umgebung. Weiter schreibt er, dass akustische Alltagswahrnehmung viele detaillierte Aussagen über die Ereignisse, die Klänge produzieren, ermögliche, so z.B. über: Material, Form, Größe, Beschaffenheit der Oberfläche, Wucht/Masse, Geschwindigkeit usw. 29 Bregman, ebda, S. 1 30 s. Literaturliste, Anhang V 31 Gaver, How Do We Hear in the World?, Ecological Psychology 5(4) S. 288 19 Abb. 5: Das phänomenologische Framework Gavers Diese These ist die Grundlage der systematischen, phänomenologischen Klassifizierung von Alltagsgeräuschen, die er tabellarisch nach zwei Merkmalen beschreibt: 1. Als Element, das an dem Klangereignis beteiligt ist: feststofflich, flüssig, gasförmig (angelehnt an die 4 Elemente, lässt er die Fragen für weitere Forschungen auf diesem Gebiet offen, ob Feuer oder Elektrizität als 4. Element in Frage kommt, oder zusätzlich eine Sparte für computergenerierte Klänge sinnvoll ist) 2. Nach der Zusammensetzung des Klangereignisses unterscheidet er zwischen • basic level events: hier ist nur ein Element an der Klangentstehung beteiligt • temporal patterning: zeitliche Muster (der Anordnung, Wiederholung) eines basic level events, wie Laufen, Klopfen, Zerreissen • compound events: bestehen aus verschiedenen basic level events (Schreiben, Bowling) • hybrid events: Materialen verschiedener Elemente tragen zur Klangentstehung bei, so beispielsweise bei Regen flüssige und feste Zusätzlich zu dieser Klassifizierung folgert Gaver, dass wenn Klangereignisse Informationen über die physikalische Beschaffenheit der beteiligten Objekte übermitteln, eine physikalische Beschreibung dieser Objekte hinreichend sein muss, um das entsprechende Klangereignis computergestützt zu modellieren, oder es von einer Applikation erkennen zu lassen. Verschiedene basic level events werden in Form von Algorithmen beschrieben, die ihre Synthese mittels vorhandener oder selbstgeschriebener Programme ermöglichen sollen. Weitere Vertreter des umweltpsychologischen Ansatzes sind Priscilla Chueng und Stefania Serafin, deren Beiträge zu einem minimalistischen Design-Ansatz zur Verstärkung des Präsenzgefühls in virtuellen Umgebungen in den folgenden Abschnitten dieses Kapitels näher untersucht werden. 3.1.3 Einordnung und Begriff Wiewohl Gaver mit seiner Arbeit Neuland betritt und sein Ansatz sowohl reizvoll als auch vielversprechend wirkt, geht er für die Absichten, die ich mit meinem designorientierten Ansatz verfolge, zu weit. Ich verwende aufgenommene Geräusche als Grundelemente meiner Klangkulissen, um die Glaubwürdigkeit und das Präsenzgefühl zu steigern. Experimente mit synthetisierten Klängen würden sowohl den Rahmen dieser Arbeit als auch den dafür benötigten Aufwand in die unermesslichen Weiten des Alls sprengen. In meiner Arbeit soll es nicht um eine physikalisch korrekte Wiedergabe von 20 Audiokulissen mit den dazugehörigen Raumeigenschaften, wie sie etwa von Raytracingmodellen o.ä. berechnet werden, gehen. Im Mittelpunkt steht hier ganz klar das Alltagshören und nicht das musikalische Hören der perzeptiven Forschung. Dennoch gehe ich nicht so weit wie Gaver, einzelne Geräusche auf der Ebene ihrer Entstehung zu synthesisieren, sondern benutze sogenannte Samples, kurze aufgezeichnete Fragmente, als Bausteine für die Komposition von Geräuschkulissen. Das „Environmental“ des Titels geht auf einen Ausspruch von Friedmann32 zurück, einem Betreuer dieser Arbeit. Seiner Ansicht nach kann die Reproduktion von Alltagsgeräuschen folgendem Schema folgen: „trockene“, arrangierte Aufnahmen + ERTF (environment related transfer functions/akustische Raumeigenschaften) -------------------------------------------------------= wiedergegebenes Klangereignis Wie bereits erwähnt, beschäftige ich mich nicht mit den exakten physikalischen Eigenschaften der Geräusche – da der gestalterische Aspekt im Vordergrund steht, auch nicht eingehend mit den räumlichen Eigenschaften. Dem Einfluss der Umgebung (environment) auf die einzelnen Audioszenen sind einige Worte in Kapitel 4 (Environmental Scene Design) gewidmet. Die technische Machbarkeit der genannten Formel bei der räumlichen Wiedergabe wird im Kapitel 5 (WFS) angesprochen. Zur Abgrenzung vom ecological approach, aber auch um die inhaltliche Nähe zu diesem zu verdeutlichen, behalte ich das Synonym environmental für den Titel bei. Selbst wenn der Rest des Titels – Scene Analysis – eine Nähe zu Bregman „Auditory Scene Analysis“ suggeriert, existieren zwar Parallelen, aber wenig Gemeinsamkeiten: Bregman betreibt mit seinem Werk33 kognitive Forschung (Mustererkennung, Gestalttheorie), der Tenor vorliegender Publikation ist jedoch überwiegend pragmatisch und designorientiert. In Kürze noch einmal die Zielsetzungen, die mit dieser Arbeit verfolgt werden: I. Das Extrahieren von Designvorgaben für Alltagsszenen aus realen Beispielen, sowie das Abgleichen der gewonnenen Erkenntnisse mit ähnlich gearteten Forschungsergebnissen. (Kap. 3 und 4) II. Die prototypische Umsetzung dieser Designvorgaben in einer Programmiersprache (Kap. 5) III. Ausgabe der Audioszenen über ein räumliches Wiedergabeverfahren (Kap. 6) IV. Bewertung der Ergebnisse aus I. bis III. (Kap. 7) 32 Friedmann, Bruno, Meeting zur Besprechung der Diplomarbeit, 30.05.2006 33 Bregman, Auditory Scene Analysis. Cambridge, MIT Press, 1990 21 3.2 Analyse von Aussenaufnahmen: 3.2.1 Ausstattung und Audioformat Für die Aufzeichnungen vewendete ich folgende Ausstattung: • Kemsonic 1627 Messmikrofon, Elektret, kugelförmige Richtcharakteristik, annähernd linearer Frequenzgang von 20 Hz – 20 kHz • Stage Line MPA-102 Mikrofon-Vorverstärker, batteriebetrieben, mit fein justierbarem Ausgangspegel • Sony MD Walkman MZ-NH900, Hi-Mini-Disc Gerät; Speicherkapazität der Medien: 1 GB Die Aufnahmen wurden digital und unkomprimiert mit 16 bit, 44,1 kHz auf dem MD-Medium gespeichert und später auf die Festplatte übertragen. Ausser Normalisierung auf -3 dB erfolgte keinerlei Veränderung der Dateien – daher ist an manchen, wenigen Stellen ein intensives Störgeräusch zu vernehmen, dass durch Wind und mangels eines entsprechenden Windschutzes für das Mikrofon entstanden ist. Zur Aufnahme von Regengeräuschen im Wald bastelte ich einen provisorischen Windschutz aus Verpackungsschaumstoff, der für den Zweck ausreichte. Abb. 6: Equipment für Audioaufnahmen 3.2.2 Stadtszenen Diese Aussenaufnahmen entstanden am 23. März 2006, zwischen 16 und 17:45 Uhr. Um einen Vergleich der Geräuschstruktur verschiedener Innenstadtszenen anstellen zu können, schnitt ich an verschiedenen, mir geeignet erscheinenden Örtlichkeiten mit der eben beschriebenen Ausrüstung Audiodateien zwischen zweieinhalb und knapp vier Minuten mit. Die genauen Standpunkte können der 22 folgenden Stadtplanskizze (Abb. 7) entnommen werden, zusätzlich sind die Strassennamen in Tabelle 1 erwähnt. Abb. 7: Die sechs Standorte der Aufnahmen in der Freiburger Innenstadt Diese Aufnahmen analysierte ich nach umweltpsychologischen Gesichtspunkten, also unter Beschreibung der Schallereignisse. Ein hierfür eingesetzter In-EarOhrhörer sorgte für das Ausblenden jeglicher Umweltgeräusche (die u.U. kaum von dem aufgezeichneten zu unterscheiden wären) und garantierte ein störungsfreies Abhören. Die erste Tabelle (Tab. 1) enthält eine Auflistung aller vorkommenden Geräusche samt der Häufigkeit ihres Vorkommens. Bei der Häufigkeit unterscheide ich zwischen • punktförmig auftretenden Schallereignissen von maximal 4 Sekunden Länge, die durch einen Punkt „.“ markiert werden • länger (als 4 Sekunden) anhaltenden Geräuschen, die mittels einer Tilde „~“ symbolisiert werden • Schallereignisse, die sich über die komplette Länge der jeweiligen Aufzeichnung erstrecken, werden durch ein Gleichheitszeichen „=“ veranschaulicht. Hier soll erwähnt werden, dass – trotz allen Strebens nach objektiven Ergebnissen – eine absolut exakte Erfassung aller in den Aufnahmen auftretenden Schallereignisse weder sinnvoll noch gewünscht ist. Dies hat vor allem den Grund, dass dieselbe Aufnahme kein zweites Mal gemacht werden kann, auch wenn noch so viele Parameter übereinstimmen (Länge der Aufnahme, selber Ort, selbe Tageszeit). Es werden immer unterschiedliche Klangereignisse aufgezeichnet werden, auch mit einer hohen Fluktuation in der Dichte ihres Auftretens, so z.B. mal mehr Passantenstimmen, mal mehr anfahrende Autos usw. 23 Sinnvoll erscheint daher eine Kombination aus quantitaver und qualitativer Erfassung, nämlich: 1. Welche Geräusche spielen sich an einem bestimmten Platz mit einer hohen Wahrscheinlichkeit ab und mit welcher Häufigkeit? 2. Welche Geräusche verleihen dem Platz einen einzigartigen klanglichen Charakter? Mit Frage 2 beschäftigen wir uns im Kapitel „Environmental Scene Design“ näher, wenn es um Reduktion der Klangelement geht. Zuerst versuchen wir, um Frage 1 beantworten zu können, dem Chaos in dieser ersten Analyse Herr zu werden. 24 Nr. Ort: Beschreibung Dateiname, Länge Schallereignisse Häufigkeit 1 Werthmann-Rotteck-Ring Ecke Ratshausgasse: vierspurige Hauptstrasse, Leute aus der Fußgängerzone strömen über eine Fußgängerampel, auf dem Gehweg sind etliche Marktstände alternativmarkt.wav - Schritte auf Asphalt - Stöckelschuhe - Gesprächsfetzen - Kinderstimmen - Gitarrenspiel - Männergespräch - Lachen - Autos, Motoren - Anfahrgeräusche - Vogelstimmen ..... ~.. ... .. .~. ..~. .... ....~... ..~..~. .~~~ Niemensstr.: Fußgängerzone, Straßencafes (zu der Zeit noch ohne Tische draußen) seitenstr.fuze.wav - Vögelzwitschern - indifferentes Rumpeln - Stöckelschuhe - andere Schritte (Kopfsteinpflaster) - Dialogfetzen - Fahrradklappern - Türenquietschen/schlagen - Gläserklirren/Thekenlärm - Lachen - Hintergrundrauschen .~~..(=) . ~.~~ ... - Vogelstimmen - Hubschrauber - Tram (Brücke) - Flugzeug - Schritte - knirschende Schritte (Kies) - Trolley - Rufe, Schreien -- Kinder (Spielplatz) -- Betrunkener - Autos - Wind - Kirchenglocke =~~ ~ ~~ ~ ~~~~ ~~ - Busbremsenquietschen - Schritte - Fahrrad - Kanaldeckelgeräusche - Dialogfetzen - Motorengeräusche (aufgemotzte Motoren) - Tram . ~.. . .. ..~. ~....~. ~. . - Hundekläffer - div. Unterhaltungen - Wind - Kinderstimmen - Trameinfahrt + Bremsen - Kirchenglocke - Schritte unterschiedlicher Frequenz - Tramklingel - Anfahr- und Abfahrgeräusche - Jugendliche lachen - Schienenquietschen - Rufe - laufende Motoren - Verkehrslärm - Türenöffnen (Zischen) . ... ... ~ ... ...~. . 2 3 4 5 Stühlingerpark: hinter dem Hauptbahnhof, ca 2-3 Hektar, umsäumt von Bahngleisen, Trambrücke und großer Kirche 3' 50“ 3' 21“ stuehlingerpark.wav 3' 50“ Platz der Alten Synagoge Gehweg gegenüber Stadttheater: vierspurige Straße kreuzt Fußgängerzone, Fußgängerampel, Bushaltestelle in der Straßenmitte visavis.theather.wav Stadtbahnbrücke, Haltestelle Bus und Tram: Brücke (Fußgängerzone) führt über die Gleise des Hauptbahnhofs, relativ lange Haltestelle für etliche Bus- und Tramlinien tram.bhfbruecke.wav 2' 25' 3' 42“ 25 ...~.. .~~ ... ... .~~ = ~ . . .... ~ ~ ..~. . ..~.~ .. . .. .. = ... Nr. Ort: Beschreibung Dateiname, Länge Schallereignisse Häufigkeit 6 Konrad-Adenauer-Platz zwischen Stadtbahn- und Stühlingerbrücke: vierspurige Hauptstraße, Fußgängerampel, Busbahnhof fugae-ampel.bhf.wav - metallisches Schaben - viele Motoren gleichzeitig - Anfahren - laute Motoren - Hupen - Bremsquietschen . ~~ ~~~ .. . .. 2' 30“ Tab. 1 Die simple Auflistung der Schallereignisse in Vokabeln, die dem „everyday listening“ entsprechen, wirkt überaus unübersichtlich und uneinheitlich. Im Sinne einer besseren Übersicht und um die Komplexität zu verringern, muss ein Ordnungssystem eingeführt werden, das eine Klassifizierung der einzelnen Geräusche ermöglicht. 3.2.2.1 Abstraktion: Sprachliche Einheit Der erste Schritt besteht darin, einheitliche sprachliche Ausdrücke für ähnliche akustische Ereignisse zu gebrauchen, etwa: Dialogfetzen, Gespräche, Unterhaltungen meinen alle dasselbe und können fernerhin unter einem Begriff, z.B. Gespräch, firmieren. In einer urbanen Geräuschkulisse kommt es ohnehin nicht auf den Inhalt der Unterhaltung an, daher kann man Gespräch weglassen und gleich die Lautäußerung (Lachen, Schreien) oder die sich unterhaltende Alters- bzw. Geschlechtsgruppe einsetzen. Um jedoch keine Ungenauigkeiten aufgrund von wegfallenden Eigenschaftswörtern, wie etwa: knirschende bzw. hektische Schritte oder laute Motoren hinnehmen zu müssen, werden die Attribute zusammengefasst unter dem beschreibenden Substantiv aufgelistet, etwa so: Motoren (laut, anfahrend, abfahrend, laufend) Die aufgemotzten Motoren (beispielsweise) sind nun ebenfalls laut. 3.2.2.2 Kategorisierung: Gruppenbildung/Hierarchisierung Das letzte Beispiel führt uns nahtlos zur nächsten Vereinfachung, nämlich dem Suchen nach geeigneten Oberbegriffen, um sinnvolle Gruppen von Geräuscheinheiten innerhalb einer Aufnahme bilden zu können. Was sinnvoll ist, messen wir auf der (pragmatischen) Skala der Nützlichkeit. Da es nach der Analyse- und Designphase darum geht, Audiokulissen nachzubilden, erscheint eine Einteilung nach den Verursachern der Geräusche, nach den Akteuren, sinnvoll, denn dieses Schema wird auch von den Herstellern von Geräusch-CDs (zum Zweck der Vertonung medialer Produktionen) eingesetzt. 26 Abb. 8: Beispiel Inhaltsausschnitt einer Geräusch-CD Analog können nun verschiedene verbale Akte menschlicher Akteure folgendermaßen untergliedert werden: ~ Mensch • verbal (bzw. vokal, schließt auch nichtsprachliche Kehlkopflaute ein) • Kinder (Gespräch) • Männer (Gespräch) • Lachen Am Ende sollten, zusätzlich zu ihrer entstehungsspezifischen Verwandtschaft, auch in ihrem Klang ähnliche Geräusche sich in einer Gruppe wiederfinden. Dieser Ansatz wird im Kapitel Design weiterverfolgt, hier jedoch will ich es bei folgender Klassifizierung bewenden lassen, beruhend auf der Auswertung der Stadt- und Kneipenaufnahmen: ~ Mensch • Kommunikation (vokal) • Gespräch (gemischt, Männer, Kinder) • Lachen • Schreien • Bewegung (mobil) • sonstige (musisch) ~ Tier • vokal • ... ~ Umwelt 27 • • Wetter • Wind • Regen Gebäude • Türe • Tische • Kicker • Gläser ~ Maschinen • Motoren (laufen, beschleunigen, laut) • Bewegung (Bremsenquietschen, Schienengeräusch) • Sonstiges • Türen öffnen/schließen (pneumatisch) • Hintergrundrauschen/Verkehrslärm • Rumpeln/Getöse • Hupen Nach dieser Einteilung sind wir spätestens auf der dritten Ebene entweder bei dem Urheber des Schalls, oder sogar schon bei einem Attribut eines Schallerzeugers. Wenn wir diese Abstraktionen auf obige Tabelle (Tab. 1) mit den 6 InnenstadtAufnahmen anwenden, erhalten wir folgendes Ergebnis (Tab. 2): 28 Nr. Dauer 1. Ordnung 2. Ordnung Schallereignisse (Attribute) Häufigkeit Typisch? 1 Mensch mobil - Schritte (Teer) (Stöckelschuhe) - Gespräch (gemischt) (Kinder) (Männer) - Lachen - Gitarrenspiel - fahren - beschleunigen - Vogel ..... ~ .. ... .. ~ ... .... ~ .. ~ ....... ~~ ..... ~~~ . +++ - Schritte (Stöckelschuhe) (Kopfsteinpflaster) - Fahrradklappern - Gespräch - Lachen - Rumpeln - Hintergrundrauschen - Türen (schließen) - Theke - Vogel ~~~ . ... ~~ . ~ ..... ~~ . . = ... ... = +++ - Schritte (Teer) (Kies) - Trolley - Schreien (Kinder) (Betrunkener) - Hubschrauber (fern) - Tram (Brücke) - Flugzeug (fern) - Autos - Kirchenglocke - Wind - Vögel ~~~~ ~~ ~ . . ~ ~~ ~ ... ~ ~ = +++ - Schritte - Fahrrad - Gespräch - Auto (laut) - Tram - Bremsenquietschen - Kanaldeckel (klappert) ~ .. . ~ ... ~~ ..... ~. . . .. ++ + ++ +++ - Schritte (verschieden schnell) - Gespräch (gemischt) (Kinder) - Lachen - Schreien (laufende) - Tram (Einfahrt) (Abfahrt) - Bremsen - Schienenquietschen - Tramklingel - Verkehrslärm - Türen (pneumatisch) - Kirchenglocke - Wind - Hund (kläfft) ~ ... ... ~ ... ... . ... ~ ... ~~ ... ~. ~~ .. . = ... . ... . +++ ++ vokal 3' 50“ 2 Maschine musisch Motor Tier vokal Mensch mobil 3' 21“ 3 vokal Maschine Sonstiges Umwelt Gebäude Tier vokal Mensch mobil 3' 50“ 4 2' 25“ vokal Maschine sonstiges Umwelt Tier Gebäude Wetter vokal Mensch mobil Maschine vokal Motor Bewegung 5 Umwelt Straße Mensch mobil vokal 3' 42“ Maschine Motor Bewegung Sonstiges Umwelt Sonstiges Tier vokal 29 +++ ++ + +++ ++ ++ +++ ++ o +++ + + ++ o + + +(+) + + + + +++ + ++ + + o +++ ++ +++ +(++) +++ ++ o o + Nr. Dauer 1. Ordnung 2. Ordnung Schallereignisse (Attribute) Häufigkeit Typisch? 6 Maschine Motor Autos (viele) (anfahrend) (laut) - Bremsen - Hupen - metallisches Schaben ~~ ~~~ .. .. . . +++ 2' 30“ Bewegung Sonstiges ++ ++ o Tab. 2 3.2.2.3 Beschreibung: Besonderheiten und Auffälligkeiten Um die Analyse abzurunden, halte ich eine kurze Beschreibung der einzelnen Szenen für sinnvoll, wobei ich hier nur die auffallenden Merkmale der jeweiligen Aufnahmen erwähne, wozu auch emotionale Eindrücke zählen, die beim Hören entstehen. Einige dieser Besonderheiten werden im nächsten Kapitel referenziert. Szene 1: Hier ist, vor allem im Vergleich zu den anderen Innenstadtszenen, der Kontrast zwischen dem Strassenlärm und der fremdländischen, heiteren Unterhaltung der Männergruppe auffällig, die von gelegentlichem Gitarrenspiel begleitet wird. Szene 2: Erwähnenswert sind hier zwei Dauergeräusche – zum einen Vogelgezwitscher aus mehreren Kehlen, zum anderen ein indifferenter, vom Pegel gleichbleibender Verkehrslärm, den man als Hintergrundrauschen bezeichnen kann. Szene 3: Sehr intensiv und vordergründig ist hier das Vogelgezwitscher mehrerer Singvögel. Das aufdringlichste, weil lauteste Geräusch ist gegen Ende der Aufnahme die Kirchenglocke, die viertel vor fünf schlägt. Szene 4: Hier ist ein zyklisches, kollektives Anschwellen der Motorengeräusche, vermutlich ausgelöst durch die Ampelschaltung, zu vernehmen. Szene 5: Dies ist von der Geräuschhäufigkeit eine der dichteren Szenen, was angesichts der Hektik an einer Tramhaltestelle oberhalb des Hauptbahnhofs auch nicht verwundert. So sind hier öfters auch schnellere Schritte zu vernehmen, sowie ein ständiges Anund Abfahren von Bussen und Bahnen, die insgesamt – subjektiv betrachtet – jedoch nicht den Stresspegel der Fußgängerampelaufnahme in Szene 6 verursachen. Szene 6: Ganz deutlich sind zwei Ampelschaltungen auf Grün herauszuhören, und zwar 30 vernimmt man das typische Anfahren vieler Autos gleichzeitig. Sehr gut zu sehen auch im folgenden Ausschnitt der Datei „fugae-ampel.bhf.wav“, geöffnet im Audioeditor Audacity (s. Anhang II): Abb. 9: Geöffnete Wave-Datei in Audacity Zu den beiden Zeitpunkten 1:10 und 2:20 erkennt man eine deutliche Pegelzunahme durch die anfahrenden Fahrzeuge. Vom gefühlsmäßigen Empfinden wirkt diese Audioszene nervig, stressig, der Verkehrslärm und das gelegentliche Hupen löst Gefühle der allgemeinen Hektik, des Weiterkommenmüssens, der Bewegung und Aktionszwang aus. 31 4 Environmental Scene Design 4.1 Der Weg und das Ziel Die Analyse des letzten Kapitels brachte eine Struktur in die Elemente der aufgezeichneten Kulissen, sowie eine quantitavie Auswertung der Häufigkeit ihres Vorkommens. Dieses Kapitel widmet sich dem Herausarbeiten von Gestaltungsrichtlinien, deren programmiertechnische Umsetzung in der Realisierung und Wiedergabe von glaubwürdigen, der Realität nachempfundenen ambienten auralen Kulissen münden soll. Folgende Kriterien werden dabei als richtungsweisend definiert: ✔ Hoher Realismus der Ergebnisse (bei gleichzeitigem) ✔ Minimalismus der benötigten Fragmente ✔ Skalierbarkeit der Anwendung Das Ziel einer immersiven VR-Umgebung ist die Kreation einer sogenannten „suspension of disbelief“ (wörtlich: Aufheben der Ungläubigkeit) – der Punkt, an dem ein Nutzer die Unzulänglichkeiten der Technik in Kauf nimmt oder gar vergisst und in die künstliche Welt eintaucht, die ab diesem Zeitpunkt für ihn zum primären Aktions- und Wahrnehmungsraum wird. Eine Steigerung des Immersionsgrades im Zusammenspiel mit einer visuellen VR ist bereits in der Forderung nach hohem Realismus enthalten. Bei der Umsetzung dieser Zielvorgaben baue ich auf der Vorarbeit von Serafin34 auf, deren Erkenntnisse ich bereits an anderer Stelle35 exzerpiert und strukturiert beschrieben habe: Nach Serafin steigt der Grad der Immersion einer audiogestützten VR durch folgende Faktoren: • sich bewegende Schallquellen • interaktionsabhängige Klangereignisse (besonders effektiv in Verbindung mit User Tracking) • Vielfalt der Geräusche (wenig Wiederholungen, kein erkennbares Muster) • bewusste Übertreibung von Klängen (Nachvertonung, Foley-Effekte36) • klangliche Erfüllung der Erwartungshaltung eines VR-Nutzers (Klischees bedienen, die durch häufigen Medienkonsum entstehen) Somit können wir schließen, dass eine akustische Untermalung nach den eben genannten Kriterien in einer VR-Umgebung ein stärkeres Präsenzgefühl erzeugt.37 Der erste Punkt ist im Wesentlichen die Aufgabe des Wiedergabesystems (s. Kap. 34 35 36 37 Stefania & Giovanni Serafin, „Sound Design to Enhance Presence in Photorealistic Virtual Reality“ s. Literatur (2) Gassner, Rolf: Audio und VR, Ausarbeitung in der WPV E-Space bei Prof. Fetzner s. Glossar Gassner, Audio und VR, S. 1 32 6), wird aber auch bei der Kategorisierung der Samples berücksichtigt. Punkt 2 (Interaktionsgeräusche) wird unter 4.2 angesprochen. Für eine Vielfalt der Elemente sorgt, trotz der geforderten Beschränkung in Abschnitt 4.4 (Klangliche Verfremdung) eine Veränderung verschiedener, den Klang beeinflussender Parameter. Was die Foley-Effekte angeht, so ist eine Übertreibung der Klangereignisse nicht nötig, da hier kein Einfluss auf die Emotionen der User beabsichtigt ist. Es sollte genügen, die Klischees zu bedienen – der geforderte Realismus ist daher auch nicht im Sinne eines akribischen Nachahmens von Real Life Szenen gemeint, sondern bezogen auf die Wirkung – eine Szene wirkt realistisch, wenn die (zumeist unbewussten, auf Erfahrungswerten und Prägungen durch Medienkonsum beruhenden) Assoziationen der Hörer mit der klanglich dargestellten Szene harmonieren. Der Erwartungshaltung der Nutzer wurde bereits bei der Analyse Rechnung getragen und ist auch Thema im Abschnitt 4.2. Um nun ein gewünschtes auditives Szenario nachzuahmen, sind folgende Schritte nötig: 1. Definition des Zieles und grobe Wegskizze (dieser Abschnitt) 2. Auswahl der vorkommenden Grundelemente (Reduktion, Herausarbeiten der wesentlichen klangbestimmenden Ereignisse) 3. Kategorisierung nach dem Grundschema einer Audioszene 4. Möglichkeiten der klanglichen Beeinflussung aufzeigen 5. Dramaturgische Elemente und Hintergrund bestimmen 6. Synthese einer neuen Szene unter Berücksichtigung von 1-5 4.2 Reduktion Nun können wir uns der Frage aus 3.2.2 widmen: „Welche Geräusche verleihen dem Platz einen einzigartigen klanglichen Charakter?“ Diese Frage haben sich bereits Chueng38 und Marsden39 gestellt und zum Thema Erwartungshaltung und Unterscheidung („discrimination“) Papers verfasst, die einen minimalistischen Ansatz zur Gestaltung von Audiokulissen für virtuelle Umgebungen behandeln. Dabei unterstreichen sie insbesondere jene „sound events“, die für ein hohes Präsenzgefühl in der jeweiligen Umgebung sorgen. Das sind ihrer Meinung nach die Klangereignisse, die 1. von dem Nutzer an einem Ort erwartet werden 38 Chueng P., Designing sound canvas: The role of expectation and discrimination, Extended abstracts of CHI 2002 Conference on Human Factors in Computing Systems (2002) 39 Chueng, P., Marsden, P., Designing Auditory Spaces to Support Sense of Place: The Role of Expectation. Position paper for The Role of Place in On-line Communities Workshop, CSCW2002, New Orleans, November 2002 33 2. einzigartig sind am jeweiligen Ort und dadurch einen hohen Wiedererkennungswert besitzen 4.2.1 Reduktion durch Bewertung Unter Berücksichtigung dieser Kriterien bewerte ich die nunmehr in Gruppen eingeteilten Elemente der Aufnahmen auf einer Skala von 0 bis 4 folgendermaßen nach ihrem Grad der Repräsentativität für die jeweilige Umgebung: • o untypisch • + kommt hin und wieder vor • ++ kommt häufig vor, erfüllt die Erwartungshaltung • +++ typisch bis einzigartig, hoher Unterscheidungsgrad Sicherlich könnte man Studien, Evaluationen und Tests zur Repräsentativität von bestimmten Elementen in Geräuschkulissen durchführen, um zu einer objektiveren Gewichtung dieser Elemente zu gelangen. Da es sich jedoch hier eher um Gestaltungsfragen handelt denn um eine wissenschaftliche Analyse von Hörgewohnheiten und kulturell bedingten Prägungen, erübrigt sich dieser Aufwand und ich bewerte die Elemente in erster Linie subjektiv vor dem Hintergrund meiner Erfahrung und pragmatisch im Hinblick auf die Applikation, die ebensolche Szenarien generieren soll. Selbstverständlich bezieht sich die Bewertung auf den jeweiligen Ort der Aufnahme (s. Beschreibung in Tab. 1) – so z.B. erwartet niemand Singvögel an einer Straßenkreuzung, im Park hingegen durchaus. Pauschal gelten folgende Orientierungshilfen bei der Bewertung: • Bewertet werden die Schallereignisse, nicht die Attribute • Elemente, die höchstens einmal pro Minute vorkommen, erhalten ein 'o' oder '+' • Elemente, die häufiger vorkommen: '++' oder '+++' (dazu gehören auch die Dauergeräusche '=') • Häufigkeit einer Tilde '~' (länger als 4 Sek.) entspricht etwa 2 bis 3 Punkten '.' Die nach diesem Schema ausgedünnte Stadtszenentabelle sieht folgendermaßen aus: 34 Nr. Dauer 1. Ordnung 2. Ordnung Schallereignisse (Attribute) Häufigkeit Typisch 1 Mensch mobil - Schritte (Teer) (Stöckelschuhe) - Gespräch (gemischt) (Kinder) (Männer) - Lachen - Gitarrenspiel - fahren - beschleunigen - Vogel ..... ~ .. ... .. ~ ... .... ~ .. ~ ....... ~~ ..... ~~~ . +++ - Schritte - Fahrrad - Gespräch - Auto (laut) - Tram - Bremsenquietschen - Kanaldeckel (klappert) ~ .. . ~ ... ~~ ..... ~. . . .. ++ + ++ +++ - Schritte (verschieden schnell) - Gespräch (gemischt) (Kinder) - Lachen - Schreien (laufende) - Tram (Einfahrt) (Abfahrt) - Bremsen - Schienenquietschen - Tramklingel - Verkehrslärm - Türen (pneumatisch) - Kirchenglocke - Wind - Hund (kläfft) ~ ... ... ~ ... ... . ... ~ ... ~~ ... ~. ~~ .. . = ... . ... . +++ ++ Autos (viele) (anfahrend) (laut) - Bremsen - Hupen - metallisches Schaben ~~ ~~~ .. .. . . +++ vokal 3' 50“ 4 2' 25“ Maschine musisch Motor Tier vokal Mensch mobil Maschine vokal Motor Bewegung 5 Umwelt Straße Mensch mobil vokal 3' 42“ Maschine Motor Bewegung Sonstiges 6 2' 30“ Umwelt Sonstiges Tier vokal Maschine Motor Bewegung Sonstiges +++ ++ + +++ ++ + ++ + + o +++ ++ +++ +(++) +++ ++ o o + ++ ++ o Tab. 3 Szene 2 und 3 fallen weg, da sie nicht vollständig der Beschreibung „Straßenkreuzung mit Tramhaltestelle Nähe Fußgängerzone“ entsprechen. Dennoch habe ich mir erlaubt, die beiden Szenen zu analysieren, um 1. Unterschiede in der Zusammensetzung von Kulissen zu zeigen, die beide zu Innenstadtszenen gehören (gleiche Umgebung), jedoch von unterschiedlichen Orten herrühren. 2. die Zweckmäßigkeit der thematischen Einteilung aus Kap. 3 zu testen. In einem ersten Schritt werden nun systematisch alle Elemente entfernt, die eine Bewertung von 'o' und '+' haben. Daraus ergibt sich Tabelle 4: 35 Nr. Dauer 1. Ordnung 2. Ordnung Schallereignisse (Attribute) Häufigkeit Typisch 1 Mensch mobil - Schritte (Teer) (Stöckelschuhe) - Gespräch (gemischt) (Kinder) (Männer) - Lachen - fahren - beschleunigen - Vogel ..... ~ .. ... .. ~ ... .... ~ ....... ~~ ..... ~~~ . +++ - Schritte - Gespräch - Auto (laut) - Bremsenquietschen ~ .. ~ ... ~~ ..... ~. . ++ ++ +++ - Schritte (verschieden schnell) - Gespräch (gemischt) (Kinder) (laufende) - Tram (Einfahrt) (Abfahrt) - Bremsen - Schienenquietschen - Tramklingel - Verkehrslärm - Türen (pneumatisch) ~ ... ... ~ ... ... ~ ... ~~ ... ~. ~~ .. . = ... +++ ++ Autos (viele) (anfahrend) (laut) - Bremsen - Hupen ~~ ~~~ .. .. . +++ vokal 3' 50“ Maschine Motor Tier vokal 4 Mensch 2' 25“ Maschine mobil vokal Motor 5 3' 42“ Mensch mobil vokal Maschine Motor Bewegung Sonstiges 6 2' 30“ Maschine Motor Bewegung Sonstiges +++ ++ +++ ++ ++ +++ ++ +++ +(++) +++ ++ ++ ++ Tab. 4 4.2.2 Reduktion durch Verschmelzung In einem zweiten Schritt fasse ich die 4 Szenen zu einer einzigen zusammen. Elemente, die in weniger als 2 Szenen vorkommen, werden nicht weiter berücksichtigt. Eine Ausnahme bildet hier die Tramklingel, da sie einen sehr hohen Wiedererkennungswert besitzt. Die durchschnittliche Häufigkeit der verbleibenden Ereignisse pro Minute wird (am Beispiel Schritte) folgendermaßen errechnet ('~' entspricht 2,5 x '.'): (Szene1(Schritte)/Minuten + Sz2(Schr)/min + Sz3(Schr)/min + Sz4(Schr)/min) / 4 = ((9,5/3,83) + (4,5/2,42) + (5,5/3,7) + (0/2,5)) / 4 = = (2,48 + 1,86 + 1,49) / 4 = = 1,46 Schritte/Minute So sieht die Szene nach dieser Operation aus: 36 Nr. 1. Ordnung 2. Ordnung Schallereignis (Attribut) Häufigkeit/Minute (Gruppe gesamt) 1 2 3 4 5 6 7 8 9 10 11 12 13 Mensch - Schritte - Gespräch - Auto (laufend) (anfahrend) (laut) - Tram (Einfahrt) (Abfahrt) - Bremsen - Schienenquietschen - Türen (pneumatisch) - Tramklingel - Hupen - Verkehrslärm Maschine mobil vokal Motor Bewegung Sonstiges 1,46 2,03 2,93 (4,89) 1,40 0,56 0,37 (0,91) 0,54 0,54 0,47 0,20 0,07 0,10 dauernd Gerundet + Korrigiert 1,5 2 3 1,4 0,6 0,4 0,5 0,5 0,5 1 0,5 0,5 = Tab. 5 Zwar liefert die Tabelle ziemlich genaue Werte über die Häufigkeit von einzelnen Schallereignissen (pro Minute), doch ohne Plausibilitätsprüfung auf erfahrungsund empfindungsgemäße Stimmigkeit kann man sie nicht stehen lassen: 1. In 2 Minuten laufen 3 Menschen vorbei: scheint ok. 2. 2 Gespräche (Gesprächsfetzen) pro Minute erscheint stimmig. 3. 3 laufende Automotoren pro Minute: ok. 4. 3 anfahrende Autos alle 2 Minuten: ok. 5. 1 lauter Automotor alle 2 Minuten: ok 6. Alle 2 bis 2,7 min. fährt eine Tram in die Haltestelle ein und wieder ab: realistisch (ergibt bei 2 Richtungen eine Taktzeit von ca. 5 min.). Der Wert in Klammern (0,91) kann so interpretiert werden, dass ca. jede Minute eine Tram entweder ein- oder abfährt. 7. (s. 6.) 8. 1x quietschende Bremsen alle 2 Minuten: ok 9. Alle 2 Minuten Schienenquietschen: ok 10. Alle 5 min. zischende Türen: zu wenig (zischen beim Öffnen + Schließen) 11. Alle 14 min. eine Tramklingel ist bei dem 5-Minuten-Takt nicht angemessen. Hinzu kommt, dass eine häufigere Wiederholung von Geräuschen, die einen hohen Wiedererkennungswert besitzen, als Stilmittel eingesetzt werden kann, um den VR-Nutzer in seinem Anwesenheitsgefühl zu bestärken. 12. Alle 10 min. ein Hupen scheint für eine mittlere bis große Kreuzung zu wenig, alle 2 Minuten klingt realistischer. 13. Wenn man an einer Kreuzung steht, ist ständig das Rauschen des Verkehrslärms zu hören. Das gestalterische Vorgehen erlaubt einen flexiblen Umgang mit den Zahlen. An dieser Stelle muss nochmal betont werden, dass die meisten Menschen visuelle Typen, und dementsprechend auf die optischen Reize der virtuellen Szene fixiert sind. Die akustische Kulisse wird unbewusst aufgenommen und nur in bestimmten 37 Situationen erfolgt eine bewusste Konzentration auf die Hörinhalte. Aus diesem Grund ist es legitim, die Häufigkeitsverteilung besonders repräsentativer Merkmale zu korrigieren, was wiederum der Forderung nach hohem Realismus entgegen kommt. 4.3 Gruppenbildung/Einteilung Angelehnt an das Gestalttheorem des Figur-Grund-Kontrasts40, woraus sich eine Aufteilung einer visuellen Arbeit in Vordergrund und Hintergrund ergibt, kann man auch beim Hören bzw. in der akustischen Wahrnehmung der Umwelt zwischen aufdringlichen Geräuschen, die bewusst wahrgenommen werden, und einer Umgebungskulisse, die unsere Aufmerksamkeit wenig bis gar nicht beansprucht, unterscheiden. Auch Serafin41 geht auf dieses Phänomen ein, sie unterscheidet zwischen • „ambient sounds“ – Hintergrundgeräusche • „sound events/foley effects“ 1) Aktionsgeräusche des Users (Schritte, Türe öffnen) 2) vorhersehbare Geräusche (des Environments, z.B. vorbeifahrendes Auto) In einer früheren Ausarbeitung, die während der Arbeit an einem VERTEX-Projekt erstellt wurde (s. 2.2.2.3.) beziehe ich mich auf diese Einteilung wie folgt: „Beim Analysieren von Geräuschkulissen realer Räume lassen sich drei wichtige Komponenten ausmachen: 1) Hintergrundgeräusche (Atmo/Ambient): Lassen sich durch geeignete Loops von (Archiv-)Aufnahmen abbilden. Dabei wird der Raumcharakter durch Versehen der Aufnahme mit entsprechenden Effekten nachgeahmt. 2) Punktschallquellen: b) Vertonte Objekte (Werbetafel, Passanten im Gespräch) Klangmaterial ist an das Objekt gebunden und muss in Echtzeit berechnet werden (Rendering). Als Grundlage dient ein passendes Sample einer Aufnahme, eventuell als Loop. c) Interaktionen des Nutzers (Schritte, Türe öffnen) Lassen sich durch einmaliges Abspielen von Samples darstellen, z.B. bei Kollissionen mit sichtbaren 3D- oder unsichtbaren, akustischen Objekten. Zusammengefasst ergibt sich die einfache Formel: Objektgeräusche + Interaktionsgeräusche + Hintergrund = Auditive VR“42 Interaktionsgeräusche möchte ich vorneweg ausklammern, diese Arbeit konzentriert sich auf Hintergrund und Objektklänge. Interaktionssounds sind 40 Fries, Christian: Grundlagen der Mediengestaltung, C. Hanser München Wien, 2004, S. 42 41 Serafin, Stefania & Giovanni, „Sound Design to Enhance Presence in Photorealistic Virtual Reality“ s. Literatur 42 Gassner: Audio und virtuelle Umgebungen, S. 2 38 jedoch die gleichen Klangobjekte wie Objektgeräusche und können bei Bedarf entsprechend eingebunden werden – sie erfordern lediglich von der visuellen VRAnwendung einen Auslöser samt Positionsdaten. Übrig bleiben also die Hintergrund- und die Objektgeräusche, wobei erstere statisch sind, das heisst entweder als Diffusschall im Raum vorhanden oder eine fixe Position einnehmend, während letztere (den Anforderungen entsprechend) im Klangraum bewegt werden (können). Die Objektgeräusche werden wir noch weiter unterteilen nach den Möglichkeiten ihrer Veränderung – mehr dazu im nächsten Abschnitt. Vorerst ergeben sich die beiden Gruppen: • Hintergrund: Verkehrlärm (Rauschen) • Klangobjekte: alle anderen Geräusche aus Tabelle 5 4.4 Klangliche Verfremdung An dieser Stelle sei nochmal erwähnt, dass für das Zusammensetzen einer Innenstadtkulisse Samples verwendet werden, die aus einem ebensolchen Szenario herausgeschnitten wurden. Warum ich auf eine (mit Sicherheit mögliche) Synthese einzelner Elemente in dieser Arbeit nicht eingehe, habe ich bereits in 3.1.3 erwähnt. Im Sinne einer Skalierbarkeit der Anwendung – speziell meine ich die einfache Erweiterung um zusätzliche Audiokulissen – halte ich es für sinnvoll, die Anzahl der verwendeten Samples auf ein Mindestmaß zu begrenzen. Das trägt dazu bei, dass der Aufwand für das Erzeugen einer gewünschten Kulisse sich auf das Zusammentragen (und eventuell Zurechtschneiden) einiger weniger Fragmente beschränkt, die leicht auf Geräusch-CDs (vorgesehen für die Vertonung von Multimediaproduktionen), oder in Sound-Bibliotheken43 im Internet zu finden sind. Wenn man einen Blick auf Gavers Framework wirft, dann erkennt man schnell, dass die von ihm als „temporal patterning“ bezeichneten Klangereignisse aus mehreren „basic level events“ zusammengesetzte Geräusche sind. Denkt man in dem Zusammenhang etwa an Schritte, dann klingt natürlich nicht jeder einzelne davon gleich, sondern es herrscht eine gewisse Variation in Abhängigkeit vom Untergrund, der Geschwindigkeit, Steigung oder Gefälle des Geländes, der Laufrichtung beim Treppensteigen usw. Denkbar wäre, ein einziges Trittgeräusch zu benutzen und durch passende Algorithmen bestimmte Parameter zu beeinflussen, sodass sich durch eine Wiederholung des Samples die auditive Szene eines dahinschreitenden Menschen ergibt. Ein Beispiel für die Möglichkeiten, die sich hierdurch bieten, ist der Regenpatcher in Kapitel 5, der mit lediglich 2 Samples eine in der Intensität regelbare und im Panorama verteilte Regenkulisse erzeugt. Mit Blick auf die Tabelle der Stadtszene stellt sich die Frage, wieweit die 43 http://www.findsounds.com/ (als Beispiel) 39 klangliche Verwandtschaft der Elemente innerhalb einer Gruppe dazu benutzt werden kann, unterschiedliche Unterelemente aus einer einzigen Aufnahme abzuleiten und welche technischen Mittel dazu in Frage kommen. Für diese Betrachtung wählen wir Tabelle 4, die durch Auflistung verschiedener Attribute eine gewisse Varianz der Schallereignisse bietet. So könnte man beispielsweise fragen, wie durch ein einziges Automotorensample • verschiedene Autotypen, wie PKW, LKW • verschiedene Geschwindigkeiten • verschiedene PS-Klassen hörbar gemacht werden können. Unter Zuhilfenahme verschiedener Instrumente aus dem Werkzeugkoffer des Toningenieurs ergeben sich diverse Möglichkeiten: 4.4.1 Veränderung der Tonhöhe Durch sogenanntes „Pitchshifting“ – eine Änderung der Tonhöhe bei gleichbleibender Dauer eines Samples – werden Männer- zu Frauen- oder Kinderstimmen und visa versum. Auch auf Lachen ließe sich dieser Effekt anwenden, Schritte erhalten eine andere Klangfärbung (werden heller oder dunkler), Automotoren klingen dumpfer oder heller. 4.4.2 Tempoänderung 4.4.2.1 Timestretching Das Gegenteil von Pitchshifting ist Timestretching, was eine Veränderung der Samplelänge ohne Einfluss auf die Tonhöhe bewirkt – dabei ist hier nicht nur Dehnen, sondern auch Verkürzen des Samples gemeint. Anwenden lässt sich dieser Effekt auf Regentropfen, Bremsenquietschen, Schienenquietschen, Schritte und Türenzischen, jedoch muss die höchstmögliche Abweichung im Experiment ermittelt werden, um eine comichafte, lächerlich klingende Verzerrung der Samples zu vermeiden. Letzteres gilt für alle hier genannten Effekte – eine Übertreibung ins Komische muss vermieden werden, um den Primat des Realismus nicht zu gefährden. 4.4.2.2 Pitching „Pitch“ bedeutet Tonhöhe und „pitchen“44 – ein Begriff aus dem DJ-Jargon – meint das Verändern der Abspielgeschwindigkeit von Tonträgern. Der Unterschied zum Pitchshifting besteht darin, dass sich mit der Geschwindigkeit auch die Tonhöhe ändert: wird eine Hörprobe schneller abgespielt, steigt ihre Tonlage, wird sie langsamer abgespielt, verschiebt sich ihre Frequenz nach unten, in beiden Fällen direkt proportional zur Geschwindigkeitsänderung. 44 http://de.wikipedia.org/wiki/Beatmatching 40 Somit ist Pitching bereits ein zusammengesetzter Effekt aus Timestretching und Pitchshifting. Sinnvoll anwenden könnte man ihn auf: Regentropfen, Schritte, Motorgeräusche, anfahrende Autos, Bremsenquietschen, Hupen. 4.4.3 Reverse Playback Durch ein einfaches Unkehren der Abspielrichtung eines Samples kann bei einigen wenigen akustischen Samples ein Umkehren des Ereignisses imitiert werden, so etwa beim Einfahren einer Tram in die Haltestelle (klingt ein bisschen wie Ausatmen). Auch mit Regentropfen habe ich diesen Effekt erfolgreich getestet. Ob das Zischen beim Türenöffnen einer Tram durch Umkehrung zu einem Türenschließen wird, muss noch getestet werden. Weitere Anwendungsbeispiele können mit Sicherheit in anderen Szenarien gefunden werden. 4.4.4 Temporal Patterning Ich bediene mich des Begriffs, den Gaver für sein Framework verwendet (s. 3.1.2), aufgrund seiner komprimierten Aussagekraft und mangels eines adäquaten deutschen Ausdrucks (zeitliche Musterbildung klänge doch etwas skurril). Bei komplexen Geräuschen, die aus mehreren gleichartigen Einzelelementen zusammengesetzt sind, lassen sich grundsätzlich zwei unterscheiden: 1. Geräuschmuster, die aus einer regelmäßigen Wiederholung bestehen (Beispiel: Schritte) 2. auf (zeitlich) chaotisch verteilten Elementen beruhende Muster (Beispiel: Regen) 4.4.4.1 Timer Im ersten Fall kann ein simpler Timer dazu genutzt werden, eine festgelegte (oder auch per Zufallsgenerator ermittelte) Anzahl von Wiederholungen im gleichen zeitlichen Abstand auszulösen, um ein gleichförmiges Muster wie Schritte, das Ticken einer Uhr, Fließbandgeräusche u.ä. zu erzeugen. In der Audiotechnik spricht man von einem Taktsignal oder Clock. 4.4.4.2 Delay Für den zweiten Fall kommt ein Echoeffekt (Delay = Echo) in Frage, bei dem die zeitliche Verzögerung justierbar ist. Zusammen mit einem Zufallsgenerator können beliebig dichte Flächen erzeugt werden, um etwa einen Regenschauer zu imitieren. Der Effekt kann auch für Vogelzwitschern oder Hupen verwendet werden (viele Autofahrer hupen gerne zwei- oder dreimal kurz hintereinander). 41 4.4.5 Lautstärke-Variation Veränderung der Lautstärke von Samples können verschiedene Wirkungen haben, am häufigsten wird dieses Mittel beim Abmischen im Tonstudio zur Simulation von Nähe oder Ferne genutzt. Es beruht auf der simplen Wahrnehmungstäuschung, dass leise Töne als weiter weg und laute als näher empfunden werden. Weiterhin kann mittels Ein- und Ausblenden von Samples ein näherkommendes oder sich entfernendes Klangobjekt suggeriert werden. Einen dramaturgischen Effekt kann man hierdurch erzielen, wenn man beispielsweise das Hintergrundrauschen des Verkehrs etwa alle 70 Sekunden kurz anschwellen und dann wieder abschwellen lässt, um die Grünphase einer Ampel nachzuahmen. Eine weitere interessante Möglichkeit bietet das Variieren der Lautstärke bei Panoramaeffekten: Der Regenpatcher etwa arbeitet mit zwei getrennten Kanälen, wobei jeder dasselbe Sample abspielt, jedoch in per Zufallsgenerator veränderter Lautstärke. Dadurch entsteht beim Hörer der Eindruck, die Tropfen fielen wahllos im Stereopanorama verteilt, es entsteht ein räumlicher „Rundum“-Effekt. 4.4.6 Equalizer und Filter Abschließend möchte ich noch kurz auf die Möglichkeiten der Klangveränderung durch Equalizer eingehen: Mit Equalizern können bestimmte Frequenzbereiche angehoben oder abgesenkt werden. So läßt sich durch Absenken der Bässe beispielsweise Dröhnen entfernen, und durch eine Höhenanhebung erscheinen Aufnahmen brillanter.45 Einfache Beispiele sind das Einstellen eines Hoch- oder Tiefpass'46, wodurch die Frequenzen eines Samples unter bzw. über einem bestimmten Wert (bekannt als Grenzfrequenz) weggefiltert werden. Im ersten Fall lassen sich Geräusche mehr in den Vordergrund rücken, indem Mitten und Höhen stärker betont werden, während beim Tiefpass aufdringliche Geräusche wie Pfeifen und Quietschen gedämpft werden und dadurch mehr in den Hintergrund treten. Die Möglichkeiten von Equalizern sind vielfältig und haben zumeist gestalterische Funktionen. In der Stadtszene könnte man auf diese Art verschiedene Betonungen eines Gesprächssamples erreichen, z.B. durch Anheben der Mitten im einen Fall (präsente, nahe Unterhaltung) und durch einen Tiefpass im anderen (Flüstern, gedämpfte Unterhaltung). 4.5 Übersicht Stadtszenen Die beschriebenen Klangeffekte können nun übersichtlich mit den Klangobjekten in eine Beziehung/Struktur gebracht werden. 45 Sandmann, Thomas: Effekte & Dynamics, S. 13 46 Equalizer und Filter werden üblicherweise getrennt behandelt, dieser Unterschied ist im erwähnten Zusammenhang jedoch irrelevant. Auch gibt es mittlerweile Equalizer, deren Dämpfung so hoch ist, dass man von Auslöschung sprechen kann. 42 Pitch Tempo Reverse Temp.Patterns Volume EQ Menschen: vokale Komm. + gesamte „Tempo“-Spalte Bremsen Schienen Schritte Türen Hupen Regentropfen Trameinfahrt Türen? Regentropfen Regentropfen Schritte Hupen Vogellaute Verkehrslärm (Hintergrund) Dialoge Dramaturgie Dramaturgie Tab. 6 Hier kann man im Ansatz bereits eine gewisse anwendungsorientierte, funktionelle Gliederung erkennen: In den Zeilen stelle man sich untereinander verschiedene Samples vor, die in horizontaler Richtung fortschreitend einer (wahlweisen) Veränderung unterworfen werfen um dann in der letzten Spalte ihre Positionsangaben für den Abhörraum zu erhalten, bevor sie in analoge Signale gewandelt und von den Lautsprechern wiedergegeben werden. 4.6 Synthese-Formel Um die Grundlage für die Umsetzung der erarbeiteten Designmuster in ein Programm zu schaffen, lasse ich die Ergebnisse dieses Kapites in die Formel von Friedmann aus Kap. 3.1.3 einfließen und erweitere sie folgendermaßen: Samples (Objekte/Interaktion) + Transformation/Effekte + zeitliche Verteilung + Position/Bewegung im Raum + akustische Raumeigenschaften + Hintergrund (Atmosphäre) -----------------------------= Environmental Scene Wie bereits erwähnt, spielen Interaktionsgeräusche für den entwickelten Prototypen keine Rolle, können aber bei Bedarf ebenfalls eingebunden werden. Die zeitliche Verteilung ist aus Tab. 5 ersichtlich. Position und Bewegung im Raum soll frei wählbar sein, hierfür wird eine Steuerung entwickelt. Die akustischen Raumeigenschaften werden in Kapitel 6 aufgegriffen. Als Hintergrund kommt eine unaufdringliche, flächige Aufnahme in Frage, die zum jeweiligen Szenario passt und in einer Schleife abgespielt werden kann. Bei der Stadszene wäre das beispielsweise das Hintergrundrauschen des Verkehrs. Freeman und Lessiter fanden in einer Studie47 heraus, dass allein das Hinzufügen von niederfrequenten Geräuschanteilen (beispielsweise durch einen Basslautsprecher) in einem Testszenario das Präsenzgefühl bei den Probanden erhöhte. Somit wird die Bedeutung des Hintergrunds weiter verdeutlicht – selbstverständlich muss eine Anpassung der Lautstärke möglich sein, wodurch sich auch dramaturgische Effekte, wie eine Ampelschaltung simulieren lassen. 47 J. Freeman and J. Lessiter, “Here, there and everywhere: The effect of multichannel audio on presence.” in Proc. ICAD, 2001 43 5 Komposition von Geräuschkulissen 5.1 Wahl der Programmiersprache Bei der Auswahl der Programmiersprache waren zwei Kriterien ausschlaggebend: 1. Sie muss leicht zu erlernen sein, um den gewünschten Fortschritt in der knappen Zeit zu gewährleisten. 2. Audiosignalverarbeitung muss einen Schwerpunkt in der Ausrichtung der Sprache darstellen. Diese Kriterien werden erfüllt von den beiden Sprachen PureData und MaxMSP, die sich in ihrer Funktionalität sehr ähnlich sind: Beide sind schwerpunktmässig für Echtzeigsignalverarbeitung ausgelegt und ermöglichen eine relativ schnelle Einarbeitung. Da es sich um sogenannte Patcherprogrammierung handelt, kommen sie fast ohne die syntaktischen Strukturen herkömmlicher Skript- und Hochsprachen aus. Stattdessen „programmiert“ der Benutzer graphisch, durch Verknüpfen (Patchen) vorgegebener Objekte und Verändern ihrer Attribute. Ein ausführlicher Vergleich ähnlicher graphischer Programmierumgebungen findet sich in „Max/MSP – mögliche Integration in die Lehre und alternative Lösungen für die Fakultät Digitale Medien“ von Ö. Toprak48. Während PureData Open Source ist, handelt es sich bei Max/MSP um eine kommerzielle Software. Da sie jedoch in der Fakultät Digitale Medien eingesetzt wird und ich zu Beginn dieser Arbeit bereits Vorkenntnisse besaß, entschied ich mich dafür, den Prototypen in Max/MSP zu erstellen. 5.2 Konzept und Aufbau Das Programmdesign ist weitestgehend festgelegt durch die Formel aus Kapitel 4.5. Um die Skalierbarkeit zu gewährleisten und spätere Umbau- und Erweiterungsarbeiten zu begünstigen, lege ich Wert auf einen modularen Aufbau des Patchers (Patcher heissen die mit Max/MSP erstellten Applikationen). So können die einzelnen Module bei Bedarf leicht veändert und vervielfacht werden, während die Übersicht erhalten bleibt. Die benötigten Programmfunktionen können folgendermaßen umrissen werden: Audiosample > Verteilung mit Zufallsgenerator > Lautstärke > Effekte (wahlweise) > verändertes Audiosignal + Positionsangaben > Ausgabe Dabei ergibt sich für jedes Sample derselbe Signalverarbeitungsweg: Durch Veränderung verschiedener Parameter erfährt das ursprüngliche Signal 48 Ö.A. Toprak, „ Max/MSP – mögliche Integration in die Lehre und alternative Lösungen für die Fakultät Digitale Medien“, Diplomarbeit im WS 2005/06 an der Hochschule Furtwangen 44 eine gewünschte Veränderung, bevor es an eine Ausgabe weitergeleitet wird. Unter Berücksichtigung der Ausgabeplattform (Kapitel 6) entschied ich mich für drei Geräuschquellen plus einen Hintergrund. Diese Beschränkung liegt dem hardwaretechnischen Versuchsaufbau zugrunde: Mit der handelsüblichen Soundkarte im Max/MSP-Rechner lassen sich maximal 4 Mono-Signale ausgeben (als 2 Stereopaare). Die drei Quellen können beispielsweise phänomenologischen Oberbegriffen wie: Mensch, Maschine, Umwelt zugeordnet werden. Dabei kann bei jedem der drei Signalwege aus verschiedenen Samples ausgewählt werden, damit die geforderte Vielfalt gewährleistet ist. Auf eine Automatisierung (zeitliche Umschaltung) dieser Samplewahl habe ich verzichtet, der Benutzer ist selber angehalten, seinen kompositorischen Fähigkeiten freien Lauf zu lassen. Selbstverständlich können eigene Samples eingefügt werden, sie müssen lediglich den Namenskonventionen genügen: Signalweg 1: Signalweg 2. Signalweg 3: Hintergrund: s101, s102, s103 s201, s202, s203 s301, s302, s303 b01, b02, b03 Diese Samples sind allesamt Wavedateien, Mono, und liegen im selben Ordner wie der Patcher selber. Zusammengefasst ergeben sich die folgende Struktogramme für Signalweg 1 (analog für die anderen beiden) und für den Hintergrund: 45 Abb. 10 und 11: Struktogramme 5.3 Implementierung 5.3.1 Der Regenpatcher Als Vorläufer zum eigentlichen Prototypen erstellte ich einen experimentellen Patcher, mit dem ich verschiedene Algorithmen in Max/MSP ausprobieren konnte. Dieses Programm hat lediglich einen Signalweg und einen zuschaltbaren Hintergrund. Es arbeitet mit einer justierbaren, zufallsgesteuerten Verteilfunktion, die ein zeitlich sehr kurzes Tropfgeräusch (ca. 60 ms) in unregelmässigen Abständen nacheinander abspielt. Es kann jeweils eins von drei Samples ausgewählt werden. Die mittlere Wiederholrate kann über einen Schieberegler von 50 bis 530 Millisekunden angepasst werden. Ein interessantes Feature dieses einfachen Patchers ist die Verteilung der einzelnen Tropfen im Stereopanorama. Das wird erreicht, indem die beiden Kanäle links und rechts über getrennte Zufallsfunktionen in ihrer Lautstärke beeinflusst 46 werden, sodass eine ständig wandernde Phantomschallquelle (als Summe der ständig unterschiedlichen Kanalpegel) und damit der Eindruck einer räumlichen Verteilung entsteht. Zudem experimentierte ich mit einem Echoeffekt, der die Tropfhäufigkeit zusätzlich erhöhte und bei geringen Verzögerungszeiten auch einen natürlicheren, breiteren Klang bewirkte. Für Abwechslung sorgte die Veränderung der Wiedergabegeschwindigkeit – ebenfalls zufallsgesteuert – im Bereich von 0,6 bis 2,2fach. Abb. 12: Regenpatcher Version 0.7 Gut zu erkennen in Abbildung 12 ist der modulare Aufbau des Patchers: Jedes der acht Rechtecke birgt eine Funktion, teilweise (der Übersichtlichkeit halber) „unter der Haube“. In der Reihenfolge von oben nach unten und von links nach rechts sind das: – Startknopf – Pitch – Ausgabe – Wiederholrate (Tropfhäufigkeit) – Samplewahl – Lautstärkevariation – Delay – Hintergrund-Lautstärke 47 5.3.2 Subpatcher und Scripting Da sich die Komplexität der Szenengenerator-Applikation im Vergleich zum Regenpatcher um einiges erhöht, ist es wichtig, Funktionen auszulagern. Dies ist möglich durch sogenannte Subpatcher, vergleichbar mit ineinander geschachtelten Klassen in einer objektorientierten Programmiersprache. Durch diese Verschachtelung bleibt das Hauptfenster halbwegs übersichtlich, während die ausgelagerten Funktionen in eigenen Fenstern ebenfalls leicht zu warten und anzupassen sind. Leider kann dieselbe Funktion (als Subpatcher verpackt) in Max/MSP nicht von verschiedenen Punkten aus aufgerufen werden: Sobald ein Subpatcher aufrufendes Objekt kopiert wird, entsteht gleichzeitig eine Kopie (Instanz) des Subpatchers selber. Die dadurch entstehende höhere Anzahl von Subpatchern bei drei Signalwegen muss durch entsprechende Namensgebung möglichst übersichtlich gehalten werden. Die Analogie zu Klassen hinkt insofern, dass nun jeder Subpatcher sein Eigenleben führt und nicht mehr durch Editieren des Ursprungspatchers beeinflusst wird. Immerhin ist es möglich, durch Übergabe einer ID vom Typ integer, allgemein gehaltene Subpatcher zu schreiben, ein Beispiel (Auszug aus [delayscr]): sprintf script connect tapout0%i 0 dac0%i 0 Für %i wird die integer-ID eingesetzt, sodass bei Kopieren des kompletten DelayModuls jeweils nur die ID geändert werden muss, nicht aber die Kopie des Subpatchers. Eine weitere wichtige Funktionalität von Max/MSP ist die Möglichkeit, zu Laufzeit des Programms – also bei gesperrter Oberfläche – Objekte zu verbinden oder neue Objekte zu erzeugen. Dieses sogenannte Scripting ermöglicht mächtige Operationen unter der Oberfläche zu Laufzeiten des Programms. Im Szenengenerator, den ich der Einfachheit kurz Szenerator getauft habe, benütze ich Scripting zum Ein- und Ausschalten der Effekte: Pitch und Delay werden so wahlweise in den Signalweg mit eingebunden oder herausgetrennt. Ein Beispiel ist die eben aufgeführte Codezeile aus dem Delay-An/Aus-Subpatcher: Die Zeile sorgt für eine Verbindung zwischen zwei benannten Objekten. 5.3.3 Position und Bewegung Die Möglichkeit der Positionierung ist im prototypischen Szenerator essentiell, insbesondere im Hinblick auf die gewählte Ausgabeart. Daher bedarf es einer zweidimensionalen Steuerungsmöglichkeit, welche die einzelnen Klangobjekte sowohl im Raum platzieren als auch durch denselben bewegen kann. Mithilfe des „Picture-based Sliders“ ist es mir gelungen, eine zweckmässige Steuerung zu realisieren. Dabei wird ein Anfasser auf einer rechteckigen Oberfläche bewegt, wobei das Objekt dessen x- und y-Koordinaten weitergibt. 48 Abb. 13: Picture-based Slider, ohne und mit Hintergrundbild Die Möglichkeit der Einbindung einer geeigneten Grafik als Hintergrund (z.B. Skizze des Abhörraums, mit Lautsprecherpositionen) machen das Objekt zum perfekten Kandidaten für diese Aufgabe. Auch für den Schiebeknopf lässt sich eine zweckmässigere Grafik einbinden, sogar mit freier Gestaltung der Zustände „aktiv“, „geklickt“, „inaktiv“. Die Anzahl der x- und y-Werte (Auflösung) lässt sich einstellen und muss mit einer geeigneten Verschiebung auf das Koordinatensystem der Ausgabeplattform transformiert werden. 5.3.4 Open Sound Control Die Kommunikationsschnittstelle zur Ausgabeplattform heisst „Open Sound Control“49 – ein einfach gehaltenes, bidirektionales Steuerprotokoll, das wahlweise über TCP oder UDP50 funktioniert. Dabei werden an einen einzustellenden Port einer bestimmten IP-Nummer Steuerbefehle geschickt, die einem vorgegebenen Formatierungsschema entsprechen, wie beispielsweise: /WFS/source/position 1 -0.75 0.25 Max/MSP verfügt nicht von Haus aus über OSC-Objekte, es bietet aber die Möglichkeit, sogenannte Extras zu installieren. Das benötigte Extra kann von der Website des „Center for New Music and Audio Technologies“51 (CNMAT) geladen werden (dort finden sich auch OSC-Plugins für viele andere Audioprogramme). Sinnigerweise wurden die OSC-Objekte nur für UDP implementiert (sowohl für Senden, als auch für den Empfang) – Fehlerkorrektur, das Nachsenden von Datenpaketen und das Aufrechterhalten einer Verbindung sind in diesem Kontext überflüssig. 5.3.5 Der Szenerator Die meisten Bestandteile des Prototypen wurden kurz erwähnt und teilweise auch beschrieben. An dieser Stelle empfiehlt sich ein kurzer Test des Programms (Abb. 14) – es befindet sich auf dem Datenträger am Ende der gedruckten Fassung oder kann hier geladen werden: 49 http://www.opensoundcontrol.org/ 50 Transport Control Protocol und User Datagramm Protocol, die Standard- Kommunikationsprotokolle für Ethernet 51 http://www.cnmat.berkeley.edu/OpenSoundControl/Max/ 49 http://webuser.hs-furtwangen.de/friedmann/ax/pmwiki.php?n= AktuelleDiplomarbeiten.EnvironmentalSceneDesign Vorher bitte die DSP-Einstellungen von Max/MSP überprüfen: Im I/O-Mapping sollte für die Kanäle 3 – 6 die Einstellungen „Vorne L/R“ und „Hinten L/R“ gewählt werden. Dazu noch eine kurze Einführung in die Bedienung des Programms: 1. Alle Bedienelemente ausser den Checkboxen sind farbig gekennzeichnet, der (unbedienbare) Rest ist in Grautönen gehalten. 2. Jedes Sample kann von links nach rechts den Bedürfnissen angepasst werden. 3. Links oben einschalten. 4. Alle Volumeregler auf 0, ausser dem aktuellen. 5. Wiederholrate (Frequency) so einstellen, dass das Sample zu hören ist. 6. Alle 3 Samples mit „open s...“ vorhören und das Gewünschte einschalten. 7. Wiederholhäufigkeit auf den gewünschten Richtwert „x mal pro Minute“ stellen. 8. Pitch wahlweise dazuschalten: Checkbox an. 9. Wenn ein Echo gewünscht ist, mit den beiden Schiebereglern die Zeiten (in Millisekunden) für Minimum und Maximum einstellen: das Echo wird nach einem zufällig erzeugten Wert zwischen den beiden Einstellungen aktiviert. 10. Positionsfeld aktivieren und das X dahinschieben, wo das Sample erklingen soll (nur möglich in Verbindung mit swonder, s. Kap. 6) 11. Schritte 3. bis 10. wiederholen für Sample Nr. 2 und Nr. 3. 12. Hintergrund auswählen, Schleifenbildung kann deaktiviert werden. 13. Alle Parameter können zu Laufzeit geändert werden, inklusive Bewegung der einzelnen Quellen. 50 Abb. 14: Version 1.1 des Prototypen, Stand 31. Juli 2006 Die mitgelieferten Samples sind selbstverständlich nur eine Möglichkeit der Nutzung dieses Patchers. Eine Beschäftigung mit dem Programm ohne den Wunsch nach einem bestimmten Ergebnis fördert mit Sicherheit witzige bis künstlerisch anmutende Geräuschcollagen zu Tage – es ist alles eine Frage der Bestückung, des Ausgangsmaterials. 5.4 Ergebnisse Der Patcher ist seiner vorliegenden Form ist für die experimentelle Ausgabeplattform im VR-Labor optimiert und liefert mit seinen 3 Kanälen plus Hintergrund für das Innenstadtszenario eine zu wenig abwechslungsreiche Kulisse. Auch sonst gibt es einige Dinge, die verbesserungswürdig sind: 1. Samples dürfen nicht unterbrochen/neugestartet werden, während sie 51 laufen. 2. Am Anfang sollten nicht alle Kanäle gleich loslegen – Verzögerungen sind sinnvoll. 3. Einstellungen für den Pitchbereich (min/max) verbessern die Qualität. 4. „Etiketten“ zur Beschriftung der Samples sind erforderlich, dann lässt sich gezielter komponieren. 5. Möglichkeit des automatisierten Ablaufs – die Samples pro Kanal werden zufällig hintereinander gespielt, um eine höhere Abwechslung zu erreichen. Die in Kapitel 4 aufgeführten Effekte wurden nicht alle integriert, einfach weil der Aufwand dafür zu hoch war. Wenn man allerdings bedenkt, dass es sich um einen Prototypen handelt, nicht um ein vollständig funktionierendes Programm, wurden die erforderlichen Anforderungen erfüllt: Skalierbarkeit ist gegeben durch den modularen Aufbau einerseits – so können leicht ganze Signalwege dupliziert werden, um die Varietät zu erhöhen – und durch die austauschbare Samplebase andererseits. Der minimalistische Ansatz konnte erfüllt werden durch die Integration von 12 Samples in der Version 1.1 des Szenengenerators. Eine hohe Abwechslung und dadurch der geforderte Realismus ergibt sich durch die richtige Bedienung des Programms – dazu müssen die Samples nur oft genug per Maus getriggert werden. Eine Beurteilung des Realismus sollte jedoch in Verbindung mit einem passenden Film oder einer animierten 3D-Szene vorgenommen werden, nachdem die Samples unterbrechungsfrei abgespielt werden. Dazu kämen ein paar simple Tests mit Freiwilligen in Frage. Die OSC-Steuerung funktioniert, das Wellenfeld lässt sich ein- und ausschalten („Go!“-Checkbox), die Schallquellen können mit Hilfe der grünen Bedienfelder bewegt werden. Eine Version 1.2 des Szenerators ist in Arbeit. 52 6 Mehrkanal-Ausgabe 6.1 Wahl des Ausgabeformats 6.1.1 Ambisonic Hier handelt es sich um das erste echte Surround-Format, es wurde Anfang der 1970er Jahre von M.A. Gerzon, P. Fellgett und J. Hayes in Großbritannien entwickelt.52 Aufnahmen können mit speziell hierfür entwickelten Soundfield-Mikrofonen gemacht werden, die jeweils aus vier einzelnen Mikrofonen zusammengesetzt sind. Eines davon hat eine Kugelcharakteristik und zeichnet ein Monosignal auf, während die restlichen drei Achtcharakteristiken aufweisen und jeweils senkrecht zueinander angeordnet sind: Sie zeichnen den gerichteten Schall auf entsprechend der drei Raumkoordinaten. Dementsprechend sieht auch das B-Format vier Kanäle zur Speicherung der akustischen Informationen vor: W,X,Y,Z (Ambisonic erster Ordnung). Ein Encoder ist nötig um das Format zu speichern, ein Decoder um es auf einem Lautsprechersetup mit mehr als zwei Speaker wiederzugeben. Die Gleichungen für die Codierung sind jedoch frei verfügbar.53 Ambisonic hat folgende Vorteile: • Abwärtskompatibel zu Stereo • Unabhängig vom Lautsprechersetup: • flexible Aufstellung der Boxen • Anzahl der Boxen kann variieren (paarweise) • Erzeugt ein dreidimensionales Schallfeld (inklusive Höhe) • Angeblich schon guter Raumklang mit vier Speaker Trotz dieser Vorteile hat sich Ambisonic bis heute nicht durchsetzen können, sowohl eine hohe Verbreitung als auch der kommerzielle Erfolg blieben bislang aus. 6.1.2 Wellenfeldsynthese Einen anderen Weg als Ambisonic, das unter Berücksichtigung psychoakustischer Effekte ein Schallfeld an einer bestimmten Position nachahmt (Phantomschallquellen), geht die Wellenfeldsynthese (kurz WFS): den Weg der exakten Berechnung eines Klang- oder Wellenfeldes. Ausgehend von dem Huygensschen Prinzip, nach dem „jeder Punkt einer Wellenfront als Ausgangspunkt einer neuen Welle, der sog. Elementarwelle, 52 http://en.wikipedia.org/wiki/Ambisonics 53 Jan Jacob Hofmann, Workshop Ambisonics , 4th LAC, 2006, April 28th, Slides unter http://lac.zkm.de/2006/abstracts.shtml#jan_jacob_hofmann 53 betrachtet werden kann“54, ermöglicht diese Methode in einer zweidimensionalen Hörzone die physikalisch korrekte Reproduktion von Schallquellen55, wodurch sowohl eine exakte Lokalisation, als auch der höchstmögliche Grad an Wiedergabegenauigkeit gegeben ist. Schallquellen können sogar inmitten der Hörzone platziert werden, wobei lediglich zwischen den Lautsprechern und der synthetisierten Quelle Artefakte auftreten: Abb 15: Synthetisierte Punktschallquelle vor dem Speakerarray Zu den weiteren Vorteilen der WFS gehören die umfassenden Möglichkeiten der Beeinflussung des Raumklangs: Einerseits können die akustischen Unzulänglichkeiten des Hörraums ausgebügelt werden, andererseits können gewünschte raumakustische Eigenschaften (wie z.B. die Akustik eines Konzertsaales) in die Berechnung mit einfließen. Zwar gibt es keine Möglichkeit, speziell für diese Wiedergabeart Aufnahmen zu machen, doch sind mittlerweile etliche Konzepte für die unterschiedlichsten Einsatzszenarien entwickelt worden.56 Eine simple Form von Downmixing stellt beispielsweise die Emulation eines 5.1Systems dar, mit dem Vorteil, dass bei einer geschickten Positionierung der fünf Kanäle (hinter den WFS-Lautsprecherarrays) der Sweet Spot aufgedehnt wird. Sweet Spots gibt es bei WFS nicht mehr, die Hörzone wird begrenzt durch die Positionierung der Lautsprecher. Damit wären wir auch schon bei dem Nachteil, den man bei dieser Technik in Kauf nehmen muss: eine beträchtliche Anzahl an Lautsprechern ist nötig, um ein räumlich exaktes Schallfeld wiederzugeben, weniger als 16 sind nicht empfehlenswert. Da für das Medienlabor im Neubau der Hochschule bereits ein Ausstattungskonzept mit WFS vorgesehen war, entschied ich mich schon zu Beginn für diese Ausgabeform – um wertvolle Erfahrungen zu sammeln und auch um eine Arbeit zu hinterlassen, auf der aufgebaut werden kann. Nach einer ausführlichen Recherche hielt ich jedoch die Diskussion einer Alternative für berechtigt und sinnvoll. Bei einer Gegenüberstellung unter Abwägen von Vor- und Nachteilen gebe ich 54 http://de.wikipedia.org/wiki/Huygenssches_Prinzip 55 C. Ihssen, Auditive VR – Erzeugung virtueller Klangräume durch die Methode der WFS, Diplomarbeit 2005, Hochschule Furtwangen, S. 35 56 http://hauptmikrofon.de/wfs.htm 54 nach wie vor WFS vor Ambisonic den Vorzug – es sind insbesondere die exakte Steuerung von Punktschallquellen, sowie ihre mögliche Platzierung mitten im Hörraum die entscheidenden Kriterien, die für den Anwendungsbereich VR ausschlaggebend sind. 6.2 WFS-Produkte Obwohl die Forschung an WFS erst Ende der 1980er Jahren begann57, sind bis heute bereits mehrere Komplettsysteme zur Marktreife gelangt. Komplett bedeutet dabei: Authoring (Abmischen und Steuern), Signalverarbeitung und Synthese, Verstärkung, variable Anzahl von Lautsprecherpaneelen für die Ausgabe. 6.2.1 Kommerzielle Produkte 6.2.1.1 IOSONO Das Fraunhofer-Institut für digitale Medientechnologie58 in Ilmenau forschte etliche Jahre an dieser neuartigen Technologie, u.a. im Kontext des internationalen CAROUSO-Projektes59, um 2004 das gesammelte Wissen in eine Produktgruppe einfließen zu lassen, die auf den Namen IOSONO getauft wurde. Die Produkte werden von der gleichnamigen GmbH vertrieben60 und können beispielsweise im Kino Ilmenau live im Einsatz erlebt und begutachtet werden. 6.2.1.2 Sonic Emotion In der Schweiz ist ebenfalls eine Firma ansässig, die WFS-Anlagen anbietet. Im Unterschied zu IOSONO sind die für die Ausgabe verwendeten „zsonic panels“ Flachlautsprecher, sogenannte Multi Actuator Panels (MAPs). Sie bestehen aus einer Membran und acht Exciter, die wie acht einzelne Lautsprecher fungieren. Durch ihr dezentes Design sind diese Panels äußerst unauffällig und können auch als Projektionsfläche genutzt werden. Selbstverständlich sind die Berechnungs- und Steuerungsapplikationen dieser beiden Systeme Closed Source und können nicht ohne Weiteres von den Nutzern verändert oder erweitert werden. 6.2.2 Open Source: swonder Abseits der kommerziellen Lösungen gibt es in der Open Source Welt bereits ein Projekt, dass sich der Thematik Wellenfeldsynthese widmet: swonder61, ein Kompositionstool für elektronische Musik, wird seit ca. zwei Jahren von Marije Baalman an der TU Berlin entwickelt. 57 Berkhout, A.J. 1988, A Holographic Approach to Acoustic Control, Journal of the Audio Engineering Society, 36(12):977-995 58 http://www.idmt.fraunhofer.de 59 http://cordis.europa.eu/ist/ka3/iaf/projects/carrouso.htm 60 http://www.iosono-sound.com/ 61 http://swonder.sourceforge.net 55 Für die komplizierten mathematischen Berechnungen ist das Programm bruteFIR62 eingebunden, ebenfalls Open Source. Die wichtigsten Features von swonder (früher: Wonder) im Überblick: • Definition eines Lautsprecherarrays mit zugehörigen Abständen und Winkeln • Einzeichnen eines Abhörraums • Berechnung eines gewünschten Grids – eine zweidimensionale Matrix, die dazu dient, Punktschallquellen zu bewegen, Die Auflösung (d.h. die Nähe der Punkte) ist einstellbar. • Festlegen einer Anzahl von Punktschallquellen oder ebenen Wellen. Als Schallquellen kommen entweder Sounddateien in Frage, die auf der Festplatte des swonder-Rechners liegen, oder die Signale werden über Eingänge der Soundkarte eingespeist. • Hinzufügen eines einfachen Raummodells mit vier Wänden, deren Reflexionsfaktor angegeben wird. • Wahlweise: Erstellen einer Komposition durch Festlegen von Bewegungsabläufen und Zeiten für die einzelnen Punktquellen • Berechnung des Wellenfeldes • Realtime-Steuerung der einzelnen Klangquellen mit der Maus. • Fernsteuerung des Abspielvorgangs und der Bewegungen über Open Sound Control (siehe 5.3.4), d.h. von einem anderen Rechner aus. Abb. 16: swonder 2.1.0, zwei Punktschallquellen auf einem Grid 62 http://www.ludd.luth.se/~torger/brutefir.html 56 Als Punktschallquellen lassen sich die Objektgeräusche des Szenerators einbinden, also die ersten drei Samples. Für den Hintergrund eignet sich die Wiedergabe als „ebene Welle“. Zur Raumakustik muss noch gesagt werden, dass das einfache Raummodell mit den vier Wänden eine äusserst unbefriedigende Lösung darstellt und den Möglichkeiten des WFS-Verfahrens keineswegs gerecht wird. Ideal wäre die Einbindung von Raumimpulsantworten in die Faltungsoperationen, damit könnte ein gewünschter, ausgemessener Raum simuliert werden. Die Autorin Marije Baalman arbeitet bereits an einer Lösung, die möglicherweise mit der nächsten Version des Programms ausgeliefert wird. Dabei geht es um das Berechnen von Raumimpulsantworten mit der Auralisationssoftware EASE63. Aktuell ist swonder 2.1.0, Version 3 mit wichtigen Bugfixes und Verbesserungen ist für Ende 2006 angekündigt. 6.3 Installation VR-Labor 6.3.1 Hardware Ohne Hardware nützt das beste Programm nichts, daher begann ich (etwas voreilig, wie sich später herausstellen sollte), mit der Installation von Lautsprechern und einem PC-System im „alten“ VR-Labor der Fakultät. Das Labor war bereits mit einem 5.1-System bestückt. Da für WFS nur Lautsprecher desselben Typs miteinander kombiniert werden dürfen, lag es nahe, weitere zwei Systeme desselben Typs anzuschaffen. Damit füllte ich die Lücken des Abhörraums so aus, dass die Abstände zwischen den einzelnen Satelliten gleich ausfielen. 63 http://www.auralisation.de/home/ease40.php 57 Abb. 17: Lautsprecher im VR-Labor mit Sicht auf Leinwand Weiterhin wurden drei Billigsoundkarten mit je 6 Kanälen angeschafft, passend zu den drei 5.1-Boxensets. Die Mittel waren jedoch äusserst knapp bemessen und durch diese Anschaffungen bereits erschöpft, sodass ich einen Großteil des Rechners mit eigenem Material zusammenbauen musste. Es reichte immerhin für einen Pentium III, 800 MHz, mit 384 MB Arbeitsspeicher und 20 GB Festplatte (s. Anhang I). Die 3 Soundkarten sowie eine Netzwerkkarte fanden auch ihren Platz auf den 5 PCI-Slots, leider stellte sich nach ausdauernden Tests mit verschiedenen Konfigurationen heraus, dass zuwenig IRQs für alle 4 Geräte zur Verfügung stehen – somit musste ich mit nur 2 Soundkarten weiterarbeiten (auf die Netzwerkkarte konnte ich wegen der OSC-Steuerung nicht verzichten). 6.3.2 Software Nach einem kurzen Abenteuer mit Ubuntu 5.05, welches sich als reines Anwenderbetriebssystem entpuppte, installierte ich debian 3.1 übers Netzwerk. Nach dem Zurechtfinden in der neuen Arbeitsumgebung „gnome“ begann das Abenteuer der swonder-Installation. Bevor es soweit war, mussten erst einige andere Kleinigkeiten installiert werden, nämlich C++-Bibliotheken, um überhaupt den Sourcecode kompilieren zu können, die Qt-Bibliotheken (nötig für die Darstellung von kde-Software), lib-OSC für die Open Sound Steuerung und schließlich bruteFIR als Mathematikengine. Vermutlich war es höchste Zeit für mich, eine etwas intimere Liaison mit der Kommandozeile einzugehen, da ich bereits Gefahr lief, den Rest meines Lebens (freiwillig) als Windows-DAU mit einer chronischen Sehnenscheidenentzündung im 58 rechten (Maus)Arm zuzubringen. Schließlich lief swonder mitsamt dem OSC-Server und ich begann mich in das Programm einzuarbeiten. 6.3.3 Zusammenspiel aller Komponenten Gleichzeitig nahm ich noch einen weiteren Rechner im MediaLab in Betrieb, eine 400-MHz-Krücke, den ich mit einer Windows XP Installation beglückte. Er sollte mir, mit installiertem Max/MSP, als Kompositionsrechner dienen, den SzeneratorPatcher ausführen und die Signale über zwei Stereoklinken an den swonderRechner weitergeben, der sie entsprechend positioniert und das Wellenfeld berechnet. Abbildung 18 zeigt die gesamte Installation im Überblick: Auf der Grundlage einer Samplebasis (s. 5.2) generiert die Max/MSP-Applikation über 4 Mono-Kanäle verschiedene Klangereignisse, die von der Soundkarte in PC 1 zu den beiden Soundkarten in PC 2 übermittelt werden. swonder liest einerseits die Audiosignale ein und empfängt darüberhinaus mit Hilfe seines OSC-Servers die Positions- bzw. Bewegungsdaten der drei Punktschallquellen. Im berechneten Schallfeld breiten sich diese natürlich kugelförmig aus (die geometrischen Symbole der Skizze dienen der Unterscheidung der drei Quellen), während der Hintergrundloop als Diffusschall den Hörraum erfüllt. Abb. 18: Workflow-Skizze 6.3.4 Weitere Möglichkeiten Selbstverständlich handelt es sich hier nur um einen Versuchsaufbau mit einfachsten Mitteln, doch in ihren Grundzügen zeigt die Skizze ein ähnliches Szenario, wie es Cornelius Ihssen bereits in seinem Konzeptvorschlag für das 59 Verbundlabor angedacht hat.64 Auch in vorliegender Skizze kann anstelle von PC 1 mit Max/MSP ein System mit beliebiger VR-Rendering-Software eingesetzt werden, beispielsweise Virtools, das an der Fakultät benutzt wird. Durch Übermittlung von Positionsdaten der Objekte, die vertont werden sollen, kann der Kalkulations-PC direkt angesprochen werden, um ein passendes Sample an der übermittelten Position abzuspielen. Ein kleines Skript oder Plugin (bei Virtools eventuell ein Building Block) wäre für den Zweck der Koordinatenübergabe und Sampleauswahl zu erstellen. 6.4 Erkenntnisse Der Aufbau einer WFS-Anlage ist nicht vollständig gelungen. Es war mir möglich, swonder mit 8 Lautsprechern zu testen, alle anderen Konfigurationen (geplant waren 12 bis 15 Kanäle) schlugen fehl. Das lag einerseits an der veralteten Hardware, weswegen statt 3 Soundkarten nur 2 eingesetzt werden konnten, andererseits sind die Billigsoundkarten nicht für einen solchen Einsatz geeignet. Es gelang mir zwar, eine Konfigurationsdatei zu erstellen, welche die beiden Audiointerfaces zu einem virtuellen Device zusammenfasste, aber aufgrund der fehlenden Synchronisation kam es beim Starten der WellenfeldBerechnung regelmässig zu einer Überlastung des Systems. BruteFIR muss die Hardware im richtigen Moment ansprechen können, damit das Wellenfeld korrekt wiedergegeben werden kann. Auch hier startete ich einen Versuch, nach einer Anleitung im Internet65 durch Lötarbeit die Karten über einen Quartz synchron zu takten. Als Ergebnis spielte die Hardware Audiodateien mit doppelter Geschwindigkeit oder gar nicht mehr ab. Mit den 8 Kanälen war es zwar um die Räumlichkeit nicht gut bestellt – eine Lokalisation der Quellen war nicht möglich – doch es gelang mir wenigstens, swonder ausgiebig zu testen und der Entwicklerin einige Bugs mitzuteilen. Sie zeigte sich überaus kooperativ und ist offen für sinnvolle Vorschläge, was die Verbesserung und Erweiterung ihrer Software angeht. Ein weiterer Punkt waren die Abstände der Boxen. Durch den voreiligen Aufbau war ich nicht ausreichend informiert und errechnete später aufgrund der Abstände von 40 cm eine Aliasing-Frequenz von ca. 400 Hz. Das bedeutet, dass bei Frequenzen oberhalb dieses Wertes die Lokalisationsschärfe rapide abnimmt. Natürlich ist das ein völlig inakzeptabler Wert und es wäre vermutlich effektiver gewesen, die 8 Lautsprecher mit minimalem Abstand in einem Linearray anzuordnen (in dem Fall könnte man die Aliasfrequenz in Abhängigkeit von der Länge des Arrays berechnen). Durch das viele Herumexperimentieren konnte ich einige Zusammenhänge in punkto Aufbau einer WFS-Anlage verstehen und lasse meine Erfahrungen auch gerne in die Neugestaltung des VR-Labors mit einfließen. 64 C. Ihssen, a.a.O., S. 56, 63 f 65 http://quicktoots.linuxaudio.org/toots/el-cheapo/ 60 6.5 Empfehlungen für das neue VR-Labor Auf Grundlage meiner Recherchen und der Erfahrungen, die ich mit dem Aufbau einer Lowbudget-WFS-Anlage im VR-Labor gemacht habe, kann ich die folgenden Komponenten zur Zusammenstellung eines WFS-Systems im neuen „kleinen“ MediaLab der Fakultät empfehlen. 6.5.1 Authoring-Software Als Wellenfeldsynthese-Applikation habe ich die Konstellation swonder/bruteFIR getestet. Obwohl swonder noch nicht ganz fehlerfrei läuft und die Installation (samt Kompilierung) dazu in der Lage ist, einen Linux-Anfänger in den Wahnsinn zu treiben, sprechen unbestechliche Argumente für seinen Einsatz: 1. Das Programm wird weiterentwickelt. Marije Baalman hat mir während meiner Arbeit mehrfach „über Nacht“ einen Bugfix geschickt, als Antwort auf E-Mail-Anfragen. Ausserdem ist die nächste Version in Arbeit. 2. Es ist meines Wissens das einzige WFS-Programm, das unter einer Public License veröffentlicht wurde und im Sourcecode vorliegt. Da das Medienlabor in erster Linie für Studierende des Bachelors Medieninformatik eingerichtet wird, bringen diese mit ihren C++ Kenntnnissen die besten Voraussetzungen mit, um eventuell nötige Anpassungen selber vornehmen zu können. 3. Swonder ist kostenlos. Linux ist kostenlos. Der WFS-Rechner (s. Abb. 18) reduziert sich somit auf seine Hardware-Anschaffungskosten. 4. Die OSC-Steuerung bietet eine bequeme Schnittstelle zur Fernbedienung von swonder, der beste Beweis dafür ist vorliegende Arbeit. Max/MSP kann auch als Zwischenglied, als OSC-Plugin eingesetzt werden, wenn von anderen Anwendungen auf die WFS-Anlage zugegriffen werden soll. Max eignet sich auch für „Programmiermuffel“. 6.5.2 Audio-PC Als Hardware für den Betrieb von swonder sollte ein x86-PC mit mindestens 2 GHz CPU und 512 MB Hauptspeicher genügen. Für den schnellen Zugriff auf Audiodaten bietet sich der Einsatz eines S-ATA-Raids an. Die Bildschirmauflösung sollte 1280x1024 Punkte nicht unterschreiten. Als Soundkarte kommt nach meinem Dafürhalten nur eine RME in Frage. Die Hammerfall-Serie ist so gebaut, dass keine Prozessorlast bei Nutzung sämtlicher Kanäle anfällt. Eine günstige Lösung wäre die RME Hammerfall LE 9636, mit 2x ADAT – damit kann man 16 Kanäle ansprechen. Für etwas mehr Geld gibt es die RME 9652 HDSP, mit der 24 Kanäle möglich sind. Die RME-Karten sind in der Praxis im Einsatz mit WFS-Systemen verbreitet, 61 Konfigurationsdateien für Multichannelbetrieb (.asoundrc) unter Linux finden sich im Netz. 6.5.3 Verstärker und Lautsprecher Da die Hammerfall digitale Signale über ADAT liefert, ist eine analoge Wandlung vonnöten, bevor sie verstärkt und über Lautsprecher ausgegeben werden. Ab hier gibt es prinzipiell zwei Wege: 1. D/A-Wandler anschaffen (2 x 8 Kanäle) und im Eigenbau Lautsprecher zu 4er- oder 8er-Arrays zusammenschrauben – bei nur 16 Kanälen bieten sich 4er-Arrays aufgrund der flexibleren Aufstellung an. 2. Auf kommerzielle Lösungen von IOSONO oder Sonic Emotion zurückgreifen. Lösung 1 macht natürlich mehr Arbeit und erfordert Aktivboxen, die alle in der gleichen Lautstärke betrieben werden müssen – eventuell hapert es hier an der nötigen Feinjustierung. Könnte sich als kostengünstigere Variante herausstellen, allerdings kann ich zur Zeit noch keine konkrete Empfehlung für bestimmte Lautsprecher geben. Lösung 2 hat den Vorteil, dass ADAT direkt an die Verstärker angeschlossen wird. Man sollte annehmen, dass bei dieser Lösung Amps und Speaker harmonieren. Sonic Emotion arbeitet mit flachen Lautsprechern (MAPs), was angesichts der Größe des Raumes positiv ins Gewicht fiele. Auf Wunsch stehe ich in dieser Angelegenheit gerne weiterhin beratend zur Seite. 62 7 Fazit 7.1 Interessante Abzweigungen Zeitweilig wirkte der Aufwand, den ich für diese Arbeit betrieb, wie das Gewicht von zwei Diplomarbeiten: Analyse, Design und Szenenpatcher einerseits und die Problematik der Low-Budget-WFS-Anlage andererseits, von den Schwierigkeiten mit Linux mal ganz zu schweigen. Während des Voranschreitens der Diplomarbeit gab es noch einige vielversprechende Richtungen und Wege, die ich jedoch aufgrund der Fülle an Arbeit und Knappheit an Zeit nicht einschlagen oder beschreiten konnte. Trotzdem möchte ich sie kurz aufzählen: 1. Audiomaterial in eine szenegraphische Struktur bringen. Um die Möglichkeit der Anbindung an die visuelle Programmierung zu erleichtern und grösstmögliche Kompatibilität zu gewährleisten, scheint es sinnvoll und möglich, Audioszenen in Form von Szenegraphen zu beschreiben. 2. Analysieren von Audiokulissen aus aktuellen interaktiven Medien, vorzugsweise Spielen (aufgrund ihrer Ähnlichkeit zu VR-Anwendungen). Insbesondere interessierte mich die Dichte der Kulissen, die Auswahl an Geräuschen, sowie die psychoemotionalen Effekte, die durch ebendiese Auswahl hervorgerufen werden. 3. Eine genauere Betrachtung von Raumakustik und das Nachahmen bestimmter Räume. Hierfür könnten diverse Effekte eingesetzt werden, die beispielsweise die frühen Reflexionen und den Nachhall dergestalt beeinflussen, dass ein Raumklang entsteht, der wiederum einen gewünschter Klangraum simuliert. 4. Testen der generierten Audiokulissen an lebendigen Menschen: Welche Einstellungsbereiche der verschiedenen Parameter verstärken oder vermindern das Präsenzgefühl bei den Versuchspersonen? Überprüfen der erarbeiteten Designvorgaben durch geeignete Testreihen. Hierfür wäre natürlich eine funktionierende WFS-Anlage von Vorteil. 7.2 Unerledigtes Zusätzlich zu der Stadtszene war eine zweite Szene „in der Kneipe“ geplant, Aufnahmen dafür wurden bereits gemacht in einer Gaststätte in Furtwangen und in einer Studentenkneipe. Eine Auswertung und Analyse dieser Szene war zeitlich jedoch nicht mehr möglich, ebensowenig wie die Extraktion von Samples bzw. deren Beschaffung für eine Audioszene. Der Patcher sollte nach einem dreistufigen Plan entwickelt werden: • Regen: einfach 63 • Kneipe: mittel • Stadtszene: schwierig, da viele Möglichkeiten, aber gut als Demonstration für die Gültigkeit der erarbeiteten Designkriterien 7.3 Zusammenfassung Eingangs stellte ich das Konzept vor und malte einige Anwendungsszenarien aus, sowohl für räumliche Mehrkanalbeschallung als auch für das Kompositionstool. Anschliessend verortete ich die Arbeit im wissenschaftlichen Kontext. Sodann begann der praktische Teil mit der Analyse der Aufnahmen und ihrer Kategorisierung nach Verursachern. Exemplarisch wählte ich das Innenstadtszenario, das im Designkapitel auf das Wesentliche reduziert und einer qualitativen sowie quantitativen Bewertung unterzogen wurde. Weiterhin fand ich verschiedene Verfremdungsmethoden, um möglichst viel Klang aus wenig Material herauszuholen. Am Schluss des Environmental Scene Design präsentierte ich eine Formel, den Bauplan für das Erzeugen auditiver Szenen und gleichzeitig die Blaupause für den zu entwickelnden Patcher. Das fünfte Kapitel beschreibt die sukzessive Fertigstellung des Szenerators, mit einer abschließenden Bewertung der Ergebnisse und einer Auflistung der wichtigsten Verbesserungswünsche. Alsdann diskutiere ich kurz die zwei aktuellen Hauptvertreter der räumlichen Mehrkanalwiedergabesysteme und wäge sie gegeneinander ab. Mit einem Überblick zu aktuellen Wellenfeldsyntheseprodukten und -applikationen leite ich über zur eigenen Lowbudget-Installation im VR-Labor der Hochschule. Dabei greife ich den Faden aus dem vorherigen Kapitel wieder auf und vereine das audiosignalverarbeitende Max/MSP-Programm mit der Ausgabeplattform in Gestalt eines Workflow-Diagramms. Die Ergebnisse werden kurz zusammengefasst und Empfehlungen für die Neueinrichtung des VR-Labors ausgesprochen. 7.4 Nachwort Mit der Einrichtung des Verbundlabors an der Hochschule Furtwangen beginnt ein neues Zeitalter für die Studierenden der Fakultät Digitale Medien. Bisher fühlte man sich der Wirtschaft verpflichtet, finanzkräftige Unterstützung und streng anwendungsorientierte Projekte im Auge behaltend. Die Automobilindustrie erobert die Welt früh genug. Die virtuelle Welt ist noch nicht von dem Gespenst des Utilitarismus und den Agenten der Profitmaximierung vereinnahmt – sie bietet noch eine Chance für kreative Phantasie, für jugendlichen Leichtsinn, für den forschen Geist – die Chance ist noch kein allgemein anerkanntes Geschäftsmodell, sie hat zahllose Gesichter und manchmal trägt sie den Namen: Kunst 64 Anhang I Hardware Ausstattung PC 1 Pentium III 800 auf Slot1-Adapter, FSB 133 MHz Aopen Board A6BXC mit BX440 Chipsatz (Slots: 2 ISA, 4 PCI, 1 AGP) 384 MB SD-RAM 2 Soundkarten vom Typ: C-Media CM8738 mit je 6 Kanälen Netzwerkadapter Realtek 8083, 10/100 Mbit/s Seagate HDD mit 10,2 GB IBM HDD mit 2,6 GB CDRom Floppy Midi-Tower, ATX 17“ Röhrenmonitor, Auflösung 1280x1024 bei 60 Hz Tastatur, 3-Tasten-Maus Ausstattung PC 2 Pentium II 400 MHz 128 MB RAM 10/100 Mbit/s Netzwerkadapter Soundkarte Soundblaster Live! CDRom Floppy 15“ TFT-Display, max. 1024x768 bei 60 Hz Tastatur, Scrollmaus Sonstiges 3 Inspire P5800 5.1 Surround Lautsprechersets von Creative Wandhalterungen (Aluwinkel), Dübel, Schrauben Kabelschächte (Verkleidung) 30 m Cinch-Kabel verlegt (zusätzlich zu den in den Speakersets enthaltenen Kabel) 2 x 5 m Klinke (3,5 mm) auf Klinke-Kabel für Signalübertragung von PC 1 zu PC 2 65 II Software Linux (PC 1) Debian 3.1 Linux, Kernel 2.6.15 gnome: Graphische Benutzeroberfläche und Fenstermanager ALSA: Soundarchitektur, Treiber, Konfiguration der Soundkarten Qt-Libraries: C++ Bibliotheken für Darstellung + GUIs libOSC++: Bibliotheken für den Open Sound Control Server bruteFIR: Convolution Engine (Programm für Faltungsoperationen, die in raumakustischen Berechnungen eine wichtige Rolle spielen, z.B. bei Reflexionen) swonder 2.1.0: Wellenfeldsynthese-Kompositions-Tool Windows XP (PC 2 + PrivatPC) Max/MSP: wie Puredata, jedoch kommerziell Audacity, Open Source Audioeditor Photoshop (Adobe), Bildbearbeitung Open Office 2.0, Textverarbeitung Firefox, Browser Babylon, Übersetzungsprogramm (einzelne Wörter) Sonic Stage, DRM-Programm von Sony für den Transfer von Hi-MD-Aufnahmen 66 III Glossar Audification (engl.) „Informationsvermittlung durch Wiedergabe von früher aufgenommenen (=gesampelten) Geräuschen (Gegenteil: Sonification).“66 Augmented Reality „Unter Erweiterte Realität (englisch augmented reality) versteht man die (meist visuelle) rechnergestützte Überlagerung, das heißt Erweiterung der Realität mit virtueller Information in Echtzeit. Dabei soll die Information möglichst am richtigen geometrischen Ort dargestellt werden. Zum Einsatz kommen Techniken der virtuellen Realität.“67 Auralisation „heißt 'Hörbarmachung', aural: au|ral (zu lat. auris = dt. 'Ohr' = aurikular) ist ein Verfahren, das unter Verwendung von • Simulation von Spiegelschallquellen • Raytracing • Errechnung des Diffusschalls eine Hörbarmachung eines Raumes unter Berücksichtigung seiner geometrischen und akustischen Eigenschaften möglich macht.“68 CAVE Cave Automatic Virtual Environment (rekursives Akronym) meint eine VRUmgebung mit mehreren Projektionsflächen und hohem Immersionsgrad. „Die Bezeichnung "Cave" erinnert bewusst an das Höhlengleichnis in Platons "Republik", das sich mit dem Verhältnis von Wahrnehmung und Erkenntnis sowie Realität und Illusion beschäftigt.“69 Delay (Echo) „Ein Delay ist ein Verzögerungseffekt ∆t, der in der Musikproduktion bei der Laufzeitstereofonie, als Predelay beim Nachhall und bei der PA (Beschallungsanlage) eingesetzt wird.“ 70 Foley „(...) bezeichnet die nach Jack Foley benannte Kunst des Nachvertonens von Geräuschen in Film und Fernsehen bei Szenen, deren O-Ton aus unterschiedlichen Gründen nicht verwendet werden kann, sei es in technischer (verzerrt, verrauscht) oder künstlerischer Hinsicht (falscher Ausdruck, zu lauter und unruhiger Hintergrund für die Intention einer Szene). Des Weiteren werden Geräusche des 66 67 68 69 70 Döbeli, Beat: Beschreibung und Manipulation von Alltagsgeräuschen, Diplomarbeit, ETH Zürich, 1996, S. 46 http://de.wikipedia.org/wiki/Augmented_Reality http://de.wikipedia.org/wiki/Auralisation http://de.wikipedia.org/wiki/Cave_Automatic_Virtual_Environment http://de.wikipedia.org/wiki/Delay_(Musik) 67 Originaltons vom Geräuschemacher verstärkt, um deren Wichtigkeit für die Filmhandlung hervorzuheben. Mit Geräuschen wird der Blick auf das Wesentliche im Film gelenkt, Stichwort selektives Hören.“71 Head Mounted Display (HMD) Brille mit integrierten LCD-Bildschirmen, die durch Wiedergabe zweier leicht verschobener Bilder dreidimensionales Sehen ermöglicht. Alternative zu stereoskopischer Projektion. Künstliche Intelligenz (KI, häufig auch AI – Artificial Intelligence) In Computerspielen sind dies Algorithmen, die ein intelligentes Verhalten der Nichtspielercharaktere simulieren oder für Variationen in Darstellung und Inhalt sorgen. Hat mit biologischer Intelligenz wenig gemein, folgt ausschließlich zufallsgesteuerten und/oder logischen Softwareroutinen. Sample Beispiel, Muster, Probe72 „ein Ausschnitt einer (Musik)aufnahme, der in einem anderen musikalischen Kontext wiederverwendet wird“73 Sonifikation „('Verklanglichung') ist die Umsetzung von Daten jeder Art in Klangereignisse“74 Beispiele: Sonar, Strahlenmessgerät (Dosimeter), Windows-Audioschema Stereoskopische Projektion „Ein Stereoskop ist eine optische Apparatur, mit der man zwei stereoskopische Halbbilder so betrachten kann, dass eine räumliche Tiefenwirkung wahrnehmbar ist. Mittels Spiegeln oder Linsen werden die zwei ortsverschiedenen Halbbilder so ins Blickfeld gebracht, dass bei binokularer Betrachtung ein virtuelles Raumbild entsteht.“75 Spatialization (engl.) Verräumlichung, bezieht sich auf das Hinzufügen von Raumeigenschaften (z.B. Hall) zu trockenen Tonsignalen Szenengraph „Ein Szenengraph bzw. Szenengraf ist eine Datenstruktur, die häufig bei der Entwicklung computergrafischer Anwendungen eingesetzt wird. Es handelt sich um eine objektorientierte Datenstruktur, mit der die logische, in vielen Fällen auch die räumliche Anordnung der darzustellenden zwei- oder dreidimensionalen Szene beschrieben wird.“76 Umweltpsychologie (englisch: ecological or environmental psychology) „befasst sich mit der Mensch-Umwelt-Wechselwirkung, wie z. B. mit den 71 72 73 74 75 76 http://de.wikipedia.org/wiki/Foley Babylon, Übersetzungsprogramm (s. Anhang II) http://de.wikipedia.org/wiki/Sampling_(Musik) http://de.wikipedia.org/wiki/Sonifikation http://de.wikipedia.org/wiki/Stereoskop http://de.wikipedia.org/wiki/Szenengraph 68 Auswirkungen der physisch-materiellen und kulturellen Außenwelt sowie den räumlich-sozialen Einflussfaktoren auf das menschliche Erleben und Verhalten und umgekehrt den Auswirkungen des menschlichen Verhaltens auf diese Umwelt.“77 Es handelt sich um einen interdisziplinären Wissenschaftszweig, dessen Schwerpunkte sich durch Zusammenführung verschiedener Forschungsrichtungen – wie Kybernetik, Kognitive und Verhaltenspsychologie, Biologie, Geologie – verdichten. 77 http://de.wikipedia.org/wiki/Umweltpsychologie 69 IV Abbildungsverzeichnis 1. G. Burdea, P. Coiffet: Virtual Reality Technology. Wiley-IEEE Press, 2nd edition, New Jersey, 2003 , S. 4 2. The Elder Scrolls IV – Oblivion, Bethesda Soft 3. http://www.acoustic-camera.com/images/historie/3DExamples.gif 4. http://webuser.fh-furtwangen.de/~fetzner/medialab/index.php? pagename=Main.ModellingVERTEXAdbusting 5. Gaver, What in the World Do We Hear?, Ecological Psychology 5(1) S. 24 6. eigene Aufnahme 7. bearbeitete Stadtplanskizze, http://www.freiburg.de/cityguide/800x600.html 8. Inlay der Geräusch-CD: Digiffects A01 City 9. Teil eines Screenshots des Audioeditors Audacity 10. Struktogramm erstellt mit Editor StruktEd, http://www.strukted.de/ 11. wie 10. 12. Screenshot aus Max/MSP, http://cycling74.com/ 13. wie 12. 14. wie 12. 15. http://recherche.ircam.fr/equipes/salles/WFS_WEBSITE/Index_wfs_site.ht m 16. Screenshot von swonder, http://swonder.sourceforge.net 17. eigene Aufnahme 18. eigene Grafik 70 V Literaturliste (1) Bregman, A. S.: Auditory Scene Analysis: The Perceptual Organization of Sound. Cambridge (USA), MIT Press, 1990 (2) G. Burdea, P. Coiffet: Virtual Reality Technology. Wiley-IEEE Press, 2nd edition, New Jersey, 2003 (3) Chueng, Priscilla: „Designing sound canvas: The role of expectation and discrimination“, Extended abstracts of CHI 2002 Conference on Human Factors in Computing Systems (2002) (4) Chueng, P., Marsden, P., Designing Auditory Spaces to Support Sense of Place: The Role of Expectation. Position paper for The Role of Place in Online Communities Workshop, CSCW2002, New Orleans, November 2002 (5) Döbeli, Beat: Beschreibung und Manipulation von Alltagsgeräuschen, Diplomarbeit Informatik, ETH Zürich, 1996 (6) Dultz, Wilhelm (Herausgeber): Das Fremdwörterlexikon, Ullstein Verlag, Frankfurt/M.-Berlin, 1965 (7) Fries, Christian: Grundlagen der Mediengestaltung, Carl Hanser Verlag München Wien, 2004, 2. Auflage (8) J. Freeman and J. Lessiter, “Here, there and everywhere: The effect of multichannel audio on presence.” in Proc. ICAD, 2001 (9) Gaver, William W.: What in the World Do We Hear? An Ecological Approach to Auditory Event Perception. Ecological Psychology, 1993, Vol. 5, No. 1, Pages 1-29 (10) Gaver, William W.: How Do We Hear in the World? Explorations in Ecological Acoustics. Ecological Psychology, 1993, Vol. 5, No. 4, Pages 285-313 (11) Ihssen, Cornelius: Auditive VR – Erzeugung virtueller Klangräume durch die Methode der WFS, Diplomarbeit, Hochschule Furtwangen, 2005 (12) Sandmann, Thomas: Effekte & Dynamics, PPV Verlag Bergkirchen, 2. Auflage 2001 (13) Schäfer-Schönthal, A.: Audiotechnik (Skript Nr. 257), internes Lehrmaterial der Fakultät Digitale Medien an der Hochschule Furtwangen, 2004 (14) Serafin, Stefania & Giovanni: „Sound Design to Enhance Presence in Photorealistic Virtual Reality“, Proceedings of ICAD 04 – Tenth Meeting of the International Conference on Auditory Display, Sydney, Australia, July 6-9, 2004 (15) Stanney, Kay M.(Editor): Handbook of Virtual Environments – Design, Implementation and Applications, Lawrence Erlbaum Publishers, New Jersey / London, 2002 71 (16) Technology Review (Zeitschrift), Nr. 6/2006, Heise Zeitschriften Verlag (17) Toprak, Ö.A.: „Max/MSP – mögliche Integration in die Lehre und alternative Lösungen für die Fakultät Digitale Medien“, Diplomarbeit, Hochschule Furtwangen, 2006 VI Datenträger Auf der CDRom befinden sich folgende Ordner: • Aufnahmen • Patcher • Material Ausführliche Informationen bitte der Liesmich.txt im Stammverzeichnis entnehmen. 72